最近要弄个网页正文内容识别，请教各位高手给点建议。

sukermq

UID: 6249
帖子: 159
积分: 365
在线时间: 1 天 10 小时

1^# sukermq 发表于 2008-04-22 17:56

最近要弄个网页正文内容识别，请教各位高手给点建议。

最近有个需求，需从一些不同的网页里面，提取出网页正文内容，
要用perl来实现，看了些文章，不过目前思路不是很清楚，请赐教。

khandielas

UID: 1557
帖子: 117
积分: 269
在线时间: 19 小时

2^# khandielas 发表于 2008-04-22 22:23

#!/usr/bin/perl -w
use strict;
use LWP::Simple;

my $URL = 'http://.......';

unless (defined (my $PAGE = get $URL)) {
die "could not get $URL \n";
}

my $BEGINNING_TAG = '';
my $ENDING_TAG = '';

if ($PAGE =~ m{$BEGINNING_TAG(.*?)$ENDING_TAG}s) {
my $content = $1;
}
else {
print "No content found.\n";
}

规范的网站，正文应该有开始的tag和结束的tag，这些tag可能是各种各样的。能发现这些tag就好办了。否则比较麻烦。

sukermq

UID: 6249
帖子: 159
积分: 365
在线时间: 1 天 10 小时

3^# sukermq 发表于 2008-04-23 13:57

顶一下，先谢了
不过，非常可惜，开始tag和结束tag根本没有规律。

最近要弄个 网页正文内容 识别，请教各位高手给点建议。

最近要弄个 网页正文内容 识别，请教各位高手给点建议。

最近要弄个网页正文内容识别，请教各位高手给点建议。

最近要弄个网页正文内容识别，请教各位高手给点建议。