最近要弄个 网页正文内容 识别,请教各位高手给点建议。

最近要弄个 网页正文内容 识别,请教各位高手给点建议。

最近有个需求,需从一些不同的网页里面,提取出 网页正文内容,
要用perl来实现,看了些文章,不过目前思路不是很清楚,请赐教。

#!/usr/bin/perl -w
use strict;
use LWP::Simple;

my $URL = 'http://.......';

unless (defined (my $PAGE = get $URL)) {
   die "could not get $URL \n";
}

my $BEGINNING_TAG = '<!-- artical -->';
my $ENDING_TAG      = '<!-- \artcial -->';

if ($PAGE =~ m{$BEGINNING_TAG(.*?)$ENDING_TAG}s) {
   my $content = $1;
}
else {
   print "No content found.\n";
}

规范的网站,正文应该有开始的tag和结束的tag,这些tag可能是各种各样的。能发现这些tag就好办了。否则比较麻烦。
顶一下,先谢了
不过,非常可惜,开始tag和结束tag根本没有规律。