请教如何抓取网页文本标签中的信息?

HTML::TokeParser可以的

use HTML::TokeParser;
$p = HTML::TokeParser->new("index.html") ||
      die "Can't open: $!";
    #    index.html就是你要读取的文件

while (my $token = $p->get_tag("td")) {
    my $text = $p->get_trimmed_text("/td");
    #    $text里面的内容按顺序就是你要的"50.00元","85%"......
    #    一次循环取出一个
}

嗯 谢谢大虾了~~
看了一些字符串函数,确实可以解决问题,再加上正则表达式所向披靡了。。。

不过俺还实在没有强到讷大地文本都用正则。。。
而且同一条目中的内容可能在不同的标签中,比如img的src值。。。
所以最终决定使用HTML:arser了,做了个小实验,介个模块也是通篇文本标签挨个事件遍历的,还可以通过判断标签中的属性内容和其值判断是否写入。但效率似乎还没有cobra大虾的方法高,不过确实很好用啊哈哈哈。。。
在此严重感谢您和cobra大虾!


QUOTE:
原帖由 leo_ss_pku 于 2008-4-29 14:30 发表
推荐一下HTML::TreeBuilder
这两天刚研究出点眉目出来,非常赞的一个分析HTML的package

嗯,貌似在CPAN看到过,一会儿也研究下,谢谢!


QUOTE:
原帖由 YTHTdeWo 于 2008-4-29 21:53 发表
HTML::TokeParser可以的

use HTML::TokeParser;
$p = HTML::TokeParser->new("index.html") ||
      die "Can't open: $!";
    #    index.html就是你要读取的文件

while (my $token = $p->get_ta ...

嗯,那这个模块可不可以判断标签中的属性呢?谢谢!