请教如何抓取网页文本标签中的信息？

YTHTdeWo

UID: 45103
帖子: 35
积分: 80
在线时间: 1 小时

11^# YTHTdeWo 发表于 2008-04-29 21:53

HTML::TokeParser可以的

use HTML::TokeParser;
$p = HTML::TokeParser->new("index.html") ||
die "Can't open: $!";
# index.html就是你要读取的文件

while (my $token = $p->get_tag("td")) {
my $text = $p->get_trimmed_text("/td");
# $text里面的内容按顺序就是你要的"50.00元","85%"......
# 一次循环取出一个
}

鼓赵

UID: 10000
帖子: 174
积分: 400
在线时间: 1 天 17 小时

12^# 鼓赵发表于 2008-04-30 08:48

嗯谢谢大虾了~~
看了一些字符串函数，确实可以解决问题，再加上正则表达式所向披靡了。。。

不过俺还实在没有强到讷大地文本都用正则。。。
而且同一条目中的内容可能在不同的标签中，比如img的src值。。。
所以最终决定使用HTML:arser了，做了个小实验，介个模块也是通篇文本标签挨个事件遍历的，还可以通过判断标签中的属性内容和其值判断是否写入。但效率似乎还没有cobra大虾的方法高，不过确实很好用啊哈哈哈。。。
在此严重感谢您和cobra大虾！

鼓赵

UID: 10000
帖子: 174
积分: 400
在线时间: 1 天 17 小时

13^# 鼓赵发表于 2008-04-30 08:49

QUOTE:

原帖由 leo_ss_pku 于 2008-4-29 14:30 发表
推荐一下HTML::TreeBuilder
这两天刚研究出点眉目出来，非常赞的一个分析HTML的package

嗯，貌似在CPAN看到过，一会儿也研究下，谢谢！

鼓赵

UID: 10000
帖子: 174
积分: 400
在线时间: 1 天 17 小时

14^# 鼓赵发表于 2008-04-30 08:50

QUOTE:

原帖由 YTHTdeWo 于 2008-4-29 21:53 发表
HTML::TokeParser可以的

use HTML::TokeParser;
$p = HTML::TokeParser->new("index.html") ||
die "Can't open: $!";
# index.html就是你要读取的文件

while (my $token = $p->get_ta ...

嗯，那这个模块可不可以判断标签中的属性呢？谢谢！