如何用python分析网页源码

danniandegudan

1^# danniandegudan 发表于 2008-01-22 10:21

大家好，我刚刚学习python，目前在一家公司实习，公司分给我的任务是：用python分析一个网站，并取出有用信息（有点像网络爬虫），最好不用正则表达式，要求所做的程序要对网站具有一定的适应性和交互性，我尝试着做了几天，但没有头绪，还请各位大侠帮忙。

gucuiwen

2^# gucuiwen 发表于 2008-01-22 12:34

为啥不能用正则表达式，如果不用正则表达式，难度大大增加，出错的可能性会增加。

sh_royan

3^# sh_royan 发表于 2008-01-22 13:06

不用正则?理由?

xiaoyu9805119

4^# xiaoyu9805119 发表于 2008-01-22 15:46

import urllib
fp = urllib.urlopen("网址")
data = fp.read()
具体看下python的帮助文档。

不懂为啥不能用正则？

Nosferatu

5^# Nosferatu 发表于 2008-01-22 16:58

不用正则有不用正则的好处，如果网页内容哪怕只变了一点点，你辛苦写的表达式就报废了
可以用HTMLParser或类似的东西做