如何用python分析网页源码

如何用python分析网页源码

大家好,我刚刚学习python,目前在一家公司实习,公司分给我的任务是:用python分析一个网站,并取出有用信息(有点像网络爬虫),最好不用正则表达式,要求所做的程序要对网站具有一定的适应性和交互性,我尝试着做了几天,但没有头绪,还请各位大侠帮忙。
为啥不能用正则表达式,如果不用正则表达式,难度大大增加,出错的可能性会增加。
不用正则?理由?
import urllib
fp = urllib.urlopen("网址")
data = fp.read()
具体看下python的帮助文档。

不懂为啥不能用正则?
不用正则有不用正则的好处,如果网页内容哪怕只变了一点点,你辛苦写的表达式就报废了
可以用HTMLParser或类似的东西做