urlopen?能抓百度的查询网页却抓不了google的?

urlopen?能抓百度的查询网页却抓不了google的?

大家用过没有?
例如 http://www.baidu.com/s?wd=python 对应的是百度搜索“python”的url
http://www.google.cn/search?q=python对应的是google搜索“python”的url
用urlopen能把前者正常抓取,后者却得到403 Forbidden。。。

会是什么原因呢??
你查下是否打开google时候写了cookie,可能需要发送个cookie过去把。
哈哈 搞定了
原因是 默认的User-Agent字段是“urllib/XXX”可能google有一步判断把这种的请求给禁止了
现在把这个字段伪装成浏览器例如”Mozilla/4.0“就可以啦
不错。应该是发送了什么head过去把。呵呵
google可以抓的 其实抓google有个问题 就是他会封你Ip
虽然说baidu不封 那是假的 你如果多线程 网速快 一样会封 不过一般不会封多久

google会封的 一般都挂代理跑google的结果的


QUOTE:
原帖由 cc007cc 于 2008-7-10 14:45 发表
哈哈 搞定了
原因是 默认的User-Agent字段是“urllib/XXX”可能google有一步判断把这种的请求给禁止了
现在把这个字段伪装成浏览器例如”Mozilla/4.0“就可以啦

不厚道,非得用主流的浏览器吗,俺用自己写的不行吗