python如何解码ISO-8859-2格式。并转换为utf-8
大家好。我现在想再多个网站中查找内容。比如在搜狐,网易上查找“李娜”相关的连接。这就需要把urllib2抓取到得网页源码统一转换为utf-8。我用下面的代码可以识别绝大多数的网页。
import sgmllib,urllib,urllib2
import re
import chardet
import StringIO
import gzip
opener = urllib2.build_opener()
request = urllib2.Request("http://www.163.com")
request.add_header('Accept-encoding', 'gzip')
page = opener.open(request)
predata = page.read()
pdata = StringIO.StringIO(predata)
gzipper = gzip.GzipFile(fileobj = pdata)
data = gzipper.read()
cd=chardet.detect(data)
print (cd['encoding'])
print(data.decode(cd['encoding'],'ignore').encode('utf-8','ignore'))
但是当我访问天涯论坛一个网页的时候却把所有的中文显示成了乱码
http://www.tianya.cn/publicforum/articleslist/0/help.shtml
看chardet的‘encoding’显示为ISO-8859-2格式的编码。可是
请问这样的情况应当如何处理?
(连天涯论坛首页都显示正常“http://www.tianya.cn/bbs/index.shtml”,就是上面那个论坛的页面显示乱码。)
import sgmllib,urllib,urllib2
import re
import chardet
import StringIO
import gzip
opener = urllib2.build_opener()
request = urllib2.Request("http://www.163.com")
request.add_header('Accept-encoding', 'gzip')
page = opener.open(request)
predata = page.read()
pdata = StringIO.StringIO(predata)
gzipper = gzip.GzipFile(fileobj = pdata)
data = gzipper.read()
cd=chardet.detect(data)
print (cd['encoding'])
print(data.decode(cd['encoding'],'ignore').encode('utf-8','ignore'))
但是当我访问天涯论坛一个网页的时候却把所有的中文显示成了乱码
http://www.tianya.cn/publicforum/articleslist/0/help.shtml
看chardet的‘encoding’显示为ISO-8859-2格式的编码。可是
请问这样的情况应当如何处理?
(连天涯论坛首页都显示正常“http://www.tianya.cn/bbs/index.shtml”,就是上面那个论坛的页面显示乱码。)
作者: ydnhwan 发布时间: 2011-06-06
用 chardet 还不如直接看 HTML 的 meta 标记:
HTML code
HTML code
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
作者: hpsmouse 发布时间: 2011-06-06