请问：网页汉字编码

danielsong

1^# danielsong 发表于 2007-08-28 14:45

用urlopen抓取网页得到html,里面中文是如下形式：
&#-25105; &#-30524;&#-37324;&#-30340;&#-26032;&#-19996;&#-26041; 对应中文是我眼里的新东方
请问如何把这类汉字转化成相应的可读字符串
为了显示我添加了-。

先谢！

jigloo

2^# jigloo 发表于 2007-08-28 15:18

[Copy to clipboard] [ - ]

CODE:

>>> s = '我 眼里的新东方'
>>> l = ''.join([unichr(int(x)) for x in re.findall(r'&#(\d+);', s)])
>>> print l
我眼里的新东方

danielsong

3^# danielsong 发表于 2007-08-28 16:03

我试了下可以的,
多谢了!