python 解码问题。

python 解码问题。

一个网页的编码方式是'gb2312',我抓取该网页的内容后(content),用content.decode('gb2312').encode('utf-8'),然后再传到数据库里。有的网页,无法解码提示:UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 202-203: illegal multibyte sequence
可能是该网页的某些地方有特殊字符?系统无法解码?请问这种情况怎么处理???数据库要求必须是utf-8格式的数据。。。

谢谢。
decode 和encode都还有第二个参数的 建议你查手册 看看去 那个参数 是觉得碰到 不能编码的特殊字符时怎么处理

我这里就不直接告诉你了 建议看看手册
ghostwwl,受教。平时没看的这么细啊(strict, ignore)


QUOTE:
原帖由 ghostwwl 于 2008-9-29 11:36 发表
decode 和encode都还有第二个参数的 建议你查手册 看看去 那个参数 是觉得碰到 不能编码的特殊字符时怎么处理

我这里就不直接告诉你了 建议看看手册

恩,google了,问题解决。

找了一些手册发现没有讲解decode的,谁有能不能提供一下地址??谢谢!
help('x'.decode)
help(u'x'.encode)


QUOTE:
原帖由 3227049 于 2008-9-29 16:36 发表
help('x'.decode)
help(u'x'.encode)

oh,so kindful of you hoho~
谢谢,长了见识