python 解码问题。

lemonniu

UID: 34560
帖子: 2
积分: 4
在线时间: 10 分钟

1^# lemonniu 发表于 2008-09-29 11:33

python 解码问题。

一个网页的编码方式是'gb2312'，我抓取该网页的内容后(content)，用content.decode('gb2312').encode('utf-8')，然后再传到数据库里。有的网页，无法解码提示：UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 202-203: illegal multibyte sequence
可能是该网页的某些地方有特殊字符？系统无法解码？请问这种情况怎么处理？？？数据库要求必须是utf-8格式的数据。。。

谢谢。

ghostwwl

UID: 5349
帖子: 12
积分: 27
在线时间: 10 分钟

2^# ghostwwl 发表于 2008-09-29 11:36

decode 和encode都还有第二个参数的建议你查手册看看去那个参数是觉得碰到不能编码的特殊字符时怎么处理

我这里就不直接告诉你了建议看看手册

pumaboyd

UID: 38663
帖子: 71
积分: 163
在线时间: 7 小时

3^# pumaboyd 发表于 2008-09-29 11:59

ghostwwl，受教。平时没看的这么细啊（strict， ignore）

lemonniu

UID: 34560
帖子: 2
积分: 4
在线时间: 10 分钟

4^# lemonniu 发表于 2008-09-29 14:35

QUOTE:

原帖由 ghostwwl 于 2008-9-29 11:36 发表
decode 和encode都还有第二个参数的建议你查手册看看去那个参数是觉得碰到不能编码的特殊字符时怎么处理

我这里就不直接告诉你了建议看看手册

恩，google了，问题解决。

找了一些手册发现没有讲解decode的，谁有能不能提供一下地址？？谢谢！

3227049

UID: 41510
帖子: 140
积分: 322
在线时间: 1 天 3 小时

5^# 3227049 发表于 2008-09-29 16:36

help('x'.decode)
help(u'x'.encode)

lemonniu

UID: 34560
帖子: 2
积分: 4
在线时间: 10 分钟

6^# lemonniu 发表于 2008-09-29 17:09

QUOTE:

原帖由 3227049 于 2008-9-29 16:36 发表
help('x'.decode)
help(u'x'.encode)

oh,so kindful of you hoho~

moatlzy

UID: 22818
帖子: 133
积分: 305
在线时间: 1 天

7^# moatlzy 发表于 2008-09-30 23:40

谢谢，长了见识