请教关于中文转换

jasonnbfan

UID: 44978
帖子: 197
积分: 453
在线时间: 2 天 5 小时

1^# jasonnbfan 发表于 2007-06-22 20:33

请教关于中文转换

这种属于什么编码
'\xb9\xab\xcb\xbe\xcd\xf8\xd6\xb7'

这种又属于什么编码
u'\u5927\u5730\u65b9'

如何把第一种转换成第二种方法，或者把第二种转换成第一种?
谢谢。

jigloo

UID: 21372
帖子: 1
积分: 2
在线时间: 10 分钟

2^# jigloo 发表于 2007-06-22 20:48

[Copy to clipboard] [ - ]

CODE:

>>> import chardet
>>> s='\xb9\xab\xcb\xbe\xcd\xf8\xd6\xb7'
>>> chardet.detect(s)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>> _s=unicode(s, "GB2312")
>>> _s
u'\u516c\u53f8\u7f51\u5740'

jasonnbfan

UID: 44978
帖子: 197
积分: 453
在线时间: 2 天 5 小时

3^# jasonnbfan 发表于 2007-06-22 21:14

谢谢楼上，发现个问题。
>>> _s
u'\u2016'
>>> type(_s)
<type 'unicode'>

这种编码的不能写文件，出错:
Traceback (most recent call last):
File "<interactive input>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2016' in position 0: ordinal not in range(12

该怎么处理？

我用BOA,BOA里的中文全是u''这样的，还的转成'\xb9\xab\xcb\xbe\xcd\xf8\xd6\xb7'类似这样的才能写入文件。

jasonnbfan

UID: 44978
帖子: 197
积分: 453
在线时间: 2 天 5 小时

4^# jasonnbfan 发表于 2007-06-22 21:18

问题解决
\xb9\xab\xcb\xbe\xcd\xf8\xd6\xb7' 是 gbk码（公司地址）

u'\u5927\u5730\u65b9' 是 unicode码。（大地方）

转换： gbk 到unicode
>>> x = '\xb9\xab\xcb\xbe\xcd\xf8\xd6\xb7'
>>> print x
公司网址
>>> x.decode('gbk')
u'\u516c\u53f8\u7f51\u5740'
>>> t = x.decode('gbk')
>>> print t
公司网址

unicode 到gbk
>>> t = u'\u5927\u5730\u65b9'
>>> x = t.encode('gbk')
>>> print x
大地方
>>> x
'\xb4\xf3\xb5\xd8\xb7\xbd'

jigloo

UID: 21372
帖子: 1
积分: 2
在线时间: 10 分钟

5^# jigloo 发表于 2007-06-22 21:35

unicode是字符集标准，如ucs2，ucs4是字符集。
而符合unicode标准的编码方式，如utf-8, utf-16le等，是字符集编码。
磁盘文件都是以字符集编码方式存盘的。

u'\u2016'是python在内存的用来表示'‖'这个字符的两个字节。
由于大小端,空间大小等问题，不能直接存盘，必须转换成一种编码方式才可以。

jasonnbfan

UID: 44978
帖子: 197
积分: 453
在线时间: 2 天 5 小时

6^# jasonnbfan 发表于 2007-06-22 21:41

谢谢楼上指点，了解了。