如何判断一文本字串的编码类型?

如何判断一文本字串的编码类型?

如何判断一文本字串的编码类型?
编码类型?指utf-8,gb2312?
是的,比如我从baidu和google分别取了一段文本,我如何知道它们分别是gb2312还是utf-8或者是其他编码?
require 'charguess'
CharGuess::guess("\xA4\xCF")     # => "EUC-JP"

https://sourceforge.net/projects/libcharguess/

下载安装 charguess
$ ruby extconf.rb --with-charguess-include=/location/of/charguess.h
$ make
$ make install
引用:
原帖由 youwater 于 2007-7-31 10:47 发表
是的,比如我从baidu和google分别取了一段文本,我如何知道它们分别是gb2312还是utf-8或者是其他编码?
skyover,httpheader并不可靠的,因为有些网站的写法是非标准的。

我试试brianwang的方法看,谢谢。
麻烦brianwang,ruby extconf.rb 中的extconf.rb是哪里来的?

我上网找了一下,看起来是一个ruby扩展的配置文件,那么它应该如何写呢?

我仿着写了个

[Copy to clipboard] [ - ]
分别到 http://libcharguess.sourceforge.net 和 http://raa.ruby-lang.org/project/charguess 下载相应的软件包,前者是c++写的文本编码检测库,后者是ruby的绑定软件包。

分别解压到libcharguess和ruby-libcharguess;

进入libcharguess,执行:

[Copy to clipboard] [ - ]
各位,你们是不是在linux上做的呀。
我在windows下怎么都弄不出来呀。
拜托,以后发帖的时候把环境说明白,好不好。
引用:
原帖由 youwater 于 2007-8-1 11:38 发表
分别到 http://libcharguess.sourceforge.net 和 http://raa.ruby-lang.org/project/charguess 下载相应的软件包,前者是c++写的文本编码检测库,后者是ruby的绑定软件包。

分别解压到libcharguess和ruby-li ...