[分享]对各字符集编码范围的总结[更新日期2007-03-12]



QUOTE:
原帖由 perlpg 于 2007-3-9 21:10 发表
GB18030的有吗?现在操作系统都必需支持这个。

感謝提醒,參考了GB18030的編碼標準,將結果補充至原帖結尾.
谢谢分享。

"测试123\nxxxxxx"
中怎么能象(\w+)一样把
"测试123"
分出来?
就是
"test123\nxxxxxx" /\w+/
得到 "test123" 一样。


QUOTE:
原帖由 perlpg 于 2007-3-11 00:32 发表
谢谢分享。

"测试123\nxxxxxx"
中怎么能象(\w+)一样把
"测试123"
分出来?
就是
"test123\nxxxxxx" /\w+/
得到 "test123" 一样。

这个我觉得单个正则的关键字够呛能实现。
应该会用到中文匹配以及[a-zA-Z0-9]这类组合,而且还得根据实际的情况来匹配。
上面是我能想到的。
比麻辣的那个更多些了
感谢大家的关注,

EUC_JP全角片假名 编码范围有更新.
EUC_JP全角汉字有更新

说明:由于单纯从EUC的编码表中无法显示全部的日文汉字,因此EUC编码使用多个字节的编码组合来代表其他无法显示的汉字.
本次更新的编码部分是从我们的日本本社的代码中找到的产品代码.
相信日本人自己不会把自己语言的编码范围搞错的,呵呵.

2007-03-12 21:35 补充以下内容

日文半角空格
SJIS全角空格
SJIS全角数字
SJIS全角大写英文
SJIS全角小写英文
SJIS全角平假名
SJIS全角平假名扩展
SJIS全角片假名
SJIS全角片假名扩展
EUC_JP全角空格
EUC半角片假名
不知道楼主的东东怎么使用?
不错的整理,收下备查


QUOTE:
原帖由 damofeixue 于 2007-3-15 20:50 发表
不知道楼主的东东怎么使用?

这个我主要应该用在正则匹配/替换中.
比如判断一个字符串里面是否包含中文/日文或者特殊符号.