iconv编码转换后遇到的问题

pipipopliu

UID: 24975
帖子: 1
积分: 2
在线时间: 10 分钟

1^# pipipopliu 发表于 2007-11-29 01:53

iconv编码转换后遇到的问题

上一贴得人提示后，使用iconv转换了编码，能匹配了
我是获取网页的html代码
html_data = Net::HTTP.get(URI.parse(url))
由于是中文网页，抓取信息时就要用中文匹配，由于编码不同，所以
trans_data = Iconv.iconv("UTF-8//IGNORE", "GB2312//IGNORE", html_data) #编码转化

但是在用iconv编码转换之前，html_data是多行的字符串，用
html_data.each {|line|.......}
可以执行多次的操作
编码转换之后，trans_data就成了单行的字符串，
trans_data.each{|line|........}
就只能执行一次操作了
不知道怎么解决？

ilovepumpkin

UID: 33597
帖子: 3
积分: 6
在线时间: 10 分钟

2^# ilovepumpkin 发表于 2007-12-03 20:15

不明白你为什么要用iconv转码，不转会有什么后果？你可以看看我的 MopDown。我抓取的就是中文网页，不转也没什么问题啊。

还有，你为什么要遍历行呢？是要做查找吗？做查找可以用正则表达式的。

admin

UID: 6902
帖子: 131
积分: 301
在线时间: 23 小时

3^# admin 发表于 2007-12-04 23:10

好像有挺多的会员在google立项，不如做个地方让大家把自己的项目的介绍以及地址发表出来宣传一下，让大家都互相了解，应该不错。

ilovepumpkin

UID: 33597
帖子: 3
积分: 6
在线时间: 10 分钟

4^# ilovepumpkin 发表于 2007-12-05 16:30

http://www.itechtag.com/

axgle

UID: 19498
帖子: 1
积分: 2
在线时间: 10 分钟

5^# axgle 发表于 2007-12-10 13:58

引用:

原帖由 pipipopliu 于 2007-11-29 01:53 发表
上一贴得人提示后，使用iconv转换了编码，能匹配了
我是获取网页的html代码
html_data = Net::HTTP.get(URI.parse(url))
由于是中文网页，抓取信息时就要用中文匹配，由于编码不同，所以
trans_data = Icon ...

pipipopliu

UID: 24975
帖子: 1
积分: 2
在线时间: 10 分钟

6^# pipipopliu 发表于 2007-12-11 00:10

已经解决了，谢谢各位的意见