help:使用HTML::TreeBuilder以as_html输出的问题

help:使用HTML::TreeBuilder以as_html输出的问题

help:使用HTML::TreeBuilder以as_html输出的问题
输入的中文html文件中含有 © (即 © )
用HTML::TreeBuilder从输入文件中得到树,再用as_html输出为新的html文件,但以中文查看时 © 变成 ? ,这是什么原因?怎样解决?(在网上搜了很久也找不到答案,因此来这里寻求帮助,谢谢)




   

应该是编码问题吧。你浏览.
应该是编码问题吧。你浏览器换换编码看看那是啥编码再转换一下。
谢谢答复,可是©是和.
谢谢答复,可是©是和中文在一起的,用中文浏览©成了 ? ,而用西欧浏览能看到©,但中文就成为乱码,是不是只能我自己将所有文本字符一一识别转换,而不能直接用as_html输出?有没有简单的方法?
那应该算个 bug 吧。用最新的模块试试。
用了最新的HTML::TreeBuil.
用了最新的HTML::TreeBuilder 和HTML::Parser(含HTML::Entities)模块,还是不行。问题在于HTML::TreeBuilder 生成树时使用的HTML::Entities模块会将中文变为两个字符,而©等还是一个字符,结果输出就错了。也许应该在调用HTML::TreeBuilder 之前对©之类的符号进行预处理?或者干脆直接修改HTML::Entities.pm中的%entity2char,把什么copy => chr(169)之类的统统改掉?我总觉得应该有些简单的办法吧?
请将你的代码和输入的中文.
请将你的代码和输入的中文贴出来,这样可以让大家更好的帮你!