关于pdf的模块

关于pdf的模块

关于pdf的模块
各位高人,能否告诉我有没有能直接从pdf文档的表格中提取内容的模块啊?或者有没有能将pdf文档转换成html的模块啊?谢谢啊!
我没用过 pdf 的东西,不过看见很多人都在推荐 PDF::API2
你可以试试 search.cpan.org
这里有篇不错的 pdfapi 文档http://www.printaform.com.au/clients/pdfapi2/

不过好像不是那么容易实现。 其他方法你可以尝试的有:

你可以试着把 pdf 转成 html, 然乎再用 HTML::Parser 或 HTML::TokeParser::Simple 来提出文字。 http://sourceforge.net/projects/pdftohtml
adobe 有个在线转换服务,不过只转英文的。 http://www.adobe.com/products/acrobat/access_onlinetools.html

linux 里也有一个 pdftotext, debian 下是 xpdf-utils 包里的。

要是文件少的话,就打开 PDF, copy/ paste 你想要的东西。 :----)

没做过 pdf 的东西, 如果你尝试成功了,汇报一下。




   

PDF::API2曾经试过用来产.
PDF::API2曾经试过用来产生pdf文档,主要想法是做Web base report,不过这东西实在太复杂,而且对中文的支持不大好(字体不多,好象字体不是随便可以给的),后来就没弄过了。不过要是从pdf到其他格式可能就有些困难,因为pdf文档可以是加密的,哪些内容可以导出也是由作者设定的,和doc不一样,加密后就不好解了。