本页主题: 如何从pdf文件中提取文本??? 打印 | 加为IE收藏 | 复制链接 | 收藏主题 | 上一主题 | 下一主题

AAArcher
级别: 新手上路


精华: 0
发帖: 28
威望: 48 点
金钱: 981 静电币
支持度: 0 点
在线时间:0(小时)
注册时间:2002-10-09
最后登录:2004-12-07

 如何从pdf文件中提取文本???

这可是个老问题,但一直也没有一个完美的解决方案
许多软件号称有此功能,但不是骗人就是不好用。我也一直为这头痛。
1、adobe reader5.1chs可以在有些文件中直接提取,有的根本不行,我对比了两种文件的属性、协议版本,没发现什么不同,真实搞不明白!?
(6.01我始终无法稳定地使用,一点按钮或右键就死机,郁闷)
2、docview(pdf阅读器)好象根本没有提取文本的功能。(难道是我太笨,每找到?)
jaw's editer(ttdown 有下)吹的挺厉害,但也不能用,且浏览速度奇慢
pdf2txt以前用过,记得可以用,只是对分栏的文挡效果很差,单现在也不能用。(一份三页的文挡输出为文本后,打开一看,倒!!!只有page1 page2 page3几个字)
pdf2html也不行
pdf2word更搞笑,直接把文件转化成图片贴到word里,被骗!!!
3、插件我只装过万方ocr插件,但总说我没有安装reader,搞笑,我明明刚装的
4、有人说把文件转换成图片,再用ocr识别,最好在识别前先用photoshop处理一下。我没用过,这也太麻烦了吧
……
以上是一点经验教训,希望对大家有用
那位大哥有好方法,赶快共享一下,感激不尽!!!
Posted: 2004-03-24 16:40 | [楼 主]
唐僧
活佛
级别: 光明使者


精华: 23
发帖: 2845
威望: 625 点
金钱: 10 静电币
支持度: 0 点
在线时间:315(小时)
注册时间:2002-11-16
最后登录:2024-04-15

 

Adobe Acrobat就是制作pdf的软件。
用这个打开文档之后,能令存为别的格式,比如说doc ,rtf ,txt等
Adobe Acrobat 不是免费的,自己找个下载吧。
Adobe Acrobat Reader也能选择文本,只不过一次只能选择一小部分,不太方便罢了。
Posted: 2004-03-24 17:07 | 1 楼
帖子浏览记录 版块浏览记录
狗狗静电BBS - wwW.DoGGiEhoMe.CoM » 电脑全方位 Computer Guide

沪ICP备05008186号
Powered by PHPWind Styled by MagiColor