office_tools 版 (精华区)

发信人: hitwdh (一潭死水※痛并快乐着), 信区: office_tools
标  题: Re: 请问如何识别PDF文件中图片上的文字啊?
发信站: 哈工大紫丁香 (2004年03月01日11:05:11 星期一), 站内信件



对于中文图片的文章问题,没有提取的方法,只能使用文字识别软件进行ocr。
对于英文图片的文章问题,使用acrobat 的papercapture,转换为可以识别的,则可提取

对于非图片格式的pdf文件,可以使用文字选择工具,然后copy、粘贴,或者使用acrobat
另存为rtf或者doc格式,使用word打开。或者使用pdf2txt,pdf2doc这两个小软件转换。
(不能保证完全转换)

对于加密防copy的pdf文件,使用pdfpasswordrecovery去除密码,则可复制、粘贴。

【 在 sdhawkzyh (山鹰) 的大作中提到: 】

: 在PDF文件中,有的文章是以图片的形式存在的,不允许文本选择操作,但可以把整篇文章选
: 中,但是只能以图片的形式复制,请问如何把这种类型中的文字提取出来?


--
【hitwdh】:欢迎光顾office_tools(文档表格处理)这个小店!                        
【网  友】:你这疙瘩都经营些啥呀?                                              
【hitwdh】:主要是MS Office, WPS Office等系列软件,及其与之关联的图文处理软件  
            的使用,PDF文档的编辑处理等美味佳肴,特别推荐Word、Excel,PDF等精   
            华大餐!新引进有趣、实用、美观的套餐TeX and LaTeX,欢迎有意者品尝! 
            最后祝愿你在本店得到你所需要的! :-)   

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.237.9]
※ 修改:·hitwdh 於 03月01日11:10:06 修改本文·[FROM: 202.118.237.9]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.990毫秒