office_tools 版 (精华区)
发信人: hitwdh (一潭死水※痛并快乐着), 信区: office_tools
标 题: Re: 请问如何识别PDF文件中图片上的文字啊?
发信站: 哈工大紫丁香 (2004年03月01日11:05:11 星期一), 站内信件
对于中文图片的文章问题,没有提取的方法,只能使用文字识别软件进行ocr。
对于英文图片的文章问题,使用acrobat 的papercapture,转换为可以识别的,则可提取
。
对于非图片格式的pdf文件,可以使用文字选择工具,然后copy、粘贴,或者使用acrobat
另存为rtf或者doc格式,使用word打开。或者使用pdf2txt,pdf2doc这两个小软件转换。
(不能保证完全转换)
对于加密防copy的pdf文件,使用pdfpasswordrecovery去除密码,则可复制、粘贴。
【 在 sdhawkzyh (山鹰) 的大作中提到: 】
:
: 在PDF文件中,有的文章是以图片的形式存在的,不允许文本选择操作,但可以把整篇文章选
: 中,但是只能以图片的形式复制,请问如何把这种类型中的文字提取出来?
--
【hitwdh】:欢迎光顾office_tools(文档表格处理)这个小店!
【网 友】:你这疙瘩都经营些啥呀?
【hitwdh】:主要是MS Office, WPS Office等系列软件,及其与之关联的图文处理软件
的使用,PDF文档的编辑处理等美味佳肴,特别推荐Word、Excel,PDF等精
华大餐!新引进有趣、实用、美观的套餐TeX and LaTeX,欢迎有意者品尝!
最后祝愿你在本店得到你所需要的! :-)
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.237.9]
※ 修改:·hitwdh 於 03月01日11:10:06 修改本文·[FROM: 202.118.237.9]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.990毫秒