office_tools 版 (精华区)
发信人: hitwdh (frankboy), 信区: office_tools
标 题: 电子读物资料的转存(转载)
发信站: 哈工大紫丁香 (2003年09月30日17:53:36 星期二), 站内信件
【 以下文字转载自 Internet 讨论区 】
【 原文由 honestman 所发表 】
随着Internet的迅猛发展,电子读物网络化已成为现实。电子读物是目前正逐渐流行的一
种新兴网络传播方式。所谓电子读物是指以数字代码方式将图、文、声、像等信息存储在
磁、光、电介质上,通过计算机或类似设备使用并可复制发行的大众传播体。目前电子读
物的类型有电子图书、电子期刊、电子报纸和软件读物等。
电子读物及电子图书的文件格式有很多种,如*.hlp、*.chm、*.exe、*.html、*.txt、*.
doc、*.pdf、*.wdl、*.PDG、*.ebk等。但比较麻烦的是,阅读不同格式的电子书需要不同
的软件。
一、电子读物的文件格式
1.HLP文件格式
Windows操作系统所使用的帮助文件系统就采用这种文件格式。这种格式对操作系统没有太
多的要求,Win95及以后的版本都可以运行。HLP文件格式优点是制作简单,获得方便,无
需特别的要求。缺点是美观程度不够好。目前很多软件的帮助文件还是使用这种格式。
2.CHM文件格式
CHM文件格式是微软1998年推出的基于HTML文件特性的帮助文件系统,以替代早先的HLP帮
助系统,在Win98中把CHM类型文件称作“已编译的HTML帮助文件”。IE浏览器支持的Java
Script、VBScript、ActiveX、Java Applet、Flash,以及常见图形文件(GIF、JPEG、PN
G)、音频视频文件(MIDI、WAV、AVI)等,CHM同样支持。另外,通过URL(超级链接),C
HM还可以与Internet联系在一起。这种格式的电子读物要求读者的操作系统必须是Win98及
以上版本,并装有IE3.0或以上版本。
3.EXE文件格式
这是目前比较流行也是被许多人青睐的一种电子读物文件格式。这种格式最大的特点就是
阅读方便、制作简单,制作出来的电子读物相当精美,而且无需专门的阅读器支持。此格
式的电子读物对运行环境并无很高的要求。这种格式的电子读物的缺点是:多数相关制作软
件制作出来的EXE文件都不支持Flash和Java及常见的音频视频文件,需要IE浏览器支持等
。
4.HTML超文本格式
超文本是目前网上最流行的文件显示格式,许多电子小说也采用了这种格式。HTML格式的
特点就是显示效果好,表现力强,兼容性非常好,且文件比较紧凑,不会占用太多的磁盘
空间。
5.TXT文本文件格式
这是最原始的文本文件格式,它的显示效果虽然较差,但文件的容量无疑最小,在网速不
快的今天,可为广大读者节省更多的时间和金钱。
6.DOC文件格式
是用功能强大的Word字处理软件生成的文档格式,能处理图形、图表等,也能通过书签设
置跳转。目前也有一部分电子文件采用这一格式。
7.PDF格式
PDF格式是Adobe公司推出的电子图书专用格式,需要该公司的PDF文件阅读器Adobe Acrob
at Reader来阅读,该阅读器完全免费,可以到Adobe的站点下载。PDF文件中可包含图形、
声音等多媒体信息,还可建立主题间的跳转、注释。PDF文件的信息是“内含”的,我们甚
至可以把字体“嵌入”文件中,从而使得PDF文件成为在任何语言的Windows下都可以正确
显示的电子文档,许多电子图书都采用此类格式。PDF的优点在于这种格式的电子读物美观
、便于浏览、安全性很高。PDF格式的电子图书可以使用Adobe Acrobat来制作和编辑。
8.WDL格式
是北京华康信息技术有限公司开发研制的一种电子读物文件格式。这是一种非常流行的电
子图书专用文件格式,它采用图文混排方式,一个文件就是一本电子图书,阅读、携带都
很方便,更重要的是WDL格式对中文的支持非常好。目前国内很多大型电子出版物都使用这
种格式。这种格式的文件特点是较好地保留了原来的版面设计,可以在线阅读,也可以将
电子读物下载到本地阅读,但是需要该公司专门的阅读器DynaDoc Free Reader来阅读,该
阅读器可以从该公司的网站免费下载。这种格式的电子读物由于对打印和拷贝作了限制,
所以能保护作者和出版商的利益。
9.EBK文件格式
EBK文件格式是Voyager公司的一种电子读物文件格式。目前国内某些站点已经开始使用这
种格式了。如“百博电子书城”(http://www.bbook.net)。百博电子图书阅读器由深圳市
百博电子商务网络技术有限公司开发,你可以在百博指定的网上电子书店内购买、下载、
阅读多种格式(如百博EBK、TXT、HTML等格式)的电子图书,电子图书下载后会存放在你电
脑内。
电子读物及电子图书是电子出版物中最常见的表现形式。教师们如何充分利用电子读物及
电子图书上的资料为教育教学服务呢?比如在这些电子读物及电子图书中获取我们所需的
资料,以供制作电子教案(讲义)之用,进一步提高课堂的教育教学效果(注意这里谈的
只是供教学研究用)。下面谈一下笔者作为教育工作者在这方面的做法,以资借鉴。
二、非专门电子书资料的提取
*.hlp、*.chm 、*.html、 *.txt、*.doc、*.exe文件格式的电子读物及电子图书是比较常
见的。对于这几种文件格式的电子读物及电子图书上的资料,获取比较容易,对于文字只
要简单用鼠标拖动选择,然后复制、粘贴即可。
EXE(可执行文件格式)格式的部分电子图书采用了可执行文件格式,当然,这种格式的电子
书大多提供了专门的阅读界面,并有目录、搜索等功能,使用效果非常好。 由于使用的制
作工具不同,有的能部分拷贝,有的文字及图片可选择,但不能拷贝、粘贴。要用其中的
素材,只能用截图软件进行截取使用,需要文字时可借助文字识别(OCR)软件进行提取。
三、PDF文件格式电子读物资料的提取
1.用Acrobat reader 5.0(下载地址http://www.adobe.com.cn/products/acrobat/readst
ep.html)打开一个PDF文件,在工具栏点击带T字的按钮(文字选择按钮)右边的倒三角符号
,弹出三个子菜单:文本选择工具、栏选择工具、扩展该按钮。使用文本选择工具选择要复
制的内容,然后用鼠标右键菜单的“复制”命令,再在其他文字处理工具中粘贴编辑。如
选择工具栏的“图形选择”工具进行框选,则能把所需的内容作为图片文件复制、粘贴使
用。
2.用Adobe Acrobat5.0,它是一个集成的软件开发包,是一个商业产品。该产品可以制作
PDF文件。Acrobat5.0可以将PDF文件另存为RichTextFormat(RTF)格式文件(RTF文件可
以用Word、写字板打开),Acrobat5.0也能从AdobePDF文件中提取图像,另存为TIFF、JP
EG或PNG格式文件。另外,运用Acrobat5.0,也可以快速地将AdobePDF文件转换成TIFF、J
PEG或PNG格式图像。
3.随着PDF文件的广泛应用,制作PDF的第三方工具也逐渐多起来。有能将TXT文件转成PDF
的TXT2PDF、TXT2PDF PRO;有能将HTML文件转成PDF的HTML2PDF; 有能将GIF、JPG等图形文
件转成PDF的FREE PDF; 当然还有将PDF文件转成GIF、TIF图形文件的PDF2GIF、PDF2TIF等
。如软件BCL Drake plugin(下载地址http://software.chinese.com/soft/soft_conver
ter/indexb.html),是在国外网站获得五星级评价的PDF转RTF文件工具。BCL Magellan
plugin(http://software.chinese.com/soft/soft_converter/indexb.html),是Acrob
at的外挂程序,可以将PDF文件转成HTML文件,方便于网上浏览。北京红樱枫软件有限公司
则推出了PDF文本抽出软件,该软件可以将文本内容从PDF文件中分离出来,另存为TXT文件
。
4.用OCR软件识别图形文件。当遇上扫描的纯图形文字的PDF文件时就无能为力了。要想把
此类PDF文件转成文本文件,就相对麻烦一些了,具体步骤如下:
先用Acrobat打开PDF文件,选定区域,放大到一定程度(视具体情况而定),复制到剪贴
板。再用Photoshop或Photoimpact等图形软件调出剪贴板的图形,存成单色的(注意:一定
要单色)TIF、PCX或BMP文件,图形文件格式视你所用的OCR软件而定。然后用OCR软件识别
图形文件,经过简单的排版校正后,一般能有95%以上的识别率。再经过你的手工修改后
,就可以了。
四、WDL文件格式电子读物资料的提取
目前国内很多大型电子出版物都使用这种格式。这种格式的文件的特点是较好地保留了原
来的版面设计,可以在线阅读,也可以将电子读物下载到本地阅读。要提取WDL文件的资料
,方法很简单,选择菜单“工具/选择文字”,则可用鼠标选择文字,再用编辑/复制,把
文字复制到剪贴板。
五、PDG格式文件资料的提取
PDG格式文件(*.PDG)是用超星数字图书馆技术制作的数字图书,要用超星图书阅览器(
SSReader)进行阅读。可在超星数字图书馆网站(www.SSReader.com)免费下载,是国内
外用户数量最多的专用图书阅览器之一。对于PDG信息资料的保存,主要用到文字识别功能
及剪贴图像功能。
文字识别: 由于在SSReader图书阅览器中显示的都是以PDG格式存储的图片,而不是文本,
但SSReader图书阅览器嵌入了汉王OCR识别系统,用户可以将图像格式的图书资料转换成文
本文件加以利用。方法为点击“图书”菜单,在其下拉菜单中选择“文字识别”;或在阅读
区内任意处点击鼠标右键,在弹出的快捷菜单中选择“文字识别”,然后按下鼠标左键任
意拖动一个矩形,则在其中的文字全部被进行文字识别,识别过程在弹出的一个面板中进
行,识别完成后,点击“保存”即可。
剪贴图像:点击“图书”菜单下的“剪贴图像”命令,或在图书阅览区内单击鼠标右键,在
弹出的快捷菜单中选择“剪贴图像”命令,然后按下鼠标左键拖动将所要剪贴的图像全部
包围进矩形框中,图像即被放入了剪贴板中,经过粘贴后即可保存。
六、CEB、OEB文件格式电子读物资料的提取
方正Apabi Reader是用于阅读电子书(eBook)的阅读软件(http://www.apabi.com/),可
以阅读CEB、PDF、HTML、TXT和OEB等文件。方正Apabi Reader的界面友好,尽量使电子书
的阅读接近于传统纸书的阅读习惯,并带有常用的中英文电子词典软件,可以通过屏幕取
词,对方正Apabi Reader中的词进行翻译。方正Apabi Reader有部分拷贝功能。Apabi Re
ader1.5每次只能拷贝64个汉字。
七、EBK文件格式电子读物资料的提取
EBK文件格式“百博电子书城”(http://www.bbook.net)率先使用。百博电子图书阅读器由
深圳市百博电子商务网络技术有限公司独立开发。该阅读软件有强大的版权保护功能:图书
内容经过深层次加密,不仅可限制拷贝和打印数量,还可限制只在有合法授权的电脑上使
用。但对于无保护图书的资料,通过百博阅读器获取比较容易,对于文字只要简单用鼠标
拖动选择,复制、粘贴则可。也可借助第三方工具进行采集,如Advanced eBook Process
or,可以转换eBook Pro(*.EBK),从eBook Pro中抓取出HTML网页及图片。
--
※ 来源:.哈工大紫丁香 bbs.hit.edu.cn [FROM: 210.51.195.18]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.237.113]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.841毫秒