P_cliff 版 (精华区)

发信人: cliff (狗皮膏药), 信区: P_cliff
标  题: print.google.com (转载)
发信站: 哈工大紫丁香 (Mon Nov  7 16:15:20 2005), 站内

【 以下文字转载自 Library 讨论区 】
发信人: hitwdh (心灯), 信区: Library
标  题: print.google.com (转载)
发信站: 哈工大紫丁香 (Fri Sep  2 18:34:51 2005), 站内

发信人: hitwdh (心灯), 信区: office_tools
标  题: print.google.com (转载)
发信站: 哈工大紫丁香 (Fri Sep  2 18:30:50 2005), 站内

发信人: hitwdh (心灯), 信区: P_hitwdh
标  题: Re: print.google.com
发信站: 哈工大紫丁香 (Wed Jul 13 19:49:36 2005), 站内

发信人: hitwdh (心灯), 信区: P_cliff
标  题: Re: print.google.com
发信站: 哈工大紫丁香 (Wed Jul 13 16:47:53 2005), 转信

现在我用firefox阅读部分书籍,然后一页页保存图片呢。:( 到了阅读上限,就换gmail帐号,又可以阅读一些,呵呵。

有个软件google print down,可惜仅仅下载完整的10页左右。

===============看下面介绍=========

什么是google print

Google最近增加了新的搜索引擎google print(http://print.google.com/),其中包含相当数量的图书,据说是和多家大型图书馆合作,目标是在10年内建成世界上最大的网络图书馆。但是google的目的并不是给人下载,而是供读者简单检索以向出版商和书店购买该书,因此也没有任何收费项目。其图书目前采取的是图片的方式,大部分图书均包含所有页面。以下我收集整理了相关的技术以及下载方法。

Google print URLs分析以及cookie

http://print.google.com/print?id=VvBRboW2icUC&pg=1&sig=hoLj_9Ot12vG6mSjZ vK547vbP3E

这是典型的一页地址

Id是书籍号码,pg是页面编号,pg=1代表第一页。翻到下一页会看到:
http://print.google.com/print?id=VvBRboW2icUC&lpg=1&pg=2&sig=gBBbI6T 0FzHxgVeJJQKQqmZ_MNk

除了sig值不同以外(图片编号),多出了lpg,lpg=1代表你是从pg=1开始看的,google print允许前翻2页,后翻2页。但是并不能通过随便更改lpg值获得更多的浏览页。此外,增加zoom值可以放大图片倍数

另外,如果一本书你看了太多页,你将无法看更多页,其中涉及到goole的cookie,如果不更改cookie,你将只能等待24小时,以使得其失效。相关的google cookie原理可参见http://www.kuro5hin.org/story/2005/3/7/95844/59875,据该文作者说,他通过软件修改cookie等方法可以下载google的整本书。可是没有给出相关软件。

如何看完整本书

一个相当笨却行之有效的方法是在所能达到的最后一页搜寻某单词检索,在结果中找到该页,打开可以继续向下看。亦即:

一开始打开第一页,于是可以达到第三页,在第三页搜寻某单词,检索后返回若干结果,找到第三页,打开,于是可以到达第五页,以此类推。

但是,我们知道,google print可以向前和向后看2页,如果你的搜索足够好,那么你可以这样看,打开3,8,13…………,但是这样的方法比较难以实现。

无论如何这样的方法都太费时费力,不利于批量下载。而且因为上文提到的cookie问题,你将需要若干天才能看完整本书。

保存图片

简单的方法可以到IE的Temporary Internet Files文件夹察看,选择那些来自print.google.com的图像,一般文件头为print?id=(书的ID),根据书ID很容易找到。

另一种方法可以使用火狐浏览器插件实现:

安装firefox;
用firefox打开网址
http://ftp.mozilla.org/pub/mozilla.org/extensions/greasemonkey/greasemonkey-0.3.3-fx.xpi
选择信任站点,安装
重新打开浏览器firefox,打开地址
http://diveintomark.org/projects/butler/
右击链接Download version 0.3 of April 14, 2005,选择install user script
重新打开浏览器firefox,检索http:// print.google.com/
打开电子书。右击图片,可以选择保存了。

受限制页

不少书都有受限制页,据说一般是整本书的10%-15%,往往出现在后半部,阅读受限制页需要输入gmail帐号。

移除高亮黄条

一般搜索的短语或者单词会在页面中以高亮黄条标出。实际上采用很简单的方式可以移除,将URL中的q值删除,例如:

http://print.google.com/print?id=-aAwQO_-rXwC&pg=354&img=1&q=neural+pattern&sig=eqt38N2w5x6yqWat-G5r5_pzOpY

将q=neural+pattern删除。

或者使用软件去除,比如ImageMagick,如下操作:

convert -stroke white -fill white -draw 'rectangle 555,300 575,600' -fx "y" -despeckle

此法亦可类似移除'Copyrighted Material'字样。


我不是搞计算机技术的,因此无法提供太多的信息和方法,也希望相关高手出来为大家造福。Google print上面还是有不少有用的参考书,很多还是netlibrary上没有的。先前小木虫推出的Google print down软件很多页面只能下载1/6左右,期望有更好的下载软件推出。


本文引用通告地址: http://tb.donews.net/TrackBack.aspx?PostId=451188
【 在 cliff (狗皮膏药) 的大作中提到: 】
: 有点不舒服...
: 感觉像oreilly的sarafi一样


--
            傲气面对万重浪,       热血像那红日光       
            胆似铁造,骨如精钢,  胸襟百千丈 眼光万里长 
            我奋发图强做好汉      做个好汉子 每天要自强
            热血男儿汉比太阳更光,昂步挺胸大家作栋梁   
            做好汉                用我百点热 耀出千分光 
            做个好汉子            热血热肠热 经太阳更光   


※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.237.16]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:5.387毫秒