Paper 版 (精华区)

发信人: lingling (⊙ 00 ☆ 大眼贼 ⊙), 信区: Paper
标  题: 【范文】学术交流版——google和百度的使用、比较之我见
发信站: 哈工大紫丁香 (Mon Mar 21 23:42:56 2005), 站内

【 以下文字转载自 NewBoard 讨论区 】
发信人: mainpro (无糖咖啡), 信区: NewBoard
标  题: 【范文】学术交流版——google和百度的使用、比较之我见
发信站: BBS 哈工大紫丁香站 (Thu Mar  3 15:05:32 2005)

随着网络的快速发展,它所能提供的有效专业资源已经越来越多。但是,从目前的情况来
看,还有相当多的人不知道如何高效率的使用网络获取自己最需要的资源。究其根源,在
于他们不知道如何使用搜索引擎。这种情况在宽带日益普及的今天尤为明显。下面,我结
合自己使用网络的一些体会,谈一些粗浅的认识。
网络所体现的对信息处理的最高效能,一在于对信息的资源共享,二在于对信息的分类处
理和检索。所以,作为网络搜素者所需要掌握的两项基本技能是:一、知道所要寻找的专
业资源在哪里;二、如何在资源集中的地方进行检索与获取。
推荐使用的搜索引擎
如何找寻自己专业的网络资源,依靠的工具有两个,一是公用的、非专业的(或者说不是
针对专业性检索)的检索平台,二是专用的资料或数据的检索平台,或者是收费或免费的
专业数据库和网站。这里面的分类本身并没有一个严格的界限,因为第二个分类也离不开
相应的检索。对于大多数普通用户来说,显然公用的、非专业的检索平台显得更为重要一
些。在这里,我们主要介绍一下google和百度这两个搜索引擎的用法。
对于搜索引擎,推荐使用的是两个,一个是百度(www.baidu.com),一个是google(www
.google.com)。在实际搜索中,这两个引擎是有着比较明确的分工的:百度主要针对的是
国内搜索,google主要针对的是国外搜索。
我个人认为使用搜索引擎,实际上必须具备两项技能:搜索语法的掌握和关键词的选择。
其中,关键词的选择与个人对所要寻找信息的理解程度有着直接关系(显然是另外一种“
功夫在诗外”),这种理解是无法传授的。所以这里我们主要以介绍搜索语法为主。
下面我分别以google和百度的使用为例,把google和百度的常用语法做一简单介绍。相信
学会google之后再看百度,上手应该更快一些。实际上,baidu与google之间是有着某种联
系的。
一,        google的语法——
对于google的使用,语法方面可以分为基础语法和高级语法。
(一)基础语法:
1、在GOOGLE中,不是使用“+”来表示逻辑“与”操作,而是在关键词之间输入空格就可
以了。 例如:搜索所有包含关键词“沂源”和“杜丽”的中文网页(注意:在这里的“”
在本文中仅起引用作用,不能带入搜索栏内),可以直接在google的搜索栏中输入“沂源
 杜丽”。 结果:已搜索有关约有 118 项符合沂源 杜丽的查询结果,以下是第 1 - 10 
项。 (搜索用时 0.30 秒)
2、GOOGLE用减号“-”表示逻辑“非”操作。 例如:搜索所有包含“杜丽”而不含“沂源
”的中文网页。搜索:“杜丽 -沂源” ,结果约有 47,500 项符合杜丽 -沂源的查询结果
,以下是第 1 - 10 项。 (搜索用时 0.22 秒)  
   注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外
,操作符与作用的关键字之间,不能有空格。如果将搜索词写成了“杜丽 - 沂源”,搜索
引擎将视为逻辑“与”操作,中间的“-”被忽略。 
3、GOOGLE用大写的“OR”表示逻辑“或”操作。例如:搜索包含许海峰“Xuhaifeng”或
者杜丽“Duli”、或者两者均有的中文网页。搜索:“Xuhaifeng OR Duli” 。结果:简
体中文 和 繁体中文网页中,约有 1,610 项符合Xuhaifeng OR Duli的查询结果,以下是
第 1 - 10 项。 (搜索用时 0.41 秒)。如果搜索:“许海峰 OR 杜丽”, 结果:简体
中文 和 繁体中文网页中,约有 61,400 项符合许海峰 OR 杜丽的查询结果,以下是第 1
 - 10 项。 (搜索用时 0.21 秒) 
关于此条语法,需要注意的有两点:第一,如果“OR”写成了小写的“or”,在查询的时
候将被忽略;这样上述的操作实际上变成了一次“与”查询。 第二,如果关键字是中文时
,查询似乎还有BUG(目前来看,google对中文的支持已经大大加强,bug出现的时候已经
大大减少),有时无法得到正确的查询结果。 所以,这条语法更为适合搜索外文的相关资
料。
另外,值得指出的是,上面任何一种基础语法都不是单一的,为了提高检索的效率,以上
基础语法,可以结合起来使用。例如,“+”和“-”的作用有的时候是相同的,都是为了
缩小搜索结果的范围,提高查询结果命中率。 
例如:查阅四大金刚具体是哪四大金刚。分析:如果光用“四大金刚”做关键字,搜索结
果“简体中文 和 繁体中文网页中,约有 21,400 项符合四大金刚 的查询结果,以下是第
 1 - 10 项。 (搜索用时 0.09 秒)”,很难找到所需要的资讯。可以用两个方法减少无
关结果。 
(1),如果你知道四大金刚中的某一个,比如魔礼寿,增加“魔礼寿”关键字,输入:“
四大金刚 魔礼寿”。搜索结果就只有228项,可以直接找到全部四大金刚。 
(2),如果你不知道四大金刚的任何一个,但知道这与佛教相关,可以排除与西游记相关
的记录,输入“佛教 四大金刚 -西游记”。查询结果为567 项,可以迅速找到需要的资料

(二)高级语法:site,link,inurl,allinurl,intitle,allintitle 
1、“site”表示搜索结果局限于某个具体网站或者网站频道,如淄博信息港“http://zb
info.net/”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者
域名范围内的页面,只需用“-网站/域名”。 例如:搜索中文教育科研网站(edu.cn)上
所有包含“金庸”的页面。 搜索:“金庸 site:edu.cn”结果:已搜索有关金庸 site:e
du.cn的中文(简体)网页。共约有2,680项查询结果,这是第1-10项 。搜索用时0.31秒。 

例如:搜索包含“金庸”和“古龙”的淄博信息港页面, 搜索:“金庸 古龙 site:zbin
fo.net” 结果:zbinfo.net 的简体中文 和 繁体中文网页中,共有 5 项符合金庸 古龙
的查询结果,以下是第 1 - 5 项。 (搜索用时 0.27 秒)。
注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一
个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”
的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式
。诸如“金庸 site:zbinfo.net /1/”的语法是错误的。 
2、“link”语法返回所有链接到某个URL地址的网页。 例如:搜索所有含指向淄博信息港
“http://zbinfo.net”链接的网页。 搜索:“link: http:// zbinfo.net”结果:约有
 1,190 项链接到 http://zbinfo.net 的查询结果,以下是第 1 - 10 项。 (搜索用时 
0.39 秒)。
注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOO
GLE忽略。 
3、inurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网
页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中
,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后
,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,
前者通常能提供非常精确的专题资料。 例如:查找mp3“十年”。 搜索:“inurl:mp3 十
年” 结果:简体中文 和 繁体中文网页中,约有 2,920 项符合inurl:mp3 十年的查询结
果,以下是第 1 - 10 项。 (搜索用时 0.65 秒)
注意:“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜索。GOOGLE对“
cgi-bin/phf”中的“/”当成空格处理。 
4、allinurl语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页
的链接字符串。 这条语法几乎成为寻找网站安全漏洞的必备知识。例如:查找可能具有P
HF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不
安全的),表现在链接中就是“域名/cgi-bin/phf”。 语法:“allinurl:"cgi-bin" ph
f +com” 搜索:简体中文 和 繁体中文网页中,共有 2 项符合allinurl:"cgi-bin" phf
 +com的查询结果,以下是第 1 - 2 项。 (搜索用时 0.32 秒)(这两个网站可是危险了
哟!)如果搜索所有的网站,具有这一漏洞的是:约有 80 项符合allinurl:"cgi-bin" p
hf +com的查询结果,以下是第 1 - 10 项。 (搜索用时 0.38 秒)。此例中出现的“+”
之语法留待文末加以说明。
5、与allinurl和inurl关系类似的还有allintitle和intitle,它们的用法也比较类似,只
是前者对URL进行查询,而后者对网页的标题栏进行查询。网页标题,就是HTML标记语言t
itle中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网
页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。例如:查找日本
明星铃木保奈美的照片集。 搜索:“intitle:铃木保奈美 写真” 结果:约有 4,800 项
符合intitle:铃木保奈美 写真的查询结果,以下是第 1 - 10 项。 (搜索用时 0.20 秒
)。
(三)GOOGLE的罕用高级搜索语法:related,cache,info 
1、related用来搜索结构内容方面相似的网页。例:搜索所有与淄博信息港主页相似的页
面(如网易首页,搜狐首页,中华网首页等),“related:http://zbinfo.net/”。 结果
:约有 31 项与 http://zbinfo.net/ 类似的查询结果,以下是第 1 - 10项。 (搜索用
时 0.48 秒)
2、cache用来搜索GOOGLE服务器上某页面的缓存,这个功能同“网页快照”,通常用于查
找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。
 
3、info用来显示与某链接相关的一系列搜索,提供cache、link、related和完全包含该链
接的网页的功能。例如:查找和淄博信息港首页相关的一些资讯。 搜索:“info:http:/
/zbinfo.net/” 结果:有关http://zbinfo.net/的网页信息如下。 
淄博信息港-2004,感受网络新生活!
通行证:. 用户名:. 密码: 163169信箱. •网站地图, •网络导航, &#822
6;网站链接,
首页, |, 新闻, |, 证券, |, 时尚, |, 教育, |, 娱乐, |, 游戏, |, 宽带, |, 音乐, 
|, 
健康, |, 通信, |, 网上淄博, |, 灵通在线. ... 
Google 提供这个网址的信息:
查看Google网页快照里zbinfo.net/的存档 
寻找和zbinfo.net/类似的网页 
寻找网页有链接到zbinfo.net/ 
寻找网页包含有"zbinfo.net/"
(四)对google搜索的其他几点说明:通配符、大小写、句子、忽略字符以及强制搜索 

1、GOOGLE不支持通配符,如“*”、“?”等,只能做精确查询,关键字后面的“*”或者
“?”会被忽略掉。 
2、GOOGLE对英文字符大小写不敏感,“China”和“china”搜索的结果是一样的。搜索结
果都是:约有 58,300,000 项符合。
3、GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,
用句子做关键字,必须加英文引号。 例如:搜索包含“long, long ago”字串的页面。 
搜索:“"long, long ago"” 结果:约有 67,000 项符合"long, long ago"的查询结果,
以下是第 1 - 10 项。 (搜索用时 0.37 秒)
注意:在这条语法上, 原来GOOGLE对中文字串的处理并不十分完善。如果搜索“"啊,我
的太阳"”,返回的结果中,“啊”、“我的”、“太阳”等词语是完全分开的。但现在,
已经有了明显的进步,结果:约有 897,000 项符合"啊,我的太阳"的查询结果,以下是第
 1 - 10 项。 (搜索用时 0.37 秒)  
4、GOOGLE对一些网路上出现频率极高的词(主要是英文单词),如“i”、“com”,以及
一些符号如“*”、“.”等,作忽略处理,如果用户必须要求关键字中包含这些常用词,
就要用强制语法“+”。 例如:搜索包含“Who am I ?”的网页。如果用“"who am i ?"
”,“Who”、“I”、“?”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜
索。 搜索:“"+who +am +i"” 结果:约有 1,260,000 项符合"+who +am +i"的查询结果
,以下是第 1 - 10 项。 (搜索用时 0.32 秒)  
注意:英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。
二、百度的语法——
   百度号称是全球最大中文搜索引擎。在语法上,与google有相似之处,又有不同之处。
但显然,百度的语法没有google的语法那么复杂。下面择其要而说明。
   1、在关键词逻辑“与”操作和“非”操作上,百度和google是相同的,空格代表两个
关键词的逻辑“与”,“-”代表逻辑“非”,此处不作过多赘述。
   2、在关键词的逻辑“或”方面,百度使用的是“|”来取代google使用的“OR”语法。
也就是使用"A | B"来搜索"或者包含关键词A,或者包含关键词B"的网页。例如:您要查询
"杜丽"或"许海峰"相关资料,无须分两次查询,只要输入 “杜丽 | 许海峰”搜索即可。
 结果:找到相关网页约69,000篇,用时0.218秒。但是,需要注意的是千万不要把空格漏
掉如果输入“杜丽|许海峰”,得到的结果却是:找到相关网页约3,870篇,用时0.057秒。
显然,不加上空格,就成了搜索两个关键词必须同时出现的网页。关于这种区别,读者可
以自己体会一下。
   3、google也可以使用"site:"语法,功能与google是完全一样的,尽管结果可能有所不
同。值得注意的是百度与google在"site:"语法上有所不同:site后的冒号":"可以是半角
":"也可以是全角":",百度搜索引擎会自动辨认。除此之外,则没有差别。
除了"site:"语法外, "intitle:"、 "inurl: "搜索语法,百度也相同于google,这里就
不再重复介绍了。
   以上大体介绍了google和百度的搜索语法,除此之外的搜索引擎还有很多,例如yahoo
, Alta vista, 和Excite等等,有兴趣的同志可以自己摸索。有位搜索界的前辈曾经说过
“倘能善用搜索,足以改变世界”。希望大家活学活用,掌握更多信息,了解行业发展趋
势,从而更有利于自己的工作。转载于作者buyiyijie,小木虫。

--
           /\*/\
  (\*/).︵.     ミ^ǒ^ミ
 ∠·_灬_ )~ 愛上 ~(__)~ 
虽为无盐却无才 ;是为东施不效颦。 
换一个新的。这回就不会在十字路口徘徊了。
走过的日子叫过去,晨起的朝阳在今日,期待的美好在明日。


※ 来源:·哈工大紫丁香 http://bbs.hit.edu.cn·[FROM: 202.118.240.16]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.783毫秒