Algorithm 版 (精华区)

发信人: Lerry (想不开·撞树), 信区: Algorithm
标  题: 搜索工具看真点 
发信站: 哈工大紫丁香 (2002年06月05日17:06:31 星期三), 站内信件

搜索工具看真点
版权所有:搜索之王 转贴自googole cache 提交时间:23:43:08 03月03日
 搜索工具看真点
  提起Internet,套用以前的老话说,那真是“地大物博、资源众多”,可是要在千
万个页面中找到你需要的内容并不是一件轻松的事。
  于是,搜索引擎出现了,但是它的信息系统的表达方式和组织方式并不准确,而且
,它并没有一个数据库可以按照字母顺序插入一个新站点,相反,这些信息的挖掘工作
是由数字机器人或者人工通过搜寻上千个页面完成的,然后再将这些信息按照页面的标
题进行分类。这些搜索引擎根据自身的非常复杂的算法选择出与用户所输入的关键字最
匹配的页面。
一、关于robot
搜索引擎包含三个部分:一个自动的站点搜索器(也经常叫做robot、bot、spider或者
crawler)、索引和一个将搜索结果分类呈现给用户的软件。
  一些站点会提供关于网站内容的目录列表,这个列表也经常叫做搜索引擎,但是和
自动站点搜索器robot不同,它们并不能自动搜集数据,这一项工作是由人工完成的,他
们从提交上来的站点名单中提取URL和相关页面数据。然后编辑成列表,而一些站点如 
Yahoo!(http://www.yahoo.com)、 Open Directory Project (http://www.dmoz.com
)的目录列表被按照层次组织在一起,以便指导用户找到他们需要的内容。而在很多网站
内部,也有类似搜索引擎的功能,可以根据关键字对网站内部的内容进行搜索。由于Ya
hoo! 受到的普遍欢迎,很多搜索引擎如 Lycos (http://www.lycos.com)和 GO Networ
k (http://www.go.com),都在引擎的主页提供了这种方式的目录列表。
和纯粹的网站目录列表不同,综合类的引擎使用的数据搜集程序rebots 或者 bots 可以
覆盖到更广泛的网站,并不是只限制在本网站内,而Robots或者bots,正如一般对它们
的称呼,是通过对成千上万网页的搜索来收集数据的,这些程序可以自动地执行搜索任
务,从一个web 服务器中的所有站点到另一个web 服务器的所有站点,为搜索引擎收集
各种URL和其他信息,以便用户在搜索引擎中能够按照关键字进行搜索。
  Bots一般是从预定的URL列表开始工作的,而URL一般包含几个连接,Bots就根据这
些连接进入到这些站点,在连接站点的过程中向列表中添加更多的URL。
  每一个搜索引擎的Bot使用的标准和完成的过程都不同,尽管bots 在连续不断地收
集数据,但对于突然出现在搜索结果列表中的新网页也许还要花费1到4个星期的时间。
相对于一些bots只搜集地址连接,另外一些bots 还会收集页面标题,有一些甚至收集页
面中的所有文本。
  robots 在internet上搜索信息的程度又有不同,一些更深入一些,它们根据页面的
连接找到一些没有被提交上来或者没有被引擎索引的URL,例如在AltaVista (http://
www.altavista.com)、HotBot(http://www.hotbot.com)和Northern Light (http:
//www.northernlight.com)中使用的那一种bots,对连接页面的搜索就做非常彻底,而
另一些,例如在Google(http://www.google.com) 和GO Network中的bots,在按连接
路径收集数据的过程中没有非常彻底,因此它们对一个URL的搜索就可以很快提交出结果

  所连接网站的声望对于 robots 的搜索结果也有一些影响。网页的声誉越高,被bo
ts加入索引的可能性也就越大。对于Excite(http://www.excite.com)、HotBot和Lyc
os使用的bots会根据连接网站的声望来确定bots的路由。一些用户对这种方法提出批评
,然而,在搜索引擎的索引中一般并没有那些标明“本页面包含很重要的信息”的页面

二、关于索引
不管网页信息的搜集工作是由bots完成还是由人工完成,所有的网页信息都被放置在目
录或索引之中,当人们用手工更新目录时,搜索引擎依靠bot 软件记录新的信息并刷新
旧的数据。在bot从站点搜索中“归来”的时候,便将由预先编程决定的网页内容如标题
、URL、文本和其他信息下载到引擎的索引之中,更新的信息会取代旧的内容,新的站点
关键字也会加入到索引之中以便完成将来的搜索任务。
  在信息被索引之后,这些站点便会出现在搜索结果之中,但是如果没有访问的路径
、分类,这些搜索结果就和那些随机搜索的站点列表没有什么区别,失去了搜索的意义

三、站点分类软件
一些搜索引擎使用了相当复杂的算法,以便在被搜索引擎索引的众多数据中根据关键字
进行搜索,而搜索结果按相关的顺序显示出来。一旦你输入了关键字、按下了“搜索”
按纽,软件便会在关键字索引中将你搜索的内容显示出来。
还有一些使用自然语言的搜索工具,如Ask Jeeves (http://www.askjeeves.com),在
搜索结果方面采用了和其他搜索工具一样的工作原理,然而它们允许你将你的搜索要求
用一般的英文表示出来。举例来说,你可以问“我到哪里可以买到扫描仪”,软件就会
在数据库中进行搜索,寻找符合你询问内容的网页。
  现在的很多搜索引擎在搜索方面使用了其他搜索服务的技术,如Direct Hit (http
://www.directhit.com)和 Open Directory Project,但是采用了自己的数据库提交搜
索结果。
  举例来说, LookSmart (http://www.looksmart.com),提供了Excite 和 MSN 方式
的目录列表,但是当在它自己的数据库中找不到相关的站点时使用了Alta-Vista 算法返
回搜索结果;HotBot 和 Lycos使用了Direct Hit的队列技术提炼搜索结果,而AltaVis
ta、Netscape Search (http://www.netscape.com)和 AOL Search都使用了来自Open
 Directory Project(http://www.aol.com)的目录列表。
  对于用户而言,可能更为重要的是搜索结果的排序方式,而各种引擎和目录所使用
的软件和相关的排序方式都有所不同,例如AltaVista、GO Network 和 Excite这几个引
擎所使用的软件,在对数据库进行搜索的时候,都会对每一个单独的页面的每一个单词
做彻底的检查,计算关键字在每一个页面出现的次数;HotBot 的软件则是对于那些访问
比较频繁的站点给予优先权,GO Network和其他站点则是根据对工作人员提出的站点予
以优先。
Meta tags(页面上用来包含页面信息的特殊标签)通常对页面搜索很有帮助,尽管在 
meta tags中包含的关键字对于浏览网页的人而言是不可见的,但是它所包含的页面内容
对于搜索很有帮助。举例来说,一个关于老式汽车的页面可能在 meta tag中包含“cla
ssic”、“car”、“1950”和“Chevrolet”一类的词语,而搜索引擎软件就会注意在
 meta tag中包含的关键字,在搜索结果中将该页面更加突出。
四、后记
  虽然搜索引擎仍然是在INTERNET上搜索信息的最佳工具,但是要确切找到你需要的
内容还需要花费一些工夫。就像你不可能一走进图书馆,就马上能够找到你需要的内容
的相关书籍。
  尽管如此,随着这些搜索引擎的改进,它们将仍然在网络搜索中扮演重要的角色。


--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.493毫秒