Algorithm 版 (精华区)

发信人: Lerry (想不开·撞树), 信区: Algorithm
标  题: 搜索引擎面面观
发信站: 哈工大紫丁香 (2002年06月05日17:31:28 星期三), 站内信件

搜索引擎面面观
黄果
----------------------------------------------------------------------------
----
使用搜索引擎是网民上网最重要的一件事。根据CNNIC的统计,搜索是互联网上仅次于电
子邮件的应用,因此这篇文章对各个搜索引擎进行客观介绍,希望能够给网民搜索带来
方便。需要澄清的是,网站目录并不是搜索引擎,搜索引擎指的是对整个互联网成亿个
的网页进行检索,此搜索服务系统是基于网页的全文检索系统。而网站目录通常是人工
分类的有系统的网站列表,通常附有搜索功能,从这个意义上说网站目录更像Internet
上的黄页。现在的大型网站通常是购买别的厂商的搜索引擎技术,像Yahoo!就使用了In
ktomi的技术而自己并不开发搜索引擎,杨志远在创业的时候所搜集的网址就是网站目录

搜索引擎是全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的
广告,CPM最高可达70美元。所以搜索引擎一旦投入运转,其收益与成本的比率远高于一
般的网站内容服务。这也是为什么大型网站特别是门户网站将其列为“兵家必争之地”
的原因。
第一代搜索引擎
门户成为第一代搜索引擎的终点
Altavista(www.altavista.com)
Altavista是搜索引擎的元老,诞生于DEC研发中心。它也是Yahoo!最早的搜索引擎技术
的提供者。Altavista的特点是速度快,这一点国内用户可能感觉不到,这是因为其服务
器位于国外。DEC当时的想法是希望通过搜索引擎告诉大家Alpha芯片的威力,因此服务
器使用的是Alpha芯片,它能够提供极快的响应速度,而且其搜索的数据量也是相当庞大
的,但其缺点在于服务器价格昂贵。
Altavista还可以提供许多不同格式内容,像音频、视频与多国语言的检索,有不少国内
搜索引擎找不到网页都可以通过它找到。但 Altavista在更新频率上不是很快,其中文
搜索的技术已经有两三年没有改进过,检索内容更新频率大约是一个月一次。音频、视
频与图像占用空间很大,要做好这方面的服务,需要占用相当大的存储空间,而Altavi
sta在这方面做得相当不错,可以说处于世界领先的地位。
Infoseek(www.infoseek.com)
Infoseek不是以数据库大而见长的,而是以检索的相关程度高而知名。Infoseek购买了
马萨诸塞大学的搜索软件产品,而马萨诸塞大学的信息检索是全美高校数一数二的,所
以Infoseek一开始的起点就很高。但他们很快就发现,互联网数据量太大了,当初设计
的规模太小,只好重新编写程序。于是Infoseek请了一位华人工程师William Chang设计
了第一代Infoseek搜索引擎Ultraseek,其特点也是速度快,同时检索结果的相关程度也
很高。产品一推出在搜索引擎领域与华尔街都引起了很大的震动,Infoseek刚上市时是
Yahoo!市值的60%~70%,大大领先于另外几家搜索引擎,而其后台的领先的搜索引擎
技术功不可没。1999年,Infoseek被Disney所购买,发展方向与定位都做了调整。Disn
ey将其做为入门网站Go.com的搜索引擎,在技术上的革新比较少,处于维持现状的水平
,主要是做娱乐方面的索引。
Excite(www.excite.com)
Excite是斯坦福大学的六位计算机系的本科生创办的。“免费让人搜索,用广告收入来
补贴",这是Excite率先提出来的,也是当时比较新的概念。Excite搜索技术研发人员的
计算机功底扎实,但对信息检索的认识不是很深,所以一开始提出的概念搜索(Concep
t Search),即用同义词推断来增加搜索的结果很快就宣告失败。因为互联网的信息不
是太少了而是太多了,搜索的目的是在茫茫的信息海洋中找到所需要的精确的信息。后
来Excite与@home 合并,开始主攻宽带市场,也就没有更新的技术出现。
Lycos(www.lycos.com)
Lycos是早期搜索引擎中唯一诞生于美国东部的,其余的搜索引擎都在硅谷。它脱胎于卡
耐基·梅隆大学的一位博士生的一套互联网搜索程序,此后被风险投资集团CMGI看中,
并且在波士顿成立了公司。其搜索技术一直比较落后,但在商业上比较成功,Lycos很早
就投资做社区网站,网络广告也卖得不错,在商业操作上的成功掩饰了其技术的落后。
Lycos后来购买了一家广受好评的搜索网站Hotbot,但实际Hotbot 在后台用的也是Inkt
omi的技术。所以Lycos在很长的一段时间里同时维持着两个搜索平台,但在今年年初他
们全面改用了Inktomi的搜索引擎。
第二代搜索引擎
只做后台技术提供者与大量应用人工智能是第二代搜索引擎的标志
从1995年Web商业化开始,搜索技术的地位就一直很重要。最早的几个互联网商业公司就
是靠搜索技术起家的,但搜索技术本身的革新一直就没有停止过,而且在商业模式上也
不断地推陈出新。
第一代的搜索引擎公司都变成了门户网站,而第二代的搜索引擎厂商则是像Inktomi、G
oogle那样给网站提供技术与服务的ASP或是在技术上采用了人工智能技术的厂商,像Ask
jeeves,Direct hit等。它们在商业模式上也在不断创新,像Goto.com允许网站的拥有
者实时进行检索结果的排序,客户可以花钱购买排序的位置,通过拍卖的形式将相关网
站放在前面,但同时明确标出这个搜索结果是付费的。此外,垂直化的搜索引擎也应运
而生,像专门做图形图像或MP3文件的搜索引擎。而最新的技术是动态的网页搜索和实时
内容的检索,网络上越来越多的网页是根据程序生成的,而不是静态地存在。这些页面
都是根据时间变化而变化的,比如查询股票的价格等。而实时的内容多是新闻与金融信
息,这也是广大网民迫切需要的。
第二代搜索引擎厂商的特点是只做后台技术的提供者,这是美国互联网发展的教训。因
为网络最初发展时最迫切需要的是搜索,于是同时出现了许多搜索引擎,但是后来各厂
商认识到作为独立公司单独开发搜索引擎不能维持长期发展,于是又都发展成门户,提
供了许多别的内容,但它们很快发现搜索不像新闻一样没有什么技术含量。而作为一个
公司,则要同时肩负两个任务,一是创建门户类的平台,这是打市场、创品牌的过程,
二是开发搜索引擎,而这则是扎扎实实的技术工作,这两方面没有什么共同点。既做搜
索引擎又做门户使得网站精力分散,不能全力投入搜索引擎技术的改进,而且两者合一
意味着自己的产品不能卖给别人,因为当时搜索引擎的用户大多是做门户的,全是自己
的竞争对手。搜索引擎的开发的成本又相当高,而制作的东西又只能少数几家使用,这
就不符合软件通用化的潮流与模式。第一代网站中,只有Yahoo!不自己开发搜索引擎,
所以它成功了。
Inktomi(www.inktomi.com)
Inktomi是加州大学伯克利分校Eric Brewer的教授最先开始研究的,这位教授是并行处
理研究的专家。Eric Brewer希望用这个搜索引擎产品来证明他的并行算法是十分出色的
,后来他将自己的技术卖给了Hotbot,作为后台技术的提供商。
Eric Brewer完成Inktomi的时候,这个市场竞争已经相当激烈,再想做门户已经不可能
了。所以他决定只做背后技术的提供商,而这却正中 Yahoo!的下怀,Yahoo!以前使用
的是Altavista的技术,但Altavista本身也是门户,与 Yahoo!处于竞争关系,而Inkto
mi与Yahoo!没有利益冲突关系,便很快成了其后台技术的提供商。
Askjeeves(www.ask.com)
从技术上讲,Askjeeves是一个比较简单的系统,但从创意来说是相当出色的,它维护了
问题与答案相联系的数据库。从结构上说它比较简单,因为提问后并不是立即返回问题
的答案,而是用逼近式的方法让你选择他知道的所有问题,再由用户分类来选择答案。
这一点从技术上讲非常容易解决,但从实践来说需要大量的人力来干预,即问题与结果
的数据库规则基本是靠人工来建立的。但由于它建立了一套可以让人以自然语言提问的
系统,很多网民喜欢这样的形式。但由于其规则库太小,真正使用的人不是很多。

--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.276毫秒