Algorithm 版 (精华区)
发信人: Lerry (想不开·撞树), 信区: Algorithm
标 题: 搜索引擎面面观(2)
发信站: 哈工大紫丁香 (2002年06月05日17:32:20 星期三), 站内信件
搜索引擎面面观
黄果
----------------------------------------------------------------------------
----
Goto(www.goto.com)
从本身技术来说,Goto.com使用了超链分析与根据用户的点击行为来分析与重排序,搜
索得到的结果相关性程度较高,而且比较符合用户的点击习惯。
Google(www.google.com)
Google由Larry Page和Sergey Brin设计, 于 1998年9月发布测试版,一年后正式开始
商业运营。Google由于对搜索引擎技术的创新而获奖无数,如美国《时代》杂志评选的
“1999年度十大网络技术"之一、《个人电脑》杂志授予的“最佳技术奖"、The Net授予
的“最佳搜索引擎奖"等。Google现为全球80多家门户和终点网站提供支持,客户遍及2
0多个国家。
在国内,大家对于这家搜索引擎技术提供商还比较陌生,但今年年初,Yahoo!宣布将不
再采用Inktomi的搜索服务,而转而将Google作为其搜索引擎技术提供商,此举使Googl
e 声名大噪。 Google所擅长的是易用性和高相关性。 Google提供一系列革命性的新技
术,包括完善的文本对应技术和先进的PageRank排序技术,后者可以保证重要的搜索结
果排列在结果列表的前面。Google还提供一项很有用的服务— —“网页快照”功能,即
当搜索内容站点或网页不存在时,用户可以调 用Google事先为用户储存的大量应急网页
,经Google处理后,搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期
,并提醒用户这只是存档资料。实际上Google将检索的网页都做了一番“快照”然后放
在自己的服务器上,这样做的好处是不仅下载速度极快,而且可以获得互联网上已经删
除的网页。
目前Google已与网易公司(163.com)达成协议,自9月15日起,网易采用Google的技术向
用户提供新一代的中文搜索引擎,Google的中文搜索引擎是收集亚洲网站最多的搜索引
擎之一,这也是Google拓展全球信息市场的重要基础。根据双方协议,网易的用户不仅
能够通过Google访问2400万个中文页面,还可以访问其全部目录中超过10亿的Web文件。
目前,Google.com的用户已经可以使用包括中文、法语、德语、意大利语和西班牙语在
内的14种语言进行搜索。Google公司正在雄心勃勃地筹备更丰富的服务内容,如日语、
朝鲜语和其他客户化定制的搜索引擎服务。
国内搜索引擎
中文语言文化呼唤中国本土的搜索引擎 ----中文的语言文化对国外搜索引擎产品是一个
天然的屏障,这使得国外的产品不能简单汉化就拿给国内的ICP使用,这一点与翻译软件
非常类似,因此国内厂商在这个领域的机会是很大的。
但国内的搜索引擎技术与国外相比依然差距较大,从技术角度说搜索引擎基本由三部分
组成,第一部分是蜘蛛软件(Spider),即自动的收集程序,它的作用是负责收集网页的
内容;第二部分是索引器(Indexer),其作用是将收集回来的内容进行分析,然后做一个
索引;第三部分是搜索器(Searcher),即响应用户的检索请示,用户输入关键字后,
搜索器要用这个检索词与建立的索引器匹配,匹配后做相关性排序,再将排序结果送给
用户。目前国内搜索引擎能够检索2000万个网页,而国外能做到上亿个,其差距主要是
在蜘蛛软件与搜索器上,因为能够研发大容量与大访问量的系统与软件的人才是相当稀
少的。国内有些中文网站的网页搜索服务外包给一些服务器在境外的ASP,这也是查询速
度缓慢的原因之一。
搜索引擎服务在国内大有市场,高盛公司的资料表明,到2001年中文互联网的网络广告
收入将达到3.5亿美元,而从美国的经验来看,在网络发展的早期,搜索可以占到50%以
上的广告收入。
百度(www.baidu.com)
百度是海外留学的学子们回国创办的,总裁李彦宏就是Infoseek第二代搜索引擎的开发
者,他发明的超链技术现在在搜索引擎技术开发中广泛地被使用。
百度搜索引擎已经被多家网站使用,包括三大门户中的新浪与搜狐,此外还有人气极旺
的ChinaRen、南方的21cn与广州视窗等。百度搜索引擎的特点是:1智能化的中文语言处
理技术大大提高了搜索的准确性与查全率;2可扩展的搜索技术保证最快最多地收集网络
信息,构建大规模索引库;3高效的搜索算法和本地服务器保证最快的响应速度,一个检
索的平均响应时间小于0.18秒;4支持动态网页的检索,而一些搜索引擎负责搜索网页的
Spider不检索动态网页,因为怕被变化无穷的动态系统黑洞吸进去后出不来了。然而,
随着应用CGI、PHP等的网站日益增多,网站使用动态网页生成工具是大趋势。
悠游(www.goyoyo.com)
悠游是国内比较早就进行搜索引擎开发的厂商,它除了具备一般搜索引擎的优点外,还
融入了计算机人工智能技术,可自动对请示做分词及断句的处理,更可以关键词的方式
进行对网页内容的理解与存储,因而在很大程度上降低了系统的开销,并进一步提高了
“人机对话"的互动能力。与Askjeeves一样,悠游也采用了智能的技术,但Askjeeves属
于规则式技术(Ruler Technology)的派系,工程师必须花很多时间在问句规则设计上
,针对数据库本身的特性在问句上要花很多时间去整理,如果你问的问题并不是它所设
下的问句规则就找不到答案。规则式的技术是从翻译学演变出来的,即同义词的结构与
语法反映的是同一事情,而悠游所采用的是概念化的网络环境(Conception Network)
,在人工智能方面更为先进,还可以随时经由自学式的过程来自我改进。
悠游搜索引擎产品的国际化工作做得不错,国外许多知名ICP的中文站点都采用了悠游的
后台技术,如:美国在线选择悠游中文搜索引擎为美国在线香港站唯一选定的搜索引擎
。悠游中文搜索引擎还是网景Netscape中文版的首选。
值得注意的是,悠游的搜索引擎能够实现智能化的问答,人机交互方面做得比较好,因
此悠游以搜索引擎为核心技术研发的产品——悠游 800,成为各大企业的在线售后服务
提供商,可以使客户以自然提问的方式对企业的数据库进行检索,最后给出答案,节省
了大量人力。现有的合作方有:商务通、海尔、丰田、摩托罗拉、联邦软件、育碧软件
、海信、创通、恩威制药、地奥制药、长虹等等。
世纪永联(www.softhouse. com.cn)
世纪永联搜索引擎ForSearch是世纪永联For Internet系列应用软件中的一个。世纪
永联ForSearch的特点是提高搜索的精确度,它采用通过建立目录式数据库增强搜索的
精确度。数据库类别划分越细,检索也就越快,相关度也就越好,通过不同词条进行分
类,可以大大提高信息与检索词的相关度。
世纪永联搜索引擎建立数据库人工分类支持,以在较短时间内找出合理结果为宗旨。其
中包括提供友好的人机界面,考虑了地域、性别、年龄等方面的差别,形成个性化服务
,并在其目录式数据库的建立过程中,加入了人工设计和人工维护,从而使得数据库中
的中文信息资料存放的方式更为符合中国人的检索习惯。此外,由于其索引系统可以支
持字、词索引,实现以自然语言处理技术为内容的分词技术,使信息查询的准确性和查
全率都得到了提高。
Webcate(www.webcate.net)
Webcate是网景时代的产品,它与普通的搜索引擎不同的是它是专业垂直型的,有些像美
国的比较购物搜索Mysimon,它可以搜索出某个产品在哪个网站上的价钱是最低的。Web
cate的站点内容提取技术可以直接深入到站点及其网页的所有内容,将网页中的有效数
据提取出来,并保持数据之间的逻辑关系。例如,对一个做在线零售的站点,Webcate可
以将其所有正在出售商品的分类、名称、价格、商品介绍及付款方式全部提取出来,即
使商品的详细介绍和商品的价格不在同一个页面,Webcate系统也能正确地对应每个商品
和它的详细介绍。
--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.426毫秒