Algorithm 版 (精华区)

发信人: Lerry (想不开·撞树), 信区: Algorithm
标  题: 元搜索引擎揭密 
发信站: 哈工大紫丁香 (2002年06月05日17:07:05 星期三), 站内信件

元搜索引擎揭密
版权所有:shuxun 原作 提交时间:21:31:44 03月06日
 元搜索引擎揭密
作者:张蕊
  随着Internet的极度膨胀,我们越来越依赖于各种搜索引擎查找信息。但是,它们
的可信赖度到底有多大呢?根据专家的评测,目前主要的搜索引擎返回的相关结果的比
率不足45%,而且由于机制、范围、算法等的不同,导致同样一个检索请求在不同搜索
引擎中的查询结果的重复率不足34%。因此,要想获得一个比较全面、准确的结果,就
必须反复调用多个搜索引擎。元搜索引擎的出现,在一定程度上解决了这些问题。
  什么是元搜索引擎
  元搜索引擎(Metasearch Engine),被称为搜索引擎之上的搜索引擎。用户只需递
交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,
并将所有查询结果集中起来以整体统一的格式呈现到用户面前。由于采用了一系列的优
化运行机制,能够在尽可能短的时间内提供相对全面、准确的信息,而且即使不能完全
满足用户需求,仍可以作为相对可靠的参考源进行扩展搜索,因此成为倍受推崇的检索
首选入口。
  目前,对于元搜索引擎有很多误解,许多人认为不过是多个独立搜索引擎的堆积,
简单的集中调用而已。事实上,一个真正的元搜索引擎由三部分组成,即:检索请求提
交机制、检索接口代理机制、检索结果显示机制。"请求提交"负责实现用户"个性化"的
检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。"接口代理"
负责将用户的检索请求"翻译"成满足不同搜索引擎"本地化"要求的格式。"结果显示"负
责所有源搜索引擎检索结果的去重、合并、输出处理等。当然,目前有不少元搜索引擎
并不完全具备以上三点,像All-in-One Search Page(http://www/allonesearch.co
m)、Beaucoup!等,其机制和功能有待进一步完善。
  元搜索引擎有多种分类方式。根据用户应用模式,可分为基于Web的免费搜索引擎、
可供免费下载的客户端桌面应用型、可共享或授权使用的桌面应用型,其中第一种类型
最常见、使用最广泛。根据调用独立搜索引擎的方式,可分为串行调用处理、并行调用
处理、并串结合调用处理,不同处理方式将导致不同的检索效果。除此之外,还可以根
据有无独立的引擎数据库进行分类。
  如何评价和选择元搜索引擎
  由于搜索引擎间的个体差异性很大,很难进行精确的对比,下面是几个主要指标:

  1.是否允许用户浏览并选择要调用的独立搜索引擎。看起来这是一个很简单的问题
,其实不然。有许多元搜索引擎将这些信息隐藏在联机帮助或高级检索项中或根本没有
体现。好的元搜索引擎要能够提供一个一目了然的、可供浏览和选择的引擎列表,并允
许用户设置调用方式。   2.是否覆盖多种网络资源类型,是否可提供主题范畴的目
录服务。有许多元搜索引擎,除了搜索引擎数据库外,还可以选择搜索Usenet、Newswi
res、DejaNews、MP3文件、图像文件、声音文件等类型的其他网上资源,并提供基于主
题范畴的目录检索服务。有些元搜索引擎的主页还提供了频道服务、专用搜索引擎导航
服务等。
  3.是否支持逻辑匹配检索、短语检索、自然语言检索等高级检索特性,是否能够实
现检索请求的"本地化"转换。目前,大多数元搜索引擎支持匹配检索、逻辑检索、短语
检索等主流检索特性,有些还支持自然语言检索。但这些还不够,还必须实现不同搜索
引擎间特殊检索语法规则之间的转换。如对于不支?quot;NEAR"算符的搜索引擎,要自动
实现由"NEAR"向"AND"算符的转换等,否则将失去很多重要的高级检索功能。这一点已经
成为选择何时使用何种元搜索引擎的关键因素。
  4.是否提供了足够多的检索选项和功能设置。主要包括:是否有最长检索时间设置
,是否支持并行检索,是否提供高级检索服务,是否可设置每个搜索引擎返回的检索结
果数量,是否能够自动检查链接的有效性,是否提供URL注册等附加功能等。
  5.是否提┒嘀旨焖鹘峁涑龈袷剑焖鹘峁男畔⒚枋鍪欠袢娴取W畛<男问
绞牵鞲龆懒⑺阉饕娣祷氐慕峁屑械娜ブ卮砗螅酝骋坏氖涑龈袷胶拖喙
囟戎副杲信帕惺涑觥39嫘畔⒚枋鲋饕ㄗ试疵啤RL、源搜索引擎、源搜索引
擎提供的摘要信息等。好的元搜索引擎,还要能够显示出该记录结果与用户检索需求的
相关度,尽可能降低用户的决策负担。
  元搜索引擎的局限性
  元搜索引擎的局限性和优越性是一样显而易见的,有人比喻为"最低常用分母(low
est-common-denominator)"效果,主要体现在以下几个方面:
  1.检索性能的局限性。元搜索引擎实现检索语法转换的能力是有限的,而且高级检
索模式常常只是注册或定制检索中的一部分,更适用于单用户计算机环境。另外,由于
元搜索引擎不支持指定字段检索等特殊检索特性,不能发挥各个独立搜索引擎的高级检
索特色,影响了检索效果和质量。
  2.调用搜索引擎的局限性。大部分元搜索引擎只支持调用AltaVista、Excite、Go
To.com、Yahoo!、Infoseek、Lycos等主要的搜索引擎,有许多大型搜索引擎被排除在
外。如大部分元搜索引擎不包括NorthernLight、HotBot等,影响了信息搜索的覆盖面。

  3.检索结果在数量上的局限性。检索速度的限制从一个侧面反映出了元搜索引擎在
检索结果的数量上的局限性,也就是意味着只能从各个独立的搜索引擎中检索少量的最
符合要求的命中记录,一般限定在10~50个之间,因此必然影响了检索结果的全面性。

  应当说,元搜索引擎在查准率上不一定强于其他独立搜索引擎,但是由于能够在多
个搜索引擎中搜索,必然能够提供更多的机会。
  表现出色的几个元搜索引擎
  1.ByteSearch
  http://www.bytesearch.com
  是一个检索界面极其简洁、以检索速度著称的元搜索引擎。其搜索覆盖范围比较广
泛,包括Web、城市信息、公司名录、域名、FTP网站、多媒体、新闻组、包裹跟踪等,
并提供新闻浏览、URL提交、最新的20个检索浏览、联机商店等内容方面的服务。针对不
同的资源类型,用户可选择完全匹配(All)、部分匹配(Any)、短语检索(Phrase)
等特性检索功能。检索结果经去重处理后,以相关性排序,一次显示15条记录,显示内
容包括网页名称、URL、文摘、源搜索引擎。最大的缺点是,没有提供源独立搜索引擎列
表,用户不能控制源搜索引擎的选择。
  2.Mamma
  http://www.mamma.com
  自称为"搜索引擎之母"的并行元搜索引擎,可同时调用7个最常用的独立搜索引擎,
并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友
好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、
设定检索时间、设定每页可显示记录数等。另外,Mamma支持常用检索语法在不同搜索引
擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检
索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引
擎。
  3.MetaCrawler
  http://www.metacrawler.com
  是Go2Net的一个组成部分,是公认的功能强大的元搜索引擎。除支持调用12个独立
搜索引擎外,本身还提供了涵盖近20个主题的目录检索服务。其检索特性非常丰富,包
括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高
级检索模式可实现:搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最
长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定
检索结果排序依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索
的个性化选项并予以保存。另外,检索结果中包括一个以1000为最大值的相关度指标。

  4.Profusion
  http://www.profusion.com
  是一个优秀的智能型元搜索引擎。在其检索界面上提供了尽可能多的检索选项,包
括:检索类型(简单、All、Any、布尔、短语)、结果显示(1~10、1~20等)、摘要
选项、链接检查、搜索引擎选择(根据检索需求动态的提供最好的3个、最快的3个或全
部、自定义等),可搜索资源范围涵盖娱乐、健康、体育、MP3、Usenet等,并支持个性
化设置,自动实现符合特殊检索语法要求的转换,如在调用Excite、InfoSeek、WebCra
wler时将"NEAR"转换成"AND",在调用GoTo、Yahoo时将"NOT"删除等。另外,Profusion
提供了比较丰富的检索技巧和FAQ内容。
  5.SavvySearch
  http://www.savvysearch.com
  可调用200多个搜索引擎或指南,内容涵盖新闻、共享软件、Usenet等27个主题范畴
,一次可并行调用5个搜索引擎,也可以作为一个专用搜索引擎的导航工具使用。简单的
搜索界面允许用户选择搜索类目,支持And和短语检索类型。最具特色的是其个性化检索
设置服务,用户有机会从100多个搜索工具中选择调用并指定重要性系数(First、Midd
le、Last),建立自己的搜索模型。用户可选择显示搜索引擎的所有搜索结果,默认值
是每个搜索引擎返回20个命中记录,并以相关度排列输出。SavvySearch同时提供23种语
言版本,但其高级功能只适用于英文版。

--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:4.317毫秒