Algorithm 版 (精华区)
发信人: Lerry (想不开·撞树), 信区: Algorithm
标 题: 中文智能搜索引擎
发信站: 哈工大紫丁香 (2002年06月05日17:10:33 星期三), 站内信件
中文智能搜索引擎(首发于计算机世界)
版权所有:ulika1999 原作 提交时间:12:28:50 06月20日
1 传统搜索引擎
1.1 搜索引擎的分类
互联网的迅速发展和广泛普及导致网上信息爆炸性增长。搜索技术的出现为网民快速找
到所需信息带来了福音。尽管目前存在数量众多的搜索引擎,但根据它们所基于的技术
原理,可以把它们分成三大主要类型:基于机器人Robot的搜索引擎、目录式Directory
(也叫做Catalog)搜索引擎和Meta元搜索引擎。
基于机器人Robot的搜索引擎
这种搜索引擎的特点是利用一个称为Robot(也叫做Spider、Web Crawler或Web Wander
er)的程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建
立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方
式是面向网页的全文检索服务。
基于Robot的搜索引擎一般要定期访问大多数以前搜集的网页,刷新Index,以反映出网
页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结
果中,这是基于Robot的搜索引擎的一个重要特征。
该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有
很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Nor
thern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:百度
、悠游、OpenFind等。
目录式Directory搜索引擎
这种搜索引擎以人工方式或半自动方式搜集信息。目录是搜索引擎的数据库是依靠专职
编辑或志愿人员建立起来的,这些编辑人员在访问了某个Web站点后撰写一段对该站点的
描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在
这个类别中。信息大多面向网站,提供目录浏览服务和直接检索服务。很多目录也接受
用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适
的类别中。
目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以
一级一级地向下访问,直至找到自己感兴趣的类别,另外,用户也可以利用目录提供的
搜索功能直接查找一个关键词,该类搜索引擎因为加入了人的智能,因此用户从目录搜
索得到的结果往往比从基于Robot的搜索引擎得到的结果更具参考价值,缺点是需要人工
介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、AOL、
Lycos、Open Directory等。
Meta元搜索引擎
元搜索引擎(Metasearch Engine),被称为搜索引擎之上的搜索引擎。用户只需递交一
次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将
所有查询结果集中起来以整体统一的格式呈现到用户面前。由于采用了一系列的优化运
行机制,能够在尽可能短的时间内提供相对全面、准确的信息,而且即使不能完全满足
用户需求,仍可以作为相对可靠的参考源进行扩展搜索,因此成为倍受推崇的检索首选
入口。
一个真正的元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检
索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪
些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“
翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责所有源搜索引擎
检索结果的去重、合并、输出处理等。这类搜索引擎的代表是:ByteSearch、Mamma、M
etaCrawler、Profusion等。
1.2 传统搜索技术的局限
信息丢失
一般来说,目录式的搜索引擎由于目录只在保存对站点的描述中进行搜索,因此站点本
身的动态变化不会反映到搜索结果中来,对网站的描述也十分简略,其描述能力不能深
入网站的内部细节,因此用户不能查询网站内部的重要信息,造成了信息丢失。
返回信息太多
基于机器人的搜索引擎由于应用了全文检索技术,能够解决对网页细节的检索问题。从
理论上说,只要网页上出现了某个关键词,就能够使用全文检索用关键词匹配把该网页
查出来,但是这又导致了它的缺陷——返回的信息太多。
信息无关
返回信息过多只是全文检索给人直观感觉到的问题,除此之外,它还有两个不很直观的
深层次的问题,也给信息检索带来了不少困难。第一、很多情况下,用户很难简单地用
关键词或关键词串来忠实地表达他所真正需要检索的内容,表达困难导致检索困难。第
二、人类的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的语言表
现形式来表达。因此,对同一概念的检索,不同的用户可能使用不同的关键词来查询。
这个两个问题造成的直接结果就是返回大量的无关信息。比如,“计算机”和“电脑”
是同一类产品但是搜索结果往往大不相同。
造成上述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅仅采用机械
的关键词匹配来实现,缺乏知识处理能力和理解能力,也就是说搜索引擎无法处理在用
户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域
不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。
因此,结合人工智能技术的智能搜索引擎把信息检索从目前基于关键词层面提高到基于
知识(或概念)层面,是解决问题的根本和关键。
2 智能搜索引擎
2.1智能搜索引擎发展状况
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理
解是计算机科学中的一个引人入胜的、富有挑战性的课题。
智能搜索引擎是结合了人工智能技术的新一代搜索引擎。由于它将信息检索从目前基于
关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实
现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。智能搜索引擎具
有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提
供更方便、更确切的搜索服务。这类搜索引擎的代表:尤里卡、问一问、21ilink、孙悟
空、悠游等;国外代表:Askjeevs、Google等。
2.2 智能搜索引擎的技术
各个智能搜索引擎技术的实现各不相同、各有特点,但从实现智能搜索基本思路上是相
通的。下面以尤里卡搜索引擎为例,简要说明一下技术实现。
知识库和信息库
知识库是实现智能搜索的基础和核心,知识库就像人脑里存放的知识。人脑是人们认知
、理解世界和改造世界的基础。人脑所做到的不仅仅是对信息的接受,而是对信息的判
断、提取、分析和概括之后形成自己的知识,然后保存到大脑中,成为下一次分析、概
括的依据和基础,这样人脑的知识就处在一种自增长的过程。人们掌握知识的多少,决
定了人们认知、理解和改造世界的程度。知识库的形成与增长,就如同人脑知识的增长
,也处于一种自增长自循环的状态,知识库的丰富程度也同样决定着检索程度的高低。
信息库就是互联网。互联网是一个巨大的、非结构化而且处于不停变化的信息空间。信
息库可以起到两方面的作用。首先,信息库是知识库存在和发展的空间,知识库所做的
其实就是对信息库的判断、提取、分析和概括,所谓知识是从信息来,就是这个道理。
其次,信息库也是用户所要检索的内容,智能搜索引擎所作的就是通过知识库是把用户
的问题提高到知识(概念)的层面,然后利用这个知识(概念)检索信息库。
语义分析、知识管理和知识检索
要做到智能搜索还必须做到知识库和信息库结合的问题。要做到两个核心库的有机结合
要做到以下三点:语义分析、知识管理合知识检索
语义分析 分析用户语言的具体含义。它应该实现以下几个功能:第一、整局分词。第二
、处理同义词。第三、根据知识库分析关键词明确概念和语义,确定用户真正用意。 第
四、一定程度的丰富知识库。
知识管理 知识管理主要实现知识库的自增长。前面提到,知识库的增长的基础是对信息
库的概括和提取,所以知识管理首先要做到对信息库的分析和概括,然后是对知识库的
扩充。
知识检索 知识检索是实现智能搜索的最后一环,通过前面语义分析结果,明确用户用意
,对信息库进行知识(概念)层次的检索,在给出准确答案的同时,给出用户相关问题
,从多方位对用户的问题进行回答。
2.3 智能搜索引擎的优点
1、搜索结果的准确性。由于采取了知识库为基础的语义分析,在进行检索过程中,采用
的不是关键词全文检索,而是基于概念的检索。比如说当你输入“北京天气怎么样?”
,传统搜索引擎返回的结果连小说都检索出来,因为小说内容包括“北京天气怎么样?
”这句话。而智能搜索引擎,由于采取语义分析的方法,分析出北京天气这个概念,直
接给出北京的天气情况预报。
2、搜索结果的范围定位准确。由于采用知识(概念)检索技术,明确和缩小了搜索范围
,减少对无用信息范围的检索。比如上面的例子,智能搜索引擎只在天气这个范围进行
检索,从而提高了检索效率,减少了无用信息。智能搜索引擎是以搜索结果准确、范围
小为特点。
3、搜索结果的综合性。由于采用了知识库,搜索引擎将面貌一新,给用户提供更全面、
更综合和更合理的知识框架,在这里,信息检索只是信息服务的一部分。比如说当你输
入“在北京怎么找工作?”,给出的答案不仅仅是给出“北京地区的招聘信息”,而且
还给出“北京地区的人才政策”、“求职技巧”等信息。
4、搜索结果的智能性。所谓"智能来自知识",有综合知识库作为背景,信息检索和导航
服务将更智能。知识库中的知识有助于解决前面提到"表达差异"问题,例如,只要定义
"计算机"、"电子计算机"、"电脑"是同义关系就可以消除用户由于使用不同的词表达同
一概念而带来的检索困难。另一方面,知识库对用户的查询进行相关性联想,提供引导
用户进行下一步查询的线索。这样一步一步地在与用户的交互过程中诱导用户"表达"出
他真正想找的东西,从而实现对查询的智能导航。这种逐步求精的策略解决了信息检索
"忠实表达"的难题。
3、智能搜索引擎的发展与应用
建立理论上完备的知识库是不现实的。这是因为人的知识、特别是常识性知识具有"数量
"上的浩瀚无际,在"质量"上又有高度的不确定性和模糊性,要建立这样一个知识网络是
极端困难的。
然而,这丝毫不会影响基于知识库的智能搜索技术的可行性和可操作性。这是因为,理
论上完备的知识库虽然难以实现,但是我们可以通过降低求解目标的方法,针对具体的
搜索引擎需求,建立相应的知识库(或称概念图),这里的知识库是对理论上完整知识
库的一种近似,一种局部实现。针对某一领域、甚至某一站点所有网页所反映的知识来
构造一个局部的小知识库是相对容易实现的。它的知识在数量和质量上虽然不能与理想
的知识库相比,对具体搜索任务却是实用的。更重要的是,知识库里的知识可以在使用
中不断改进,数量上不断增加,质量上不断提高。这是一个对知识进行训练的过程,可
以通过人来完成,也可以使用机器学习等手段来实现。
基于上面的实践思路,尤利卡公司首先在www.ulika.com为广大互联网用户实现智能搜索
服务,在尤里卡网站已经具有300多个概念,几乎涉及经济、技术、科学、体育、娱乐、
生活等与人们生活相关的各个方面。其次,为广大企业用户提供企业信息和企业产品的
智能搜索,建立智能客户服务系统,实现人机对话,为企业节省了投资,完善了企业的
客户管理。
现在已经是知识时代,人们需要的不是信息,而是知识——经过分析、概括和提炼出来
信息,智能搜索引擎正是这种需要的产物,必定会表现出旺盛的生命力和发展前景。
--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.716毫秒