Algorithm 版 (精华区)

发信人: Lerry (想不开·撞树), 信区: Algorithm
标  题: 互联网信息搜索技术—对称搜索
发信站: 哈工大紫丁香 (2002年06月05日17:34:26 星期三), 站内信件

互联网信息搜索技术—对称搜索
刘莎
02-1-14 下午 04:44:46
----------------------------------------------------------------------------
----
信息搜索是互联网信息共享领域不可阻挡的用户需求。搜索技术的突破性进展对于互联
网本身和互联网用户来说同样举足轻重。
搜索技术发展现状
第一代搜索引擎采用的基本方法是由网页制作人自行建立网站名称、网站内容的文字摘
要,并将其加入到搜索引擎的资料库中。搜索引擎根据用户键入的信息进行匹配、排序
和显示。这种方法的最大缺点是无法针对网页内容进行全文搜索;另外,它必须由网页
制作者自行键入供搜索的资料。
第二代搜索引擎采取的基本方法是由搜索引擎使用一个程序在网络上撷取资料,并自动
将得到的结果存入资料库中。搜索引擎根据用户键入的信息进行匹配、排序和显示。它
的优点是:不需要网站制作人单独键入供搜索的信息,并且从理论上讲,可将任意网站
的所有网页加入到它的资料库中。而它最大的缺点是搜索到的结果太多,实际上使用者
仍然难以找到真正想要的资料,并且数据库容量呈不断膨胀的趋势。
如何从庞大的资料库中精确地找到正确的资料,已被公认为是下一代搜索技术的竞争要
点。
当前新兴的技术有:
● 智能搜索
其基本方法是通过对搜索内容相关性的自动学习,提高搜索结果的可用度。但问题是面
对海量且庞杂的信息发布内容,如果没有一个在发布端和检索端共享的信息匹配模块,
仅靠智能搜索很难根本改善信息搜索的精确度,使用户真正需要的信息一定显示在前两
三页搜索结果之中。
● 垂直搜索 是针对图像信息、音乐信息等领域的搜索技术。
P2P搜索是未来的搜索技术之一,它的基本方法是用户共享所有用户硬盘上的文件、目录
乃至整个硬盘。搜索无需通过Web服务器,也可以不受信息文档格式和宿主设备的限制,
可达到传统目录式搜索引擎(只能搜索到20%~30%的网络资源)无可比拟的深度(理
论上将包括网络上所有开放的信息资源)。P2P搜索的首要问题是解决信息匹配精度问题
,以及有可能带来的个人信息和公共信息的失衡。计算机中存储的信息通常是个人信息
,而服务器中的网站信息才是公共信息的主流。
未来另一种搜索技术是“信息服务网络”,其主要特点是它不仅包括计算机和网页信息
的搜索,而且包括各种信息资源,例如数据库、软件以及各种信息获取设备的信息处理
功能一体化。整个网络如同一台巨大无比的计算机,向每个用户提供一体化的服务。它
的主要问题与开展电子商务有某种相似性,即整合所有信息服务环节和相关技术需要建
立统一的标准,而这类标准的建立和推广绝非三五年之功,并且很难想像只有一种标准
出现。另外,从商业角度看,服务的性能价格比也是令人担忧的问题。
对称搜索技术
1.对称搜索原理
从本质上讲,“发布信息”和“检索信息”是一种对称的信息沟通需求。因此,我们可
以建立“发布信息”和“检索信息”的对称数据库和对称搜索技术。而现有搜索技术的
盲点在于,浪费了信息检索方在信息检索时付出的大量劳动和庞大的信息资源。
2.对称搜索的实现
(1) 建立“对称信息摘要通用模版”,其中包括发布/获取选择、数据类型、内容摘要、
发布者域名、邮件地址、发布起止时间;
(2) 建立“对称信息摘要”数据库;
(3) 信息发布和信息获取用户都在“对称信息摘要通用模版”上输入信息;
(4) 搜索引擎根据用户要求,对“对称信息摘要数据库”进行多次匹配;
(5) 根据对称信息的匹配程度进行排序;
(6) 根据对称信息双方提供的地址进行匹配结果双向自动推送;
(7) 由用户选择是否链接至相关站点的详细内容。
信息分类、信息摘要、用户端基本信息是对称信息匹配的基本内容,只有合理整合这三
类信息要素,才能设计出一个所有用户都方便并乐意使用的“对称信息人机交互模版”
和高质量的“对称信息数据库”。
3.对称搜索技术的优越性
对称搜索技术使对称信息匹配的准确度空前提高;同时,一次性搜索可多次享用不同时间
的搜索结果,使用户搜索操作简便;另外,摘要数据库与全文数据库相比,不会无限膨胀
;还有一点很重要,由发布信息方自行提供摘要信息和保留时间,加上摘要数据库空间占
用收费,这实际上是控制垃圾信息的最有效手段,从而使垃圾信息大幅度减少。如果既
可以大幅度提高信息发布的针对性,又有操作十分方便的“对称信息摘要通用模版”,
已经做了网页和更新了网页内容的用户,又岂在乎填一下摘要?
4.对称搜索技术的商业应用
(1) 对称搜索技术实例——“对称广告”
互联网现有的广告形式存在一些缺点,如大幅广播广告的成本高,多数中小企业难以承
受;分类广告其信息发布无强制性,多数厂商和用户不感兴趣;搜索引擎的隐性广告要
根据广告方支付费用的高低决定检索结果排名顺序,对用户不利;邮件广告仅依靠用户
基本注册信息和已有业务的信息发布广告,用户的针对性不强,多数被用户视为垃圾广
告。
对称广告的比较优势有以下两方面:一方面,对广告发布企业而言,前所未有地提高了广
告发布的针对性;其广告价格任何小型企业都可以承受;同时,企业一次性发布信息,
可多次自动推送至相关客户;企业可以得到潜在用户的准确信息。另一方面,对广告对
象用户而言,它真正做到用户需求至上,根据用户自己提出的具体需求推送广告信息,
根据广告信息和用户需求信息的客观匹配程度进行广告排序;用户一次“检索”信息,
可多次获得相关信息的自动推送服务;消除了垃圾邮件,减轻了用户负担。
(2) 对称搜索的商业运作模式
● 对称搜索连锁经营
各类门户网站可以通过“对称信息数据库”共享和提供本地客户结算服务,共享“对称
信息”资源,联手实现服务覆盖面的最大化。
● 对称广告浏览积分换免费邮箱
邮箱是互联网用户最无法放弃的钢性需求。用对称广告浏览积分换免费邮箱,既是一种
用户可接受的强制广告方式,也是一种用户可接受的邮箱变相收费方式。
由于网上对称广告具有难以取代的性能价格比,因此可以预计,对称广告作为一种廉价
通用的点到点广告方式,将成为大多数中小企业首选的广告投放方式,从而为互联网广
告业带来光辉灿烂的明天!
5.对称搜索技术的扩展
如果能够提供“对称信息”的高质量多语种转换技术,便可实现无语言障碍的“对称信
息”全球通用检索服务。而“文本语义人机交互统一编码技术”、“全域数码知识信息
定位技术”在解决多语种翻译质量问题上也已取得决定性突破。因此,预计在一年内,
单语种“对称信息检索”服务将进入普及阶段;两年内,用户即可享受到可靠实用的多
语种通用“对称信息”检索服务。

--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:6.699毫秒