Algorithm 版 (精华区)
发信人: sigmod (sigmod), 信区: Algorithm
标 题: Web Mining:第二代网络信息处理技术(1)
发信站: 哈工大紫丁香 (2001年11月14日12:20:05 星期三), 站内信件
一、 概述
随着Internet的飞速发展,网络信息过载(Information Overload
)问题日益突出,以Yahoo为代表的网络信息检索系统出现并迅速发展
。网络信息检索系统一般由Robot、索引数据库和查询引擎三部分组
成。信息搜集器Robot对WWW进行遍历,尽可能多地发现新的信息;采用
全文检索技术对搜集到的信息建立索引,并存入索引数据库中,能够极
大地提高信息检索的速度;查询引擎接收并分析用户的查询,根据较为
简单的匹配策略(简单布尔模型或模糊布尔模型)遍历索引数据库,最
后将结果地址集提交给用户。由于受人工智能研究水平的限制,目前R
obot还无法实现信息的准确分类,多数搜索站点都是通过人工方式对
信息进行二次处理,信息整理的速度远远落后于网络信息的膨胀。
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技
术成为一个新的研究热点。网络信息挖掘是指在已知数据样本的基础
上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内
在特性,据此采用信息过滤技术在网络中提取用户感兴趣的信息,或者
更高层次的知识和规律。
网络信息挖掘与网络信息检索所采用的技术有很多相似之处,但
又有本质的不同。作为第二代网络信息处理技术,网络信息挖掘技术
沿用了Robot、全文检索等网络信息检索中的优秀成果,同时综合运用
人工智能、模式识别、神经网络领域的各种技术。网络信息挖掘系统
与网络信息检索的最大不同在于它能够获取用户个性化的信息需求,
根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。
经过两年多的理论研究和技术积累,北京数码空间信息技术有限
公司的核心技术梯队已经在国内外权威期刊和国际学术会议上发表相
关学术论文近30篇,完成了网络信息挖掘系统内核的开发工作,系统在
信息获取速度和信息匹配准确性上达到了国际领先水平,微软中国研
究院院长李开复博士曾非常惊奇于数码空间的研究成果——"an inte
restinga nd effective project"。
--
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.396毫秒