Algorithm 版 (精华区)

发信人: sigmod (sigmod), 信区: Algorithm
标  题: Web Mining:第二代网络信息处理技术(3)
发信站: 哈工大紫丁香 (2001年11月14日12:21:21 星期三), 站内信件

2. 中文分词处理
    西文的句子以空格作为固定的分隔符,而中文中没有,这给中文信
息处理带来很大障碍。例如机器无法分辨"白天鹅"到底是"白天"和"
鹅",还是"白的天鹅",因此在进行词频统计等处理前先要进行词条切
分处理。比较简单有效的分词方法是基于大型词库的机器分词法。通
用词库包含了大量不会成为特征项的常用词汇,为了提高系统运行效
率,系统根据挖掘目标建立专业的分词表,这样可以在保证特征提取准
确性的前提下,显著提高系统的运行效率。
    进行词条切分时,先根据标点进行粗切分,然后再分别使用正向和
逆向最大匹配法进行细切分。如果切分结果相同,则认为切分正确;否
则在不同之处取包含两部分的最小长度串,作为词库候补词条。在进
行词频统计时,考虑到自然语言的多样性,系统建立并使用相应的同义
词库、蕴含词库等辅助词库,以提高信息匹配的准确度。
  3. 获取网络中的动态信息
    Robot是传统搜索引擎的重要组成部分,它依照HTTP协议读取Web
页面,并根据HTML文档中的超链在WWW上进行自动漫游,Robot也被称为
Spider、Worm或Crawler。但Robot只能获取Web上的静态页面,而有价
值的信息往往存放在网络数据库中,人们无法通过搜索引擎获取这些
数据,只能登录专业信息网站,利用网站提供的查询接口提交查询请求
,获取并浏览系统生成的动态页面。网络信息挖掘系统则通过网站提
供的查询接口对网络数据库中的信息进行遍历,并根据专业知识库对
遍历的结果进行自动的分析整理,最后导入本地的信息库。
    4. 信息的分类
    为了更有效地对信息建立索引,需要对信息进行分类处理,系统采
用Naive Bayes法实现此功能。
    网络信息挖掘系统根据用户所提供的目标样本和系统设置,提取
目标的特征信息,根据目标特征自动在WWW上搜集资料,然后对所搜集
到的资料进行分类整理,并导入资料库。系统能够自动运行,不断更新
用户的资料库,提供个性化的主动信息服务。 

--
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.996毫秒