精华区文章阅读

发信人: sigmod (sigmod), 信区: Algorithm
标  题: Web Mining:第二代网络信息处理技术(2)
发信站: 哈工大紫丁香 (2001年11月14日12:20:49 星期三), 站内信件

二、网络信息挖掘的步骤
    (1) 确立目标样本:由用户选择目标样本,作为提取用户特征信息
的依据。
    (2)建立统计词典:建立用于特征提取和词频统计的主词典和同义
词词典、蕴含词词典。
    (3)特征信息提取:根据目标样本的词频分布,从统计词典中提取
挖掘目标的特征向量,并计算出相应的权值。
    (4) 调整特征矢量:根据测试样本的反馈,调整特征项权值和匹配
阈值。
    (5)网络信息获取:先利用搜索引擎站点选择待采集站点,再利用R
obot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态
信息。
    (6)信息特征匹配:提取源信息的特征向量,并与目标样本的特征
向量进行匹配,将符合阈值条件的信息提交给用户。
    三、网络信息挖掘中的关键技术
1. 目标样本的特征提取
    系统采用向量空间模型(VSM:Vector Space Model),用特征词条
及其权值代表目标信息,在进行信息匹配时,使用这些特征项评价未知
文本与目标样本的相关程度。特征词条及其权值的选取被称为目标样
本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。
词条在不同内容的文档中所呈现出的频率分布是不同的,因此可以根
据词条的频率特性进行特征提取和权重评价。
    一个有效的特征项集应该既能体现目标内容,也能将目标同其他
文档相区分。因此, 词条权重正比于词条的文档内频数,反比于训练
文本内出现该词条的文档频数。
    与普通的文本文件相比,HTML文档中有明显的标识符,结构信息更
加明显,对象的属性更为丰富。系统在计算特征词条权值时,充分考虑
HTML文档的特点,对于标题和特征信息较多的文本赋予较高权重。为
了提高运行效率,系统对特征向量进行降维处理,仅保留权值较高的词
条作为文档的特征项,从而形成维数较低的目标特征向量。

--
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]

Algorithm 版 (精华区)