Algorithm 版 (精华区)

发信人: ssos (存在与虚无), 信区: Algorithm
标  题: 数据开采与知识发现综述(二)
发信站: 哈工大紫丁香 (2001年06月14日16:00:15 星期四), 站内信件

二、知识发现和数据开采的概念
    知识发现是从数据中发现有用知识的整个过程;数据开采是KDD过
程中的一个特定步骤, 它用专门算法从数据中抽取模式(patterns)。
1996年,Fayyad、Piatetsky-Shapiror和Smyt h将KDD过程定义为:从
数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和
最终可理解的。KDD过程可用下图表示。
图1
    从图中可见,KDD过程是多个步骤相互连接、反复进行人机交互的
过程。具体包括:
    ①学习某个应用领域:包括应用中的预先知识和目标。
    ②建立一个目标数据集:选择一个数据集或在多数据集的子集上
聚焦。
    ③数据清理和预处理:去除噪声或无关数据,去除空白数据域,考
虑时间顺序和数据变化等。
    ④数据换算和投影:找到数据的特征表示,用维变换或转换方法减
少有效变量的数目或找到数据的不变式。
    ⑤选定数据开采功能:决定数据开采的目的。
    ⑥选定某个数据开采算法:用KDD过程中的准则,选择某个特定数
据开采算法(如汇总、分类、回归、聚类等),用于搜索数据中的模式,
该算法可以是近似的。
    ⑦数据开采:搜索或产生一个特定的感兴趣的模式或数据集。
    ⑧解释:解释某个发现的模式,去掉多余的不切题意的模式,转换
成某个有用的模式,以使用户明白。
    ⑨发现知识:把这些知识结合到运行系统中,获得这些知识的作用
或证明这些知识,用预先、可信的知识检查和解决知识中可能的矛盾

    需要说明的是,有的论文作者(Cure Hall,1995年)认为,数据开采
和知识发现含义相同, 可表示成KDD/DM。它是一个反复的过程,通常
包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则
、评价和解释结果、将模式构成知识,最后是应用。

--

   
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它      

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:5.447毫秒