精华区文章阅读

发信人: wugang (Just do it), 信区: Database
标  题: 数据挖掘技术与过程4(转)
发信站: 哈工大紫丁香 (2001年09月04日09:17:43 星期二), 站内信件

普通会员

发表总数：25 发表於 - 2000/11/11 23:38:21
------------------------------------------------------------------------
--------
技术树(The Technology Tree)
根据数据的保留与否可以把顶层分成两类数据挖掘技术，也就是说，在我们已经
挖掘出某个数据之后是否还仍然保留或需要它？在大多情况下,是不需要的。然而
,
在一些早期的方法中，大量数据仍然被维护以便将来的模式匹配。显然, 这些基于

数据保留的技术只能应用于预言性建模和对比性分析中,因为他们没有蒸馏任何模

式而不能用于知识发现。
一个基于数据保留的方法很快将碰到问题因为数据的急骤增长。然而, 在一些情
况下，用这些技术能获取预言性结果，考虑到完整性的缘故，在下一部分还将简单
描
述它们。
/--Nearest Neighber
/---Data Retained
/ \--Case-based Reasoning
Data Mining
Approaches
\
\ /--Logical(Rules:induction,Genetic Algorithms;
\ / Decision Trees:CAITT,CHAID,C4.5,etc
\___Equational(Statictics;
Neural Nets:Back propagation,Kohon
\ Decision Trees:CAITT,CHAID,C4.5,etc
\___Data Distilled--Cross Tabuletional(Agents;Belief Nets)
\___Equational(Statictics;
Neural Nets:Back propagation,Kohonen,etc)
图 2
如图2所示，基于蒸馏模式的方法可分为三类：逻辑的(logical)、交叉表式的
(cross-tabulational)和等式的(equational)。下面讲述每种类别和他们的各个子

分支。图2上的每个叶子代表实现系统时的一个独特的技术方法（例如某些类型的
判
定树算法）。
并非所有基于蒸馏模式的方法能够提供知识,既然模式也许蒸馏进入一种“不透
明”的语言或形式，不容易被人理解，例如非常复杂的等式就是这样。所以,这些
方
法中的一些能产生透明的和可理解的模式知识,其他的却产生用于不透明预测的模
式。



--
                                                           ┏━━┓
         ┏━━┓                                          ┃无  ┃
         ┃有  ┗━━━━━━━━━━━━━━━━━━━━━┛欲则┃
         ┃容乃┏━━━━━━━━━━━━━━━━━━━━━┓  刚┃
         ┃  大┃                 ── ─- ─ －－－ - -   ┗━━┛
         ┗━━┛                  ── ─- ─ －－－ - -

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: kiss.hit.edu.cn]

Database 版 (精华区)