Database 版 (精华区)
发信人: wugang (Just do it), 信区: Database
标 题: 数据挖掘技术与过程2(转)
发信站: 哈工大紫丁香 (2001年09月04日09:16:58 星期二), 站内信件
普通会员
发表总数:25 发表於 - 2000/11/11 23:37:23
------------------------------------------------------------------------
--------
通常,有两类统计分析:确认性(confirmatory)分析和探索性(exploratory)分析
??
在确认性分析中,有一个假设需要被确认或被否定。确认性分析的瓶颈问题是分析
中假设的短缺,也即给出假设是困难的。而“索性分析”(Tukey,1973)中,则是
寻找一个合适的假设并且确认它或否定它。这里系统在数据分析中处于主动地位,
而不是用户处于主动。
“主动性”概念也可以应用到多维空间。在一个简单的OLAP
(On Line Application Process)访问系统中,用户可能不得不想出假设。但在
OLAP数据挖掘中,系统自己能够考虑这些问题(Parsaye,1997)。这里的数据挖掘
指的是自动进行数据分析,系统能够由它自己主动产生模式 。
从面向过程的角度看,有三类数据挖掘活动:发现(discovery),预言性
建模(predictive modeling)和对比性分析(forensic analysis),如下图所示:
/---------Conditional Logic
/---------Discovery ----------Affinities and Associations
| \_________Trends and Variations
| _________Outcome Prediction
Data Mining----------Predictive<
| ---------Forecasting
|_________Forensic ---------Deviation Detection
Analysis \________Link Analysis
图 1
发现是在数据库中到寻找隐藏模式,事先甚至没有关于这个隐藏模式的想法或假设
也可以这样说,程序主动寻找什么是有趣的模式, 而不是用户首先思考有关的问题
。
在大型的数据库中,事实上有许多模式是用户根本不可能想到并提出问题的,从而
也
不可能交给系统去确认或否定。这里的关键问题是各种模式能被表达、恢复和得出
不可能交给系统去确认或否定。这里的关键问题是各种模式能被表达、恢复和得出
信息的质量----这决定所使用的发现技术的功能和可用性。
作为一个主动发现系统的简单例子, 假设我们有一个人口统计数据库。
用户可能主动向数据库提问,例如:“银行家的平均年龄是多少?”然后系统
可能打印平均年龄是47岁。用户然后要求系统主动去找一些关于“年龄”的有
趣东西。系统将表现得象人类分析专家一样,它将查看一些数据的特征、分布
等等。并试图找一些比普通数据更密集的数据。在这种情况下系统可能打印如
下规则:“如果 职业=运动员 那么 年龄<30, 有71%的可信度”。这规则意思
是如果我们从数据库中取100个运动员,它们可能有71个是小于30岁。 系统可
能也打印“如果 职业=运动员 那么 年龄<60,有97%的可信度”。这规则意思是
如果我们从数据库中取100个运动员,它们可能有97个是小于60岁。这些传递给
用户的信息是通过从数据中提取出来的模式。
从数据库中发现的预言性模式中,通常是褂萌ピぱ越础Tぱ孕越T?许用户到
提交的记录含有一些不明的字段值, 系统将根据先前从数据库中发现的
模式猜想未知的值。当发现系统在数据中发现某种模式,预言性建模应用所发现
的模式去猜想新数据项目的值。
利用上面的例子来说明,一旦我们知道运动员通常小于30岁,我们能猜想某人
的年龄如果知道他们是运动员。举例说,如果我们显示一条关于Smith的记录,他
的职业是运动员,由上面的应用规则我们能以高于70%把握确定他的年龄是少于
30
岁的,几乎可以完全确定他是少于60岁。注意到发现系统帮助我们找到“通用知
识”,但预测仅仅是猜测特殊个人的年龄值。也注意到在这钟情况下预测是“透
明的”。(例如,我们知道为什么能猜想年龄是小于30岁)。在一些系统中年龄
也能被猜测, 但猜想的理由是不知道的,使得系统“不透明”。
对比性分析是一个过程,它应用提取到的模式去找不规则的或不通常的数据
元素。去发现不通常的,我们首先是查找符合标准的内容,然后我们根据给定的阈
值检测那些那脱离正常的数据项。这里再次用上面的例子,一旦我们注意到运动员
97%是少于60岁的,我们想知道另外的3%年龄大于60岁还是运动员的人员。这些是
不正常的, 但我们仍然不知道为什么。他们也许有特别的身体或所从事的运动对
于年龄是不太重要的(例如高尔夫球 )或数据库可能包含错误,等等。发现系统
帮助我们找到“通常知识”,但是对比性分析寻找不通常和特殊的情况。
这些中的每种过程都可以进一步分类。有几个类型的发现模式,例如“如
果...那么...”规则(上面讨论的就属于这种),数据项间的关联规则(如,当
某人买了某个东西在一个商店,他可能同时买另一个东西---通常叫做市场篮子
分析。这种发现系统的能力通常可以用它能找到和表达的种类和一般性模式来
度量,并能够用合适的语言来表达结果。
--
·━━━━━━━━━━━━━━━━━━━━━━━━━━━·
‖看清楚、看明白、瞧准了,别说我没提醒你。我这个人不出类‖
‖拔萃但也不庸庸碌碌,不太玉树临风但也非歪瓜劣枣,不家财‖
‖万贯但也不一无所有。有点懒有点馋有点笨,也有点耐心有点‖
‖恒心有点信心,也就是说缺点不是没有但优点也有时会闪闪光‖
·━━━━━━━━━━━━━━━━━━━━━━━━━━━· Go! 天竺 @>>--,--'--- http://Beauty.hit.edu.cn
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: kiss.hit.edu.cn]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.376毫秒