Algorithm 版 (精华区)
发信人: ssos (存在与虚无), 信区: Algorithm
标 题: 数据开采工具及应用(二)
发信站: 哈工大紫丁香 (2001年06月14日16:03:04 星期四), 站内信件
数据开采工具的分类
数据开采工具根据所采用的技术,大致可分为以下6类:
1.基于规则和决策树的工具
大部分数据开采工具采用规则发现技术或决策树分类技术来发现
数据模式和规则,其核心是某种归纳算法,如ID3及其发展C4.5。这类
工具通常先对数据库的数据进行开采,生成规则和决策树,然后对新数
据进行分析和预测。这类工具的主要优点是,规则和决策树都是可读
的。
其典型产品有:①Angoss Software开发的KnowledgeSeeker。它
可运行于DOS和Windows 环境,广泛应用于市场和金融分析。它采用聚
类分析和规则归纳技术,从数据集中发现多种因果关系,并以图形形式
显示决策树,价格约850美元。②Attar Software开发的XpertRule Pr
ofiler。它可运行于Windows环境,采用客户 /服务器技术,适于大数
据量开采,可分析上百万条记录而不必取样或取子集。其归纳过程采
用SQL语言查询,因此开采速度依赖于数据库所在机器的速度。它可以
产生决策树,支持ODBC,价格为1.5万美元。
2.基于神经元网络的工具
由于对非线性数据的快速建模能力,基于神经元网络的数据开采
工具现在越来越流行。其开采过程基本上是将数据聚类,然后分类计
算权值。神经元网络很适合非线性数据和含噪声数据,所以在对市场
数据库的分析和建模方面应用广泛。
典型产品有Advanced Software Application开发的DBProfile。
它可运行于Windows环境,适于针对市场行业的数据分析和决策支持系
统。它采用的方法包括自然聚类、分段、统计模型和可视化技术。它
通过精密的数据分析,帮助市场人员了解顾客、市场前景和市场状况,
结果以图形或表格形式显示,支持ODBC,价格为1万美元。
3.数据可视化方法
数据可视化以前多用于科学和工程领域,现在也出现了针对商业
用户需求的产品。这类工具大大扩展了传统商业图形的能力,支持多
维数据的可视化,从而提供了多方向同时进行数据分析的图形方法。
有些工具甚至提供动画能力,使用户可以"飞越"数据,观看不同层次的
细节。其优点是,提供了发现并翻译数据模式及数据间关系的图形方
式。
典型产品有Information Technology Institute开发的WinViz。
它可运行于Windows环境,是一个良好的可视化数据分析工具,其接口
允许在一幅图中显示多维数据集。其交互式图形查询使用户可快速浏
览数据库,观察数据集中不同属性与其它数据集的关联关系,价格约1
50美元。
4.模糊发现方法
这类工具较少,其发现方法是应用模糊逻辑进行数据查询、排序
等。典型产品有Inform ation Builders Inc.开发的Level5 Quest。
它可运行于Windows和Unix环境,使用模糊概念和"最近"搜索技术的数
据查询工具。它可以让用户指定目标,然后对数据库进行搜索,找出接
近目标的所有记录,并对结果进行评估。它支持ODBC,价格为495美元
。
5.统计方法
基于传统统计方法的工具也相当多。因为这些工具没有使用人工
智能技术,所以更适于分析现有信息,而不是从原始数据中发现数据模
式和规则。典型产品有BBN Software开发的Cornerstone。它可运行
于Windows和Unix环境。其特点是,数据集间可动态链接,也可链接到
其它数据源,对数据集可生成多种图形视图、联机超文本帮助,易于操
作,可对数据进行存取、可视化、分析和表现。它支持ODBC,价格约15
00美元。
6.综合多方法
不少数据开采工具采用了多种开采方法。这类工具一般规模较大
,运行于Unix工作站或并行处理平台,适于大型数据库(包括并行数据
库)。这类工具的开采能力很强,但价格昂贵, 并要花很长时间进行学
习。
典型产品有:①Integral Solutions Ltd.开发的Clementine。它
运行于Unix工作站,适于最终用户和开发人员的数据开采系统及开发
工具。它采用多种开采方法,综合了可视化、神经元网络和规则归纳,
具有良好的最终用户可视化编程环境,内置的专家系统为用户提供选
择数据开采模型和算法的建议。专业人员可开发自己的神经元网络和
归纳模型。它支持Ora cle、Ingress、Sybase、Informix,价格为1.9
万美元。②Thinking Machines开发的Darwin 。它可运行于Windows
环境和MPP平台,是大规模数据开采系统和开发环境。它使用多种算法
,包括神经元网络、规则归纳、决策树、基于记忆的推理、遗传算法
等,并支持关系数据库和并行数据库。
--
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.687毫秒