Algorithm 版 (精华区)
发信人: ssos (存在与虚无·戒酒戒网), 信区: Algorithm
标 题: XML与Web数据挖掘技术
发信站: 哈工大紫丁香 (2001年10月29日18:28:27 星期一), 站内信件
以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的
Web
应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模
型
,可以很容易地将XML的文档描述与关系数据库中的属性一对应起来,实施精确地查询与
模
型抽取。
1.XML的产生与发展
XML(extensible Markup Language)是由万维网协会(W3C)设计,特别为Web应用服务
的
SGML(Standard General Markup Language)的一个重要分支。总的来说,XML是一种中介
标
示语言(Meta-markup Language),可提供描述结构化资料的格式,详细来说,XML是一种
类
似于HTML,被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数
据
,它是用来自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由
信
息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成,这些规则可用于创建
标
记语言,并能用一种被称作分析程序的简明程序处理所有新创建的标记语言,正如HTML
为
第一个计算机用户阅读Internet文档提供一种显示方式一样,XML也创建了一种任何人都
能
读出和写入的世界语。XML解决了HTML不能解决的两个Web问题,即Internet发展速度快
而
接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的那部分信息的问题。
XM
L能增加结构和语义信息,可使计算机和服务器即时处理多种形式的信息。因此,运用X
ML
的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。
XML中的标志(TAG)是没有预先定义的,使用者必须要自定义需要的标志,XML是能够
进
行自解释(Self Describing)的语言。XML使用DTD(Document Type Definition文档类型
定
义)来显示这些数据,XSL(eXtensible Style Sheet Language)是一种来描述这些文档如
何
显示的机制,它是XML的样式表描述语言。XSL的历史比HTML用的CSS(层叠式样式表Casc
ad
ing Style Sheets)还要悠久,XSL包括两部分:一个用来转换XML文档的方法;一个用来
格
式化XML文档的方法。XLL(eXtensible Link Language)是XML连接语言,它提供XML中的
连
接,与HTML中的类似,但功能更强大。使用XLL,可以多方向连接,且连接可以存在于对
象
层级,而不仅仅是页面层级。由于XML能够标记更多的信息,所以它就能使用户很轻松地
找
到他们需要的信息。利用XML,Web设计人员不仅能创建文字和图形,而且还能构建文档
类
型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。
2.XML的主要特点
正是XML的特点决定了其卓越的性能表现。XML作为一种标记语言,有许多特点:
(1)简单。XML经过精心设计,整个规范简单明了,它由若干规则组成,这些规则可
用
于创建标记语言,并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言
。
XML能创建一种任何人都能读出和写入的世界语,这种创建世界语的功能叫做统一性功能
。
如XML创建的标记总是成对出现,以及依靠称作统一代码的新的编码标准。
(2)开放。XML是SGML在市场上有许多成熟的软件可用来帮助编写、管理等,开放式标
准
XML的基础是经过验证的标准技术,并针对网络做最佳化。众多业界顶尖公司,与W3C的
工
作群组并肩合作,协助确保交互作业性,支持各式系统和浏览器上的开发人员、作者和
使
用者,以及改进XML标准。XML解释器可以使用编程的方法来载入一个XML的文档,当这个
文
档被载入以后,用户就可以通过XML文件对象模型来获取和操纵整个文档的信息,加快了
网
络运行速度。
(3)高效且可扩充。支持复用文档片断,使用者可以发明和使用自己的标签,也可与
他
人共享,可延伸性大,在XML中,可以定义无限量的一组标注。XML提供了一个标示结构
化
资料的架构。一个XML组件可以宣告与其相关的资料为零售价、营业税、书名、数量或其
它
任何数据元素。随着世界范围内的许多机构逐渐采用XML标准,将会有更多的相关功能出
现
:一旦锁定资料,便可以使用任何方式透过电缆线传递,并在浏览器中呈现,或者转交
到
其他应用程序做进一步的处理。XML提供了一个独立的运用程序的方法来共享数据,使用
D
TD,不同的组中的人就能够使用共同的DTD来交换数据。你的应用程序可以使用这个标准
的
DTD来验证你接受到的数据是否有效,你也可以使用一个DTD来验证你自己的数据。
(4)国际化。标准国际化,且支持世界上大多数文字。这源于依靠它的统一代码的新
的
编码标准,这种编码标准支持世界上所有以主要语言编写的混合文本。在HTML中,就大
多
数字处理而言,一个文档一般是用一种特殊语言写成的,不管是英语,还是日语或阿拉
伯
语,如果用户的软件不能阅读特殊语言的字符,那么他就不能使用该文档。但是能阅读
XM
L语言的软件就能顺利处理这些不同语言字符的任意组合。因此,XML不仅能在不同的计
算
机系统之间交换信息,而且能跨国界和超越不同文化疆界交换信息。
3.XML在Web数据挖掘中的应用
XML已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架
构
上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生
出
来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。
促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用从大的方面讲可
以
被分成以下四类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将
大
部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的
浏
览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的
应
用。显而易见,这些应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必
须
依靠它们来实现。
XML给基于Web的应用软件赋予了强大的功能和灵活性,因此它给开发者和用户带来
了
许多好处。比如进行更有意义的搜索,并且Web数据可被XML唯一地标识。没有XML,搜索
软
件必须了解每个数据库是如何构建的,但这实际上是不可能的,因为每个数据库描述数
据
的格式几乎都是不同的。由于不同来源数据的集成问题的存在,现在搜索多样的不兼容
的
数据库实际上是不可能的。XML能够使不同来源的结构化的数据很容易地结合在一起。软
件
代理商可以在中间层的服务器上对从后端数据库和其它应用处来的数据进行集成。然后
,
数据就能被发送到客户或其他服务器做进一步的集合、处理和分发。XML的扩展性和灵活
性
允许它描述不同种类应用软件中的数据,从描述搜集的Web页到数据记录,从而通过多种
应
用得到数据。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交
换
和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后
,
客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理
数
据,而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据,
数
据计算不需要回到服务器就能进行。XML可以被利用来分离使用者观看数据的界面,使用
简单灵活开放的格式,可以给Web创建功能强大的应用软件,而原来
这些软件只能建立在高端数据库上。另外,数据发到桌面后,能够用多种方式显示。
XML还可以通过以简单开放扩展的方式描述结构化的数据,XML补充了HTML,被广泛
地
用来描述使用者界面。HTML描述数据的外观,而XML描述数据本身。由于数据显示与内容
分
开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能
够
以客户配置、使用者选择或其他标准决定的方式动态地表现出来。CSS和XSL为数据的显
示
提供了公布的机制。通过XML,数据可以粒状地更新。每当一部分数据变化后,不需要重
发
整个结构化的数据。变化的元素必须从服务器发送给客户,变化的数据不需要刷新整个
使
用者的界面就能够显示出来。但在目前,只要一条数据变化了,整一页都必须重建。这
严
重限制了服务器的升级性能。XML也允许加进其他数据,比如预测的温度。加入的信息能
够
进入存在的页面,不需要浏览器重新发一个新的页面。XML应用于客户需要与不同的数据
源
进行交互时,数据可能来自不同的数据库,它们都有各自不同的复杂格式。但客户与这
些
数据库间只通过一种标准语言进行交互,那就是XML。由于XML的自定义性及可扩展性,
它
足以表达各种类型的数据。客户收到数据后可以进行处理,也可以在不同数据库间进行
传
递。总之,在这类应用中,XML解决了数据的统一接口问题。但是,与其他的数据传递标
准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是
在数据中附加TAG来表达数据的逻辑结构和含义。这使XML成为一种程序能自动理解的规
范
。
XML应用于将大量运算负荷分布在客户端,即客户可根据自己的需求选择和制作不同
的
应用程序以处理数据,而服务器只须发出同一个XML文件。如按传统的“Client/Server
”
工作方式,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本
身
的负荷,而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序,但
假
如用户的需求繁杂而多变,则仍然将所有业务逻辑集中在服务器端是不合适的,因为服
务
器端的编程人员可能来不及满足众多的应用需求,也来不及跟上需求的变化,双方都很
被
动。应用XML则将处理数据的主动权交给了客户,服务器所作的只是尽可能完善、准确地
将
数据封装进XML文件中,正是各取所需、各司其职。XML的自解释性使客户端在收到数据
的
同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。
XML还被应用于网络代理,以便对所取得的信息进行编辑、增减以适应个人用户的需
要
。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。比方说
,
教育部门要建立一个庞大的题库,考试时将题库中的题目取出若干组成试卷,再将试卷
封
装进XML文件,接下来在各个学校让其通过一个过滤器,滤掉所有的答案,再发送到各个
考
生面前,未经过滤的内容则可直接送到老师手中,当然考试过后还可以再传送一份答案
汇
编。此外,XML文件中还可以包含进诸如难度系数、往年错误率等其他相关信息,这样只
需
几个小程序,同一个XML文件便可变成多个文件传送到不同的用户手中。
面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要
复
杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据
挖
掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因
而
使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。
X
ML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页
中
的数据记录。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交
换
和处理。作为表示结构化数据的一个工业标准,XML为组织、软件开发者、Web站点和终
端
使用者提供了许多有利条件。相信在以后,随着XML作为在Web上交换数据的一种标准方
式
的出现,面向Web的数据挖掘将会变得非常轻松。
--
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.547毫秒