AI 版 (精华区)

发信人: yale (修身齐家治国平天下), 信区: AI
标  题: 集成机器学习的讨论
发信站: 哈工大紫丁香 (2003年12月26日11:11:11 星期五), 站内信件

发信人: took (逝者如斯...), 信区: AI
标  题: 集成机器学习的讨论 zz from nju
发信站: 饮水思源 (2003年07月08日19:41:57 星期二), 站内信件
发信人: miningboy (C海S田,九九不息||找矿男孩), 信区: AI
标  题: [合集]集成机器学习的讨论
发信站: 南京大学小百合站 (Mon Jul  7 20:00:47 2003)

1 什么叫集成学习
    (1)在机器学习领域为“Ensemble Learning”,主要意思是指,“generalizati
on performance can often be improved by training not just one predictor, but
rather using an ensemble, i.e., a collection of a (finite) number of 
predictors, all
trained for the same task”[1]。中文意思大概为,“集成学习是用有限个学习器对
同一个
问题进行学习,集成在某输入示例下的输出由构成集成的各学习器在该示例下的输出共
同决定,
以此来提高系统的推广能力”[注1]。如果学习器(Learner)为人工神经网络的时候,
就是Daniel
研究的神经网络集成(Neural Network Ensemble)。
    (2)而在模式识别领域,更多的人愿意称为“A Multi-Model System”,意思是指
,对于某
一个分类问题,针对不同的特征形成多个分类模式,然后对这些模式进行集成,从而形
成最终的分类器。
    (3)我认为上面两种称呼都有一定道理,应该是一致的。只是,机器学习中的集成
方法更侧
重理论上的推导和论证;而模式识别中的多模式方法则注重对于实际系统的可用性与实
用性。它们
的最终目标应该是一致的,都为了提高研究对象的推广能力。
2 两种不同理论的集成学习
2.1 两种不同的机器学习[2]
    (1)以贝叶斯理论为基础的机器学习,主要关注学习的划分问题,其代表是以BP算

为核心的神经网络研究。
    (2)以统计学习理论为基础的机器学习,主要讨论学习的推广能力,其代表是以S
VM
算法为核心的从数据到分布的归纳机理研究。
2.2 两种不同的集成学习
    同样,由于以上两种不同的机器学习的存在,集成学习也分为两类:基于贝叶斯理

的集成学习[3]和与统计学习理论有深刻渊源的集成学习(如Boosting和Bootstrap)[4
]。
3 几个相关的问题
    (1)以上两种集成学习的划分是否正确?
    (2)现在比较热门的主要是与统计学习理论有深刻渊源的集成学习,而在很多实际

用系统中,用的较多而且效果较好的主要还是基于贝叶斯理论的集成学习。那么请问,

成学习的有效性真正理论基础是什么?还是人们实际工作的经验积累(如模式识别中流

的Multi-Model System)[注2]?
    (3)如果要进行集成机器学习的研究(包括理论研究),哪10篇论文是必须学习与

(4)集成学习中那些方向是值得研究的(而且有可能出成果)[注3]?
备注
[注1]
    此处集成学习的中文翻译根据Daniel等人对于神经网络集成的中文理解[5]模拟来的

[注2]
    对于我所从事的和我所观察到的情况,大部分好的实用模式识别系统都是依据经验

Multi-Model Systems。
[注3]
    对于集成机器学习问题,我个人认为有三个比较棘手的问题(值得研究)。
    (1)VC维:单个学习空间的VC维的确定很难有P解决方法,那么集成学习呢?有没

存在相反的情况,即在集成学习中VC维的确定存在P方法?
    (2)训练样本:很多模式识别的研究者认为,训练样本的选择和排列在实际应用中

往非常重要,有时甚至超过学习器本身结构的选择。怎样针对不同的学习器选择训练样

是否应该是一个更加普遍的难题?
    (3)学习器:第三个问题当然就是集成学习中各学习器的选择了。研究者普遍认为

如果各学习器是异构的,将能够较好的提高集成机器的推广能力。怎样判断各学习器的

异?如果学习器是具有差异的,那么在集成中,怎样保证这些差异是互补的?
Reference
[1] A. Krogh, P. Sollich, "Statistical mechanics of ensemble learning", Phys
ic
al Review E, 55(1): 811-825, 1997. [2] 王珏,
"机器学习研究", 演讲稿, 中国科学院自动化所, 2003. [3] H. Lappalainen, J. W.
Miskin, "Ensemble Learning", Advances in
Independent  Component Analysis (Ed. by Girolami, M), Springer-Verlag Scient
ific
Publisher s, 2000. [4] R. E. Schapire, "A
Brief Introduction of Boosting", The 16th International  Joint Conference on

Artificial Intelligence, 1999. [5] 周志华,
陈世福, "神经网络集成", 计算机学报, 25(1): 1-8, 2002.
daniel (飞翔鸟) 于Thu Jul  3 17:39:13 2003)
提到:
【 在 yinxucheng (yxc) 的大作中提到: 】
: 发信人: yinxucheng (yxc), 信区: AI
: 标  题: 集成机器学习的讨论
: 发信站: 南京大学小百合站 (Thu Jul  3 16:04:39 2003)
:
:
: 引子
:     本人最近浅读了一些集成机器学习方面的文章,有一点心得,主要还是一堆问题
。希
: 望大家讨论,并指教。
: //////////////////////////////////////////////////////////////////////////
///
:
这个帖子有点意思
:
: 1 什么叫集成学习
:     (1)在机器学习领域为“Ensemble Learning”,主要意思是指,“generaliza
tion
:  performance can often be improved by training not just one predictor, but
 rat
: her using an ensemble, i.e., a collection of a (finite) number of predicto
rs,
: all trained for the same task”[1]。中文意思大概为,“集成学习是用有限个学
习器
: 对同一个问题进行学习,集成在某输入示例下的输出由构成集成的各学习器在该示例
下的
: 输出共同决定,以此来提高系统的推广能力”[注1]。如果学习器(Learner)为人工
神经
: 网络的时候,就是Daniel研究的神经网络集成(Neural Network Ensemble)。
:     (2)而在模式识别领域,更多的人愿意称为“A Multi-Model System”,意思是
..
: 对于某一个分类问题,针对不同的特征形成多个分类模式,然后对这些模式进行集成
,从
: 而形成最终的分类器。
:     (3)我认为上面两种称呼都有一定道理,应该是一致的。只是,机器学习中的集
..
: 法更侧重理论上的推导和论证;而模式识别中的多模式方法则注重对于实际系统的可
用性
: 与实用性。它们的最终目标应该是一致的,都为了提高研究对象的推广能力。
Ensemble Learning现在基本上就叫集成学习。相关的概念有上面说的多模型系统(这
实际上在很大程度上对应了机器学习里面的多专家混合)、Committee Learning、
Modular systems、多分类器系统等等。这些概念相互之间有非常密切的联系,但仔细
来说还是有些区别。问题是对这些概念的界定,目前并没有什么共识,有时不同的人在

用不同的术语说同一个东西,也有时是用同一个术语说不同的东西,所以区别也只能是

各说各话了。个人认为,集成学习一个非常重要的性质就是个体学习器是为同一个问题

进行学习,这与分而治之式地把问题分解为若干个子问题,然后再想办法从个别解求得

整体解是不同的,因为前者导致了学习的难点在于个体学习器差异的获得,而后者则在

差异上没有难点(因为个体本来就是解决不同的问题),而在问题分解上很困难。换一

个角度来说,对集成学习系统来说,随便把它的一个个体学习器拿出来,都是能解决整

个问题的,而对后面的这种系统来说,拿出一个个体学习器只能解决一个子问题,不能

解决整个问题。和后者最对应的应该是Modular system,多专家混合也非常偏向于后者

Committe learning和集成学习要相近一些。而多分类器系统,则是在分类器意义上的
全包含。大家的最终目标实际上都是一样的,但由于途径不同,面对的难点就不太
一样了,所以研究重点也不太一样。另外,有的东西,很难严格地说它属于某一类。
不过,对到底什么是ensemble learning,现在并没有界定清楚。我们姑且把前面的提法

称为狭义的ensemble learning,而把只要利用多个学习器就叫ensemble的这种称为
广义的ensemble learning
:
: 2 两种不同理论的集成学习
: 2.1 两种不同的机器学习[2]
:     (1)以贝叶斯理论为基础的机器学习,主要关注学习的划分问题,其代表是以B
P..
: 为核心的神经网络研究。
:     (2)以统计学习理论为基础的机器学习,主要讨论学习的推广能力,其代表是以
SVM
: 算法为核心的从数据到分布的归纳机理研究。
: 2.2 两种不同的集成学习
:     同样,由于以上两种不同的机器学习的存在,集成学习也分为两类:基于贝叶斯
理论
: 的集成学习[3]和与统计学习理论有深刻渊源的集成学习(如Boosting和Bootstrap)
[..
把贝叶斯理论和统计学习理论为标准划出两大类,未必合适。贝叶斯理论和统计学习
理论本来就不是对立的两个东西。实际上,ensemble learning这个词最早是被做贝叶斯

的人用出来的,而多学习器的思想很早以前就有了,但没有一个特别的名字,这也在一

定程度上导致了前面提到的那么多相关的概念,后来ensemble learning这个词慢慢地被

扩展到非贝叶斯学习系统,然后又慢慢地生长,到现在基本上就有了前面说的含义。在

ensemble learning的内涵还没有被清楚地界定出来之前,对它的分类是很困难甚至
不可能的。
:
:
: 3 几个相关的问题
:     (1)以上两种集成学习的划分是否正确?
:     (2)现在比较热门的主要是与统计学习理论有深刻渊源的集成学习,而在很多实
..
: 用系统中,用的较多而且效果较好的主要还是基于贝叶斯理论的集成学习。那么请问
,集
: 成学习的有效性真正理论基础是什么?还是人们实际工作的经验积累(如模式识别中
流行
: 的Multi-Model System)[注2]?
这个问题应该还是open problem。虽然Dietterich在他的一系列文章里给出了一些
说法,但这些说法我不太认为是真正的“有效性理论基础”,说成是猜想或者直观解释

可能更合适些。个人认为,由于ensemble learning的内涵并没有清楚的界定,叫这个
名字的很多东西其实是利用了不同的机制,所以其有效性的理论基础未必是一样的。这

方面关于boosting类讨论得比较多,对bagging的讨论最近也开始有了。最终我们可能会

得到不同的有效性机制,然后可能根据不同的机制划分出不同的类别,但这是若干年后

的事了。
:     (3)如果要进行集成机器学习的研究(包括理论研究),哪10篇论文是必须学习
..
boosting、bagging、stacking的文章应该是要看的,Krogh和Vedelsby的文章是重要的

Ditterich在AI Mag97的文章也值得读。由于ensemble learning的内涵并没有界定清楚

所以涉及的东西太多,目前还远没有到能很清楚地把这个领域的知识系统化的程度。
机器学习、模式识别、信息融合等等都有大量有关的内容,现阶段很难开出一个清楚的

单子。但是不妨把最近几年top journal和top conference上的有关文章找来看看。
:     (4)集成学习中那些方向是值得研究的(而且有可能出成果)[注3]?
这个就仁者见仁了,呵呵。
:
: ※ 来源:.南京大学小百合站 http://bbs.nju.edu.cn [FROM: 218.247.128.213]
:
: ※ 修改:.yinxucheng 於 Jul  3 16:11:38 2003 修改本文.[FROM: 218.247.128.
2..
txytxy (nils) 于Thu Jul  3 18:08:40 2003)
提到:
补充一个问题,即使有办法选定了子分类器,如何确定每个分类器的权重很关键,
Daniel的文章中用了遗传算法,实际上是一种跳跃式的局部寻优算法,不知其他
算法的效果如何?我觉得这个问题根mixture model中的权重计算很类似,不知
是否有人试验过用类似em算法这样的迭代算法?请问Daniel有何高见,谢谢。
daniel (飞翔鸟) 于Thu Jul  3 19:04:19 2003)
提到:
【 在 txytxy (nils) 的大作中提到: 】
分类器未必需要有权重,所以这并不是大问题。用GA是为了做挑选,其他优化
技术当然可以用,说不定效果更好。因为你说的那篇文章的目的并不是为了提
算法,目的是选择性集成的思想,那个算法只不过是为了显示选择性集成的
可操作性(就是说并不是理论上成立但实际上却无法操作),这一点我记得文
章里面说到了的。所以,如果从算法设计着眼的话,用别的技术来做挑选,完
全有可能得到更好的选择性集成算法。有兴趣可以试试,发些文章应该不难的,
呵呵。
yinxucheng (yxc) 于Thu Jul  3 20:21:26 2003)
提到:
   关于分类器的权值选择往往是许多应用研究者最关心的事情。在Krogh and Vedeksb
y的
文章“Neural Network Ensembles, Cross Validation, and Active Learning”(NIPS
 1
995)中好像有一节讲Optimal Weights的,好像也没有什么理论分析基础,不知道具体效

怎样。
   分类器的权重好像有较多的研究者利用Neural Network来学习选择,即对于各个分类

的输出不做域值化,而直接输入到一个网络(如BP网络)中进行再学习,来自动选择。

体的例子有Daniel等人的Pose Invariant Face Recognition(IEEE International Co
nf
erence on Automatic Face and GestureRecognition,2000),Hao等人的手写体汉字识

别(Pattern Recognition, 1997)。不过,Hao曾经指导我说,这样做应该不是理想的

实验的效果很大程度上取决于训练样本和网络结构系数的经验选择。
   一个有趣的现象是,在Reference[3]中,贝叶斯理论的Ensemble Learning把EM看成

成学习的一种特例,“EM algorithm can be seen as a special case of ensemble l
ea
rning”.
daniel (飞翔鸟) 于Thu Jul  3 23:17:13 2003)
提到:
对有的方法来说,分类器的加权结合很重要,所以这个权也很重要。但对有的方法来说

分类器不需要加权,所以并不需要仔细确定这个权。不能一概而论的。
在模式识别里面,其实是modular的路线更多一些,各个分类器解决的子问题不同,所以

这个权相当重要,甚至不是线性加权能做的,所以用NN这样的非线性东东的多一些。
--
Einstein was only 26 when he invented spatial relativity in 1905, but do you

know how old he was when he wrote his first
paper on the speed of light?--15
or 16. That's the magic ten years. It turns out that the time separating
people's first in-depth exposure to a field and their first world-class
achievement in that field is ten years, neither more nor less by much.
※ 来源:·饮水思源 bbs.sjtu.edu.cn·[FROM: 202.120.25.67]
--
※ 转寄:·饮水思源 bbs.sjtu.edu.cn·[FROM: 202.118.239.104]

--
As we know,there are known knowns.There are things we know we know.
We also know there are known unknowns. That is to say
We know there are somethings we do not know.
But there are also unknown unknowns, the ones we don't know we don't know
               -Rumsfeld

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.239.104]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:209.547毫秒