AI 版 (精华区)
发信人: yale (修身齐家治国平天下), 信区: AI
标 题: 监督,非监督和强化学习
发信站: 哈工大紫丁香 (2003年12月26日10:40:30 星期五), 站内信件
发信人: took (逝者如斯...), 信区: AI
标 题: 关于监督学习、非监督学习和强化学习 by Dr. Zhou ZH
发信站: 饮水思源 (2003年04月28日19:46:57 星期一), 站内信件
发信人: daniel (飞翔鸟), 信区: DataMining
标 题: 关于监督学习、非监督学习和强化学习
发信站: 南京大学小百合站 (Mon Apr 28 17:11:24 2003)
最近很多人在问监督学习、非监督学习和强化学习等等之间的关系,我简单地写一点。
机器学习中的方法或范式(paradigm)有很多种分类体系,例如从学习的方式分,有
从例子中学习、类比学习、分析学习等,但一般来说,现在研究得最多、被认为最有用
的是从例子中学习(learning from examples)。对从例子中学习,又有很多分类方法
,例如从学习的主动性方面,可以分为主动学习(active learning)和被动学习
(passive learning);从训练过程启动的早晚,可以分为迫切学习(eager learning
)和惰性学习(lazy learning);等等。
最常见的对“从例子中学习”的方法的分类是监督学习、非监督学习和强化学习,这
是从训练样本的歧义性(ambiguity)来进行分类的。对监督学习来说,它通过对具有概
念标记(concept label)的训练例进行学习,以尽可能正确地对训练集之外的示例的概
念标记进行预测。这里所有训练例的概念标记都是已知的,因此训练样本的歧义性最低.
对非监督学习来说,它通过对没有概念标记的训练例进行学习,以发现训练例中隐藏的
结构性知识。这里的训练例的概念标记是不知道的,因此训练样本的歧义性最高。对强
化学习来说,它通过对没有概念标记、但与一个延迟奖赏或效用(可视为延迟的概念标记
)相关联的训练例进行学习,以获得某种从状态到行动的映射。这里本来没有概念标记的
概念,但延迟奖赏可被视为一种延迟概念标记,因此其训练样本的歧义性介于监督学习和
非监督学习之间。
需要注意的是,监督学习和非监督学习从一开始就是相对的,而强化学习在提出时并
没有从训练样本歧义性的角度考虑其与监督学习和非监督学习的区别,因此,一些早期
的研究中把强化学习视为一种特殊的非监督学习。事实上,对强化学习的定位到目前仍然
是有争议的,有的学者甚至认为它是与“从例子中学习”同一级别的概念。
从训练样本歧义性角度进行的分类体系,在近几年可望有一些扩展,例如多示例学习
(multi-instance learning)等从训练样本歧义性方面来看很特殊的新的学习框架有可能
会进入该体系。但到目前为止,没有任何新的框架得到了公认的地位。另外,半监督学
习(semi-supervised learning)也有一定希望,它的障碍是半监督学习中的歧义性并不
是与生俱来的,而是人为的,即用户期望用未标记的样本来辅助对已标记样本的学习。这
与监督学习、非监督学习、强化学习等天生的歧义性完全不同。半监督学习中人为的歧义
性在解决工程问题上是需要的、有用的(对大量样本进行标记的代价可能是极为昂贵的)
,但可能不太会导致方法学或对学习问题视点的大的改变。
不同的分类体系是相交的,例如,监督学习方法既可能是迫切的(例如大多数神经网
络、决策树等),也可能是惰性的(例如k近邻等)。另外,分类体系也不是绝对的,例
如前面提到的强化学习的情况。
--
宠辱不惊 闲看庭前花开花落
去留无意 漫随天外云卷云舒
※ 修改:.daniel 于 Apr 28 17:13:36 修改本文.[FROM: dialup61-088.nju. edu]
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: dialup61-088.nju. edu]
--
...可是20世纪的哲学家们远没有他们的先辈那样幸运,爱因斯坦所感叹过的那种每
一个数学分支都会耗尽一个人短暂一生的情况,在20世纪的科学发展中有增无减,哪
一位哲学家还能像他们的前辈笛卡尔、莱布尼兹那样身兼科学大师和哲学大师的双重
身份呢? ...哲学家们只能在科学这个庞然大物的外围徘徊。
※ 来源:·饮水思源 bbs.sjtu.edu.cn·[FROM: 202.120.25.67]
--
※ 转寄:·饮水思源 bbs.sjtu.edu.cn·[FROM: 202.118.239.104]
--
As we know,there are known knowns.There are things we know we know.
We also know there are known unknowns. That is to say
We know there are somethings we do not know.
But there are also unknown unknowns, the ones we don't know we don't know
-Rumsfeld
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.239.104]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:7.167毫秒