PersonalCorpus 版 (精华区)
1999-07(133)26,基础科学
人工神经网络:当前的进展与问题
Artificial Neural Network: The Present Advances and Problems
董 聪
(清华大学 北京 100084)
一、 引 言
人工神经网络(Artificial Neural Network, ANN)研究热潮的再度兴起有其客观的历
史背景。50年代以来,以符号机制(Symbolism)为代表的经典人工智能(Artificial Intel
ligence, AI)形式体系取得了巨大的成功。80年代,当人们对过去30年的成就与问题
进行反思时,却不得不承认,智能系统如何从环境中自主学习的问题事实上并未很好地解
决[1]。Rosenblatt (1957)的感知机(Perceptron)模型首次将自组织和自学习的思想引入
智能系统[2],这一贡献对人工神经网络30年之后的重新崛起埋下了伏笔。80年代中期,以
符号机制为代表的经典人工智能的发展由辉煌转入相对停滞,原先的许多期待和承诺无法
兑现。人们开始深入地探索知识发现的内在逻辑,结果发现,归纳逻辑,尤其是不完全归
纳逻辑是通往知识发现的合理途径。从数理逻辑的角度讲,以演绎逻辑为基础的算法体系
可以发现新的定理,却无法发现新的定律。换句话说,基于符号推理的经典人工智能形式
体系在机器定理证明方面的成功和在规则提取方面的失败同属必然。Rumelhart、Hinton及
Williams惊奇地发现,10余年前由Werbos发明的误差反传算法(Back Propagation erro
r, BP)能够有效地解决多层网络中隐节点的学习问题,证明Minsky对多层网络可能不存在
有效的学习方法的断言并不正确[3,4]。人工神经网络的研究在一定程度上正面回答了
智能系统如何从环境中自主学习的问题,而遗传算法的新一代支持者则希望揭示学习过程
在基因层次上究竟如何完成[5-8]。
本文从认识论和数理逻辑的角度出发,对人工神经网络近30年的研究与发展历程进
行回顾,对一些共同关心的问题进行探讨,以及对该领域未来的发展趋势进行预测。
二、知识表达的方式及其哲学内涵
知识表达一直是经典人工智能研究的一项重要问题。从数学的角度讲,知识表达可最
终归结为从一类数学空间向另一类数学空间的映射。因此,如何简化映射关系和便于计算
机实现对基于机器的知识发现的研究十分重要。1900年,Hilbert猜想,多元连续函数不能
用一元连续函数的复合表示。Hilbert的猜想在1957年被著名数学家Arnoid和Kolmogonov证
伪。Kolmogonov证明:定义在紧致子集上的多元连续函数可用有限一元连续函数的复合精
确表示。Kolmogonov的工作奠定了多层前向网络映射能力数学证明的基础。
将研究重点由存在性的精确表示转向构造性的近似描述,标志着一个新时代的开始,
学术界往往忽略了这种转变的存在。事实上,这种转变对后续研究的影响极其深刻,目前
引起广泛关注的许多问题均源于此。在1989年至1994年间,以Hornik为代表的一批杰出数
学家的加盟使研究重点发生了根本性的转变。Hornik等人证明 [9]:在一个相当宽的范围
内,3层前向网络具有以任意精度逼近定义在紧致子集上的任意非线性连续或分段连续函数
的能力。与Kolmogonov不同,Hornik等人的研究工作有两个突出的标志:一是对隐节点的
数目不作限制;二是不断放松对隐节点函数的限定条件。Hornik等人逐渐向人们展示:在
隐节点的数目不受限制的条件下,对函数逼近而言,隐节点函数的有界性要求是必要的,
单调递增的限制条件并非必要。White的解释则更为直观,他得出结论说,重要的是大量神
经元之间的相互连接和作用,而神经元特性的特定选择在网络逼近中的作用无关紧要。对
隐节点的数目不作限制及放松对隐节点函数的限定条件,意味着生物学约束的弱化,这一
点并不是生物学家们所期望的,也不是以探索智能形成机制为目标的一些AI研究者的初衷
。
不论生物学家是否对Hornik等人的研究结果感兴趣,也不论一些AI研究者的初衷到底
是什么,有一点是可以肯定的,即人们对Hornik等人研究结果的正确性和适用性并未产生
过怀疑。将函数逼近论作为前向网络数学逼近理论基础的思想从此开始盛行。
90年代,与Hornik等人的证明工作进行展开的是不断增多的工程应用,于是,函数逼
近论中从未出现过的一个概念开始在前向网络的应用中频繁地出现,这个概念就是泛化(G
eneralization)。前向网络泛化问题的出现使人们认识到,Hornik等人的证明曾经带给他
们的信心看来多少有些脆弱。人们开始反思,函数逼近论是否足以构成前向网络数学逼近
的理论依据?我们认为,经典函数逼近论事实上并不足以构成前向网络数学逼近的理论依
据[10]。原因是:经典函数逼近论研究的主要是3类问题:一是线性赋范空间X中的一个确
定的元素X,借助于X的某个给定的子集F来逼近的问题;二是线性赋范空间X中具有某些已
知性质的X的子集μ,借助于X的某个给定的子集F来逼近的问题;第三类问题通常涉及寻找
在一定意义下的最佳逼近集和最佳逼近方法。很明显,Hornik等人研究的实际上是第
二类问题。上述3类问题的共同点在于,被逼近对象无论它是一个元素x,还是一个子集
μ的特性是已知的,而在多层前向网络的应用中,多数情况下被逼近对象的特性是未知
的。众所周知,AI中的联结机制(Connectionism)优于物理符号机制(Symbolism)的一个最
主要的特征就是它所具有的学习功能,人工神经网络之所以会再度兴起,恰恰是因为它在
一定程度上正面回答了智能系统如何从环境中自主学习这一最关键的问题。从认知的角度
讲,所谓学习,就是对未知现象或规律的发现和归纳。因此,经典函数逼近论的研究所基
于的数学空间和多层前向网络的实际逼近过程所基于的数学空间的特性是不同的,它们是
两类不同性质的逼近问题,具有完全不同的逼近机制。
Kolmogonov研究的是精确表示而非逼近问题,Kolmogonov只是改变了研究对象的表达
形式,但未改变它所具有的特性,因此不存在泛化问题。Hornik等人研究的是经典函数逼
近论框架下的函数逼近问题,经典函数逼近论中,虽然新的逼近表达式中的元素和被逼近
对象中的有关元素的特性不同,但由于被逼近对象的完整特性是已知的,逼近过程在整个
定义域内实现,无延拓现象发生,因此也不存在所谓的泛化问题。从数学的角度讲,前向
网络的泛化问题是在被逼近对象的完整特性未知的条件下,由有限维离散点集间的映射关
系向无限维连续点集间的映射关系延拓时产生的。
上文我们解释了泛化问题的数学根源,接下来进一步分析泛化问题的逻辑根源。
无论是联结机制还是物理符号机制,其学习过程均表现为广义的归纳过程。联结机制
以隐含的方式表示其知识,而物理符号机制的知识表示是显现的。在归纳过程中,不存在
泛化问题,泛化是在应用过程中出现的。无论是联结机制还是物理符号机制,其应用过程
均表现为广义的演绎过程。联结机制以隐含的方式进行推理,而物理符号机制以显现的方
式进行推理。当演绎推理的结果超出了早先用于归纳学习的原始知识的具体描述时,泛化
问题便产生了。
归纳有两种,即完全归纳方式和不完全归纳方式。由完全归纳方式得出的结论是事实
而不是猜想(假说),由不完全归纳方式得出的结论是猜想(假说)而未必是事实。以完全归
纳方式得出的结论为基础的演绎推理不会出现泛化问题,因为其演绎推理的结果必然是早
先用于归纳学习的原始知识形式的某一种或某几种具体的描述,这是一种封闭的体系,用
AI的术语来说,就是这种体系只有有限的记忆功能,而没有创造功能。泛化问题来源于以
不完全归纳方式得出的结论为基础的演绎推理过程,这是一种开放的体系,它不仅具有有
限的记忆功能,同时还具有创造功能。网络的泛化问题是伴随着网络的创造功能而产生的
,泛化的结果既可能是新的发现,也可能是错误的推论。因此,泛化问题是任何开放体系
所具有的一个最基本的问题,泛化问题并不局限于联结机制,物理符号机制同样存在泛化
问题。
Kolmogonov和Hornik等人的研究不仅不涉及泛化问题,事实上也不涉及学习问题。从
数理逻辑的角度讲,经典函数逼近论是以公理和定理为基础的演绎体系,而从16世纪英国
哲学家Bacon时代开始,人们就已经认识到,归纳逻辑才是通往知识发现的主要途径。当代
英国哲学家Popper提出了关于知识发现的猜想一反驳学说,对Bacon的观点做了扩展和修正
[11]。从学习过程分析,人工神经网络采用了猜想一反驳的方式,即通过反馈环节逐步实
现学习结果的优化;从学习结果分析,人工神经网络采用了归纳方式,即从经验数据中提
取规则。也就是说,人工神经网络的学习过程并不具有典型的演绎特征。此外,同其它网
络的学习过程一样,前向网络的学习也是通过反馈环节实现的。因此,前向网络的学习过
程是严格的动力学过程。所谓前向网络是根据网络的表示和连接形式,而不是根据网络的
学习过程所具有的特征来划分的,目前流行的所谓前向网络缺乏丰富的动力特征的问题事
实上并不存在。
1991年,Brooks题为“没有推理的智能”(Intelligence without Reason)的论文在A
I领域产生了广泛的影响[12],赞赏和批评接踵而至。Brooks的文章使人们普遍产生了误解
,似乎人工神经网络所表现出的智能行为仅仅源于反馈。我们认为,反馈在智能形成机制
中起了重要作用,但不是全部作用;同时,不以显现的方式进行推理和没有推理过程的发
生是两回事。事实上,人工神经网络不是不进行推理,只不过推理过程未以显现的方式表
达而己。原因很简单,没有推理就不会出现有目的的行动,没有行动就无法产生反馈信号
,而没有反馈信号的引导,所谓的自组织行为便无法完成。从这个意义上讲,我们认为Ni
llson对Brooks工作的批评准确而恰当。Nillson在评价Brooks的工作时非常巧妙地引用了
Anden的诗句:“不会推理的将在行动时消亡,不会行动的则因此而消亡”。
人工神经网络提供了一种揭示智能和了解人脑工作方式的合理途径,但两者之间并不存在
一一对应的关系,要真正揭示智能的形成机制和了解人脑的工作原理,深入研究神经生物
学的基本规律并在构建相应的人工模型时考虑生物学的基本约束是十分必要的[13,14
]。
三、新的启示与猜测
把目光从数学家虚拟的背景中移开,再次投向真实的生物系统时,我们惊奇地发现,
在神经网络的研究中,生物学家们正在进行的工作比人们想象的更具有启发性和创造性。
Shatz对发育中的大脑进行了深入的研究,他发现成熟的神经连接形式的出现在于轴突
有选择地收缩及长出新的分枝的重新安排,轴突在其靶结构(靶位)内伸到不同地址(靶址)
,然后再通过竞争逐步消除初始选址的错误[15]。视觉系统中的靶位对应于人工神经网
络中的隐层,而靶位内的靶址对应于隐层中隐节点的位置。Shatz研究的是视网膜节细胞的
轴突在外侧膝状核内发育及成型的过程,同样的过程也发生在外侧膝状核内神经元的轴突
在初级视觉皮层(亦称V1区)内的发育成型中[14]。
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.734毫秒