Algorithm 版 (精华区)
发信人: lofe (〖感激生活〗), 信区: Algorithm
标 题: computrer vision 6
发信站: 哈工大紫丁香 (Sun Sep 10 16:44:08 2000), 转信
1.2.3 现有视觉理论的革新
如前所述计算机视觉研究的发展开始于60年代初,在基本研究方面的取得显著进展是
在70年代末和80年代。这主要归功于Marr的视觉计算理论的推动。这个理论立足于计算机
科学,系统地概括了心理物理学、神经生理学、临床病理神经学等方面已取得的所有重要
成果,是迄今为止最系
统的视觉理论。Marr的理论的出现无论对人工智能研究和神经科学的发展都产生了深远的
影响。Marr的理论的出现使得80年代的计算机视觉的研究与以前相比有显著不同。主要表
现在研究内容和方向集中在与人类视觉系统中的感知独立模块相对应的课题上,也就是根
据影调、运动、立体、
轮廓、纹理等线索恢复物体表面的形状。这些研究极大地深化了计算机视觉的研究。但是
Marr的视觉计算理论还不能被认为是一个完善的理论。它没能反映人类视觉的某些重要的
本质,这就是人类视觉中的选择性和整体性。
人类视觉的最显著特点之一是有选择性。这是指观察者的注意力总是有目的地指向他
最感兴趣的事物。一般生物最注意的是环境中时常变化的事物,忽略固定不变的事物。因
为这样就可以迅速辨别出什么是对自己最有益的,什么是对自己有害的。从而作出摄取或
躲避反应。另一个重要
的特点是,如Gestalt心理学家发现的那样,人类具有对图象数据进行组织归纳的能力,
也就是在多个层次上发现图象数据的规则性(regularity),此外还有一致性(
Coherence)、连续性(Continuity)等整体特性的能力。实验证明,人类视觉系统具有
在低层处理中获取图象的拓扑特性
的能力[钱学森 86]。
Marr的理论完全不考虑视觉中的选择性和整体性,把初级视觉研究的目标确定为按照
各种物理模型和附加约束条件,根据图象中各点灰度或其它测量结果,恢复景物中表面的
有关特性,如表面方向、深度、反射率等,但由于图象中各点的灰度是光照,表面材料的
反射特性、表面方向、
观察方位等多种因素共同作用的结果。并且在成象过程中失去了各点的距离信息。所以,
根据图象中的测量值(如灰度),恢复相应表面的三维特性(如,深度、方向),从本质
上来说是一个约束不充分(underconstrined)的问题。也就是说,图象的测量值本身不
能提供充分的信息来恢
复相应表面的三维信息。因此为能根据Marr的理论恢复表面的三维信息必须增加附加的约
束条件。例如,把物体仅限于刚体的范围,假设表面是连续的,各向同性的;或更为特殊
的约束,如表面是由平面构成,点光源照明,材料的反射率为常数等。这些约束条件只能
在某些人造环境下(例
如在所谓的"积木世界")得到满足,而在自然界或实际情况下通常是不满足的。而且即使
具备了这些条件,目前采用的大多数求解方法类似于求解经典的边界值问题。总的来说性
能比较脆弱,容易出错。Marr的理论这些困难在80年代末已经暴露得较为明显。
由上述分析可知,现有的两种视觉信息处理的理论各自遇到了严重的困难,还都不能
自成系统地、可靠地处理视觉问题。因此,有的研究者提出了各种设想对上述理论提出了
修改,并试图把这两种方法以取长补短的方式结合起来[witkin 83]。
一种改进的设想是提出了基于模型的视觉理论[Gib 67][Pen
86][Gib82]。这种理论认为信息的概念是与从一组候选的对象中作出选择相联系。如
果不知道一组可供选择的刺激或响应,人们就对刺激或响应无从说起。此外,人们还必须
知道定义这组候选物和对这组候选物的成员之间进行区别的特性或特征。而且随着要解决
的任务不同,这些特征
和特性也不同的。例如,在视觉敏感中,刺激引起在视网膜的一组可能的状态中选择一种
状态,并得到一幅图象。在感知中,选择是根据不变量(Constancies)和参数(
Parameters)作出的。如果一个婴儿能听到声音,但他的感知不变量只包括"安静"和"噪
声"的话,那么任何音乐对他来
说者将包括一样多的信息,而这些音乐对一个训练有素的音乐家来说就会包含丰富得多的
信息。
此外这种视觉理论利用特征检测器的概念作为把点状的图象数据与宏观信息相联系的
桥梁[Pentland 86]。因此,基于模型的视觉理论体现了Gestalt理论中的选择和整体性
。
另一种改进的视觉的连接主义模型(Connectionist moddel of vision)[Fel 80,
82, 85][Bal 84,
86]。动物的大脑进行计算的方式不同于当前传统的串行计算机。动物神经单元的计算相
对是比较慢的。但它们之间具有复杂的并行连接,形成高度的并行计算结构。当前神经科
学中的许多研究都是关于探索这些连接,以及试图发现这些连接是如何传递信息的。视觉
的连接主义理论的基本
前提是认为单个神经元并不传递大量的符号信息,而是通过与许多相似的神经元以适当的
方式连接来完成计算的。从点状的图象数据变换成一个整体的描述需要大量的计算,如前
所述,这对目前的串行计算机来说是难以承受的。而上述的并行计算结构则提供了一种可
能的途径。连接主义模
型的视觉理论认为Hough 变换起重要作用。Hough变换利用样板或模型(即圆周、直线、
和其它几何形状)和参数(变量)。来完成点状的传感器数据到整体描述的聚集。 此外
,Hough变换从本质上来说是适合于由并行结构来实现。Ballard还提出了连接主义模型的
计算结构,详见[Bal
84]。
--
--
☆ 来源:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: lofe.bbs@smth.org]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.941毫秒