AI 版 (精华区)

发信人: yale (AI*PP*心如止水), 信区: AI
标  题: 计算机视觉
发信站: 哈工大紫丁香 (2003年12月12日10:52:36 星期五), 站内信件

发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉1
发信站: 哈工大紫丁香 (2003年11月23日19:54:34 星期天), 站内信件

第一章 概述
1.1 什么是计算机视觉
  计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机
视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。
其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知
科学等。
  视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种
智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计
算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的
重大挑战(grand
challenge)。"计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉
能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个
有能力的视觉系统应该把所有这些处理都紧密地集成在一起。"[Neg91]作为一门学科,计
算机视觉开始于60年代
初,但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。现在计算机视觉已
成为一门不同于人工智能、图象处理、模式识别等相关领域的成熟学科。计算机视觉与人
类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。为此我
们将先介绍人类视觉。

1.1.1 人类视觉
  感觉是人的大脑与周围世界联系的窗口,它的任务是识别周围的物体,并告诉这些物
体之间的关系。我们的思维活动是以我们对客观世界与环境的认识为基础的,而感觉则是
外界是客观世界与我们对环境的认识之间的桥梁,使我们的思维与周围世界建立某种对应
关系。视觉则是人最重
要的感觉,它是人的主要感觉来源,人类认识外界信息的80%来自视觉。
  人有多种感觉,但对人的智力产生影响的主要是视觉和听觉。味觉和嗅觉是丰富多样
的,但很少有人去思考它们。在视觉和听觉中形状、色彩、运动、声音等就很容易被结合
成各种明确和高度复杂、多样的空间和时间的组织结构。所以这两种感觉就成了理智活动
得以行使和发挥作用的
非常合适的媒介和环境。但人听到的声音要想具有意义还需要联系其它的感性材料。而视
觉则不同,它是一种高度清晰的媒介,它提供关于外界世界中各种物体和事件的丰富信息
。因此它是思维的一种最基本的工具。
  视觉对正常人来说是生而有之,毫不费力的能力。但实际上视觉系统所完成的功能却
十分复杂的。有人认为视觉本身就包含了思维的一切基本因素。设想你要在一个会场中寻
找一位朋友,呈现在你眼前的是由参加会议的人、桌、椅、主席台等组成的复杂景物。眼
睛得到这些信息以后先
要对景物的各部分进行分类,然后从中选出与朋友的外表有关的特征作出判断,那么在人
的眼睛视网膜上映照的景物成象是否就能直接提供判断时所需要的有关特征呢?不是的,
这里需要大脑的思考。例如,虽然人在不同距离处观察同一物体时在眼睛中成象的大小是
不同的。但人们在观察
某人以便估计他的身高时却不会因为他在近处而感到他高些,也不会因他在远处而感到他
矮些。这是由于大脑根据被观察物体的距离和与周围物体的比较,并依靠有关的知识对输
入的图象信息进行处理,解释的结果。如果你是在一个灯光暗淡的剧院中寻找朋友,这个
问题就变得更为困难。
你刚走进剧院时开始会感到一片漆黑看不清东西,过了几分钟你的眼睛变得习惯于在黑暗
中观察。事实上你的视觉系统在此期间中对微光变得更敏感了。但这时许多本来可用的信
息丧失了,物体可能难以与背景相区分,许多细节难以分辨。即使这样人也总能认出朋友
。总之,视觉是一个复
杂的感知和思维的过程,视觉器官-眼睛接受外界的刺激信息,而大脑对这些信息通过复
杂的机理进行处理和解释,使这些刺激具有明确的物理意义。
  从以上分析我们还可以看到敏感(Sansation)、感觉(Perception)、认知(
Cognition)这三个概念之间的联系和差别。敏感是把外界的各种刺激转换成人体神经系
统能够接受的生物电信号。它所完成的是信号的转换,并不涉及对信号的理解。例如,人
眼是视觉的敏感器官,它使光
信号通过视网膜转换电信号。与摄象机的光电传感器相似,视网膜的感光细胞对光信号在
平面上进行采样,产生点阵形式的电信号,所不同的仅是摄象机的空间采样是均匀的,而
视网膜的采样是不均匀的,在中央凹附近采样分辨率高,而在周围的分辨率低。而感觉的
任务是把敏感器官的各
种输入转换和处理成为对外部世界的理解。例如,对视觉来说就是能说出周围世界中有什
么东西和这些东西之间的空间关系。这些都是关于周围世界的概念。从输入的点阵形式的
信号到形式对客观世界的各种概念其中要经过复杂的信息处理和推理。而认知是以人们对
周围客观世界的概念为
基础的。如果没有感觉这个人与外部世界的桥梁或窗口,人的思维活动就换去基本的依据

1.1.2 计算机视觉
  人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。一方面是更多未
经计算机专业训练的人也需要应用计算机,而另一方面是计算机的功能越来越强,使用方
法越来越复杂。这就使人在进行交谈和通讯时的灵活性与目前在使用计算机时所要求的严
格和死板之间产生了尖
锐的矛盾。人可通过视觉和听觉,语言与外界交换信息,并且可用不同的方式表示相同的
含义,而目前的计算机却要求严格按照各种程序语言来编写程序,只有这样计算机才能运
行。为使更多的人能使用复杂的计算机,必须改变过去的那种让人来适应计算机,来死记
硬背计算机的使用规则
的情况。而是反过来让计算机来适应人的习惯和要求,以人所习惯的方式与人进行信息交
换,也就是让计算机具有视觉、听觉和说话等能力。这时计算机必须具有逻辑推理和决策
的能力。具有上述能力的计算机就是智能计算机。
  智能计算机不但使计算机更便于为人们所使用,同时如果用这样的计算机来控制各种
自动化装置特别是智能机器人,就可以使这些自动化系统和智能机器人具有适应环境,和
自主作出决策的能力。这就可以在各种场合取代人的繁重工作,或代替人到各种危险和恶
劣环境中完成任务。
  计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大
脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和
理解世界,具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此,在实现
最终目标以前,人们努
力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完
成一定的任务。例如,计算机视觉的一个重要应用领域就是自主车辆的视觉导航,目前还
没有条件实现象人那样能识别和理解任何环境,完成自主导航的系统。因此,目前人们努
力的研究目标是实现在
高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出
的一点是在计算机视觉系统中计算机起代替人脑的作用,但并不意味着计算机必须按人类
视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行
视觉信息的处理。但是
,人类视系统是迄今为止,人们所知道的功能最强大和完善的视觉系统。如在以下的章节
中会看到的那样,对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因
此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一个
非常重要和信人感兴趣
的研究领域。这方面的研究被称为计算视觉(Computational Vision)。计算视觉可被认
为是计算机视觉中的一个研究领域。
  有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图象处理、模
式识别或图象识别、景物分析、图象理解等。由于历史发展或领域本身的特点这些学科互
有差别,但又有某种程度的相互重迭。为了清晰起见,我们把这些与计算机视觉有关的学
科研究目标和方法的角
度加以归纳。
  1. 图象处理
  图象处理技术把输入图象转换成具有所希望特性的另一幅图象。例如,可通过处理使
输出图象有较高的信-噪比,或通过增强处理突出图象的细节,以便于操作员的检验。在


  2. 模式识别(图象识别)
  模式识别技术根据从图象抽取的统计特性或结构信息,把图象分成予定的类别。例如
,文字识别或指纹识别。在计算机视觉中模式识别技术经常用于对图象中的某些部分,例
如分割区域的识别和分类。
  3. 图象理解(景物分析)
  给定一幅图象,图象理解程序不仅描述图象本身,而且描述和解释图象所代表的景物
,以便对图象代表的内容作出决定。在人工智能视觉研究的初期经常使用景物分析这个术
语,以强调二维图象与三维景物之间的区别。图象理解除了需要复杂的图象处理以外还需
要具有关于景物成象的
物理规律的知识以及与景物内容有关的知识。
  在建立计算机视觉系统时需要用到上述学科中的有关技术,但计算机视觉研究的内容
要比这些学科更为广泛。计算机视觉的研究与人类视觉的研究密切相关(见1.3.5中的论
述)。为实现建立与人的视觉系统相类似的通用计算机视觉系统的目标需要建立人类视觉
的计算机理论。


--
    笑傲江湖,侠影萍踪,几许英豪?算八部天龙,逐鹿问鼎;神雕侠侣,领袖群豪。  
屠龙宝刀,倚天长剑,赠与英雄射大雕。肝胆照,纵连城异宝,也愿全抛。            
    唯欲仰天长啸,问苍穹此生几今朝?叹鸳鸯一梦,碧血脉脉;书剑恩仇,飞雪飘飘。
曲终人散,侠客越女,尽化长江滚滚滔。猛回头,看西风漫漫,白马萧萧。            
  
                                                                   

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.239.224]
※ 修改:·junzi 於 11月23日19:55:50 修改本文·[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉3                            kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:42:26 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision3
发信站: BBS 水木清华站 (Sat Jan  9 20:48:59 1999)

1.2 视觉的计算机理论
  视觉是一个根据图象发现周围景物中有什么物体和物体在什么地方的过程,也就是从
图象得到对观察者有用的符号描述的过程。因此,视觉是一个有明确输入和输出的信息处
理问题。
  对计算机视觉系统来说,输入是表示三维景物投影的灰度阵列。可以有若干个输入阵
列,这些阵列可提供不同方面或不同视角,或不同时刻或在不同波长得到的信息。希望的
输出是对图象所代表景物的符号描述。这些描述的确切本质取决于观察的目标和期望。通
常这些描述是关于物体
的类别和物体间的关系,但也可能包括如表面空间结构,表面物理特性(形状、纹理、颜
色、材料)阴影以光源位置这样的信息。
  从输入的图象到得出景物的描述之间存在着巨大的间隙,需要经过一系列的信息处理
和理解过程。对这个过程的本质的认识是揭开视觉之谜的关键,但目前我们对些还远未了
解清楚。以下我们对此过程作初步的分析。通过视觉识别物体就是把图象的元素与已知的
景物中的物体的描述或
模型之间建立对应关系。图象中的元素是点状的象素。象素的值就是这个象素处的灰度值
,这是点状的数据。而与此相对,物体是通过它的形状、大小、几何结构、颜色等特征来
描述的。这些特征是代表物体的整体性质。要在输入的点状数据与物体的整体性质之间建
立对应关系就必须要经
过一个把点状数据聚集(grouping)起来的过程。这样的聚集过程不只是视觉中有,而且
在听觉及其它感觉中也存在。
 
  与如何形成整体性质相联系的问题是恒常性的问题。大家都知道,图象中各点的灰度
是景物中多种因素综合作用的结果。这些因素中包括光照条件、物体表面的反射特性、观
察者相对于物体的距离和方位、物体表面的反射特性、观察者相对于物体的距离的方位、
物体表面形状等。这些
因素的任何变化都会改变图象的灰度,也就会改变我们看到的图象。但是我们通过视觉所
感觉到的物体的形状,大小和颜色都是与观察者的状况以及照明条件无关的。具体而言,
当照明条件和观察者相对物体的距离方位发生变化时,虽然在视网膜上产生的图象要随之
而变化,但人看到的总
是某种形状和大小的物体。例如,当你从不同角度和距离观察一张桌子时,桌子在你的眼
睛视网膜上的成象会随之而改变,但你看到的始终是一定大小和形状的桌子。外部世界投
影在视网膜上产生了图象,这是一个敏感的过程。这个过程得到的图象是以点的方式组织
在一起的,是经常变化
的。但人在大脑中感觉到的(看到的是物体可变的外表后面的特征)。因此,大脑不但把
点状的传感信息聚集成整体,而且经过一个因素分解过程factoring)把这些影响传感器
信息的条件,即照明条件,观察者的距离和方位等因素分离出去,得到纯粹的关于物体的
信息。这些信息是不随
上述条件而变的,因此被称为恒常性(constancies)。总之,大脑不是直接根据外部世
界在视网膜上的投影成象,而是根据经过聚集过程和因素分解过程处理以后的信息来识别
物体的。
与分析上述两种处理过程有关的一个非常重要的问题,是把点状的图象信息变换成整体描
述的聚集过程与对各种影响成象结果的因素进行分解的因素分解过程之间关系。在没有完
成因素分解过程以前我们能着手进行聚集过程吗?以Marr(D. 
Marr)为首的一些科学家认为在我们得到关于物体的纯净的信息(clean information)
,例如深度、表面、方向、反射率等以前,做任何聚集的处理都是无用的。他们把这样的
纯净信息称为本征图象(intrinsic 
image),因此他们采用基于重构(reconstruction)的视觉信息处理方法,也就是通过
重构这些本征图象来识别物体。而另一派科学家则认为某些予先进行的聚集过程可以为因
素分解过程提供必要的基础。而且还可形成某种反应物体空间结构的图象关系。根据这些
图象关系可以产生对图
象内容的假设。因此,他们采用了基于推理和识别的视觉信息处理方法。前一种观点是以
Marr关于人类视觉的计算理论为代表;后一种观点是以Gestalt(Gestalt)学派,及其后
续者,如Lowe[Low 85]、Pentland[Pen 86]等关于感知组织(Perception 
organization)的理论为代表。这两派理论各自反映了视觉过程中的基本矛盾,但都未能
对视觉过程作出满意的解释。这两种理论的争论推动了对视觉的研究(见图1.1)。
 

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉4                            kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:42:35 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision 4
发信站: BBS 水木清华站 (Sat Jan  9 20:50:14 1999)

1.2.1 Marr(Marr)的视觉计算理论
  Marr的视觉计算理论立足于计算机科学,系统地概括了心理物理学、神经生理学、临
床神经病理学等方面已取得的所有重要成果,是迄今为止最系统的视觉理论。Marr的理论
的出现对神经科学的发展和人工智能的研究产生了深远的影响。
  Marr认为视觉是一个信息处理过程。这个过程根据外部世界的图象产生对观察者有用
的描述。这些描述依次由许多不同的,但固定的每个都记录了外界的某方面特征的表象(
representation)所构成或组合而成。一种新的表象之所以提高了一步是因为新的表象表
达了某种信息,而这种
信息将便于对信息作进一步解释。按这种逻辑来思考可得到这样的结论:即在对数据作进
一步解释以前我们需要关于被观察物体的某些信息,这就是所谓的本征图象。然而,数据
进入我们的眼睛是要经过光线为媒介的。灰度图象中至少要包含关于照明情况,观察者相
对于物体的位置的信息
。因此,按照Marr的方法面临的问题是如何把这些因素分解开。他认为低层视觉(即视觉
处理的第一阶段)的目的就是要哪些变化是由哪些因素引起的。大体上来说这个过程要经
过两个步骤来完成:第一步是获得表示图象中的变化和结构的表象。这包括检测灰度的变
化,表示和分析局部的
几何结构,以及检测照明的效应等处理。第一步得到的结果被称为初始简图(Primal 
Sketch)的表象;第二步对初始简图进行一系列运算得到能反映可见表面几何特征的表象
,这种表象被称为二维半(2.5 
D)简图或本征图象。这些运算中包括由立体视觉运算提取深度信息,根据灰度影调、纹
理等信息恢复表面方向,由运动视觉运算获取表面形状和空间关系信息等。这些运算的结
果都集成到本征图象这个中间表象层次。因为这个中间表象已经从原始的图象中去除了许
多的多义性,是纯粹地
表示了物体表面的特征,其中包括光照、反射率、方向、距离等。根据本征图象表示的这
些信息可以可靠地把图象分成有明确含义的区域(这称为分割),从而可得到的比线条、
区域、形状等更为高层的描述。这个层次的处理称为中层视觉处理(intermediate 
Processing)。Marr视觉理论中的下一个表象层次是三维模型,它适用于物体的识别。这
个层次的处理涉及物体,并且要依靠和应用与领域有关的先验知识来构成对景物的描述,
因此被称为高层视觉处理。
  Marr的视觉计算理论虽然是首次提出的关于视觉的系统理论,并已对计算机视觉的研
究起了巨大的推动作用,但还远未解决人类视觉的理论问题,在实践中也已遇到了严重困
难。对此现在已有不少学者提出改进意见,关于这个问题将在第二章中详细讨论。
 

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉5                            kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:42:41 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision 5
发信站: BBS 水木清华站 (Sat Jan  9 20:51:10 1999)

1.2.2 基于推理的视觉理论
  由于只根据图象数据本身不能对相应的物体空间结构提供充分的约束,也就是说这是
一个约束不充分(underconstrained)的问题。因此,为了理解图象的内容必须要有附加
的约束条件。Gestalt心理学家发现的感知组织现象是一种非常有力的关于象素整体性附
加约束。从而为视觉推
理提供了基础。Gestalt是德文Gestalt的译音。英文中常译成form(形式)或shape(形
状)。Gestalt心理学家所研究的出发点是"形",它是指从由知觉活动组织成的经验中的
整体。换言之,模式塔心理学家认为任何"形"都是知觉进行了积极组织或构造的结果或功
能,而不是客体本身就有
的。在视觉研究中Gestalt理论认为把点状数据聚集成整体特征的聚集过程是所有其它有
意义的处理过程的基础。人的视觉系统具有在对景物中的物体一无所知的情况下从景物的
图象中得到相对的聚集(grouping)和结构的能力。这种能力被称为感知组织。按
Gestalt理论感知组织的基本原
理被称为Pragmant,意却"简约合宜"。它来源于Gestalt心理学家发现有些"形"给人的的
感受极为愉悦的。这就是那些在特定条件下视觉刺激被组织得最好,最规则(对称、统一
、和谐)具有最大限度的简单明了性的"形"。对这种形他们发明了一个独特的字眼,即
Pragnant,有人把这个词
译成"完形"。人的视觉系统具有很强的检测多种图案和随机的,但又有显著特色的图象元
素的排列的能力。例如,人可从随机分布的图象元素中立即检测出对称性,集群、共线性
、平行性、连通性和重复的纹理等。感知组织把点状的传感数据变换成客观的表象。在这
些表象中用于描述的词
藻不是在点状定义的图象中的灰度,而是如形状、形态、运动和空间分布这样的描述。由
感知组织完成的这样的变换可被看与对实函数作Fourior变换相似。在作Fourior分析时,
一个函数是以Fourior域中的Fourior分量来表示的。利用Fourior分析,我们可以用一组
Fourior系数来描述一个
函数。这样做的优点是用一组有限的系数就可提供一个良好的整体描述,这样使复杂性大
为降低。虽然,很可能这个函数没有一个点的值是被正确地表示出来。这里就象是在感知
中那样,局部与整体虽然是相互联系的,但本质上是不同的。总之,感知组织对传感器数
据进行了整体的分析,
得到一组宏观的表象。这样的宏观表象就是我们进行认知的活动时的基本构件,用它们可
构成我们对外部世界的描述。
  Gestalt理论反映了人类视觉本质的某些方面,但它对感知组织的基本原理只是一种
公理性的描述,而不是一种机理性的描述。因此自从在本世纪二十年代提出以来未能对视
觉研究产生根本性的指导作用。但是研究者对感知组织原理的研究一直没有停止。特别是
在80年代以后,Witkin
和Tenenbaum[Win 83],Lowe[Lowe 86],Pentland[Pen 86]等人在感知组织的原理,以及
在视觉处理中应用方面取得了新的重要研究成果。

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉6                            kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:42:51 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computrer vision 6
发信站: BBS 水木清华站 (Sat Jan  9 20:52:29 1999)

1.2.3 现有视觉理论的革新
  如前所述计算机视觉研究的发展开始于60年代初,在基本研究方面的取得显著进展是
在70年代末和80年代。这主要归功于Marr的视觉计算理论的推动。这个理论立足于计算机
科学,系统地概括了心理物理学、神经生理学、临床病理神经学等方面已取得的所有重要
成果,是迄今为止最系
统的视觉理论。Marr的理论的出现无论对人工智能研究和神经科学的发展都产生了深远的
影响。Marr的理论的出现使得80年代的计算机视觉的研究与以前相比有显著不同。主要表
现在研究内容和方向集中在与人类视觉系统中的感知独立模块相对应的课题上,也就是根
据影调、运动、立体、
轮廓、纹理等线索恢复物体表面的形状。这些研究极大地深化了计算机视觉的研究。但是
Marr的视觉计算理论还不能被认为是一个完善的理论。它没能反映人类视觉的某些重要的
本质,这就是人类视觉中的选择性和整体性。
  人类视觉的最显著特点之一是有选择性。这是指观察者的注意力总是有目的地指向他
最感兴趣的事物。一般生物最注意的是环境中时常变化的事物,忽略固定不变的事物。因
为这样就可以迅速辨别出什么是对自己最有益的,什么是对自己有害的。从而作出摄取或
躲避反应。另一个重要
的特点是,如Gestalt心理学家发现的那样,人类具有对图象数据进行组织归纳的能力,
也就是在多个层次上发现图象数据的规则性(regularity),此外还有一致性(
Coherence)、连续性(Continuity)等整体特性的能力。实验证明,人类视觉系统具有
在低层处理中获取图象的拓扑特性
的能力[钱学森 86]。
  Marr的理论完全不考虑视觉中的选择性和整体性,把初级视觉研究的目标确定为按照
各种物理模型和附加约束条件,根据图象中各点灰度或其它测量结果,恢复景物中表面的
有关特性,如表面方向、深度、反射率等,但由于图象中各点的灰度是光照,表面材料的
反射特性、表面方向、
观察方位等多种因素共同作用的结果。并且在成象过程中失去了各点的距离信息。所以,
根据图象中的测量值(如灰度),恢复相应表面的三维特性(如,深度、方向),从本质
上来说是一个约束不充分(underconstrined)的问题。也就是说,图象的测量值本身不
能提供充分的信息来恢
复相应表面的三维信息。因此为能根据Marr的理论恢复表面的三维信息必须增加附加的约
束条件。例如,把物体仅限于刚体的范围,假设表面是连续的,各向同性的;或更为特殊
的约束,如表面是由平面构成,点光源照明,材料的反射率为常数等。这些约束条件只能
在某些人造环境下(例
如在所谓的"积木世界")得到满足,而在自然界或实际情况下通常是不满足的。而且即使
具备了这些条件,目前采用的大多数求解方法类似于求解经典的边界值问题。总的来说性
能比较脆弱,容易出错。Marr的理论这些困难在80年代末已经暴露得较为明显。
  由上述分析可知,现有的两种视觉信息处理的理论各自遇到了严重的困难,还都不能
自成系统地、可靠地处理视觉问题。因此,有的研究者提出了各种设想对上述理论提出了
修改,并试图把这两种方法以取长补短的方式结合起来[witkin 83]。
  一种改进的设想是提出了基于模型的视觉理论[Gib 67][Pen 
86][Gib82]。这种理论认为信息的概念是与从一组候选的对象中作出选择相联系。如
果不知道一组可供选择的刺激或响应,人们就对刺激或响应无从说起。此外,人们还必须
知道定义这组候选物和对这组候选物的成员之间进行区别的特性或特征。而且随着要解决
的任务不同,这些特征
和特性也不同的。例如,在视觉敏感中,刺激引起在视网膜的一组可能的状态中选择一种
状态,并得到一幅图象。在感知中,选择是根据不变量(Constancies)和参数(
Parameters)作出的。如果一个婴儿能听到声音,但他的感知不变量只包括"安静"和"噪
声"的话,那么任何音乐对他来
说者将包括一样多的信息,而这些音乐对一个训练有素的音乐家来说就会包含丰富得多的
信息。
  此外这种视觉理论利用特征检测器的概念作为把点状的图象数据与宏观信息相联系的
桥梁[Pentland 86]。因此,基于模型的视觉理论体现了Gestalt理论中的选择和整体性

  另一种改进的视觉的连接主义模型(Connectionist moddel of vision)[Fel 80, 
82, 85][Bal 84, 
86]。动物的大脑进行计算的方式不同于当前传统的串行计算机。动物神经单元的计算相
对是比较慢的。但它们之间具有复杂的并行连接,形成高度的并行计算结构。当前神经科
学中的许多研究都是关于探索这些连接,以及试图发现这些连接是如何传递信息的。视觉
的连接主义理论的基本
前提是认为单个神经元并不传递大量的符号信息,而是通过与许多相似的神经元以适当的
方式连接来完成计算的。从点状的图象数据变换成一个整体的描述需要大量的计算,如前
所述,这对目前的串行计算机来说是难以承受的。而上述的并行计算结构则提供了一种可
能的途径。连接主义模
型的视觉理论认为Hough 变换起重要作用。Hough变换利用样板或模型(即圆周、直线、
和其它几何形状)和参数(变量)。来完成点状的传感器数据到整体描述的聚集。 此外
,Hough变换从本质上来说是适合于由并行结构来实现。Ballard还提出了连接主义模型的
计算结构,详见[Bal 
84]。
 

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉7                            kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:42:56 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision 7
发信站: BBS 水木清华站 (Sat Jan  9 20:53:58 1999)

1.2.4 感觉的解析计算模型[Mar83]
  目前数字计算机已能代替人完成复杂的科学计算, 
其速度远超过人脑。并且现在已研制出能在比较窄的领域里表现出成年人推理能力的程序
。但目前由计算机控制的智能机器在感觉能力方面表现出来的水平大致只能与蚱蜢相当。
人们在这些领域里所作好努力是差不多的,但结果都有这么大的差别,其原因是什么?此
外,人的感觉的反应是
极其迅速,并且非常可靠的。这可能意味着,感觉系统的工作更象是从某种相关的记忆里
作回想,而不是进行了某种计算。这里所说的是指由模型化为图灵机(Turing 
Machine)或其等同物的计算。因此,这就很自然地产生一个问题,感觉过程能否模型化
为图灵机,并用数字计算机来实现呢?也就是说,感觉过程的模型能否建立在符号计算的
基础上。对人脑和神经生理的许多研究成果表明解析计算(Analytical 
Computation)能更好地反映感觉过程的某些重要特征。Hopfield的神经网络模型就是一
种解析计算模型[Hopfield 82][Hopfield & Tank 85]。
  这种模型认为人脑中进行的信息处理不是离散的符号处理,而是一种连续的反应过程
。这就是说,神经网络中的神经元之间的信息交流除了在最后一层以外的的所有层次上都
连续的。来自环境的输入信息引起网络的进化过程,这个过程是由某种最小值原则导引的
。系统的稳定状态就是
系统的局部最小值。这样的连续过程服从解析计算模型的微分方程。目前这方面的研究面
引起广泛的兴趣,并已取得不少有意义的成果。
 

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉8                            kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:43:01 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision 8
发信站: BBS 水木清华站 (Sat Jan  9 20:54:26 1999)

1.4 人类视觉与计算机视觉的比较
  目前人们所建立的各种视觉系统极大多数是只适用于某一特定环境或应用场合的专用
系统,而要建立一个可与人类的视觉系统相比拟的通用视觉系统是非常困难的。主要原因
有以下几点:
  1. 图象对景物的约束不充分。首先是图象本身不能提供足够的信息来恢复景物,其
次是当把二维景物投影成二维图象时丧失了深度信息。因此,需要附加的约束才能解决从
图象恢复景物时的多义性。
  2. 多种因素在图象中相互混淆。物体的外表受材料的性质、空气条件、光源角度、
背景光照、摄象机角度和特性等因素的影响。所有这些因素都归结到一个单一的测量,即
象素的灰度。要确定各种因素对象素灰度的作用大小是很困难的。
  3. 理解自然景物要求大量知识。例如,要用到阴影、纹理、立体视觉、物体大小的
知识;关于物体的专门知识或通用知识,可能还关于物体间关系的知识等。由于所需的知
识量极大,难以简单地用人工进行输入,可能要求通过自动知识获取方法来建立。
  4. 人类虽然自己就是视觉的专家,但它又不同于人的问题求解过程,难以通过自已
说出自己是如何看见事物的,从而给计算机视觉的研究提供直接的指导。
  视觉机理的复杂深奥使有些学者不禁感叹道:如果不是因为有人的视觉系统作为通用
视觉系统的实例存在的话,他都怀疑不能找到建立通用视觉系统的途径。从另一方面来看
,正如Rossen所说的:"从进化的观点来说,生理系统是人类解决复杂问题的最好的百科
全书。"对建立通用视觉
系统这个难题来说,在长期进化过程中高度发展了的人类视觉系统确实提供了最好的实例
。例如,对人类视觉中可区别的独立视觉模块的研究就帮助我们认识了在没有先验知识的
条件下初级视觉处理能否获得丰富的有用描述的问题。
  许多心理物理学实验证明在人的视觉系统中似乎存在独立的特定模块。其中著名的例
子有Land[Lan 71]关于照明的计算和Julesz[Jul 71]关于立体视觉的实验。例如,
Julesz 
的实验证明了人的视觉系统可在对图象的内容一无所知的情况下进行立体视觉处理,获得
深度信息。他用计算机产生左、或两幅由随机点组成的图象。从单幅图象看,这两幅图都
不过是由一些随机分布的点组成的图案,并无物理含义。但当用立体镜观察,把这两幅图
融合在一起时就得到了
立体信息(详见第五章)。这说明在人的视觉系统中似乎存在着独立的立体视觉模块。除
此以外还有其它的独立模块。Horn[Hor 75][Ike 81]研究了人类视觉根据影调得到物体形
状的能力,steven[ste 81]研究了人对表面轮廓作出三维形状解释的能力等。更多的有关
研究可参见[Bob 
81]。显然,这些研究结果与70年代初期流行的认为初级视觉处理难以得到丰富的有用描
述的观点相反,并且标志着80年代的计算机视觉研究的趋势与10年以前已大不相同。其主
要特点是研究集中在与人类视视觉系统中的可区分的独立模块相应的课题上,并且许多研
究者希望他们的工作能
与心理物理学和神经生理学的理论有直接的联系。从长远来看,建立人类视觉的计算理论
,并进而建成可与人类视觉系统相比似的通用视觉系统是计算机视觉研究的最终目标。对
人类视觉的研究涉及神经生理学、心理物理学、心理学等多方面。对人类视觉机理的了解
释为建立视觉的计算理
论提供有益的启示,与此同时,视觉计算理论的研究又促进了在上述领域中引入计算机技
术。这又推动了这些学科自身的发展。
  强调计算机视觉研究与人类视觉研究之间的紧密关系,并不意味着计算机视觉系统要
机械地模仿人类视觉系统。因为生物视觉系统是生存竞争中进化的产物,带有由此而来的
优点和局限性。[Bra 83][Per 
83]其优点是具有高分辨率、有立体观察、优越的识别能力和灵活的推理能力,可灵活地
根据各种视觉线索进行推理:
  1. 能否根据距离的远近对不同的物体,特别是对不同的生物作出不同反应的能力应
该是视觉系统发展中的重要准则。视觉系统的优点在于不与环境直接接触就可以作出响应
。如果视觉系统不能反应距离远近,那么就使视觉系统的这个优点受到严重限制。
  2. 应用视觉的初等生物体需要有能力自动地对环境的刺激作出响应。理解能力是进
化的更高阶段中感知过程的结果。
  3. 感觉机制必然是在足以确保生存或对生存有利的基础上发展起来的。因此不能认
为这些机制是利用了从数学或计算机观点来看的最优解。所以有必要具体分析人类视觉系
统的特点。人类视觉系统大致有以下特点:
  (1) 
深度感觉的首要性。可能初等生物体表面上的光敏区开始时只能提供关于光源的方向信息
,或者阴影可能表示一个捕食动物正在逼近的方向。感光区域上感知的阴影面积的增加可
能意着捕食者正在逼近,这可能是深度感知的早期形式。这样的进化过程只是一种分析,
但是有依据说明在人类
视觉系统中探测阴影逼近的机能直接与感知物体在深度上的移动有关。对人类试验者进化
的心理物理学实验和对猫进行的生理学实验都支持这样机理的存在。这种类型的机理与
Marr提出的从视网膜上的二维表象开始,经过一个或多个中间表象计算再作三维解释的机
理不同。
  (2) 
感知是个自动进行的过程。感知的特点在于它是一个自动进行的过程,并且它抵制根据与
其相矛盾的知识作出修改。实验证明,如果让一个观察者先观察一个旋转着的收缩螺丝,
那么在他习惯以后再去观察另一个物体,例如,一张人脸,就会感到人脸在膨胀。观察者
可能可已经知道人脸并
没有膨胀,但这并不防碍得到这种膨胀的感觉。还有许多例子可证明人会出现这种明知与
常识或已知情况相矛盾的感觉。
  虽然与感觉相矛盾的知识不能改变人的感觉,但显然它可影响人对视觉刺激作出不同
的反应。一个人如果根据情况已知不会有大的物体正在逼近,那么当他看到出现一个影子
时不会逃跑。但当影子突然出现时,他还会不自觉地感到害怕。人类虽然已具有较高级的
理解能力,但视觉系统
似乎保留着对某种刺激自动作出反应的能力。从进化的观点,感知与知识相分离可能是有
道理的,但对用于准确分析三维景物的视觉系统来说就是不可取的。
  (3) 
感知中对启发式知识的应用。自然环境中的许多物体是刚体,所以在进行化过程中发展起
来的人类视觉系统在根据视网膜上的物体投影分析物体时假设物体是刚体,以简化分析是
有道理的。例如,如果视网膜上成象的大小变化,而形状保持不变,就可认为物休的远近
起了变化。但在某些特
殊情况下,在分析成象的大小变化时视觉系统并不采用通常的刚性物体的假设,而是采用
不同于刚性假设的其它特殊过程。例如,当在平面中旋转图1.5(a)所示的由两个螺纹状图
(图1.5(b)和(c))连接成的图形时,人在观察时通常会感到这是一个正在变形的三维形
状。这种情况下在视网
膜上的成象是与刚体的运动不相符合的,也即图形在平面内旋转,而这个运动的刺激图象
似乎给人以图形的一部分正在膨胀,而另一部分正收缩的印象。在刚体上是无法同时造成
收缩和膨胀印象的。因此,这使人感到是一个正在变形的三维物体。这种感觉并不因为刚
性物体的假设而消失。

 
图1.5 (a)(b)(c)这个二维图形在平面内旋转时,使人感到是一个非刚性的三维形状,
(b)、(c),这两个图象在平面内旋转时似乎在膨胀或收缩,这要取决于旋转的方向。
  在计算机视觉系统中如果在计算中保持物体的刚性假设就可以避免上述这种不可靠的
感觉。虽然人类视觉中的这种近似过程有时会造成错误,但比单纯应用刚性假设可能有下
优点:(1) 这样的过程使系统不致于过分偏向于刚体运动的感知,不然就会反过来影响对
非刚体的感知;(2) 
人类视觉系统所应用的启发式感知的过程对生理系统来说可能要比采用通用的刚性物体假
设简便;(3)人类视觉系统对几何问题不采用产生严格求解方法的原因是这样可以更为迅
速地求解。对动物的生存来说,一个可迅速地探测到潜在危险的近似求解方法比虽然可准
确识别,但费时过多的
方法要有用得多。
  除了以上特点以外,人类视觉系统有分辨率高、识别能力优越、能进行灵活的推理等
优点,以及在根据外部视觉成象推论物体三维形状或姿态时会产生严重错误的弱点
[Perkins 
83]。综上所述,从建立通用的计算机视觉系统的角度来看,关键之点不是机械地模仿认
类视觉系统,而是通过对人类视觉系统的研究发现是什么因素使人类视觉系统的性能如此
之好,并且把它结合到计算机视觉系统中去。
 

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉9                            kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:43:06 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision 9
发信站: BBS 水木清华站 (Sat Jan  9 20:55:51 1999)

参考书:
[钱学森86]钱学森,关于思维科学,上海人民出出版社,1986。
[Arn 69] Arnheim, R., Visual Thinking, University of California Press, 1969.
[Bal 84] Ballard, D.H., Parameter Nets, Artificial Intelligence 22(1984), 
235-267.
[Bal 86] Ballard, D.H., Cortical Connections and Parallel Processing: 
Structure and Function, Behavioral and Brain Sciences 9, 1986, 67-120.
[Bra 83] Braunstein, M.L., Contrasts between human and machine Vision: Should 
technology recapitulate phylogeny, in Human and Machine Vision, Bech, J. 
et.al.eds, Academic Press, 1983, 85-95.
[Fal 72] Falk, G., Interpretation of Inperfact Line Data as a Three-dimensiona
l Scen, Artificial Intellligence 3, 1972, 101-144.
[Gib 67] Gibson, E, J., Principles of Perceptual Learning and Development, 
New York, 1967.
[Gib 82], Gibson, J.J., What is Involved is Surface Perception, In 
J.Beck(ed).Organization and Representation in perception, 1982.
[Guz 68] Guzman, A., Decomposition of a Visual Scene into Three-Dimensional 
Bodies, in Proceedings of AFIPS Fall Jaint Conference, 33: 291-304.
[Hop 82] Hopfield, J.J., Neural Netwenks and Physical Shstems with Emergent 
Collective Computational Ability, In Proceedings of the National Academy of 
the USA , 79, 1982, 2554-58.
[Hop 85] Hopfield, J.J., and Tank, D.W., Neural Computation in optimization 
Problems, Biological Cybernetics, 52, 1982, 141-152.
[Hor 75] Horn, B.K.P., Obtaining Shape from Shading Information, In The 
Psychology of Computer Vision, P.H. Winston(ed), McGraw Teill Book Co., New 
York, 1975, 115-155.
[Ike 81] ikewchi, K. & Horm, B.K.P., Namerical Shape from Shading and 
Occluding Boumdaries, Artificial Intelligence, 17. 1981, 141-184.
[Jul 71]Julesz, B., Foundations of Cyclopean Perception, Chieago University 
Press, 1971.
[Kan 87] Kanal, L. & Tsao, T. Artificial Intelligence and Netural Perception, 
In Intelligent Auto nomous Systems, 1987.
[Lef 79] Lefton, L.A., Psychology, Allyn and Bacon. Inc. 1979.
[mar 82] Marr, D., Vision, W.H. Freeman and Company, 1982.
[Neg 91] Negahdaripour,S. & Jain, A.K., Final Report of the NSF Workshop on 
the Challenges in Computer Vision Research; Futare Directions of Research, 
Lahina, Maui, Hawaii, Jane 78, 1991.
[Per 83] PerKins, D.N., Why the human perceiver is a bad machine, in Human 
and Machine Vision, Beck, J.et.al.eds, Academic Pless. 1983. 341-364.
[Rob 65] Roberts, L.G., Machine Perception of Three-Dimensional Solids, in 
Optical and Electro-Optical M.I.T.Press. 1965, 159-197.
[Ste 81] Stevens, K.A., the information Contents of texture gradients. 
Biological Cybernetics, 42, 1981, 95-105. 

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉10                           kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:43:11 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision 10
发信站: BBS 水木清华站 (Sat Jan  9 21:01:53 1999)

第九章 纹 理

9.1 概述
9.2 人类视觉系统的纹理分割模式
9.3 纹理描述
9.31 纹理描述的统计方法
9.3.2 纹理描述的结构方法

9.1 概述
9.1 纹理的定义
  
尽管纹理测量在图象分类和图象分析中是很重要的特性,并且它几乎到处存在,从多光谱
卫星图片到细胞组织的图象都可以看到纹理,但目前对纹理还没有精确地定义。图 (a)
中是通过把特定的子图象有规则地重复,由人工产生的纹理。图 (b)中是更为复杂的自
然纹理。图象纹理可定性
地用以下一种或几种描述来表征:粗的、细的、平滑的、颗粒状的、随机的、线划状的或
斑驳杂色的,不规则的或波纹状的。从图 (a)和 (b)中所示的纹理可看到纹理是一种有
组织的区域现象,它的基本特征是移不变性(shift 
invariance),也即对纹理的视感知基本上与图象中的位置无关。移不变性或被描述成是
确定性的,(规则的或结构的)或是随机的(不规则的),但很可能存在着介于这二者之
间的类别。确定性的图案通常是人造的,并且由线条、三角形、矩形、圆、多边形有规律
的排列组成。而随机图
象则通常是自然界产生的。
9.1.2 纹理的描述和分析方法
  描术纹理图象 的简章数学模型是:
 
其中 是位移(或关系)规则, 是象素的小区域,它构成了纹理基元(元素)。 本身又
是输入图象I(i, j)的函数。以下对纹理的研究也是从纹理基元和位移或关系规则这两方
面进行的。由于纹理基元的重要性,下面我们将先对它进行单独讨论。


图 人造和自然纹理图案
  纹理分析方法主要有两类, 一类是统计的方法,另一类是结构分析的方法。统计的
方法对纹理进行分析,并描述图案 的特征。结构分析的方法则试图通过研究(9-1)式中
的 和 
的特性来揭示纹理的细节。这样做显然要困难得多,这也是为什么人们倾向于采用统计方
法的原因。但是,如果 和 有明碓的定义或已知,那么用结构分析的方法就很简单。
  按方程的观点,可以从两个方面描述纹理。第一个方面用于描述组成纹理的基元;第
二个方面用于描述纹理基元之间的空间联系或相互影响。第一个方面与纹理区域中的影调
基本分布情况(称为影调基元)或局间特性有磁。第二个方面与影调基元的空间组织有关

  影调基元是具有确定影调特性的区域,可以用绪如平均灰度,或区域中的最大和最小
灰度这样的特性来描述。把具有给定影调基元,可以按它的面积和形状来评价影调基元。
影调可以按它的面积和形状来评价影调基元。影调基元不但包括它的灰度而且包括它的影
调的区域特性。











图 纹理分析方法
  纹理可用纹理基元的数量和类型以及这些基元的空间组织或排列来描述。纹理的空间
组织可以是随机的,可能一个基元对相邻基元有成对的依赖关系,或者内个基元同时相互
关联。这样的关联可能是结构的、概率的或是函数的。纹理分析的方法可用图 示意表示

9.1.3 纹理基元与影调
  一个纹理基元(不严格地说)是一个具有一定的不变特性的视觉基元。这些不变特性
在给定区域内的不同位置上,以不同的变形和不同的方向重复出现。纹理基元最基本的不
变特性之一是区域内象素的灰度分布,在更为复杂的情况下可能还有与形状有关的特性,
而影调也是表示灰度的
明暗分布。因此,我们认为影调和纹理不是独立的概念它们之间的关系很象光波中的粒子
与波之间的关系。光在任何时候都有粒子性和波动性,但是根据具体情况粒子性或波动性
可能占主导地位。相似地,在图象中总存在影调和纹理,只是有时一种特性相对于另一种
特性占优势。在实际问
题的处理中,为了简便,我们经常倾向于认为只有影调或只有纹理。因此,当我们定义影
调和纹理时,我们不是定义两种概念,而是定义影调-纹理概念。
  影调-纹理概念内部的基本关系如下所述:当在图象的一定面积区域中影调基元的变
化很小时,这个区域的主导特性是影调。当在小面积区域中含大量不同的影调,这个区域
占主导的特性是纹理。按这种区分方法,关键之点是小面积区域的大小,影调基元的相对
大小和类型以及可区分
的影调数量减少,影调特性就占主导地位。事实上,当小面积区域小到只有一个分辨率单
元大小,以至只有一种独立的特性时,表现出来的唯一特性就是简单的灰度影调为当小面
积区域中可区分的影调基元数量增加时,纹理特性将占主导。当影调基元中的空间图案是
承机的,以及基元之间
的灰度影调的变化范围很广时,这就得到精细的纹理。当空间图案变得较为确定以及影调
区域波及较多的象素时,就得到粗糙的纹理。
  图象表现出的影调-纹理特性图象的分辨率密切相关。因为在纹理基元定义中的一个
重要部分是基元要在给定区域中重复出现,问题是重复多少次?为了定性地回答这个问题
,可以想象把一个近似等于我们视场的窗口迭加到一个很大的纹理区域上。随着这个窗口
逐渐变小,这相当于移
动视点逐渐靠近纹理,这时包含在窗口呐的纹理越来越少。到某一距离时,窗口内的图象
不再出现纹理。如果窗口逐渐增大,这相当于视场逐渐远离图象,也会发生类似的效果。
当增大到某一距离时,纹理细节逐渐模糊,变成连续的影调,当窗口平移时,再也看不到
重复的纹理基元。因此
,在定义纹理时需要有合适分辨率的概念。在此合适分辨率之下,纹理将是明显的,而且
随视场在纹理区域内移动时,纹理"看起来是一样的"。通常合适分辨率并不知道,但必须
计算出来。Connors提出一一种通过检查图象中重复的最大值来计合适分辨率的方法。
  纹理可以是分级的。不同级相应于不同的分辨。"砖墙"纹理可以说这样的分级性质。
在某一分辨率之下,可明显看到由砖组成的结构性很强的图象,而分辨率更高时,则可看
到每块砖表面的细致纹理。
9.4 纹理研究的领域
  纹理研究的领域大致可分成三种类型。第一类是纹理的描述和分类。这类问题在图象
识别中有重要应用,因此已经引趣了广泛的重视。例如,在医学图象处理中利用纹理特性
来区别正常细胞和癌细胞。这时,就要先抽取这两种细胞图象的纹理特性,然后进行分类
识别。第二类是以纹理
为特征的图象分割。第三类是利用纹理信息推断物体的深度信息或表面方向。
  纹理可提供关于可见表面几何结构的重要信息。首先研究这个问题的Gibson[Gibson 
50, 
66]。因为图象本身不能提供求解所需的足够信息,为此要对纹理的几何特性作出假设。
Gibson假设纹理基元在物体平面上的分布密度是均匀的。他发现这时根据图象中纹理基元
密度的梯度可以确定表面的方向。如图 (a)所示,在纹理基元分布均匀的条件下,表面
倾斜方向在图象中的投影
变是局部纹理密度变化量大的方向,或者说是垂直于纹理基元分布最均匀的那个方向。在
图 (b)中所示的情况 下,按后一种方法就是寻找与透视直线 等间隔相交的直线方向
(见图 (c))。但是,Stevens[Stevens 80]的研究发现在透视投影的条件下纹理密度
梯度既取决于表面方向,又取决于物体的距离和位置。因此纹理基元密度并不是表面方向
的良好测量。由于纹理对居恢度表面方向的重要性,所以在这方向已进行了大量研究。详
见[Bajcsy 76] [Witkin 81] [Kender 80] [Kanatni 84] [Aloimonos 85]。


--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉11                           kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:43:18 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision 11
发信站: BBS 水木清华站 (Sat Jan  9 21:03:49 1999)

9.2 人类视觉系统的纹理分割模型
  根据已有的证据,人类视觉系统是以图象中所示的方式进行纹理分割的。首先假设,
如前面第 章中所述,输入的图象是以并行的方式在多通道中进行处理的。表示输入图象
在不同频率范围中特性的输出向量被用于计算一定面积内的粗














图 纹理分割的模型

细度、对比度和边缘方向。这三个行性是影响聚集过程的主要因素。多通道模型的输出是
一组区域 ,这些区域是根据逻辑谓词P对图象I(I, 
j)的采样网格X进行分割的结果。逻辑谓词定义了进行聚集的条件。按照图 中所示的模
型,纹理分析是一个通用的处理过程,也就是说它与图象中内容特定的应用范围无关,也
即符合低层视觉处理的定义。这可能意味着在人类视觉中纹理的辨别是在双目立体视觉融
合以后,发生在大脑皮
层。
  人们可用来描述纹理的性质有,均匀性(Uniformity)、密度(densiity)、粗细度
(Coarseness)、粗糙度(roughness)、规律性(regularity)、线性度(linearity)
、定向性(directionality)、方向性(dinection)、频率(frequency)和相位(
phase)。这些性质的理想
化图示如图 所示。显然,这些性质之间是相互有联系的。虽然,目前还不完全清楚人类
视觉系统中实际应用多少种性质来描述纹理,但可比较有把握地说,上述性质中的大多种
性质的量测。
图 描述纹理的性质
  人们用来描述纹理最常用的词巢是粗的或细的[Tamura 
78]。什么是粗的、什么是细的纹理目前还无精确的定义。粗略地讲,我们通过观察组成
图案的纹理基元,如果这些基元的尺寸较大,或有许多重复的基元,则给人总的印象是粗
的。例如,图 中的 和 所示的纹理。已有人提出了检测纹理粗、细程度的多通道模型
。 [Hayes 74] [shen 
80][zucker 
75]做法是在一个小区域里检 查一组不同频率通常的输出,选择其中响应的最强的通道
。空间频率最低的通道被认为表示是粗的纹理,那么高空间频率通道就被认为表示细的纹
理。由于通道的响应大小不但由基元的大小,而且由分布规律所决定。所以还需要在一个
领域里作出每个通道响
应的直方图曲线[zucKer 75],通过分析这些曲线的特性就能确定纹理的粗、细。
  描述纹理的第二个特性是边缘元素的方向,或斜率。心理物理学的实验研究表明这个
特性非常重要。图 中的实验表明了基元斜率对区别纹理的强烈影响。正放的和倾斜的T
形之间很容易区分。L形和正放的T形之间在形状上很不同,但似乎可以聚集成一个区域。
图 中证明了相似的效
应。图中包括猫、旋转的猫和猫的镜象组成。当要求被试验者确定图象中的边界时,最常
发生的是选择右边的边界[Beck 82]。虽然从单个来看,中间的猫与右面猫的镜象比与
左面旋转的猫相比更相似些。


图 影响纹理区分的因素
(a) 基元斜率的影响,(b) 图形的镜象由于斜率不同于原始图形,更容易与原始图象相区

  我们可以把纹理分成有方向性的和无方向性的两种。同样地,纹理基元的形状和分布
规律都会影响我们对纹理方向性的感知。这里所采用多通道模型,对多通道的输出信号用
边缘检测算子产生在特定方向q上的边缘段。然后求出边缘方向的直方图,直方图的形状
就可以说明纹理的方向
性。如果直方向图上具有光锐和较大的高峰;那么说明这是方向性的纹理;如果直方图较
平坦,那么就是非方向性纹理。
  第三个被研究的重要特性是图象的对比度。对比度可以根据图象的灰度分布求得。在
人类视觉的纹理感知中粗细度和方向性的作用已得到实验的有力支持。对比度在其中的作
用得到某些实验结果的支持,但它占的重要性还未完全清楚。通常认为图象灰度直方图形
状不应影响对纹理感知
,而灰度直方图又是与图象的对比度有关。因此这个问题还有等进一步研究。

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
发信人: junzi (淡泊明志,宁静致远), 信区: AI
标  题: 计算机视觉12                           kuga (转寄)(转载)
发信站: 哈工大紫丁香 (2003年11月24日16:43:22 星期一), 站内信件

【 以下文字转载自 junzi 的信箱 】
发信人: hkw (   ), 信区: AI,                 
标  题: computer vision 12
发信站: BBS 水木清华站 (Sat Jan  9 21:05:14 1999)

第七章 运动视觉

7.1 概述
7.2 视觉运动的控测和测量
7.2.1 以灰度为基础的方法
(1) 速度场和光流
(2) 光流
(3) 光流的估算
7.2.2 基于过零点的方法
7.2.3基于特征的运动检测方法
7.3 运动理解
7.3.1基于光流的运动理解
7.3.2基于特征的运动理解
7.3.3根据图象流动力学恢复表面结构和三维运动
7.1 概述[Ull 79]
  对运动的分析在生理系统中占中心位置。甚至在简单的动物身上都存在着复杂的观察
、跟踪和利用运动的功能。例如,青蛙可以有效地探测小飞虫。这样的动物可有选择地对
在视场中运动着的小的、深色的物体进行跟踪。家蝇可以跟踪运动物体和发现目标跟背景
之间的相对运动,甚至
当物体与背景在纹理上相同,因此如果没有相对运动是区分不开的情况下也是这样的。
  在高等动物包括灵长目动物中,运动的分析从早期视觉处理阶段开始就渗透到视觉系
统中。某些生物,例如鸽子和免子在视网膜的水平上完成基本运动分析。在其他动物,包
括猫和灵长目运动。视觉皮层中从眼睛接受输入的第一个神经中已经涉及到运动的分析:
这些神经对沿某一方向
运动的刺激反映很灵敏,但对沿相反方向的运动却反映很小,或根本不反映。
  运动视觉在生理系统中占主要地位不令人奇怪的,因为运动揭示了关于环境的有价值
的信息。本章的研究任务是根据运动发现结构和解释由运动所产生的光流场。对生理系统
运动视觉的研究将有助于时变图象的计算机分析算法的研究。
  反之,对时变图象解释的研究可以深化对一般原理的理解,这些理解可增进我们对生
理视觉系统的理解。时变图象分析的基本计算问题可分成两大类:运动的检测和测量,以
及视觉运动的解释。
7.1.1 运动探测和测量
  图象中基元和区域的运动不是直接给出的,而是必须根据基本量测来计算得到。由眼
睛或由电子成象系统记录的时变图象可描述为随时间变化的亮度值 的二维阵列。图象中
的运动可用速度场 来表示。 给出某一时刻 ,在图象中 处点的运动速度和方向。 
是由原始的测量直接得到的,而 不是这样。因此,分析运动中的第一个问题是根据 计算
 。这些计算是视觉运动的量测。
  在某些情况下,只要检测速度场 的某些特性就足够了,而不要完全和精确的量测。
例如,当希望迅速地对运动物体作出响应时,在这种情况下必须检测运动,但不需要测量

  但是,从这里讨论问题的分类来说这二个问题都重要。当研究深入时,这些问题将被
证明比原来所预计的更为困难。因此,对有效和可靠的测量方法的研究是对时变图象分析
方面的重要研究邻域。

--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 166.111.68.179]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.239.224]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:412.399毫秒