HITEA 版 (精华区)
发信人: yangs (雪白明月照着大地), 信区: HITEA
标 题: 图像压缩技术
发信站: 哈工大紫丁香 (2001年05月01日20:43:23 星期二), 站内信件
~~~~~~~~~~~~~~~~~~~~
( 转载 )
~~~~~~~~~~~~~~~~~~~~
图象压缩技术
1. 引言
多媒体计算机技术是本世纪九十年代和下一个世纪计算机技术发展的一个重大热点
。多媒体技术是将图文、图形、音频、视频、动画、通讯和计算机技术结合在一起
的一种新技术。由于音频、视频、动画的数据量非常巨大,因此音频数据和视频数
据的压缩技术和解压缩技术成了多媒体技术中的关键技术之一。压缩与解压缩问题
,尤其是图象压缩与解压缩问题不解决,则多媒体计算机的市场化就得不到保证。
2. 图象压缩技术历程
图象压缩编码技术可以追溯到1948年提出的电视信号数字化,到今天已经有50年的
历史了。五十年代和六十年代的图象压缩技术由于受到电路技术等的制约,仅仅停
留在预测编码、亚采样以及内插复原等技术的研究,还很不成熟。1969年在美国召
开的第一届"图象编码会议"标志着图象编码作为一门独立的学科诞生了。到了70年
代和80年代,图象压缩技术的主要成果体现在变换编码技术上,矢量量化编码技术
也有较大发展,有关于图象编码技术的科技成果和科技论文与日俱增,图象编码技
术开始走向繁荣。自80年代后期以后,由于小波变换理论,分形理论,人工神经网
络理论,视觉仿真理论的建立,人们开始突破传统的信源编码理论,例如不再假设
图象是平稳的随机场。图象压缩编码向着更高的压缩比和更好的压缩质量的道路前
进,进入了一个崭新的、欣欣向荣的大发展时期。
3. 图象压缩技术介绍
3.1、行程长度编码(RLE)
行程长度编码(run-length encoding)是压缩一个文件最简单的方法之一。它的
做法就是把一系列的重复值(例如图象像素的灰度值)用一个单独的值再加上一个
计数值来取代。比如有这样一个字母序列aabbbccccccccdddddd它的行程长度编码
就是2a3b8c6d。这种方法实现起来很容易,而且对于具有长重复值的串的压缩编码
很有效。例如对于有大面积的连续阴影或者颜色相同的图象,使用这种方法压缩效
果很好。很多位图文件格式都用行程长度编码,例如TIFF,PCX,GEM等。
3.2、霍夫曼编码
霍夫曼编码(Huffman encoding)是常用的压缩方法之一,它是通过用更有效的代
码代替数据来实现的。霍夫曼编码最初是为了对文本文件进行压缩而建立的,迄今
已经有很多变体。它的基本思路是出现频率越高的值,其对应的编码长度越短,反
之出现频率越低的值,其对应的编码长度越长。
霍夫曼编码很少能达到8∶1的压缩比,此外它还有以下两个不足:①它必须精确地
统计出原始文件中每个值的出现频率,如果没有这个精确统计,压缩的效果就会大
打折扣,甚至根本达不到压缩的效果。霍夫曼编码通常要经过两遍操作,第一遍进
行统计,第二遍产生编码,所以编码的过程是比较慢的。另外由于各种长度的编码
的译码过程也是比较复杂的,因此解压缩的过程也比较慢。 ②它对于位的增删比
较敏感。由于霍夫曼编码的所有位都是合在一起的而不考虑字节分位,因此增加一
位或者减少一位都会使译码结果面目全非。
3.3、预测及内插编码
一般在图象中局部区域的象素是高度相关的,因此可以用先前的象素的有关灰度知
识来对当前象素的灰度进行预计,这就是预测。而所谓内插就是根据先前的和后来
的象素的灰度知识来推断当前象素的灰度情况。如果预测和内插是正确的,则不必
对每一个象素的灰度都进行压缩,而是把预测值与实际象素值之间的差值经过熵编
码后发送到接收端。在接收端通过预测值加差值信号来重建原象素。
预测编码可以获得比较高的编码质量,并且实现起来比较简单,因而被广泛地应用
于图象压缩编码系统。但是它的压缩比并不高,而且精确的预测有赖于图象特性的
大量的先验知识,并且必须作大量的非线性运算,因此一般不单独使用,而是与其
它方法结合起来使用。如在JPEG中,使用了预测编码技术对DCT直流系数进行编码
,而对交流系数则使用量化+游程编码+霍夫曼编码。
3.4、矢量量化编码
矢量量化编码利用相邻图象数据间的高度相关性,将输入图象数据序列分组,每一
组m个数据构成一个m维矢量,一起进行编码,即一次量化多个点。根据仙农率失真
理论,对于无记忆信源,矢量量化编码总是优于标量量化编码。
编码前,先通过大量样本的训练或学习或自组织特征映射神经网络方法,得到一系
列的标准图象模式,每一个图象模式就称为码字或码矢,这些码字或码矢合在一起
称为码书,码书实际上就是数据库。输入图象块按照一定的方式形成一个输入矢量
。编码时用这个输入矢量与码书中的所有码字计算距离,找到距离最近的码字,即
找到最佳匹配图象块。输出其索引(地址)作为编码结果。解码过程与之相反,根
据编码结果中的索引从码书中找到索引对应的码字(该码书必须与编码时使用的码
书一致),构成解码结果。由此可知,矢量量化编码是有损编码。目前使用较多的
矢量量化编码方案主要是随机型矢量量化,包括变换域矢量量化,有限状态矢量量
化,地址矢量量化,波形增益矢量量化,分类矢量量化及预测矢量量化等。
3.5、变换编码
变换编码就是将图象光强矩阵(时域信号)变换到系数空间(频域信号)上进行处
理的方法。在空间上具有强相关的信号,反映在频域上是某些特定的区域内能量常
常被集中在一起,或者是系数矩阵的分布具有某些规律。我们可以利用这些规律在
频域上减少量化比特数,达到压缩的目的。由于正交变换的变换矩阵是可逆的且逆
矩阵与转置矩阵相等,这就使解码运算是有解的且运算方便,因此运算矩阵总是选
用正交变换来做。
常用的变换编码有K-L变换编码和DCT编码。K-L变换编码在压缩比上优于DCT编码
,但其运算量大且没有快速算法,因此实际应用中广泛采用DCT编码。
3.6、模型法编码
预测编码、矢量量化编码以及变换编码都属于波形编码,其理论基础是信号理论和
信息论;其出发点是将图象信号看作不规则的统计信号,从象素之间的相关性这一
图象信号统计模型出发设计编码器。而模型编码则是利用计算机视觉和计算机图形
学的知识对图象信号的分析与合成。
模型编码将图象信号看作三维世界中的目标和景物投影到二维平面的产物,而对这
一产物的评价是由人类视觉系统的特性决定的。模型编码的关键是对特定的图象建
立模型,并根据这个模型确定图象中景物的特征参数,如运动参数、形状参数等。
解码时则根据参数和已知模型用图象合成技术重建图象。由于编码的对象是特征参
数,而不是原始图象,因此有可能实现比较大的压缩比。模型编码引入的误差主要
是人眼视觉不太敏感的几何失真,因此重建图象非常自然和逼真。1988年召开的首
届"64kbit/s活动图象编码工作会议"确定模型编码为新一代的编码方法。模型编码
有很大的发展空间和希望。
3.7、分形编码
分形(Fractal)是Mandelbrot在1977年提出的几何学新概念。Fractal来自拉丁文
Fractus,意为"碎片"。分形压缩的基本原理是利用分形几何中的自相似性原理来进
行图象压缩。所谓自相似性就是指无论几何尺度如何变化,景物的任何一小部分的
形状都与较大部分的形状极其相似。
与DCT不同,分形编码利用的"自相似性"不是邻近样本的相关性,而是大范围的相
似性,即图象块的相似性。对相似性的描述是通过仿射变换来确定的,而编码的对
象就是仿射变换的系数。由于仿射变换的系数的数据量小于图象块的数据量,因此
可以实现压缩的目的。
分形压缩一般分三步:
1、 图象划分,一般是划分为互不重叠的大小相等的方块。
2、 区块与域块的匹配。一般采用比区块大一倍的域块,由于随机的搜索匹配比较
费时,所以事先将域块分类,或事先做好域块库。
3、 确定映射参数,使重建图象与原图象之间的范数最小。
分形压缩编码是不对称的,即它的编码时间比解码时间要长得多,主要是因为第二
步搜索耗时太长。
3.8、混合编码
以两种或两种以上的方法对图象进行编码称为混合编码,JPEG和MPEG都属于混合编
码。
JPEG(Joint Photograph Experts Group)是1992年CCITT正式通过的连续色调静止
图象压缩标准。JPEG主要有三种系统:基本系统、扩展系统和信息保持系统。
JPEGF定义了几种不同的编码方法和解码方法。为了加快JPEG压缩算法的执行时间
,C-Cube公司专门推出了C-Cube CL550芯片。CL550是一种单芯片图象压缩处理器
,它能以视频速率对灰度图象和彩色图象进行编码和解码,图象压缩比率由片上量
化表控制,比率可在8:1到100:1之间。
MPEG(Moving Picture Experts Group)是运动图象压缩标准,包括MPEG音频、
MPEG视频和MPEG系统三大部分。MPEG标准的任务是将视频信号和与其相伴的音频信
号在一个可以接收的品质要求下压缩成0.9-1.5Mb/s的位流。MPEG除了帧内编码,
还有帧间编码。帧内编码JPEG相同,帧间编码则采用运动补偿技术。MPEG标准有多
种相应的硬件芯片,一个典型例子为C-Cube CL550视频解码器,它能提供全活动视
频处理能力。
3.9、小波变换用于图象压缩
小波变换的理论是近年来兴起的新的数学分支,它是继1822年法国人傅立叶提出傅
立叶变换之后又一里程碑式的发展,解决了很多傅立叶变换不能解决的困难问题。
傅立叶变换虽然已经广泛地应用于信号处理领域,较好地描述了信号的频率特性,
取得了很多重要的成果,但傅立叶变换却不能较好地解决突变信号与非平稳信号的
问题。小波变换可以被看作是傅立叶变换的发展,即它是空间(时间)和频率的局
部变换。与傅立叶变换一样,小波变换的基本思想是将信号展开成一族基函数之加
权和,即用一族函数来表示或逼近信号或函数。这一族函数是通过基本函数的平移
和伸缩构成的。
小波变换用于图象编码的基本思想就是把图象进行多分辨率分解,分解成不同空间
、不同频率的子图象,然后再对子图象进行系数编码。系数编码是小波变换用于压
缩的核心,压缩的实质是对系数的量化压缩。根据S.Mallat的塔式分解算法,图象
经过小波变换后被分割成四个频带:水平、垂直、对角线和低频,低频部分还可以
继续分解。
图象经过小波变换后生成的小波图象的数据总量与原图象的数据量相等,即小波变
换本身并不具有压缩功能。之所以将它用于图象压缩,是因为生成的小波图象具有
与原图象不同的特性,表现在图象的能量主要集中于低频部分,而水平、垂直和对
角线部分的能量则较少;水平、垂直和对角线部分表征了原图象在水平、垂直和对
角线部分的边缘信息,具有明显的方向特性。低频部分可以称作亮度图象,水平、
垂直和对角线部分可以称作细节图象。对所得的四个子图,根据人类的视觉生理和
心理特点分别作不同策略的量化和编码处理。人眼对亮度图象部分的信息特别敏感
,对这一部分的压缩应尽可能减少失真或者无失真,例如采用无失真DPCM编码;对
细节图象可以采用压缩比较高的编码方案,例如矢量量化编码,DCT等。目前比较
有效的小波变换压缩方法是Shapiro提出的小波零树编码方案。
4.结束语
图象压缩是一个很有发展前途的研究领域,这一领域的突破对于通信和多媒体事业
的发展将具有深远的影响。因此,在图象压缩方面投入一定的资金和人力,进行深
入的研究,将有助于提高我国在高科技领域方面的国际竞争力。(沈锋)
--
* * * * * * * * * * * * * * * * * * *
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.229.252]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:5.818毫秒