Algorithm 版 (精华区)

发信人: ssos (存在与虚无), 信区: Algorithm
标  题: MPEG2视频的自动检索
发信站: 哈工大紫丁香 (2001年06月05日08:35:17 星期二), 站内信件

MPEG2视频的自动检索
云福和 范思明 张立东 赵 宏
 
摘 要 本文讨论了一种快速而实用的,利用MPEG2视频编码中运动向量编码符号量的视频
分段技术—切点检索技术,并在此基础上分析了目前视频浏览中存在的一些问题,实现
了一个MPEG2切点检索和浏览工具CUTDISPLAY. 最后,指出了视频检索在IMSS系统中的应
用形式.
关键字 视频流, 视频浏览, MPEG, 切点
引言
在多媒体信息处理的软硬件环境不断完善的今天,就连因数据量庞大而非常难以处理的
图像和视频信息,随着通信线路及存储装置容量的倍增、 视频图像编码技术的发展以及
计算机处理能力的提高,用微型机也能够对其进行处理了.
数字化视频作为一种含义丰富的介质,越来越引起人们的重视,并在视频点播,交互式
视频服务和远程教育等许多领域得到了应用. 其中MPEG2编码标准不仅被下一代视频媒体
的DVD ( Digital Video Disk ) 所采用,而且他还可广泛的适用于广播通信和网络传输
(如ATM)等多种应用形式. 另外、基于Pentium处理器的MMX体系结构的推出,使MPEG2
解码器的软件实现成为可能. 基于以上理由我们认为在即将来临的多媒体时代中,采用
MPEG2压缩算法的视频数据将成为数字化视频的主流.
今后、随着对视频媒体应用的广泛开展,编制丰富的视频节目将变得更加重要. 从众多
的视频素材中检索出所需要的视频数据,实施有效的编辑将成为重要的课题. 这就要求
我们对视频内容按一定的方式建立索引,并要提供一个有效的浏览工具. 象从前那种只
凭借“快进”的方式来实现视频的检索和浏览,是很不理想的. 此外,为能够对视频流进
行随机访问,必要的索引也是不可缺少的.
本文中我们首先讨论实现视频媒体可视化编辑和基于内容的视频检索的关键技术之一:视
频分段,即切点(Cut)检索. 之后介绍一下我们所实现的一个切点检索和显示工具—C
UTDISPLAY. 该工具也是一个方便而有效的浏览工具.
切点检索
视频分段就是把视频流分成一些基本的具有独立语意的小片段,每个小片段作为一个基
本的索引或编辑单元. 对视频流进行分段的方法有许多种,其中最自然最通用的一种方
法是根据视频流中摄象机一次连续拍摄活动所记录的内容进行分段. 这也就是把每个摄
影镜头作为一个视频小片段. 不同镜头之间的切换点,我们称作为切点. 通常每个片段
的第一帧做为代表帧,即切点.
到目前为止人们已经提出了多种多样的切点检索方法,其中多数方法是基于这样的思想
:在切点以外连续的图像(画像)是很相似的,而切点前后的 差别非常大. 因此、可以
利用这一事实,首先定义出连续图像间的相似度,当某个相似度低于规定的阈值时便认
为是切点.
我们所知的几种有代表性的相似度的定义有,(1)对图像间对应位置上像素值的绝对值
的差分求合的方法;(2)对图像的色度或辉度直方图的绝对值的差分进行求合的方法;
(3)对图像的色度或辉度直方图计算统计量的方法等. 这些定义中都是以图像的像素值
来计算相似度的.
我们所实现的切点检索工具中采用的图像间的相似度的定义,利用了以MPEG进行编码压
缩的视频数据中所含运动向量的符号量. 下面简单地介绍一下MPEG的运动向量,然后对
切点的检索处理进行说明.
MPEG是一种采用了带运动补偿的图像间预测和DCT变换方法的混合编码方法. 在进行编码
的时候,将图像分割成称作为微块MB(Micro Block)的16×16像素大小的领域,然后对
每个MB进行图像间的预测. 因为采用的是带运动补偿的预测方式,所以在编码时还为每
个MB添加了表示与参照图像位置偏移的运动向量信息.
在对运动向量进行编码的时候,求出与前一个运动向量的差值,仅对此差值进行游长编
码. 考虑到差值所分配到的编码长度,小的差值其编码长度也短. 另外、当不能进行有
效的预测的时候就干脆不进行图像间的预测而直接进行编码,所以也不对运动向量进行
编码.
我们考察一下运动向量的编码量和切点之间的关系会发现:1.当不存在切点的时候进行
图像间的预测编码,并且相邻 MB拥有相似的运动向量,因此运动向量的编码符号量也很
小. 2.由于切点而图像完全改变时,因为不进行跨越切点的图像间预测,所以不对运动
向量进行编码. 3.因切点后出现同样色调的图像而跨越切点进行预测时,由于运动向量
变得不规则而导致编码量增多. 所以可以认为运动向量的编码量和图像间的相似度是成
反比的. 通过下面的式子可以给出t-1时刻图像和t时刻图像间的相似度的定义.
 ,
 
 
其中,表示运动向量i的编码量,表示允许在t-1时刻图像和t时刻图像之间进行预测的
MB的集合. 在此定义当中,针对不进行预测而编码的情形,规定此时的编码长度为无限
大.
对于变化缓慢的视频,按上面的相似度定义计算出相似度后,通过简单的阈值处理后就
能够得出切点. 然而、对于激烈变化的场面切点的峰值并不很突出,因此还需要从噪声
中检索出切点来.
这里、我们首先计算出相似度两侧的突出度、. (参见图1)
然后根据三个阈值、、计算是否满足以下三个条件中的任一个,若满足就认为是切点.
(1) 并且
 
(2) 并且
 
(3) 并且
 
其中
条件(1)中指出的是相似度的峰值在两侧都明显突出时的情形,条件(2),(3)则表
示在一侧的突出度较小而另一侧的则较大时的情形. 当的值设得越大就越能找出钝化的
峰值,同时对激烈变化的场面的错误检出也将增多. 此外,设得太大连续的切点将被漏
检,设得太小错误检出也将增多.
为了能够实现高速的切点检索处理,作为前处理可以对实施切点检索的区域(区间)进
行限定. 首先仅对未进行预测编码的I Picture的MB直流(DC)成分进行解码. 然后对所
得的I Picture实施利用辉度直方图的切点检索处理. 当判断出I Picture I i和I i+1
之间存在切点的时候,将I i和I i+1之间的帧做为切点检索处理的区间. 通过有效设置
对I Picture进行切点检索处理的阈值,可避免切点的遗漏. 利用多线程机制将这样的前
处理过程与切点检索过程并发执行可实现较高的检索速度.
视频浏览
视频浏览指的就是通过某种方法对视频内容进行一览或在较短的时间内了解(观看)视
频内容. 对视频的浏览可有多种方法. 其中一种就是对众多视频素材进行一览的方法,
使用者可从中掌握可加以利用的视频素材. 这里称其为视频的总览(Overview Browsin
g). 还有一种就是掌握和了解一段视频素材内容的内容浏览(Contents Browsing).
若要快速浏览一段视频,要么在时间上对视频压缩,要么在空间上进行扩展(即同时显
示多幅画面). 利用前面得到的切点检索的结果,就可以达到以上两个目的. 首先我们
对检索出的切点—一段相似视频的代表帧(静止画)建立索引,浏览时仅显示这些切点
,就达到了时间轴上压缩的目的. 而将切点的多个缩图同时输出到同一屏中进行浏览则
实现了在空间上的扩展. 此时应该适当地定义每页中的缩图个数,使每幅图像保持一定
的清晰度. 另外,为了便于仔细观察每幅切点图像,还可提供一个显示原图像大小的显
示区域,当在某页中指定某一个切点的缩图时就在此区域中显示出该切点的原图像. 在
我们的CUTDISPLAY中就是采用了该方法. 下面就介绍一下我们所实现的切点检索和显示
(浏览)工具.
CUTDISPLAY简介
CUTDISPLAY是一个MPEG2视频的切点检索和浏览工具. (见图2)由于在切点的检索过程
中采用了前面所介绍的利用MPEG视频编码中的运动向量的方法,不必对每帧图像完全解
码就可实施切点的检出,所以实现了切点的高速、自动的检索功能. 在实际的运行中对
MPEG2视频可达到30~40 frame/sec的处理速度.
 
CUTDISPLAY主要由三个功能模块组成:(1)指定帧的解码,该模块实现从指定的视频(
MPEG2)流中找出指定的帧进行解码后按指定的尺寸存放于指定的文件中;(2)切点检
索工具,该部分以独立的程序的形式作成,能够对指定的视频流(MPEG2)进行切点的检
索并将结果写入指定的文件中;(3)切点显示主模块,该模块是CUTDISPLAY的主控模块
,通过控制切点检索工具的起停、建立并维护切点索引结果链表、维护每页切点图像的
原始数据来实现了对视频内容进行浏览的功能. 他们之间的关系图如下所示. (图3)在
该工具的实现中我们采用了多个进程、多个线程并发执行的方式,达到了较高的运行效
率.
视频检索的应用
我们所实现的CUTDISPLAY仅是在探索和解决要求不断提高的视频应用新需求过程中迈出
的第一步,切点检索中得到的结果可广泛地应用于视频节目的创作和检索等许多领域. 
这里我们将谈一下切点检索在IMSS(交互式多媒体服务系统)中的应用.
一个典型的IMSS系统,其体系结构应该如下图所示(见图4). 在这样的一个系统中为
了能够向使用者提供高效的视频服务,就应有一种良好而有效的视频节目检索手段. 由
于视频媒体有数据量大和连续性等特点,它不能够象文本等其他媒体一样简单地通过一
两个特征字段就可方便的检索出. 此时、我们就可以利用切点检索的结果并结合Web的一
些技术,用较小的开销实现一种非常有效而实用的视频检索方法.
首先要开发一种视频切点检索工具,它不仅具有前面所说的CUTDISPLAY的功能而且还能
够通过交互的方式完成视频数据的简单编辑等功能. 利用它我们可以从一个视频节目中
选取出一些关键场面的静止画或视频片段来. 然后,对登录到视频库中的每一个视频节
目利用此工具找出关键场面(Scene )的静止画和视频片段,结合该节目的内容简介等
其他文本描述一起建立一个Web主页(html描述). 最后,连同一个总的节目目录一同登
录到服务器系统中的WWW服务器上. 这样客户端用户就可通过自己的WWW浏览器浏览并选
择出想要的节目进行观看了. 这种基于Web的多媒体形式的视频索引,不仅以其丰富而生
动的内容准确地描述出视频节目的内容,而且还可很容易的与视频服务器相结合(如SM
C Server等).
结束语
随着多媒体技术的发展,视频技术越来越受到人们的关注,以往处理视频的方法手段已
经不能够满足当前的应用需求,我们必须加强对视频技术的研究,来适应不断出现的新
的需求. 本文中我们主要讨论了一种快速的视频分段方法,为今后在视频的可视化编辑
和基于内容的视频检索方面开展研究奠定了基础.
 
参考文献
ISO/IEC. 13818-2 : Information Technology—Generic Coding of Moving Picture 
and Associated Audio : Video. International Standard. 1995.
外村,大迁,阿久津,大庭. Stored Video Handling Technique. 特集●画像通信技术
の开发. NTT. 1993
Hori, Kaneko, Aoki, Kasano. 画像メディア编辑技术の中の视る技术. MIRU96. 1996
,7
 
Automatic Cut Detecting of MPEG2 video
Yu Fuhe Fan Enming Zhang Lidong Zhao Hong
Abstract In this paper, we present a practical technology for quick MPEG2 Vi
deo Cut Detection ,which takes the advantage of the Motion Vector of MPEG2 V
ideo ..It also resolves some traditional problems in the Video Browsing . Ba
sed on the techniques mentioned above, MPEG2 Cut Detection and Browsing tool
—CUTDISPLAY is implemented. It’s application in IMSS is also discussed.
 
Key words Video Stream, Video Browsing, MPEG, Cut
 
作者简介:云福和,硕士生,研究方向为分布式多媒体.
 

--

   
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它      

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.777毫秒