学习啦>论文大全>技术论文>

数字视频编码技术论文

家文分享

  数字视频编码技术指通过特定的压缩技术,将某个视频格式的文件转换成另一种视频格式文件的方式。下面是学习啦小编整理的数字视频编码技术论文,希望你能从中得到感悟!

  数字视频编码技术论文篇一

  数字视频编码技术的研究综述

  摘要:随着流媒体技术、微电子技术、多媒体技术以及多媒体技术的快速发展,已经出现很多智能终端。数字视频编解码算法在智能终端系统中起着核心的作用。该文对数字视频压缩标准的发展及现状进行了阐述,然后对视频编码的基本原理进行必要的阐述,最后对可伸缩编码技术进行详细的阐述。

  关键词:视频编码;视频压缩;可伸缩编码

  中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2013)24-5528-04

  在过去的20年间,多媒体通信的发展是迅猛的。因为视频是多媒体通信的核心,所以很多数字视频压缩算法不断的推出,这使得视频传输以及视频存储的效率也越来越高。新的视频编码标准也随着音视频压缩技术的不断发展而相继产生。现在数字电视越来越普及,人们对视频的质量要求也越来越高。为了满足人们对视频的多样化、高质量的需求,ITU-T/VCEG与ISO/MPEG共同制订了一系列的视频压缩编码国际标准。这些标准在日常生活的应用又推动了视频服务业务的发展。

  1 视频编码的发展及现状

  数字视频分辨率的提高使得原始数据量不断增多,为了提高视频编码的压缩效率,新的视频编码标准不断推出。1984年CCITT第15研究组发布了数字基准电视会议编码标准H.120建议。在1988年的时候,CCITT通过了视频编码标准H.261建议。H.261是视频压缩编码的一个里程碑。从这以后,ISO及ITU-T等发布的基于波形的编码标准中的编码方法很多都是基于H.261的混合编码。在1986年,联合图像专家组成立,对连续色调静止图像压缩算法的国际标准进行研究,在1992年通过了JPEG标准。

  在1988年,活动图像专家组成立。并在1991年MPEG-2编码标准,主要在VCD的视频压缩中进行应用。在1994年公布的MPEG-2编码标准,不同的码率分别在不同档次、不同级别的视频压缩中应用。MPEG-2已经支持高清晰度视频,但是要实现全面高清化还需要更高效的编码技术。

  在1995年,ITU-T又推出了H.263编码标准。主要用于可视会议和多媒体通信等低码率视频的传输。

  在1999年,ISO/IEC通过了MPEG-4编码标准,此标准强调了多媒体通信的灵活性和交互性。

  在2003年,ISO/IEC和ITU-T公布H.264视频压缩标准,这个标准明显提高了视频压缩效率,而且网络亲和性也很不错,对误码及丢包的处理进行了加强。H.264增加了1/4精度预测、整数DCT变换等技术。

  在2007年,作为H.264/AVC标准可伸缩性扩展档次的可伸缩性编码SVC推出,根据要求将视频分割成一个基本层和多个增强层。

  在2013年,HEVC成为国际标准,可以提供更好的视觉效果。HEVC对预测模型、变换技术等进行了扩展。

  2 视频编解码技术基础

  在通用的视频编码框器中,一般使用一个编码框架,但是使用多种压缩编码方法。不同压缩编码方法的原理也是不同的。这些编码方法是视频编码的基本工具。本节主要对预测编码,变换编码及熵编码的原理进行详细介绍。

  2.1 预测编码

  预测编码是比较基本的编码工具,常用的预测编码方法有帧内预测和帧间预测编码。帧间预测是用于消除时间冗余,帧内预测用于消除空间冗余。因为时间冗余远远大于时间冗余,下面主要对帧间预测进行阐述。

  2.1.1 预测编码的基本概念

  预测编码通过利用已知的信息对未知的信息进行猜测,对实际值和预测值之间的差值进行编码。通过预测得到一个预测值,实际值减去预测值得到一个残差:

  如果预测方法比较好,残差值就会比较小,对残差进行编码的码流也会比较小。在解码端对残差进行解码,使用与编码端相同的预测方法得到预测值,进而重构出原始图像:

  通常情况下,可以利用若干已经编码图像像素的线性组合来得到预测值。考虑图像的特点,预测一般以块为单位进行。需要将图像按照规则分割成具有规则的块。按照顺序对每个块分别进行预测编码。

  2.1.2 帧间预测编码

  帧间预测的目的是去除时域的冗余信息,就是使用已经编码的图像对现在要编码的图像进行预测。预测方法的合理性关系到残差的大小。

  帧间预测中比较重要的两个概念是运动估计和运动补偿。运动估计就是寻找当前编码的块在已编码图像的最佳对应块。并计算出对应块之间的偏移即运动矢量。如果当前帧是P,参考帧是Pr ,当前编码块是B,在Pr中找到与B块相减之后残差最小的块Br ,Br就是B的最佳匹配块。这个过程称为运动估计。运动矢量也需要采用合适的方法编码到码流中,这样在解码端才能解码出原图像。

  运动补偿是由运动矢量及帧间预测方法得到当前帧的估计值的过程。它是对当前图像的描述,说明当前图像的每一块怎么由其他参考图像的像素块得到。

  运动估计和运动补偿都是消除时间冗余的重要方法。这两者直接影响到重建图像质量及压缩比。运动估计是动态过程,而运动补偿只是一个静态的描述。

  2.1.3 运动估计

  运动估计有两种模型:非参数模型和参数模型。

  非参数模型是一种把非参数的平滑度约束条件附加到二维运动场得到的运动估计模型。根据约束条件的种类可以分为确定性模型和随机性模型。常见的有贝叶斯法、块匹配法等。实际中的很多运动估计算法都是基于非参数模型。

  参数模型主要对三维运动物体在图像平面上的正交或透视投影进行描述。参数模型只对三维刚体的运动估计适用。

  2.2 变换编码

  变换编码的编码效率要比预测编码高。K-L变换、傅里叶变换等算法出现比较早,压缩效率高,但因高复杂度没有得到广泛应用。离散余弦变换是首个广泛应用的变换编码算法。因为离散余弦变换不需要求解特征向量,大大降低了复杂度。   2.2.1变换编码基本原理

  变换编码对信号的样本值进行某种形式的函数变换,从一种空间变换到另一种空间,后根据信号在一个空间域的特征对信号进编码压缩。变换系统有三个步骤:预处理,变换及量化编码。变换本身并不压缩数据,只是把信号变换到另一个域,变换之后的信号更独立,更有序,比较容易压缩。变换编码中,输入函数和输出函数不同是因为量化误差形成的。量化编码在变换编码系统中是不可缺少的,量化使数据得以压缩。为了使量化失真最小化可以针对不同的分量使用不一样的量化方式。

  2.3熵编码

  熵编码的思想是对出现概率大的符号取较短的码长,出现概率小的符号取较大的码长。熵编码的基本定理对平均码长的极限进行了描述。

  熵编码基本定理是在对信源进行二进制编码时,假使aj的编码长度是Lj,在Lj=-log2Pj时,平均码长取最小值H(X),H(X)是信源的熵。基本定理用以下公式表示:

  L=∑PjLj≥H(X)

  熵编码在实际的压缩编码中很难达到熵值,越接近熵值,压缩效果就越好,压缩比越高。

  3 可伸缩编码技术

  3.1 可伸缩编码的发展及含义

  可伸缩编码技术已经有20年的历史,早起出现的H.262/MPEG-2,H.263,MPEG-4有若干工具能够满足一些比较重要的可伸缩性需求,但是因为解码器的复杂度过高,在实现空间,质量可伸缩时的编码效率低下,编码质量存在阶跃性突变等问题,故以上可伸缩编码技术没有获得广泛的应用。

  SVC技术因为可以节省传输带宽,能够自适应解码显示,所以具有广阔的发展前景。以下介绍主要针对SVC。

  在实际的视频应用中,传输的带宽是在不断发生变化的,各种终端的需求也不同,为了满足实际需求,可伸缩编码就产生了。可伸缩性编码将输入的视频序列编码为一个基本层,多个增强层。基本层的视频质量比较低,增强层的视频质量比较高。服务器可以根据需求发送对应的数据。接收端根据接受到的数据解码出对应质量视频。

  3.2 可伸缩编码的分来

  实现可伸缩视频编码的方法比较常见的有三种:时间可伸缩,空间可伸缩以及质量可伸缩。这三种编码方法的实现原理是不同的,所以编码方法的性能也是不同的。这三种方法的性能一般和特定的参数是紧密相关的。时间可伸缩中GOP的作用是至关重要的,空间可伸缩的层间预测则较为重要。时间可伸缩以帧率角度进行编码,空间可伸缩以分辨率角度进行编码,质量可伸缩以量化步长的角度进行编码。下面对这三种比较常见的压缩编码方法进行阐述。

  3.2.1时间可伸缩编码

  时域可伸缩根据人眼对联系性图像的响应时间,在基本帧率和最高帧率之间提供帧率可伸缩。如果网络带宽比较窄,则接受基本帧率的视频;如果网络带宽比较大,则同时接受基本帧率和高帧率视频,解码出的视频比只接受基本帧率的视频的质量要好。时间可伸缩是通过等级B图像,运动补偿时域滤波编码实现的。不同层量化参数的选择对等级B图像的编码效率影响是非常大的。基本层是由关键帧组成的,所以要选择最小的量化参数;增强层对别层的影响较基本层要小,可以选择稍大的量化参数。等级越高,量化参数对应的就越大。

  3.2.2空间可伸缩编码

  空间可伸缩编码将输入的原始视频序列进行下采样,从而得到低分辨率的视频。不同的空间分辨率形成不同的编码层。在空间分辨率的基础上可进而实现时间可伸缩和质量可伸缩。每层的编码时互相独立的,编码参数压实相互独立的,比如说运动信息,量化参数及变换参数等。空间可伸缩编码有三种预测方式:层间帧内预测,层间运动预测及层间残差预测。

  3.2.2.1层间帧内预测

  在对增强层的宏块进行编码时,首先需要确定当前宏块是否存在与之对应的基本层宏块;如果存在基本层宏块,再继续判断是否使用帧内预测。如果使用帧内预测,则对基本层宏块进行上采样之后,作为增强层宏块的预测块。

  3.2.2.2层间运动预测

  层间运动预测分为基本层模式,1/4像素修正模式。在基本层模式中,增强层的运动矢量,宏块分割等信息是由相对应基本层宏块提供的。基本层宏块的运动信息放大后可以直接应用在增强层宏块。在使用1/4像素修正模式时,基本层运动矢量信息要在增强层的1/4精度内进行适当的调整。层间预测的使用可以大量减少层内运动估计,模式判断。

  3.2.2.3层间残差预测

  层间残差预测使用基本层的预测残差信息对增强层的残差信息进行预测,对两者之间的差值进行编码。只有在基本层和增强层的运动矢量信息相似或相等的情况下,两层之间的残差的相关性才会比较大,使用层间残差预测才会比较合适。如果两层运动矢量的差异性比较大,则不适合使用层间残差预测,此时,很有可能会降低编码效率。

  3.2.3质量可伸缩编码

  质量可伸缩编码有两种:精细可伸缩编码和粗粒可伸缩编码。两者的思想,架构都是相同的。

  精细可伸缩编码(FGS,Fine Granular Scalable)的核心思想是通过使用增强层的图像作预测参考帧,从而提高编码效率。FGS将原始视频压缩为基本层码流,增强层码流两个码流。基本层采用的是传统的非可伸缩编码。增强层采用的是位平面编码技术,解码端根据接受到增强层数据解码质量不同的视频序列。FGS的核心算法是基于DCT系数的位平面编码。

  粗粒可伸缩编码(CGS,Coarse Grain Scalability)的编码结构和空间可伸缩式非常相似的。但是CGS的增强层的空间分辨率是相同的,而且增强层的量化系数一般比基本层的要小,因此食品质量伴着层级的递增就越来越好。编码框架如下所述:对原始图像进行DCT变换之后进行量化参数比较大的粗量化,然后进行熵编码,熵编码后形成基本层数据。然后把粗量化的数据进行反量化,原始图像DCT与之作差。然后对差值进行量化参数比较小的细量化,进行熵编码之后形成增强层的数据。量化参数大,解码出来的视频质量比较差;量化参数小,解码出来的图像的质量比较好。   3.3 SVC在数字电视的应用

  现在数字电视采用的编码标准大部分是MPEG-2,SVC还没有在数字电视中推广起来,因为SVC不被老式机顶盒所支持,所以这种不兼容性也在一定程度上造成了新标准使用的延迟。

  4 结束语

  随着视频编码的不断发展,可分级视频编码是近几年来的研究热点,它是解决现代视频传输和存储系统中异构问题的非常重要的手段。该文首先对视频编码的发展及现状进行详细的说明,然后对视频编码的基本原理进行必要的说明。最后对可伸缩编码分类及每个类别进行详细的阐述。

  视频编码技术不断发展,新的编码标准也在不断的推出。现在,视频编码也在面临新的挑战。

  1) 网络视频应用对视频编码码流的“友好性”提出了更高层次的要求。

  2) 高清晰度、高质量视频的推广和普及对视频编码压缩效率提出了更高层次的要求。

  综上所述,这两个挑战,将是当前和未来视频编码技术的研究中需要解决的比较重要的课题。

  参考文献:

  [1] 李德识,李薇.无线传感器网络中覆盖问题的研究[J].微电子学与计算机,2005,22(8):150-152.

  [2] 毕厚杰. 新一代视频压缩编码标准H.264[M].北京:人民邮电出版社,2004.

  [3] 吴俊峰. H_264SVC可伸缩视频编码及转码技术研究[D].天津大学,2008.

  [4] JVT. ISO/ETC 14496-10:2010 Information Technology — Coding of Audio-Visual Objects — Part 10: Advanced Video Coding. 2010

  [5] 陈靖,刘京,曹喜信.深入理解视频编解码技术[M].北京:北京航空航天大学出版社,2012.

  [6] JVT-X202. Joint Scalable Video Model JSVM-11. 2012

  [7] 钟玉琢,王琪,赵黎,杨小勤.MPEG-2运动图像压缩编码国际标准及MPEG的新发展[M].北京:清华大学出版社,2002.

  [8] 柳辉.可伸缩性视频编码的转码及其应用[D].中国科技大学,2009.

  [9] 王伟超.基于MPEG_2的多视点视频可分级实时解码器研究[D].天津大学,2009.

  [10] ITU-T and ISO/IEC JTC1.Joint Scalable Video Model JSVM-9.19,2011.

点击下页还有更多>>>数字视频编码技术论文

2718617