就我们知识所及,《视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1》综合了所有最近的主要视频编码标准:AVS China,H.264/MPEG-4 Part 10(今后称之为H.264/AVC),VP6(目前VP10),DIRAC,VC-1/2以及HEVC/NGVC(HEVC:高效视频编码/下一代视频编码),在这个意义上说,《视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1》是独一无二的,不寻常的。除了后面的标准外,所有的这些标准已被工业界(在不同层次上)采用,为大众市场开发消费电子产品(机顶盒、搜索引擎、便携电脑、PC机、平板电脑、网络书籍、数码相机、DVD、蓝光光碟、智能手机、各种手持移动设备、视频点播、视频流等等)。基于HEVC/NGVC的产品也处于不同的开发阶段,这一点可以从各种论文中看到(会议论文集、期刊论文、专题报告、主题演讲——见第5章)。《视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1》的焦点在于,导致各种比特率下的压缩/编码、质量级别和应用场合的这些标准内在的基本的功能性、工具、技术和操作。详细的逐步实现过程是有意省略的。然而,除了标准的性能比较和局限,本书还呈现了对于这些标准的透彻理解。借助于在线资源,诸如web/ftp地址,标准文档、开源软件、述评论文(期刊出版物以及会议陈述)、主题演讲、专题报告、技术反思、和相关资源,读者很便利地在不同档次(profile)和级别(level)上实现编码器和解码器以评价它们的性能。
独具慧眼又独出心裁的读者可以改善性能,降低复杂度和探索另外的应用。除了第1章和第2章,剩余的各章均以专题结束(可以调整修改做硕士论文,某些甚至可以做博士论文),这些项目在此抛砖引玉,启发思想。此外,本书展望了从一个标准到另一个标准的转码(不是一个标准的编/解码器连接另一个标准的编/解码器)。通过将一个标准的部分编码比特流有效地/高效地用于其他标准内,以此来显著降低转码器的总体复杂度。这本身就不是件容易的事情。然而,许多挑战已被克服,那就是,MPEG-2到H.264/AVC转码器的实现,反之亦然,以及H.264/AVC到VC-1的低复杂度转码。
HEVC/NGVC(见第5章)是最新的标准,旨在与H.264/AVC相比,在相同视觉质量下降低大约50%的比特率。2013年1月,它的最终国际标准草案(FDIS:Final Draft International Standard)已经面世(主要是10比特位深和所有的帧内档次),工作草案定期更新。这已被ITU批准为ITU-T H.265/ISO/IEC 23008-2 HEVC。预计基于HEVC的解码器在2016年底将达到20亿之多。紧随其后的是计划在2014年实现标准化的扩展部分如可伸缩视频编码(SVC: Scalabe Video Coding)和多视图编码(3D视频,自由视点视频,立体视觉视频,等等)。除了已有标准如H.264/AVC到HEVC的双向转码器之外,这些进展还为其它的研发工作提供了肥沃的土壤(见最后的项目)。《视频编码全角度详解》的主要焦点是视频,对音频只做少量描述。然而,某些论题/专题详细叙述了在保证视频和音频同步时编码器内的编码过程和视频/音频比特流的复用过程,以及这些比特流后来的解复用和解码过程。读者可以参考Rao博士的网址http://www-ee.uta.edu/dip(点击“courses”,然后点击EE5359 multimedia processing,向下滚动访问theses/projects/ppslides/papers/proposals,等等),即用AAC音频比特流复用/解复用AVS China视频以实现音视频同步,以及用HEVC-AAC音频比特流复用/解复用H.264/AVC视频实现音视频同步。
第6-8章阐述了VP6(最初由On2技术开发——后来由Google获得)所包含的功能,还带有下列标准相关的网址:VP9/VP10、BBC开发的使用小波而不是传统DCT/整数DCT的DIRAC,以及基于微软视窗媒体视频9(Windows Media Video 9)的VC-1。除第1章和第2章外,所有其它章都增补有专题,许多专题具有硕士和博士论文水平。附录A到H(源于德克萨斯大学阿灵顿分校以前的研究生,附录B和H除外)提供了额外的资源,这些资源也补充了许多具有硕博士论文水平的专题。书目提要提供了数量众多的出现在第3章到第8章的有关视频编码标准的参考文献,包括web/ftp地址、评论文章、标准文档、主题报告、专辑、开源软件、等等。
希望《视频编码全角度详解》和所有概述过的资源能为读者理解和实现这些标准提供可能。有远见的读者可以对这些标准提出改变、或增补、或扩展、或修正以提高性能、降低复杂度和增加应用领域。《视频编码全角度详解》无意成为任何课程的教科书。相反,希望本书成为学术界、研究机构和工业界的具有科研水平的参考书。
译者序
随着多媒体时代的到来,人们对于视频的质量要求越来越高,与此同时,也期望视频传输具有更快的速度。而传输系统和存储系统对于视频格式乃至码流语法的要求则是尽可能的统一。这两方面的客观要求就是,要对视频数据进行压缩;压缩要实现标准化。视频编码标准应运而生。K. R. Rao、D. N. Kim和J. J. Hwang合著的本书囊括了从人类进入信息时代至今的主要视频编码标准,就本书涉及的内容之广,它是独一无二的。本书最具特色,也是最有价值的部分是提供了大量的研究专题,尤其是那些具有前瞻性的尝试和质疑。这些专题可以作为硕士乃至博士论文的选题,也可作为一篇期刊论文的研究焦点。国内视频编码领域的研究生毕业论文会因为选题重复或陈旧而遭受质疑,研究者们发表论文也会因为题目平凡而被拒稿。相信广大读者在充分吸取本书的滋养、挖掘所列专题这一“富矿”之后,对于研究内容的确定是大有裨益的。此外,本书还提供了篇幅可观的附录,其中包含了与专题研究相关的实验数据结果,可以作为广大读者自行研究的参考。
在翻译过程中,考虑到翻译的目的是介绍编码技术标准,而技术标准本身是客观存在的,是独立于表述语言和方式的,因此,我们对译文的要求首先是“客观”,尽可能地忠实于技术本身而不是刻板于原著的表述。其次的要求是“地道”,即符合汉语的表达习惯,阅读起来感觉流畅。对于原著中没有给出的缩略语,译者查阅了相关视频标准的文档进行了解释和补充。对于那些译者自己也不甚满意的译法,注明了原著的表述,供广大读者斟酌参考。对于图表等实验结果,则是不折不扣地“忠实”于原著。
本书由刘雪冬负责第1-5章的翻译、全书的统稿和校对。中国地质大学(武汉)外国语学院的刘雪莲老师负责第6-8章和附录A-E的翻译。武汉理工大学信息学院的撒继铭老师负责附录F-H和参考文献的翻译。在本书的翻译工作中,武汉理工大学信息学院的郭志强、黄朝兵、江雪梅、张小梅、黄铮、许建霞和朱健春老师以及贾静静、霍波、宋深、和张一丹同学参加了部分翻译工作。在此,感谢这些老师和同学们的大力支持!感谢机械工业出版社的相关工作人员,特别是吕潇编辑。吕编辑谦虚体谅,宽厚礼让,在译者因故致使翻译工作受阻时给予充分的理解并给予相应的时间调整,使译者最终以良好的状态如期完成翻译工作。
作为主要译者的刘雪冬是武汉理工大学信息学院的副教授。有幸来到美国德克萨斯大学阿灵顿分校在本书原著作者K. R. Rao教授的指导下开展访问学者的研究工作,这也是成为《视频编码全角度详解》译者的机缘之一。译者初到阿灵顿时气温偏凉,Rao教授关心地问候译者是否需要他的衣服和围巾,甚至是否需要午饭。在以后的见面中总会提醒是否来杯咖啡,在分别时常会送一些小零食。Rao教授常打球游泳开车,为学生授课并指导研究,身体很棒。殊不知他已85岁高龄!看来,“仁者寿”是不分种族国籍的。为了尽可能地翻译准确,译者曾就原著中的一些问题当面请教了他,这些问题涉及缩略语、算法和硬件实现的技术细节、乃至词语的拼写,老先生对于每个问题都能立刻做出回答。目前,作为IEEE会士(Fellow),Rao教授仍然关注着视频编码研究的最前沿,在他指导译者阅读的文献中,视频标准发展的图谱已经绘制到了2017年!心有仁善,慈爱为怀;老骥伏枥,壮心不已,焉能不寿?祝愿Rao教授身体健康,事业精进!
另一件让译者倍感欣慰的是《视频编码全角度详解》对于我国具有自主知识产权的音视频编码标准AVS-China进行了较为详细的介绍,这表明中国人制定的编码标准其综合性能引起了世界的关注!祝愿祖国的科技事业繁荣昌盛!最后,要特别感谢武汉理工大学对于译者出国研修的资助,没有学校提供的经费,译者就无缘遇到Rao教授,更不会有此番学术和翻译经历。
译者在翻译的过程中,对原著存在的一些明显错误进行了修改。如果书中仍然存在疏忽与错误之处,恳请读者批评指正。
译者
美国德克萨斯州阿灵顿市
2017年3月