视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1pdf下载pdf下载

视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1百度网盘pdf下载

作者:
简介:本篇主要提供视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1pdf下载
出版社:
出版时间:2019-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

编辑推荐

适读人群 :计算机图形学专业人士,视频编码程序员,高校师生

书中对多种视频编码标准都进行了解读,并且进行了横向评测,囊括了主要的视频编码标准,以及转码问题。

本书阐述了标准内在的基本功能、工具、技术和操作。

本书提供大量研究专题,很多都是视频编码领域的研究焦点,并且为专题研究提供实验数据结果。

翻译立足“客观”、“地道”、“忠实”于原著。

内容简介

随着多媒体时代的到来以及移动互联网的发展,人们在对于视频的质量要求越来越高的同时,也期望视频传输具有更快的速度。而传输系统和存储系统则要求视频格式乃至码流语法尽可能统一。这两方面的客观要求就是,要对视频数据进行压缩;压缩要实现标准化。视频编码标准应运而生。K. R. Rao、D. N. Kim和J. J. Hwang合著的本书囊括H.120、H.261、MPEG-1、MPEG-2/H.262、H.263系列、MPEG-4、VP6、Dirac、VC-1、H.264/MPEG-4第10部分、H.265/HEVC和我国的AVS China等从人类进入信息时代至今的主要视频编码标准,以及标准之间的转码问题。本书重点阐述了标准内在的基本功能、工具、技术和操作,涉及的内容之广是同类书罕有的。
本书颇具特色,也是有价值的部分是提供了大量的研究专题,尤其是那些具有前瞻性的尝试和质疑。相信广大读者在充分吸取本书的滋养、挖掘所列专题这一“富矿”之后,对于研究内容的确定是大有裨益的。此外,《视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1》还提供了篇幅可观的附录,其中包含了与专题研究相关的实验数据结果,可作为广大读者自行研究的参考。

内页插图

目录

译者序
原书序
致谢
缩略语


第1章 引言
摘要
1.1 流行的视频和音频标准
1.2 视频的数字表示
1.3 视频编解码的基本结构
1.4 视频编解码性能比较的衡量标准
1.5 音频的数字表示
1.6 感知音频编码的基本结构
1.7 音频编解码的性能比较测度
1.8 总结

第2章 视频编码标准和视频格式

摘要
2.1 前言
2.2 复杂度的降低
2.3 视频编码标准
2.4 MPEG和H.26x
2.4.1 H.120
2.4.2 H.261
2.4.3 MPEG-1
2.4.4 H.262/MPEG-2
2.4.5 H.263, H.263+ 和H.263++
2.4.6 MPEG-4
2.4.7 H.264/MPEG-4第10部分/AVC
2.4.8 H.265/HEVC
2.5 视频格式和质量
2.5.1 帧与场
2.5.2 颜色空间
2.5.2.1 YCbCr采样格式
2.5.3 视频格式
2.5.4 质量
2.5.4.1 峰值信噪比
2.5.4.2 SSIM
2.6 总结

第3章 AVS China
摘要
3.1 AVS China
3.2 AVS China档次和级别
3.2.1 AVS-video 的基准档次
3.2.2 AVS-video基本档次
3.2.3 AVS-Video伸展档次
3.2.4 AVS-Video 加强档次
3.3 AVS使用的数据格式
3.3.1 AVS视频分层结构
3.3.1.1 序列
3.3.1.2 图像
3.3.1.3 分片
3.3.1.4 宏块
3.3.1.5 块
3.4 AVS视频编码器
3.4.1 编码过程概述
3.4.2 AVS视频编码器用到的编码工具
3.4.2.1 变换
3.4.2.2 量化与扫描
3.4.2.3 熵编码
3.4.2.4 去块效应滤波器
3.4.2.5 模式判决
3.4.2.6 帧内预测
3.4.2.7 帧间预测
3.5 AVS视频解码器
3.6 AVS 视频比特流
3.6.1 起始码
3.6.2 起始码值
3.6.2.1 视频_编辑_码
3.6.2.2 视频_序列_终止_码
3.6.2.3 视频_序列_起始_码
3.6.2.4 扩展起始码
3.6.2.5 用户数据起始码
3.6.2.6 I帧起始码
3.6.2.7 PB帧起始码
3.6.2.8 分片起始码
3.6.3 帧编码类型
3.7 AVS视频流的NAL单元
3.7.1 AVS视频流NAL单元的映射
3.7.2 NAL单元首部描述
3.7.2.1 禁用的零比特或禁用比特
3.7.2.2 nal_ref_idc 或NAL参考ID
3.7.2.3 nal_unit_type 或NAL单元类型
3.7.2.4 RBSP字节
3.7.2.5 NAL单元定界符
3.8 AVS-M简介(AVS第7部分)
3.8.1 AVS-M的数据结构[A74]
3.8.1.1 编码的视频序列[A74]
3.8.1.2 帧[A74]
3.8.1.3 分片
3.8.1.4 宏块
3.8.2 AVS-M的体现
3.8.3 基本档次的多个级别
3.9 块模式预测模式
3.9.1 帧内预测
3.9.2 帧间预测
3.9.3 跳跃模式预测
3.9.4 率失真优化
3.10 变换、量化和熵编码
3.10.1 变换
3.10.2 量化
3.10.3 熵编码
3.10.4 简化的去块效应滤波器
3.11 AVS第1部分:系统[A80]
3.11.1 程序流
3.11.2 运输流
3.12 IEEE AVS
3.12.1 应用
3.12.2 档次和级别
3.12.3 设计特征概述
3.13 总结
3.14 专题

第4章 H.264/MPEG-4高级视频编码
摘要
4.1 概述
4.2 H.264的档次和级别
4.2.1 H.264的档次
4.2.1.1 基本档次
4.2.1.2 主档次
4.2.1.3 扩展档次
4.2.1.4 FRExts修订案定义的高档次
4.2.2 H.264的级别
4.3 H.264编码器
4.4 帧内预测
4.5 帧间预测
4.6 P分片中宏块的帧间预测
4.7 亚像素运动矢量
4.8 变换与量化
4.9 环路去块效应滤波器
4.9.1 滤波器强度
4.10 B分片与自适应加权预测
4.11 熵编码
4.12 H.264解码器
4.13 H.264的一些应用
4.14 总结
4.15 专题

第5章 高效视频编码(HEVC)
摘要
5.1 引言
5.2 视频编码联合协作团队
5.3 HEVC测试模型中编码工具的分析,HM 1.0:帧内预测
5.4 HEVC编码器
5.4.1 帧内预测
5.4.2 变换系数扫描
5.4.3 亮度与色度的分数像素内插
5.4.4 HM1与HEVC草案9编码工具的比较
5.5 扩展到HEVC
5.6 档次和级别
5.7 HEVC编码器的性能和计算复杂度
5.8 HEVC的系统层面集成
5.9 HEVC的无损编码与改进
5.10 总结
5.11 专题

第6章 VP6视频编码标准
摘要
6.1 前言
6.2 与以前的Flash编解码系统MX相比
6.3 VP6算法基础
6.4 VP6的编码档次
6.5 帧类型
6.5.1 黄金帧
6.6 宏块模式
6.6.1 I帧的宏块模式(帧内模式)
6.6.2 P帧的宏块模式(帧间模式与帧内模式)
6.7 最近邻块和近邻块
6.8 运动矢量
6.8.1 编码
6.8.2 预测环路滤波
6.9 分数像素运动补偿的滤波
6.9.1 双线性滤波
6.9.2 双三次滤波
6.10 对于无约束运动矢量的支持
6.11 预测环路滤波
6.12 DCT,扫描顺序和系数牌集合
6.12.1 扫描顺序
6.12.1.1 默认扫描顺序
6.12.1.2 自定义扫描顺序
6.12.2 DCT编码与系数牌集合
6.12.2.1 直流预测
6.12.2.2 系数牌集合
6.12.2.3 直流解码
6.12.2.4 交流解码
6.12.2.5 交流系数的算术和霍夫曼解码
6.12.2.6 解码零游程
6.13 量化
6.14 熵编码
6.14.1 上下文信息的利用
6.14.2 霍夫曼编码器
6.14.3 BoolCoder
6.15 VP6编码概述
6.16 VP6的编码性能 [P7]
6.17 VP6黄金帧 [P7]
6.18 背景/前景分割[P7]
6.19 上下文预测的熵编码
6.20 比特流分割 [P7]
6.21 双模式算术与变长编码 [P7]
6.22 自适应亚像素运动估计[P7]
6.23 VP6-E和VP6-S编码器档次 [P7]
6.24 设备端口与硬件实现 [P7]
6.25 总结
6.26 专题

第7章 Dirac视频编解码器与H.264/MPEG-4第10部分的性能分析和对比
摘要
7.1 前言
7.2 Dirac的体系结构
7.2.1 Dirac 编码器
7.2.2 Dirac 解码器
7.3 Dirac中的编码和解码阶段
7.3.1 小波变换
7.3.2 缩放和量化
7.3.3 熵编码
7.3.4 运动估计
7.3.5 运动补偿
7.3.6 解码器
7.4 实现
7.4.1 编码结构概述
7.4.2 编码的简明性和相对速度
7.5 结果
7.5.1 压缩比测试
7.5.2 SSIM测试
7.5.3 PSNR测试
7.6 结论
7.7 未来的研究
7.8 总结
7.9 专题

第8章 VC-1视频编码
摘要
8.1 VC-1的结构
8.2 整数变换编码
8.2.1 逆变换
8.2.2 前向变换
8.2.2.1 Z型扫描
8.2.2.2 量化
8.3 运动估计/补偿
8.3.1 环路滤波器
8.3.2 复杂度
8.3.3 档次和级别
8.4 简单档次
8.4.1 比特流结构
8.4.2 基本档次的帧内压缩
8.4.3 块大小可变的变换规定
8.4.4 重叠变换
8.4.5 每个宏块的4个运动矢量
8.4.6 Y分量的四分之一像素运动补偿
8.5 主档次
8.5.1 CbCr的四分之一像素运动补偿
8.5.2 起始码
8.5.3 扩展的运动矢量
8.5.4 环路滤波器
8.5.5 动态分辨率的改变
8.5.6 B帧
8.5.7 自适应宏块量化
8.5.8 亮度补偿
8.5.9 范围调节
8.6 高级档次
8.6.1 比特流结构
8.6.2 隔行扫描
8.6.3 序列级的用户数据
8.6.4 入口点层
8.6.5 显示元数据
8.7 H.264到VC-1的转码
8.7.1 帧内编码宏块模式映射
8.7.2 帧间编码宏块模式映射方案
8.7.3 运动矢量映射
8.7.4 参考帧
8.7.5 跳过宏块
8.8 VC-1 的传输
8.8.1 传输流中VC-1的数据封装
8.8.2 程序流中的VC-1数据封装
8.9 VC-2视频压缩
8.9.1 前言
8.9.2 范围
8.10 总结
8.11 专题

附录A 关于Dirac、H.264和H.265图像质量的调查研究
A.1 前言
A.2 H.265
A.3 使用SSIM和FSIM的图像质量评价
A.4 结果
A.4.1 使用QCIF序列Foreman的结果
A.4.2 使用CIF序列Foreman的结果
A.4.3 使用QCIF序列Container的结果
A.4.4 使用CIF序列Container的结果
A.5 结论
A.6 专题

附录B AVSNR软件的PSNR平均值
参考文献

附录C 通用图像质量指标与SSIM的比较
C.1 前言
MSE:均方误差 [Q22]
为什么用MSE [Q22]?
MSE有什么问题?[Q22]
使用MSE的隐含假定
主观对客观图像质量测度 [Q15]
C.2 通用的图像质量指标 [Q8]
质量指标的定义
在图像中的应用
C.3 结构相似度指标 [Q13]
C.4 带有失真的图像 [G11]
C.5 测试结果
失真的Lena图像
失真的Goldhill图像
失真的Couple图像
C.6 结论
专题C
图像知觉质量评价指标:结构相似度
C.7 H.264参考软件中关于视频质量测度的JVT文档
摘要
前言
新的失真测度与JM

附录D H.264中模式相关的DCT/DST实现方案
D.1 前言
D.2 参考软件中变换的实现方案
D.3 提出的方案
D.3.1 从帧内预测模式到DCT/DST的映射
D.3.2 获得H.264的DST矩阵
D.3.3 H.264/AVC参考软件中DCT/DST的实现
D.4 BD-PSNR和BD-比特率的计算
D.5 性能分析
D.5.1 WQVGA(416×240)序列的测试结果
WVGA(832×480)序列的测试结果
HD(1,920×1,080)序列的测试结果
高清(1,080×720)序列的测试结果
用于RaceHorse序列DCT/DST不同组合的测试结果
D.6 结论与未来的工作

附录E H.264的实现软件JM,Intel IPP和X264的性能分析与比较
E.1 H.264
E.2 JM软件 [H30]
E.3 X264 [X1]
E.4 Intel IPP [X3]
E.5 JM(17.2) 性能分析
E.6 X264性能分析
E.7 Intel IPP性能分析
E.8 在基本档次、主档次和高档次中JM、X264和Intel IPP软件的SSIM比较
E.9 基本档次、主档次和高档次中JM、X264和Intel IPP软件实现的PSNR对比
E.10 基本档次、主档次和高档次中JM、X264和Intel IPP软件所用编码时间的对比
E.11 基本档次、主档次和高档次中JM、X264和Intel IPP软件实现的压缩比对比
E.12 结论
E.13 未来的工作

附录F基于H.264“只编码I帧”的AIC实现以及与其它静止帧图像编码标准如JPEG、JPEG 2000、JPEG-LS和JPEG-XR的比较
F.1 前言
F.2 高级图像编码
F.3 改进的AIC
编码器
解码器
F.4 H.264标准
H.264/AVC主档次帧内编码
H.264/AVC FRExt高档次帧内编码
F.5 JPEG
F.6 JPEG2000
F.7 JPEG XR
F.8 JPEG-LS
F.9 JPEG-LS 算法
LOCO-I的描述
F.10 主要差别 [AC1, H11, J22, JX3, JL2, JL4]
F.11 评价方法
图像测试序列
编解码器的设置
主观对客观图像质量测度
F.12 结论和未来的工作

附录G 面向高清视频编码的更高阶二维整数余弦变换
G.1 离散余弦变换与视频压缩
G.2 整数余弦变换
G.3 简单的2维16阶ICT
G.4 改进的2维16阶ICT
G.5 基于Loeffler因式分解的二维16阶binDCT
G.6 变换编码增益
G.7 H.264/AVC中的实现方案与性能分析
G.8 AVS-Video的实现方案和性能分析
G.9 结论和未来的工作

附录H H.264编解码器的比较
H.1 比较的任务
测试范围
本次比较的新颖之处
比较规则
测试硬件特性
编解码器要求
开发者可交付成果
有用的链接

前言/序言

就我们知识所及,《视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1》综合了所有最近的主要视频编码标准:AVS China,H.264/MPEG-4 Part 10(今后称之为H.264/AVC),VP6(目前VP10),DIRAC,VC-1/2以及HEVC/NGVC(HEVC:高效视频编码/下一代视频编码),在这个意义上说,《视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1》是独一无二的,不寻常的。除了后面的标准外,所有的这些标准已被工业界(在不同层次上)采用,为大众市场开发消费电子产品(机顶盒、搜索引擎、便携电脑、PC机、平板电脑、网络书籍、数码相机、DVD、蓝光光碟、智能手机、各种手持移动设备、视频点播、视频流等等)。基于HEVC/NGVC的产品也处于不同的开发阶段,这一点可以从各种论文中看到(会议论文集、期刊论文、专题报告、主题演讲——见第5章)。《视频编码全角度详解:AVS China、H.264/MPEG-4 PART10、HEVC、VP6、DIRAC、VC-1》的焦点在于,导致各种比特率下的压缩/编码、质量级别和应用场合的这些标准内在的基本的功能性、工具、技术和操作。详细的逐步实现过程是有意省略的。然而,除了标准的性能比较和局限,本书还呈现了对于这些标准的透彻理解。借助于在线资源,诸如web/ftp地址,标准文档、开源软件、述评论文(期刊出版物以及会议陈述)、主题演讲、专题报告、技术反思、和相关资源,读者很便利地在不同档次(profile)和级别(level)上实现编码器和解码器以评价它们的性能。

独具慧眼又独出心裁的读者可以改善性能,降低复杂度和探索另外的应用。除了第1章和第2章,剩余的各章均以专题结束(可以调整修改做硕士论文,某些甚至可以做博士论文),这些项目在此抛砖引玉,启发思想。此外,本书展望了从一个标准到另一个标准的转码(不是一个标准的编/解码器连接另一个标准的编/解码器)。通过将一个标准的部分编码比特流有效地/高效地用于其他标准内,以此来显著降低转码器的总体复杂度。这本身就不是件容易的事情。然而,许多挑战已被克服,那就是,MPEG-2到H.264/AVC转码器的实现,反之亦然,以及H.264/AVC到VC-1的低复杂度转码。

HEVC/NGVC(见第5章)是最新的标准,旨在与H.264/AVC相比,在相同视觉质量下降低大约50%的比特率。2013年1月,它的最终国际标准草案(FDIS:Final Draft International Standard)已经面世(主要是10比特位深和所有的帧内档次),工作草案定期更新。这已被ITU批准为ITU-T H.265/ISO/IEC 23008-2 HEVC。预计基于HEVC的解码器在2016年底将达到20亿之多。紧随其后的是计划在2014年实现标准化的扩展部分如可伸缩视频编码(SVC: Scalabe Video Coding)和多视图编码(3D视频,自由视点视频,立体视觉视频,等等)。除了已有标准如H.264/AVC到HEVC的双向转码器之外,这些进展还为其它的研发工作提供了肥沃的土壤(见最后的项目)。《视频编码全角度详解》的主要焦点是视频,对音频只做少量描述。然而,某些论题/专题详细叙述了在保证视频和音频同步时编码器内的编码过程和视频/音频比特流的复用过程,以及这些比特流后来的解复用和解码过程。读者可以参考Rao博士的网址http://www-ee.uta.edu/dip(点击“courses”,然后点击EE5359 multimedia processing,向下滚动访问theses/projects/ppslides/papers/proposals,等等),即用AAC音频比特流复用/解复用AVS China视频以实现音视频同步,以及用HEVC-AAC音频比特流复用/解复用H.264/AVC视频实现音视频同步。

第6-8章阐述了VP6(最初由On2技术开发——后来由Google获得)所包含的功能,还带有下列标准相关的网址:VP9/VP10、BBC开发的使用小波而不是传统DCT/整数DCT的DIRAC,以及基于微软视窗媒体视频9(Windows Media Video 9)的VC-1。除第1章和第2章外,所有其它章都增补有专题,许多专题具有硕士和博士论文水平。附录A到H(源于德克萨斯大学阿灵顿分校以前的研究生,附录B和H除外)提供了额外的资源,这些资源也补充了许多具有硕博士论文水平的专题。书目提要提供了数量众多的出现在第3章到第8章的有关视频编码标准的参考文献,包括web/ftp地址、评论文章、标准文档、主题报告、专辑、开源软件、等等。

希望《视频编码全角度详解》和所有概述过的资源能为读者理解和实现这些标准提供可能。有远见的读者可以对这些标准提出改变、或增补、或扩展、或修正以提高性能、降低复杂度和增加应用领域。《视频编码全角度详解》无意成为任何课程的教科书。相反,希望本书成为学术界、研究机构和工业界的具有科研水平的参考书。


译者序

随着多媒体时代的到来,人们对于视频的质量要求越来越高,与此同时,也期望视频传输具有更快的速度。而传输系统和存储系统对于视频格式乃至码流语法的要求则是尽可能的统一。这两方面的客观要求就是,要对视频数据进行压缩;压缩要实现标准化。视频编码标准应运而生。K. R. Rao、D. N. Kim和J. J. Hwang合著的本书囊括了从人类进入信息时代至今的主要视频编码标准,就本书涉及的内容之广,它是独一无二的。本书最具特色,也是最有价值的部分是提供了大量的研究专题,尤其是那些具有前瞻性的尝试和质疑。这些专题可以作为硕士乃至博士论文的选题,也可作为一篇期刊论文的研究焦点。国内视频编码领域的研究生毕业论文会因为选题重复或陈旧而遭受质疑,研究者们发表论文也会因为题目平凡而被拒稿。相信广大读者在充分吸取本书的滋养、挖掘所列专题这一“富矿”之后,对于研究内容的确定是大有裨益的。此外,本书还提供了篇幅可观的附录,其中包含了与专题研究相关的实验数据结果,可以作为广大读者自行研究的参考。

在翻译过程中,考虑到翻译的目的是介绍编码技术标准,而技术标准本身是客观存在的,是独立于表述语言和方式的,因此,我们对译文的要求首先是“客观”,尽可能地忠实于技术本身而不是刻板于原著的表述。其次的要求是“地道”,即符合汉语的表达习惯,阅读起来感觉流畅。对于原著中没有给出的缩略语,译者查阅了相关视频标准的文档进行了解释和补充。对于那些译者自己也不甚满意的译法,注明了原著的表述,供广大读者斟酌参考。对于图表等实验结果,则是不折不扣地“忠实”于原著。

本书由刘雪冬负责第1-5章的翻译、全书的统稿和校对。中国地质大学(武汉)外国语学院的刘雪莲老师负责第6-8章和附录A-E的翻译。武汉理工大学信息学院的撒继铭老师负责附录F-H和参考文献的翻译。在本书的翻译工作中,武汉理工大学信息学院的郭志强、黄朝兵、江雪梅、张小梅、黄铮、许建霞和朱健春老师以及贾静静、霍波、宋深、和张一丹同学参加了部分翻译工作。在此,感谢这些老师和同学们的大力支持!感谢机械工业出版社的相关工作人员,特别是吕潇编辑。吕编辑谦虚体谅,宽厚礼让,在译者因故致使翻译工作受阻时给予充分的理解并给予相应的时间调整,使译者最终以良好的状态如期完成翻译工作。

作为主要译者的刘雪冬是武汉理工大学信息学院的副教授。有幸来到美国德克萨斯大学阿灵顿分校在本书原著作者K. R. Rao教授的指导下开展访问学者的研究工作,这也是成为《视频编码全角度详解》译者的机缘之一。译者初到阿灵顿时气温偏凉,Rao教授关心地问候译者是否需要他的衣服和围巾,甚至是否需要午饭。在以后的见面中总会提醒是否来杯咖啡,在分别时常会送一些小零食。Rao教授常打球游泳开车,为学生授课并指导研究,身体很棒。殊不知他已85岁高龄!看来,“仁者寿”是不分种族国籍的。为了尽可能地翻译准确,译者曾就原著中的一些问题当面请教了他,这些问题涉及缩略语、算法和硬件实现的技术细节、乃至词语的拼写,老先生对于每个问题都能立刻做出回答。目前,作为IEEE会士(Fellow),Rao教授仍然关注着视频编码研究的最前沿,在他指导译者阅读的文献中,视频标准发展的图谱已经绘制到了2017年!心有仁善,慈爱为怀;老骥伏枥,壮心不已,焉能不寿?祝愿Rao教授身体健康,事业精进!

另一件让译者倍感欣慰的是《视频编码全角度详解》对于我国具有自主知识产权的音视频编码标准AVS-China进行了较为详细的介绍,这表明中国人制定的编码标准其综合性能引起了世界的关注!祝愿祖国的科技事业繁荣昌盛!最后,要特别感谢武汉理工大学对于译者出国研修的资助,没有学校提供的经费,译者就无缘遇到Rao教授,更不会有此番学术和翻译经历。

译者在翻译的过程中,对原著存在的一些明显错误进行了修改。如果书中仍然存在疏忽与错误之处,恳请读者批评指正。


译者

美国德克萨斯州阿灵顿市

2017年3月