本书特色
本书全面回顾了近30年机器翻译技术的发展历程,并围绕机器翻译的建模和深度学习方法这两个主题对机器翻译的技术方法进行了全面介绍。在写作中,笔者力求用朴实的语言和简洁的实例来阐述机器翻译的基本模型,同时对相关的前沿技术进行讨论。其中涉及大量的实践经验,包括许多机器翻译系统开发的细节。从这个角度看,本书不仅是一本理论书,还结合了机器翻译的应用,给读者提供了很多机器翻译技术落地的思路。本书可供计算机相关专业高年级本科生及研究生学习之用,也可作为自然语言处理领域,特别是机器翻译方向相关研究人员的参考资料。此外,本书各章主题明确,内容紧凑。因此,读者可将每章作为某一专题的学习资料。用最简单的方式阐述机器翻译的基本思想是笔者期望达到的目标。虽然书中不可避免地使用了一 些形式化的定义和算法的抽象描述,但笔者也尽所能地通过图例对其进行了解释(本书共395张插图)。本书所包含的内容较为广泛,难免会有疏漏,望读者海涵,并指出不当之处。
本书内容概要
本书分4个部分,共18章。章节的顺序参考了机器翻译技术发展的时间脉络,兼顾了机器翻译知识体系的内在逻辑。本书的主要内容包括: 第1部分:机器翻译基础 第1章 机器翻译简介 第 2 章 统计语言建模基础 第 3 章 词法分析和语法分析基础 第 4 章 翻译质量评价 第 2 部分:统计机器翻译 第 5 章 基于词的机器翻译建模 第 6 章 基于扭曲度和繁衍率的模型 第 7 章 基于短语的模型 第 8 章 基于句法的模型 第 3 部分:神经机器翻译 第 9 章 神经网络和神经语言建模 第 10 章 基于循环神经网络的模型 第 11 章 基于卷积神经网络的模型 第 12 章 基于自注意力的模型 第 4 部分:机器翻译前沿 第 13 章 神经机器翻译模型训练 第 14 章 神经机器翻译模型推断 第 15 章 神经机器翻译模型结构优化 第 16 章 低资源神经机器翻译 第 17 章 多模态、多层次机器翻译 第 18 章 机器翻译应用技术 第 1 部分是本书的基础知识部分,包含统计语言建模、词法分析和语法分析基础、翻译质量评价等。在第 1 章对机器翻译的历史及现状进行介绍之后,第 2 章通过语言建模任务将统计建模的思想阐述出来,这部分内容是机器翻译模型及方法的基础。第 3 章重点介绍了机器翻译涉及的词法分析和语法分析方法,旨在为后续相关概念的使用做铺垫,并展示了统计建模思想在相关问题上的应用。第 4 章相对独立,系统地介绍了机器翻译结果的评价方法。第 1 部分内容是机器翻 译建模及系统设计所需的前置知识。第 2 部分主要介绍统计机器翻译的基本模型。第 5 章是整个机器翻译建模的基础。第 6 章对 扭曲度和繁衍率两个概念进行介绍,同时给出相关的翻译模型,这些模型在后续章节中都有涉及。第 7 章和第 8 章分别介绍了基于短语和句法的模型。它们都是统计机器翻译的经典模型,其思想也构成了机器翻译成长过程中最精华的部分。 第 3 部分主要介绍神经机器翻译模型,该模型是近年机器翻译的热点。第 9 章介绍了人工神经网络和深度学习的基础知识,以保证本书知识体系的完备性。同时,介绍了基于神经网络的语言模型,其建模思想在神经机器翻译中被大量使用。第 10~12 章分别对 3 种经典的神经机器翻译模型进行介绍,以模型提出的时间为序,从最初的基于循环网络的模型,到 Transformer 模型均有涉及。其中,也会对编码器-解码器框架、注意力机制等经典方法和技术进行介绍。 第 4 部分对机器翻译的前沿技术进行了讨论,以神经机器翻译为主。第 13~15 章介绍了神经 机器翻译研发的 3 个主要方面,它们也是近年机器翻译领域讨论最多的方向。第 16~17 章介绍了机器翻译领域的热门方向,包括无监督翻译等主题。同时,对语音、图像翻译等多模态方法及篇章级翻译等方法进行介绍,它们可以被看作机器翻译在更多任务上的扩展。第 18 章结合笔者在各 种机器翻译比赛和机器翻译产品研发中的经验,对机器翻译的应用技术进行讨论。