《语音识别：原理与应用（全彩）(博文视点出品)》[65M]百度网盘|pdf下载|亲测有效

语音识别：原理与应用（全彩）(博文视点出品) pdf下载

出版社社会出版社

出版年 2020-07

页数 390页

装帧精装

评分 8.8(豆瓣)

⏰ 限时特惠 00:00:00

活动结束后恢复原价

纸质书参考价 ¥23

电子版限时价 ¥5.99 省 18 元

选择版本

基础版

PDF文件

¥4

内容简介

本篇主要提供语音识别：原理与应用（全彩）(博文视点出品)电子书的pdf版本下载，本电子书下载方式为百度网盘方式，点击以上按钮下单完成后即会通过邮件和网页的方式发货，有问题请联系邮箱ebook666@outlook.com

产品特色

编辑推荐

适读人群：本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生教材，也适合作为从事智能语音系统的科研和工程技术人员的参考用书。

√全彩印刷，图文并茂

√解析GMM-HMM、DNN-HMM和E2E框架，WFST和LF-MMI等关键技术全貌

√系统梳理经典算法、前沿技术

√工程实践Kaldi和Espnet

内容简介

本书系统地介绍了语音识别的原理和应用，全书共分 15 章，原理部分涵盖声学特征、隐马尔可夫模型（HMM）、高斯混合模型（GMM）、深度神经网络（DNN）、语言模型和加权有限状态转换器（WFST），重点描述了 GMM-HMM、DNN-HMM 和端到端（E2E）三种语音识别框架。本书应用部分包含 Kaldi、Espnet、工业应用实践介绍，内容主要来自工程经验，极具实用性。

本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生教材，也适合作为从事智能语音系统的科研和工程技术人员的参考用书。

作者简介

洪青阳，厦门大学副教授，天聪智能创始人，主要研究方向是语音识别、声纹识别，先后主持国家自然基金两项，科技部创新基金两项。牵头组建厦门大学智能语音实验室，带领xmuspeech团队连续两届获东方语种识别（OLR）竞赛第一名，成功研发国内第一套闽南语合成系统。具有丰富的工业界研发经验，与华为、云从、掌数科技等知名企业合作，承担过大量的智能语音项目，核心技术应用到华为智能手机和全国十五个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作，从动态时间规整（DTW）、隐马尔可夫模型（HMM）到E2E语音识别框架，与时俱进更新教学内容，积累了丰富的教学经验。

精彩书评

洪青阳老师是国内语音信息处理领域的著名学者。本书从语音信号处理的知识讲起，覆盖了概率模型和神经网络时代语音识别领域的代表性算法，兼顾了历史沉积和技术前沿。书中既包括理论知识，也包括算法原理，同时给出了动手实践的案例，集理论性与实操性于一体，可见作者用心细致。通过本书的学习，读者将获得语音识别的基础知识和前沿视野，为进一步研究打下坚实基础。

清华大学副研究员/语音语言研究中心副主任王东

洪老师的《语音识别：原理与应用》是一本优秀的人工智能领域的教材。它既有语音技术基本原理和语音识别基础框架的讲解，又有前沿技术的阐述，娓娓道来，润物无声，使读者从入门循序渐进地深入技术前沿。同时，本书还详细介绍了语音识别的工程实践方法，帮助读者迅速掌握语音识别的落地技术。这两方面是本书区别于现有教材的显著特色。

中国科学院声学研究所研究员/博士生导师赵庆卫

我从九几年毕业到现在一直从事电信行业的语音应用开发工作。电信行业语音识别第一次大规模应用应该是21世纪初的语音电话本和彩铃搜索。然而，由于受到环境、信道和口音的影响，语音识别基本只是受限的应用，特别是8kHZ电话信道下，要提高识别率还需要不断地研究和实践。国内兼顾理论研究和工程应用的语音识别类书籍还很少，本书是介绍语音识别较为全面的一本书籍。书中不仅介绍了语音识别的相关理论，同时也详细介绍了诸如Kaldi工具的使用和封装、云服务等开发实践，因此本书对于那些希望将理论转换成能实际投产的生产系统的研究人员极具实用性，对于从事语音识别应用集成开发的工程师也具有参考价值。

资深CTI专家/《百问FreeSwitch》作者余洪涌

洪青阳老师在智能语音领域耕耘多年，桃李天下。今倾心编写本书，把语音识别领域的技术一一道来，本人作为证券行业从业者，并非语音专业人士，但读完本书有种茅塞顿开的感觉。如今语音识别、语音合成和声纹识别技术在证券行业拥有广泛的应用场景，相信读者学习完本书，能够更加深刻地理解语音识别的技术原理和应用技巧。建议金融行业身居客服、运营等技术创新岗位的同仁阅读学习。

东方证券股份有限公司系统研发部总监包怡军

人工智能特别是智能语音技术在证券行业得到空前发展，这得益于大数据方面的积累，源于开源社区对深度学习算法的研究，以及GPU等硬件加速技术的算力加持。洪青阳和李琳老师带领厦门大学智能语音实验室团队，在语音识别技术方面进行了系统、深入及全面的研究，终得以成就本书。拜读后深深感到，书中所提及的有关技术，正在被金融证券智能化语音场景（如智能外呼、智能审核、智能质检、智能双录、智能运营等）广泛使用，具有极强的实用性。书中所述的对声学模型与语言模型的调优方法，有着作者独到的见解。推荐致力于从事智能语音技术和算法研究的人士阅读。

上海掌数科技有限公司总经理刘建
上海掌数科技有限公司技术总监高星

前言/序言

语音识别技术的发展日新月异，新的理论和方案不断出现，读者除了掌握基本原理，也亟须了解语音识别最新的前沿技术，例如加权有限状态转换器（WFST）、端到端（E2E）语音识别等。

作者承担过大量的语音识别项目研究和开发工作，有丰富的工业应用经验。另外，作者从事本科生、研究生的语音识别教学十多年，从最早的动态时间规整（DTW）、隐马尔可夫模型（HMM）到最新的E2E语音识别框架，积累了丰富的教学经验，深感理论知识讲解的困难，特别是语音识别原理比较复杂，从声学特征提取到HMM建模和解码过程，涉及信号处理、概率模型和神经网络等多个领域知识，要做到浅显易懂尤为不易，因此作者很希望能编写一本符合学生掌握能力和教学进度的教材，弥补高校人工智能等专业语音教材的匮乏，同时也为产业界工程师的语音识别入门提供经验参考。

本书围绕语音识别的原理和应用讲解，理论结合实际，采用大量插图，辅以实例，力求深入浅出，让读者能较快地理解语音识别的基础理论和关键技术。为帮助读者动手操作，提高实战技能，本书最后还结合Kaldi和Espnet等开源工具，介绍了具体的工程实践方法。本书包含以下章节：

第1章语音识别概论，介绍人类语音的产生和感知过程、语音识别的关键技术、发展历史等。

第2章语音信号基础，介绍声音的采集和量化过程，以及编码和存储格式。

第3章语音特征提取，介绍语音信号的频域分析、倒谱分析、声学特征提取过程等。

第4章 HMM，介绍双重随机过程，以及HMM的三大问题。

第5章 GMM-HMM，介绍高斯混合模型的定义和重估计公式，并结合例子讲解GMM如何与HMM结合，以及对应的具体参数形式。

第6章基于HMM的语音识别，介绍单音子声学模型和Viterbi解码过程。

第7章音素的上下文建模，介绍双音子和三音子模型，并基于问题集和决策树讲述三音子的训练过程。

第8章语言模型，介绍语言模型训练过程及在语音识别中的作用。

第9章 WFST 解码器，介绍动态和静态解码网络，以及WFST、HCLG等关键技术。

第10章 DNN-HMM，介绍深度学习在语音识别中的应用，包括CNN、LSTM、TDNN等网络。

第11章序列区分性训练，介绍 MMI/BMMI、MPE/sMBR等准则，以及Lattice-free MMI训练方法。

第12章端到端语音识别，介绍CTC、RNN-T、Attention和Transformer等端到端语音识别系统。

第13章 Kaldi实践，首先介绍Kaldi的下载安装步骤，然后以aishell-1中文数据库为例，介绍如何训练和测试模型。

第14章 Espnet实践，介绍使用Espnet进行目前主流的端到端语音识别模型的训练和解码过程。

第15章工业应用实践，介绍如何封装语音识别动态库，如何调用和调优。

本书由洪青阳完成主要章节的编写，李琳负责第3章的编写，洪青阳和李琳对全书进行了审校。特别感谢赵淼、李松、张宁、夏仕鹏、刘凯对本书的贡献，赵淼和李松分别对Kaldi和Espnet的实践过程做了深入细致的整理，他们的协助使得本书顺利完成。

感谢厦门大学智能语音实验室的童峰老师、许彬彬老师和同学们，为本书的创作提供了良好的学术氛围和精益求精的驱动力。

感谢语音学术和产业界的赵庆卫、王东、余洪涌、李明、张超、谢磊、张卫强、张鹏远等专家和学者，他们的指导和启发令本书增色不少。

感谢电子工业出版社的郑柳洁等老师的大力支持，她们认真细致的工作保证了本书的质量。

为读者写一本精品书是作者的初衷，但由于作者水平有限，书中难免有疏漏和不足之处，恳请读者批评指正！

查看全部↓

语音识别：原理与应用（全彩）(博文视点出品) pdf下载

选择版本

内容简介

产品特色

编辑推荐

内容简介

作者简介

精彩书评

目录

前言/序言

相关推荐

更好的数据可视化指南

微服务设计第2版

数据分析与预测算法：基于R语言

Python基础