《语音识别服务实战》[94M]百度网盘|pdf下载|亲测有效

产品特色

内容简介

随着语音算法技术的不断发展与完善，如何进行工程落地成为语音商业应用中普遍面临的问题。工程落地不仅要考虑模型效果，还要考虑资源占用、模块联调且整个架构要具有可靠性、可扩展性和可维护性。

本书围绕如何从零构建一个完整的语音识别系统，深入浅出地介绍了语音识别前端算法、语音识别算法及说话人日志算法原理；基于Kaldi的模型训练；语音识别工程落地和服务搭建。

本书适合作为语音技术研究人员及对语音技术感兴趣的开发人员的参考用书。

作者简介

杨学锐

大疆创新语音交互算法负责人，复旦大学及Turku大学硕士，长期从事语音算法、深度学习、人工智能等领域的研究与商业落地，在相关领域发表多篇论文及专利。

晏超

北京邮电大学硕士，曾任职于HP Labs, Cisco, Technicolor等公司。现为云从科技语音算法负责人，从事语音识别、声纹识别、说话人日志、语音合成等方向的算法研发工作，构建了云从科技整套语音算法引擎与应用服务平台。

刘雪松

OPPO音频算法专家，复旦大学硕士，曾任职于美国国家仪器、声网、云从科技等公司。在信号处理、音频算法和语音算法等领域有丰富的实战经验，在相关领域发表多篇论文及专利。

精彩书评

近年来，随着声传感、声信号处理、模式识别、机器学习、云计算理论与方法的快速发展，以及不同场景下大规模带标注语音数据的出现，语音识别技术再次经历了跨越式发展，也逐渐被大规模推广应用。本领域中介绍新技术和应用的著作不少，但大多数主要专注于某些专题的方法和算法。相比而言，本书涵盖的内容比较广泛，既包括前端语音信号处理的基础方法，如端点检测、降噪、回声消除、麦克风阵列和声源测向/定位等，也包括语音识别、模型训练、声纹识别等后端处理技术。书中还介绍了前端和后端处理常用的基础工具，并提供了大量应用的实例。相信读者，尤其是工作在该领域一线的系统、产品与应用研发人员，一定能获益匪浅。

陈景东西北工业大学教授、博导、智能声学与临境通信中心主任，国家特聘专家，IEEE Fellow，“杰出青年科学基金”获得者

一套完整的语音识别系统需要采集设备、前端处理、后端模型前后打通、整体优化，才能达到理想的识别效果。本书作者从事语音算法研究多年，具有丰富的工业应用经验，把项目实战过程和Kaldi开源代码完整详细地总结到书中，技术人员可从中受益，搭建工业级的语音识别系统。

洪青阳厦门大学副教授、天聪智能创始人

《语音识别服务实战》是一本面向语音识别从业人员的参考书，既包括语音信号的基础知识，也包括构造实用识别系统的全栈过程，内容完整丰富。特别是，该书以开源数据和开源代码为基础进行技术描述，具有很强的实操性，有利于打破知识壁垒，帮助更多青年、学生和非语音方向的工程师快速进入该领域，对行业的发展产生积极的促进作用。

王东清华大学

《Kaldi语音识别实战》一书围绕语音识别领域知名的开源工具包Kaldi，讲述语音识别技术的新进展，从某种程度上弥补了资料的不足。而《语音识别服务实战》一书则跟进一步，从语音识别落地应用的视角切入，详细阐述了如何用语音识别技术搭建相关的应用服务。

本书作者都具有丰富的语音识别技术落地应用经验，深入浅出地讲解了语音识别技术从原理到应用落地的全过程。本书是一本很好的语音识别技术落地的参考用书。

陈果果《Kaldi语音识别实战》作者

云从科技在打造人机协同平台的过程中，也基于Kaldi构建了众多语音交互基础算法，在很多项目中取得了非常好的效果，并落地在不同的实际应用场景。

本书作者长期工作在语音算法一线，具备丰富的实战经验。书中描述的绝大多数算法在商业语音服务平台都有具体的应用。很高兴看到作者能够通过本书把他们在实践中积累的宝贵经验分享给广大读者，也希望本书能够对推动语音技术的发展与落地起到显著的作用。

刘琼云从集团首席科学家

人工智能的快速发展使得机器开始逐渐理解人类的语言。机器具备了接近人类的认知能力，这也让我们人类在宇宙中增加了一个新的“伙伴”，从此人类不再孤独。自然语言理解，尤其是语音识别，也在经历着技术上的范式改变，从原来基于统计和规则，逐步转变为依赖深度神经网络技术。数据不仅被用来计算概率模型，而且更多地被用来训练深度学习模型，尤其是近些年兴起的基于自注意力结构的Transformer模型。在大数据、重计算和深模型的共同推动下，才有了语音识别技术质的飞跃，也支撑了智能客服、语音助理、智能家居等产业的繁荣发展。本书是新时代的产物，从实践的角度，很好地阐述了语音识别领域正在发生的变化。

张家兴 IDEA研究院讲席科学家，认知计算与自然语言研究中心负责人

前言/序言

前言

近年来，随着深度学习技术的不断发展，语音识别准确率得到了大幅提升，由此带来了基于语音交互应用的丰富想象力，这些技术越来越多地影响着人们生产和生活的方方面面。其中，消费级应用包括智能音箱、手机语音助理、车载智能座舱、语音输入法与翻译机等；企业级应用包括智能客服、语音质检、智慧教育、智慧医疗等。各类智能语音应用的蓬勃发展使得越来越多的人加入语音领域的研究和落地，共同推动整个语音产业的发展。

得益于语音识别技术的蓬勃发展和识别率的节节攀升，业界涌现出众多优秀的端到端语音工具包，如Wenet，ESPNet，SpeechBrain等。尽管如此，2009年约翰霍普金斯大学夏季研讨会孵化出的Kaldi工具箱，以其稳定的算法效果，活跃的社区氛围，得到了广泛应用，极大地降低了语音识别的上手门槛，也培养了大量的相关人才。目前，仍然有很多公司在使用基于Kaldi的工程方案。

由于语音交互技术涉及的算法与技术链条较长，因此已有的语音算法相关图书主要集中在各类语音算法的原理与训练上，缺乏从语音交互角度出发，介绍语音交互所需的语音前后端各项算法和整体解决方案的相关图书。在语音应用的落地上，学术界也缺乏产业界的工程应用落地经验。本书将致力于拉进学术界与产业界的距离，在系统地介绍语音交互流程中涉及的语音前端处理、语音识别和说话人日志等算法原理的同时，详细介绍如何基于WebRTC，Kaldi和gRPC，从零构建产业界稳定、高性能、可商用的语音服务。

在前端算法的相关章节中，本书系统地介绍了语音活动检测、语音降噪、回声消除、波束形成等常用的语音前端处理算法的原理，还针对各种算法在实际场景中的工程实现方法，提供了大量的经验总结。除了介绍传统信号的处理方法，本书还介绍了深度学习方法在语音前端领域中的发展和应用现状。

在语音后端算法方面，本书详细介绍了语音识别中的特征提取、声学模型、语言模型、解码器和端到端语音识别，以及说话人日志中的声纹Embedding提取和聚类算法。同时，还介绍了如何基于Kaldi训练语音识别及说话人日志模型。针对训练模型时的很多细节问题，提供了详细的解释。

在语音算法工程化方面，本书介绍了如何利用WebRTC和Kaldi优化处理流程，形成语音算法SDK。基于流行的用于微服务构建的RPC远程调用框架和SDK，进一步介绍了如何实现一套方便用户快捷接入的语音算法的微服务。

本书由杨学锐、晏超、刘雪松合作撰写。三位作者长期在一线从事语音算法工作，书中内容汇集了他们在产业界模型训练和应用落地的思考与经验总结，希望能给学术界的研究人员与产业界的从业人员带来一丝启发和帮助。其中杨学锐负责第1、4、5章的撰写及全书内容的审核校对，晏超负责第6、7、8章的撰写及工程代码的实现调试，刘雪松负责第2、3章及第1章部分内容的撰写和校对。

最后，感谢电子工业出版社李淑丽老师的辛苦工作，感谢吴伯庸和王金超对本书的贡献，感谢陈勇的审稿与校对，感谢成书过程中给予过帮助的所有相关人士。

由于作者水平有限，书中如有任何错误与不足，恳请广大读者批评指正并提出宝贵意见。

作者

2021年11日于上海

查看全部↓

语音识别服务实战 pdf下载

内容简介

产品特色

内容简介

作者简介

精彩书评

目录

前言/序言

语音识别服务实战 pdf下载

内容简介

产品特色

内容简介

作者简介

精彩书评

目录

前言/序言

相关推荐

Foxtable数据库应用开发宝典贺辉,周菁著

中国传统文化经典:仁爱席涛合肥工业计算机与互联网书籍

曲面之美——Rhino产品造型设计

系统集成项目管理工程师章节习题与考点特训