《BERT基础教程Transformer大模型实战》[31M]百度网盘|亲测有效|pdf下载
![《BERT基础教程Transformer大模型实战》[31M]百度网盘|亲测有效|pdf下载](/uploads/2024-01-20/1cc6e425b34a9f26.jpg)
BERT基础教程Transformer大模型实战
更新日期:2024-07-23 22:19:31
书店:文轩网旗舰店
出版时间:2023-02
浏览量:价格:0.0¥
书籍下载
内容介绍
![](http://img14.360buyimg.com/cms/jfs/t1/203358/9/26405/134589/62f4a34cEcdefae53/84e082ed3b03dbc0.jpg)
作 者:(印)苏达哈尔桑·拉维昌迪兰 著 周参 译
![](http://misc.360buyimg.com/lib/img/e/blank.gif)
定 价:89.8
![](http://misc.360buyimg.com/lib/img/e/blank.gif)
出 版 社:人民邮电出版社
![](http://misc.360buyimg.com/lib/img/e/blank.gif)
出版日期:2023年02月01日
![](http://misc.360buyimg.com/lib/img/e/blank.gif)
页 数:280
![](http://misc.360buyimg.com/lib/img/e/blank.gif)
装 帧:平装
![](http://misc.360buyimg.com/lib/img/e/blank.gif)
ISBN:9787115603722
![](http://misc.360buyimg.com/lib/img/e/blank.gif)
![主编推荐](http://misc.360buyimg.com/lib/img/e/blank.gif)
轻松上手:循序渐进,引导你亲手训练和理解BERT模型
以简驭繁:示意图丰富,逐步拆解复杂原理,小白也能看懂
运用自如:呈现多种下游任务,凝聚实战经验,助你灵活运用
详细系统:详细讲解十余种BERT变体的原理,配套大量示例和习题
![目录](http://misc.360buyimg.com/lib/img/e/blank.gif)
●第一部分开始使用BERT
第1章Transformer概览2
1.1Transformer简介2
1.2理解编码器3
1.2.1自注意力机制5
1.2.2多头注意力层14
1.2.3通过位置编码来学习位置16
1.2.4前馈网络层19
1.2.5叠加和归一组件19
1.2.6编码器总览20
1.3理解解码器21
1.3.1带掩码的多头注意力层25
1.3.2多头注意力层30
1.3.3前馈网络层34
1.3.4叠加和归一组件34
1.3.5线性层和softmax层35
1.3.6解码器总览36
1.4整合编码器和解码器38
1.5训练Transformer39
1.6小结39
1.7习题40
1.8深入阅读40
第2章了解BERT模型41
2.1BERT的基本理念41
2.2BERT的工作原理43
2.3BERT的配置45
2.3.1BERT-base46
2.3.2BERT-large46
2.3.3BERT的其他配置47
2.4BERT模型预训练48
2.4.1输入数据49
2.4.2预训练策略53
2.4.3预训练过程61
2.5子词词元化算法63
2.5.1字节对编码64
2.5.2字节级字节对编码69
2.5.3WordPiece69
2.6小结71
2.7习题72
2.8深入阅读72
第3章BERT实战73
3.1预训练的BERT模型73
3.2从预训练的BERT模型中提取嵌入74
3.2.1Hugging Face的Transformers库77
3.2.2BERT嵌入的生成77
3.3从BERT的所有编码器层中提取嵌入81
3.4针对下游任务进行微调.85
3.4.1文本分类任务86
3.4.2自然语言推理任务91
3.4.3问答任务93
3.4.4命名实体识别任务97
3.5小结98
3.6习题99
3.7深入阅读99
第二部分探索BERT变体
第4章BERT变体(上):ALBERT、RoBERTa、ELECTRA和SpanBERT102
4.1BERT的精简版ALBERT103
4.1.1跨层参数共享103
4.1.2嵌入层参数因子分解104
4.1.3训练ALBERT模型105
4.1.4对比ALBERT与BERT106
4.2从ALBERT中提取嵌入107
4.3了解RoBERTa108
4.3.1使用动态掩码而不是静态掩码108
4.3.2移除下句预测任务110
4.3.3用更多的数据集进行训练111
4.3.4以大批量的方式进行训练111
4.3.5使用字节级字节对编码作为子词词元化算法111
4.4了解ELECTRA114
4.4.1了解替换标记检测任务114
4.4.2ELECTRA的生成器和判别器117
4.4.3训练ELECTRA模型120
4.4.4高效的训练方法121
4.5用SpanBERT预测文本段122
4.5.1了解SpanBERT的架构122
4.5.2深入了解SpanBERT124
4.5.3将预训练的SpanBERT用于问答任务125
4.6小结126
4.7习题127
4.8深入阅读127
第5章BERT变体(下):基于知识蒸馏128
5.1知识蒸馏简介129
5.2DistilBERT模型——BERT模型的知识蒸馏版本134
5.2.1教师学生架构134
5.2.2训练学生BERT模型(DistilBERT模型)136
5.3TinyBERT模型简介138
5.3.1教师学生架构139
5.3.2TinyBERT模型的蒸馏140
5.3.3最终损失函数145
5.3.4训练学生BERT模型(TinyBERT模型)145
5.4将知识从BERT模型迁移到神经网络中149
5.4.1教师学生架构149
5.4.2训练学生网络151
5.4.3数据增强方法151
5.5小结153
5.6习题153
5.7深入阅读154
第三部分BERT模型的应用
第6章用于文本摘要任务的BERTSUM模型156
6.1文本摘要任务156
6.1.1提取式摘要任务157
6.1.2抽象式摘要任务158
6.2为文本摘要任务微调BERT模型158
6.2.1使用BERT模型执行提取式摘要任务158
6.2.2使用BERT模型执行抽象式摘要任务167
6.3理解ROUGE评估指标169
6.3.1理解ROUGE-N指标169
6.3.2理解ROUGE-L指标171
6.4BERTSUM模型的性能172
6.5训练BERTSUM模型172
6.6小结174
6.7习题174
6.8深入阅读175
第7章将BERT模型应用于其他语言176
7.1理解多语言BERT模型177
7.2M-BERT模型的多语言表现182
7.2.1词汇重叠的影响182
7.2.2跨文本书写的通用性183
7.2.3跨类型特征的通用性184
7.2.4语言相似性的影响184
7.2.5语码混用和音译的影响185
7.3跨语言模型187
7.3.1预训练策略188
7.3.2预训练XLM模型190
7.3.3对XLM模型的评估191
7.4理解XLM-R模型192
7.5特定语言的BERT模型194
7.5.1法语的FlauBERT模型194
7.5.2西班牙语的BETO模型196
7.5.3荷兰语的BERTje模型198
7.5.4德语的BERT模型199
7.5.5汉语的BERT模型200
7.5.6日语的BERT模型202
7.5.7芬兰语的FinBERT模型202
7.5.8意大利语的UmBERTo模型203
7.5.9葡萄牙语的BERTimbau模型204
7.5.10俄语的RuBERT模型204
7.6小结206
7.7习题206
7.8深入阅读207
第8章Sentence-BERT模型和特定领域的BERT模型208
8.1用Sentence-BERT模型生成句子特征208
8.1.1计算句子特征209
8.1.2了解Sentence-BERT模型211
8.2sentence-transformers库217
8.2.1使用Sentence-BERT计算句子特征217
8.2.2计算句子的相似度218
8.2.3加载自定义模型219
8.2.4用Sentence-BERT模型寻找类似句子220
8.3通过知识蒸馏迁移多语言嵌入221
8.3.1教师学生架构223
8.3.2使用多语言模型224
8.4特定领域的BERT模型:ClinicalBERT模型和BioBERT模型225
8.4.1ClinicalBERT模型225
8.4.2BioBERT模型229
8.5小结232
8.6习题233
8.7深入阅读233
第9章VideoBERT模型和BART模型234
9.1VideoBERT模型学习语言及视频特征235
9.1.1预训练VideoBERT模型235
9.1.2数据源和预处理239
9.1.3VideoBERT模型的应用240
9.2了解BART模型241
9.2.1BART模型的架构241
9.2.2比较不同的预训练目标245
9.2.3使用BART模型执行文本摘要任务245
9.3探讨BERT库246
9.3.1ktrain库247
9.3.2bert-as-service库255
9.4小结258
9.5习题259
9.6深入阅读259
习题参考答案260
第1章Transformer概览2
1.1Transformer简介2
1.2理解编码器3
1.2.1自注意力机制5
1.2.2多头注意力层14
1.2.3通过位置编码来学习位置16
1.2.4前馈网络层19
1.2.5叠加和归一组件19
1.2.6编码器总览20
1.3理解解码器21
1.3.1带掩码的多头注意力层25
1.3.2多头注意力层30
1.3.3前馈网络层34
1.3.4叠加和归一组件34
1.3.5线性层和softmax层35
1.3.6解码器总览36
1.4整合编码器和解码器38
1.5训练Transformer39
1.6小结39
1.7习题40
1.8深入阅读40
第2章了解BERT模型41
2.1BERT的基本理念41
2.2BERT的工作原理43
2.3BERT的配置45
2.3.1BERT-base46
2.3.2BERT-large46
2.3.3BERT的其他配置47
2.4BERT模型预训练48
2.4.1输入数据49
2.4.2预训练策略53
2.4.3预训练过程61
2.5子词词元化算法63
2.5.1字节对编码64
2.5.2字节级字节对编码69
2.5.3WordPiece69
2.6小结71
2.7习题72
2.8深入阅读72
第3章BERT实战73
3.1预训练的BERT模型73
3.2从预训练的BERT模型中提取嵌入74
3.2.1Hugging Face的Transformers库77
3.2.2BERT嵌入的生成77
3.3从BERT的所有编码器层中提取嵌入81
3.4针对下游任务进行微调.85
3.4.1文本分类任务86
3.4.2自然语言推理任务91
3.4.3问答任务93
3.4.4命名实体识别任务97
3.5小结98
3.6习题99
3.7深入阅读99
第二部分探索BERT变体
第4章BERT变体(上):ALBERT、RoBERTa、ELECTRA和SpanBERT102
4.1BERT的精简版ALBERT103
4.1.1跨层参数共享103
4.1.2嵌入层参数因子分解104
4.1.3训练ALBERT模型105
4.1.4对比ALBERT与BERT106
4.2从ALBERT中提取嵌入107
4.3了解RoBERTa108
4.3.1使用动态掩码而不是静态掩码108
4.3.2移除下句预测任务110
4.3.3用更多的数据集进行训练111
4.3.4以大批量的方式进行训练111
4.3.5使用字节级字节对编码作为子词词元化算法111
4.4了解ELECTRA114
4.4.1了解替换标记检测任务114
4.4.2ELECTRA的生成器和判别器117
4.4.3训练ELECTRA模型120
4.4.4高效的训练方法121
4.5用SpanBERT预测文本段122
4.5.1了解SpanBERT的架构122
4.5.2深入了解SpanBERT124
4.5.3将预训练的SpanBERT用于问答任务125
4.6小结126
4.7习题127
4.8深入阅读127
第5章BERT变体(下):基于知识蒸馏128
5.1知识蒸馏简介129
5.2DistilBERT模型——BERT模型的知识蒸馏版本134
5.2.1教师学生架构134
5.2.2训练学生BERT模型(DistilBERT模型)136
5.3TinyBERT模型简介138
5.3.1教师学生架构139
5.3.2TinyBERT模型的蒸馏140
5.3.3最终损失函数145
5.3.4训练学生BERT模型(TinyBERT模型)145
5.4将知识从BERT模型迁移到神经网络中149
5.4.1教师学生架构149
5.4.2训练学生网络151
5.4.3数据增强方法151
5.5小结153
5.6习题153
5.7深入阅读154
第三部分BERT模型的应用
第6章用于文本摘要任务的BERTSUM模型156
6.1文本摘要任务156
6.1.1提取式摘要任务157
6.1.2抽象式摘要任务158
6.2为文本摘要任务微调BERT模型158
6.2.1使用BERT模型执行提取式摘要任务158
6.2.2使用BERT模型执行抽象式摘要任务167
6.3理解ROUGE评估指标169
6.3.1理解ROUGE-N指标169
6.3.2理解ROUGE-L指标171
6.4BERTSUM模型的性能172
6.5训练BERTSUM模型172
6.6小结174
6.7习题174
6.8深入阅读175
第7章将BERT模型应用于其他语言176
7.1理解多语言BERT模型177
7.2M-BERT模型的多语言表现182
7.2.1词汇重叠的影响182
7.2.2跨文本书写的通用性183
7.2.3跨类型特征的通用性184
7.2.4语言相似性的影响184
7.2.5语码混用和音译的影响185
7.3跨语言模型187
7.3.1预训练策略188
7.3.2预训练XLM模型190
7.3.3对XLM模型的评估191
7.4理解XLM-R模型192
7.5特定语言的BERT模型194
7.5.1法语的FlauBERT模型194
7.5.2西班牙语的BETO模型196
7.5.3荷兰语的BERTje模型198
7.5.4德语的BERT模型199
7.5.5汉语的BERT模型200
7.5.6日语的BERT模型202
7.5.7芬兰语的FinBERT模型202
7.5.8意大利语的UmBERTo模型203
7.5.9葡萄牙语的BERTimbau模型204
7.5.10俄语的RuBERT模型204
7.6小结206
7.7习题206
7.8深入阅读207
第8章Sentence-BERT模型和特定领域的BERT模型208
8.1用Sentence-BERT模型生成句子特征208
8.1.1计算句子特征209
8.1.2了解Sentence-BERT模型211
8.2sentence-transformers库217
8.2.1使用Sentence-BERT计算句子特征217
8.2.2计算句子的相似度218
8.2.3加载自定义模型219
8.2.4用Sentence-BERT模型寻找类似句子220
8.3通过知识蒸馏迁移多语言嵌入221
8.3.1教师学生架构223
8.3.2使用多语言模型224
8.4特定领域的BERT模型:ClinicalBERT模型和BioBERT模型225
8.4.1ClinicalBERT模型225
8.4.2BioBERT模型229
8.5小结232
8.6习题233
8.7深入阅读233
第9章VideoBERT模型和BART模型234
9.1VideoBERT模型学习语言及视频特征235
9.1.1预训练VideoBERT模型235
9.1.2数据源和预处理239
9.1.3VideoBERT模型的应用240
9.2了解BART模型241
9.2.1BART模型的架构241
9.2.2比较不同的预训练目标245
9.2.3使用BART模型执行文本摘要任务245
9.3探讨BERT库246
9.3.1ktrain库247
9.3.2bert-as-service库255
9.4小结258
9.5习题259
9.6深入阅读259
习题参考答案260
![内容简介](http://misc.360buyimg.com/lib/img/e/blank.gif)
本书聚焦谷歌公司开发的BERT自然语言处理模型,由浅入深地介绍了BERT的工作原理、BERT的各种变体及其应用。本书呈现了大量示意图、代码和实例,详细解析了如何训练BERT模型、如何使用BERT模型执行自然语言推理任务、文本摘要任务、问答任务、命名实体识别任务等各种下游任务,以及如何将BERT模型应用于多种语言。通读本书后,读者不仅能够全面了解有关BERT的各种概念、术语和原理,还能够使用BERT模型及其变体执行各种自然语言处理任务。
本书面向希望利用BERT超强的理解能力来简化自然语言处理任务的专业人士,以及对自然语言处理和深度学习感兴趣的所有人士。
本书面向希望利用BERT超强的理解能力来简化自然语言处理任务的专业人士,以及对自然语言处理和深度学习感兴趣的所有人士。
![](http://misc.360buyimg.com/lib/img/e/blank.gif)