Java自然语言处理理查德·M.里斯,艾希什辛格·巴蒂亚pdf下载pdf下载

Java自然语言处理理查德·M.里斯,艾希什辛格·巴蒂亚百度网盘pdf下载

作者:
简介:本篇主要提供Java自然语言处理理查德·M.里斯,艾希什辛格·巴蒂亚pdf下载
出版社:华裕京通图书专营店
出版时间:2020-07
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

作  者:(美)理查德·M.里斯,(印)艾希什辛格·巴蒂亚 著 邹伟,李妍,武现臣 译
定  价:79
出 版 社:机械工业出版社
出版日期:2020年07月01日
页  数:221
装  帧:平装
ISBN:9787111657873
主编推荐
本书融合作者多年从业和教学经验,全面阐述使用Java从非结构化数据中组织和提取有用文本的各种实用方法。 本书重点介绍NLP应用中可能遇到的核心NLP任务,每个任务都从问题的描述以及应用领域开始,循序渐进地进行分析并给出解决方案,便于你更好地理解NLP技术,高效地解决实际问题。全书内容丰富,不仅全面描述和总结了自然语言处理的基础知识,还详细介绍了自然语言处理的多种技术,包括NLP工具、文本分词、文本断句、词性判断、任务识别、文本分类、关系提取和组合应用等。书中结合多个示例进行深入分析,并采用Jav等
目录
译者序
前言
作者简介
审校者简介
章NLP概论1
1.1NLP是什么2
1.2为什么使用NLP2
1.3为什么NLP这么难3
1.4NLP工具汇总4
1.4.1ApacheOpenNLP5
1.4.2StanfordNLP7
1.4.3LingPipe8
1.4.4GATE9
1.4.5UIMA9
1.4.6ApacheLuceneCore10
1.5Java深度学习10
1.6文本处理任务概述11
1.6.1查找文本的各部分11
1.6.2文本断句13
1.6.3特征工程14
1.查找人物和事件14
1.6.5词性判断16
1.6.6对文本和文档进行分类17
1.6.7关系提取17
1.6.8使用组合方法19
1.7理解NLP方法19
1.7.1识别任务19
1.7.2选择模型20
1.7.3建立并训练模型20
1.7.4验证模型20
1.7.5运用模型21
1.8准备数据21
1.9总结22
第2章查找文本的各部分24
2.1理解文章的各个部分24
2.2分词是什么25
2.3简单的Java分词器27
2.3.1使用Scanner类27
2.3.2使用split方法29
2.3.3使用BreakIterator类29
2.3.4使用StreamTokenizer类30
2.3.5使用StringTokenizer类32
2.3.6Java核心分词的性能考虑32
2.4NLP分词器API33
2.4.1使用OpenNLPTokenizer类33
2.4.2使用Stanford分词器35
2.4.3训练分词器找出文本的各部分38
2.4.4分词器比较41
2.5了解规范化42
2.5.1转换成小写42
2.5.2删除停用词43
2.5.3使用词干分析45
2.5.4使用词元化48
2.5.5使用管道进行标准化处理51
2.6总结52
第3章文本断句53
3.1SBD方法53
3.2SBD难在何处54
3.3理解LingPipe的HeuristicSentenceModel类的SBD规则55
3.4简单的JavaSBD56
3.4.1使用正则表达式56
3.4.2使用BreakIterator类58
3.5使用NLPAPI59
3.5.1使用OpenNLP60
3.5.2使用StanfordAPI62
3.5.3使用LingPipe69
3.6训练文本断句模型73
3.6.1使用训练好的模型75
3.6.2使用SentenceDetector-Evaluator类评估模型75
3.7总结76
第4章人物识别77
4.1NER难在何处78
4.2NER方法78
4.2.1列表和正则表达式79
4.2.2统计分类器80
4.3使用正则表达式进行NER80
4.3.1使用Java的正则表达式来寻找实体80
4.3.2使用LingPipe的RegEx-Chunker类82
4.4使用NLPAPI83
4.4.1使用OpenNLP进行NER83
4.4.2使用StanfordAPI进行NER88
4.4.3使用LingPipe进行NER89
4.5使用NER注释工具构建新数据集93
4.6训练模型98
4.7总结101
第5章词性判断102
5.1词性标注102
5.1.1词性标注器的重要性104
5.1.2词性标注难在何处105
5.2使用NLPAPI106
5.2.1使用OpenNLP标注器107
5.2.2使用Stanford标注器115
5.2.3使用LingPipe标注器120
5.2.4训练OpenNLPModel124
5.3总结125
第6章用特征表示文本127
6.1n-gram127
6.2词嵌入129
6.3GloVe131
word2vec133
6.5降维134
6.6主成分分析134
6.7t-SNE135
6.8总结138
第7章信息检索139
7.1布尔检索139
7.2字典和容错性检索141
7.2.1通配符查询141
7.2.2拼写校正142
7.2.3Soundex143
7.3向量空间模型143
7.4计分和术语加权144
7.5逆文档频率145
7.6TF-IDF加权145
7.7信息检索系统的评估145
7.8总结146
第8章对文本和文档进行分类147
8.1如何使用分类147
8.2理解情感分析148
8.3文本分类技术150
8.4使用API对文本进行分类151
8.4.1使用OpenNLP151
8.4.2使用StanfordAPI154
8.4.3使用LingPipe对文本进行分类158
8.5总结165
第9章主题建模166
9.1什么是主题建模166
9.2LDA的基础167
9.3使用MALLET进行主题建模168
9.3.1训练168
9.3.2评价168
9.4总结171
0章使用解析器提取关系172
10.1关系类型173
10.2理解解析树174
10.3使用提取的关系175
10.4提取关系178
10.5使用NLPAPI178
10.5.1使用OpenNLP178
10.5.2使用StanfordAPI181
10.5.3查找共指消解实体184
10.6为问答系统提取关系186
10.6.1查找单词依赖关系186
10.6.2确定问题类型187
10.6.3寻找答案188
10.7总结190
1章组合管道192
11.1准备数据193
11.1.1使用Boilerpipe从HTML抽取文本193
11.1.2使用POI从Word文档中抽取文本195
11.1.3使用PDFBox从PDF文档抽取文本200
11.1.4使用ApacheTika进行内容分析和抽取201
11.2管道203
11.2.1使用Stanford管道203
11.2.2在Stanford管道中使用多核处理器205
11.3创建用于搜索文本的管道206
11.4总结211
2章创建一个聊天机器人212
12.1聊天机器人架构213
……
内容虚线

内容简介

本书将教会读者如何在Java库的帮助下执行语言分析,同时不断地从结果中获得见解。首先介绍NLP及其各种概念是如何工作的,然后探索Java中用于NLP的重要工具和库,如CoreNLP、OpenNLP、Neuroph、Mallet等。之后,读者将开始对不同的输入和任务执行NLP,例如标记、模型训练、部分语音、解析树等。读者会学习到统计机器翻译、摘要、对话系统、复杂搜索、有监督和无监督的NLP,以及其他内容。在本书的*后,读者也会学习到更多关于NLP、神经网络和其他各种Java中用于增强NLP应用程序性能的训练模型。