《基于大数据的网络信息内容安全——算法研究与工程实践》[72M]百度网盘|pdf下载|亲测有效
《基于大数据的网络信息内容安全——算法研究与工程实践》[72M]百度网盘|pdf下载|亲测有效

基于大数据的网络信息内容安全——算法研究与工程实践 pdf下载

出版社 社会出版社
出版年 2020-12
页数 390页
装帧 精装
评分 9.0(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供基于大数据的网络信息内容安全——算法研究与工程实践电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

内容简介

  《基于大数据的网络信息内容安全——算法研究与工程实践》是在笔者参与完成的10多个基于大数据的网络安全算法工程项目的基础上撰写而成的,主要包括针对网上海量中文文本的舆情发现、舆情跟踪与舆情分析问题,提出一系列分类算法、回归算法,设计与实现针对海量中文文本的网络数据挖掘分析系统。设计实现的网络数据挖掘分析系统已在安全部门和公安部门中得到了实际应用。该系统可以对信息中包含的内容进行分析,识别其对受保护对象(如公共安全、企业资产等)形成的风险,评估其包含的价值,提取其中的关键要素等,其具体功能包括自动保密审查(涉密风险识别)、舆情分析(声誉风险评估)和科技情报采集(信息价值评估与提取)等。该系统还可以对网络数据进行智能化分析,检测其中的异常行为,识别未知攻击,评估安全态势,设立安全基线等,其具体功能包括流量异常检测、用户行为异常识别和APT攻击防范等。
  《基于大数据的网络信息内容安全——算法研究与工程实践》可供信息安全领域的广大科研工作者、工程技术人员阅读、参考。

内页插图

目录

第1章 绪论
1.1 研究背景和研究意义
1.2 舆论操纵周期模型
1.3 国外相关研究项目

第2章 海量中文文本中热点序列的挖掘
2.1 引言
2.2 基于LCS的海量中文文本热点序列挖掘算法
2.3 LCSCS算法的改进
2.4 小结

第3章 海量中文文本中热点话题的挖掘
3.1 引言
3.2 词汇关联网络的构建
3.3 词汇关联网络的拓扑特性
3.4 词汇关联网络形成机制
3.5 词汇关联网络聚类
3.6 虚拟社团分析
3.7 小结

第4章 面向命名实体检索技术
4.1 命名实体识别技术
4.2 命名实体规范技术
4.3 命名实体检索模式与排名算法
4.4 小结

第5章 文本分类算法与工程应用
5.1 文档向量空间模型
5.2 基于Word2Vec的文本分类算法
5.3 非完全标注的文本分类训练
5.4 文本分类的单类学习算法
5.5 模型综合
5.6 工程应用

第6章 网络行为异常检测算法与应用
6.1 网络行为特征提取
6.2 异常行为检测算法

第7章 总结与展望
参考文献

前言/序言

  随着Internet及其应用的迅猛发展,网络空间安全(Cyberspace Security)问题愈发严峻。从大的方面分析,网络空间安全分为Internet设备安全和Internet应用安全两大类。Internet应用安全实质上就是Internet网上信息内容的安全。随着互联网和大数据技术的广泛应用,信息的采集能力也得到大幅度提升,从而使可以获得的公开信息素材数量急剧增加。面对远远超出人力处理能力的开源信息原始素材,其数量越多,意味着有价值的信息越容易淹没在真伪难辨的信息碎片海洋中,也就越难以从原始数据中获得有用的信息。与此同时,网络安全当前面对全新的威胁形态,以往基于已知特征的防病毒软件、防火墙、IDS、SIEM等构建的防御体系力不从心,企业和安全部门要研究新的技术手段来抵御层出不穷的新型攻击,扭转网络防御被动挨打的局面。
  笔者长期从事基于大数据的网络安全算法研究与工程应用。就应用方向而言,本书主要包括信息内容安全与信息网络安全两方面;而就实现技术角度而言,本书主要包括大数据关键技术和机器学习算法两方面。
  本书的内容以实际需求为推动,以笔者参与完成的10多个工程项目为主导进行写作,其中千万元级项目3项,百万元级项目3项,项目总额近亿元。笔者在这些项目中均承担了架构设计、技术团队负责人和算法设计等重要职责。在完成工程项目的同时,也取得了相当数量的理论研究成果,并成功应用于实际系统中,在保障国家安全、维护企业利益和提升经济效益等方面起到良好促进作用。本书在应用领域主要包含以下几方面的内容。
  网上舆情发现、舆情跟踪和舆情分析问题。从技术上看,这属于话题检测与跟踪(Topic Detection and Tracking,TDT)的研究范畴。然而,对于网上海量中文文本,当它们来自网络论坛、聊天室、即时通信、Twitter和微博等信息源时,由于这些海量中文文本中大量存在语法不规范、错别字、生造词及中文分词固有困难等难点,所以直接应用现有的TDT计算方法无法奏效。本书针对网上海量中文文本的舆情发现、舆情跟踪与舆情分析问题,提出了一系列新的算法和新的技术,以设计与实现针对海量中文文本的网络数据挖掘分析系统。本书的基础算法与关键技术的研究得到了863项目的支持,本书所设计实现的网络数据挖掘分析系统已在政府部门中得到了实际应用。
  该系统可以通过技术手段对信息中包含的内容进行分析,识别其对受保护对象(如公共安全、企业资产等)形成的风险,评估其包含的价值,提取其中的关键要素等,其具体功能包括自动保密审查(涉密风险识别)、舆情分析(声誉风险评估)和科技情报采集(信息价值评估与提取)等。笔者参与项目中有两项千万元级项目属于该应用领域。
  该系统还可以通过技术手段对网络数据进行智能化分析,检测其中的异常行为,识别未知攻击,评估安全态势,设立安全基线等。其具体功能包括流量异常检测、用户行为异常识别和APT攻击防范等。笔者参与的项目中有一项千万元级项目属于该应用领域。
  本书从技术角度而言,主要有以下两项内容。
  (1)大数据关键技术:主要集中在大数据的架构设计方法论方面,对多种大数据典型架构有较为深入的了解与工程实践经验。此外,对于具体的大数据框架,如Spark、Kafka、Elastic-Search、Nifi、Beam等均有应用经验。其研究的算法也多采用大数据框架实现。
  (2)机器学习算法:主要集中在分类算法、回归算法、异常检测算法和自动摘要算法等。
  本书编写分工如下:慕德俊编写第2~7章;李晓宇编写第1章,并为其他章节提供大量素材;郭森森和李智虎提供部分关键算法和解释。
  写作本书曾参阅了相关文献、资料,在此,谨向其作者深致谢忱。另外特别感谢西北工业大学出版社在本书出版过程中给予的支持和建议,同时还要特别感谢参与本书编写的各位同仁。
  由于笔者水平有限,书中不足之处在所难免,敬请各位读者、专家指正。