社交网站的数据挖掘与分析
更新日期:2024-07-11 00:59:58
书店:文轩网旗舰店
出版时间:2021-02
浏览量:1053
价格:0.0¥

书籍下载

内容介绍

作  者:(美)马修·A.罗素,(美)米哈伊尔·克拉森 著 苏统华,郭勇,潘巍 译
定  价:119
出 版 社:机械工业出版社
出版日期:2021年02月01日
页  数:348
装  帧:平装
ISBN:9787111674047
主编推荐
本书指导你挖掘隐藏在Twitter、Facebook、LinkedIn、Instagram和GitHub等流行社交网站上的丰富数据。通过这本指南,数据科学家、分析师和程序员将学习如何在Jupyter Notebook或者Docker容器中使用Python代码分析社交媒体中的真知灼见——哪些人正在通过社交媒体进行联系?他们正在谈论什么?他们目前身在何处? 在本书的第壹部分,每一章都聚焦社交网站生态的某个具体方面,囊括了各大主流社交网站,也包括了网页、博客和订阅源、邮箱、GitHub以及新增加的In等
目录
前言
部分社交网站导引
序幕
章挖掘Twitter:探索热门话题、发现人们的谈论内容等
1.1概述
1.2Twitter风靡一时的原因
1.3探索TwitterAPI
1.3.1基本的Twitter术语
1.3.2创建一个TwitterAPI连接
1.3.3探索热门话题
1.3.4搜索推文
1.4分析140字(或更多)的推文
1.4.1提取推文实体
1.4.2使用频率分析技术分析推文和推文实体
1.4.3计算推文的词汇丰富性
1.4.4检视转推模式
1.4.5使用直方图将频率数据可视化
1.5本章小结
1.6推荐练习
1.7在线资源
第2章挖掘Facebook:分析粉丝页面、查看好友关系等
2.1概述
2.2探索Facebook的图谱API
2.2.1理解图谱API
2.2.2理解开放图协议
2.3分析社交图谱联系
2.3.1分析Facebook页面
2.3.2使用pandas操作数据
2.4本章小结
2.5推荐练习
2.6在线资源
第3章挖掘Instagram:计算机视觉、神经网络、对象识别和人脸检测
3.1概述
3.2探索InstagramAPI
3.2.1建立InstagramAPI请求
3.2.2获取你自己的Instagram订阅源
3.2.3通过主题标签检索媒体
3.3Instagram帖子的剖析
3.4人工神经网络速成
3.4.1训练神经网络“看”图片
3.4.2手写数字识别
3.4.3使用预训练的神经网络在照片中识别物体
3.5神经网络在Instagram帖子中的应用
3.5.1标记图像内容
3.5.2在图像中检测人脸
3.6本章小结
3.7推荐练习
3.8在线资源
第4章挖掘LinkedIn:分组职位、聚类同行等
4.1概述
4.2探索LinkedInAPI
4.2.1发起LinkedInAPI请求
4.2.2下载LinkedIn的联系人并保存为CSV文件
4.3数据聚类速成
4.3.1对数据进行规范化处理以便进行分析
4.3.2测量相似度
4.3.3聚类算法
4.4本章小结
4.5推荐练习
4.6在线资源
第5章挖掘文本文件:计算文档相似度、提取搭配等
5.1概述
5.2文本文件
5.3TF-IDF简介
5.3.1词频
5.3.2逆文档频率
5.3.3TF-IDF
5.4用TF-IDF查询人类语言数据
5.4.1自然语言工具包概述
5.4.2对人类语言使用TF-IDF
5.4.3查找相似文档
5.4.4分析人类语言中的二元文法
5.4.5分析人类语言数据的反思
5.5本章小结
5.6推荐练习
5.7在线资源
第6章挖掘网页:使用自然语言处理理解人类语言、总结博客内容等
6.1概述
6.2抓取、解析和爬取网页
6.3通过解码语法来探索语义
6.3.1一步步讲解自然语言处理
6.3.2人类语言数据中的句子检测
6.3.3文档摘要
以实体为中心的分析:范式转换
6.5人类语言数据处理分析的质量
6.6本章小结
6.7推荐练习
6.8在线资源
第7章挖掘邮箱:分析谁和谁说什么以及说的频率等
7.1概述
7.2获取和处理邮件语料库
7.2.1Unix邮箱指南
7.2.2获得Enron数据
7.2.3将邮件语料转换为Unix邮箱
7.2.4将Unix邮箱转换为pandasDataFrame
7.3分析Enron语料库
7.3.1根据日期/时间范围查询
7.3.2发件人/收件人通信的分析模式
7.3.3根据关键词查找邮件
7.4分析你自己的邮件数据
7.4.1通过OAuth访问你的Gmail
7.4.2获取和解析邮件
7.4.3Immersion对电子邮件的可视化模式
7.5本章小结
7.6推荐练习
7.7在线资源
第8章挖掘GitHub:检查软件协同习惯、构建兴趣图谱等
8.1概述
8.2探索GitHub的API
8.2.1建立GitHubAPI连接
8.2.2建立GitHubAPI请求
8.3使用属性图为数据建模
8.4分析GitHub兴趣图谱
8.4.1初始化一个兴趣图谱
8.4.2计算图的中心度度量
8.4.3为用户添加“关注”边来扩展兴趣图谱
8.4.4以节点为中心获得更高效的查询
8.4.5兴趣图谱的可视化
8.5本章小结
8.6推荐练习
8.7在线资源
第二部分Twitter数据挖掘与分析实用指南
第9章Twitter数据挖掘与分析
9.1访问Twitter的API(开发目的)
9.2使用OAuth访问Twitter的API(产品目的)
9.3探索流行话题
9.4查找推文
9.5构造方便的函数调用
9.6使用文本文件存储JSON数据
9.7使用MongoDB存储和访问JSON数据
9.8使用信息流API对Twitter数据管道抽样
9.9采集时序数据
……
内容简介
本书指导你挖掘隐藏在Twitter、Facebook、Linkedln、Instagram和GitHub等流行社交网站上的丰富数据。通过这本指南,数据科学家、分析师和程序员将学习如何在JupyterNotebook或者Docker容器中使用Python代码分析社交媒体中的真知灼见——哪些人正在通过社交媒体进行联系?他们正在谈论什么?他们目前身在何处?在本书的分,每一章都聚焦社交网站生态的某个具体方面,囊括了各大主流社交网站,也包括了网页、博客和订阅源、邮箱、GitHub以及新增加的Instagram的内容。第二部分提供了实用指南,其中包括超过20个供挖掘Twitter数据之用的简短代码解决方案。