《Effective数据科学基础设施》[60M]百度网盘|pdf下载|亲测有效
《Effective数据科学基础设施》[60M]百度网盘|pdf下载|亲测有效

Effective数据科学基础设施 pdf下载

出版社 清华大学出版社京东自营官方旗舰店
出版年 2023-08
页数 390页
装帧 精装
评分 8.9(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供Effective数据科学基础设施电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

编辑推荐

《Effective数据科学基础设施》由Netflix工程师Ville Tuulos撰写,以Metaflow为对象,介绍了数据科学所需要的基础设施,囊括数据准备、特征工程、模型训练、模型部署、服务和持续监控等环节。Metaflow专注于构建生产流程,更适合具有深厚工程和DevOps技能的大型专业数据科学团队。本书的目标读者为数据科学家、机器学习工程师、IT 技术人员和MLOps工程师。数据科学家在人工智能和算法方面非常精通,但软件开发能力通常不足。他们渴望有一套方法论和工具来促进从构建到部署的迭代过程,从而落实自己的想法。数据科学家不在意在一个“孤岛”。上开展数据挖掘和分析工作,他们更希望能够在离线、实时和批处理等场景中落实项目。IT技术人员对机器学习算法理论和模型细节并不了解,他们渴望本书能够提供一个机器学习流程的全貌,便于他们进行任务编排。此外,一些企业的中高层管理人员可通过本书获取MLOps管理理念,为制定AI项目管理和KPI考核提供参考依据。总之,与传统的软件工程师技能要求相比,MLOps工程师除了需要具备现代软件工程所要求的强大能力,还需要具备ML专业知识,具体包括ML模型训练、模型部署、模型监控和帮助企业落实架构、系统设计和故障排除等能力。

内容简介

  数据科学项目日益增多,每个项目在提出原型到生产的过程中都需要可靠的基础设施。使用《Effective数据科学基础设施/数据科学与大数据技术》介绍的一些新技术和新工具,你将能建立一个适用于各类组织(无论是初创企业还是大型企业)的基础设施堆栈。
  《Effective数据科学基础设施》可帮助你建立数据流程和项目工作流,为你开发项目带来强大动力。
  《Effective数据科学基础设施/数据科学与大数据技术》呈现Netflix数据操作的先进工具和概念,并在此基础上介绍一种可定制的基于云的模型开发和MLOps方法,可轻松适应公司的特定需求。当团队把数据科学和机器学习应用于广泛的业务问题时,这些实用的数据流程将更高效地生成更完美的结果。
  主要内容:
  在云中处理计算和编排
  将基于云的工具耦合到一个内聚的数据科学环境中
  使用Metaflow、AWS和Python数据生态系统开发可复制的数据科学项目
  构建需要大型数据集和模型,需要数据科学家团队参与的复杂应用程序
  阅读门槛:
  《Effective数据科学基础设施/数据科学与大数据技术》适合熟悉Python的基础设施工程师和有工程头脑的数据科学家阅读。

作者简介

  Ville Tuulos在Netflix公司设计并构建了用于数据科学的全栈框架Metaflow。目前,Ville在一家专业开发数据科学基础设施的初创公司担任首席执行官。

内页插图

精彩书评

  ★“我相信,通过参阅本书,你将学会如何使机器学习操作更高效、更多产。”
  ——摘自Travis Oliphant的推荐序(Travis Oliphant为NumPy的作者,Anaconda、PyData和NumFOCUS的创始人)
  
  ★“《Effective数据科学基础设施》一书精彩绝伦,对于每个数据科学团队都不可或缺。”
  ——Ninoslav Cerkez,Logit公司
  
  ★“越深入研究数据科学,困难越少。”
  ——Abel Alejandro Coronado Iruegas博士,墨西哥国家统计与地理研究所
  
  ★“不可或缺。每个数据工程师都应该人手一册。”
  ——Matthew Copple,Grand River Analytics

前言/序言

我在十几岁时,对人工智能产生了浓厚的兴趣。13岁时,我训练了我的第一个人工神经网络。我从零开始,用C和C++实现了简单的训练算法,这是20世纪90年代时探索该领域的唯一方法。此后,我继续学习了计算机科学、数学和心理学,以更好地理解这一庞大主题的基础。当时,机器学习(数据科学这个术语还不存在)的应用方式有时似乎更像魔术,而不是真正的科学或原理工程。

后来,我从学术界转向大公司和初创公司,此后,我一直在构建支持机器学习的系统。Linux等开源项目和当时新兴的Python数据生态系统对我的影响很大。Python数据生态系统提供了NumPy等包,与C或C++相比,这些包使得构建高性能代码更容易。除了开源的技术优势,我还发现围绕这些项目形成了十分创新、充满活力且广受欢迎的领域。

当我在2017年加入Netflix,受命从零开始构建新的机器学习基础设施时,我秉持着3个原则。首先,我们需要对全栈有一个原则性的理解——数据科学和机器学习不是魔术,而需要成为一门真正的工程学科。其次,无论是出于技术角度还是因为其庞大的包容性领域,我都确信Python是新平台的基础。最后,归根结底,数据科学和机器学习是人类使用的工具。使用工具的唯一目的是提高工作效率,成功的工具还可提供令人愉悦的使用体验。

工具是由孕育其诞生的文化塑造的。我创建了开源工具Metaflow后,Netflix的文化对其产生了巨大的影响,该工具后来成为一个强劲的开源项目。Netflix的发展压力确保了Metaflow和我们对整个数据科学堆栈的理解都是基于数据科学家的实际需求。

Netflix给予其数据科学家高度的自主权,而这些数据科学家通常不是经过训练的软件工程师。这使我们要仔细考虑数据科学家在开发项目并最终将其部署到生产中时面临的所有挑战。Netflix的顶尖工程团队已使用云计算超过十年,已充分了解了云计算的优缺点,我们对堆栈的理解也深受他们的影响。

我撰写本书旨在与更多人共享这些经历。无论是开源领域、深有远见又无私共享的个人,还是聪明绝顶的数据科学家,都教会了我很多,我觉得我有义务回馈他们。本书肯定不是我学习旅程的终点,只是一个里程碑。因此,我很期待反馈。不要犹豫,赶快与我联系吧,分享你的经历、想法和反馈!