信息化是世界经济和社会发展的必然趋势。近年来,在党中央、国务院的高度重视和正确领导下,我国信息化建设取得积极进展,信息技术对提升工业技术水平、创新产业形态、推进经济社会发展发挥了重要作用。信息技术已成为经济增长的“倍增器”、发展方式的转换器、产业升级的“助推器”。
从2000年开始,我们就从事数据工程的技术理论和工程实践方面的研究,并完成了多项大型数据工程的规划、设计与实施工作,积累了一些宝贵的经验。这期间,深刻感到在数据资源规划和管理等诸多环节缺乏理论指导,设计建设的成果依赖个人经验的情况比较普遍,不同时期和不同团队规划设计的数据资源体系难以继承共享,整体的建设水平还在底水平徘徊,严重制约信息化建设的整体质量效益。如何有效解决上述难题,真正促进数据工程领域数据资源建设走上规范化建设的道路,发挥和释放信息化建设的动能,成为我们每个数据工程建设人必须思考和解决的重要课题。同时课题组这些年通过工作实践积累了一些有益的经验,希望把我们的一些经验共享出来,为此促使我们有了出一本《数据资源规划与管理实践》相关教材的愿望。《数据资源规划与管理实践》主要涉及了三个方面的主题:一是数据工程基础,从整体和共性的角度,介绍数据工程的基础概念、体系建设,重点介绍数据标准和数据模型等数据工程共性技术,支撑数据资源规划和管理实践;二是数据资源规划,数据资源规划是数据工程建设的第一个步骤,数据资源规划的质量好坏直接影响后续数据工程建设的质量,通过科学的数据资源规划需求分析、数据资源规划实践和模型构建,确保数据资源规划能够满足高质量数据持续建设和高效共享的需要;三是数据资源管理,数据资源管理的概念非常宽泛,本书侧重解决数据资源管理中的治理问题,主要解决在异构和低质量的数据环境下,如何通过数据质量管理、数据集成等方法手段,利用数据中台的体系化解决方案,提升数据资源的整体质量,挽救历史遗留的数据资产,提升遗留数据的价值。同时,这期间围绕数据工程领域一些新的理论方法不断被提出,从而为《数据资源规划与管理实践》能以较完整的理论体系呈现给大家提供了重要支撑。
《数据资源规划与管理实践》是一本全面介绍数据资源规划与管理的概念、原理与技术方法的综合性教材。读者在阅读本书后,能够较全面地了解数据资源建设的基本方法和软件工具,可以指导数据工程领域大型项目的建设和实践,也可以促进大家重视数据资源规划和管理工作。
本书由陈刚担任主编,负责全面筹划、设计、统稿。郝建东、张中辉、郝文宁等担任副主编,参与本书的具体编写工作和设计工作。本书内容共分12章,各章的简要内容如下。
第1章是数据工程概述。围绕数据工程的基本概念渐次展开,首先介绍通用的数据工程概念,包括数据的定义和生命周期,数据工程的定义和内涵;接着讨论数据工程体系建设的架构和建设内容;最后重点介绍我国数据工程建设的现状与发展以及美军数据工程建设的发展历程。
第2章主要介绍数据的标准化。首先介绍标准和标准化的概念,以及数据标准化和数据标准体系等内容;然后分别介绍元数据标准和数据元标准化的相关内容,从概念、组成、描述方法等方面进行详细的描述;最后介绍数据分类与编码的相关知识。
第3章主要介绍数据模型。首先介绍数据模型的基本概念和三个层次数据模型的特点;然后介绍四种数据建模的标记符号,并对这四种建模的标记符号的应用场景进行比较分析。
第4章主要介绍数据资源规划理论。首先介绍数据资源规划的由来和产生的背景;然后介绍数据资源规划的概念、核心思想和主要作用;接着介绍数据资源规划的理论基础,包括信息生命周期管理理论、信息工程和战略数据资源规划理论,以及信息资源管理和数据资源管理标准化理论。
第5章主要介绍数据资源规划方法。首先介绍数据资源规划方法的基本情况,对国外和国内的方法进行对比介绍;然后重点介绍基于稳定信息过程、基于稳定信息结构、基于指标能力三种数据资源规划方法;最后对三种方法的特点和应用场景进行分析比较。
第6章主要介绍数据资源规划的需求分析方法。首先介绍需求分析的基本概念,以及与软件工程的需求分析思路的差异;然后介绍需求获取的四种主要方法,包括访谈、快速原型系统法、简易的应用规格说明技术和数据流图法;接着介绍需求分析工具——数据流图,以及数据字典的制定和设计方法,通过案例指导大家利用数据流图描述需求;最后介绍用户视图分析技术。
第7章主要介绍数据资源规划的模型构建。首先介绍数据模型构建的类型,然后分别介绍关系模型、维度模型、基于本体的数据模型构建技术。
第8章主要介绍数据资源规划实践和工具。首先围绕演训数据资源建设需求,采用基于稳定信息过程的数据资源规划方法,设计了数据资源规划的实践案例;然后分别介绍早期数据资源规划工具IRP 2000和作者所在本单位开发的数据资源规划工具。
第9章主要介绍数据治理的相关理论方法。首先介绍数据治理的基本概念、数据治理的要素;然后详细介绍数据治理的实施方法和流程,包括14个基本步骤;最后介绍大数据治理相关知识,包括大数据治理的基本概念和相关的技术框架。
第?10?章主要介绍数据质量管理的相关技术。首先介绍数据质量的基本概念和数据质量的问题,以及数据质量衡量的维度;接着介绍数据质量中的处理技术——数据清洗,包括数据清洗的定义、方法和流程,并重点介绍缺失数据处理技术;最后介绍六款主流的数据质量工具,帮助大家了解各种数据质量工具的特点和主要功能,并有针对性地解决数据质量问题。
第11章主要介绍数据集成的相关技术。首先介绍数据集成的概念,接着介绍数据集成的主要方法,包括虚拟视图法、物化方法、混合型集成方法,然后介绍数据集成开发生命周期和相关数据集成技术;最后介绍三款数据集成产品,包括Kettle工具、DataX工具、PowerCenter工具。
第12章主要介绍数据中台架构和技术。首先介绍数据中台的概念发展和主要功能;接着介绍数据中台的架构,以及数据中台架构的核心内容;然后介绍数据中台建设基本步骤,以及数据中台的支撑技术;最后介绍两款数据中台产品:阿里云上数据中台和网易数据中台。
由于作者水平有限,加之信息技术发展日新月异,特别是一些最新的数据资源规划与管理技术理念没有完全整合到本书中,同时书中难免有错误与不妥之处,敬请读者批评指正。
有关反馈信息或索取相关配套教学资源,可与本书责任编辑联系,邮箱:764070006@qq.com。
编 者
2021年7月于南京