前言
关联规则是描述数据库中(已发生的)数据项(属性,变量)之间(潜在)关系的规则,能够发现形如“牛奶面包”的关联规则。负关联规则是关联规则的重要补充,能够分析已发生和未发生项之间的关联关系,能够发现形如“白酒?瘙綈啤酒”(购买白酒后不再购买啤酒)的负关联规则,为决策提供更全面的信息。
本书是作者在该领域多年研究成果的系统总结,涵盖了负关联规则的基本概念、算法以及具体应用。全书共分为10章,具体内容如下。
(1) 第1章阐述了数据挖掘的起源、定义、任务,介绍了关联规则挖掘的主要算法,并对其经典算法——Apriori算法进行了详细介绍。
(2) 第2章阐述了负关联规则的重要研究意义,重点讨论了挖掘负关联规则的PNARC模型,包括研究负关联规则后出现的问题、负关联规则的支持度与置信度的计算方法以及基于相关性的解决方案、算法设计等内容。
(3) 第3章对多种兴趣度度量方法进行了概述,重点讨论了χ2检验、相关系数、PiatetskyShapiro的兴趣度等方法在挖掘负关联规则中的应用,然后讨论了基于最小兴趣度的负关联规则挖掘模型。
(4) 第4章首先分析了多数据库的正关联规则挖掘方法,提出了利用合成相关性来解决矛盾规则的方法,然后提出了多数据库中挖掘负关联规则的方法。在此基础上,研究了将最小兴趣度用户负关联规则剪枝,还提出了一种挖掘多数据库中的全局例外关联规则的方法。
(5) 第5章首先对时态关联规则进行了概述,分析了几种典型的时态关联规则挖掘模型,然后提出了一个挖掘时态频繁项集的泛化算法——GTFS算法,进而提出了一种基于定制时间约束的时态关联规则挖掘模型——CTP模型。
(6) 当研究负关联规则后,非频繁项集变得非常重要,因为其中含有大量负关联规则。第6章讨论了非频繁项集挖掘的多个模型,在介绍PR模型的基础上,提出了两级支持度2LSP模型、多级支持度MLMS模型及其兴趣度模型IMLMS模型、多项支持度MIS模型、利用基本Apriori算法实现MIS模型的MSB_apriori模型以及扩展的MIS模型。
(7) 第7章讨论了负关联规则的修剪技术。首先介绍了正关联规则修剪的有关技术,其次介绍了最小冗余的无损正关联规则集表述方法,再次讨论了基于最小相关度的负关联规则修剪技术,然后讨论了基于多最小置信度的负关联规则修剪技术,最后讨论了基于逻辑推理的负关联规则修剪技术。
(8) 第8章介绍了从负频繁项集中挖掘负关联规则的方法。首先介绍了挖掘形如a1?瘙綈a2b1?瘙綈b2的负频繁项集的算法eNFIS,然后提出了基于eNFIS和MSapriori算法的多支持度的负频繁项集挖掘算法emsNFIS,最后讨论了从负频繁项集中挖掘负关联规则出现的问题以及用二次相关性解决该问题的方法。
(9) 第9章将正负关联规则挖掘算法应用于大学生校园数据分析之中,详细分析了一卡通消费行为、图书借阅行为、心理健康与成绩间的关联关系,发现好的学习成绩与良好的三餐习惯(特别是按时用早餐)、尽量多地阅读专业课参考书以及保持心理健康之间具有很强的关联关系。
(10) 本章将正负关联规则在医疗数据上进行了应用。首先对数据进行了预处理,然后选取了心脑血管疾病、糖尿病和类风湿关节炎三种疾病的数据进行关联规则挖掘和分析,得到了一些有意义的分析结果。
本书可用作计算机相关专业高年级本科生或研究生教材,也可供数据挖掘、智能信息处理等相关领域的研究人员参考。希望本书能够促进广大科技工作者对负关联规则的认识、应用和创新。
感谢袁汉宁博士,研究生尚世菊、徐田田、李晨露、郝峰撰写了部分章节的内容初稿,感谢郝峰重新实现了全书的算法并做了实验,感谢胡艳羽绘制了全书所有的图形和整理了参考文献,感谢我的太太王丽女士对我的关爱和为家庭所做的贡献,使我能够静下心来写作,感谢清华大学出版社的编辑们对本书的编排工作。
由于作者水平有限,时间紧迫,书中不足之处在所难免,还望读者批评指正。
作者2020年10月于齐鲁工业大学(山东省科学院)