基于关联规则算法的研究与改进

目录

目录

1 绪论 (1)

1.1 研究背景和选题意义 (1)

1.2 国内外研究现状 (2)

1.3 本文的主要工作 (3)

1.4 本文组织结构 (4)

2 相关技术 (5)

2.1数据挖掘的概念 (5)

2.1.1数据挖掘的定义及过程 (5)

2.1.2 数据挖掘的任务 (6)

2.1.3 数据挖掘的方法 (8)

2.1.4 数据挖掘面临的问题 (9)

2.2 关联规则概述 (9)

2.2.1 关联规则的基本概念 (10)

2.2.2 关联规则挖掘流程 (11)

2.2.3 关联规则的分类 (12)

2.2.4 关联规则的挖掘方法评价 (12)

2.3 本章小结 (13)

3 关联规则挖掘方法研究 (15)

3.1 Apriori算法 (15)

3.1.1 Apriori算法概述 (15)

3.1.2 Apriori算法评价 (18)

3.2 FP-growth算法 (18)

3.2.1 算法实例 (20)

3.2.2 算法分析 (23)

3.3 改进的CNFP结构 (24)

3.3.1 优化策略及原理 (24)

3.3.2 算法描述 (26)

3.3.3 CNFP树的构造过程 (27)

3.3.4 性能对比 (30)

3.4 本章小结 (31)

4 基于CNFP树结构的改进算法 (33)

4.1 算法改进的思路 (33)

4.2 算法的改进 (33)

4.2.1 FP-数组 (33)

4.2.2 算法的实现 (36)

4.2.3 实验结果与分析 (37)

4.3 本章小结 (39)

5 总结与展望 (41)

5.1 本文总结 (41)

5.2 工作展望 (41)

致谢 (43)

参考文献 (45)

i 万方数据

西安理工大学硕士学位论文

ii

万方数据

绪论

1 绪论

1.1 研究背景和选题意义

随着科技的快速发展和数据库相关技术的日益成熟,人们经历了数据收集、数据访问、决策支持到现在的数据挖掘这四个过程。自进入21世纪,随着信息时代大格局的到来,伴随着计算机硬件和软件日益迅速的发展,网络技术在人们日常生活中已经被广泛使用,我们已经在数据库中积累了越来越多的信息,大批量的数据被存储在企业的业务数据库或者数据仓库中。我们已经逐渐习惯于面对计算机、网络和生活中充斥着大量数据,政府机构、科研机构和企业都投入了大量的资源去收集和存储数据。但经过对数据进行简单的统计分析后,如何快速、有效的发现隐藏在这些业务数据中对企业业务决策有指导性的信息,却成为了一大难题。在实际的应用中,庞大的数据只有一小部分会被应用到,大量的数据如同海底的冰川一样未被人们发现,只有在对这些数据背后的关系进行深层次的挖掘后才能够更好地了解用户需求,获得更多有价值的信息,从而为决策者提供更好的参照。

数据挖掘是为了发掘数据中“有趣的”信息,但在探测性分析方案中,无法预测出有趣的结果包含什么东西,此时数据挖掘显得非常重要。它从大量的数据中搜寻有价值的、非同寻常的信息,是人和计算机共同合作的结果,它在人类专家描述问题和目标的知识与计算机的搜索能力之间寻求平衡,以求获得更好的效果。数据挖掘是计算机行业中发展最快的领域之一,在这之前它只作为计算机科学和统计学中的一个小主题,但现今已经独立成为了一个新的领域。它能将各种方法和技术应用于大量的问题集。数据挖掘是一个迭代过程,在这个过程中,通过自动或手工方法取得的信息用“发现”来定义。数据挖掘最大的目标市场是整个数据仓库、数据集市和决策支持业界,涵盖零售、制造、医疗、电信、运输、保险等行业。最早在商业活动中,通过对用户数据的分析能够发现一类客户购买趋势、设计投资战略以及在会计系统中探测未经许可的开支,其结果可有针对性的向客户提供支持和关注,进而提高业绩[1]。

现今数据挖掘,尤其是大数据的挖掘已经被很多发达国家提高到国家战略的高度,2010年美国总统技术顾问委员会向奥巴马总统和国会提交《规划数字化的未来》是全球首次在政府层面将大数据作为国家战略的里程碑事件。在我国,政府在大数据方面投入的关注[2]也是越来越多,不管是推进政府的简政放权,放管结合,还是推进新型工业化,城镇化,农业现代化,都要依靠大数据,数据挖掘作为大数据的核心应用必不可少。

数据挖掘的研究涉及到很多的方面,关联规则分析(Association Rule Analysis)一直是被研究的热点,研究主要集中在关联规则的相关概念的提出,频繁模式挖掘方式和关联规则的产生。最早提出关联规则思想的是IBM的Agrawal、Imieliski等人,Rakesh Agrawal 等人于1993年基于AIS算法[3]思想,该算法基于对数据仓库的多趟扫描来计算大项集,在其基础上提出Apriori算法[4]。关联规则理论的提出至今已经有将近20多年的历史,但

1 万方数据

相关文档
最新文档