数据仓库与数据挖掘课程设计报告书

合集下载

数据仓库与数据挖掘实验报告

一、上机目的及内容目的：1．理解数据挖掘的基本概念及其过程；2．理解数据挖掘与数据仓库、OLAP之间的关系3．理解基本的数据挖掘技术与方法的工作原理与过程，掌握数据挖掘相关工具的使用。

内容：将创建一个数据挖掘模型以训练销售数据，并使用“Microsoft 决策树”算法在客户群中找出购买自行车模式。

请将要挖掘的维度（事例维度）设置为客户，再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。

然后算法将使用决策树从中确定模式。

下一步需要训练模型，以便能够浏览树视图并从中读取模式。

市场部将根据这些模式选择潜在的客户发送自行车促销信息。

要求:利用实验室和指导教师提供的实验软件，认真完成规定的实验内容，真实地记录实验中遇到的各种问题和解决的方法与过程，并根据实验案例绘出模型及操作过程。

实验完成后，应根据实验情况写出实验报告。

二、实验原理及基本技术路线图（方框原理图或程序流程图）关联分析：关联分析是从数据库中发现知识的一类重要方法。

时序模式：通过时间序列搜索出重复发生概率较高的模式。

分类：分类是在聚类的基础上对已确定的类找出该类别的概念描述，代表了这类数据的整体信息，既该类的内涵描述，一般用规则或决策树模式表示。

三、所用仪器、材料（设备名称、型号、规格等或使用软件）1台PC及Microsoft SQL Server套件四、实验方法、步骤（或：程序代码或操作过程）及实验过程原始记录( 测试数据、图表、计算等)创建 Analysis Services 项目1.打开 Business Intelligence Development Studio。

2.在“文件”菜单上，指向“新建”，然后选择“项目”。

3.确保已选中“模板”窗格中的“Analysis Services 项目”。

4.在“名称”框中，将新项目命名为 AdventureWorks。

5.单击“确定”。

更改存储数据挖掘对象的实例1.在 Business Intelligence Development Studio 的“项目”菜单中，选择“属性”。

数据仓库与数据挖掘课程设计说明书规范好好学习天天向上

助您高榜提名1、课程设计基本格式课程设计采用打印版，打印时正文采用5号宋体，A4纸，左右页边距均为3.18cm，上下2.54cm，行间距采用固定值20磅。

文中标题采用宋体加粗。

2、说明书结构及要求（1）封面使用统一封面，具体格式按给定的模版，不允许修改。

注意①“指导教师”一项为空；②“班级”一项统一规范，尤其是专业名称，如：13信息管理与信息系统1班等；③“日期”一项统一规范，统一为2016年6月25日。

（2）目录要求层次清晰，给出标题及页码（要求自动生成目录，并且显示至三级标题）。

打印时各章题序及标题用小4号宋体，目录行间距固定值18磅。

（3）正文正文应按照目录所确定的顺序依次撰写，要求计算准确，论述清楚、简练、通顺，插图清晰整洁。

文中图、表及公式规范地绘制和书写。

文中一级标题采用小四号宋体加粗，二级标题采用五号宋体加粗，其余标题与正文字体一致。

3、说明书统一采用A4纸打印。

4、每组提交一份设计成果。

5、装订统一在左侧装订（装订顺序——封面、课程设计分工及成绩评定、目录、正文、统计调查方案）。

学号12580105/12580106/12580107/12580108苏州大学应用技术学院数据仓库与数据挖掘课程设计题目（XXX 的数据挖掘分析报告）2019 年 11 月 28 日 2019 年 12 月 12 日学生姓名李四一/张三二/李四二班级 16级物联网1班成绩/ /指导教师(签字)工学院2019年 11 月 28 日数据仓库与数据挖掘课程设计课程设计分工及成绩评定表目录1 ****背景简介（数据来源及公司背景简介） (1)2 研究目的及方法 (1)2.1研究目的 (1)2.2选用的分析方法 (1)3.客户流失预处理 (1)3.1 数据理解 (1)3.1.1定义**流失数据（定义数据源） (1)3.1.2预测流失变量 (1)3.1.3定义数据分析时间窗口 (2)3.2 数据准备 (2)3.2.1**数据编码 (2)3.2.2**数据过滤 (2)3.2.3 (2)3.2.4 (2)3.3 数据描述性统计 (2)3.3.1XXXX的描述性统计（不要出现只有一个2.1的这种情况） (2)3.3.2XXXX的描述性统计（如果有） (2)3.4 数据探索性分析 (3)4客户流失分析与建模 (3)4.1模型的选择 (3)4.2 ****聚类模型 (3)4.3 ****决策树模型 (3)4.4 模型结果解释 (3)5总结与展望 (3)5.1 总结 (3)5.2 展望 (3)1 ****背景简介（数据来源及公司背景简介）2 研究目的及方法2.1研究目的2.2选用的分析方法在本次研究中主要运用的分析方法有：描述性分析、统计图、统计报表、数据挖掘主要方法：分类算法、聚类算法、关联规则算法、神经网络算法等。

数据仓库与数据挖掘实验报告

数据仓库与数据挖掘实验报告一、实验目的和意义数据仓库和数据挖掘是现代大数据时代中关键的技术与方法，本实验旨在通过实践操作，了解数据仓库和数据挖掘的基本概念、流程和方法，并基于实验数据进行数据仓库与数据挖掘的实际应用。

二、实验内容及步骤本实验基于某电商平台的网购数据，通过数据仓库的建立和数据挖掘的过程，探索和发现隐藏在数据中的有价值信息。

具体步骤如下：1. 数据收集和预处理获取电商网购数据集，对数据进行清洗和预处理，如缺失值处理、异常值处理和数据集整合等，以保证数据的质量和可用性。

2. 数据仓库的建立基于处理后的数据，进行数据仓库的建立。

根据业务需求和分析目标，确定维度表和事实表的建模方法和关联关系，设计和构建星型或雪花模式的数据仓库。

3. 数据挖掘的实践基于已建立的数据仓库，进行数据挖掘的实践，包括关联规则挖掘、分类与预测、聚类分析、异常检测等。

通过使用数据挖掘工具，如R、Python中的Scikit-learn等，进行模型构建和算法实施，得到数据挖掘结果。

4. 结果分析与应用对数据挖掘结果进行分析和解读，发现和总结其中的规律和知识，得到业务价值和应用建议，为业务决策和目标达成提供支持和参考。

三、实验结果与分析本实验得到了以下数据挖掘结果：1. 关联规则挖掘通过关联规则挖掘的过程，发现了一些有趣和有用的关系，如购买商品A的用户有70%的概率也会购买商品B，可以利用这些关联规则进行交叉销售和推荐。

2. 分类与预测通过构建分类和预测模型，成功预测了用户的购买行为，可以预测出用户未来可能会购买的商品，为精准市场营销和库存管理提供决策支持。

3. 聚类分析通过聚类分析，将用户分为不同的群体，可以对不同群体采取不同的营销策略，提高用户满意度和购买转化率。

4. 异常检测通过异常检测，发现了一些异常行为和欺诈行为，可以及时进行监控和防范，保护用户权益和平台安全。

此外，还通过数据可视化的方式，将分析结果展示出来，如通过柱状图、折线图、散点图等方式进行可视化展示，直观地呈现数据的分布和关系。

数据仓库课设报告

《数据仓库与数据挖掘》课程设计报告班级：信管092学号：3090561053姓名：窦婷指导教师：王建仁/段刚龙日期：2011.12题目基于教学效果的高校教师特征模型挖掘1需求分析与数据理解1.1需求分析老师的教学效果是对老师一项非常重要的考评指标，现在大学教学效果的检查大多是通过学生的整体成绩和学生给老师打分来综合评判的,所以具有哪些特征的老师的教学效果好一些就成了人们所关心的问题,为此,我这次课设题目就选的是基于教学效果的高校教师特征模型挖掘.以便使人们更加清楚地了解教师的特征对教学效果的影响.1.2 数据理解要对教学结果进行基于教师特征的挖掘，那么，表中应该包括的属性有：教师的性别，年龄以及职称等。

2挖掘（或分析）数据准备分类分析所建立的表本身就是一个宽表，即该表包含所有与挖掘有关的信息。

3 数据挖掘（或分析）过程3.1挖掘算法与挖掘软件选择本次课程设我选用的挖掘软件为微软的SQL Server 2005,运用的是分类分析方法的决策树方法.3.2 数据预处理通过对数值数据的非数值化处理：将年龄和教学效果分别非数值化处理，预处理后的数据如下:3.3挖掘过程说明1、建立数据源2、建立数据源视图：3、部署：4、建立数据挖掘模型:4 结果展示与评价1、决策树依赖关系网络图5总结5.1 设计中遇到的主要问题及解决方法由于这次课程设计的时间比较紧，在设计过程中遇到了很多问题。

例如在刚开始输入数据时,只是随便输,输入的是数据没有代表性,没有规则，导致挖掘失败。

后来通过向老师和同学们做了简单的调查访问后,对原先输入的数据进行了修改,为后来挖掘成功奠定了基础。

5.2设计方案的主要优点及不足这次设计方案的主要优点就是让问题简单明了,易于理解和分析.因为我所选的题目就是我们生活中的问题,所以对于数据需求分析和数据理解这两项内容基本没有费太多精力.当然我的方案总也存在很多问题，由于这次课程设计时间比较紧,所以没有去做实际调查,所输入的数据只是根据自己和周围同学们平时给老师评教的经验输入的,所以可能我将原本复杂的问题简单化了,最终挖掘的结果也可能和实际情况不能完全相符。

数据仓库与数据挖掘课程设计报告书

目录21. 绪论 ........................................................................21.1项目背景 ...................................................................21.2 提出问题................................................................22 数据库仓库与数据集的概念介绍 .................................................22.1数据仓库................................................................2.2数据集..................................................................233 数据仓库 ....................................................................33.1 数据仓库的设计..........................................................3.1.1数据仓库的概念模型设计.............................................333.1.2数据仓库的逻辑模型设计.............................................3.2 数据仓库的建立..........................................................333.2.1数据仓库数据集.....................................................43.2.2建立维表...........................................................4.数据挖掘操作 .................................................................444.1数据预处理..............................................................44.1.1描述性数据汇总.....................................................44.2决策树..................................................................125、实验心得 ...................................................................126、大总结 .....................................................................1. 绪论1.1项目背景在现在大数据时代，各行各业需要对商品及相关关节的数据进行收集处理，尤其零售行业，于企业对产品的市场需求进行科学合理的分析，从而预测出将来的市场，制定出高效的决策，给企业带来经济收益。

数据仓库与挖掘课程设计

数据仓库与挖掘课程设计一、课程目标知识目标：1. 理解数据仓库的基本概念、作用和结构，掌握数据仓库的设计原则和构建流程；2. 掌握数据挖掘的基本任务、方法和算法，了解其在实际应用中的价值；3. 了解数据预处理、数据清洗和数据集成等数据处理技术，并能运用到实际项目中；4. 掌握使用至少一种数据挖掘工具进行数据处理和分析。

技能目标：1. 能够独立设计并实现一个简单的数据仓库系统；2. 能够运用数据挖掘技术对给定数据集进行分析，提取有价值的信息；3. 能够运用数据处理技术对数据进行预处理，提高数据挖掘的质量和效率；4. 能够撰写数据分析报告，清晰表达分析结果和结论。

情感态度价值观目标：1. 培养学生对数据分析的兴趣和热情，激发他们主动探索数据背后规律的欲望；2. 培养学生具备团队协作精神，学会与他人共同解决问题；3. 培养学生具备良好的数据伦理意识，尊重数据隐私，遵循数据使用规范；4. 培养学生具备批判性思维，敢于质疑和挑战现有数据分析方法和结论。

本课程针对高年级学生，结合学科特点和教学要求，注重理论知识与实践操作的相结合。

通过本课程的学习，使学生能够掌握数据仓库与数据挖掘的基本知识和技能，为未来从事相关领域工作打下坚实基础。

同时，培养学生具备良好的情感态度和价值观，成为具有创新精神和实践能力的高素质人才。

二、教学内容1. 数据仓库基础- 数据仓库概念、作用和结构- 数据仓库设计原则和构建流程- 数据仓库与数据库的区别与联系2. 数据挖掘技术- 数据挖掘的基本任务、方法和算法- 分类、聚类、关联规则挖掘等经典算法- 数据挖掘在实际应用中的案例分析3. 数据处理技术- 数据预处理、数据清洗和数据集成- 数据转换和归一化方法- 数据降维和特征选择4. 数据挖掘工具与应用- 常见数据挖掘工具的介绍与比较- 数据挖掘工具的操作与使用- 实际数据集的数据挖掘与分析5. 实践项目与案例分析- 案例分析：行业数据仓库与挖掘项目- 实践项目：设计并实现一个简单的数据仓库系统- 实践项目：利用数据挖掘技术对给定数据集进行分析教学内容根据课程目标进行科学性和系统性组织，涵盖数据仓库与挖掘的基础知识、方法、技术和实践应用。

数据仓库与数据挖掘1实验报告册汽院科院2

《数据仓库与数据挖掘》实验报告册20 - 20 学年第学期班级: 学号: 姓名:目录实验一 Microsoft SQL Server Analysis Services的使用 (3)实验二使用WEKA进行分类与预测 (7)实验三使用WEKA进行关联规则与聚类分析 (8)实验四数据挖掘算法的程序实现 (8)实验一 Microsoft SQL Server Analysis Services的使用实验类型: 验证性实验学时: 4实验目的:学习并掌握Analysis Services的操作, 加深理解数据仓库中涉及的一些概念, 如多维数据集, 事实表, 维表, 星型模型, 雪花模型, 联机分析处理等。

实验内容:在实验之前, 先通读自学SQL SERVER自带的Analysis Manager概念与教程。

按照自学教程的步骤, 完成对FoodMart数据源的联机分析。

建立、编辑多维数据集, 进行OLAP操作, 看懂OLAP的分析数据。

1、实验步骤:启动联机分析管理器:2、建立系统数据源连接。

建立数据库和数据源, 多维数据集编辑多维数据集3、设计存储和处理多维数据集4、浏览多维数据集中的数据按时间筛选数据实验小结:实验二使用WEKA进行分类与预测实验类型: 综合性实验学时: 4实验目的:掌握数据挖掘平台WEKA的使用。

综合运用数据预处理、分类与预测的挖掘算法、结果的解释等知识进行数据挖掘。

从而加深理解课程中的相关知识点。

实验内容:阅读并理解WEKA的相关中英文资料, 熟悉数据挖掘平台WEKA, 针对实际数据, 能够使用WEKA进行数据的预处理, 能选择合适的分类与预测算法对数据进行分析, 并能解释分析结果。

实验步骤:1.在开始->程序->启动WEKA, 进入Explorer界面, 熟悉WEKA的界面功能。

2.选择数据集（实验中的数据可以从网络获取）, 如泰坦尼克号数据集, 将要处理的数据集转换成WEKA能处理的格式, 如.ARFF格式。

数据仓库与数据挖掘实验一

《数据仓库与数据挖掘》课程实验报告一一、实验目的、内容、原理与环境1.实验目的:掌握在SQL Server 2005示例数据仓库环境下数据加载和建立多维数据模型过程的知识, 训练其把教材上的内容应用到实际中的技能, 为今后继续数据挖掘技术的学习奠定基础。

2.实验内容:在SQL Server 2005示例数据仓库环境下加载数据仓库, 建立多维数据模型。

具体内容包括：创建 Analysis Services 项目 , 定义数据源 , 定义数据源视图 , 修改表的默认名称, 定义多维数据集 , 检查多维数据集和维度属性 , 部署 Analysis Services 项目, 浏览已部署的多维数据集等知识。

3、实验原理与环境:数据仓库环境下数据加载过程和多维数据模型建立的方法。

SQL Server 2005示例数据仓库环境。

二、实验步骤（一）本实验的主要步骤（7步）分别介绍如下:（二）创建 Analysis Services 项目（二）创建数据源（三）定义数据源视图（四）定义多为数据源集（五）部署 Analysis Services 项目（六）浏览已部署的多维数据集(七)提高多维数据集的可用性和易用性三、实验总结通过数据仓库与数据挖掘的这门课的学习, 掌握了数据仓库与数据挖掘的一些基础知识和基本概念, 了解了数据仓库与数据库的区别。

下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。

数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。

主题是数据数据归类的标准, 每个主题对应一个客观分析的领域, 他可为辅助决策集成多个部门不同系统的大量数据。

数据仓库包含了大量的历史数据, 经集成后进入数据仓库的数据极少更新的。

数据仓库内的数据时间一般为5年至10年, 主要用于进行时间趋势分析。

数据仓库的数据量很大。

数据仓库的特点如下：。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

目录1. 绪论 (2)1.1项目背景 (2)1.2 提出问题 (2)2 数据库仓库与数据集的概念介绍 (2)2.1数据仓库 (2)2.2数据集 (3)3 数据仓库 (3)3.1 数据仓库的设计 (3)3.1.1数据仓库的概念模型设计 (3)3.1.2数据仓库的逻辑模型设计 (3)3.2 数据仓库的建立 (4)3.2.1数据仓库数据集 (4)3.2.2建立维表 (4)4.数据挖掘操作 (5)4.1数据预处理 (5)4.1.1描述性数据汇总 (5)4.2决策树 (5)5、实验心得 (13)6、大总结 (14)1. 绪论1.1项目背景在现在大数据时代，各行各业需要对商品及相关关节的数据进行收集处理，尤其零售行业，于企业对产品的市场需求进行科学合理的分析，从而预测出将来的市场，制定出高效的决策，给企业带来经济收益。

1.2 提出问题对于超市的商品的购买时期和购买数量的如何决定，才可以使销售量最大，不积压商品，不缺货，对不同时期季节和不同人群制定不同方案，使企业收益最大，通过数据挖掘对数据进行决策树分析，关联分析，顺序分析与决策分析等可以制定出最佳方案。

2 数据库仓库与数据集的概念介绍2.1数据仓库数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。

它是单个数据存储，出于分析性报告和决策支持的目的而创建。

为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。

数据仓库是决策系统支持（dss）和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

数据仓库的特征在于面向主题、集成性、稳定性和时变性。

2.2数据集数据集是指一种由数据所组成的集合。

Data set（或dataset）是一个数据的集合，通常以表格形式出现。

每一列代表一个特定变量。

每一行都对应于某一成员的数据集的问题。

它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。

每个数值被称为数据资料。

对应于行数，该数据集的数据可能包括一个或多个成员。

3 数据仓库3.1 数据仓库的设计3.1.1数据仓库的概念模型设计概念模型的设计是整个概念模型开发过程的三阶段。

设计阶段依据概念模型分析以及分析过程中收集的任何数据，完成星型模型和雪花型模型的设计。

如果仅依赖ERD，那只能对商品、销售、客户主题设计成如图所示的概念模型。

这种模型适合于传统的数据库设计，但不适合于数据仓库的设计。

3.1.2数据仓库的逻辑模型设计逻辑建模是数据仓库实施中的重要一环，因为它能直接反映出各个业务的需求，同时对系统的物理实施有着重要的指导作用，它的作用在于可以通过实体和关系勾勒出企业的数据蓝图，数据仓库的逻辑模型设计任务主要有：分析主题域，确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。

逻辑模型最终设计成果包括每个主题的逻辑定义，并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。

3.2 数据仓库的建立3.2.1数据仓库数据集一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。

例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。

数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。

为了提高速度,对数据集市中的数据一般都建立大量的索引。

换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。

3.2.2建立维表维是分析问题的角度，度量是要分析的问题。

多维视图：用包含度量和维的表的数据结构可以创建一个多维视图，用试题和维创建的多维模型称为星型模型，星型模型生成的主要表格被称为事实表。

事实表的属性值几乎都有连续值。

事实表是规范化的。

与维表不同不是随时间的推移变化，而是不断变大。

维表：星型模型也具有非常小的表，用来装载描述信息。

维表是逆规范化的。

如果把维表置于第二范式中，这样的表称为雪花模型。

维表包括主键，通常对应事实表的外部键。

如果维表的主键不在实事表中，这个主键字便被称作退化的维。

创建维表：有3种方法：星型模型、雪花模型和星暴模型。

星暴模型含有两张以上的事实表。

基本有些充当维事实表。

星型模型：所有信息维都放在同一个维表中。

维表信息包含一个唯一的标识符（ID）和通过这个维表建立的所有维所需的属性。

星型模型由小的维表与大的事实表组成，多称为“小表和大表”。

事实表一般是标准表。

雪花模型：把信息分为3种标准格式。

产品表、类别表、子类别表。

把这些信息放到一起需要一定数据的连接。

雪花模型比星型模型效率低，占空间少。

所有的事实表都有一个与之相关的时间维表。

4.数据挖掘操作4.1数据预处理4.1.1描述性数据汇总对于许多数据预处理任务，希望知道关于数据的中心趋势和离中趋势特征。

中心趋势度量包括均值（mean）、中位数（median）、众数（mode）和中列数（midrange），而数据离中趋势度量包括四分位数（quartiles）、四分位数极差（interquartile range, IQR）和方差（variance）。

这些描述性统计量有助于理解数据的分布。

4.2决策树（1）读取文本数据使用变量文件节点读取定界文本数据。

可以从选项板中添加变量文件节点，方法是单击源选项卡找到此节点，或者使用收藏夹选项卡（默认情况下，其中包含此节点）。

然后，双击新添加的节点以打开相应的对话框。

如图1所示。

图1单击紧挨“导入文件”框右边以省略号“...”标记的按钮，浏览到系统中的Clementine 安装目录。

打开目标文件目录，然后选择名为sales.xls的文件。

选择从文件读取字段名，并注意已载入此对话框中的字段和值。

如图2所示。

图2单击过滤选项，可以把用不到的信息给过滤掉。

如图3所示。

图3类型选项卡可帮助了解数据中的更多字段类型。

还可以选择读取值来查看各个字段的实际值，具体取决于在值列中的选择。

此过程称为实例化。

如图4所示。

图4（2）添加表现在已载入数据文件，可以浏览一下某些记录的值。

其中一个方法就是构建一个包含表节点的流。

要将表节点添加到流中，可双击选项板中的表节点图标或将其拖放到工作区。

如图5所示。

图5双击选项板中的某个节点后，该节点将自动与流工作区中的选定节点相连接。

此外，如果尚未连接节点，则可以使用鼠标中键将源节点与表节点相连接。

要模拟鼠标中键操作，请在使用鼠标时按下Alt 键。

如图6所示。

图6要查看表，请单击工具栏上的绿色箭头按钮执行流，或者右键单击表节点，然后选择执行。

如图7所示。

图7（3）创建分布图将分布节点添加到流，并将其与源节点相连接，然后双击该节点以编辑要显示的选项。

选择商品名称作为要显示其分布的目标字段。

然后，在对话框中单击执行。

如图8所示。

图8最终图表将有助于查看数据的“结构”。

结果表明，商品300g壶瓶枣和400g 沁州黄卖的最多。

如图9所示。

图9此外，还可以在“输出”选项卡中找到数据审核节点。

如图10所示。

图10添加并执行数据审核节点，同时快速浏览所有字段的分布图和直方图。

如图11所示。

图11（4）创建散点图现在我们来看一下有哪些因素会对商品出售（目标变量）产生影响。

作为一名消费者，我们一定知道销售模式对销售数量有着重要的影响。

所以创建一个关于商品名称和销售模式的散点图。

将散点图节点放在工作区中，并将其与源节点相连接，然后双击该节点对其进行编辑。

如图12所示。

图12在“散点图”选项卡中，选择商品名称作为X字段，选择销售模式作为Y 字段，并选择销售金额作为交叠字段。

然后单击执行。

如图13所示。

图13此散点图清楚地显示商品在零售和特价模式下销售金额的不同。

商品在特价的销售模式下，销售金额明显高于零售模式下的销售金额。

如图14所示。

图14（5）创建直方图因很多数据不能够直接显示，所以我们要建立直方图，直方图能够很清晰的显示数据。

首先，将网络节点与您工作区中的源节点相连接。

如图15所示。

图15在“直方图”选项卡中，选择商品序号作为X字段，选择销售数量作为交叠字段。

然后单击执行。

如图16所示。

图16此直方图能够清楚地显示不同商品销售数量的不同。

由图可以看出序号为1的商品销售数量最多，序号为9的商品销售数量最少。

如图17所示。

图175、实验心得在本次实验中，从新建工作流一直到获得最终结果，整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解，特别是决策树模型应用的理解，同时，也学会了如何使用决策树通过建模和直观化显示发现数据库中的关系（即链接）以及利用这些链接与数据中的案例组相对应关系可以通过建模可详细研究这些组并描绘其特征，增强了运用决策树模型和聚类分析模型的能力。

通过这次学习让我意识到，对于数据我们不仅要能利用统计来分析它的规律，也要能会通过数据挖掘软件来挖掘数据当中的潜在信息，并且利用数据挖掘所得到的有利信息更好的服务于数据使用者。

6、大总结坚持好一段时间，终于把完成了任务，通过这几次实验报告的实践操作，我收获很大，不但学习相关数据挖掘的知识，关于SPSS了解更多，操作也比原来熟练多了。

虽然过程中有点折磨过，但当你克服了，耐心去一步一步操作，那些烦躁的心情就会慢慢消失，还得要有耐心，认真的态度去操作，才能有结果。

关联分析是一个很有用的数据挖掘模型，能够帮助企业做很多很有用的产品组合推荐、优惠促销组合，同时也能指导货架摆放是否合理，还能够找到更多的潜在客户，的确真正的把数据挖掘落到实处。

关联分析具体能用来做什么呢？可以一句话来概括：最大限度地从你口袋里面掏出更多的钱买我的产品。

1.通过关联规则，推出相应的促销礼包或优惠组合套装，快速帮助提高销售额。

如自行车针对不同人群，来制定有效的销售方案。

2.零售超市或商场，可以通过产品关联程度大小，指导产品合理摆放，方便顾客最购买更多其所需要的产品。

最常见的就是超市里面购买肉和购买蔬菜水果等货架会摆放得很近，目前就是很多人会同时购买肉与蔬菜，产品的合理摆放也是提高销售的一个关键。

3.进行相关产品推荐或者挑选相应的关联产品进行精准营销。

最常见的是你在亚马逊或京东购买产品的时候，旁边会出现购买该商品的人，有百分之多少还会购买如下的产品，快速帮助顾客找到其共同爱好的产品。

物以类聚，人以群分。

例如，穷人一般和穷人在一起，富人也喜欢和富人在一起。

还有数据挖掘的人喜欢和数据挖掘的人打交道，都离不开这些鸟道理。

4.寻找更多潜在的目标客户。

例如：100人里面，购买A的有60人，购买B的有40人，同时购买A和B的有30人，说明A里面有一半的顾客会购买B，反推而言。