数据分析方法与技术关联规则实验报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电子科技大学政治与公共管理学院本科教学实验报告

(实验)课程名称:数据分析技术系列实验

电子科技大学教务处制表

电 子 科 技 大 学

实 验 报 告

学生姓名: 学 号:

指导教师:

一、实验室名称: 电子政务可视化实验室 二、实验项目名称:关联规则 三、实验原理

设I={i1,i2,…,in}是项目的集合,其中的元素称为项目(item)。

记D 为事务T (transaction)的集合,这里 T 是项目的集合,并且I T ⊆。 对应每一个事务有一个唯一的标识,如事务号,记为TID 。

设 X 是一个I 中项目的集合,如果T X ⊆,那么称事务T 包含X 。如果项目 X 包含个k 项目,则称其为k 项集。

一个关联规则是形如Y X ⇒的逻辑蕴含式,这里I X ⊂,I Y ⊂,并且

φ=⋂Y X 。 支持度(support):

规则Y X ⇒在事务集 D 中的支持度是事务集中同时包含 X 和 Y 的事务数与所有事务数之比。

它反映了规则的可靠程度,记为 support( Y X ⇒))(Y X P ⋃=即 如果项集的支持度超过用户给定的最小支持度阈值,则称该项集为频繁项集(或大项集Large)。 置信度(confidence)

规则X ⇒ Y 在事务集中的置信度是指同时包含X 和Y 的事务数与包含 X 的事务数(不考虑是否包含 Y )之比。

它反映规则的把握程度,是一个条件概率,即support(X ∪Y)/support(X), 记为confidence(X ⇒ Y)

同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。

四、实验目的

理解关联规则的基本原理,掌握在Statistica 软件中因子分析的主要参数设

置及其含义,掌握Statistica软件分析结果的含义及其分析。

五、实验内容及步骤

实验内容:以青少年消费偏好调查数据为基础,运用关联规则分析方法对数据进行分析。

实验步骤:

(1) 问题描述

基于对青少年消费偏好的调查,对青少年在快餐食品选择上的偏好进行关联分析。数据集见实验数据包:Fastfood.sta。

(2) 关联规则分析的调用

启用Statistics菜单下的Data-Mining中的Association Rules分析功能,如下图示。

图1.关联规则的调用

(3) 分析变量选取及参数设置

首先进行分析变量的选取。

图2变量选取-1

图3变量选取-1

图4支持度、置信度阈值的设置

六、实验器材(设备、元器件):

计算机、打印机、硒鼓、碳粉、纸张

七、实验数据及结果分析

图5

从图5可以看出,Gender==Male的频数为164,支持度为82%;Pizza的频数为138,支持度为69%;Hamburger的频数为114,支持度为57%;Gender==Male,Pizza的频数为115,支持度为57%;Gender==Male,Hamburger 的频数为94,支持度为47%。

图6

从图6可以看出,Gender==Male==>Pizza的支持度为57.5%,信度为70.1295%,相关度为76.44276,为强规则;Gender==Male==>Hamburger的支持度为47%,信度为57.31307%,相关度为68.74696%,为强规则;Pizza==>Gender==Male的支持度为57.50000%,置信度为83.33333%,相关度为76.44276%,为强规则;Hamburger==>Gender==Male的支持度为47.00000%,置信度为82.45614%,相关度为68.74696%,为强规则。

图7

图8

从图8和9可以看出,面积越大,颜色越深,二者关联规则越强。

八、实验结论

Statistica在数据分析方面提供了强大的能力,可以快速地得到丰富的关联结果供数据分析人员选用,重点在于理解各输出参量的含义及其与数据分析对象属性之间的关系。本实验的结果让我比较好地了解了基于本调查数据的关联分析九、总结及心得体会

通过此实验,懂得了Statistica基本操作,掌握了关联规则分析的原理。应学会应用在工作中运用关联规则分析问题。

十、对本实验过程及方法、手段的改进建议

学生用spss或者excel进行关联分析,通过将自己计算的结果与Statistica计算结果进行比较,更好的理解各统计量的含义及其计算过程。

学生应进一步理解关联规则分析指标的含义及算法,通过阅读相关学术论文了解其典型应用,熟悉Statistica软件的相关操作。

相关文档
最新文档