数据挖掘关联规则分析报告
关联规则实验报告

2. 转换数据test.csv为testuse.csv以便进行关联分析。
4. 查看导入的数据a)点击节点选项卡“输出”,双击“表格”节点b)右键点击“testuse.csv”节点,选择“Connect”选项,单击“Table”(在两个节点中产生一个箭头,从“testuse.csv”指向“Table”节点。
)5. 对数据进行清洗a)选择节点选项卡的“字段选项”,把“类型”节点拖入数据流区域。
b)连接“testuse.csv”节点和“类型”节点c)双击数据流区域中的“类型”节点,单击“读取值”按钮d)把其他行的“方向”的值改为“双向”6. 使用Apriori节点分析a)双击“建模”选项卡的“Apriori”节点b)连接“类型”节点与“Apriori”节点(箭头指向“Apriori”节点)7. 查看挖掘结果a)左键单击管理器的“模型”选项卡,右键点击第5部执行以后出现的模型图标b)选择“浏览”,弹出图表c)查看结果质合比3:3 和奇偶奇偶比3:3100%8. 提升a)双击“Apriori”节点,弹出选项界面,修改参数b)选择“模型”选项卡修改参数质合比1:5 和奇偶和大小奇偶比1:5关联规则分析方法原理算法优点缺点适用范围逐层搜索的迭代算法,k-项集用于探索(k+1)-项集。
连接,减枝两步走。
首先,通过扫描数据集,产生一个大的候选数据项集,并使用候选项集找频繁项集Apriori算法效率高1.多次扫描事务数据库,需很大的I/O负载。
2.单维、单层、布尔关联规66.667%。
数据挖掘中的关联规则分析

数据挖掘中的关联规则分析数据挖掘是一种可用于科学、企业和社会等各个领域的分析工具,它可以帮助人们从大量数据中发现隐藏的模式和关联,进而提供预测和决策支持。
在数据挖掘中,关联规则分析是一种基本的技术手段,它可以帮助人们从数据中发现物品之间的相关性,进而为商业决策和市场营销提供支持。
本文将深入探讨数据挖掘中的关联规则分析技术,并介绍其在实际应用中的作用和优势。
一、什么是关联规则分析关联规则分析是一种从数据集合中挖掘出项之间相关性的方法。
在关联规则分析中,项是指数据集合中的元素,如商品、服务、用户等。
关联规则指的是一种表达式,描述了项之间的相互依赖关系。
例如,“购买牛奶->购买面包”,“购买啤酒->购买尿布”都是关联规则。
其中,->表示两个项之间的关系,如购买牛奶导致了购买面包。
在关联规则中,支持度和置信度是两个基本概念。
支持度指的是特定规则出现的频率,而置信度则指的是规则中推断项的可靠程度。
通过设定规则的支持度和置信度,可以将数据集合中的项划分为不同的组别,进而提供商业决策和市场营销的支持。
二、关联规则分析的应用场景关联规则分析可以用于各种领域,如商业、制造业、医疗保健、政府和社会等。
在商业领域中,关联规则分析被广泛应用于市场营销和推荐系统。
例如,在一个日用品店中,通过关联规则分析,店主可以了解到哪些商品之间存在关联性,进而安排这些商品的展示位置,以吸引消费者的注意力。
同时,店主也可以根据这些关联规则来制定折扣和促销活动,吸引更多的消费者。
在制造业中,关联规则分析可以帮助生产制造者更好地理解其生产线中物资之间的依赖关系,进而提高生产效率。
例如,在汽车制造工厂中,通过关联规则分析,制造者可以发现哪些零部件之间存在相关性,并根据这些相关性来规划零部件的库存和生产数量,以提高整个工厂的生产效率。
在医疗保健领域,关联规则分析可以用于疾病和药物的推荐。
例如,在一家医院中,通过关联规则分析,医生可以了解到哪些疾病之间存在相关性,进而推荐更有效的药物治疗方案,提高患者的治疗效果。
数据挖掘关联规则实验报告

数据挖掘关联规则实验报告1. 背景关联规则是数据挖掘中一种重要的技术,用于发现数据集中的项集之间的关联关系。
关联规则可以帮助我们了解数据中的隐含模式,从而提供决策支持和洞察力。
本实验旨在通过关联规则分析数据集中的购物篮数据,探索其中的关联关系,为商家提供销售策略和推荐。
2. 数据分析2.1 数据集介绍本实验使用的数据集是一个超市的销售数据,包含了大量的购物篮信息。
每个购物篮的信息记录了购买的商品,我们可以根据这些信息分析商品之间的关联关系,挖掘出一些有用的规则。
2.2 数据预处理在进行关联规则分析之前,需要对数据进行预处理。
首先,我们需要将数据集转换成适合关联规则分析的形式,即每个篮子的商品集合。
其次,为了减少数据集的大小,我们可以去除不常见的商品或者设置最小支持度阈值。
2.3 关联规则分析在进行关联规则分析时,可以使用Apriori算法来挖掘频繁项集和关联规则。
Apriori算法通过迭代生成候选项集,并使用支持度和置信度来筛选出频繁项集和关联规则。
通过分析频繁项集和关联规则,我们可以了解商品之间的关联关系,例如某些商品的购买行为存在共同模式等。
3. 实验结果3.1 频繁项集分析结果使用Apriori算法计算频繁项集,得到了如下结果:频繁项集支持度{牛奶} 0.4{面包} 0.6{鸡蛋} 0.3{牛奶,面包} 0.3{面包,鸡蛋} 0.2从上表中可以看出,牛奶、面包和鸡蛋是经常一起购买的商品。
其中,牛奶和面包的支持度较高,说明它们经常一起被购买。
3.2 关联规则分析结果使用Apriori算法计算关联规则,设置置信度阈值为0.5,得到了如下结果:关联规则支持度置信度{牛奶} -> {面包} 0.3 0.75{面包} -> {牛奶} 0.3 0.5{面包} -> {鸡蛋} 0.2 0.33从上表中可以看出,购买牛奶的顾客有75%的概率也购买面包,而购买面包的顾客有50%的概率也购买牛奶。
数据挖掘实验报告结论(3篇)

第1篇一、实验概述本次数据挖掘实验以Apriori算法为核心,通过对GutenBerg和DBLP两个数据集进行关联规则挖掘,旨在探讨数据挖掘技术在知识发现中的应用。
实验过程中,我们遵循数据挖掘的一般流程,包括数据预处理、关联规则挖掘、结果分析和可视化等步骤。
二、实验结果分析1. 数据预处理在实验开始之前,我们对GutenBerg和DBLP数据集进行了预处理,包括数据清洗、数据集成和数据变换等。
通过对数据集的分析,我们发现了以下问题:(1)数据缺失:部分数据集存在缺失值,需要通过插补或删除缺失数据的方法进行处理。
(2)数据不一致:数据集中存在不同格式的数据,需要进行统一处理。
(3)数据噪声:数据集中存在一些异常值,需要通过滤波或聚类等方法进行处理。
2. 关联规则挖掘在数据预处理完成后,我们使用Apriori算法对数据集进行关联规则挖掘。
实验中,我们设置了不同的最小支持度和最小置信度阈值,以挖掘出不同粒度的关联规则。
以下是实验结果分析:(1)GutenBerg数据集在GutenBerg数据集中,我们以句子为篮子粒度,挖掘了林肯演讲集的关联规则。
通过分析挖掘结果,我们发现:- 单词“the”和“of”在句子中频繁出现,表明这两个词在林肯演讲中具有较高的出现频率。
- “and”和“to”等连接词也具有较高的出现频率,说明林肯演讲中句子结构较为复杂。
- 部分单词组合具有较高的置信度,如“war”和“soldier”,表明在林肯演讲中提到“war”时,很可能同时提到“soldier”。
(2)DBLP数据集在DBLP数据集中,我们以作者为单位,挖掘了作者之间的合作关系。
实验结果表明:- 部分作者之间存在较强的合作关系,如同一研究领域内的作者。
- 部分作者在多个研究领域均有合作关系,表明他们在不同领域具有一定的学术影响力。
3. 结果分析和可视化为了更好地展示实验结果,我们对挖掘出的关联规则进行了可视化处理。
通过可视化,我们可以直观地看出以下信息:(1)频繁项集的分布情况:通过柱状图展示频繁项集的分布情况,便于分析不同项集的出现频率。
《数据挖掘中关联规则算法研究》范文

《数据挖掘中关联规则算法研究》篇一一、引言随着信息技术和大数据时代的飞速发展,数据挖掘技术逐渐成为各个领域研究的重要课题。
关联规则算法作为数据挖掘的核心技术之一,能够从大量数据中提取出有价值的信息和知识。
本文将深入探讨数据挖掘中关联规则算法的研究现状、常用算法及其应用领域。
二、关联规则算法概述关联规则算法是一种在大规模数据集中寻找项集之间有趣关系的技术。
其主要目标是发现数据集中项集之间的关联性或因果结构,从而帮助人们更好地理解和利用数据。
关联规则算法通常用于购物篮分析、用户行为分析、生物信息学等领域。
三、常用关联规则算法1. Apriori算法:Apriori算法是一种经典的关联规则挖掘算法,其核心思想是通过寻找频繁项集来生成关联规则。
Apriori算法通过不断迭代,逐步找出满足最小支持度和最小置信度的规则。
2. FP-Growth算法:FP-Growth算法是一种改进的关联规则挖掘算法,它通过构建频繁模式树(FP-Tree)来发现数据集中的频繁项集和关联规则。
与Apriori算法相比,FP-Growth算法具有更高的效率。
3. Eclat算法:Eclat算法也是一种常用的关联规则挖掘算法,其基本思想是将数据库分割成若干个不相交的子集,然后对每个子集进行局部搜索,最后将局部搜索结果合并得到全局的关联规则。
四、关联规则算法的应用领域1. 购物篮分析:通过分析顾客的购物行为,发现商品之间的关联关系,从而帮助商家制定更有效的营销策略。
2. 用户行为分析:在互联网领域,通过分析用户的浏览、点击等行为数据,发现用户兴趣之间的关联关系,为个性化推荐等应用提供支持。
3. 生物信息学:在生物信息学领域,关联规则算法可以用于分析基因、蛋白质等生物分子之间的相互作用关系,从而揭示生物系统的复杂网络结构。
五、研究现状与展望目前,关联规则算法已经广泛应用于各个领域,并取得了显著的成果。
然而,随着数据规模的日益增大和复杂性的提高,传统的关联规则算法面临着诸多挑战。
(完整word版)数据挖掘实验报告-关联规则挖掘(word文档良心出品)

数据挖掘实验报告(二)关联规则挖掘**: ***班级: 计算机1304学号: **********一、实验目的1. 1.掌握关联规则挖掘的Apriori算法;2.将Apriori算法用具体的编程语言实现。
二、实验设备PC一台, dev-c++5.11三、实验内容根据下列的Apriori算法进行编程:四、实验步骤1.编制程序。
2.调试程序。
可采用下面的数据库D作为原始数据调试程序, 得到的候选1项集、2项集、3项集分别为C1.C2.C3, 得到的频繁1项集、2项集、3项集分别为L1.L2.L3。
代码#include <stdio.h>#include<string.h>#define D 4 //事务的个数#define MinSupCount 2 //最小事务支持度数void main(){char a[4][5]={{'A','C','D'},{'B','C','E'},{'A','B','C','E'},{'B','E'}};charb[20],d[100],t,b2[100][10],b21[100 ][10];inti,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1;int count[100],temp;for(i=0;i<D;i++){for(j=0;a[i][j]!='\0';j++) {//用来判断之前保存的是否和a[i][j]一样, 不一样就保存, 一样就不保存for(k=0;k<x;k++){if(b[k]!=a[i][j]) ; else{flag=0;break;}}//用来判断是否相等 if(flag==1){b[x]=a[i][j];x++;}else flag=1;}}//计算筛选出的元素的支持度计数for(i=0;i<D;i++){for(j=0;a[i][j]!='\0';j++) {for(k=0;k<x;k++){if(a[i][j]==b[k]) {c[k]++;break; }}}}//对选出的项集进行筛选, 选出支持度计数大于等于2的, 并且保存到d[x1]数组中for(k=0;k<x;k++){if(c[k]>=MinSupCount){d[x1]=b[k];count[x1]=c[k];x1++;}}//对选出的项集中的元素进行排序for(i=0;i<x1-1;i++){for(j=0;j<x1-i-1;j++){if(d[j]>d[j+1]){t=d[j];d[j]=d[j+1];d[j+1]=t;temp=count[j];count[j]=count[j+1];count[j+1]=temp;}}}//打印出L1printf("L1 elements are:\n");for(i=0;i<x1;i++){printf("{%c} = %d \n",d[i],count[i]);}//计算每一行的元素个数, 并且保存到n[]数组中for(i=0;i<D;i++){for(j=0;a[i][j]!='\0';j++);n[i]=j;}//对a[][]数组的每一行进行排序for(i=0;i<D;i++){for(j=0;j<n[i]-1;j++){for(k=0;k<n[i]-j-1;k++) {if(a[i][k]>a[i][k+1]){t=a[i][k];a[i][k]=a[i][k+1]; a[i][k+1]=t;}}}}//把L1中的每一个元素都放在b2[i][0]中j1=x1;for(i=0;i<j1;i++){b2[i][0]=d[i];}//把L1中的元素进行组合, K=2开始, 表示x1个元素选K个元素的组合for(k=2;b2[0][0]!='\0';k++){ //u是用来计数组合总数的u=0;v=1;//v 是用来在进行输出各种组合的标识数 v=1 说明正在进行输出 for(i=0;i<100;i++){c2[i]=0;}for(i=0;i<j1;i++){for(i1=i+1;i1<j1;i1++) {for(j=0;j<k-2;j++) {if(b2[i][j]!=b2[i1][j]){flag1=0;break;}}//进行组合的部分if(flag1==1&&b2[i][k-2]!=b2[i1][k-2]){for(j2=0;j2<k-1;j2++){b21[u][j2]=b2[i][j2];}b21[u][k-1]=b2[i1][k-2];u++;}flag1=1;}}counter=0;for(i=0;i<D;i++) //a数组有5行元素{for(i1=0;i1<u;i1++) // 代表x1个元素选K个元素的所有组合总数 {for(j1=0;j1<k;j1++) //K 代表一个组合中的元素个数{for(j=0;a[i][j]!='\0';j++) //逐个比较每一行的元素{if(a[i][j]==b21[i1][j1])counter++;}}if(counter==k)c2[i1]++; //把每种组合数记录在c2数组中counter=0;} }j1=0;temp=0;//这里的temp 是用来分行//对u种情况进行选择, 选出支持度计数大于2的*/for(i=0;i<u;i++){if(c2[i]>=MinSupCount) {if(v==1){printf("L%d elements are:\n",k);v=0;}printf("{");for(j=0;j<k;j++)//输出每种组合k 个元素{b2[j1][j]=b21[i][j];printf("%c,",b2[j1][j]);}j1++;printf("\b}");printf(" = %d \n",c2[i]);temp++;}}b2[j1][0]='\0';}}五、结果截图。
大数据挖掘中的关联规则分析技术

大数据挖掘中的关联规则分析技术一、概述随着大数据技术的不断发展,越来越多的企业开始注重利用数据进行决策。
而在大数据中,关联规则分析技术具有非常重要的作用,可以帮助企业提高运营效率和市场竞争力。
本文将从什么是关联规则、关联规则算法、关联规则分析的应用场景以及未来的发展趋势等几个方面,来介绍大数据挖掘中的关联规则分析技术。
二、什么是关联规则在商品销售过程中,经常会发现一些消费者会同时购买某些商品,这些商品之间存在一定的规律。
比如,如果消费者购买了牛奶和麦片,那么他们很可能也会购买面包。
这种现象被称为“关联规则”,公式表述如下:A→B其中 A 和 B 均为商品集合或属性集合(也可以是两者的混合),箭头“→”的含义为“蕴含”,表示当集合 A 出现时,集合 B 也很可能出现。
三、关联规则算法Apriori 算法是经典的关联规则分析算法,主要分为以下三个过程:1、生成候选项集;2、计算支持度,得到频繁项集;3、由频繁项集,生成关联规则。
四、关联规则分析的应用场景1、商品推荐通过关联规则,可以挖掘出不同商品之间的关系,建立商品之间的联系,以此推荐相似性高的商品,提高用户购买体验。
2、用户行为分析将用户的行为转化为事务数据集,通过分析用户不同行为之间的关系,可以推测出用户的偏好,针对不同用户,推荐不同的商品和服务。
3、产品定价通过关联规则算出不同产品与价格之间的规律,以此制定合适的价格策略。
五、关联规则分析的未来发展趋势在未来,关联规则分析技术将会面临以下四个方面的发展:1、算法优化关联规则分析算法可以从多个方面进行优化,如数据采样、数据集划分、算法并行化等。
2、可视化展示可视化展示可以提高数据分析的效率,利用图表直观展示数据分析报告,更加便于用户理解和应用。
3、实时性计算与传统离线计算相比,实时计算可以在短时间内给出结果,更加符合企业实际需求。
4、结合其他技术将关联规则分析技术与其他技术结合,如自然语言处理、深度学习等,可以得出更为准确的结果,并且在应用场景上会更加广泛。
关联分析报告

关联分析报告概述关联分析(Association Analysis)是一种常用的数据挖掘技术,用于发现数据集中的频繁项集和关联规则。
通过关联分析,可以揭示不同项之间的关联性,帮助决策者了解产品的销售情况、购物篮分析、用户行为等。
本报告将介绍关联分析的基本概念、算法和应用,并通过一个实际案例进行分析。
关联规则与支持度、置信度关联规则表示属性项或属性集之间的关系。
在关联分析中,关联规则通常以“IF-THEN”格式表示:“如果项集X出现,则项集Y也可能出现”。
支持度(Support)是指某个项集在数据集中出现的频率。
支持度能够反映项集的普遍程度,即项集在数据中出现的频率越高,其支持度越大。
置信度(Confidence)是指包含某个项集X的事务中,同时也包含另一个项集Y的概率。
置信度可以用来度量关联规则的可信度,即当项集X出现时,出现项集Y的可能性有多大。
Apriori 算法Apriori 算法是一种经典的关联规则挖掘算法,通过逐层搜索频繁项集进行关联规则的发现。
Apriori 算法的基本思想是利用Apriori 原理,即如果一个项集是频繁的,则它的所有子集也一定是频繁的。
算法的流程如下:1.初始化候选项集,包括所有单个项。
2.计算候选项集的支持度,删除低于最小支持度阈值的候选项集。
3.根据频繁项集生成候选项集,通过连接生成候选项集的新项。
4.重复步骤2和步骤3,直到没有更多的候选项集产生。
通过 Apriori 算法,可以高效地找到频繁项集和关联规则,从而帮助决策者发现数据集中的潜在关联关系。
实际案例分析假设我们有一个销售数据集,包含了顾客购买的商品信息。
现在我们要分析这些购买数据,找出频繁项集和关联规则,从而帮助商家了解商品之间的关联关系。
首先,我们需要进行数据预处理,将原始数据转化为适合进行关联分析的形式。
在这个案例中,我们将商品信息转化为二进制编码的形式,将每个商品作为一个属性,1表示购买,0表示未购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关联规则分析报告2009年7月8日目录一前言 (1)二数据预处理 (1)三前7710条真实数据分析 (2)1商品按小类分析 (2)2商品按中类分析 (4)3商品按大类分析 (4)4分析比较 (5)四后44904条随机数据分析 (5)1商品按小类分析 (5)2商品按中类分析 (7)3商品按大类分析 (8)4分析比较 (8)五52614条混合数据分析 (8)1商品按小类分析 (8)2商品按中类分析 (11)3商品按大类分析 (11)4分析比较 (12)六总结 (12)一前言使用关联规则挖掘算法分析购物清单时,会产生不止“啤酒→尿布”的单一关联规则,而将出现涉及多种商品的“纵横交错”的多条关联规则。
针对这一实际问题,本文利用学生日常购物记录数据进行关联分析,通过概念分层从不同粒度上分析商品之间的关联性,从而找到商品之间的关联规则,实现优化超市货物摆放次序的目的。
二数据预处理1)在SQL server 2000 查询分析器里执行下面的SQL语句declare @sql varchar(8000)set @sql = 'select zid ,xh'select @sql = @sql + ' , max(case goodsid when ''' + goodsid + ''' then goodsid end) [' + 'n'+ goodsid + ']'from (select distinct goodsid from rcxfjl) as aset @sql = @sql + ' into table_a from rcxfjl group by zid,xh'exec(@sql)2)在PB里将有购买记录的列改为”yes”for i=1 to dw_1.rowcount()for li_index=1 to long(dw_1.object.datawindow.column.count)if integer(dw_1.getitemstring(i,dw_1.describe('#' + string(li_index) +".name")))>0 thendw_1.setitem(i,dw_1.describe('#' + string(li_index) +".name"),"yes")end ifnextnext3)将处理好的数据直接导出到Excel中4)将Excel表中的空格替换成”?”(在weka中?表示缺省值)三前7710条真实数据分析1 商品按小类分析1.1商品规范化中类商品再分小类对挖掘没有太大意义,故都将其看作一类;对于学生来说,家庭用品也没有太大意义,将其删除掉。
数据预处理过程如下:统一商品名:表1 统一商品表2 删除的商品Minimum support: 0.04 ,Minimum metric <confidence>: 0.4,结果如下,Best rules found:1. N030010001=yes 127 ==> N020010001=yes 71 conf:(0.56)2. N010010002=yes 148 ==> N020010001=yes 66 conf:(0.45)3. N010010001=yes 180 ==> N020010001=yes 79 conf:(0.44)4. N010010002=yes 148 ==> N010010001=yes 63 conf:(0.43)5. N040010001=yes 233 ==> N020010001=yes 99 conf:(0.42)注:N030010001:罐头\八宝粥,020010001:饮料,N010010002:小面包,N010010001:蛋糕,040010001:冲泡包面\粉从关联结果可知,买罐头\八宝粥又买饮料关联性最强,其次是小面包、蛋糕、冲泡包面\粉。
在日常生活购物中,我们买了罐头、面包后再买饮料或牛奶的概率极大,关联结果比较符合事实。
1.2商品筛选筛选出商品的购买次数>25的商品然后进行关联分析,结果如下Minimum support: 0.035 ,Minimum metric <confidence>: 0.3,结果如下,Best rules found:1. N010010005=yes 120 ==> N010010001=yes 53 conf:(0.44)2. N010010005=yes 120 ==> N010010002=yes 53 conf:(0.44)3. N010010002=yes 148 ==> N010010001=yes 63 conf:(0.43)4. N010010002=yes 148 ==> N010010005=yes 53 conf:(0.36)5. N010010001=yes 180 ==> N010010002=yes 63 conf:(0.35)注:N010010005:绿豆糕,N010010001:蛋糕,N010010002:小面包从关联结果可知,买绿豆糕又买蛋糕关联性最强,其次是小面包,关联结果也比较符合事实。
2 商品按中类分析由于总共才有1535个事务,故将算法参数支持度和置信度设置较低,Minimum support: 0.04 ,Minimum metric <confidence>: 0.2。
结果如下,Best rules found:1. N01002=yes 136 ==> N01001=yes 77 conf:(0.57)2. N02002=yes 161 ==> N01001=yes 83 conf:(0.52)3. N03001=yes 127 ==> N01001=yes 65 conf:(0.51)4. N02001=yes 226 ==> N01001=yes 104 conf:(0.46)5. N04001=yes 233 ==> N01001=yes 85 conf:(0.36)6. N01003=yes 176 ==> N01001=yes 62 conf:(0.35)7. N02001=yes 226 ==> N04001=yes 67 conf:(0.3)8. N04001=yes 233 ==> N02001=yes 67 conf:(0.29)9. N01001=yes 494 ==> N02001=yes 104 conf:(0.21)从结果可知,买糖果\巧克力又买饼干\糕点的概率最大,乳品饮料与饼干\糕点、罐头\八宝粥与饼干\糕点、碳酸饮料与饼干\糕点概率次之。
3 商品按大类分析Minimum support: 0.04 ,Minimum metric <confidence>: 0.4,结果如下,Best rules found:1. N02=yes N04=yes 103 ==> N01=yes 69 conf:(0.67)2. N03=yes N02=yes 93 ==> N01=yes 61 conf:(0.66)3. N01=yes N04=yes 106 ==> N02=yes 69 conf:(0.65)4. N03=yes N01=yes 97 ==> N02=yes 61 conf:(0.63)5. N02=yes 436 ==> N01=yes 238 conf:(0.55)6. N03=yes 197 ==> N01=yes 97 conf:(0.49)7. N03=yes 197 ==> N02=yes 93 conf:(0.47)从结果可知买食品\酒饮类、食品\粮油类与买食品\休闲类关联性最大。
注:N01是“食品\休闲类”,N02是“食品\酒饮类”,N03是“食品\冲调类”,N04是“食品\粮油类”。
4 分析比较从上面中类和大类分析可知,食品之间的关联性最大,其实这也是显而易见的,顾客买了罐头\八宝粥后会买饼干\糕点等食品,再买饮料的概率也很大,而实际中超市几乎都是这样安排商品的,大多食品都放在一起饮料放在旁边,这样方便顾客购买,增加销售。
四后44904条随机数据分析1 商品按小类分析1.1商品规范化统一商品名:表3 统一商品表4 删除的商品Minimum support: 0.04 ,Minimum metric <confidence>: 0.3,结果如下,Best rules found:1. N030010001=yes 127 ==> N020010001=yes 71 conf:(0.56)2. N010010002=yes 148 ==> N020010001=yes 66 conf:(0.45)3. N010010001=yes 180 ==> N020010001=yes 79 conf:(0.44)4. N010010002=yes 148 ==> N010010001=yes 63 conf:(0.43)5. N040010001=yes 233 ==> N020010001=yes 99 conf:(0.42)6. N010010001=yes 180 ==> N010010002=yes 63 conf:(0.35)注:N030010001:罐头\八宝粥,020010001:饮料,N010010002:小面包,N010010001:蛋糕,040010001:冲泡包面\粉,N010010005从关联结果可知,买罐头\八宝粥又买饮料关联性最强,其次是小面包与饮料,至于得出这样的结果,原因可能是我选取后面的44904条数据不完全都是随机生成的。
1.2商品筛选筛选出商品的购买次数>190的商品然后进行关联分析,结果如下Minimum support: 0.01 ,Minimum metric <confidence>: 0.1,结果如下,Best rules found:1. N040010003=yes 252 ==> N040010002=yes 59 conf:(0.23)2. N010010002=yes 290 ==> N010010001=yes 65 conf:(0.22)3. N040010002=yes 282 ==> N040010003=yes 59 conf:(0.21)4. N010010001=yes 313 ==> N010010002=yes 65 conf:(0.21)注:N040010003:热干面,N040010002:酱拌面,N010010001:蛋糕,N010010002:小面包从关联结果可知,买热干面又买酱拌面关联性最强,其次是小面包与蛋糕,但其支持度和置信度均较低。