数据空间自相关性对关联规则的挖掘与实验分析pdf

合集下载

数据挖掘关联规则挖掘实验报告

数据挖掘关联规则挖掘实验报告【实验报告】数据挖掘关联规则挖掘1. 引言数据挖掘是从大量数据中发现隐含规律、提取有用信息的过程。

关联规则挖掘是其中的一个重要任务，通过分析数据集中的项集之间的关系，可以揭示出物品之间的相关性和共现性。

本实验旨在通过应用关联规则挖掘算法来探索一份销售数据集中的关联规则，从而提供对销售策略的指导，优化营销决策。

2. 实验设计2.1 数据收集为了开展本实验，我们从一个零售企业的数据库中获取了一份销售数据集。

该数据集包含了一段时间内的商品销售记录，包括商品编号、交易时间和交易金额。

数据集的大小为100,000条记录，共涉及1,000个商品。

我们利用Python中的数据处理库，对数据进行预处理和清洗，确保数据的准确性和可靠性。

2.2 数据预处理在进行关联规则挖掘之前，需要进行适当的数据预处理。

首先，我们根据各个交易记录的商品编号，将数据进行分组，以得到每个顾客的购买清单。

然后，我们去除数据集中的重复项，确保每个商品在每个购物篮中只出现一次。

最后，我们将数据转换为关联规则挖掘算法所接受的事务数据格式，以便后续分析处理。

2.3 关联规则挖掘算法选择针对本实验的目标，我们选择了经典的Apriori算法进行关联规则挖掘。

Apriori算法是一种基于频繁项集的挖掘方法，通过迭代生成候选项集、计算支持度和置信度，来发现频繁项集和相关规则。

3. 实验结果3.1 关联规则挖掘结果分析经过数据处理和Apriori算法的运算，我们得到了一系列的频繁项集和关联规则。

通过分析这些结果，我们可以发现一些有价值的洞察和结论。

首先，我们观察到某些商品之间存在着强关联性。

例如，购买了商品A的顾客通常也会购买商品B，这表明商品A和B具有一定的关联性，可以作为销售捆绑或推荐的策略依据。

其次，我们发现一些商品的关联规则具有较高的置信度。

这意味着如果顾客购买了某个商品，他们购买另一个商品的可能性也很大。

基于这些规则，我们可以优化促销策略，引导顾客购买更多的相关商品，提升销售额和客户满意度。

关联规则分析--实验报告

数据挖掘——关联规则一、数据处理1.来源：百度文库《麻坪中学体质测试》2.源数据描述1)源数据量：572个2)数据属性：年级编号、班号、班级、学号、民族代码、姓名、性别、出生日期、学生来源、家庭住址、身高、身高体重分数、身高体重等级、肺活量、肺活量体重指数、肺活量体重分数、肺活量等级、耐力类项目成绩、耐力类项目分数、耐力项目等级、柔韧力量类项目编号、柔韧力量类项目成绩、柔韧力量类项目分数、柔韧力量类项目等级、速度灵巧类项目编号、速度灵巧类项目成绩、速度灵巧类项目分数、速度灵巧类项目等级、奖惩项目编号、奖惩成绩、测试总分、总分等级。

（部分数据展示）3.数据处理1)数据规约选择属性：选择“姓名、性别、肺活量体重等级、耐力类项目等级、柔韧、力量类项目等级、速度、灵巧类项目等级”五个属性。

其余属性为不重要属性，故舍去。

2)数据转换a)等级属性值转化：等级均为“不及格、及格、良好、优秀”。

将“不及格”和“及格”转化为“F”；将“及格”和“不及格”转化为“T”b)性别属性值转化：女性T，男性Fc)属性名转化：将属性名和各个学生姓名转化为英文字母+数字NA：姓名A1：性别A2：肺活量体重等级A3：耐力类项目等级A4：柔韧、力量类项目等级A5：速度、灵巧类项目等级二、实验内容1.代码来源：网上算法结合自己的想法2.代码运行过程：第一次扫描后的1级备选集CandidateItemsetA1A2A3A4A5第一次扫描后的1级频繁集FrequentItemsetA1A2A3A4A5扫描后备选集A1 A2A1 A3A1 A4A1 A5A2 A3A2 A4A5 A2A3 A4A5 A3A5 A4扫描后频繁集A1 A2A1 A3A1 A4A1 A5A2 A3A2 A4A5 A2A3 A4A5 A3A5 A4扫描后备选集A1 A2 A3A1 A2 A4A1 A5 A2A1 A3 A4A1 A5 A3A1 A5 A4A2 A3 A4A5 A2 A3A5 A2 A4A5 A3 A4扫描后频繁集A1 A2 A3A1 A2 A4A1 A3 A4A1 A5 A3A1 A5 A4A2 A3 A4A5 A2 A3A5 A2 A4A5 A3 A4扫描后备选集A1 A2 A3 A4 A1 A2 A3 A5 A1 A2 A4 A5 A1 A3 A4 A5A2 A3 A4 A5扫描后频繁集A1 A3 A4 A5A2 A3 A4 A5扫描后备选集A1 A2 A3 A4 A5无满足支持度项集,结束连接扫描后频繁集Apriori算法--->频繁集A1 A3 A4 A5A2 A3 A4 A53.代码结果：支持度：0.05关联关系：A1、A3、A4、A5A2、A3、A4、A5三、结论1.由{ A1、A3、A4、A5}得出男生的耐力类项目等级、柔韧、力量类项目等级、速度、灵巧类项目等级普遍比较优秀2.由{ A2、A3、A4、A5}得出一般肺活量体重等级、耐力类项目等级、柔韧、力量类项目等级、速度、灵巧类项目等级普遍都是同一等级，即肺活量体重等级优秀的人，则其他的都是优秀。

大数据分析中的关联规则挖掘算法研究

大数据分析中的关联规则挖掘算法研究第一章引言随着信息技术的迅猛发展，大数据分析逐渐成为一个热门话题。

大数据分析提供了对海量数据进行挖掘和分析的能力，能够揭示数据背后的关联和规律。

其中，关联规则挖掘算法作为一种重要的数据分析技术，在各个领域都发挥着重要作用。

本文将对大数据分析中的关联规则挖掘算法进行研究。

第二章关联规则挖掘概述2.1 关联规则挖掘的定义和应用关联规则挖掘是一种数据挖掘技术，用于发现数据集中的频繁项集和关联规则。

频繁项集是指在数据集中频繁出现的项的集合，而关联规则指的是项集之间的关联关系。

关联规则挖掘可以应用于市场篮子分析、网络流量分析、医药研究等领域。

2.2 关联规则挖掘的基本原理关联规则挖掘的基本原理包括支持度和置信度。

支持度是指某个项集在数据集中出现的频率，而置信度是指某个规则在项集中出现的概率。

关联规则挖掘通过设置支持度和置信度阈值，找出满足条件的频繁项集和关联规则。

第三章关联规则挖掘算法3.1 Apriori算法Apriori算法是一种经典的关联规则挖掘算法。

该算法通过迭代的方式搜索频繁项集，从而找到关联规则。

Apriori算法的核心思想是利用频繁项集的性质，通过剪枝操作，降低搜索空间，提高算法效率。

3.2 FP-growth算法FP-growth算法是一种基于频繁模式树的关联规则挖掘算法。

该算法通过构建频繁模式树，将数据集压缩至一个频繁模式树，从而提高算法的效率。

FP-growth算法不需要产生候选集，避免了候选集生成的开销，使得算法更加高效。

3.3 Eclat算法Eclat算法是一种基于垂直数据格式的关联规则挖掘算法。

该算法将事务数据集表示为一个垂直数据格式，通过递归的方式搜索频繁项集。

Eclat算法可以减少计算的开销，提高算法的效率。

第四章关联规则挖掘算法的性能评估4.1 支持度和置信度的选取在进行关联规则挖掘时，支持度和置信度的选取对算法的性能有着重要影响。

过高的支持度和置信度将导致挖掘结果过少，而过低的支持度和置信度将导致挖掘结果过多。

数据挖掘关联规则实验报告

数据挖掘关联规则实验报告1. 背景关联规则是数据挖掘中一种重要的技术，用于发现数据集中的项集之间的关联关系。

关联规则可以帮助我们了解数据中的隐含模式，从而提供决策支持和洞察力。

本实验旨在通过关联规则分析数据集中的购物篮数据，探索其中的关联关系，为商家提供销售策略和推荐。

2. 数据分析2.1 数据集介绍本实验使用的数据集是一个超市的销售数据，包含了大量的购物篮信息。

每个购物篮的信息记录了购买的商品，我们可以根据这些信息分析商品之间的关联关系，挖掘出一些有用的规则。

2.2 数据预处理在进行关联规则分析之前，需要对数据进行预处理。

首先，我们需要将数据集转换成适合关联规则分析的形式，即每个篮子的商品集合。

其次，为了减少数据集的大小，我们可以去除不常见的商品或者设置最小支持度阈值。

2.3 关联规则分析在进行关联规则分析时，可以使用Apriori算法来挖掘频繁项集和关联规则。

Apriori算法通过迭代生成候选项集，并使用支持度和置信度来筛选出频繁项集和关联规则。

通过分析频繁项集和关联规则，我们可以了解商品之间的关联关系，例如某些商品的购买行为存在共同模式等。

3. 实验结果3.1 频繁项集分析结果使用Apriori算法计算频繁项集，得到了如下结果：频繁项集支持度{牛奶} 0.4{面包} 0.6{鸡蛋} 0.3{牛奶,面包} 0.3{面包,鸡蛋} 0.2从上表中可以看出，牛奶、面包和鸡蛋是经常一起购买的商品。

其中，牛奶和面包的支持度较高，说明它们经常一起被购买。

3.2 关联规则分析结果使用Apriori算法计算关联规则，设置置信度阈值为0.5，得到了如下结果：关联规则支持度置信度{牛奶} -> {面包} 0.3 0.75{面包} -> {牛奶} 0.3 0.5{面包} -> {鸡蛋} 0.2 0.33从上表中可以看出，购买牛奶的顾客有75%的概率也购买面包，而购买面包的顾客有50%的概率也购买牛奶。

第三章关联规则挖掘及其应用分析

C2 itemset sup L2 itemset sup
{1 3} {2 3} {2 5} {3 5} 2 2 3 2
{1 {1 {1 {2 {2 {3 2} 3} 5} 3} 5} 5} 1 2 1 2 3 2
C2 itemset {1 2} Scan D
{1 {1 {2 {2 {3 3} 5} 3} 5} 5}
支持度(support), s, 事务中包含 {X & Y & Z}的概率置信度(confidence), c, 事务中包含{X & Y}的条件下, 包含Z的条件概率
顾客购买啤酒
Transaction ID 2000 1000 4000 5000
Байду номын сангаас
Items Bought A,B,C A,C A,D B,E,F
关联规则的度量
支持度：Support(A=>B)=#AB/#N，表示A和B同时出现的概率期望可信度：Support(A)=#A/#N，表示A出现的概率置信度：Confidence(A=>B)=Support(A=>B)/Support(B) 改善度：Lift(A=>B)=Confidence(A=>B)/Support(B)
Apriori算法实例
Database D
TID 100 200 300 400 Items 134 235 1235 25
itemset sup. 2 C1 {1} {2} 3 Scan D {3} 3 {4} 1 {5} 3
L1 itemset sup.
{1} {2} {3} {5} 2 3 3 3
由C3产生最终结果，如下：项集｛I1，I2，I3｝｛I1，I2，I5｝

(完整word版)数据挖掘实验报告-关联规则挖掘(word文档良心出品)

数据挖掘实验报告（二）关联规则挖掘**: ***班级: 计算机1304学号: **********一、实验目的1. 1.掌握关联规则挖掘的Apriori算法；2.将Apriori算法用具体的编程语言实现。

二、实验设备PC一台, dev-c++5.11三、实验内容根据下列的Apriori算法进行编程:四、实验步骤1.编制程序。

2.调试程序。

可采用下面的数据库D作为原始数据调试程序, 得到的候选1项集、2项集、3项集分别为C1.C2.C3, 得到的频繁1项集、2项集、3项集分别为L1.L2.L3。

代码#include <stdio.h>#include<string.h>#define D 4 //事务的个数#define MinSupCount 2 //最小事务支持度数void main(){char a[4][5]={{'A','C','D'},{'B','C','E'},{'A','B','C','E'},{'B','E'}};charb[20],d[100],t,b2[100][10],b21[100 ][10];inti,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1;int count[100],temp;for(i=0;i<D;i++){for(j=0;a[i][j]!='\0';j++) {//用来判断之前保存的是否和a[i][j]一样, 不一样就保存, 一样就不保存for(k=0;k<x;k++){if(b[k]!=a[i][j]) ; else{flag=0;break;}}//用来判断是否相等 if(flag==1){b[x]=a[i][j];x++;}else flag=1;}}//计算筛选出的元素的支持度计数for(i=0;i<D;i++){for(j=0;a[i][j]!='\0';j++) {for(k=0;k<x;k++){if(a[i][j]==b[k]) {c[k]++;break; }}}}//对选出的项集进行筛选, 选出支持度计数大于等于2的, 并且保存到d[x1]数组中for(k=0;k<x;k++){if(c[k]>=MinSupCount){d[x1]=b[k];count[x1]=c[k];x1++;}}//对选出的项集中的元素进行排序for(i=0;i<x1-1;i++){for(j=0;j<x1-i-1;j++){if(d[j]>d[j+1]){t=d[j];d[j]=d[j+1];d[j+1]=t;temp=count[j];count[j]=count[j+1];count[j+1]=temp;}}}//打印出L1printf("L1 elements are:\n");for(i=0;i<x1;i++){printf("{%c} = %d \n",d[i],count[i]);}//计算每一行的元素个数, 并且保存到n[]数组中for(i=0;i<D;i++){for(j=0;a[i][j]!='\0';j++);n[i]=j;}//对a[][]数组的每一行进行排序for(i=0;i<D;i++){for(j=0;j<n[i]-1;j++){for(k=0;k<n[i]-j-1;k++) {if(a[i][k]>a[i][k+1]){t=a[i][k];a[i][k]=a[i][k+1]; a[i][k+1]=t;}}}}//把L1中的每一个元素都放在b2[i][0]中j1=x1;for(i=0;i<j1;i++){b2[i][0]=d[i];}//把L1中的元素进行组合, K=2开始, 表示x1个元素选K个元素的组合for(k=2;b2[0][0]!='\0';k++){ //u是用来计数组合总数的u=0;v=1;//v 是用来在进行输出各种组合的标识数 v=1 说明正在进行输出 for(i=0;i<100;i++){c2[i]=0;}for(i=0;i<j1;i++){for(i1=i+1;i1<j1;i1++) {for(j=0;j<k-2;j++) {if(b2[i][j]!=b2[i1][j]){flag1=0;break;}}//进行组合的部分if(flag1==1&&b2[i][k-2]!=b2[i1][k-2]){for(j2=0;j2<k-1;j2++){b21[u][j2]=b2[i][j2];}b21[u][k-1]=b2[i1][k-2];u++;}flag1=1;}}counter=0;for(i=0;i<D;i++) //a数组有5行元素{for(i1=0;i1<u;i1++) // 代表x1个元素选K个元素的所有组合总数 {for(j1=0;j1<k;j1++) //K 代表一个组合中的元素个数{for(j=0;a[i][j]!='\0';j++) //逐个比较每一行的元素{if(a[i][j]==b21[i1][j1])counter++;}}if(counter==k)c2[i1]++; //把每种组合数记录在c2数组中counter=0;} }j1=0;temp=0;//这里的temp 是用来分行//对u种情况进行选择, 选出支持度计数大于2的*/for(i=0;i<u;i++){if(c2[i]>=MinSupCount) {if(v==1){printf("L%d elements are:\n",k);v=0;}printf("{");for(j=0;j<k;j++)//输出每种组合k 个元素{b2[j1][j]=b21[i][j];printf("%c,",b2[j1][j]);}j1++;printf("\b}");printf(" = %d \n",c2[i]);temp++;}}b2[j1][0]='\0';}}五、结果截图。

数据挖掘实验一关联规则挖掘

关联规则挖掘 Association Rule Mining【一】题目要求Data Description: The marketing department of a financial firm keeps records on customers, including demographic information and, number of type of accounts. When launching a new product, such as a "Personal Equity Plan" (PEP), a direct mail piece, advertising the product, is sent to existing customers, and a record kept as to whether that customer responded and bought the product. Based on this store of prior experience, the managers decide to use data mining techniques to build customer profile models. In this particular problem we are interested only in deriving (quantitative) association rules from the data (in a future assignment we will consider the use of classification.Your goal: perform Association Rule discovery on the data set. 具体的实验数据在bank-data.txt 文件中【二】实现思路某财务公司生产了一种新产品，本题提供了600个客户的记录，对这些客户的不同属性进行数据挖掘。

数据挖掘关联规则实验报告(一)

数据挖掘关联规则实验报告(一)数据挖掘关联规则实验报告实验目的本次实验旨在通过使用Apriori算法，对给定的数据集进行挖掘，获取其中的关联规则。

实验数据我们使用的数据集是一份网上零售商店的销售数据，其中包含了536634条交易记录，每条记录中有6个字段，分别是InvoiceNo、StockCode、Description、Quantity、InvoiceDate、UnitPrice。

我们使用的字段是StockCode和Description。

实验步骤1.数据预处理：去除空值和重复记录。

2.转换数据格式：将每个交易的商品项转换为列表形式。

3.调用Apriori算法进行频繁项集的挖掘，指定最小支持度为0.02。

4.根据频繁项集生成关联规则，指定最小置信度为0.4。

5.对结果进行解释和分析。

实验结果我们得到了41个频繁项集，其中支持度较高的前10个频繁项集如下所示：•Itemsets: (‘23843’,), Support: 0.052•Itemsets: (‘85123A’,), Support: 0.048•Itemsets: (‘22423’,), Support: 0.045•Itemse ts: (‘85099B’,), Support: 0.044•Itemsets: (‘47566’,), Support: 0.035•Itemsets: (‘84879’,), Support: 0.031•Itemsets: (‘20725’,), Support: 0.029•Itemsets: (‘22720’,), Support: 0.028•Itemsets: (‘22727’,), Support: 0.027•Itemsets: (‘23203’,), Support: 0.026我们得到了531个关联规则，其中置信度较高的前10个关联规则如下所示：•Rule: (‘22554’,) -> (‘85099B’,), Support: 0.029, Confidence: 0.556•Rule: (‘85099B’,) -> (‘22554’,), Support: 0.029, Confidence: 0.527•Rule: (‘22139’,) -> (‘22138’,), Support: 0.021, Confidence: 0.702•Rule: (‘22138’,) -> (‘22139’,), Support: 0.021, Confidence: 0.496•Rule: (‘23203’,) -> (‘22383’,), Support: 0.021, Confidence: 0.815•Rule: (‘22384’,) -> (‘20725’,), Support: 0.021, Confidence: 0.657•Rule: (‘22383’,) -> (‘23203’,), Support: 0.021, Confidence: 0.429•Rule: (‘85099B’, ‘23203’) -> (‘22383’,), Support:0.021, Confidence: 0.748•Rule: (‘22383’, ‘85099B’) -> (‘23203’,), Support:0.021, Confidence: 0.435•Rule: (‘20725’, ‘22384’) -> (‘20727’,), Support:0.021, Confidence: 0.692实验结论通过本次实验，我们可以发现销售数据中存在一些商品之间的关联规则，例如商品22554和85099B、22139和22138、23203和22383等等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

. 0和 9 C K J4 常用来度量时间序列相邻数值间的 U * + #! " 相关关系 ! %
空间自相关的存在! 产生的空间差异( 空间依
+ ! > ! 赖( 空间回归等* 加之属性数据与空间数据不可 + ! @ 分性* ! 使得空间关联规则的挖掘不同于一般的关
" 收稿日期修回日期 # $ ! $ $ " ! ; # $ ! $ ! $ # < = 基金项目国家自然科学基金青年科学资金项目# 教育部留学科研基金项目# $ " $ % > $ ? $ ! ! @ # # ! " ! @ " # > A ! & ' 作者简介陈江平# 女! 湖北洪湖人! 副教授%研究方向为空间分析! 数据挖掘等%. ! A < @ $ / B C D 7 E F 9 G 7 D J C ! ; " = E 6 B ! H I
# $ + 使用文献 * 提供的改进的 * ! # $ K D 6 K D算法 I 得出一项( 二项( 对属性数据库进行关联规则挖掘!
国内外学者提出了很多方掘中考虑空间自相关! 空间自相关和空间关联法%如引入空间权重矩阵! 的度量函数! 并结合空间数据的地理位置构造通过直观的方法来发现 5 6 K 6 G 6 D图! O 9 7 C Q G C U 图! * + < 空间关联规则 ! % 或者将空间信息泛化后转化成属性关系数据库! 将空间自相关用数据的形式表达! 然后采用属性关联规则的挖掘算法进行挖掘
* + ! ?
分类的依据是类 %再是将空间数据进行分类!
标签属性! 即类的唯一标识! 继而用决策树等办法将空间数据库的目标以叶子节点的方式置于各类上! 根据决策树得到空间关联规则
* + ! A
%
将空间数据泛化为属性数据的过程中 ! 数据之间的空间关系可能会被削弱或者忽略 % 当数据量很大时 ! 通过图表等直观的方式进行空间关联规则的挖掘显然不现实 % 采用决策树的方式进行挖掘时 ! 类标签属性的选择决定了类的属性 ! 也就是分类的结果 ! 决策树选择的失误会极大影响关联规则挖掘的结果 % 本文通过对同一数据集进行两种方法 # 即空间相关性的分析法和空间关联规则挖掘方法 $ 的实验 ! 将结果进行对比 ! 讨论空间自相关对空间关联规则挖掘的指导作用及影响%
下载% 实验数据是以 3 其存 L N 文件的形式存储的! 储属性数据的是 O \ , 文件% 使用 * K D 6 K D算法进 I 行挖掘时! 数据源要从 O \ , 格式的文件转换为 . ] / 生成的文件中! 每一行代表一个 4 . + 工作表格式! 共! 而第 ! 列为花粉热发病数目 # 郡! $ $ 行" F C S 9 / U 第# ! $ ! ' ^ 9 K "列为! ! # 月的气温数据 # R K C G ! H 第! 'T $ ! ' R K 9 E ! > # @列为 ! ! # 月的降水数据 # R K 第# 'T $ ! C G " R K 9 E " ; " ! 列为 ; 中植被类型覆盖 H 率的数据# 即耕地( 阔叶林( 针 $ ! 7 C G T Q J 9 !7 C G T Q J 9 ; 叶林( 改良草地( 山地沼泽和半天然草地! 第" # " ;
& ) ! " # ! $ 8 " < # > 3 N 8 % 8 ! $ > < 8 # $ ! ! 8 $ $ ! $ A
子的相互关系与作用的规律% 构成地理现象的各
! 引言
空间数据挖掘 # 3 O1$ 是一个从空间数据中提取出有效的( 新颖的( 潜在有用的( 并能最终被人
+ # 理解的模式的非平凡过程* 揭示出蕴含在数据背 ! * + !
它们的关系是复杂种地理因子都不是独立出现的! 的! 可能是相互抑制! 也可能是相互促进的% 对地理现象的多因子分析! 有助于我们了解空间因子间
+ ; 的关联模式或者相互关系! 即空间关联规则* %但
是! 多因子交互作用识别是一个理论难题! 缺少有效方法%目前有效的方法是王劲峰等提出的建立地理探测器模型! 分析各因子对模型的影响! 能有
热患病人数! 以及相关影响因素数据! 主要包括& 英国# # $ ! $ $ $年各郡的花粉热患病人数数据! & ) ) ) 授权从网站 F R R V V V= 9 J T J = C E = Q W S D G T D G O C / I X
) -J R C J G O 9 J E K D R D 6 G = C J G Y @ @ @ ?下载" I I
+ ; 效识别因子间的相互关系* % 探测各因子对模型
后的客观世界的本质规律( 内在联系和发展趋势! 实现知识的自动获取! 从而提供技术决策与经营决策的依据
* + "
% 空间关联规则挖掘是空间数据挖掘
* + >
的重要内容! 其目的是发现现实世界中空间对象之间的有趣的关联模式或相互关系一般形式是&
陈江平黄炳坚
# $ 武汉大学遥感信息工程学院! 武汉 > " $ $ < A
摘要传统的空间关联规则挖掘 ! 一般是使用属性关联规则的挖掘算法 ! 对空间数据进行泛化处理 ! 不考虑空间也没有考虑空间自相关与空间关联规则的关系 % 本文运用改进的 * 数据的空间自相关性 ! K D 6 K D算法对某一数据 I 并对同一数据进行空间自相关分析 ! 比较两种方法反映的属性的相关性 ! 探讨了数据的进行空间关联规则挖掘 ! 空间自相关性对空间关联规则挖掘的影响 % 论文采用 # 降 $ $ $ 年英国的 L* M , . 5 . 患病数据集和当时的气温 ( 即* 发现二者的结果中雨数据作为实验数据 % 采用两种方法处理相同的数据集 ! K D 6 K D方法和空间自相关方法 ! I 证明了通过研究数据的空间自相关性也能获得准确的关联规则 ! 且数所得的一项关联规则和二项关联规则一致 ! 据的空间自相关性对关联规则的挖掘存在作用和影响 % 如何定量度量一元空间自相关对空间关联规则的影响 ! 以及利用二元空间自相关结果作为空间关联规则候挖掘的候选频繁项集 ! 进而提高挖掘效率是本文的进一步工作% 关键词空间自相关" 关联规则挖掘" 空间数据挖掘" * K D 6 K D I
则挖掘是空间数据挖掘的一个重要组成部分% 其
! ! ! # , ! " #$ ! $ # , $ % ! ! ,! ! ! ,! ! ! # ! "! $ ! $ # $ % 是空间谓词 !
和非空间谓词的集合! 其中至少有一个是空间谓词" 令 ! #! 称为规则的前件" 令 ! # "! ! ,! 称为规则的后件! $#$ ! # ,$ %! !$#&" $ $ ! 'P是规则的支持度 # J Q 6 K R (P 表示规则的置 I I * + @ 信度# $ % E 6 G S D T 9 G E 9 空间关联规则本质上也是地理现象的多个因
% 空间关联规
的贡献率能从庞大的空间数据库中提取有用的空间关联规则% 如何衡量影响地理现象的各因子的关系呢定性的有& 地理学第一定律地表所有事物和现象在距离越近! 关联程度就越强! 距空间上都是关联的!
+ <? % 定量的衡量方法一离越远! 关联程度就越弱* * + * + A! $ ! 般有 1 和等方法%1 . . . 6 K C G J 0 9 C K J4! 6 K C G J U
!期
陈江平等& 数据空间自相关性对关联规则的挖掘与实验分析
! ! !
图! 技术路线图
, D 8 ! 6 K W S 7 6 VB C Z X I
# $ ! 英国 # # $ $ $ 年各郡的气温数据 # ! ! #月$ 授权从网站 F 下载 " & ) ) ) R R V V V= B 9 R 6 S S D E 9 = 6 K = Q W I X
& ) ) ) ) ) ! A # = ! < ! = ! @ " = # ! " J 9 E R D 6 G J J 9 6 7 E B # $ $ $ = F R / R I # $ B 7 4 9 G R K 9S 6 K. E 6 7 6 [L T K 6 7 6 WV 9 : J D R 9 X U U X U'
! ! $
地球信息科学学报 # $ ! !年
+ ! ; % 在空间关联规则挖系数据库的关联规则挖掘*
性! 从而知道对主变量影响最大的变量! 在进行关相关系数较大的变量间的关系! 往联规则挖掘时! 定义往是感兴趣的空间关联规则% 按照这个思路! 一个主变量! 通过空间自相关分析! 找出对因变量可得到& 影响大的变量! 形成感兴趣的空间关联规则" # $ ! 为关联规则的进一步挖掘提供频繁二项 # $ # 集% 最后可通过扫描数据库! 验证所得到的空间关联规则的支持度与置信度% 论文通过两种不同的方式 ! 对同一数据集进行空间关联规则挖掘和空间相关性分析 ! 旨在研探究空间自相关在空间关联规则挖掘中的作用 ! 讨空间关联规则挖掘时的属性变量之空间自相关! 以及将二元空间相关的结果作为空间关联规则挖掘的先验知识! 以提高传统的空间关联规则挖掘的效率%