weka数据挖掘实验2报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘实验报告

姓名:邢金雁

学号:091070106

专业:电子商务

实验二

一、实验名称:

基于关联规则的信息获取

二、实验目的:

通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。

三、实验要求

1、熟悉Weka平台

2、掌握关联规则算法

3、对数据进行预处理,利用Weka和不同参数设置进行关联分析,对比结

果,得出结论,对问题进行总结。

四、实验平台

新西兰怀卡托大学研制的Weka系统。

实验步骤

数据实验

1.数据准备

选择Filter中的Discretize方法,点击Apply,先对ARFF文件进行离散化:用UltraEdit对其进行编辑:@attribute children numeric改为:

@attribute children {0,1,2,3} 然后用discretize算法对age和income离散化,并删掉id项因为它对关联规则分析无影响,保存文件。

图1——first-last离散化

图2——UltraEdit编辑

图3——针对属性1 age和属性4 income进行离散化

2.选择Associate项中的Apriori算法分析进行关联信息获取,并进行参数设置。

图4——离散化后的Apriori算法结果

图5——变换参数得到不同结果

例如:现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前10位的那些关联规则。把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1,“metricType”设为lift,“minMetric”设为1.5,“numRules”设为100。其他选项保持默认。“OK” 之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果

图6——举例结果

实验问题解答

1.对于非xls格式的数据如何转换成ARFF数据类型?请给出你了解到的几种数

据类型到ARFF的转换方式?

答:(1)CSV→ARFF:

1)用weka中的ArffView打开csv文件,然后另存为arff文件。

2)用weka的“Simple CLI”模块的命令行功能。在新窗口的最下方输

入框输入java weka.core.converters.CSVLoader filename.csv >

filename.arff 即可完成转换。

3)进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为

ARFF文件亦可。

(2)TXT→ARFF:用Excel打开txt文件,然后另存为arff文件(逗号分

隔),然后再利用weka将csv文件转化为arff文件

(3)C4.5→ARFF:方法同CSV

(4)MAT→ARFF:在Matlab中通过命令csvwrite('filename',matrixname)把一个矩阵存成CSV格式,再通过weka把CSV转化为ARFF。需要注意的是,Matlab给出的CSV文件往往没有属性名,因此对于Matlab给出的CSV文件需要用文本编辑软件打开,手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致,仍用逗号隔开。

2.在算法出来的lift排前1的规则中,如:

age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)

请说明其中113、61、conf:(0.54)都表示什么含义?

答:113表示项目集{age=52_max save_act=YES current_act=YES}出现的次数,61表示事务income=43759_max在前者出现的情况下出现的次数,conf:(0.54)表示:0.54≈61/113,即该条规则的置信度。

3.请问:通过在左下方“Result list”列出的结果上右击,点“Visualize cluster

assignments”。弹出的窗口是否能给出实例完成后的可视化结果,如果有,请截图,并在实验报告中给出详解。

答:右键点击没有“Visualize cluster assignments”选项,因此不能可视化

相关文档
最新文档