weka数据挖掘实验2报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘实验报告
姓名:邢金雁
学号:091070106
专业:电子商务
实验二
一、实验名称:
基于关联规则的信息获取
二、实验目的:
通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。
三、实验要求
1、熟悉Weka平台
2、掌握关联规则算法
3、对数据进行预处理,利用Weka和不同参数设置进行关联分析,对比结
果,得出结论,对问题进行总结。
四、实验平台
新西兰怀卡托大学研制的Weka系统。
实验步骤
数据实验
1.数据准备
选择Filter中的Discretize方法,点击Apply,先对ARFF文件进行离散化:用UltraEdit对其进行编辑:@attribute children numeric改为:
@attribute children {0,1,2,3} 然后用discretize算法对age和income离散化,并删掉id项因为它对关联规则分析无影响,保存文件。
图1——first-last离散化
图2——UltraEdit编辑
图3——针对属性1 age和属性4 income进行离散化
2.选择Associate项中的Apriori算法分析进行关联信息获取,并进行参数设置。
图4——离散化后的Apriori算法结果
图5——变换参数得到不同结果
例如:现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前10位的那些关联规则。把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1,“metricType”设为lift,“minMetric”设为1.5,“numRules”设为100。其他选项保持默认。“OK” 之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果
图6——举例结果
实验问题解答
1.对于非xls格式的数据如何转换成ARFF数据类型?请给出你了解到的几种数
据类型到ARFF的转换方式?
答:(1)CSV→ARFF:
1)用weka中的ArffView打开csv文件,然后另存为arff文件。
2)用weka的“Simple CLI”模块的命令行功能。在新窗口的最下方输
入框输入java weka.core.converters.CSVLoader filename.csv >
filename.arff 即可完成转换。
3)进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为
ARFF文件亦可。
(2)TXT→ARFF:用Excel打开txt文件,然后另存为arff文件(逗号分
隔),然后再利用weka将csv文件转化为arff文件
(3)C4.5→ARFF:方法同CSV
(4)MAT→ARFF:在Matlab中通过命令csvwrite('filename',matrixname)把一个矩阵存成CSV格式,再通过weka把CSV转化为ARFF。需要注意的是,Matlab给出的CSV文件往往没有属性名,因此对于Matlab给出的CSV文件需要用文本编辑软件打开,手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致,仍用逗号隔开。
2.在算法出来的lift排前1的规则中,如:
age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)
请说明其中113、61、conf:(0.54)都表示什么含义?
答:113表示项目集{age=52_max save_act=YES current_act=YES}出现的次数,61表示事务income=43759_max在前者出现的情况下出现的次数,conf:(0.54)表示:0.54≈61/113,即该条规则的置信度。
3.请问:通过在左下方“Result list”列出的结果上右击,点“Visualize cluster
assignments”。弹出的窗口是否能给出实例完成后的可视化结果,如果有,请截图,并在实验报告中给出详解。
答:右键点击没有“Visualize cluster assignments”选项,因此不能可视化