weka数据挖掘实验2报告

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘实验报告

姓名：邢金雁

学号：091070106

专业：电子商务

实验二

一、实验名称：

基于关联规则的信息获取

二、实验目的：

通过一个已有的训练数据集，观察训练集中的实例，进行关联信息获取，更好地理解和掌握关联规则算法的基本原理，建立相应的预测模型，然后对新的未知实例进行预测，预测的准确程度来衡量所建立模型的好坏。

三、实验要求

1、熟悉Weka平台

2、掌握关联规则算法

3、对数据进行预处理，利用Weka和不同参数设置进行关联分析，对比结

果，得出结论，对问题进行总结。

四、实验平台

新西兰怀卡托大学研制的Weka系统。

实验步骤

数据实验

1.数据准备

选择Filter中的Discretize方法，点击Apply，先对ARFF文件进行离散化：用UltraEdit对其进行编辑：@attribute children numeric改为：

@attribute children {0,1,2,3} 然后用discretize算法对age和income离散化，并删掉id项因为它对关联规则分析无影响，保存文件。

图1——first-last离散化

图2——UltraEdit编辑

图3——针对属性1 age和属性4 income进行离散化

2.选择Associate项中的Apriori算法分析进行关联信息获取，并进行参数设置。

图4——离散化后的Apriori算法结果

图5——变换参数得到不同结果

例如：现在我们计划挖掘出支持度在10%到100%之间，并且lift值超过1.5且lift值排在前10位的那些关联规则。把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1，“metricType”设为lift，“minMetric”设为1.5，“numRules”设为100。其他选项保持默认。“OK” 之后在“Explorer”中点击“Start”开始运行算法，在右边窗口显示数据集摘要和挖掘结果

图6——举例结果

实验问题解答

1.对于非xls格式的数据如何转换成ARFF数据类型?请给出你了解到的几种数

据类型到ARFF的转换方式?

答：（1）CSV→ARFF:

1)用weka中的ArffView打开csv文件，然后另存为arff文件。

2)用weka的“Simple CLI”模块的命令行功能。在新窗口的最下方输

入框输入java weka.core.converters.CSVLoader filename.csv >

filename.arff 即可完成转换。

3)进入“Exploer”模块，从上方的按钮中打开CSV文件然后另存为

ARFF文件亦可。

（2）TXT→ARFF：用Excel打开txt文件，然后另存为arff文件（逗号分

隔），然后再利用weka将csv文件转化为arff文件

（3）C4.5→ARFF：方法同CSV

（4）MAT→ARFF：在Matlab中通过命令csvwrite('filename',matrixname)把一个矩阵存成CSV格式，再通过weka把CSV转化为ARFF。需要注意的是，Matlab给出的CSV文件往往没有属性名，因此对于Matlab给出的CSV文件需要用文本编辑软件打开，手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致，仍用逗号隔开。

2.在算法出来的lift排前1的规则中,如:

age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)

请说明其中113、61、conf:(0.54)都表示什么含义？

答：113表示项目集｛age=52_max save_act=YES current_act=YES｝出现的次数，61表示事务income=43759_max在前者出现的情况下出现的次数，conf:(0.54)表示：0.54≈61/113，即该条规则的置信度。

3.请问：通过在左下方“Result list”列出的结果上右击，点“Visualize cluster

assignments”。弹出的窗口是否能给出实例完成后的可视化结果，如果有，请截图，并在实验报告中给出详解。

答：右键点击没有“Visualize cluster assignments”选项，因此不能可视化