weka实验报告

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

weka实验报告

数据挖掘实验报告

基于weka的数据分类分析实验报告

姓名: 学号:

1实验基本内容

本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯，KNN 和决策树C4.5)分别在训练数据上训练出分类模型，并使用校验数据对各个模型进行测试和评价，找出各个模型最优的参数值，并对三个模型进行全面评价比较，得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器，并利用该分类器对测试数据进行预测。

2数据的准备及预处理

2.1格式转换方法

原始数据是老师直接给的arff文件，因此不用转换，可以直接导入。但如果原始数据是excel文件保存的xlsx格式数据，则需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好，这里我们选择arff 格式作为分类器原始数据的保存格式。

转换方法:假如我们准备分析的文件为“breast-cancer.xlsx”，则在excel

中打开“breast-cancer.xlsx”，选择菜单文件->另存为，在弹出的对话框中，文件名输入“breast-cancer”，保存类型选择“CSV(逗号分隔)”，保存，我们便可得到“breast-cancer.csv”文件;然后，打开Weka的Exporler，点击Open file 按钮，打开刚才得到的“filename”文件，点击“save”按钮，在弹出的对话框

中，文件名输入“breast-cancer”，文件类型选择“Arff data

files(*.arff)”，这样得到的数据文件为“breast-cancer.arff”。

数据挖掘实验报告

2.2如何建立数据训练集，校验集和测试集

通过统计数据信息，发现带有类标号的数据一共有286行，为了避免数据的过度拟合，必须把数据训练集和校验集分开，目前的拆分策略是训练集200行，校验集86行。类标号

01条，而类标号为‘recurrence-events’的数据有85为‘no-recurrence-events’的数据有2

条，为了能在训练分类模型时有更全面的信息，所以决定把包含115条no-recurrence-events

类标号数据和85条recurrence-events类标号数据作为模型训练数据集，而剩下的86条类标号类no-recurrence-events的数据将全部用于校验数据集，这是因为在校验的时候，两种类标号的数据的作用区别不大，而在训练数据模型时，则更需要更全面的信息，特别是不同类标号的数据的合理比例对训练模型的质量有较

大的影响。另外，我们为了做预测测试，我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉，作为预测数据集。 2.3预处理具体步骤第一步:把breast-cancer.arff文件复制一份，作为总的训练数据集。文件名称为build_model.arff。

第二步:从breast-cancer.arff文件数据里面选取分类标号为no-recurrence-events的86行数据作为校验数据集(validate_data.arff)。

第三步:从把剩下的breast-cancer.arff文件改名为train_data.arff。

第四部:由于老师给的全部都是有类标号的数据集，为了我们方便进行预测测试，我们将分类标号为no-recurrence-events的86行数据集的分类标号去掉，作为预测数据集。

数据挖掘实验报告

3. 实验过程及结果截图

3.1决策树分类

用“Explorer”打开刚才得到的“train-data.arff”，并切换到“Class”。点“Choose”按钮选择“tree (weka.classifiers.trees.j48)”，这是WEKA中实现的决策树算法。

选择Cross-Validatioin folds=10，然后点击“start”按钮: 训练数据集训练决策树得出的结果

使用不同配置训练参数，得到的实验数据:

配置不同的叶子节点的实例个数

实例数/叶节点 4 5 6 2 3

准确率 62.5% 62.5% 62.5% 63.5% 63.5%

结果分析:使用决策树时，每个叶子节点最优的实例个数为2或者3。

数据挖掘实验报告

校验数据集校验决策树得出的结果

初步结果分析:

使用决策树进行分类，对于已知的86个类标号为no-recurrence-events的数据进行比较准确的分类，准确率达到86%;该数据一般，并且有一定的缺陷，因为该结果是以训练集的低准确率作为前提的。

数据挖掘实验报告 3.2 K最近邻算法分类

点“Choose”按钮选择“laze->ibk”，这是WEKA中实现的决策树算法。

选择Cross-Validatioin folds=10，然后点击“start”按钮: 训练数据集训练KNN得出的结果

使用不同配置训练参数，得到的实验数据:

配置不同的叶子节点的实例个数

K值 1 2 3 5 6 7 8 9 10 4

准确率 66.5% 64% 65% 67% 66.5% 66.5% 66% 66% 67% 68.5%

结果分析:使用KNN算法分类时，K最优值为4。

数据挖掘实验报告

校验数据集校验KNN得出的结果

初步结果分析:

对使用k=4训练出来的分类模型进行校验的结果，准确率达到88.3%，算是一个比较合

理的分类结果。

数据挖掘实验报告 3.3 朴素贝叶斯分类

点“Choose”按钮选择“bayes”，这是WEKA中实现的决策树算法。

选择Cross-Validatioin folds=10，然后点击“start”按钮: 训练数据集训练Naïve Bayes得出的结果

得出的准确率为66%

校验数据集校验Naïve Bayes得出的结果