weka分类分析案例数据

合集下载

WEKA聚类算法wine数据集分析研究报告

WEKA聚类算法wine数据集分析研究报告一、引言WEKA是一款强大的机器学习软件，它提供了多种聚类算法，包括K-Means、SimpleKMeans、BIRCH等。

这些算法可以用来解决各种不同的聚类问题。

在本文中，我们将使用WEKA的聚类算法对wine数据集进行分析和研究。

二、数据集介绍wine数据集是一个非常知名的数据集，它包含了178个样本和13个特征。

这些特征包括醇类、酸度、PH值等，可以用来预测葡萄酒的质量。

这个数据集是一个多类别的数据集，它的类别数是3。

三、WEKA聚类算法介绍WEKA的聚类算法有很多种，其中最常用的是K-Means算法。

K-Means 算法是一种迭代的算法，它将数据集划分为K个簇，每个簇的中心点是该簇所有点的平均值。

这个算法的目标是最小化所有簇内的距离之和。

四、实验过程1、数据预处理：我们对wine数据集进行预处理，包括去除缺失值、标准化数据等。

2、聚类实验：然后，我们使用WEKA的K-Means算法对wine数据集进行聚类实验。

我们设定了不同的K值，进行了多次实验，并记录了每次实验的结果。

3、结果分析：我们分析了实验结果，发现当K=3时，聚类效果最好。

此时，每个簇的样本数分别是60、61和57，非常接近于原始数据集中的类别数。

五、结论通过WEKA聚类算法对wine数据集的分析和研究，我们发现当K=3时，聚类效果最好。

这意味着wine数据集可以被分为三个类别，每个类别对应一种葡萄酒。

这个结果与实际情况相符，说明我们的聚类方法是有效的。

六、展望未来，我们可以进一步研究WEKA的其他聚类算法，如SimpleKMeans、BIRCH等，看看它们是否可以更好地解决wine数据集的聚类问题。

我们也可以研究如何通过调整WEKA的参数来优化聚类效果。

聚类分析算法研究聚类分析是一种无监督学习方法，它在许多领域都有广泛的应用，包括数据挖掘、机器学习、图像处理、生物信息学等。

在本文中，我们将探讨聚类分析的基本概念、常见的聚类算法以及未来的研究方向。

基于weka的数据聚类分析实验.pdf

基于Weka的数据聚类分析实验姓名：覃丽萍专业：计算机应用技术学号：20610020471.实验基本原理及目的聚类分析中的“类”（cluster）和前面分类的“类”（class）是不同的，对cluster更加准确的翻译应该是“簇”。

聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近；而不同簇实例之间的距离比较远。

对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。

在本实验中，我们对前面的“bank-data”作聚类分析，使用最常见的K均值（K-means）算法。

下面我们简单描述一下K均值聚类的步骤。

K均值算法首先随机的指定K个簇中心。

然后：（1）将每个实例分配到距它最近的簇中心，得到K个簇；（2）计分别计算各簇中所有实例的均值，把它们作为各簇新的簇中心。

重复（1）和（2），直到K个簇中心的位置都固定，簇的分配也固定。

本次实验的目的，是通过利用Weka中提供的simpleKmeans方法对“bank-data”进行聚类分析，更深刻的理解k均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。

2.数据的准备及预处理原始数据“bank-data.xls”是excel文件格式的数据，需要转换成Weka支持的ARFF文件格式的。

转换方法：在excel中打开“bank-data.xls”，选择菜单文件—>另存为，在弹出的对话框中，文件名输入“bank-data”，保存类型选择“CSV（逗号分隔）”，保存，我们便可得到“bank-data.csv”文件；然后，打开Weka的Exporler，点击Open file按钮，打开刚才得到的“bank-data.csv”文件，点击“save”按钮，在弹出的对话框中，文件名输入“bank-data.arff”，文件类型选择“Arff data files（*.arff）”，这样得到的数据文件为“bank-data.arff”。

基于weka的数据分类和聚类分析实验报告.docx

基于w e k a的数据分类分析实验报告1实验基本内容本实验的基本内容是通过使用weka 中的三种常见分类和聚类方法（决策树J48、KNN 和 k-means）分别在训练数据上训练出分类模型，并使用校验数据对各个模型进行测试和评价，找出各个模型最优的参数值，并对三个模型进行全面评价比较，得到一个最好的分类模型以及该模型所有设置的最优参数。

最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器，并利用该分类器对测试数据进行预测。

2数据的准备及预处理2.1 格式转换方法(1)打开“data02.xls ”另存为 CSV 类型，得到“ data02.csv”。

(2)在 WEKA 中提供了一个“ Arff Viewer ”模块，打开一个“ data02.csv”进行浏览，然后另存为ARFF 文件，得到“data02.arff”。

3.实验过程及结果截图3.1 决策树分类(1)决策树分类用“ Explorer ”打开数据“ data02.arff”，然后切换到“Classify”。

点击“ Choose”，选择算法“ trees-J48 ”，再在“ Test options ”选择“ Cross-validation （ Flods=10 ）”，点击“ Start ”，开始运行。

系统默认 trees-J48决策树算法中minNumObj=2，得到如下结果=== Summary ===Correctly Classified Instances2388.4615 %Incorrectly Classified Instances311.5385 %Kappa statistic0.7636Mean absolute error0.141Root mean squared error0.3255Relative absolute error30.7368 %Root relative squared error68.0307 %Total Number of Instances26=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.824010.8240.9030.892N10.1760.7510.8570.892Y Weighted Avg.0.8850.0610.9130.8850.8870.892=== Confusion Matrix ===a b<-- classified as14 3 | a = N09 | b = Y使用不同的参数准确率比较：minNumObj2345Correctly23222323 Classified（ 88.4615 %）（ 84.6154 %）（ 88.4615 %）（ 88.4615 %）Instances由上表，可知minNumObj为 2 时，准确率最高。

数据挖掘WEKA试验报告

数据挖掘-WAKA实验报告一、WEKA软件简介在我所从事的证券行业中，存在着海量的信息和数据，但是这些数据日常知识发挥了一小部分的作用，具包含了大量的隐性的信息并不为所用，但是却可以为一些公司的决策和对客户的服务提供不小的价值。

因此，我们可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。

数据挖掘就是通过分析存在于数据库里的数据来解决问题。

在数据挖掘中计算机以电子化的形式存储数据，并且能自动的查询数据，通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理，寻找和描述数据里的结构模式，进而挖掘出潜在的有用的信息。

数据挖掘就是通过分析存在于数据库里的数据来解决问题。

WEKA出现让我们把数据挖掘无需编程即可轻松搞定。

WEKA是由新西兰怀卡托大学开发的开源项目，全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)。

WEKA1由JAVA编写的，它的源代码可通过/ml/WEKA得到，并且限制在GBU通用公众证书的条件下发布，可以运行在所有的操作系统中。

是一款免费的，非商业化的机器学习以及数据挖掘软件WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果想自己实现数据挖掘算法的话，可以看一看WEKA的接口文本So在WEK9集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

安装WEK也十分简单，首相要下载安装JDK环境，JDK在这个页面可以找到它的下载/javase/downloads/index.jsp。

点击JDK6之后的Download按钮，转到下载页面。

选择Accepct,过一会儿页面会刷新。

我们需要的是这个WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe53.16MB，点击它下载。

数据挖掘WEKA实验报告2

数据挖掘-WEKA
实验报告二
姓名及学号：杨珍20131198
班级：卓越计科1301
指导老师：吴珏老师
一、实验内容
1、分类算法：（掌握weka中分类算法的使用）
1）掌握决策树分类算法（C4.5，CART算法）
2）打开数据集weahter.nominal.arrf，使用C4.5分类器（C4.5算法在Weka 中是作为一个分类器来实现的，名称为J48）构建决策树。

3）对结果进行分析。

4）使用贝叶斯网络编辑器编辑贝叶斯网络。

（选做）
二、实验步骤
(1)打开数据集weahter.nominal.arrf
(2)采用J48构建决策树
J48的结果
J48的在窗口的可视化：
J48的决策树可视化结果：
(3)采用FilterClassifier构建决策树
FilterClassifier的数据结果
(4)使用贝叶斯
贝叶斯的可视化结果：
思考与分析
使用FilterClassifier和J48，并采用有监督的二元离散化，与只使用J48处理原始数据的结果想比较。

为何从离散化后的数据构建决策树，比直接从原始数据构建决策树，有更好的预测效果？
(1)算法需要，例如决策树，NativeBayes等算法本身不能直接使用连续型变量，连续型数据只有经过离散化处理后才能进入算法引擎。

(2)离散化可以有效地克服数据中隐藏的缺陷，是模型更加稳定。

(3)有利于对非线性数据关系进行诊断和描述：对连续型数据进行离散化后，自变量和目标变量之间的关系变得清晰化。

【原创】WEKA聚类算法wine数据集分析研究报告(附代码数据)

WEKA聚类算法wine数据集分析研究1实验目的希望通过实验研究葡萄酒的差异化，并分析造成这种差异化的原因，可以更深刻的掌握聚类分析的原理；进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能；达到能综合运用所学基本理论和专业知识；锻炼收集、整理、运用资料的能力的目的；希望能会调用WEKA软件聚类分析有关过程命令，并且可以对数据处理结果进行正确判断分析，作出综合评价。

2实验数据Wine这份数据集包含来自3种不同起源的葡萄酒的共178条记录。

13个属性是葡萄酒的13种化学成分。

通过化学分析可以来推断葡萄酒的起源。

值得一提的是所有属性变量都是连续变量。

该实验的数据集是MostPopular Data Sets（hits since 2007）中的wine数据集，这是是对在意大利同一地区生产的三种不同品种的酒，做大量分析所得出的数据。

这些数据包括了三种酒中13种不同成分的数量。

经过几天对数据集以及分类算法的研究，详细研究了朴素贝叶斯分类器和其他学习算法，包括决策树和神经网络等等。

同时由于这个数据集有13个属性，用决策树实现起来会很复杂。

我最终选择了用贝叶斯分类算法来实现。

我将178个样本分成118个训练样本和60个测试样本，采用朴素贝叶斯分类算法，计算出先验概率和后验概率，通过比较概率的最大值，判别出测试样本所属于的酒的类型，同时输出测试样本计算的正确率和错误率。

这些数据包括了三种酒中13种不同成分的数量。

13种成分分别为：Alcohol，Malicacid，Ash，Alcalinity of ash，Magnesium，Total phenols，Flavanoids，Nonflavanoid phenols，Proanthocyanins，Color intensity，Hue，OD280/OD315 of diluted wines，Proline。

在“wine.data”文件中，每行代表一种酒的样本，共有178个样本；一共有14列，其中，第一列为类标志属性，共有三类，分别记为“1”，“2”，“3”；后面的13列为每个样本的对应属性的样本值。

数据挖掘实验weka 分析

打开数据文件后，先选择进行分类的算法，J48-C4.5决策树算法，选择将测数据集作为训练集使用，同时选择output predictions使结果显示预测情况
然后进行十折交叉验证，下图时将决策树可视化显示的结果
4．聚类分析
选用k-均值聚类算法进行聚类分析，进行聚类之前先对数据文件进行规范化处理
打开文件后选择规范化处理算法，进行规范化处理后将数据进行保存；下图是打开文件选择算法后的界面：
下图是进行规范化处理之后的数据：
重新打开进行规范化处理后的文件，选择k-均值聚类算法，下图是算法参数设置界面：
k-均值聚类算法参数确认后进行聚类分析，下图是聚类分析的结果显示：
除了“k-均值聚类算法”，聚类分析还可以选择其他的算法，重新选择算法“DBScan”，对算法参数进行设置，然后金子那个聚类分析
阅读教材P139-156，边阅读，边操作；
实验数据可用系统自带的，也可以从网上下载，也可以自行创建；
算法自行选择，可以针对一个数据集选择多个算法进析；
学会并熟悉通过网络解决问题的能力；
将本次试验的操作过程及分析结果填写在实验报告中。
实验内容及实验结果
1．打开数据文件，数据预处理
“DBScan”聚类算法参数设置界面：
DBScan聚类分析结果显示：
管理学院实验（实训）报告
课程：商务智能与数据挖掘地点：2607时间：2014年5月7日
学生姓名
班级
学号
成绩
实验项目
数据挖掘应用实验
实验目的
至少掌握一种数据挖掘工具，并能正确地使用；
利用所掌握的数据挖掘工具进行分类分析、关联分析、聚类分析等
实验要求
至少熟悉一种挖掘工具，并使用该挖掘工具进行分类、关联和聚类分析；

WEKA数据分析实验

WEKA 数据分析实验1.实验简介借助工具Weka 3.6 ，对数据样本进行测试，分类测试方法包括：朴素贝叶斯、决策树、随机数三类，聚类测试方法包括：DBScan，K均值两种；2.数据样本以熟悉数据分类的各类常用算法，以及了解Weka的使用方法为目的，本次试验中，采用的数据样本是Weka软件自带的“Vote”样本，如图：3.关联规则分析1)操作步骤：a)点击“Explorer”按钮，弹出“Weka Explorer”控制界面b)选择“Associate”选项卡；c)点击“Choose”按钮，选择“Apriori”规则d)点击参数文本框框，在参数选项卡设置参数如：e)点击左侧“Start”按钮2)执行结果：=== Run information ===Scheme: weka.associations.Apriori -I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 Relation: voteInstances: 435Attributes: 17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClass=== Associator model (full training set) ===Apriori=======Minimum support: 0.5 (218 instances)Minimum metric <confidence>: 0.9Number of cycles performed: 10Generated sets of large itemsets:Size of set of large itemsets L(1): 12Large Itemsets L(1):handicapped-infants=n 236adoption-of-the-budget-resolution=y 253physician-fee-freeze=n 247religious-groups-in-schools=y 272anti-satellite-test-ban=y 239aid-to-nicaraguan-contras=y 242synfuels-corporation-cutback=n 264education-spending=n 233crime=y 248duty-free-exports=n 233export-administration-act-south-africa=y 269Class=democrat 267Size of set of large itemsets L(2): 4Large Itemsets L(2):adoption-of-the-budget-resolution=y physician-fee-freeze=n 219adoption-of-the-budget-resolution=y Class=democrat 231physician-fee-freeze=n Class=democrat 245aid-to-nicaraguan-contras=y Class=democrat 218Size of set of large itemsets L(3): 1Large Itemsets L(3):adoption-of-the-budget-resolution=y physician-fee-freeze=n Class=democrat 219Best rules found:1. adoption-of-the-budget-resolution=y physician-fee-freeze=n 219 ==> Class=democrat 219 conf:(1)2. physician-fee-freeze=n 247 ==> Class=democrat 245 conf:(0.99)3. adoption-of-the-budget-resolution=y Class=democrat 231 ==> physician-fee-freeze=n 219 conf:(0.95)4. Class=democrat 267 ==> physician-fee-freeze=n 245 conf:(0.92)5. adoption-of-the-budget-resolution=y 253 ==> Class=democrat 231 conf:(0.91)6. aid-to-nicaraguan-contras=y 242 ==> Class=democrat 218 conf:(0.9)3)结果分析：a)该样本数据，数据记录数435个，17个属性，进行了10轮测试b)最小支持度为0.5，即至少需要218个实例；c)最小置信度为0.9；d)进行了10轮搜索，频繁1项集12个，频繁2项集4个，频繁3项集1个；4.分类算法-随机树分析1)操作步骤：a)点击“Explorer”按钮，弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡；c)点击“Choose”按钮，选择“trees” “RandomTree”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果：=== Run information ===Scheme:weka.classifiers.trees.RandomTree -K 0 -M 1.0 -S 1Relation: voteInstances:435Attributes:17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClassTest mode:10-fold cross-validation=== Classifier model (full training set) ===RandomTree==========el-salvador-aid = n| physician-fee-freeze = n| | duty-free-exports = n| | | anti-satellite-test-ban = n| | | | synfuels-corporation-cutback = n| | | | | crime = n : republican (0.96/0)| | | | | crime = y| | | | | | handicapped-infants = n : democrat (2.02/0.01) | | | | | | handicapped-infants = y : democrat (0.05/0)| | | | synfuels-corporation-cutback = y| | | | | handicapped-infants = n : democrat (0.79/0.01)| | | | | handicapped-infants = y : democrat (2.12/0)| | | anti-satellite-test-ban = y| | | | adoption-of-the-budget-resolution = n| | | | | handicapped-infants = n : democrat (1.26/0.01)| | | | | handicapped-infants = y : republican (1.25/0.25)| | | | adoption-of-the-budget-resolution = y| | | | | handicapped-infants = n| | | | | | crime = n : democrat (5.94/0.01)| | | | | | crime = y : democrat (5.15/0.12)| | | | | handicapped-infants = y : democrat (36.99/0.09)| | duty-free-exports = y| | | crime = n : democrat (124.23/0.29)| | | crime = y| | | | handicapped-infants = n : democrat (16.9/0.38)| | | | handicapped-infants = y : democrat (8.99/0.02)| physician-fee-freeze = y| | immigration = n| | | education-spending = n| | | | crime = n : democrat (1.09/0)| | | | crime = y : democrat (1.01/0.01)| | | education-spending = y : republican (1.06/0.02)| | immigration = y| | | synfuels-corporation-cutback = n| | | | religious-groups-in-schools = n : republican (3.02/0.01)| | | | religious-groups-in-schools = y : republican (1.54/0.04)| | | synfuels-corporation-cutback = y : republican (1.06/0.05)el-salvador-aid = y| synfuels-corporation-cutback = n| | physician-fee-freeze = n| | | handicapped-infants = n| | | | superfund-right-to-sue = n| | | | | crime = n : democrat (1.36/0)| | | | | crime = y| | | | | | mx-missile = n : republican (1.01/0)| | | | | | mx-missile = y : democrat (1.01/0.01)| | | | superfund-right-to-sue = y : democrat (4.83/0.03)| | | handicapped-infants = y : democrat (8.42/0.02)| | physician-fee-freeze = y| | | adoption-of-the-budget-resolution = n| | | | export-administration-act-south-africa = n| | | | | mx-missile = n : republican (49.03/0)| | | | | mx-missile = y : democrat (0.11/0)| | | | export-administration-act-south-africa = y| | | | | duty-free-exports = n| | | | | | mx-missile = n : republican (60.67/0)| | | | | | mx-missile = y : republican (6.21/0.15)| | | | | duty-free-exports = y| | | | | | aid-to-nicaraguan-contras = n| | | | | | | water-project-cost-sharing = n| | | | | | | | mx-missile = n : republican (3.12/0)| | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | water-project-cost-sharing = y : democrat (1.15/0.14) | | | | | | aid-to-nicaraguan-contras = y : republican (0.16/0)| | | adoption-of-the-budget-resolution = y| | | | anti-satellite-test-ban = n| | | | | immigration = n : democrat (2.01/0.01)| | | | | immigration = y| | | | | | water-project-cost-sharing = n| | | | | | | mx-missile = n : republican (1.63/0)| | | | | | | mx-missile = y : republican (1.01/0.01)| | | | | | water-project-cost-sharing = y| | | | | | | superfund-right-to-sue = n : republican (0.45/0)| | | | | | | superfund-right-to-sue = y : republican (1.71/0.64) | | | | anti-satellite-test-ban = y| | | | | mx-missile = n : republican (7.74/0)| | | | | mx-missile = y : republican (4.05/0.03)| synfuels-corporation-cutback = y| | adoption-of-the-budget-resolution = n| | | superfund-right-to-sue = n| | | | anti-satellite-test-ban = n| | | | | physician-fee-freeze = n : democrat (1.39/0.01)| | | | | physician-fee-freeze = y| | | | | | water-project-cost-sharing = n : republican (1.01/0)| | | | | | water-project-cost-sharing = y : democrat (1.05/0.05)| | | | anti-satellite-test-ban = y : democrat (1.13/0.01)| | | superfund-right-to-sue = y| | | | education-spending = n| | | | | physician-fee-freeze = n| | | | | | crime = n : democrat (0.09/0)| | | | | | crime = y| | | | | | | handicapped-infants = n : democrat (1.01/0.01)| | | | | | | handicapped-infants = y : democrat (1/0)| | | | | physician-fee-freeze = y| | | | | | immigration = n| | | | | | | export-administration-act-south-africa = n : democrat(0.34/0.11)| | | | | | | export-administration-act-south-africa = y| | | | | | | | crime = n : democrat (0.16/0)| | | | | | | | crime = y| | | | | | | | | mx-missile = n| | | | | | | | | | handicapped-infants = n : republican (0.29/0) | | | | | | | | | | handicapped-infants = y : republican (1.88/0.87) | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | immigration = y : republican (1.01/0)| | | | education-spending = y| | | | | physician-fee-freeze = n| | | | | | handicapped-infants = n : democrat (1.51/0.01)| | | | | | handicapped-infants = y : democrat (2.01/0)| | | | | physician-fee-freeze = y| | | | | | crime = n : republican (1.02/0)| | | | | | crime = y| | | | | | | export-administration-act-south-africa = n| | | | | | | | handicapped-infants = n| | | | | | | | | immigration = n| | | | | | | | | | mx-missile = n| | | | | | | | | | | water-project-cost-sharing = n : democrat (1.01/0.01)| | | | | | | | | | | water-project-cost-sharing = y : republican (1.81/0)| | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | | | immigration = y| | | | | | | | | | mx-missile = n : republican (2.78/0)| | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | | handicapped-infants = y| | | | | | | | | mx-missile = n : republican (2/0)| | | | | | | | | mx-missile = y : democrat (0.4/0)| | | | | | | export-administration-act-south-africa = y| | | | | | | | mx-missile = n : republican (8.77/0)| | | | | | | | mx-missile = y : democrat (0.02/0)| | adoption-of-the-budget-resolution = y| | | anti-satellite-test-ban = n| | | | handicapped-infants = n| | | | | crime = n : democrat (2.52/0.01)| | | | | crime = y : democrat (7.65/0.07)| | | | handicapped-infants = y : democrat (10.83/0.02)| | | anti-satellite-test-ban = y| | | | physician-fee-freeze = n| | | | | handicapped-infants = n| | | | | | crime = n : democrat (2.42/0.01)| | | | | | crime = y : democrat (2.28/0.03)| | | | | handicapped-infants = y : democrat (4.17/0.01)| | | | physician-fee-freeze = y| | | | | mx-missile = n : republican (2.3/0)| | | | | mx-missile = y : democrat (0.01/0)Size of the tree : 143Time taken to build model: 0.01seconds=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 407 93.5632 %Incorrectly Classified Instances 28 6.4368 %Kappa statistic 0.8636Mean absolute error 0.0699Root mean squared error 0.2379Relative absolute error 14.7341 %Root relative squared error 48.8605 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.955 0.095 0.941 0.955 0.948 0.966 democrat0.905 0.045 0.927 0.905 0.916 0.967 republicanWeighted Avg. 0.936 0.076 0.936 0.936 0.935 0.966 === Confusion Matrix ===a b <-- classified as255 12 | a = democrat16 152 | b = republican3)结果分析：a)该样本数据，数据记录数435个，17个属性，进行了10轮交叉验证b)随机树长143c)正确分类共407个，正确率达93.5632 %d)错误分类28个，错误率6.4368 %e)测试数据的正确率较好5.分类算法-随机树分析1)操作步骤：a)点击“Explorer”按钮，弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡；c)点击“Choose”按钮，选择“trees” “J48”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果：=== Run information ===Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2Relation: voteInstances:435Attributes:17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClassTest mode:10-fold cross-validation=== Classifier model (full training set) ===J48 pruned tree------------------physician-fee-freeze = n: democrat (253.41/3.75)physician-fee-freeze = y| synfuels-corporation-cutback = n: republican (145.71/4.0)| synfuels-corporation-cutback = y| | mx-missile = n| | | adoption-of-the-budget-resolution = n: republican (22.61/3.32) | | | adoption-of-the-budget-resolution = y| | | | anti-satellite-test-ban = n: democrat (5.04/0.02)| | | | anti-satellite-test-ban = y: republican (2.21)| | mx-missile = y: democrat (6.03/1.03)Number of Leaves : 6Size of the tree : 11Time taken to build model: 0.06seconds=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 419 96.3218 % Incorrectly Classified Instances 16 3.6782 % Kappa statistic 0.9224Mean absolute error 0.0611Root mean squared error 0.1748Relative absolute error 12.887 %Root relative squared error 35.9085 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.97 0.048 0.97 0.97 0.97 0.971 democrat0.952 0.03 0.952 0.952 0.952 0.971 republicanWeighted Avg. 0.963 0.041 0.963 0.963 0.963 0.971=== Confusion Matrix ===a b <-- classified as259 8 | a = democrat8 160 | b = republican3)结果分析：a)该样本数据，数据记录数435个，17个属性，进行了10轮交叉验证b)决策树分6级，长度11c)正确分类共419个，正确率达96.3218 %d)错误分类16个，错误率3.6782 %e)测试结果接近随机数，正确率较高6.分类算法-朴素贝叶斯分析1)操作步骤：a)点击“Explorer”按钮，弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡；c)点击“Choose”按钮，选择“bayes” “Naive Bayes”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果：=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 392 90.1149 %Incorrectly Classified Instances 43 9.8851 %Kappa statistic 0.7949Mean absolute error 0.0995Root mean squared error 0.2977Relative absolute error 20.9815 %Root relative squared error 61.1406 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.891 0.083 0.944 0.891 0.917 0.973democrat0.917 0.109 0.842 0.917 0.877 0.973republicanWeighted Avg. 0.901 0.093 0.905 0.901 0.902 0.973 === Confusion Matrix ===a b <-- classified as238 29 | a = democrat14 154 | b = republican3)结果分析a)该样本数据，数据记录数435个，17个属性，进行了10轮交叉验证b)正确分类共392个，正确率达90.1149 %c)错误分类43个，错误率9.8851 %d)测试正确率较高7.分类算法-RandomTree、决策树、朴素贝叶斯结果比较：RandomTree 决策树朴素贝叶斯正确率93.5632% 96.3218 % 90.1149 %混淆矩阵 a b <-- classified as255 12 | a = democrat16 152 | b = republican a b <-- classified as259 8 | a = democrat8 160 | b = republicana b <-- classified as238 29 | a = democrat14 154 | b =republican标准误差48.8605 % 35.9085 % 61.1406 % 根据以上对照结果，三类分类算法对样板数据Vote测试准确率类似；8.。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

weka分类分析案例数据
一、实验目的
使用数据挖掘中的分类算法，对数据集进行分类训练并测试。

应用不同的分类算法，比较他们之间的不同。

与此同时了解Weka平台的基本功能与使用方法。

二、实验环境
实验采用Weka 3.8 平台，数据使用给定的鸢尾花xls格式的数据集iris.xls。

对于iris数据集，它包含了150个实例（每个分类包含50个实例），共有sepal length、sepal width、petal length、petal width和class五种属性。

期中前四种属性为数值类型，class属性为分类属性，表示实例所对应的类别。

该数据集中的全部实例共可分为三类：Iris Setosa、Iris Versicolour和Iris Virginica。

实验所需的训练集和测试集均为iris.arff。

三、实验要求
1、将iris.xls转化为iris.arff。

2、应用iris数据集，分别采用KNN、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价，分别在训练数据上训练出分类模型，并对三个模型进行全面评价比较，得到一个最好的分类模型以及该模型所有设置的最优参数。

3、使用这些参数以及训练集和校验集数据一起构造出一个最优分类器，并利用该分类器对测试数据进行预测。

四、实验过程及结果
1、先将数据集iris.arff放入Weka 3.8 平台中
第一步：将原始Excel文件另存为CSV文件
第二步：在weka中打开iris数据集.csv文件，另save为.arrf文件，然后在weka中打开iris数据集.arrf文件即可。

2、在waka中应用iris数据集，分别采用KNN、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价。

打开iris数据集remove（移除）无关数据，本次试验中去掉原数据中的序号：。