数据挖掘实验weka 分析
weka实验总结

weka实验总结
Weka实验总结:
在数据挖掘和机器学习领域,Weka是一个广泛使用的开源软件工具,提供了
丰富的机器学习算法和数据预处理工具。
经过本次实验,我对Weka的功能和应用
有了更深入的了解。
首先,Weka提供了丰富的机器学习算法,包括分类、回归、聚类、关联规则等。
通过在实验中应用这些算法,我们可以通过输入数据来训练模型,然后利用模型对新数据进行预测和分类。
例如,在分类问题中,我们可以使用决策树算法来构建一个分类模型,然后利用该模型对未知数据进行分类。
其次,Weka还提供了数据预处理的功能,包括数据清洗、特征选择和特征变
换等。
在实验中我们可以使用Weka提供的数据预处理工具,对数据进行处理和准备。
例如,我们可以使用Weka中的缺失值处理工具来处理数据中的缺失值,在数
据清洗的过程中,我们还可以进行数据规范化、去除异常值等操作。
另外,Weka具有友好的用户界面,使得使用起来更加简单和直观。
无论是数
据导入、算法选择还是结果分析,Weka都提供了易于使用的界面。
这对于初学者
来说非常友好,也方便了快速上手和使用。
总之,Weka是一个功能强大且易于使用的数据挖掘和机器学习工具。
通过本
次实验,我发现Weka提供了丰富的算法和功能,能够满足不同实验和研究的需求。
我相信Weka将在我今后的学习和研究中发挥重要的作用。
weka实验报告总结

weka实验报告总结
Weka是一款非常流行的机器学习和数据挖掘工具,用于实现各
种数据分析任务。
下面是对Weka实验报告的总结:
在本次实验中,我们使用Weka工具进行了一系列的数据挖掘和
机器学习实验。
我们首先对数据集进行了探索性数据分析,包括数
据的统计特征、缺失值处理、异常值检测等。
通过这些分析,我们
对数据集的特点有了更全面的了解,并为后续的实验做好了准备。
接下来,我们使用Weka提供的各种机器学习算法进行了模型的
训练和评估。
我们尝试了多种算法,包括决策树、支持向量机、朴
素贝叶斯等。
通过对比不同算法在训练集和测试集上的表现,我们
评估了它们的性能,并选择了最合适的算法作为我们的模型。
在模型训练过程中,我们还进行了特征选择和特征工程的实验。
通过选择最相关的特征或者提取新的特征,我们尝试提高模型的性
能和泛化能力。
同时,我们还使用交叉验证等方法来评估模型的稳
定性和鲁棒性。
最后,我们对模型进行了性能评估和结果分析。
通过计算准确
率、召回率、F1值等指标,我们评估了模型的分类效果。
同时,我们还进行了误差分析,找出模型在分类错误的样本上的共同特征,以便进一步改进模型。
综上所述,本次实验中我们使用Weka工具进行了一系列的数据挖掘和机器学习实验。
通过探索性数据分析、模型训练和评估、特征选择和工程,以及性能评估和结果分析,我们得到了一个具有较好性能的模型,并对数据集有了更深入的理解。
这些实验为我们进一步研究和应用机器学习提供了有益的经验和启示。
weka实验报告

weka实验报告
Weka实验报告
Weka是一款流行的数据挖掘工具,它提供了丰富的机器学习算法和数据预处
理工具,使得数据分析和模型建立变得更加简单和高效。
在本次实验中,我们
将使用Weka工具进行数据分析和模型建立,以探索其在实际应用中的效果和
性能。
实验数据集选取了UCI机器学习库中的经典数据集“鸢尾花数据集”,该数据集
包含了150个样本,每个样本包括了4个特征和一个类别标签。
我们首先使用Weka进行数据预处理,包括缺失值处理、特征选择和数据变换等步骤,以保
证数据的质量和可用性。
接着,我们选择了几种常用的机器学习算法,包括决策树、支持向量机和K近
邻等,使用Weka进行模型建立和性能评估。
通过交叉验证和ROC曲线等方法,我们评估了不同算法在该数据集上的分类性能,并比较它们的准确度、召回率
和F1值等指标,以找出最适合该数据集的模型。
实验结果显示,Weka工具在数据预处理和模型建立方面表现出色,能够快速
高效地完成数据分析任务。
在鸢尾花数据集上,我们发现决策树算法和支持向
量机算法表现较好,能够达到较高的分类准确度和稳定性,而K近邻算法的性
能相对较差。
总的来说,Weka作为一款优秀的数据挖掘工具,具有丰富的功能和易用的界面,能够帮助用户快速建立和评估机器学习模型。
通过本次实验,我们对
Weka的性能和效果有了更深入的了解,相信它将在未来的数据分析工作中发
挥重要作用。
数据挖掘-WEKA实验报告一

数据挖掘-WEKA 实验报告一一、实验内容1、Weka 工具初步认识(掌握weka程序运行环境)2、实验数据预处理。
(掌握weka中数据预处理的使用)对weka自带测试用例数据集weather.nominal.arrf文件,进行一下操作。
1)、加载数据,熟悉各按钮的功能。
2)、熟悉各过滤器的功能,使用过滤器Remove、Add对数据集进行操作。
3)、使用weka.unsupervised.instance.RemoveWithValue 过滤器去除humidity属性值为high的全部实例。
4)、使用离散化技术对数据集glass.arrf中的属性RI和Ba 进行离散化(分别用等宽,等频进行离散化)。
(1)打开已经安装好的weka,界面如下,点击openfile即可打开weka自带测试用例数据集weather.nominal.arrf文件(2)打开文件之后界面如下:(3)可对数据进行选择,可以全选,不选,反选等,还可以链接数据库,对数据进行编辑,保存等。
还可以对所有的属性进行可视化。
如下图:(4)使用过滤器Remove、Add对数据集进行操作。
(5)点击此处可以增加属性。
如上图,增加了一个未命名的属性unnamed.再点击下方的remove按钮即可删除该属性.(5)使用weka.unsupervised.instance.RemoveWithValue过滤器去除humidity属性值为high的全部实例。
没有去掉之前:(6)去掉其中一个属性之后:(7)选择choose里的removewithvalue:(8)选择huminity属性:(9)使用离散化技术对数据集glass.arrf中的属性RI和Ba进行离散化(分别用等宽,等频进行离散化)。
RI等宽:(10)Ba等频:二、思考与分析.1.使用数据集编辑器打开weather.nominal.arrf文件,实例编号为2的分类属性值是多少?如图所示:实例编号为2的分类值属性为no加载weather.nomina.arrf文件后,temperature属性可以有哪些合法值?Temperature可以取值为:hot、mild、coolWord 资料。
weka 数据挖掘实验报告

weka 数据挖掘实验报告Weka 数据挖掘实验报告引言数据挖掘是一种从大量数据中发现隐藏模式、关系和规律的技术。
Weka 是一款流行的开源数据挖掘软件,它提供了丰富的算法和工具,可以帮助用户进行数据挖掘分析。
本实验旨在使用Weka软件对一个真实数据集进行挖掘分析,并得出相关结论。
实验设计本次实验选择了一个关于房价预测的数据集,其中包含了房屋的各种属性(如面积、地理位置、建筑年代等)以及其对应的销售价格。
我们将使用Weka软件中的不同算法来对这个数据集进行挖掘分析,比较它们的效果和性能。
实验步骤1. 数据预处理:首先,我们对数据集进行了清洗和预处理,包括处理缺失值、标准化数据等操作,以确保数据的质量和一致性。
2. 特征选择:接着,我们使用Weka中的特征选择算法来确定哪些属性对于房价预测是最重要的,从而减少模型的复杂度和提高预测准确性。
3. 模型建立:然后,我们尝试了不同的机器学习算法(如决策树、支持向量机、神经网络等)来建立房价预测模型,并使用交叉验证等方法来评估模型的性能。
4. 结果分析:最后,我们对比了不同算法的预测效果和性能指标,得出了相关结论并提出了改进建议。
实验结果经过实验分析,我们发现决策树算法在这个数据集上表现较好,其预测准确性和泛化能力都较高。
而支持向量机和神经网络算法虽然在训练集上表现良好,但在测试集上的表现并不理想。
此外,特征选择对于模型的性能和复杂度也有着重要的影响。
结论与展望本实验通过Weka软件对房价预测数据集进行了挖掘分析,得出了不同算法的性能比较和结论。
未来,我们将进一步探索更多的数据挖掘技术和算法,以提高模型的预测准确性和实用性。
总结Weka 数据挖掘实验报告通过对房价预测数据集的挖掘分析,展示了Weka软件在数据挖掘领域的应用和优势。
通过本次实验,我们不仅对数据挖掘的流程和方法有了更深入的理解,也为未来的数据挖掘工作提供了一定的参考和借鉴。
数据挖掘WEKA实验报告

数据挖掘-WAKA实验报告一、WEKA软件简介在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用,但是却可以为一些公司的决策和对客户的服务提供不小的价值。
因此,我们可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。
数据挖掘就是通过分析存在于数据库里的数据来解决问题。
在数据挖掘中计算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式,进而挖掘出潜在的有用的信息。
数据挖掘就是通过分析存在于数据库里的数据来解决问题。
WEKA的出现让我们把数据挖掘无需编程即可轻松搞定。
WEKA是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)。
WEKA是由JAVA编写的,WEKA得到,并且限制在GBU通用公众证书的条件下发布,可以运行在所有的操作系统中。
是一款免费的,非商业化的机器学习以及数据挖掘软件WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
如果想自己实现数据挖掘算法的话,可以看一看WEKA的接口文档。
在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
安装WEKA也十分简单,首相要下载安装JDK环境,JDK在这个页面可以找到它的下载。
点击JDK6之后的Download按钮,转到下载页面。
选择Accepct,过一会儿页面会刷新。
我们需要的是这个WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe5 3.16MB,点击它下载。
也可以右键点击它上面的链接,在Flashget等工具中下载。
数据挖掘WEKA实验报告

数据挖掘WEKA实验报告一、实验目的本次实验的目的是使用WEKA软件对一个数据集进行数据挖掘,并通过数据挖掘的方法来预测数据集中其中一特定变量的值。
二、实验流程1. 数据集的导入:首先,我们将数据集导入WEKA软件中。
在WEKA主界面中,选择“Explorer”选项,并在弹出的窗口中选择“Open File”选项,然后选择要导入的数据集文件即可。
2. 数据预处理:在导入数据集后,我们需要对数据集进行预处理。
预处理的目的是为了提高数据挖掘的准确性和可靠性。
在WEKA中,我们可以通过选择“Preprocess”选项进行数据预处理。
常见的数据预处理方法有缺失值处理、异常值处理、离散化、标准化等。
3. 数据分析与建模:在数据预处理完成后,我们需要进行数据分析和建模。
在WEKA中,我们可以使用分类、回归、聚类等方法进行数据分析。
在本次实验中,我们选择使用朴素贝叶斯分类器进行数据分析与建模。
在WEKA中,我们可以通过选择“Classify”选项,并在弹出的窗口中选择“NaiveBayes”选项来使用朴素贝叶斯分类器。
4.模型评估与优化:在完成数据分析与建模后,我们需要对模型进行评估与优化。
在WEKA中,我们可以使用交叉验证、混淆矩阵、ROC曲线等方法进行模型评估。
根据评估结果,我们可以对模型进行优化,以提高模型的准确性和可靠性。
5.结果可视化:最后,我们可以对挖掘结果进行可视化展示。
在WEKA中,我们可以使用图表和图形来展示挖掘结果。
根据可视化结果,我们可以更加直观地理解和分析挖掘结果。
三、实验结果与分析在本次实验中,我们选择了一个含有1000个样本的数据集,并使用朴素贝叶斯分类器进行数据挖掘。
经过数据预处理和模型评估,我们最终得到了一个准确率为80%的分类模型。
通过对模型进行优化,我们成功的预测了数据集中其中一特定变量的值。
四、实验总结通过本次实验,我们学习了如何使用WEKA软件进行数据挖掘。
WEKA是一个功能强大的数据挖掘工具,它提供了丰富的数据预处理和分析方法,可以帮助我们进行高效准确的数据挖掘。
WEKA数据分析实验

WEKA 数据分析实验1.实验简介借助工具Weka 3.6 ,对数据样本进行测试,分类测试方法包括:朴素贝叶斯、决策树、随机数三类,聚类测试方法包括:DBScan,K均值两种;2.数据样本以熟悉数据分类的各类常用算法,以及了解Weka的使用方法为目的,本次试验中,采用的数据样本是Weka软件自带的“Vote”样本,如图:3.关联规则分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Associate”选项卡;c)点击“Choose”按钮,选择“Apriori”规则d)点击参数文本框框,在参数选项卡设置参数如:e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme: weka.associations.Apriori -I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 Relation: voteInstances: 435Attributes: 17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClass=== Associator model (full training set) ===Apriori=======Minimum support: 0.5 (218 instances)Minimum metric <confidence>: 0.9Number of cycles performed: 10Generated sets of large itemsets:Size of set of large itemsets L(1): 12Large Itemsets L(1):handicapped-infants=n 236adoption-of-the-budget-resolution=y 253physician-fee-freeze=n 247religious-groups-in-schools=y 272anti-satellite-test-ban=y 239aid-to-nicaraguan-contras=y 242synfuels-corporation-cutback=n 264education-spending=n 233crime=y 248duty-free-exports=n 233export-administration-act-south-africa=y 269Class=democrat 267Size of set of large itemsets L(2): 4Large Itemsets L(2):adoption-of-the-budget-resolution=y physician-fee-freeze=n 219adoption-of-the-budget-resolution=y Class=democrat 231physician-fee-freeze=n Class=democrat 245aid-to-nicaraguan-contras=y Class=democrat 218Size of set of large itemsets L(3): 1Large Itemsets L(3):adoption-of-the-budget-resolution=y physician-fee-freeze=n Class=democrat 219Best rules found:1. adoption-of-the-budget-resolution=y physician-fee-freeze=n 219 ==> Class=democrat 219 conf:(1)2. physician-fee-freeze=n 247 ==> Class=democrat 245 conf:(0.99)3. adoption-of-the-budget-resolution=y Class=democrat 231 ==> physician-fee-freeze=n 219 conf:(0.95)4. Class=democrat 267 ==> physician-fee-freeze=n 245 conf:(0.92)5. adoption-of-the-budget-resolution=y 253 ==> Class=democrat 231 conf:(0.91)6. aid-to-nicaraguan-contras=y 242 ==> Class=democrat 218 conf:(0.9)3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮测试b)最小支持度为0.5,即至少需要218个实例;c)最小置信度为0.9;d)进行了10轮搜索,频繁1项集12个,频繁2项集4个,频繁3项集1个;4.分类算法-随机树分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“trees” “RandomTree”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme:weka.classifiers.trees.RandomTree -K 0 -M 1.0 -S 1Relation: voteInstances:435Attributes:17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClassTest mode:10-fold cross-validation=== Classifier model (full training set) ===RandomTree==========el-salvador-aid = n| physician-fee-freeze = n| | duty-free-exports = n| | | anti-satellite-test-ban = n| | | | synfuels-corporation-cutback = n| | | | | crime = n : republican (0.96/0)| | | | | crime = y| | | | | | handicapped-infants = n : democrat (2.02/0.01) | | | | | | handicapped-infants = y : democrat (0.05/0)| | | | synfuels-corporation-cutback = y| | | | | handicapped-infants = n : democrat (0.79/0.01)| | | | | handicapped-infants = y : democrat (2.12/0)| | | anti-satellite-test-ban = y| | | | adoption-of-the-budget-resolution = n| | | | | handicapped-infants = n : democrat (1.26/0.01)| | | | | handicapped-infants = y : republican (1.25/0.25)| | | | adoption-of-the-budget-resolution = y| | | | | handicapped-infants = n| | | | | | crime = n : democrat (5.94/0.01)| | | | | | crime = y : democrat (5.15/0.12)| | | | | handicapped-infants = y : democrat (36.99/0.09)| | duty-free-exports = y| | | crime = n : democrat (124.23/0.29)| | | crime = y| | | | handicapped-infants = n : democrat (16.9/0.38)| | | | handicapped-infants = y : democrat (8.99/0.02)| physician-fee-freeze = y| | immigration = n| | | education-spending = n| | | | crime = n : democrat (1.09/0)| | | | crime = y : democrat (1.01/0.01)| | | education-spending = y : republican (1.06/0.02)| | immigration = y| | | synfuels-corporation-cutback = n| | | | religious-groups-in-schools = n : republican (3.02/0.01)| | | | religious-groups-in-schools = y : republican (1.54/0.04)| | | synfuels-corporation-cutback = y : republican (1.06/0.05)el-salvador-aid = y| synfuels-corporation-cutback = n| | physician-fee-freeze = n| | | handicapped-infants = n| | | | superfund-right-to-sue = n| | | | | crime = n : democrat (1.36/0)| | | | | crime = y| | | | | | mx-missile = n : republican (1.01/0)| | | | | | mx-missile = y : democrat (1.01/0.01)| | | | superfund-right-to-sue = y : democrat (4.83/0.03)| | | handicapped-infants = y : democrat (8.42/0.02)| | physician-fee-freeze = y| | | adoption-of-the-budget-resolution = n| | | | export-administration-act-south-africa = n| | | | | mx-missile = n : republican (49.03/0)| | | | | mx-missile = y : democrat (0.11/0)| | | | export-administration-act-south-africa = y| | | | | duty-free-exports = n| | | | | | mx-missile = n : republican (60.67/0)| | | | | | mx-missile = y : republican (6.21/0.15)| | | | | duty-free-exports = y| | | | | | aid-to-nicaraguan-contras = n| | | | | | | water-project-cost-sharing = n| | | | | | | | mx-missile = n : republican (3.12/0)| | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | water-project-cost-sharing = y : democrat (1.15/0.14) | | | | | | aid-to-nicaraguan-contras = y : republican (0.16/0)| | | adoption-of-the-budget-resolution = y| | | | anti-satellite-test-ban = n| | | | | immigration = n : democrat (2.01/0.01)| | | | | immigration = y| | | | | | water-project-cost-sharing = n| | | | | | | mx-missile = n : republican (1.63/0)| | | | | | | mx-missile = y : republican (1.01/0.01)| | | | | | water-project-cost-sharing = y| | | | | | | superfund-right-to-sue = n : republican (0.45/0)| | | | | | | superfund-right-to-sue = y : republican (1.71/0.64) | | | | anti-satellite-test-ban = y| | | | | mx-missile = n : republican (7.74/0)| | | | | mx-missile = y : republican (4.05/0.03)| synfuels-corporation-cutback = y| | adoption-of-the-budget-resolution = n| | | superfund-right-to-sue = n| | | | anti-satellite-test-ban = n| | | | | physician-fee-freeze = n : democrat (1.39/0.01)| | | | | physician-fee-freeze = y| | | | | | water-project-cost-sharing = n : republican (1.01/0)| | | | | | water-project-cost-sharing = y : democrat (1.05/0.05)| | | | anti-satellite-test-ban = y : democrat (1.13/0.01)| | | superfund-right-to-sue = y| | | | education-spending = n| | | | | physician-fee-freeze = n| | | | | | crime = n : democrat (0.09/0)| | | | | | crime = y| | | | | | | handicapped-infants = n : democrat (1.01/0.01)| | | | | | | handicapped-infants = y : democrat (1/0)| | | | | physician-fee-freeze = y| | | | | | immigration = n| | | | | | | export-administration-act-south-africa = n : democrat(0.34/0.11)| | | | | | | export-administration-act-south-africa = y| | | | | | | | crime = n : democrat (0.16/0)| | | | | | | | crime = y| | | | | | | | | mx-missile = n| | | | | | | | | | handicapped-infants = n : republican (0.29/0) | | | | | | | | | | handicapped-infants = y : republican (1.88/0.87) | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | immigration = y : republican (1.01/0)| | | | education-spending = y| | | | | physician-fee-freeze = n| | | | | | handicapped-infants = n : democrat (1.51/0.01)| | | | | | handicapped-infants = y : democrat (2.01/0)| | | | | physician-fee-freeze = y| | | | | | crime = n : republican (1.02/0)| | | | | | crime = y| | | | | | | export-administration-act-south-africa = n| | | | | | | | handicapped-infants = n| | | | | | | | | immigration = n| | | | | | | | | | mx-missile = n| | | | | | | | | | | water-project-cost-sharing = n : democrat (1.01/0.01)| | | | | | | | | | | water-project-cost-sharing = y : republican (1.81/0)| | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | | | immigration = y| | | | | | | | | | mx-missile = n : republican (2.78/0)| | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | | handicapped-infants = y| | | | | | | | | mx-missile = n : republican (2/0)| | | | | | | | | mx-missile = y : democrat (0.4/0)| | | | | | | export-administration-act-south-africa = y| | | | | | | | mx-missile = n : republican (8.77/0)| | | | | | | | mx-missile = y : democrat (0.02/0)| | adoption-of-the-budget-resolution = y| | | anti-satellite-test-ban = n| | | | handicapped-infants = n| | | | | crime = n : democrat (2.52/0.01)| | | | | crime = y : democrat (7.65/0.07)| | | | handicapped-infants = y : democrat (10.83/0.02)| | | anti-satellite-test-ban = y| | | | physician-fee-freeze = n| | | | | handicapped-infants = n| | | | | | crime = n : democrat (2.42/0.01)| | | | | | crime = y : democrat (2.28/0.03)| | | | | handicapped-infants = y : democrat (4.17/0.01)| | | | physician-fee-freeze = y| | | | | mx-missile = n : republican (2.3/0)| | | | | mx-missile = y : democrat (0.01/0)Size of the tree : 143Time taken to build model: 0.01seconds=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 407 93.5632 %Incorrectly Classified Instances 28 6.4368 %Kappa statistic 0.8636Mean absolute error 0.0699Root mean squared error 0.2379Relative absolute error 14.7341 %Root relative squared error 48.8605 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.955 0.095 0.941 0.955 0.948 0.966 democrat0.905 0.045 0.927 0.905 0.916 0.967 republicanWeighted Avg. 0.936 0.076 0.936 0.936 0.935 0.966 === Confusion Matrix ===a b <-- classified as255 12 | a = democrat16 152 | b = republican3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)随机树长143c)正确分类共407个,正确率达93.5632 %d)错误分类28个,错误率6.4368 %e)测试数据的正确率较好5.分类算法-随机树分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“trees” “J48”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2Relation: voteInstances:435Attributes:17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClassTest mode:10-fold cross-validation=== Classifier model (full training set) ===J48 pruned tree------------------physician-fee-freeze = n: democrat (253.41/3.75)physician-fee-freeze = y| synfuels-corporation-cutback = n: republican (145.71/4.0)| synfuels-corporation-cutback = y| | mx-missile = n| | | adoption-of-the-budget-resolution = n: republican (22.61/3.32) | | | adoption-of-the-budget-resolution = y| | | | anti-satellite-test-ban = n: democrat (5.04/0.02)| | | | anti-satellite-test-ban = y: republican (2.21)| | mx-missile = y: democrat (6.03/1.03)Number of Leaves : 6Size of the tree : 11Time taken to build model: 0.06seconds=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 419 96.3218 % Incorrectly Classified Instances 16 3.6782 % Kappa statistic 0.9224Mean absolute error 0.0611Root mean squared error 0.1748Relative absolute error 12.887 %Root relative squared error 35.9085 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.97 0.048 0.97 0.97 0.97 0.971 democrat0.952 0.03 0.952 0.952 0.952 0.971 republicanWeighted Avg. 0.963 0.041 0.963 0.963 0.963 0.971=== Confusion Matrix ===a b <-- classified as259 8 | a = democrat8 160 | b = republican3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)决策树分6级,长度11c)正确分类共419个,正确率达96.3218 %d)错误分类16个,错误率3.6782 %e)测试结果接近随机数,正确率较高6.分类算法-朴素贝叶斯分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“bayes” “Naive Bayes”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 392 90.1149 %Incorrectly Classified Instances 43 9.8851 %Kappa statistic 0.7949Mean absolute error 0.0995Root mean squared error 0.2977Relative absolute error 20.9815 %Root relative squared error 61.1406 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.891 0.083 0.944 0.891 0.917 0.973democrat0.917 0.109 0.842 0.917 0.877 0.973republicanWeighted Avg. 0.901 0.093 0.905 0.901 0.902 0.973 === Confusion Matrix ===a b <-- classified as238 29 | a = democrat14 154 | b = republican3)结果分析a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)正确分类共392个,正确率达90.1149 %c)错误分类43个,错误率9.8851 %d)测试正确率较高7.分类算法-RandomTree、决策树、朴素贝叶斯结果比较:RandomTree 决策树朴素贝叶斯正确率93.5632% 96.3218 % 90.1149 %混淆矩阵 a b <-- classified as255 12 | a = democrat16 152 | b = republican a b <-- classified as259 8 | a = democrat8 160 | b = republicana b <-- classified as238 29 | a = democrat14 154 | b =republican标准误差48.8605 % 35.9085 % 61.1406 % 根据以上对照结果,三类分类算法对样板数据Vote测试准确率类似;8.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
然后进行十折交叉验证,下图时将决策树可视化显示的结果
4.聚类分析
选用k-均值聚类算法进行聚类分析,进行聚类之前先对数据文件进行规范化处理
打开文件后选择规范化处理算法,进行规范化处理后将数据进行保存;下图是打开文件选择算法后的界面:
下图是进行规范化处理之后的数据:
重新打开进行规范化处理后的文件,选择k-均值聚类算法,下图是算法参数设置界面:
k-均值聚类算法参数确认后进行聚类分析,下图是聚类分析的结果显示:
除了“k-均值聚类算法”,聚类分析还可以选择其他的算法,重新选择算法“DBScan”,对算法参数进行设置,然后金子那个聚类分析
阅读教材P139-156,边阅读,边操作;
实验数据可用系统自带的,也可以从网上下载,也可以自行创建;
算法自行选择,可以针对一个数据集选择多个算法进析;
学会并熟悉通过网络解决问题的能力;
将本次试验的操作过程及分析结果填写在实验报告中。
实验内容及实验结果
1.打开数据文件,数据预处理
“DBScan”聚类算法参数设置界面:
DBScan聚类分析结果显示:
管理学院实验(实训)报告
课程:商务智能与数据挖掘地点:2607时间:2014年5月7日
学生姓名
班级
学号
成绩
实验项目
数据挖掘应用实验
实验目的
至少掌握一种数据挖掘工具,并能正确地使用;
利用所掌握的数据挖掘工具进行分类分析、关联分析、聚类分析等
实验要求
至少熟悉一种挖掘工具,并使用该挖掘工具进行分类、关联和聚类分析;
进行关联性分析分析之前进行要先进行离散化处理,打开数据文件后,选择离散化处理的算法,确认算法参数之后就可以进行预处理操作;
进行预处理之后的数据:
2.关联分析
选择关联性分析的算法,对参数进行设置
参数确定后就可以进行关联度的分析,关联算法的参数不同,几次测试的结果也不同,但都没得出与课本中相同的结果。
3.分类分析