weka分类与回归

合集下载

weka分类、聚类和关联分析概述

weka分类、聚类和关联分析概述数据挖掘算法概述数据挖掘算法我们总的来说有这么四大类算法：1.分类算法a)决策树b)神经网络c)SVMd)贝叶斯e)etc2.聚类算法3.关联分析4.回归这三类算法weka总都有实现，而且算法种类很多，仅有小部分算法是我知道的，大量的算法不清楚是怎样工作的。

具体的算法我们可以去看他的源码。

回归：什么叫回归？这个很简单，我们手上有一系列的二维数对，我们可以把数据在一个坐标轴上画出来，如果我们发现这个数对的大致轨迹是一条直线，我们可以用这条直线代表这些点的轨迹，拿到这条直线有什么用呢？第一个想法是可以进行预测，第二个用途是分析参数的重要程度，可以调整今后的策略。

回归的分类。

上段话只是简单的说了一下什么是回归，以及回归的用途。

我们使用回归最简单的就是一个自变量一个因变量这种叫做二元线性回归，当然就可以有多元线性回归。

如果我们把一次的指数增大为2，我们可以转换成多元线性回归，这里使用matlab就比较方便了。

即除了线性回归还有非线性回归。

分类：这个是我总的来说最擅长的一类算法，分类算法想法就是把两个物品分开，或称为分类。

总的过程有三部分：1.特征提取2.数据转换3.分类我们能看出来，分类算法很简单，只是最后一步，所以说难度在前两步，很多初学数据挖掘的人总会把重心放到第三步，但是其实最难的是前两步。

聚类：从名字上我们就可以看出来，什么叫聚类。

这个我用的比较少，没啥要说的，在工具使用上spass是比较好的工具。

关联分析：关联分析说白了就好像在数据库中的函数依赖，这个现在很多人正在这方面研究，当然没有那么狭隘的只是关联分析——购物篮分析。

这个百度一下可以发现很多关联分析的算法，这个可以看看书，估计暂时用不到。

Weka数据分类、回归挖掘工具

DMA数据分类公司Weka数据分类、回归挖掘工具WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），其源代码可从/ml/weka/得到。

2005年8月，在第11届ACM SIGKDD国际会议上，怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖， WEKA 系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一。

作为一个大众化的数据挖掘工作平台， WEKA集成了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理、分类、回归、聚类、关联分析以及在新的交互式界面上的可视化等等。

通过其接口，可在其基础上实现自己的数据挖掘算法。

WEKA中的典型算法Bayes: 贝叶斯分类器BayesNet: 贝叶斯信念网络NaïveBayes: 朴素贝叶斯网络Functions: 人工神经网络和支持向量机MultilayerPerceptron: 多层前馈人工神经网络SMO: 支持向量机（采用顺序最优化学习方法）Lazy: 基于实例的分类器IB1: 1-最近邻分类器IBk: k-最近邻分类器Meta: 组合方法AdaBoostM1: AdaBoost M1方法Bagging: 袋装方法Rules: 基于规则的分类器JRip: 直接方法－Ripper算法Part: 间接方法－从J48产生的决策树抽取规则（不是C4.5规则算法）Trees: 决策树分类器Id3: ID3决策树学习算法（不支持连续属性）J48: C4.5决策树学习算法（第8版本）RandomForest: 基于决策树的组合方法。

weka实验总结

weka实验总结
Weka实验总结：
在数据挖掘和机器学习领域，Weka是一个广泛使用的开源软件工具，提供了
丰富的机器学习算法和数据预处理工具。

经过本次实验，我对Weka的功能和应用
有了更深入的了解。

首先，Weka提供了丰富的机器学习算法，包括分类、回归、聚类、关联规则等。

通过在实验中应用这些算法，我们可以通过输入数据来训练模型，然后利用模型对新数据进行预测和分类。

例如，在分类问题中，我们可以使用决策树算法来构建一个分类模型，然后利用该模型对未知数据进行分类。

其次，Weka还提供了数据预处理的功能，包括数据清洗、特征选择和特征变
换等。

在实验中我们可以使用Weka提供的数据预处理工具，对数据进行处理和准备。

例如，我们可以使用Weka中的缺失值处理工具来处理数据中的缺失值，在数
据清洗的过程中，我们还可以进行数据规范化、去除异常值等操作。

另外，Weka具有友好的用户界面，使得使用起来更加简单和直观。

无论是数
据导入、算法选择还是结果分析，Weka都提供了易于使用的界面。

这对于初学者
来说非常友好，也方便了快速上手和使用。

总之，Weka是一个功能强大且易于使用的数据挖掘和机器学习工具。

通过本
次实验，我发现Weka提供了丰富的算法和功能，能够满足不同实验和研究的需求。

我相信Weka将在我今后的学习和研究中发挥重要的作用。

基于Weka的数据分类分析实验报告

基于Weka的数据分类分析实验报告1 实验目的使用数据挖掘中的分类算法，对数据集进行分类训练并测试。

应用不同的分类算法，比较他们之间的不同。

与此同时了解Weka平台的基本功能与使用方法。

2 实验环境2.1 Weka介绍Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。

Weka使用Java 写成的，并且限制在GNU通用公共证书的条件下发布。

它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。

Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。

图1 Weka主界面Weka系统包括处理标准数据挖掘问题的所有方法：回归、分类、聚类、关联规则以及属性选择。

分析要进行处理的数据是重要的一个环节，Weka提供了很多用于数据可视化和与处理的工具。

输入数据可以有两种形式，第一种是以ARFF格式为代表的文件；另一种是直接读取数据库表。

使用Weka的方式主要有三种：第一种是将学习方案应用于某个数据集，然后分析其输出，从而更多地了解这些数据；第二种是使用已经学习到的模型对新实例进预测；第三种是使用多种学习器，然后根据其性能表现选择其中一种来进行预测。

用户使用交互式界面菜单中选择一种学习方法，大部分学习方案都带有可调节的参数，用户可通过属性列表或对象编辑器修改参数，然后通过同一个评估模块对学习方案的性能进行评估。

2.2 数据和数据集根据应用的不同，数据挖掘的对象可以是各种各样的数据，这些数据可以是各种形式的存储，如数据库、数据仓库、数据文件、流数据、多媒体、网页，等等。

即可以集中存储在数据存储库中，也可以分布在世界各地的网络服务器上。

大部分数据集都以数据库表和数据文件的形式存在，Weka支持读取数据库表和多种格式的数据文件，其中，使用最多的是一种称为ARFF格式的文件。

ARFF格式是一种Weka专用的文件格式，Weka的正式文档中说明AREF代表Attribute-Relation File Format（属性-关系文件格式）。

weka数据预处理标准化方法说明

weka数据预处理标准化方法说明Weka（Waikato Environment for Knowledge Analysis）是一套用于数据挖掘和机器学习的开源软件工具集，提供了丰富的功能，包括数据预处理、分类、回归、聚类等。

在Weka中，数据预处理是一个关键的步骤，其中标准化是一个常用的技术，有助于提高机器学习算法的性能。

下面是在Weka中进行数据标准化的一般步骤和方法说明：1. 打开Weka：启动Weka图形用户界面（GUI）或使用命令行界面。

2. 加载数据：选择“Explorer”选项卡，然后点击“Open file”按钮加载您的数据集。

3. 选择过滤器（Filter）：在“Preprocess”选项卡中，选择“Filter”子选项卡，然后点击“Choose”按钮选择一个过滤器。

4. 选择标准化过滤器：在弹出的对话框中，找到并选择标准化过滤器。

常见的标准化过滤器包括：- Normalize：这个过滤器将数据标准化为给定的范围，通常是0到1。

- Standardize：使用这个过滤器可以将数据标准化为零均值和单位方差。

- AttributeRange：允许您手动指定每个属性的范围，以进行标准化。

5. 设置标准化选项：选择标准化过滤器后，您可能需要配置一些选项，例如范围、均值和方差等，具体取决于选择的过滤器。

6. 应用过滤器：配置完成后，点击“Apply”按钮，将标准化过滤器应用于数据。

7. 保存处理后的数据：如果需要，您可以将标准化后的数据保存到文件中。

8. 查看结果：在数据预处理完成后，您可以切换到“Classify”选项卡，选择一个分类器，并使用标准化后的数据进行模型训练和测试。

记住，具体的步骤和选项可能会因Weka版本的不同而有所差异，因此建议查阅Weka文档或在线资源以获取更具体的信息。

此外，标准化的适用性取决于您的数据和机器学习任务，因此在应用标准化之前，最好先了解您的数据的分布和特征。

weka分类与回归

weka分类与回归1.背景知识WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中，这是有原因的。

在这两个任务中，都有一个目标属性（输出变量）。

我们希望根据一个样本(WEKA中称作实例)的一组特征（输入变量），对目标进行预测。

为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。

观察训练集中的实例，可以建立起预测的模型。

有了这个模型，我们就可以新的输出未知的实例进行预测了。

衡量模型的好坏就在于预测的准确程度。

在WEKA中，待预测的目标（输出）被称作Class属性，这应该是来自分类任务的“类”。

一般的，若Class 属性是分类型时我们的任务才叫分类，Class属性是数值型时我们的任务叫回归。

2.选择算法这一节中，我们使用C4.5决策树算法对bank-data建立起分类模型。

我们来看原来的“bank-data.csv”文件。

“ID”属性肯定是不需要的。

由于C4.5算法可以处理数值型的属性，我们不用像前面用关联规则那样把每个变量都离散化成分类型。

尽管如此，我们还是把“Children”属性转换成分类型的两个值“YES”和“NO”。

另外，我们的训练集仅取原来数据集实例的一半；而从另外一半中抽出若干条作为待预测的实例，它们的“pep”属性都设为缺失值。

经过了这些处理的训练集数据在这里下载；待预测集数据在这里下载。

我们用“Explorer”打开训练集“bank.arff”，观察一下它是不是按照前面的要求处理好了。

切换到“C lassify”选项卡，点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。

3.5版的WEKA中，树型框下方有一个“Filter...”按钮，点击可以根据数据集的特性过滤掉不合适的算法。

我们数据集的输入属性中有“Binary”型（即只有两个类的分类型）和数值型的属性，而Class变量是“Binary”的；于是我们勾选“Binary attributes”“Numeric attributes”和“Binary class”。

weka学习笔记

Weka 学习笔记一、数据格式：以“%”开始的行是注释。

除去注释后，整个ARFF文件可以分为两个部分。

第一部分给出了头信息（Head information），包括了对关系的声明和对属性的声明。

第二部分给出了数据信息（Data information），即数据集中给出的数据。

从“@data”标记开始，后面的就是数据信息了。

1、关系声明:@relation <relation-name>在ARFF文件的第一个有效行来定义。

<relation-name>是一个字符串。

如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或双引号）。

2、属性声明: @attribute <attribute-name> <datatype>声明语句的顺序按照该项属性在数据部分的位置来排。

最后一个声明的属性被称作class属性，在分类或回归任务中，它是默认的目标变量。

<attribute-name>是必须以字母开头的字符串。

和关系名称一样，如果这个字符串包含空格，它必须加上引号。

WEKA支持的<datatype>有四种，分别是：numeric数值型、<nominal-specification>分类型、string字符串型、date [<date-format>日期型。

（1）数值属性：数值型属性可以是整数或者实数，但WEKA把它们都当作实数看待。

（2）分类属性：分类属性由<nominal-specification>列出一系列可能的类别名称并放在花括号中：{<nominal-name1>, <nominal-name2>, <nominal-name3>, ...} 。

例如如下的属性声明说明“outlook”属性有三种类别：“sunny”，“ overcast”和“rainy”:@attribute outlook {sunny, overcast, rainy}如果类别名称带有空格，仍需要将之放入引号中。

Weka–分类

Weka–分类1. weka简单介绍1） weka是新西兰怀卡托⼤学WEKA⼩组⽤JAVA开发的机器学习/数据挖掘开源软件。

2）相关资源链接3）主要特点集数据预处理、学习算法（分类、回归、聚类、关联分析）和评估⽅法等为⼀体的综合性数据挖掘⼯具具有交互式可视化界⾯提供算法学习⽐較环境通过其接⼝。

可实现⾃⼰的数据挖掘算法2. 数据集（.arff⽂件）数据集的呈现形式如上图所看到的，其表现为⼀个⼆维表，当中：表格⾥⼀⾏称作⼀个实例(Instance)，相当于统计学中的⼀个样本，或者数据库中的⼀条记录表格⾥⼀列称作⼀个属性(Attribute)。

相当于统计学中的⼀个变量，或者数据库中的⼀个字段数据集的存储格式如上图所看到的。

是⼀种ASCII⽂本⽂件，整个ARFF⽂件能够分为两个部分：第⼀部分给出了头信息(Headinformation)。

包含了对关系的声明和对属性的声明第⼆部分给出了数据信息(Datainformation)。

即数据集中给出的数据。

从”@data”标记開始。

后⾯即为数据信息注：当中凝视部分以”%”開始。

凝视部分weka将忽略这些⾏；假设关系名。

属性名，数据的字符串包括空格，它必须加上引號；最后⼀个声明的属性被称作class属性，在分类或回归任务中它是默认的⽬标变量。

3. 数据类型1）Weka⽀持四种数据类型，分别为：numeric 数值型数值型能够是整数(integer)或者实数(real)，weka将它们都当作实数看待。

nominal 标称型标称属性由⼀系列的类别名称放在花括号⾥。

string 字符串型字符串属性能够包括随意的⽂本。

date⽇期和时间型⽇期和时间属性统⼀⽤”date”类型表⽰，默认的字符串是ISO-8601所给的⽇期时间组合格式：“yyyy-MM-dd HH:mm:ss” timestamp DATE“yyyy-MM-dd HH:mm:ss”@DATA “2015-06-23 20:05:40”2）稀疏数据当数据集中含有⼤量的0值时。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

weka分类与回归1.背景知识WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中，这是有原因的。

在这两个任务中，都有一个目标属性（输出变量）。

我们希望根据一个样本(WEKA中称作实例)的一组特征（输入变量），对目标进行预测。

为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。

观察训练集中的实例，可以建立起预测的模型。

有了这个模型，我们就可以新的输出未知的实例进行预测了。

衡量模型的好坏就在于预测的准确程度。

在WEKA中，待预测的目标（输出）被称作Class属性，这应该是来自分类任务的“类”。

一般的，若Class 属性是分类型时我们的任务才叫分类，Class属性是数值型时我们的任务叫回归。

2.选择算法这一节中，我们使用C4.5决策树算法对bank-data建立起分类模型。

我们来看原来的“bank-data.csv”文件。

“ID”属性肯定是不需要的。

由于C4.5算法可以处理数值型的属性，我们不用像前面用关联规则那样把每个变量都离散化成分类型。

尽管如此，我们还是把“Children”属性转换成分类型的两个值“YES”和“NO”。

另外，我们的训练集仅取原来数据集实例的一半；而从另外一半中抽出若干条作为待预测的实例，它们的“pep”属性都设为缺失值。

经过了这些处理的训练集数据在这里下载；待预测集数据在这里下载。

我们用“Explorer”打开训练集“bank.arff”，观察一下它是不是按照前面的要求处理好了。

切换到“C lassify”选项卡，点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。

3.5版的WEKA中，树型框下方有一个“Filter...”按钮，点击可以根据数据集的特性过滤掉不合适的算法。

点“OK”后回到树形图，可以发现一些算法名称变红了，说明它们不能用。

选择“trees”下的“J48”，这就是我们需要的C4.5算法，还好它没有变红。

点击“Choose”右边的文本框，弹出新窗口为该算法设置各种参数。

点“More”查看参数说明，点“Capa bilities”是查看算法适用范围。

这里我们把参数保持默认。

现在来看左中的“Test Option”。

我们没有专门设置检验数据集，为了保证生成的模型的准确性而不至于出现过拟合（overfitting）的现象，我们有必要采用10折交叉验证（10-fold cross validation）来选择和评估模型。

若不明白交叉验证的含义可以Google一下。

3.建模结果OK，选上“Cross-validation”并在“Folds”框填上“10”。

点“Start”按钮开始让算法生成决策树模型。

很快，用文本表示的一棵决策树，以及对这个决策树的误差分析等等结果出现在右边的“Classifier output”中。

同时左下的“Results list”出现了一个项目显示刚才的时间和算法名称。

如果换一个模型或者换个参数，重新“Start”一次，则“Results list”又会多出一项。

我们看到“J48”算法交叉验证的结果之一为Correctly Classified Instances 206 68.6667 %也就是说这个模型的准确度只有69%左右。

也许我们需要对原属性进行处理，或者修改算法的参数来提高准确度。

但这里我们不管它，继续用这个模型。

右键点击“Results list”刚才出现的那一项，弹出菜单中选择“Visualize tree”，新窗口里可以看到图形模式的决策树。

建议把这个新窗口最大化，然后点右键，选“Fit to screen”，可以把这个树看清楚些。

看完后截图或者关掉500)this.width=500" border=0>这里我们解释一下“Confusion Matrix”的含义。

=== Confusion Matrix ===a b <-- classified as74 64 | a = YES30 132 | b = NO这个矩阵是说，原本“pep”是“YES”的实例，有74个被正确的预测为“YES”，有64个错误的预测成了“NO”；原本“pep”是“NO”的实例，有30个被错误的预测为“YES”，有132个正确的预测成了“NO”。

74+64+30+132 = 300是实例总数，而(74+132)/300 = 0.68667正好是正确分类的实例所占比例。

这个矩阵对角线上的数字越大，说明预测得越好。

4.模型应用现在我们要用生成的模型对那些待预测的数据集进行预测了，注意待预测数据集和训练用数据集各个属性的设置必须是一致的。

WEKA中并没有直接提供把模型应用到带预测数据集上的方法，我们要采取间接的办法。

在“Test Opion”中选择“Supplied test set”，并且“Set”成“bank-new.arff”文件。

重新“Start”一次。

注意这次生成的模型没有通过交叉验证来选择，“Classifier output”给出的误差分析也没有多少意义。

这也是间接作预测带来的缺陷吧。

现在，右键点击“Result list”中刚产生的那一项，选择“Visualize classifier errors”。

我们不去管新窗口中的图有什么含义，点“Save”按钮，把结果保存成“bank-predicted.arff”。

这个ARFF文件中就有我们需要的预测结果。

在“Explorer”的“Preprocess”选项卡中打开这个新文件，可以看到多了两个属性“Instance_number”和“predictedpep”。

“Instance_number”是指一个实例在原“bank-new. arff”文件中的位置，“predictedpep”就是模型预测的结果。

点“Edit”按钮或者在“ArffViewer”模块中打开可以查看这个数据集的内容。

比如，我们对实例0的pep预测值为“YES”，对实例4的预测值为“NO”。

使用命令行（推荐）虽然使用图形界面查看结果和设置参数很方便，但是最直接最灵活的建模及应用的办法仍是使用命令行。

打开“Simple CLI”模块，像上面那样使用“J48”算法的命令格式为：java weka.classifiers.trees.J48 -C 0.25 -M 2 -t directory-path\bank.arff -d directory-path \ bank.model其中参数“ -C 0.25”和“-M 2”是和图形界面中所设的一样的。

“-t ”后面跟着的是训练数据集的完整路径（包括目录和文件名），“-d ”后面跟着的是保存模型的完整路径。

注意！这里我们可以把模型保存下来。

输入上述命令后，所得到树模型和误差分析会在“Simple CLI”上方显示，可以复制下来保存在文本文件里。

误差是把模型应用到训练集上给出的。

把这个模型应用到“bank-new.arff”所用命令的格式为：java weka.classifiers.trees.J48 -p 9 -l directory-path\bank.model -T directory-path \bank-ne w.arff其中“-p 9”说的是模型中的Class属性是第9个（也就是“pep”），“-l”后面是模型的完整路径，“-T”后面是待预测数据集的完整路径。

输入上述命令后，在“Simple CLI”上方会有这样一些结果：0 YES 0.75 ?1 NO 0.7272727272727273 ?2 YES 0.95 ?3 YES 0.8813559322033898 ?4 NO 0.8421052631578947 ?...这里的第一列就是我们提到过的“Instance_number”，第二列就是刚才的“predictedpep”，第四列则是“bank-new.arff”中原来的“pep”值（这里都是“?”缺失值）。

第三列对预测结果的置信度（confide nce ）。

比如说对于实例0，我们有75%的把握说它的“pep”的值会是“YES”，对实例4我们有84.2%的把握说它的“pep”值会是“NO”。

我们看到，使用命令行至少有两个好处。

一个是可以把模型保存下来，这样有新的待预测数据出现时，不用每次重新建模，直接应用保存好的模型即可。

另一个是对预测结果给出了置信度，我们可以有选择的采纳预测结果，例如，只考虑那些置信度在85%以上的结果。

可惜，命令行仍不能保存交叉验证等方式选择过的模型，也不能将它们应用到待预测数据上。

要实现这一目的，须用到“KnowledgeFlow”模块的“ PredictionAppender”。

5.DM步骤1. 明确目标与理解资料；2. 获取相关技术与知识；3. 整合与查核资料；4. 去除错误或不一致及不完整的资料；5. 由数据选取样本先行试验；6. 研发模式（model）与型样（pattern）；7. 实际Data Mining的分析工作；8. 测试与检核；9. 找出假设并提出解释；10. 持续应用于企业流程中。