weka中文教程

合集下载

2020年整理WEKA汉化教程.pdf

WEKA 存储数据的格式是 ARFF（Attribute-Relation File Format）文件，这是一种 ASCII 文本文件。图 1 所示的二维表格存储在如下的 ARFF 文件中。这也就是 WEKA 自带的 “weather.arff”文件，在 WEKA 安装目录的“data”子目录下可以找到。
注意在稀疏格式中没有注明的属性值不是缺失值，而是 0 值。若要表示缺失值必须显式的用问号表示出来。
Relational 型属性在 WEKA 3.5 版中增加了一种属性类型叫做 Relational，有了这种类型我们可以像关系型数据库那样处理多个维度了。但是这种类型目前还不见广泛应用，暂不作介绍。 -----整理自 -和
@attribute <attribute-name> <datatype> 其中<attribute-name>是必须以字母开头的字符串。和关系名称一样，如果这个字符串包含空格，它必须加上引号。 WEKA 支持的<datatype>有四种，分别是 numeric-------------------------数值型 <nominal-specification>-----分类（nominal）型 string----------------------------字符串型
@attribute outlook {sunny, overcast, rainy} 如果类别名称带有空格，仍需要将之放入引号中。字符串属性字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。示例：
@ATTRIBUTE LCC string 日期和时间属性日期和时间属性统一用“date”类型表示，它的格式是
csvwrite('filename',matrixname) 需要注意的是，Matllab 给出的 CSV 文件往往没有属性名（Excel 给出的也有可能没有）。而 WEKA 必须从 CSV 文件的第一行读取属性名，否则就会把第一行的各属性值读成变量名。因此我们对于 Matllab 给出的 CSV 文件需要用 UltraEdit 打开，手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致，仍用逗号隔开。 .csv -> .arff

WEKA教程完整版(新)

数据挖掘工具 WEKA教程
广东外语外贸大学杜剑峰
WEKA教程
1. 2. 3.
4.
5. 6.
7.
8. 9.
WEKA简介数据格式数据准备属性选择可视化分析分类预测关联分析聚类分析扩展WEKA
课程的总体目标和要求：熟悉WEKA的基本操作，了解WEKA的各项功能掌握数据挖掘实验的流程
2、数据格式（续）

字符串属性字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。示例： @ATTRIBUTE LCC string 日期和时间属性日期和时间属性统一用―date‖类型表示，它的格式是 @attribute <name> date [<date-format>] 其中<name>是这个属性的名称，<date-format>是一个字符串，来规定该怎样解析和显示日期或时间的格式，默认的字符串是 ISO-8601所给的日期时间组合格式―yyyy-MM-ddTHH:mm:ss‖。数据信息部分表达日期的字符串必须符合声明中规定的格式要求（下文有例子）。
2、数据格式（续）

WEKA支持的<datatype>有四种
numeric <nominal-specification> string date [<date-format>]
数值型标称（nominal）型字符串型日期和时间型
其中<nominal-specification> 和<date-format> 将在下面说明。还可以使用两个类型―integer‖和―real‖，但是 WEKA把它们都当作―numeric‖看待。注意―integer‖， ―real‖，―numeric‖，―date‖，―string‖这些关键字是区分大小写的，而―relation‖、“attribute ‖和―data‖则不区分。

Weka数据挖掘软件使用指南

Weka数据挖掘软件使用指南Weka 数据挖掘软件使用指南1. Weka简介该软件是WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过得到。

Weka作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

如果想自己实现数据挖掘算法的话，可以看一看Weka的接口文档。

在Weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

2. Weka启动打开Weka主界面后会出现一个对话框，如图：主要使用右方的四个模块，说明如下：Explorer使用Weka探索数据的环境,包括获取关联项，分类预测，聚簇等；（本文主要总结这个部分的使用）Experimenter运行算法试验、管理算法方案之间的统计检验的环境；KnowledgeFlow这个环境本质上和Explorer所支持的功能是一样的，但是它有一个可以拖放的界面。

它有一个优势，就是支持增量学习；SimpleCLI提供了一个简单的命令行界面，从而可以在没有自带命令行的操作系统中直接执行Weka命令；（某些情况下使用命令行功能更好一些）3．主要操作说明点击进入Explorer模块开始数据探索环境：3.1主界面进入Explorer模式后的主界面如下：3.1.1标签栏主界面最左上角（标题栏下方）的是标签栏，分为五个部分，功能依次是：1. Preprocess. 选择和修改要处理的数据；2. Classify. 训练和测试关于分类或回归的学习方案；3. Cluster. 从数据中学习聚类；4. Associate.从数据中学习关联规则；5. Select attributes. 选择数据中最相关的属性；6. Visualize.查看数据的交互式二维图像。

3.1.2载入、编辑数据标签栏下方是载入数据栏，功能如下：1.Open file.打开一个对话框，允许你浏览本地文件系统上的数据文件（.dat）；2.Open URL.请求一个存有数据的URL 地址；3.Open DB.从数据库中读取数据；4.Generate.从一些数据生成器中生成人造数据。

WEKA完整中文教程

， pep:
did the customer buy a PEP (Personal Equity Plan
个人参股计划) after the last mailing (YES/NO)
9
1 2 3
4 6
5 7
8
3、数据准备（续）
上图显示的是 “Explorer”打开“bank-data.csv”的情况。我们根据不同的功能把这个界面分成8个区域。 1. 区域1的几个选项卡是用来切换不同的挖掘任务面板。 2. 区域2是一些常用按钮。包括打开数据，保存及编辑功能。我们可以在这里把“bank-data.csv”另存为“bankdata.arff”。 3. 在区域3中“Choose”某个“Filter”，可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 4. 区域4展示了数据集的一些基本情况。 5. 区域5中列出了数据集的所有属性。勾选一些属性并 “Remove”就可以删除它们，删除后还可以利用区域2的 “Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。在区域5中选中某个属性，则区域6中有关于这个属性的摘要。注意对于数值属性和标称属性，摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。
7
2、数据格式（续）
字符串属性和标称属性的值是区分大小写的。若值中含有空格，必须被引号括起来。例如：
@relation LCCvsLCSH @attribute LCC string @attribute LCSH string @data AG5, 'Encyclopedias and dictionaries.;Twentieth century.' AS262, 'Science -- Soviet Union -- History.'

weka使用

1）Explorer用来进行数据实验、挖掘的环境，它提供了分类，聚类，关联规则，特征选择，数据可视化的功能。

（An environment for exploring data with WEKA）2）Experimentor用来进行实验，对不同学习方案进行数据测试的环境。

（An environment for performing experiments and conducting statistical tests between learning schemes.）3）KnowledgeFlow功能和Explorer差不多，不过提供的接口不同，用户可以使用拖拽的方式去建立实验方案。

另外，它支持增量学习。

（This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.）4）SimpleCLI简单的命令行界面。

（Provides a simple command-line interface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface.）二、实验内容1.选用数据文件为：2.在WEKA中点击explorer 打开文件3.对数据整理分析4.将数据分类：单机classify ——在test options 中选择第一项（Use training set ）——点击classifier 下面的choose 按钮选择trees 中的J48由上图可知该树有5个叶子是否出去游玩由天气晴朗（sunny）、天气预报（overcast）以及阴雨天（rainy）因素决定5.关联规则我们打算对前面的“bank-data”数据作关联规则的分析。

weka数据预处理标准化方法说明

weka数据预处理标准化方法说明Weka（Waikato Environment for Knowledge Analysis）是一套用于数据挖掘和机器学习的开源软件工具集，提供了丰富的功能，包括数据预处理、分类、回归、聚类等。

在Weka中，数据预处理是一个关键的步骤，其中标准化是一个常用的技术，有助于提高机器学习算法的性能。

下面是在Weka中进行数据标准化的一般步骤和方法说明：1. 打开Weka：启动Weka图形用户界面（GUI）或使用命令行界面。

2. 加载数据：选择“Explorer”选项卡，然后点击“Open file”按钮加载您的数据集。

3. 选择过滤器（Filter）：在“Preprocess”选项卡中，选择“Filter”子选项卡，然后点击“Choose”按钮选择一个过滤器。

4. 选择标准化过滤器：在弹出的对话框中，找到并选择标准化过滤器。

常见的标准化过滤器包括：- Normalize：这个过滤器将数据标准化为给定的范围，通常是0到1。

- Standardize：使用这个过滤器可以将数据标准化为零均值和单位方差。

- AttributeRange：允许您手动指定每个属性的范围，以进行标准化。

5. 设置标准化选项：选择标准化过滤器后，您可能需要配置一些选项，例如范围、均值和方差等，具体取决于选择的过滤器。

6. 应用过滤器：配置完成后，点击“Apply”按钮，将标准化过滤器应用于数据。

7. 保存处理后的数据：如果需要，您可以将标准化后的数据保存到文件中。

8. 查看结果：在数据预处理完成后，您可以切换到“Classify”选项卡，选择一个分类器，并使用标准化后的数据进行模型训练和测试。

记住，具体的步骤和选项可能会因Weka版本的不同而有所差异，因此建议查阅Weka文档或在线资源以获取更具体的信息。

此外，标准化的适用性取决于您的数据和机器学习任务，因此在应用标准化之前，最好先了解您的数据的分布和特征。

weka操作介绍讲解学习

6. 区域7是区域5中选中属性的直方图。若数据集的某个属性是目
标变量，直方图中的每个长方形
就会按照该变量的比例分成不同
颜色的段。默认地，分类或回归
任务的默认目标变量是数据集的
最后一个属性。要想换个分段的
依据，即目标变量，在区域7上方的下拉框中选个不同的分类属
性就可以了。下拉框里选上
“No Class”或者一个数值属性会变成黑白的直方图。
wekቤተ መጻሕፍቲ ባይዱ操作介绍
在KnowledgeFlow 窗口顶部有八个标签： DataSources--数据载入器 DataSinks--数据保存器 Filters--筛选器 Classifiers--分类器 Clusterers--聚类器 Associations—关联器 Evaluation—评估器 Visualization—可视化
关联运行结果
此课件下载可自行编辑修改，仅供参考！感谢您的支持，我们努力做得更好！谢谢
3 4
5 8
1 2
6 7
1.区域1的几个选项卡是用来切换不同的挖掘任务面板。
Preprocess（数据预处理） Classify（分类） Cluster（聚类） Associate（关联分析） Select Attributes（选择属性） Visualize（可视化）
2. 区域2是一些常用按钮。包括打开数据，保存及编辑功能。我们可以在这里把 “bank-data.csv”，另存为“bank-data.arff”
Cluster
主要算法包括： SimpleKMeans — 支持分类属性的K均值算法 DBScan — 支持分类属性的基于密度的算法 EM — 基于混合模型的聚类算法 FathestFirst — K中心点算法 OPTICS — 基于密度的另一个算法 Cobweb — 概念聚类算法 sIB — 基于信息论的聚类算法，不支持分类属性 XMeans — 能自动确定簇个数的扩展K均值算法，不支持分类属性

数据挖掘工具Weka API使用文档说明书

weka.core.converters weka.filter weka.classifiers
Evaluation
weka.classifiers.trees weka.associations
Business Intelligence Lab
Option handling
5
Either with get/set methods
Every action overwrites the previous ones
Weka Knowledge Flow documents the process, but …
it is time-consuming to experiment with many variants
(algs, params, inputs, …)
Split into x% training and (100-x)% test
Stratified sampling, where x range in [20-80]
For which x accuracy is maximized?
Business Intelligence Lab
BUSINESS INTELLIGENCE LABORATORY
Weka API
Salvatore Ruggieri
Computer Science Department, University of Pisa
Business Informatics Degree
Why API?
2
Weka Explorer does not keep track of experimental settings
E.g., selection of customers in marketing campaigns can be suggested to the marketer by a decision-support system which exploits data mining models

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

WEKA 3-5-5 Explorer 用户指南原文版本 3.5.5翻译王娜校对 C6H5NO2Pentaho 中文讨论组QQ 群：12635055论坛：/bipub/index.asp/目录1 启动WEKA (3)Explorer (5)2 WEKA2.1 标签页 (5)2.2 状态栏 (5)按钮 (5)2.3 Log状态图标 (5)2.4 WEKA3 预处理 (6)3.1 载入数据 (6)3.2 当前关系 (6)3.3 处理属性 (7)3.4 使用筛选器 (7)4 分类 (10)4.1 选择分类器 (10)4.2 测试选项 (10)4.3 Class属性 (11)4.4 训练分类器 (11)4.5 分类器输出文本 (11)4.6 结果列表 (12)5 聚类 (13)5.1 选择聚类器（Clusterer） (13)5.2 聚类模式 (13)5.3 忽略属性 (13)5.4 学习聚类 (14)6 关联规则 (15)6.1 设定 (15)6.2 学习关联规则 (15)7 属性选择 (16)7.1 搜索与评估 (16)7.2 选项 (16)7.3 执行选择 (16)8 可视化 (18)8.1 散点图矩阵 (18)8.2 选择单独的二维散点图 (18)8.3 选择实例 (19)参考文献 (20)启动WEKAWEKA中新的菜单驱动的 GUI 继承了老的 GUI 选择器（类 weka.gui.GUIChooser）的功能。

它的MDI（“多文档界面”）外观，让所有打开的窗口更加明了。

这个菜单包括六个部分。

1.Programz LogWindow打开一个日志窗口，记录输出到stdout或stderr的内容。

在 MS Windows 那样的环境中，WEKA 不是从一个终端启动，这个就比较有用。

z Exit关闭WEKA。

2.Applications 列出 WEKA 中主要的应用程序。

z Explorer 使用 WEKA 探索数据的环境。

（本文档的其它部分将详细介绍这个环境）z Experimenter 运行算法试验、管理算法方案之间的统计检验的环境。

z KnowledgeFlow 这个环境本质上和 Explorer所支持的功能是一样的，但是它有一个可以拖放的界面。

它有一个优势，就是支持增量学习（incremental learning）。

z SimpleCLI 提供了一个简单的命令行界面，从而可以在没有自带命令行的操作系统中直接执行 WEKA 命令。

3.Tools 其他有用的应用程序。

z ArffViewer一个 MDI 应用程序，使用电子表格的形式来查看 ARFF 文件。

z SqlViewer一个 SQL 工作表，用来通过JDBC 查询数据库。

z EnsembleLibrary 生成集成式选择（Ensemble Selection）[5] 所需设置的界面。

4.Visualization WEKA 中数据可视化的方法。

z Plot作出数据集的二维散点图。

z ROC显示预先保存的 ROC 曲线。

z TreeVisualizer 显示一个有向图，例如一个决策树。

z GraphVisualizer 显示 XML、BIF 或 DOT 格式的图片，例如贝叶斯网络（Bayesian network）。

z BoundaryVisualizer 允许在二维空间中对分类器的决策边界进行可视化。

5.Windows 所有已打开的窗口都列在这里。

z Minimize最小化所有当前的窗口。

z Restore还原所有最小化过的窗口。

6.Help WEKA 的在线资源可以从这里找到。

z Weka homepage打开一个浏览器窗口，显示 WEKA 的主页。

z Online documentation 链接到 WekaDoc 维基文档 [4]。

z HOWTOs, code snippets, etc. 通用的 WekaWiki [3]，包括大量的例子，以及开发和使用 WEKA 的基本知识（HOWTO）。

z Weka on Sourceforge WEKA 项目在的主页。

z SystemInfo 列出一些关于 Java/WEKA 环境的信息，例如 CLASSPATH。

z About 不光彩的“About”窗口。

如果从终端启动 WEKA，会有一些文字在终端窗口中出现。

这些文字是可以忽略的，除非某些东西出错了——这时它可以帮助找到错误的原因。

（LogWindow 也可以显示那些信息。

）这份文档也可以从在线的WekaDoc Wiki [4] 中找到，它将集中阐述如何使用Explorer，而不会逐个解释 WEKA 中的数据预处理工具和学习算法。

要获得关于各种筛选器（filter）和学习算法的更多信息，可参考Data Mining [2] 一书。

1WEKA Explorer1.1标签页在窗口的顶部，标题栏下是一排标签。

当 Explorer 首次启动时，只有第一个标签页是活动的；其他均是灰色的。

这是因为在探索数据之前，必须先打开一个数据集(可能还要对它进行预处理)。

所有的标签页如下所示：1.Preprocess. 选择和修改要处理的数据。

2.Classify. 训练和测试关于分类或回归的学习方案。

3.Cluster. 从数据中学习聚类。

4.Associate. 从数据中学习关联规则。

5.Select attributes. 选择数据中最相关的属性。

6.Visualize. 查看数据的交互式二维图像。

这些标签被激活后，点击它们可以在不同的标签页面上进行切换，而每一个页面上可以执行对应的操作。

不管位于哪个页面，窗口的底部区域(包括状态栏、log 按钮和 Weka 鸟) 仍然可见。

1.2状态栏状态（Status）栏出现在窗口的最底部。

它显示一些信息让你知道正在做什么。

例如，如果 Explorer 正忙于装载一个文件，状态栏就会有通知。

提示 — 在状态栏中的任意位置右击鼠标将会出现一个小菜单。

这个菜单给了你两个选项：1.Memory Information. 在 log 栏中显示 WEKA 可用的内存量。

2.Run garbage collector. 强制运行 Java 垃圾回收器，搜索不再需要的内存空间并将之释放，从而可为新任务分配更多的内存。

注意即使不强制运行，垃圾回收也是一直作为后台任务在运行的。

1.3Log 按钮点击这个按钮，会出现一个单独的窗口，包含一个可拖动的文本区域。

文本的每一行被加了一个时间戳，显示了它进入日志（log）的时间，一旦在WEKA 中执行某种操作时，该日志就会记录发生了什么。

对于使用命令行或者 SimpleCLI 的人，日志也将完整地记录分类，聚类，特征提取等任务的设置字符，使得它们可被复制/粘贴到其它地方。

但关于数据集和 class 属性1的选项仍然要由用户给出（例如，分类器（classifier）的 –t，或者筛选器的 –i 和 -o）1.4WEKA 状态图标状态栏的右边是 WEKA 状态图标。

当不运行任何进程时，WEKA鸟会坐下并打一个小盹。

×符号旁的数字显示了正运行的并发进程的数量。

当系统空闲时，它是零，而当进程的数量增长时，它也会增长。

任意进程启动后，小鸟会站起来并到处活动。

如果它仍然是站着的，但是很长时间内不动，那么它生病了：某个地方出错了！在这种情况下，应该重新启动 WEKA Explorer。

1在分类或回归任务中，class 属性是默认的目标变量。

注意这与下文中的分类型属性不是一个概念—译2预处理2.1载入数据预处理页顶部的前4个按钮用来把数据载入WEKA：1.Open file....打开一个对话框，允许你浏览本地文件系统上的数据文件。

2.Open URL.... 请求一个存有数据的 URL 地址。

3.Open DB.... 从数据库中读取数据(注意，要使之可用，可能需要编辑weka/experiment/ DatabaseUtils.props 中的文件)4.Generate....从一些数据生成器（DataGenerators）中生成人造数据。

使用Open file...按钮可以读取各种格式的文件：WEKA 的 ARFF 格式，CSV 格式，C4.5 格式，或者序列化的实例2格式。

ARFF 文件通常扩展名是.arff，CSV 文件扩展名是 .csv，C4.5 文件扩展名是 .data 和 .names ，序列化的实例对象扩展名为 .bsi。

2.2当前关系载入数据后，预处理面板就会显示各种信息。

Current relation一栏（“current relation” 指目前装载的数据，可理解为数据库术语中单独的关系表）有3个条目：1.Relation.关系的名称，在它装载自的文件中给出。

使用筛选器（下文将详述）将修改关系的名称。

2只有本段文字中的“实例”是 JAVA 语言中实例的概念；而后文中的“实例”都将指数据集中的记录—2.Instances.数据中的实例(或称数据点/记录) 的个数。

3.Attributes.数据中的属性(或称特征) 的个数。

2.3处理属性在Current relation一栏下是Attributes（属性）栏。

有四个按钮，其下是当前关系中的属性列表。

该列表有3列：1.No..一个数字，用来标识数据文件中指定的各属性的顺序。

2.选择框.允许勾选关系中呈现的各属性。

.数据文件中声明的各属性的名称。

当点击属性列表中的不同行时，右边Selected attribute 一栏的内容随之改变。

这一栏给出了列表中当前高亮显示的属性的一些描述：.属性的名称，和属性列表中给出的相同。

2.Type.属性的类型，最常见的是分类型（Nominal）和数值型（Numeric）。

3.Missing.数据中该属性缺失(或者未指定)的实例的数量(及百分比)。

4.Distinct.数据中该属性包含的不同值的数目。

5.Unique.唯一地拥有某值的实例的数目（及百分比），这些实例每个的取值都和别的不一样。

在这些统计量的下面是一个列表，根据属性的不同类型，它显示了关于这个属性中储存的值的更多信息。

如果属性是分类型的，列表将包含该属性的每个可能值以及取那个值的实例的数目。

如果属性是数值型的，列表将给出四个统计量来描述数据取值的分布—最小值、最大值、平均值和标准差。

在这些统计量的下方，有一个彩色的直方图，根据直方图上方一栏所选择的 class 属性来着色。

(在点击时，该栏将显示一个可供选择的下拉列表。

) 注意仅有分类型的 class 属性才会让直方图出现彩色。

最后，若点击Visualize All按钮，将在一个单独的窗口中显示数据集中所有属性的直方图。

回到属性列表，开始时所有的选择框都是没有被勾选的。