Weka_数据挖掘软件使用指南
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Weka 数据挖掘软件使用指南
1.Weka简介
该软件是WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过/ml/weka得到。Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看Weka的接口文档。在Weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
2.Weka启动
打开Weka主界面后会出现一个对话框,如图:
主要使用右方的四个模块,说明如下:
❑Explorer:使用Weka探索数据的环境,包括获取关联项,分类预测,聚簇等;
❑Experimenter:运行算法试验、管理算法方案之间的统计检验的环境;
❑KnowledgeFlow:这个环境本质上和Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习;
❑SimpleCLI:提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行Weka命令(某些情况下使用命令行功能更好一些)。
3.主要操作说明
点击进入Explorer模块开始数据探索环境。
3.1主界面
进入Explorer模式后的主界面如下:
3.1.1标签栏
主界面最左上角(标题栏下方)的是标签栏,分为五个部分,功能依次是:
❑Preprocess(数据预处理):选择和修改要处理的数据;
❑Classify(分类):训练和测试关于分类或回归的学习方案;
❑Cluster(聚类):从数据中学习聚类;
❑Associate(关联):从数据中学习关联规则;
❑Select attributes(属性选择):选择数据中最相关的属性;
❑Visualize(可视化):查看数据的交互式二维图像。
3.1.2载入、编辑数据
标签栏下方是载入数据栏,功能如下:
❑Open file:打开一个对话框,允许你浏览本地文件系统上的数据文件(.dat);
❑Open URL:请求一个存有数据的URL 地址;
❑Open DB:从数据库中读取数据;
❑Generate:从一些数据生成器中生成人造数据。
3.1.3其他界面说明
接下来的主界面中依次是Filter(筛选器),Currtent relation(当前关系)、Attributes(属性信息)、Selected attribute(选中的属性信息)以及Class(类信息),分别介绍如下:
❑Filter
在预处理阶段,可以定义筛选器来以各种方式对数据进行变换。Filter 一栏用于对各种筛选器进行必要设置。Filter一栏的左边是一个Choose 按钮。点击这个按钮就可选择Weka中的某个筛选器。用鼠标左键点击这个choose左边的显示框,将出现GenericObjectEditor对话框。用鼠标右键点击将出现一个菜单,你可从中选择,要么在GenericObjectEditor对话框中显示相关属性,要么将当前的设置字符复制到剪贴板。
❑Currtent relation
显示当前打开的数据文件的基本信息:Relation(关系名),Instances(实例数)以及Attributes (属性个数)。
❑Attributes
显示数据文件中的属性信息,并且包含四个操作按键:
❑All:所有选择框都被勾选;
❑None:所有选择框被取消;
❑Invert:已勾选的选择框都被取消,反之亦然;
❑Pattern:让用户基于Perl 5正则表达式来选择属性。例如,用*_id选择所有名称以_id结束的属性。
底下显示的就是数据文件包含的属性,可以进行勾选等操作。特别地,当数据预处理是不要某个属性时,将其各选,点击列表正下方的Remove按键即可删除这一属性:
❑Selected attribute
显示勾选的属性的基本信息。
❑Class
显示属性中数据元组的直方图。点击Visualize all按键可以查看所有属性中元组的直方图。
3.2实现基本数据挖掘功能:
3.2.1 Associate(关联规则)
注意:目前,Weka的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。
各部分功能说明如下:
❑Associator
切换到Associate选项卡。单击choose按键,可以选择关联规则算法,系统默认关联规则
分析算法是Apriori算法。
选择关联规则算法后,点Choose右边的文本框修改默认的参数,弹出的窗口中点More可以看到各参数的说明。一下简列几项:
upperBoundMinSupport:最小支持度上限
removeAllMissingCols :移除具有遗失值的列
lowerBoundMinSupport :最小支持度下限
outputItemSets :如果有可能也输出项集
significanceLevel:显著性水平
classIndex:确定分类属性,如果设为-1,则最后一个属性为分类属性
treatZeroAsMissing :将遗失值全部置为0
numRules:在某种关联规则下取出的满足条件的规则数;
metricType:关联、程度指标;
注意:各种关联规则算法都是尤其使用范围的,并不是所有的属性的数据类型都能被某
一算法处理,典型的例如Apriori算法。因此可以在choose下拉菜单中选择Filter选项,在其中
勾选待处理数据的属性的类型以滤除无法使用的算法。要想知道每种算法都是用哪些数据类型,可以左击choose旁边的文本框,在弹出的菜单栏中单击capabilities选项可以看到这种算法能够处理的数据类型。
Result list
点击Associator下方的start按键可以开始进行关联项分析,结果列表即出现在Result list中,右击出现更多选项可供选择。
Associator output
这里显示关联分析结果,如图为一个例子: