数据挖掘技术与应用实验报告

数据挖掘技术与应用实验报告
数据挖掘技术与应用实验报告

数据挖掘技术与应用实验报告

专业:_______________________ 班级:_______________________ 学号:_______________________ 姓名:_______________________

2012-2013学年第二学期

经济与管理学院

实验名称:SPSS Clementine 软件安装、功能演练

指导教师: 实验日期: 成绩:

实验目的

1、熟悉SPSS Clementine 软件安装、功能和操作特点。

2、了解SPSS Clementine 软件的各选项面板和操作方法。

3、熟练掌握SPSS Clementine 工作流程。

实验内容

1、打开SPSS Clementine 软件,逐一操作各选项,熟悉软件功能。

2、打开一有数据库、或新建数据文件,读入SPSS Clementine,并使用各种输出节点,熟悉数据输入输出。(要求:至少做access数据库文件、excel文件、txt文件、可变文件的导入、导出)

实验步骤

一实验前准备:

1.下载SPSS Clementine 软件安装包和一个虚拟光驱。

2.选择任意盘区安装虚拟光驱,并把下载的安装包的文件(后缀名bin)添加到虚拟光驱上,然后双击运行。

3.运行安装完成后,把虚拟光驱中CYGiSO文件中的lservrc文件和PlatformSPSSLic7.dll文件复制替换到安装完成后的bin文件中,完成破解,获得永久免费使用权。

4.运行中文破解程序,对SPSS Clementine 软件进行汉化。

二实验操作:

1、启动Clementine:从Windows 的“开始”菜单中选择:所有程序/SPSS Clementine 12.0/SPSS Clementine client 12.0

2、Clementine窗口当第一次启动Clementine 时,工作区将以默认视图打开。中间的区域称作流工作区。在Clementine 中,这将是用来工作的主要区域。Clementine 中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创建图形和构建模型。

Clementine 中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创建图形和构建模型。

要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释

放。随后可将各个图标连接以创建一个表示数据流动的流。

创建一个简单的数据流操作:①编辑“数据源”选择一种数据文件(数据库文件、excle文件或可变文件等),双击文件类型,即可添加到数据流编辑区

注:导入数据库文件需要通过ODBC方式访问数据库。

步骤:第一步:打开windows“控制面板”,依次选择“管理工具”和“数据源ODBC”。添加一个所要访问的数据源驱动(如:microsoft access

driver(*.mdb)。

第二步:点击“选择”,选择相应的数据源和相应的表/视图。

②在“输出”模型中选择一种输出模型(表或自定义表格)。

③按快捷键F2把数据源与输出模型链接起来。

④双击数据源对其进行编辑,导入相应的文件,然后单击“执行”,就可以看到输出的表。

实验总结:

实验评价(教师):

实验名称:SPSS Clementine 数据可视化

指导教师: 实验日期: 成绩:

实验目的

1、熟悉SPSS Clementine 绘图。

2、了解SPSS Clementine 图形选项面板各节点的使用方法。

3、熟练掌握SPSS Clementine 数据可视化流程。

实验内容

1、打开SPSS Clementine 软件,逐一操作各图形选项面板,熟悉软件功能。

2、打开一有数据库、或新建数据文件,读入SPSS Clementine,并使用各种输出节点,熟悉数据输入输出。(要求:至少做分布图、直方图、收集图、多重散点图、时间散点图)

实验步骤

1、启动Clementine:

请从Windows 的“开始”菜单中选择:

所有程序

SPSS Clementine 12.0

SPSS Clementine client 12.0

2、建立一个流、导入相关数据,打开图形选项面板。数据源文件类型为“可变文件”,导入相应文件“drug_long_name”,双击选择分布图、直方图、收集图、多重散点图、时间散点图等节点,按住F2键连接好个节点建立好数据流图。

源数据字段包括:Sex、BP 、NA 、K、Age、cholesterol、Drug。

3.分布图

编辑“分布图“,选定字段”sex”,交叠字段颜色“drug”,按计数排序。标题“药品种类分布图“。执行数据流,生成相应的分布图。图形分析结果见下表。

4.直方图

编辑"直方图”,选定字段”na”,交叠字段颜色“drug”,分箱按数量30,标题“钠含量与药品种类直方图”。执行数据流生成相应直方图。从图中可以看出drugY的na含量最高,明显高于其他药品。

5.收集图

编辑“收集图”,收集字段“na”,超出字段“k”,由:“cholesterol”(三维图)。交叠字段颜色:“cholesterol”。标题“na超出age由cholesterol收集图”。执行数据流生成相应的收集图。从图中可以看出,在相同k含量的基础上,Normal level of cholesterol水平的na含量大部分比High level of cholesterol水平的na含量低。

6.多重散点图

编辑“多重散点图”,X字段:age。Y字段:“k“、”na“。交叠字段颜色:”cholesterol“。执行数据流,生成相应的”标准化“或非“标准化”的多重散点图。从图中可以看出,同一年龄的人,na含量明显比k含量高;na含量随年龄的变化波动比较大,而k含量随年龄的变化波动不明显。

7.冒泡图

编辑“图形板”,“详细信息”中选择图形“冒泡图”,X:age。Y:na。大小:drug。颜色:drug;单击“应用“,执行数据流,生成相应冒泡图。从图中可以看出冒泡图中清楚地显示一个阈值,在此阈值上方,对症药品始终是Y,在此阈值下方,对症药品均不是Y。此阈值是一个比率,即钠(Na)和钾(K)的比率。

实验总结:

实验评价(教师):

实验名称:决策树C5.0 建模

指导教师: 实验日期: 成绩:

实验目的

1、熟悉SPSS Clementine建模方法。

2、掌握SPSS Clementine分布图、散点图、网络图的创建方法。

3、掌握决策树C5.0决策方法。

实验内容

1、创建散点图。

2、创建分布图。

3、创建网络图。

假设你是一位正在汇总研究数据的医学研究员。已收集了一组患有同一疾病的患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应。的任务就是通过数据挖掘找出适合治疗此疾病的药物。

此实验使用名为druglearn.str 的流,此流引用名为DRUG1n 的数据文件。可以从任何Clementine Client 安装软件的Demos 目录下找到这些文件,也可以通过从Windows 的“开始”菜单选择Start > [All] Programs > SPSS Clementine 11.1 > Demos访问这些文件。文件druglearn.str 位于Classification_Module 目录中。此 demo 中使用的数据字段包括:

实验步骤

1、读取文本数据

新建数据源"可变文件”。然后,双击新添加的节点以打开相应的对话框。

单击紧挨“文件”框右边以省略号“...”标记的按钮,浏览到系统中的Clementine 安装目录。打开demos 目录,然后选择名为DRUG1n 的文件。选择从文件读取字段名,并注意已载入此对话框中的字段和值。源数据字段包括:Sex、BP 、NA 、K、Age、cholesterol、Drug。

2、添加表。

现在已载入数据文件,可以浏览一下某些记录的值。将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。

查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。表中显示的是Sex、BP 、NA 、K、Age、cholesterol、Drug这些字段的数据。

3、创建分布图

将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。目标字段:Drug。交叠字段:Sex。然后,在对话框中单击执行,就可以看到各种药品在不同性别上的分布图。图形分析结果见下表。所以,药品Y 的对症患者最多,而药品 B 和药品 C 的对症患者最少。

4、创建散点图

为了了解哪些因素会对药品(目标变量)产生影响,我们需要创建一个关于钠和钾的散点图。

将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑

在“散点图”选项卡中,选择Na 作为X 字段,选择K 作为Y 字段,并选择Drug作为交叠字段。然后单击执行。

通过散点图可以看出:在同等钠含量的药品中,Y药品的的钾含量明显低于其他药品。

5、创建网络图

双击选择“网络节点”,在“网络节点”对话框中,选择BP(血压)和药品。然后单击执行。

通过网络图可以看出:药品Y 与三种级别的血压均相关(连接数为245,连接数最大)。Y 是最佳药品。

实验总结:

实验评价(教师):

实验名称:关联规则挖掘

指导教师: 实验日期: 成绩:

实验目的

1、熟悉C5.0 规则归纳

2、掌握购物篮分析的方法。

实验内容

1、字段和记录的筛选。

2、规则归纳(C5.0)分类。

3、购物篮分析。

4、本实验处理描述超级市场购物篮内容(即,所购买的全部商品的集合)的虚构数据,以及购买者的相关个人数据(可通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客户群。

实验步骤

1、访问数据

使用“变量文件”节点连接到数据集BASKETS1n,选择要从该文件读取的字段名称。将“类型”节点连接到数据源,然后将该节点连接到“表”节点。将字段卡ID 的类型设置为无类型(因为每个忠诚卡ID 在数据集中只出现一次,因此对于建模没有用处)。选择集作为字段性别的类型(这是为了确保GRI 建模算法不会将性别视为标志)。

执行流以将“类型”节点实例化并显示表。数据集包含18 个字段,其中每条记录表示一个购物篮。

表输出结果中显示18 个字段及其数据。

分别是:

●cardid.购买此篮商品的客户的忠诚卡标识符。

●value.购物篮的总购买价格。

●pmethod.购物篮的支付方法。

卡持有者的个人详细信息:

●sex 性别

●homeown.卡持有者是否拥有住房。

●income 收入

●age 年龄

购物篮内容—产品类别的出现标志:

●fruitveg

●freshmeat

●dairy

●cannedveg

●cannedmeat

●frozenmeal

●beer

●wine

●softdrink

●fish

●confectionery

2、关联分析

双击选择GRI规则模型节点,和类型节点相连接。

编辑“类型”节点,将所有产品类别的方向设置为双向,并将所有其他方向设置为无。(双向表示该字段可以是结果模型的输入或输出。)

双击编辑GRI节点,字段选项设置为“使用类型节点设置”;模型参数中选择“只显示值为真的标志变量”,最低支持度为10%,最小置信度为50%,最大前项数为3,最大规则数20,然后执行GRI 节点,可直接查看非精制GRI模型生成的关联规则(见下表)。

联。出现双向关联规则

(如:frozenmeal ?beer beer ?frozenmeal)

将Web 节点附加到“类型”节点,编辑Web 节点,选择所有购物篮内容字段,选择仅显示true 标志,然后执行Web 节点。

因为大多数产品类别组合都会出现在多个购物篮中,所以此Web 上的强链接太多,无法显示GRI 模型表示的客户群。要提高临界值以便只显示最强的链接,使用工具栏上的滑块来实现最多只显示50 个连接。

要指定弱连接和强连接,请单击工具栏上的黄色双箭头按钮。这会展开显示Web 输出摘要和控件的对话框。

选择大小表示强/正常/弱。将弱链接设置为低于90。将强链接设置为高于100。

在最终显示中,会有三个客户群突出显示:

●购买鱼和果蔬的客户,可将这类客户称为“健康食客”

●购买酒和粮果的客户

●购买啤酒、冻肉和罐装蔬菜(“啤酒、豆类和比萨”)的客户

请注意,GRI 仅标识这些客户群中的最后两个;健康食客未形成足够强的模式,GRI 无法发现它。

3、描绘客户群的特征

现在,已经根据客户购买的产品类型标识了三个客户群,但是还要知道这些客户是谁,即他们的人口统计学特征。通过为每个群中的每名客户添加标志,并使用规则归纳(C5.0) 来基于规则描绘这些标志的特征,可以实现这一点。

首先,必须获取每个群的标志。使用刚刚创建的Web 显示,可以自动生成每个群的标志。使用鼠标右键,单击fruitveg和fish之间的链接,并选择为链接

生成“派生”节点。

编辑最终的“派生”节点以将“派生”字段名称更改为healthy。使用从wine 到confectionery的链接重复该练习,并将最终的“派生”字段命名为wine_chocs。

对于第三个群(涉及三个链接),首先要确保未选择任何链接。然后,在按住shift 键的同时单击鼠标左键,从而选择cannedveg、beer和frozenmeal中的全部三个链接。(一定要处于“交互”模式而不是“编辑”模式。)然后,从Web 显示菜单中选择:生成:导出节点(“和”)将最终“派生”字段的名称更改为beer_beans_pizza。

要描绘这些客户群的特征,请连续将现有的类型节点连接到这三个导出节点,然后附加另一个类型节点。在新类型节点中,请将除以下字段外的所有字段的方向都设置为无:value、pmethod、sex、homeown、income和age(这些字段的方向应该设置为输入),以及相关的客户群(例如,beer_beans_pizza,它们的方向应该设置为输出)。附加C5.0 模型节点,将输出类型设置为规则集,然后执行它。最终模型(用于beer_beans_pizza)包含此客户群的明确人口统计学特征:income <= 16,950 [ 模式: F ] (338)

sex in [ "F" ] [ 模式: F ] => F (173; 0.988)

sex in [ "M" ] [ 模式: T ] => T (165; 0.842)

income > 16,950 [ 模式: F ] => F (662; 0.992)

4、规则归纳(C5.0)分类

双击选择CS5.0模型节点,并与类型节点相连接。

将类型节点中非食品字段设为“无”,beer字段设为输出,其余字段设为输入。

在类型节点与CS5.0节点间添加分区节点,训练集设为80%,测试集设置为20%。

默认CS5.0的参数设置,执行该节点,查看节点输出结果。

模型:

frozenmeal = T [ 模式: T ] (302)

cannedveg = T [ 模式: T ] => T (173; 0.844)

cannedveg = F [ 模式: F ] => F (129; 0.814)

frozenmeal = F [ 模式: F ] => F (698; 0.824)

在“模型”选项可以看到cannedveg(0.50719)和frozenmea(0.49218)重要性最高。

实验总结:

实验评价(教师):

实验名称:欺诈屏蔽/异常检测/神经网络

指导教师: 实验日期: 成绩:

实验目的

1、熟悉各种聚类分析方法

2、了解神经网络分析方法与过程

3、掌握异常检测的方法。

实验内容

1、聚类分析。

2、神经网络建模。

3、异常检测。

4、此实验显示了Clementine 在检测诈欺行为方面的应用。这一领域涉及农业发展财政补贴申请。有两种财政补贴类型在考虑之列:耕地开发财政补贴和退役田地财政补贴。

实验使用虚拟数据演示如何通过分析方法来发现与标准数据的偏差,同时突出了有必要进一步调查的异常记录。

实验步骤

1.新建数据源。编辑数据源:从Clementine Client 安装软件的Demos 目录找到grantfraudN.db 的数据文件。

此数据包含9 个字段:

?ID。唯一标识符。

?姓名。申请人姓名。

?区域。地理位置(中部/北部/西南部/东南部)。

?田地质量。以整数为计量单位- 农户申报的田地质量。

?降雨量。以整数为计量单位- 田地年降雨量。

?田地收入。以实数为计量单位- 申报的田地年收入。

?主要农作物。主产农作物(玉米/小麦/马铃薯/油菜籽)。

?申请类型。申请的财政补贴类型(decommission_land/arable_dev)。

?申请金额。以实数为计量单位- 申请的财政补贴额。

2、异常检测

双击选择异常检测节点

使用变量文件节点连接到数据集grantfraudN.db。此数据集包含字段名称,因此可以将表节点添加到流并执行以检查其构成。

在类型选项卡中,单击读取值读取数据,然后将姓名和ID 字段的方向设置为无,因为建模过程中不使用这些字段。所有其他字段的方向应设置为输入,这样他们将作为输入内容包含在异常检测模型中。

在异常检测节点的“模型”选项卡中,选择训练数据中大多数异常记录的数目,然后输入值10。然后执行此节点,并将生成的节点添加到流。

在已生成模型的“设置”选项卡中,可以查看异常记录。

添加表节点并执行,以查看得分数据。模型生成的$0-Anomaly 字段表明哪些记录为潜在异常记录。由于在“设置”选项卡中选中了放弃记录选项,所以仅列出标记为潜在异常的记录。还列出了每条记录的整体异常指数值,同时给出了对等组和最有可能造成记录异常的三个字段。下表为异常检测模型中检测的10个异常记录。

异常指数对等

异常字段

1

平均指

数1

异常字段

2

平均指

数2

异常字段

3

平均指

数3

1.60

2.00 claimval

ue 0.36 farmincom

e

0.28 maincrop 0.09

1.40

2.00 farminco

me 0.33 claimvalu

e

0.16 maincrop 0.11

1.50

2.00 rainfall 0.32 maincrop 0.18 region 0.17 1.36 1.00 rainfall 0.23 region 0.22 landquali

ty

0.19

1.43

2.00 farminco

me 0.29 maincrop 0.19 claimvalu

e

0.16

1.68

2.00 claimval

ue 0.40 farmincom

e

0.23 maincrop 0.09

1.77

2.00 claimval

ue 0.39 farmincom

e

0.15 region 0.13

1.39 1.00 maincrop 0.24 rainfall 0.16 farmsize 0.16 1.64 1.00 region 0.18 landquali

ty

0.16 maincrop 0.16

1.35

2.00 region 0.19 maincrop 0.17 claimvalu

e

0.17

表中数据表明,所有样本数据聚成了两个对等组,异常指数截断为1.35,表

中的异常指数都大于1.35,所以表中的记录都是离散点。

4、训练神经网络

首先将claimvalue字段方向设为输出

双击选择神经网络节点,默认参数设置。根据目标变量或相关变量来进行预测。通过这些预测变量,您可以查明偏差的记录或记录组。在最初的数据调查中,在考虑各种因素的情况下将实际申请金额与期望金额进行比较很有用。这就是神经网络的意义所在。在数据中使用变量,神经网络可以根据目标变量或相关变量来进行预测。通过这些预测变量,您可以查明偏差的记录或记录组。

将神经网络节点与类型字段连接并执行。在流管理窗口中双击神经网络模型生成的节点,将生成节点与类型节点相连接,在添加一个输出表节点,在表中查看字段claimvalue 的预测结果。在神经网络的生成节点后再添加一个分析节点,来评价神经网络模型的预测情况(见下表)。

比较$N-claimvalue 与claimvalue

115.882,说明总体的预测误差较小,但最大误差较大,可能是由于异常值得影响。

一旦神经网络训练结束,可以将已生成模型添加到流,然后绘制一张预期申请金额与实际申请金额的比较图。

从散点图可以看出预期申请金额与实际申请金额都基本相符。导出另一个claimdiff 字段(与之前导出的“收入差额”字段类似)。此导出节点使用CLEM 表达式(abs(claimvalue - '$N-claimvalue') / 'claimvalue') * 100

为了说明实际申请金额与预估申请金额之间的差异,使用claimdiff 直方图,了解申请金额比预估金额(由神经网络判断)高的人。

通过在直方图可以看出实际申请金额与预估申请金额之间的差异的比重在

50%以下的人数较多,而50%以上的人数很少。

5、聚类分析

在类型字段后添加“K-means“节点,进行进行聚类分析。类型节点中将Id 和Name字段的方向设为无,其余字段的方向都为输入。

双击编辑节点参数:将聚类数目设为4,其他参数不变。

执行数据流,输出聚类分析模型的结果,并用表节点浏览。一共生成了5个聚类,从图表可以看出聚类一、聚类二和聚类三具有比较明显的特征,申请的财政补贴类型为decommission_land且主要农作物为小麦的是聚类一(73个样本),申请的财政补贴类型为decommission_land且地域为西南地区的是聚类二(38个样本),申请的财政补贴类型为arable_dev且地域为西南地区的是聚类三(55个样本)。

实验总结:

实验评价(教师):

实验名称:分类和回归树节点(C&RT)

指导教师: 实验日期: 成绩:

实验目的

1、掌握C&RT分类算法。

2、掌握决策树的建立和修剪

3、了解C&RT分类算法在管理决策中的应用

实验内容

1、C&RT分类算法建立决策树

2、分类和回归树节点(C&RT) 是一种基于树的分类和预测方法,此方法使用递归分区将训练记录分割为多个具有相似的输出字段值的段。在本实验中,将C&RT 应用于某市场研究,其中的目标字段为有意预订有线电视交互服务。预测变量字段包括年龄、性别、教育、收入类别、每天看电视的时间和子女数(按有序集合编码,因为值8 表示8 个或更多)。

实验步骤

1、C&RT树

新建数据流,在Demos 文件夹中添加指向NewsChan.sav 的SPSS 文件源节点。源数据文件包括8个字段:EDUCATE、GENDER、AGE、TVDAY、ORGS、CHILDS、INC、NEWSCHAN、。

为流添加类型节点。在类型节点中选择读取值以实例化字段。选择NEWSCHAN 并将其类型设置为标志,将其方向设置为输出。其他所有字段用作预测变量(输入)。

将C&RT 节点连接到类型节点。在“模型”选项卡上,选择启动交互会话作为构建选项。这样,在执行节点时将启动“交互树”窗口,通过该窗口可以在生成模型之前生成并编辑树。

在“专家”选项卡上选择专家模式并选择修剪树和使用标准误规则。将最小杂质改变值设置为0.003。增加此值可避免进行改进意义十分微小的分割,从而倾向于生成较简单的树。

要指定停止标准,可在“专家”选项卡上单击停止。在“停止标准”对话框

中选择使用绝对值。将最小绝对临界值更改为25 和10,然后单击确定。

最初,仅显示根节点。在“查看器”选项卡上,单击根节点以选中它并从菜单中选择以下项:生成树、生成树和修剪、生成分支等;最后生成合适的决策树模型。决策树规则如下:

生成的树具有五层和五个终端节点。(要查看整个树,可使用缩放工具或单击工具栏右侧的图窗口工具按钮。)

2、生成模型和节点以便评分

使用决策树时,共有几个选项可用于生成或导出会话结果。其中两个常用的选项为根据当前树生成模型或根据当前树生成选择节点。这些选项会在下面各节中进行说明。

(1)根据当前树生成模型

可使用此流生成模型,该模型可根据分配到节点的记录的积极响应率对这些记录进行评分。在交互树窗口的“查看器”选项卡上,从“生成”菜单中选择生成模型。

此时将出现“生成新模型”对话框。在“生成新模型”对话框中,输入新模型的名称(可选),然后单击确定。该模型位于流工作区中。

在流工作区中,将生成的NEWSCHAN1 模型连接到类型节点。

在生成的NEWSCHAN1 模型中,单击设置选项卡,选择计算置信度和规则ID,然后单击确定。

连接表节点并执行流。

已执行的表中显示了可能接受有线电视服务预订的用户的记录。$R-NEWSCHAN 列显示了对这些记录的预测结果。如果某记录显示的值为1,则可以预测该用户对预订的响应为是。

如果需要,可将此生成的模型保存到模型选项板上以备将来的数据使用。右键单击流中的NEWSCHAN1 模型并选择添加到模型选项板。然后单击模型选项板上的模型并选择保存模型。

(2)生成选择节点

还可以生成选择节点,该节点包括所有落在节点 2 和13 中的记录。然后,可以使用具有新数据的选择节点确定哪些用户最有可能对预订做出积极的响应。

?在交互树窗口中,使用按住Ctrl 键并单击的方法选中节点2 和13。

?从“生成”菜单中,选择选择节点。

生成的选择节点位于流工作区中。。

该生成的选择节点可根据在交互树窗口中为节点 2 和13 选择的标准来构建表达式。

?将生成的选择节点连接到流中的类型节点上。

?将表连接到选择节点并执行该表以查看记录。注意,此次仅选中226 个记录而不是原来的442 个记录。

(3)模型分析

在模型的生成节点后再添加一个分析节点,双击编辑分析节点,勾选重合矩阵和置信图,其他参数不变,单击执行。分析结果见下

输出字段NEWSCHAN 的结果

与NEWSCHAN

②$R-NEWSCHAN 的重合矩阵(行表示实际值)

从表中可以看出样本值为0且预测值为1的样本数为17,实际值为1且预测值也为1的样本数为83.

实验总结:

数据挖掘实验报告

《数据挖掘》Weka实验报告 姓名_学号_ 指导教师 开课学期2015 至2016 学年 2 学期完成日期2015年6月12日

1.实验目的 基于https://www.360docs.net/doc/639869099.html,/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自https://www.360docs.net/doc/639869099.html,/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size (均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度;

数据挖掘及决策树

昆明理工大学信息工程与自动化学院学生实验报告 (2016 —2017 学年第学期) 课程名称:数据仓库与数据挖掘开课实验室:信自楼444 2017 年 06 月 01 日 一、上机目的及内容 目的: 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。 内容: 给定AdventureWorksDW数据仓库,构建“Microsoft 决策树”模型,分析客户群中购买自行车的模式。 要求: 利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的 二、实验原理及基本技术路线图(方框原理图或程序流程图) 请描述数据挖掘及决策树的相关基本概念、模型等。 1.数据挖掘:从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、 人们事先不知道的、但又潜在有用的信息和知识的过程。

预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来 变化趋势或者评估给定样本可能具有的属性值或值的范围 聚类分析根据数据的不同特征,将其划分为不同数据类 偏差分析对差异和极端特例的描述,揭示事物偏离常规的异常现象,其基本思想 是寻找观测结果与参照值之间有意义的差别 3.决策树:是一种预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个 节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从 根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输 出,可以建立独立的决策树以处理不同输出。 算法概念 ID3 在实体世界中,每个实体用多个特征来描述。每个特征限于在一 个离散集中取互斥的值 C4.5 对ID3算法进行了改进: 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选 择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对 连续属性的离散化处理;能够对不完整数据进行处理。 三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及Microsoft SQL Server套件 四、实验方法、步骤(或:程序代码或操作过程) (一)准备Analysis Services 数据库 1.Analysis Services 项目创建成功 2.更改存储数据挖掘对象的实例

数据挖掘实验报告(一)

数据挖掘实验报告(一) 数据预处理 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1.学习均值平滑,中值平滑,边界值平滑的基本原理 2.掌握链表的使用方法 3.掌握文件读取的方法 二、实验设备 PC一台,dev-c++5.11 三、实验内容 数据平滑 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。使用你所熟悉的程序设计语言进行编程,实现如下功能(要求程序具有通用性): (a) 使用按箱平均值平滑法对以上数据进行平滑,箱的深度为3。 (b) 使用按箱中值平滑法对以上数据进行平滑,箱的深度为3。 (c) 使用按箱边界值平滑法对以上数据进行平滑,箱的深度为3。 四、实验原理 使用c语言,对数据文件进行读取,存入带头节点的指针链表中,同时计数,均值求三个数的平均值,中值求中间的一个数的值,边界值将中间的数转换为离边界较近的边界值 五、实验步骤 代码 #include #include #include #define DEEP 3 #define DATAFILE "data.txt" #define VPT 10 //定义结构体 typedef struct chain{ int num; struct chain *next; }* data; //定义全局变量 data head,p,q; FILE *fp; int num,sum,count=0; int i,j; int *box; void mean(); void medain(); void boundary(); int main () { //定义头指针 head=(data)malloc(sizeof(struc t chain)); head->next=NULL; /*打开文件*/ fp=fopen(DATAFILE,"r"); if(!fp) exit(0); p=head; while(!feof(fp)){

数据挖掘实验报告资料

大数据理论与技术读书报告 -----K最近邻分类算法 指导老师: 陈莉 学生姓名: 李阳帆 学号: 201531467 专业: 计算机技术 日期 :2016年8月31日

摘要 数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式,以满足人们不同应用的需要。K 近邻算法(KNN)是基于统计的分类方法,是大数据理论与分析的分类算法中比较常用的一种方法。该算法具有直观、无需先验统计知识、无师学习等特点,目前已经成为数据挖掘技术的理论和应用研究方法之一。本文主要研究了K 近邻分类算法,首先简要地介绍了数据挖掘中的各种分类算法,详细地阐述了K 近邻算法的基本原理和应用领域,最后在matlab环境里仿真实现,并对实验结果进行分析,提出了改进的方法。 关键词:K 近邻,聚类算法,权重,复杂度,准确度

1.引言 (1) 2.研究目的与意义 (1) 3.算法思想 (2) 4.算法实现 (2) 4.1 参数设置 (2) 4.2数据集 (2) 4.3实验步骤 (3) 4.4实验结果与分析 (3) 5.总结与反思 (4) 附件1 (6)

1.引言 随着数据库技术的飞速发展,人工智能领域的一个分支—— 机器学习的研究自 20 世纪 50 年代开始以来也取得了很大进展。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(Knowledge Discovery in Databases,简记 KDD)的产生,也称作数据挖掘(Data Ming,简记 DM)。 数据挖掘是信息技术自然演化的结果。信息技术的发展大致可以描述为如下的过程:初期的是简单的数据收集和数据库的构造;后来发展到对数据的管理,包括:数据存储、检索以及数据库事务处理;再后来发展到对数据的分析和理解, 这时候出现了数据仓库技术和数据挖掘技术。数据挖掘是涉及数据库和人工智能等学科的一门当前相当活跃的研究领域。 数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要[1]。目前,数据挖掘已经成为一个具有迫切实现需要的很有前途的热点研究课题。 2.研究目的与意义 近邻方法是在一组历史数据记录中寻找一个或者若干个与当前记录最相似的历史纪录的已知特征值来预测当前记录的未知或遗失特征值[14]。近邻方法是数据挖掘分类算法中比较常用的一种方法。K 近邻算法(简称 KNN)是基于统计的分类方法[15]。KNN 分类算法根据待识样本在特征空间中 K 个最近邻样本中的多数样本的类别来进行分类,因此具有直观、无需先验统计知识、无师学习等特点,从而成为非参数分类的一种重要方法。 大多数分类方法是基于向量空间模型的。当前在分类方法中,对任意两个向量: x= ) ,..., , ( 2 1x x x n和) ,..., , (' ' 2 ' 1 'x x x x n 存在 3 种最通用的距离度量:欧氏距离、余弦距 离[16]和内积[17]。有两种常用的分类策略:一种是计算待分类向量到所有训练集中的向量间的距离:如 K 近邻选择K个距离最小的向量然后进行综合,以决定其类别。另一种是用训练集中的向量构成类别向量,仅计算待分类向量到所有类别向量的距离,选择一个距离最小的类别向量决定类别的归属。很明显,距离计算在分类中起关键作用。由于以上 3 种距离度量不涉及向量的特征之间的关系,这使得距离的计算不精确,从而影响分类的效果。

数据挖掘报告

哈尔滨工业大学 数据挖掘理论与算法实验报告(2016年度秋季学期) 课程编码S1300019C 授课教师邹兆年 学生姓名汪瑞 学号 16S003011 学院计算机学院

一、实验内容 决策树算法是一种有监督学习的分类算法;kmeans是一种无监督的聚类算法。 本次实验实现了以上两种算法。在决策树算法中采用了不同的样本划分方式、不同的分支属性的选择标准。在kmeans算法中,比较了不同初始质心产生的差异。 本实验主要使用python语言实现,使用了sklearn包作为实验工具。 二、实验设计 1.决策树算法 1.1读取数据集 本次实验主要使用的数据集是汽车价值数据。有6个属性,命名和属性值分别如下: buying: vhigh, high, med, low. maint: vhigh, high, med, low. doors: 2, 3, 4, 5more. persons: 2, 4, more. lug_boot: small, med, big. safety: low, med, high. 分类属性是汽车价值,共4类,如下: class values:unacc, acc, good, vgood 该数据集不存在空缺值。

由于sklearn.tree只能使用数值数据,因此需要对数据进行预处理,将所有标签类属性值转换为整形。 1.2数据集划分 数据集预处理完毕后,对该数据进行数据集划分。数据集划分方法有hold-out法、k-fold交叉验证法以及有放回抽样法(boottrap)。 Hold—out法在pthon中的实现是使用如下语句: 其中,cv是sklearn中cross_validation包,train_test_split 方法的参数分别是数据集、数据集大小、测试集所占比、随机生成方法的可

数据挖掘实验报告-关联规则挖掘

数据挖掘实验报告(二)关联规则挖掘 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1. 1.掌握关联规则挖掘的Apriori算法; 2.将Apriori算法用具体的编程语言实现。 二、实验设备 PC一台,dev-c++5.11 三、实验内容 根据下列的Apriori算法进行编程:

四、实验步骤 1.编制程序。 2.调试程序。可采用下面的数据库D作为原始数据调试程序,得到的候选1项集、2项集、3项集分别为C1、C2、C3,得到的频繁1项集、2项集、3项集分别为L1、L2、L3。

代码 #include #include #define D 4 //事务的个数 #define MinSupCount 2 //最小事务支持度数 void main() { char a[4][5]={ {'A','C','D'}, {'B','C','E'}, {'A','B','C','E'}, {'B','E'} }; char b[20],d[100],t,b2[100][10],b21[100 ][10]; int i,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1; int count[100],temp; for(i=0;i=MinSupCount) { d[x1]=b[k]; count[x1]=c[k]; x1++; } } //对选出的项集中的元素进行排序 for(i=0;i

数据分析与挖掘实验报告

数据分析与挖掘实验报告

《数据挖掘》实验报告 目录 1.关联规则的基本概念和方法 (1) 1.1数据挖掘 (1) 1.1.1数据挖掘的概念 (1) 1.1.2数据挖掘的方法与技术 (2) 1.2关联规则 (5) 1.2.1关联规则的概念 (5) 1.2.2关联规则的实现——Apriori算法 (7) 2.用Matlab实现关联规则 (12) 2.1Matlab概述 (12) 2.2基于Matlab的Apriori算法 (13) 3.用java实现关联规则 (19) 3.1java界面描述 (19) 3.2java关键代码描述 (23) 4、实验总结 (29) 4.1实验的不足和改进 (29) 4.2实验心得 (30)

1.关联规则的基本概念和方法 1.1数据挖掘 1.1.1数据挖掘的概念 计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里,数据库中存储的数据急剧增大。数据挖掘就是信息技术自然进化的结果。数据挖掘可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的但又是潜在有用的信息和知识的过程。 许多人将数据挖掘视为另一个流行词汇数据中的知识发现(KDD)的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如下: ·数据清理(消除噪声和删除不一致的数据)·数据集成(多种数据源可以组合在一起)·数据转换(从数据库中提取和分析任务相关的数据) ·数据变换(从汇总或聚集操作,把数据变换和统一成适合挖掘的形式) ·数据挖掘(基本步骤,使用智能方法提取数

据模式) ·模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式) ·知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。 1.1.2数据挖掘的方法与技术 数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许多应用领域的大量技术。数据挖掘主要包括以下方法。神经网络方法:神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art 模型、koholon模型为代表的,用于聚类的自组

大数据挖掘weka大数据分类实验报告材料

一、实验目的 使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。 二、实验环境 实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。 Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java 写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 三、数据预处理 Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示 图1 ARFF格式数据集(iris.arff)

对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。 实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。若所采用的数据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属性的筛选。 实验所需的训练集和测试集均为iris.arff。 四、实验过程及结果 应用iris数据集,分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。 1、LibSVM分类 Weka 平台内部没有集成libSVM分类器,要使用该分类器,需要下载libsvm.jar并导入到Weka中。 用“Explorer”打开数据集“iris.arff”,并在Explorer中将功能面板切换到“Classify”。点“Choose”按钮选择“functions(weka.classifiers.functions.LibSVM)”,选择LibSVM分类算法。 在Test Options 面板中选择Cross-Validatioin folds=10,即十折交叉验证。然后点击“start”按钮:

数据挖掘实验报告

数据挖掘实验报告 ——加权K-近邻法 一、 数据源说明 1. 数据理解 数据来自于天猫对顾客的BuyOrNot(买与不买),BuyDNactDN(消费活跃度),ActDNTotalDN(活跃度),BuyBBrand(成交有效度),BuyHit(活动有效度)这五个变量的统计。 数据分成两类数据,一类作为训练数据集,一类为测试数据集。 2.数据清理 现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。 a) 缺失值:当数据中存在缺失值是,忽略该元组 b) 噪声数据:本文暂没考虑。 二、 基于变量重要性的加权K-近邻法[1] 由于我们计算K-近邻法默认输入变量在距离测度中有“同等重要”的贡献,但情况并不总是如此。我们知道不同的变量对我们所要预测的变量的作用是不一定一样的,所以找出对输出变量分类预测有意义的重要变量对数据预测具有重要作用。同时也可以减少那些对输出变量分类预测无意义的输入变量,减少模型的变量。为此,采用基于变量重要性的K-近邻法,计算加权距离,给重要的变量赋予较高的权重,不重要的变量赋予较低的权重是必要的。 (1)算法思路: 我们引进1w 为第i 个输入变量的权重,是输入变量重要性(也称特征重要性),FI 函数,定义为:∑== p j i FI FI 1 ) i ()((i)w 。其中(i)FI 为第i 个输入变量的特征重要性, ∑=<1,1w )((i)i w 这里,(i)FI 依第i 个输入变量对预测误差的影响定义。设输入 变量集合包含p 个变量:p x x x x ,...,,,321。剔除第i 个变量后计算输入变量

数据挖掘实验报告1

实验一 ID3算法实现 一、实验目的 通过编程实现决策树算法,信息增益的计算、数据子集划分、决策树的构建过程。加深对相关算法的理解过程。 实验类型:验证 计划课间:4学时 二、实验内容 1、分析决策树算法的实现流程; 2、分析信息增益的计算、数据子集划分、决策树的构建过程; 3、根据算法描述编程实现算法,调试运行; 4、对所给数据集进行验算,得到分析结果。 三、实验方法 算法描述: 以代表训练样本的单个结点开始建树; 若样本都在同一个类,则该结点成为树叶,并用该类标记; 否则,算法使用信息增益作为启发信息,选择能够最好地将样本分类的属性; 对测试属性的每个已知值,创建一个分支,并据此划分样本; 算法使用同样的过程,递归形成每个划分上的样本决策树 递归划分步骤,当下列条件之一成立时停止: 给定结点的所有样本属于同一类; 没有剩余属性可以进一步划分样本,在此情况下,采用多数表决进行 四、实验步骤 1、算法实现过程中需要使用的数据结构描述: Struct {int Attrib_Col; // 当前节点对应属性 int Value; // 对应边值 Tree_Node* Left_Node; // 子树 Tree_Node* Right_Node // 同层其他节点 Boolean IsLeaf; // 是否叶子节点 int ClassNo; // 对应分类标号 }Tree_Node; 2、整体算法流程

主程序: InputData(); T=Build_ID3(Data,Record_No, Num_Attrib); OutputRule(T); 释放内存; 3、相关子函数: 3.1、 InputData() { 输入属性集大小Num_Attrib; 输入样本数Num_Record; 分配内存Data[Num_Record][Num_Attrib]; 输入样本数据Data[Num_Record][Num_Attrib]; 获取类别数C(从最后一列中得到); } 3.2、Build_ID3(Data,Record_No, Num_Attrib) { Int Class_Distribute[C]; If (Record_No==0) { return Null } N=new tree_node(); 计算Data中各类的分布情况存入Class_Distribute Temp_Num_Attrib=0; For (i=0;i=0) Temp_Num_Attrib++; If Temp_Num_Attrib==0 { N->ClassNo=最多的类; N->IsLeaf=TRUE; N->Left_Node=NULL;N->Right_Node=NULL; Return N; } If Class_Distribute中仅一类的分布大于0 { N->ClassNo=该类; N->IsLeaf=TRUE; N->Left_Node=NULL;N->Right_Node=NULL; Return N; } InforGain=0;CurrentCol=-1; For i=0;i

数据挖掘实验报告 超市商品销售分析及数据挖掘

通信与信息工程学院 课程设计说明书 课程名称: 数据仓库与数据挖掘课程设计题目: 超市商品销售分析及数据挖掘专业/班级: 电子商务(理) 组长: 学号: 组员/学号: 开始时间: 2011 年12 月29 日完成时间: 2012 年01 月 3 日

目录 1.绪论 (1) 1.1项目背景 (1) 1.2提出问题 (1) 2.数据仓库与数据集市的概念介绍 (1) 2.1数据仓库介绍 (1) 2.2数据集市介绍 (2) 3.数据仓库 (3) 3.1数据仓库的设计 (3) 3.1.1数据仓库的概念模型设计 (4) 3.1.2数据仓库的逻辑模型设计 (5) 3.2 数据仓库的建立 (5) 3.2.1数据仓库数据集成 (5) 3.2.2建立维表 (8) 4.OLAP操作 (10) 5.数据预处理 (12) 5.1描述性数据汇总 (12) 5.2数据清理与变换 (13) 6.数据挖掘操作 (13) 6.1关联规则挖掘 (13) 6.2 分类和预测 (17) 6.3决策树的建立 (18) 6.4聚类分析 (22) 7.总结 (25) 8.任务分配 (26)

数据挖掘实验报告 1.绪论 1.1项目背景 在商业领域中使用计算机科学与技术是当今商业的发展方向,而数据挖掘是商业领域与计算机领域的乔梁。在超市的经营中,应用数据挖掘技术分析顾客的购买习惯和不同商品之间的关联,并借由陈列的手法,和合适的促销手段将商品有魅力的展现在顾客的眼前, 可以起到方便购买、节约空间、美化购物环境、激发顾客的购买欲等各种重要作用。 1.2提出问题 那么超市应该对哪些销售信息进行挖掘?怎样挖掘?具体说,超市如何运用OLAP操作和关联规则了解顾客购买习惯和商品之间的关联,正确的摆放商品位置以及如何运用促销手段对商品进行销售呢?如何判断一个顾客的销售水平并进行推荐呢?本次实验为解决这一问题提出了解决方案。 2.数据仓库与数据集市的概念介绍 2.1数据仓库介绍 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。........ 2.2数据集市介绍 数据集市,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。....... 3.数据仓库 3.1数据仓库的设计 3.1.1数据库的概念模型 3.1.2数据仓库的模型 数据仓库的模型主要包括数据仓库的星型模型图,我们创建了四个

数据挖掘期末实验报告

数据挖掘技术期末报告 理学院 姓名: 学号: 联系电话:

专业班级: 评分:优□|良□|中□|及格□|不及格□

一、实验目的 基于从UCI公开数据库中下载的数据,使用数据挖掘中的分类算法,用Weka 平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。二、实验环境 实验采用Weka平台,数据使用来自从UCI公开数据库中下载,主要使用其中的Breast Cancer Wisc-onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 三、实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。

数据挖掘实验报告一

数据预处理 一、实验原理 预处理方法基本方法 1、数据清洗 去掉噪声和无关数据 2、数据集成 将多个数据源中的数据结合起来存放在一个一致的数据存储中 3、数据变换 把原始数据转换成为适合数据挖掘的形式 4、数据归约 主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等二、实验目的 掌握数据预处理的基本方法。 三、实验内容 1、R语言初步认识(掌握R程序运行环境) 2、实验数据预处理。(掌握R语言中数据预处理的使用) 对给定的测试用例数据集,进行以下操作。 1)、加载程序,熟悉各按钮的功能。 2)、熟悉各函数的功能,运行程序,并对程序进行分析。 对餐饮销量数据进统计量分析,求销量数据均值、中位数、极差、标准差,变异系数和四分位数间距。 对餐饮企业菜品的盈利贡献度(即菜品盈利帕累托分析),画出帕累托图。 3)数据预处理 缺省值的处理:用均值替换、回归查补和多重查补对缺省值进行处理 对连续属性离散化:用等频、等宽等方法对数据进行离散化处理 四、实验步骤 1、R语言运行环境的安装配置和简单使用 (1)安装R语言 R语言下载安装包,然后进行默认安装,然后安装RStudio 工具(2)R语言控制台的使用 1.2.1查看帮助文档

1.2.2 安装软件包 1.2.3 进行简单的数据操作 (3)RStudio 简单使用 1.3.1 RStudio 中进行简单的数据处理 1.3.2 RStudio 中进行简单的数据处理

2、R语言中数据预处理 (1)加载程序,熟悉各按钮的功能。 (2)熟悉各函数的功能,运行程序,并对程序进行分析 2.2.1 销量中位数、极差、标准差,变异系数和四分位数间距。 , 2.2.2对餐饮企业菜品的盈利贡献度(即菜品盈利帕累托分析),画出帕累托图。

数据挖掘实验报告-实验1-Weka基础操作

数据挖掘实验报告-实验1-W e k a基础操作

学生实验报告 学院:信息管理学院 课程名称:数据挖掘 教学班级: B01 姓名: 学号:

实验报告 课程名称数据挖掘教学班级B01 指导老师 学号姓名行政班级 实验项目实验一: Weka的基本操作 组员名单独立完成 实验类型■操作性实验□验证性实验□综合性实验实验地点H535 实验日期2016.09.28 1. 实验目的和要求: (1)Explorer界面的各项功能; 注意不能与课件上的截图相同,可采用打开不同的数据文件以示区别。 (2)Weka的两种数据表格编辑文件方式下的功能介绍; ①Explorer-Preprocess-edit,弹出Viewer对话框; ②Weka GUI选择器窗口-Tools | ArffViewer,打开ARFF-Viewer窗口。(3)ARFF文件组成。 2.实验过程(记录实验步骤、分析实验结果) 2.1 Explorer界面的各项功能 2.1.1 初始界面示意

其中:explorer选项是数据挖掘梳理数据最常用界面,也是使用weka最简单的方法。 Experimenter:实验者选项,提供不同数值的比较,发现其中规律。 KnowledgeFlow:知识流,其中包含处理大型数据的方法,初学者应用较少。 Simple CLI :命令行窗口,有点像cmd 格式,非图形界面。 2.1.2 进入Explorer 界面功能介绍 (1)任务面板 Preprocess(数据预处理):选择和修改要处理的数据。 Classify(分类):训练和测试分类或回归模型。 Cluster(聚类):从数据中聚类。聚类分析时用的较多。 Associate(关联分析):从数据中学习关联规则。 Select Attributes(选择属性):选择数据中最相关的属性。 Visualize(可视化):查看数据的二维散布图。 (2)常用按钮

数据挖掘实验报告(参考)

时间序列的模型法和数据挖掘两种方法比较分析研究 实验目的:通过实验能对时间序列的模型法和数据挖掘两种方法的原理和优缺点有更清楚的认识和比较. 实验内容:选用1952-2006年的中国GDP,分别对之用自回归移动平均模型(ARIMA) 和时序模型的数据挖掘方法进行分析和预测,并对两种方法的趋势和预测结果进行比较并 给出解释. 实验数据:本文研究选用1952-2006年的中国GDP,其资料如下 日期国内生产总值(亿元)日期国内生产总值(亿元) 2006-12-312094071997-12-3174772 2005-12-311830851996-12-31 2004-12-311365151995-12-31 2003-12-311994-12-31 2002-12-311993-12-31 2001-12-311992-12-31 2000-12-31894041991-12-31 1999-12-31820541990-12-31 1998-12-31795531989-12-31 1988-12-311969-12-31 1987-12-311968-12-31 1986-12-311967-12-31 1985-12-311966-12-311868 1984-12-3171711965-12-31 1983-12-311964-12-311454 1982-12-311963-12-31 1981-12-311962-12-31 1980-12-311961-12-311220 1979-12-311960-12-311457 1978-12-311959-12-311439 1977-12-311958-12-311307 1976-12-311957-12-311068 1975-12-311956-12-311028 1974-12-311955-12-31910 1973-12-311954-12-31859 1972-12-311953-12-31824 1971-12-311952-12-31679 1970-12-31 表一 国内生产总值(GDP)是指一个国家或地区所有常住单位在一定时期内生产活动的最终成果。这个指标把国民经济全部活动的产出成果概括在一个极为简明的统计数字之中为评价和衡量国家经济状况、经济增长趋势及社会财富的经济表现提供了一个最为综合的尺度,可以说,

数据挖掘实验报告三

实验三 一、实验原理 K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 算法原理: (1) 随机选取k个中心点; (2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类; (3) 更新中心点为每类的均值; (4) j<-j+1 ,重复(2)(3)迭代更新,直至误差小到某个值或者到达一定的迭代步 数,误差不变. 空间复杂度o(N) 时间复杂度o(I*K*N) 其中N为样本点个数,K为中心点个数,I为迭代次数 二、实验目的: 1、利用R实现数据标准化。 2、利用R实现K-Meams聚类过程。 3、了解K-Means聚类算法在客户价值分析实例中的应用。 三、实验内容 依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。对其进行标准差标准化并保存后,采用k-means算法完成客户的聚类,分析每类的客户特征,从而获得每类客户的价值。编写R程序,完成客户的k-means聚类,获得聚类中心与类标号,并统计每个类别的客户数

四、实验步骤 1、依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。

2、确定要探索分析的变量 3、利用R实现数据标准化。 4、采用k-means算法完成客户的聚类,分析每类的客户特征,从而获得每类客户的价值。

客户的k-means聚类,获得聚类中心与类标号,并统计每个类别的客户数 六、思考与分析 使用不同的预处理对数据进行变化,在使用k-means算法进行聚类,对比聚类的结果。 kmenas算法首先选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数。 这样做的前提是我们已经知道数据集中包含多少个簇. 1.与层次聚类结合 经常会产生较好的聚类结果的一个有趣策略是,首先采用层次凝聚算法决定结果

数据挖掘文本分类实验报告

北京邮电大学 ****学年第1学期实验报告 课程名称:数据仓库与数据挖掘 实验名称:文本的分类 实验完成人: 姓名:*** 学号:*&*** 姓名:** 学号:**

日期:

实验一:文本的分类 1.实验目的 ◆掌握数据预处理的方法,对训练集数据进行预处理; ◆掌握文本分类建模的方法,对语料库的文档进行建模; ◆掌握分类算法的原理,基于有监督的机器学习方法,训 练文本分类器; ◆了解SVM机器学习方法,可以运用开源工具完成文本分 类过程。 2.实验分工 ***: (1)对经过分词的文本进行特征提取并用lisvm进行训练 (2)用训练的模型对测试数据进行预测 ***: (1)数据采集和预处理 (2)分词 3.实验环境 Ubuntu 13.04+jdk1.7

4.主要设计思想 4.1 实验工具介绍 1.NLPIR_ICTCLAS2013 NLPIR (又名ICTCLAS2013),是由中科院张华平博士倾力打造的汉语分词系统。其主要功能包括中文分词、词性标注、命名实体识别、用户词典功能、支持GBK编码、UTF8编码、BIG5编码等。 从NLPIR官网可以下载其最新版的Java发布包,然后导入Eclipse,配置运行环境,实现对于语料库的分词。 最新的NLPIR可以通过更改源代码实现新增新词识别、关键词提取、微博分词等功能,极大地方便了使用。 2. Eclipse for Java Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。 3. LibSVM 本次实验中我们采用的是台湾大学林智仁博士等开发设计的LIBSVM方法。这是一个操作简单、易于使用、快速有效的通用SVM 软件包,可以解决分类问题(包括C?SVC 、ν?SVC ),回归问题(包括ε ? SVR 、v? SVR ) 以及分布估计(one ?

河北工业大学大数据挖掘实验报告材料

实验一数据预处理 一、实验目的 1、熟悉 VC++编程工具和完全数据立方体构建、联机分析处理算法。 2、浏览拟被处理的的数据,发现各维属性可能的噪声、缺失值、不一致性 等,针对存在的问题拟出采用的数据清理、数据变换、数据集成的具体算法。 3、用 VC++编程工具编写程序,实现数据清理、数据变换、数据集成等功能。 4、调试整个程序获得清洁的、一致的、集成的数据,选择适于全局优化的 参数。 5、写出实验报告。 二、实验原理 1、数据预处理现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,为提高数据质量进而提高挖掘结果的质量,产生了大量数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。 2、数据清理数据清理例程通过填写遗漏的值,平滑噪音数据,识别、删除离群点,并解决不一致来“清理”数据。 3、数据集成数据集成将数据由多个源合并成一致的数据存储,如数据仓库或数据立方体。 4、数据变换通过平滑聚集,数据概化,规化等方式将数据转换成适用于数据挖掘的形式。 5、数据归约使用数据归约可以得到数据集的压缩表示,它小得多,但能产生同样(或几乎同样的)分析结果。常用的数据归约策略有数据聚集、维归约、数据压缩和数字归约等。

三、实验容和步骤 1、实验容 1、用VC++编程工具编写程序,实现数据清理、数据变换、数据集成等功能,并在实验报告中写出主要的预处理过程和采用的方法。 2、产生清洁的、一致的、集成的数据。 3、在试验报告中写明各主要程序片段的功能和作用。 2、实验步骤 1)仔细研究和审查数据,找出应当包含在你分析中的属性或维,发现数据中的一些错误、不寻常的值、和某些事务记录中的不一致性。 2)进行数据清理,对遗漏值、噪音数据、不一致的数据进行处理。例如:1、日期中的缺失值可以根据统一的流水号来确定。2、购买的数量不能为负值。 3)进行数据集成和数据变换和数据归约,将多个数据源中的数据集成起来,减少或避免结果数据中的数据冗余或不一致性。并将数据转换成适合挖掘的形式。 例如: 1、进行完数据清理后发现购买数量、销售价格、总额是相互关联的项可以去 掉总额。2、三个流水表日期的格式不一样应统一成相同的日期格式。 3、门号和pos 机一样,可以去掉一个。 4、附加:同一购物篮的商品序号应该是顺序递增的。 四、实验结果 源程序: #include #include #include #include using namespace std;

相关文档
最新文档