数据仓库与数据挖掘_实验指导书

《数据仓库与数据挖掘》实验指导书（适用于信息系统与信息管理专业）

江苏科技大学经济管理学院

2012-2

前言 (1)

实验一、SPSS Clementine 软件功能演练 (6)

实验二、SPSS Clementine 数据可视化 (10)

实验三、决策树C5.0 建模 (18)

实验四、关联规则挖掘 (31)

实验五、欺诈屏蔽/异常检测/神经网络 (39)

实验六、分类和回归树节点(C&RT) (52)

实验七、多项Logistic 回归 (62)

实验八、综合实验：电力负荷预测 (68)

前言

一、课程简介

数据挖掘(Data Mining)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点：数据挖掘就是从存放在数据库，数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘，又称为数据库中知识发现(Knowledge Discovery in Database, KDD)，因此，数据挖掘和数据仓库的协同工作，一方面，可以迎合和简化数据挖掘过程中的重要步骤，提高数据挖掘的效率和能力，确保数据挖掘中数据来源的广泛性和完整性。另一方面，数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。

数据挖掘有机结合了来自多学科技术，其中包括：数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析等，这里我们强调数据挖掘所处理的是大规模数据，且其挖掘算法应是高效的和可扩展的。通过数据挖掘，可从数据库中挖掘出有意义的知识、规律，或更高层次的信息，并可以从多个角度对其进行浏览察看。所挖掘出的知识可以帮助进行决策支持、过程控制、信息管理、查询处理等等。因此数据挖掘被认为是数据库系统最重要的前沿研究领域之一，也是信息工业中最富有前景的数据库应用领域之一。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。而据Gartner的报告也指出，数据挖掘会成为未来10年内重要的技术之一。

二、课程的任务和实验的教学目标

课程编号：5405190

课程属性：专业任选课

实验学时：12

适用专业：信息管理与信息系统

先修课程：管理信息系统、计算机基础、数据库技术、统计学

《数据仓库与数据挖掘》是一门理论和实践相结合的课程，它在整个信息系统与信息管理专业中处于信息系统应用的前沿应用的地位，是计算机科学的算法理论基础和数据库、数据仓库技术、统计技术的结合，以及在管理实践中应用。其上机实验的目的主要是实现数据挖掘的主要算法，训练学生实际动手进行数据挖掘设计和软件应用的能力，加深对数据挖掘相关概念和算法的理解。

本课程具有技术性和实践性较强的特点，因此，配合基本原理的讲授，应当安排相应的实习操作。通过实验和操作，使学生巩固和加深数据仓库与数据挖掘理论知识，进一步加强学生独立分析问题和解决问题的能力、综合设计及创新能力的培养，为今后工作打下良好的基础。经过多层次、多方式的全面训练后，学生应达到下列要求：1．进一步巩固和加深数据仓库与数据挖掘基本知识的理解，提高综合运用所学知识，建立和管理数据的能力。

2．能根据需要选学参考书，查阅相关的工具，通过独立思考，深入钻研有关问题，学会自己独立分析问题、解决问题，具有一定的创新能力。

3．能正确处理大规模数据，选择数据挖掘工具的开发平台和相关的软件解决实践问题。

4．能独立撰写实验报告，准确分析实验结果，总结有关的问题，提出相关的建议。

三、实验教材及参考书

理论课教材及参考书：

?数据仓库与数据挖掘教程（丛书名：高等院校信息管理与信息系统专业系列教材）作者：陈文伟编著，清华大学出版

社，2006.8

?数据仓库和数据挖掘，苏新宁等编著，清华大学出版社，2006.4

?数据仓库与数据挖掘技术（第2版），陈京民编著，电子工业出版社，2007.11

?Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques.高等教育出版社（影印版）,2001.5.

?Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (第二版). 机械工业出版社（影

印版），2005.

?Richard J. Roiger, Michael W. Geatz. Data Mining: A Tutorial-Based Primer.清华大学出版社，2003.

实验教材：

?数据挖掘Clementine应用实务，谢邦昌主编，机械工业出版社，2008.4

?数据挖掘原理与SPSS Clementine应用宝典，元昌安主编，电子工业出版社，2009.8

四、实验基本内容及学时分配

按照《数据仓库与数据挖掘》实验教学大纲的要求，共设立实验8个，总计20学时。试验基本内容与学时分配如下表：

五、实验方式与基本要求

1、本课程的实验为非单独设课，因此，应该课程的内容安排和进度，配合技术原理的讲授，进行相应的操作和实验。

2、该课以综合性实验为主，教师给出实验题目，实验前学生必须进行预习，

3、在规定的时间内，由学生独立完成，出现问题，教师要引导学生独立分析、解决，不得包办代替。

4、实验中按要求做好学生实验情况及结果记录，实验后认真填写实验记录。

5、实验指导书仅作为上机时的参考步骤，不能作为唯一的依据，以教材和课堂讲授为准。

实验一、SPSS Clementine 软件功能演练

【实验目的】

1、熟悉SPSS Clementine 软件功能和操作特点。

2、了解SPSS Clementine 软件的各选项面板和操作方法。

3、熟练掌握SPSS Clementine 工作流程。

【实验内容】

1、打开SPSS Clementine 软件，逐一操作各选项，熟悉软件功能。

2、打开一有数据库、或新建数据文件，读入SPSS Clementine，并使用各种输出节点，熟悉数据输入输出。(要求：至少做access数据库文件、excel文件、txt文件、可变文件的导入、导出)

【实验步骤】

1、启动Clementine：

请从Windows 的“开始”菜单中选择：

所有程序

SPSS Clementine 11.1

SPSS Clementine client 11.1

2、Clementine窗口

当第一次启动Clementine 时，工作区将以默认视图打开。中间的区域称作流工作区。在Clementine 中，这将是用来工作的主要区域。

Clementine 中绝大部分的数据和建模工具都在选项板中，该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点，例如访问

和过滤数据，创建图形和构建模型。

释放。随后可将各个图标连接以创建一个表示数据流动的流。

窗口的右上方是输出和对象管理器。这些选项卡用于查看和管理各种Clementine 对象。

“流”选项卡包含了当前会话中打开的所有流。可以将这些流保存并关闭，也可将其添加到工程中。

“输出”选项卡包含了由Clementine 中的流操作产生的各类文件。可以显示、重命名和关闭此处所列的表格、图形和报告。

“模型”选项卡是一个功能强大的工具，包含了在一次会话中产生的所有模型（即，已在Clementine 中构建完毕的模型）。通过它，可以对模型作更深入的查看、将其添加至流中、导出或为其加注解。

窗口右侧底部的部分是工程工具，它用来创建和管理数据挖掘工程。查看在Clementine 中创建的工程有两种方式- 类视图或CRISP-DM 视图。“CRISP-DM”选项卡提供了一种组织工程的方式。“类”选项卡提供了一种在Clementine 中按类别（即，按照所创建对象的类别）组织工作的方式。当要获取数据、流、模型等对象的详尽目录时，这种视图十分有用。

实验二、SPSS Clementine 数据可视化

【实验目的】

1、熟悉SPSS Clementine 绘图。

2、了解SPSS Clementine 图形选项面板各节点的使用方法。

3、熟练掌握SPSS Clementine 数据可视化流程。

【实验内容】

1、打开SPSS Clementine 软件，逐一操作各图形选项面板，熟悉软件功能。

2、打开一有数据库、或新建数据文件，读入SPSS Clementine，并使用各种输出节点，熟悉数据输入输出。(要求：至少做分布图、直方图、收集图、多重散点图、时间散点图)

【实验步骤】

1、启动Clementine：

请从Windows 的“开始”菜单中选择：

所有程序

PSS Clementine 11.1

SPSS Clementine client 11.1

2、建立一个流、导入相关数据，打开图形选项面板

3、绘制以下各类图形

（1）以颜色为层次的图

（2）以大小为层次的图

（3）以颜色、大小、形状和透明度为层次的图

（4）以面板图为层次的图

（5）三维收集图

（6）动画散点图

（8）直方图

（10）多重散点图

未标准化时的多重散点图

标准化后的多重散点图

（11）网络图

实验三、决策树C5.0 建模

【实验目的】

1、熟悉SPSS Clementine建模方法。

2、掌握SPSS Clementine分布图、散点图、网络图的创建方法。

3、掌握决策树C5.0决策方法。

【实验内容】

1、创建散点图。

2、创建分布图。

3、创建网络图。

【实验步骤】

假设你是一位正在汇总研究数据的医学研究员。已收集了一组患有同一疾病的患者的数据。在治疗过程中，每位患者均对五种药物中的一种有明显反应。的任务就是通过数据挖掘找出适合治疗此疾病的药物。

此示例使用名为druglearn.str 的流，此流引用名为DRUG1n 的数据文件。可以从任何Clementine Client 安装软件的Demos 目录下找到这些文件，也可以通过从Windows 的“开始”菜单选择Start > [All] Programs > SPSS Clementine 11.1 > Demos访问这些文件。文件druglearn.str 位于Classification_Module 目录中。此 demo 中使用的数据字段包括：

遗传学实验设计书

遗传学实验设计书王伊丹 13303161 生物技术与应用专业一．单因子实验杂交组合题目果蝇的翅型单因子杂交实验基本原理（1）分离定律：一对基因在杂合状态下不互相影响，各自保持相对的独立性，而在形成配子时互相分开，并按原样分配到不同的配子中。（2）单因子杂交是指一对等位基因间的杂交。野生型果蝇是长翅（+/+）,其翅长超出腹部末端约1/3。残翅果蝇的双翅已退化，只留下少量残迹（vg/vg）,无飞行能力。Vg的基因座位位于第二染色体，对长翅（+）完全隐形。（3）果蝇的翅型决定基因是一对等位基因，野生型果蝇是长翅（+/+)，突变体为残翅（vg/vg)。用长翅与残翅果蝇杂交，子一代（F1) 都是长翅。子一代系内交配，子二代产生性状分离，长翅：残翅为3:1。实验方法步骤（1）确定杂交亲本为野生型长翅果蝇品系（18#）和突变型残翅果蝇（2#)，挑选处女蝇。（2）配好杂交组合：①正交组合：野生型长翅18#（♀）×突变型残翅2#（♂）。用消毒过的毛笔把3-4只长翅处女蝇扫入培养瓶中，然后把培养瓶水平放置，以免麻醉状态下的果蝇沾到培养基或水珠被闷死，随即用同样方法扫入3-4只残翅雄蝇，塞进棉塞，贴好标签，保持水平放置直至果蝇苏醒，移入25℃恒温培养箱中培养。 ②反交组合：突变型残翅2#（♀）×野生型长翅18#（♂），杂交方法同①。（3）培养7天后把亲本果蝇成虫全部倒出处死。（4）再过7天F1成蝇出现，把F1成蝇转移到经过消毒的空瓶进行适度麻醉，观察F1翅形变化。再将5-6对适度麻醉的F1成虫转入另一培养瓶，标签表明品系号，正反交各转一瓶。（5）过7天，将F1成虫全部倒出处死，已有卵和幼虫的培养基放回培养箱中继续培养。（6）再过7天，F2成虫出现，开始观察，可以连续观察7天左右，记录翅形变化结果。实验结果预测

数据挖掘实验报告

《数据挖掘》Weka实验报告姓名＿学号＿指导教师开课学期2015 至2016 学年 2 学期完成日期2015年6月12日

1.实验目的基于https://www.360docs.net/doc/c15758352.html,/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29的数据，使用数据挖掘中的分类算法，运用Weka平台的基本功能对数据集进行分类，对算法结果进行性能比较，画出性能比较图，另外针对不同数量的训练集进行对比实验，并画出性能比较图训练并测试。 2.实验环境实验采用Weka平台，数据使用来自https://www.360docs.net/doc/c15758352.html,/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29，主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类，该表含有Sample code number（样本代码)，Clump Thickness（丛厚度），Uniformity of Cell Size （均匀的细胞大小），Uniformity of Cell Shape （均匀的细胞形状），Marginal Adhesion（边际粘连），Single Epithelial Cell Size（单一的上皮细胞大小），Bare Nuclei（裸核），Bland Chromatin（平淡的染色质），Normal Nucleoli（正常的核仁），Mitoses（有丝分裂），Class（分类），其中第二项到第十项取值均为1-10，分类中2代表良性，4代表恶性。通过实验，希望能找出患乳腺癌客户各指标的分布情况。该数据的数据属性如下： 1. Sample code number（numeric），样本代码； 2. Clump Thickness（numeric），丛厚度；

数据仓库与数据挖掘课后习题答案

持管理决策。主要特点：面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2）简述数据挖掘的技术定义。从技术角度看，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3）什么是业务元数据？业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4）简述数据挖掘与传统分析方法的区别。本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5）简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

实验设计书(修改版)教学内容

【实验原理与目的】神经肌肉接头处的兴奋传递过程有三个重要的环节：一是钙离子促进神经轴突中的囊泡膜与接头前膜发生融合而破裂；二是囊泡中的乙酰胆碱释放到神经肌肉接头间隙；三是乙酰胆碱与接头后膜上的受体结合，引发终板电位。乙酰胆碱（Acetylcholine,ACh）是一种重要的神经递质，是连接每个运动神经元和骨骼肌之间的信使。如果ACh的传递受阻，肌肉就不能收缩。箭毒是美印第安人在猎箭头部涂抹的一种毒药，它能够占用并阻塞ACh 受体的位置，能竞争性阻断ACh 的去极化作用致使神经递质不能影响肌肉。能与ACh 竞争神经肌接头处的nm胆碱能受体，但不激动受体，因而使骨骼肌松弛。抗胆碱酯酶药可拮抗其肌肉松弛作用，新斯的明是胆碱酯酶抑制剂，可通过抑制胆碱酯酶增减乙酰胆碱在肌接头间隙的浓度。故筒箭毒过量可用适量新斯的明解救。筒箭毒与乙酰胆碱竞争性结合乙酰胆碱受体，注射新斯的明后使突触间隙内的乙酰胆碱浓度升高而使竞争性增强，故乙酰胆碱与受体接触增多，从而使肌无力症状减弱。本实验的目的是探索筒箭毒对神经--肌接头处兴奋传递的影响极其相关机制；观察筒箭毒的肌松作用，分析其作用点；了解新斯的明对抗筒箭毒的作用。【实验对象】大白鼠，体重250g以上。

【实验器材和药品】 Powerlab 一套（主机，刺激器，张力换能器），手术器械一套，小动物人工呼吸机，气管插管，棉线，大头针，铁架台，注射器 0.001g%筒箭毒碱，0.005g%新斯的明，25%乌拉坦，1.5%普鲁卡因，生理盐水【实验方法】 1.大鼠称重，麻醉；25%乌拉坦腹腔注射0.5ml/100g麻醉。然后仰卧固定于鼠手术床上，分离气管及颈外静脉，分别插入气管插管和静脉插管，准备好人工呼吸机。数分钟后翻正反射消失，即可进行实验； 2.分离坐骨神经；在髋关节后，坐骨结节内凹陷处切开皮肤，钝性分离肌肉，暴露一段坐骨神经，用浸有1.5%普鲁卡因的棉线围绕坐骨神经打一个结，在坐骨神经干上做传导阻滞麻醉，排除下行干扰； 3.分离腓神经；在外侧剪开皮肤，钝性分离肌肉组织，分离腓神经，神经穿线备用； 4.分离胫前肌；将大鼠两前肢固定在手术台（仰卧），从后置踝关节正前方向剪开小腿皮肤，剪断踝关节前部韧带，分离胫前肌肌腱，沿胫骨分离胫前肌（注意不要损伤血管），在踝部的胫前肌肌腱处扎线，与结扎线远端切断肌腱； 5.安装并设定powerlab记录肌张力的chart设定文件；调定刺

数据挖掘实验报告(一)

数据挖掘实验报告（一）数据预处理姓名：李圣杰班级：计算机1304 学号：1311610602

一、实验目的 1.学习均值平滑，中值平滑，边界值平滑的基本原理 2.掌握链表的使用方法 3.掌握文件读取的方法二、实验设备 PC一台，dev-c++5.11 三、实验内容数据平滑假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。使用你所熟悉的程序设计语言进行编程，实现如下功能（要求程序具有通用性）： (a) 使用按箱平均值平滑法对以上数据进行平滑，箱的深度为3。 (b) 使用按箱中值平滑法对以上数据进行平滑，箱的深度为3。 (c) 使用按箱边界值平滑法对以上数据进行平滑，箱的深度为3。四、实验原理使用c语言，对数据文件进行读取，存入带头节点的指针链表中，同时计数，均值求三个数的平均值，中值求中间的一个数的值，边界值将中间的数转换为离边界较近的边界值五、实验步骤代码 #include #include #include #define DEEP 3 #define DATAFILE "data.txt" #define VPT 10 //定义结构体 typedef struct chain{ int num; struct chain *next; }* data; //定义全局变量 data head,p,q; FILE *fp; int num,sum,count=0; int i,j; int *box; void mean(); void medain(); void boundary(); int main () { //定义头指针 head=(data)malloc(sizeof(struc t chain)); head->next=NULL; /*打开文件*/ fp=fopen(DATAFILE,"r"); if(!fp) exit(0); p=head; while(!feof(fp)){

大数据仓库与大数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题 1.数据挖掘技术包括三个主要的部分（ C ） A．数据、模型、技术 B．算法、技术、领域知识 C．数据、建模能力、算法与技术 D．建模能力、算法与技术、领域知识 2.关于基本数据的元数据是指: ( D ) A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息； B.基本元数据包括与企业相关的管理方面的数据和信息； C.基本元数据包括日志文件和简历执行处理的时序调度信息； D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。 3.关于OLAP和OLTP的说法,下列不正确的是: ( A) A．OLAP事务量大,但事务内容比较简单且重复率高 B．OLAP的最终数据来源与OLTP不一样 C．OLTP面对的是决策人员和高层管理人员 D．OLTP以应用为核心，是应用驱动的 4．将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？( C ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘5．下面哪种不属于数据预处理的方法？ ( D ) A.变量代换 B.离散化 C. 聚集 D. 估计遗漏值 6.在ID3 算法中信息增益是指（ D ） A.信息的溢出程度 B.信息的增加效益 C.熵增加的程度最大 D.熵减少的程度最大 7.以下哪个算法是基于规则的分类器 ( A ) A. C4.5 B. KNN C. Bayes D. ANN 8.以下哪项关于决策树的说法是错误的（ C ） A．冗余属性不会对决策树的准确率造成不利的影响 B．子树可能在决策树中重复多次 C．决策树算法对于噪声的干扰非常敏感 D．寻找最佳决策树是NP完全问题 9.假设收入属性的最小与最大分别是10000和90000，现在想把当前值30000映射到区间[0,1],若采用最大－最小数据规范方法，计算结果是（ A ）

实验设计书(修改版)

假设：筒箭毒能与乙酰胆碱竞争神经肌接头处的nm受体，使肌肉松弛【实验原理与目的】神经肌肉接头处的兴奋传递过程有三个重要的环节：一是钙离子促进神经轴突中的囊泡膜与接头前膜发生融合而破裂；二是囊泡中的乙酰胆碱释放到神经肌肉接头间隙；三是乙酰胆碱与接头后膜上的受体结合，引发终板电位。乙酰胆碱（Acetylcholine,ACh）是一种重要的神经递质，是连接每个运动神经元和骨骼肌之间的信使。如果ACh的传递受阻，肌肉就不能收缩。箭毒是美印第安人在猎箭头部涂抹的一种毒药，它能够占用并阻塞ACh 受体的位置，能竞争性阻断ACh 的去极化作用致使神经递质不能影响肌肉。能与ACh 竞争神经肌接头处的nm胆碱能受体，但不激动受体，因而使骨骼肌松弛。抗胆碱酯酶药可拮抗其肌肉松弛作用，新斯的明是胆碱酯酶抑制剂，可通过抑制胆碱酯酶增减乙酰胆碱在肌接头间隙的浓度。故筒箭毒过量可用适量新斯的明解救。筒箭毒与乙酰胆碱竞争性结合乙酰胆碱受体，注射新斯的明后使突触间隙内的乙酰胆碱浓度升高而使竞争性增强，故乙酰胆碱与受体接触增多，从而使肌无力症状减弱。本实验的目的是探索筒箭毒对神经--肌接头处兴奋传递的影响极其相关机制；观察筒箭毒的肌松作用，分析其作用点；了解新斯的明对抗筒箭毒的作用。【实验对象】大白鼠，体重250g以上。【实验器材和药品】 Powerlab 一套（主机，刺激器，张力换能器），手术器械一套，小动物人工呼吸机，气管插管，棉线，大头针，铁架台，注射器 0.001g%筒箭毒碱，0.005g%新斯的明，25%乌拉坦，1.5%普鲁卡因，生理盐水

【实验方法】 1.大鼠称重，麻醉；25%乌拉坦腹腔注射0.5ml/100g麻醉。然后仰卧固定于鼠手术床上，分离气管及颈外静脉，分别插入气管插管和静脉插管，准备好人工呼吸机。数分钟后翻正反射消失，即可进行实验； 2.分离坐骨神经；在髋关节后，坐骨结节内凹陷处切开皮肤，钝性分离肌肉，暴露一段坐骨神经，用浸有1.5%普鲁卡因的棉线围绕坐骨神经打一个结，在坐骨神经干上做传导阻滞麻醉，排除下行干扰； 3.分离腓神经；在外侧剪开皮肤，钝性分离肌肉组织，分离腓神经，神经穿线备用； 4.分离胫前肌；将大鼠两前肢固定在手术台（仰卧），从后置踝关节正前方向剪开小腿皮肤，剪断踝关节前部韧带，分离胫前肌肌腱，沿胫骨分离胫前肌（注意不要损伤血管），在踝部的胫前肌肌腱处扎线，与结扎线远端切断肌腱； 5.安装并设定powerlab记录肌张力的chart设定文件；调定刺激器有关参数； 6.连接仪器；手术操作完成后，将胫前肌与powerlab的张力换能器向连接，腓神经处安放刺激电极。最适负荷设定为10g左右。稳定一段时间后，于给药前记录一段正常的肌肉收缩曲线； 7.缓慢静脉注射0.001%筒箭毒碱0.1ml/100g,从仪器上观察肌肉收缩曲线的变化情况； 8.待肌肉收缩曲线再次稳定或完全消失后，停止刺激，同时缓慢静脉注射0.005% 新斯的明0.15ml/100g,观察肌肉收缩曲线的变化情况。【预期结果】注射筒箭毒后肌肉收缩曲线幅度变小甚至消失，即肌肉处于肌无力状态，注射新斯的明后肌肉收缩曲线又基本恢复正常，即肌肉恢复正常收缩状态；

数据挖掘实验报告资料

大数据理论与技术读书报告 -----K最近邻分类算法指导老师: 陈莉学生姓名: 李阳帆学号: 201531467 专业: 计算机技术日期 :2016年8月31日

摘要数据挖掘是机器学习领域内广泛研究的知识领域，是将人工智能技术和数据库技术紧密结合，让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式，以满足人们不同应用的需要。K 近邻算法（KNN）是基于统计的分类方法，是大数据理论与分析的分类算法中比较常用的一种方法。该算法具有直观、无需先验统计知识、无师学习等特点，目前已经成为数据挖掘技术的理论和应用研究方法之一。本文主要研究了K 近邻分类算法，首先简要地介绍了数据挖掘中的各种分类算法，详细地阐述了K 近邻算法的基本原理和应用领域，最后在matlab环境里仿真实现，并对实验结果进行分析，提出了改进的方法。关键词：K 近邻，聚类算法，权重，复杂度，准确度

1.引言 (1) 2.研究目的与意义 (1) 3.算法思想 (2) 4.算法实现 (2) 4.1 参数设置 (2) 4.2数据集 (2) 4.3实验步骤 (3) 4.4实验结果与分析 (3) 5.总结与反思 (4) 附件1 (6)

1.引言随着数据库技术的飞速发展，人工智能领域的一个分支—— 机器学习的研究自 20 世纪 50 年代开始以来也取得了很大进展。用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后的知识，这两者的结合促成了数据库中的知识发现（Knowledge Discovery in Databases，简记 KDD）的产生，也称作数据挖掘（Data Ming，简记 DM）。数据挖掘是信息技术自然演化的结果。信息技术的发展大致可以描述为如下的过程：初期的是简单的数据收集和数据库的构造；后来发展到对数据的管理，包括：数据存储、检索以及数据库事务处理；再后来发展到对数据的分析和理解，这时候出现了数据仓库技术和数据挖掘技术。数据挖掘是涉及数据库和人工智能等学科的一门当前相当活跃的研究领域。数据挖掘是机器学习领域内广泛研究的知识领域，是将人工智能技术和数据库技术紧密结合，让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式，以满足人们不同应用的需要[1]。目前，数据挖掘已经成为一个具有迫切实现需要的很有前途的热点研究课题。 2.研究目的与意义近邻方法是在一组历史数据记录中寻找一个或者若干个与当前记录最相似的历史纪录的已知特征值来预测当前记录的未知或遗失特征值[14]。近邻方法是数据挖掘分类算法中比较常用的一种方法。K 近邻算法（简称 KNN）是基于统计的分类方法[15]。KNN 分类算法根据待识样本在特征空间中 K 个最近邻样本中的多数样本的类别来进行分类，因此具有直观、无需先验统计知识、无师学习等特点，从而成为非参数分类的一种重要方法。大多数分类方法是基于向量空间模型的。当前在分类方法中，对任意两个向量： x= ) ,..., , ( 2 1x x x n和) ,..., , (' ' 2 ' 1 'x x x x n 存在 3 种最通用的距离度量：欧氏距离、余弦距离[16]和内积[17]。有两种常用的分类策略：一种是计算待分类向量到所有训练集中的向量间的距离：如 K 近邻选择K个距离最小的向量然后进行综合，以决定其类别。另一种是用训练集中的向量构成类别向量，仅计算待分类向量到所有类别向量的距离，选择一个距离最小的类别向量决定类别的归属。很明显，距离计算在分类中起关键作用。由于以上 3 种距离度量不涉及向量的特征之间的关系，这使得距离的计算不精确，从而影响分类的效果。

数据仓库与数据挖掘试题

武汉大学计算机学院 20XX级研究生“数据仓库和数据挖掘”课程期末考试试题要求：所有的题目的解答均写在答题纸上，需写清楚题目的序号。每张答题纸都要写上姓名和学号。一、单项选择题（每小题2分，共20分） 1. 下面列出的条目中，（）不是数据仓库的基本特征。B A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的 2. 数据仓库是随着时间变化的，下面的描述不正确的是（）。 A.数据仓库随时间的变化不断增加新的数据内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容C D.数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合 3. 以下关于数据仓库设计的说法中（）是错误的。A A.数据仓库项目的需求很难把握，所以不可能从用户的需求出发来进行数据仓库的设计，只能从数据出发进行设计 B.在进行数据仓库主题数据模型设计时，应该按面向部门业务应用的方式来设计数据模型 C.在进行数据仓库主题数据模型设计时要强调数据的集成性 D.在进行数据仓库概念模型设计时，需要设计实体关系图，给出数据表的划分，并给出每个属性的定义域 4. 以下关于OLAP的描述中（）是错误的。A A.一个多维数组可以表示为（维1，维2，…，维n） B.维的一个取值称为该维的一个维成员 C.OLAP是联机分析处理 D.OLAP是数据仓库进行分析决策的基础 5. 多维数据模型中，下列（）模式不属于多维模式。D A.星型模式 B.雪花模式 C.星座模式 D.网型模式 6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是（）。C A.频繁项集?频繁闭项集?最大频繁项集 B.频繁项集?最大频繁项集?频繁闭项集 C.最大频繁项集?频繁闭项集?频繁项集 D.频繁闭项集?频繁项集?最大频繁项集

数据仓库与数据挖掘-教学大纲

《数据仓库与数据挖掘》教学大纲一、课程概况课程名称：数据仓库与数据挖掘英文名称：Data warehousing and data mining 课程性质：选修课程学时：32 课程学分：2 授课对象：信息类的大学本科高年级学生开课时间：三年级下学期讲课方式：课堂+实验主讲老师：二、教学目的本课程把数据视为基础资源，根据软件工程的思想，总结了数据利用的历程，讲述了数据仓库的基础知识和工具，研究了数据挖掘的任务及其挑战，给出了经典的数据挖掘算法，介绍了数据挖掘的产品，剖析了税务数据挖掘的案例，探索了大数据的管理和应用问题。三、教学任务完成《数据仓库与数据挖掘》教材内容，及教学计划中的互动实践内容，另有学生自主选题的大作业、选作的论文报告。32学时：课堂24、实验2、课外2、研讨4学时。四、教学内容的结构课程由9个教学单元组成，对应于《数据仓库与数据挖掘》的内容。第1章数据仓库和数据挖掘概述 1.1概述1 1.2数据中心4 1.2.1关系型数据中心 1.2.2非关系型数据中心

1.2.3混合型数据中心（大数据平台）1.3混合型数据中心参考架构第2章数据 2.1数据的概念 2.2数据的内容 2.2.1实时数据与历史数据 2.2.2时态数据与事务数据 2.2.3图形数据与图像数据 2.2.4主题数据与全部数据 2.2.5空间数据 2.2.6序列数据和数据流 2.2.7元数据与数据字典 2.3数据属性及数据集 2.4数据特征的统计描述22 2.4.1集中趋势22 2.4.2离散程度23 2.4.3数据的分布形状25 2.5数据的可视化26 2.6数据相似与相异性的度量29 2.7数据质量32 2.8数据预处理32 2.8.1被污染的数据33 2.8.2数据清理35 2.8.3数据集成36 2.8.4数据变换37 2.8.5数据规约38 第3章数据仓库与数据ETL基础39 3.1从数据库到数据仓库39 3.2数据仓库的结构39 3.2.1两层体系结构41 3.2.2三层体系结构41 3.2.3组成元素42 3.3数据仓库的数据模型43 3.3.1概念模型43 3.3.2逻辑模型43 3.3.3物理模型46 3.4 ETL46 3.4.1数据抽取47 3.4.2数据转换48 3.4.3数据加载49 3.5 OLAP49 3.5.1维49 3.5.2 OLAP与OLTP49 3.5.3 OLAP的基本操作50

试验设计书

盐酸左氧氟沙星片人体生物等效性研究试验设计书 1 试验目的考察国产盐酸左氧氟沙星片的人体相对生物利用度和生物等效性。 2 药品： 2.1 试验药品(T)：盐酸左氧氟沙星片，规格：100mg/片，批号：，标示量：99.4%。由南京三锐药业有限公司研制提供。 2.2 参比制剂(R)：盐酸左氧氟沙星片（左福欣），规格100mg/片，批号：0305112，批准文号：国卫药准字H20010221，由湖南正清制药集团股份有限公司生产，有效期：2005年5月。 2.3 标准对照品：左氧氟沙星标准品（中国药品生物制品检定所，130455-200202，含量：97.2％）。 3 健康志愿者的选择及给药方法： 3.1 健康志愿者选择选用20名男性，年龄22-24岁，体重应符合标准体重±10%范围，无心、肺、肝、肾、消化道、神经系统、精神异常及代谢异常等病史，无烟酒等不良嗜好，无过敏史，无体位性低血压。经体检各项指标（如血压、心率、心电图、呼吸状况、肝肾功能、血尿常规和胸部透视）无异常。试验前两周停用任何药物，受试前一周向受试者说明研究的药物和试验内容，并签署知情同意书。

3.2 试验设计：采用单盲、单剂量、随机、2×2交叉试验设计。即将20名健康受试者随机分为两组，每组各10名。1组先服参比药R，然后服试验药T，两次服药相隔二周，以O表示，即ROT。2组服药顺序为TOR。给药前12小时进清淡晚餐后禁食过夜，于次日早晨空腹口服受试制剂或参比制剂200mg，用200ml温开水送服。服药后2h可以饮水；服药后4h进统一标准午餐。 4 取血时间点的确定取血时间点：服药前取静脉血一次为空白对照，分别于给药后0.333，0.667，1，1.5，2，3，4，6，8，12，24 h时取静脉血3.5ml，血标本收集于肝素化试管内，3000rpm离心10min，取血浆，-40℃保存。 5 血浆样品的处理：于1.5ml离心管（EP管）中加入待测血浆0.5ml，混匀后加入70%高氯酸30μl，涡旋30秒，12000rpm离心10min，取上清夜20μl进HPLC检测。 6 高效液相色谱法 6.1 HPLC条件 6.1.1 仪器：高效液相色谱仪为Agilent1100系列，包括G1322A 在线脱气机，G1311A 四元泵，G1316A温控箱，G1315B二极管阵列检测器，G1328B手动进样器和Agilent 化学工作站（Rev A.08.03.[847]）。 6.1.2色谱条件：色谱柱为ZORBAX Eclipse XDB-C18（4. 6×150mm，

数据挖掘报告

哈尔滨工业大学数据挖掘理论与算法实验报告(2016年度秋季学期) 课程编码S1300019C 授课教师邹兆年学生姓名汪瑞学号 16S003011 学院计算机学院

一、实验内容决策树算法是一种有监督学习的分类算法；kmeans是一种无监督的聚类算法。本次实验实现了以上两种算法。在决策树算法中采用了不同的样本划分方式、不同的分支属性的选择标准。在kmeans算法中，比较了不同初始质心产生的差异。本实验主要使用python语言实现，使用了sklearn包作为实验工具。二、实验设计 1.决策树算法 1.1读取数据集本次实验主要使用的数据集是汽车价值数据。有6个属性，命名和属性值分别如下： buying: vhigh, high, med, low. maint: vhigh, high, med, low. doors: 2, 3, 4, 5more. persons: 2, 4, more. lug_boot: small, med, big. safety: low, med, high. 分类属性是汽车价值，共4类，如下： class values：unacc, acc, good, vgood 该数据集不存在空缺值。

由于sklearn.tree只能使用数值数据，因此需要对数据进行预处理，将所有标签类属性值转换为整形。 1.2数据集划分数据集预处理完毕后，对该数据进行数据集划分。数据集划分方法有hold-out法、k-fold交叉验证法以及有放回抽样法（boottrap）。 Hold—out法在pthon中的实现是使用如下语句：其中，cv是sklearn中cross_validation包，train_test_split 方法的参数分别是数据集、数据集大小、测试集所占比、随机生成方法的可

数据仓库与数据挖掘习题

数据仓库与数据挖掘习题 1.1什么是数据挖掘？在你的回答中，强调以下问题： (a) 它是又一个骗局吗？ (b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？ (c) 解释数据库技术发展如何导致数据挖掘 (d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。 1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？ 1.3 假定你是Big-University的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。该数据库包括如下信息：每个学生的姓名，地址和状态（例如，本科生或研究生），所修课程，以及他们累积的GPA（学分平均）。描述你要选取的结构。该结构的每个成分的作用是什么？ 1.4 数据仓库和数据库有何不同？它们有那些相似之处？ 1．5简述以下高级数据库系统和应用：面向对象数据库，空间数据库，文本数据库，多媒体数据库和WWW。 1．6 定义以下数据挖掘功能：特征化，区分，关联，分类，预测，聚类和演变分析。使用你熟悉的现实生活中的数据库，给出每种数据挖掘的例子。 1．7 区分和分类的差别是什么？特征化和聚类的差别是什么？分类和预测呢？对于每一对任务，它们有何相似之处？ 1．8 根据你的观察，描述一种可能的知识类型，它需要由数据挖掘方法发现，但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗？ 1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。 1. 10 描述关于性能问题的两个数据挖掘的挑战。 2.1 试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（构造使用数据仓库），而不愿使用查询驱动的方法（使用包装程序和集成程序）。描述一些情况，其中查询驱动方法比更新驱动方法更受欢迎。 2.2 简略比较以下概念，可以用例子解释你的观点（a）雪花模式、事实星座、星型网查询模型（b）数据清理、数据变换、刷新（c）发现驱动数据立方体、多特征方、虚拟仓库 2.3 假定数据仓库包含三个维time，doctor和patient，两个度量count 和charge，其中charge 是医生对一位病人的一次诊治的收费。（a）列举三种流行的数据仓库建模模式。（b）使用（a）列举的模式之一，画出上面数据仓库的模式图。（c）由基本方体[day，doctor，patient]开始，为列出2000年每位医生的收费总数，应当执行哪些OLAP操作？（d）为得到同样的结果，写一个SQL查询。假定数据存放在关系数据库中，其模式如下：fee（day，month，year，doctor，hospital，patient，count，charge） 2.4 假定Big_University的数据仓库包含如下4个维student, course, semester和instructor，2个度量count和avg_grade。在最低的概念层（例如对于给定的学生、课程、学期和教师的组合），度量avg_grade存放学生的实际成绩。在较高的概念层，avg_grade存放给定组合的

数据仓库与数据挖掘学习心得

数据仓库与数据挖掘学习心得通过数据仓库与数据挖掘的这门课的学习，掌握了数据仓库与数据挖掘的一些基础知识和基本概念，了解了数据仓库与数据库的区别。下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。《浅谈数据仓库与数据挖掘》这篇论文主要是介绍数据仓库与数据挖掘的的一些基本概念。数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。主题是数据数据归类的标准，每个主题对应一个客观分析的领域，他可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据，经集成后进入数据仓库的数据极少更新的。数据仓库内的数据时间一般为5年至10年，主要用于进行时间趋势分析。数据仓库的数据量很大。数据仓库的特点如下： 1、数据仓库是面向主题的； 2、数据仓库是集成的，数据仓库的数据有来自于分散的操作型数据，将所需数据从原来的数据中抽取出来，进行加工与集成，统一与综合之后才能进入数据仓库； 3、数据仓库是不可更新的，数据仓库主要是为决策分析提供数据，所涉及的操作主要是数据的查询； 4、数据仓库是随时间而变化的，传统的关系数据库系统比较适合处理格式化的数据，能够较好的满足商业商务处理的需求，它在商业领域取得了巨大的成功。

作为一个系统，数据仓库至少包括3个基本的功能部分：数据获取：数据存储和管理；信息访问。数据挖掘的定义：数据挖掘从技术上来说是从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。数据开采技术的目标是从大量数据中，发现隐藏于其后的规律或数据间的的关系，从而服务于决策。数据挖掘的主要任务有广义知识；分类和预测；关联分析；聚类。《数据仓库与数据挖掘技术在金融信息化中的应用》论文主要通过介绍数据额仓库与数据挖掘的起源、定义以及特征的等方面的介绍引出其在金融信息化中的应用。在金融信息化的应用方面，金融机构利用信息技术从过去积累的、海量的、以不同形式存储的数据资料里提取隐藏着的许多重要信息，并对它们进行高层次的分析，发现和挖掘出这些数据间的整体特征描述及发展趋势预测，找出对决策有价值的信息，以防范银行的经营风险、实现银行科技管理及银行科学决策。现在银行信息化正在以业务为中心向客户为中心转变6银行信息化不仅是数据的集中整合，而且要在数据集中和整合的基础上向以客为中心的方向转变。银行信息化要适应竞争环境客户需求的变化，创造性地用信息技术对传统过程进行集成和优化，实现信息共享、资源整合综合利用，把银行的各项作用统一起来，优势互补统一调配各种资源，为银行的客户开发、服务、综理财、管理、风险防范创立坚实的基础，从而适应日益发展的数据技术需要，全面提高银行竞争力，为金融创新和提高市场反映能力

初中生物实验设计方案格式

初中生物实验设计方案格式方案是计划中内容最为复杂的一种由于一些具有某种职能的具体工作比较复杂不作全面部署不足以说明问题因而公文内容构成势必要繁琐一些一般有指导思想、主要目标、工作重点、实施步骤、政策措施、具体要求等项目下面小编为大家搜索整理了初中生物实验设计方案格式希望对大家有所帮助一、实验名称：临时装片、切片、涂片的制作、观察和指导二、实验目标：让学生通过独立自主的制作临时装片、切片、涂片的方法来感知细胞的形态和结构从而使学生对细胞达到一定的认识为以后的教学作下铺垫制作临时装片的成功对提高学生的生物学兴趣和生物科学素养都起着重要的作用同时这样锻炼了学生的动手能力也培养了学生的自己动脑思考的能力三、实验方法及步骤：（一）实验材料：显微镜、载玻片、盖玻片、镊子、刀片、吸水纸、解剖针、毛笔、滴管、擦镜纸；清水、碘酒溶液；西红柿、空心莲子草、洋葱；创可贴（切片时可能会有人受伤）（二）实验步骤： 1、临时装片的制作 ⑴准备擦用擦镜纸把载玻片和盖玻片擦拭干净改进：将洁净的纱布改为擦镜纸擦拭玻片时要注意用左手的拇指和食指夹住玻片的两端右手的拇指和食指衬垫上洁净的纱布后夹

在玻片两面同时擦拭以防将玻片损坏滴用滴管在载玻片中央滴12滴清水改进：在制片时至少滴2滴清水这样加盖玻片时盖玻片下的空间中水较充盈气泡就少细胞的活性也较好取用刀片在洋葱表面上划“井”字（大约.5cm2）用镊子撕取外表皮问题：由于叶表皮皱缩、学生不熟练等导致撕下的表皮薄膜过厚在显微镜视野中难以找到理想的观察对象致使实验效果较差改进：首先将洋葱鳞片叶切成宽1.1.5cm的纵向窄条再用刀片将洋葱鳞片叶内侧表皮划成小块(切忌划透)然后用镊子夹住所划表皮的边缘将其轻轻取下(洋葱鳞片叶内侧表皮易与叶肉分离操作简便)即可这一改进降低了实验操作难度提高了制片质量放把撕取的表皮浸入载玻片上的水滴中并展平 ⑵盖盖玻片盖用镊子夹起盖玻片使它的一边先接触载玻片上的水滴然后缓缓地放下盖在要观察的材料上 ⑶染色染：将玻片倾斜1度左右从高的一侧滴入碘液让其自己流入玻片问题：染色时书中要求是把12滴碘液滴在盖玻片的一侧然后用吸水纸从盖玻片的另一侧吸引使染液浸润标本的全部然而部分同学可能将盖玻片下所有水全部吸干做出的装片会有很多的大气泡且气泡将细胞掩盖了或者有人将气泡误认为细胞

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习题答案 -标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘第一章课后习题一：填空题 1）数据库中存储的都是数据，而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2）数据仓库中的数据分为四个级别：早起细节级、当前细节级、轻度综合级、高度综合级。 3）数据源是数据仓库系统的基础，是整个系统的数据源泉，通常包括业务数据和历史数据。 4）元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5）数据处理通常分为两大类：联机事务处理和联机事务分析 6）Fayyad过程模型主要有数据准备，数据挖掘和结果分析三个主要部分组成。 7）如果从整体上看数据挖掘技术，可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8）那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9）按照挖掘对象的不同，将Web数据挖掘分为三类：web内容挖掘、web结构挖掘和web使用挖掘。 10）查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层，它们各自的侧重点不同，因此适用范围和针对的用户也不相同。二：简答题 1）什么是数据仓库数据仓库的特点主要有哪些 2）数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。主要特点：面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3）简述数据挖掘的技术定义。从技术角度看，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4）什么是业务元数据？业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5）简述数据挖掘与传统分析方法的区别。本质区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6）简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

数据挖掘实验报告1

实验一 ID3算法实现一、实验目的通过编程实现决策树算法，信息增益的计算、数据子集划分、决策树的构建过程。加深对相关算法的理解过程。实验类型：验证计划课间：4学时二、实验内容 1、分析决策树算法的实现流程； 2、分析信息增益的计算、数据子集划分、决策树的构建过程； 3、根据算法描述编程实现算法，调试运行； 4、对所给数据集进行验算，得到分析结果。三、实验方法算法描述：以代表训练样本的单个结点开始建树；若样本都在同一个类，则该结点成为树叶，并用该类标记；否则，算法使用信息增益作为启发信息，选择能够最好地将样本分类的属性；对测试属性的每个已知值，创建一个分支，并据此划分样本；算法使用同样的过程，递归形成每个划分上的样本决策树递归划分步骤，当下列条件之一成立时停止：给定结点的所有样本属于同一类；没有剩余属性可以进一步划分样本，在此情况下，采用多数表决进行四、实验步骤 1、算法实现过程中需要使用的数据结构描述： Struct {int Attrib_Col; // 当前节点对应属性 int Value; // 对应边值 Tree_Node* Left_Node; // 子树 Tree_Node* Right_Node // 同层其他节点 Boolean IsLeaf; // 是否叶子节点 int ClassNo; // 对应分类标号 }Tree_Node; 2、整体算法流程

主程序： InputData(); T=Build_ID3(Data,Record_No, Num_Attrib); OutputRule(T); 释放内存; 3、相关子函数： 3.1、 InputData() { 输入属性集大小Num_Attrib; 输入样本数Num_Record; 分配内存Data[Num_Record][Num_Attrib]; 输入样本数据Data[Num_Record][Num_Attrib]；获取类别数C(从最后一列中得到); } 3.2、Build_ID3(Data,Record_No, Num_Attrib) { Int Class_Distribute[C]; If (Record_No==0) { return Null } N=new tree_node(); 计算Data中各类的分布情况存入Class_Distribute Temp_Num_Attrib=0; For (i=0;i=0) Temp_Num_Attrib++; If Temp_Num_Attrib==0 { N->ClassNo=最多的类； N->IsLeaf=TRUE; N->Left_Node=NULL;N->Right_Node=NULL; Return N; } If Class_Distribute中仅一类的分布大于0 { N->ClassNo=该类； N->IsLeaf=TRUE; N->Left_Node=NULL;N->Right_Node=NULL; Return N; } InforGain=0;CurrentCol=-1; For i=0;i