数据挖掘主题：第五章作业

合集下载

第五章探索性数据分析——【数据挖掘与统计应用】

单因素方差分析
单因素方差的检验统计量是F统计量
R函数的基本书写格式为： aov(观测变量域名~控制变量域名,data=数据框名) anova(方差分析结果对象名)
• 示例：
各总体均值的可视化
直观展示控制变量不同水平下观测变量总体均值的取值状况，可绘制各总体均值变化的折线图以及各总体均值的置信区间图
(y
y
)
2
/
n
首都经济贸易大学统计学院
spearman相关系数
首都经济贸易大学统计学院
Kendll-τ相关系数
首都经济贸易大学统计学院
计算简单相关系数
示例：
简单相关系数的检验
简单相关系数的检验
相关系数检验的R函数是cor.test，基本书写格式为：
cor.test(数值型向量1, 数值型向量2,alternative=检验方向,method="pearson")
需对是否满足前提假设进行检验
总体正态性检验
可通过以下两种方式判断控制变量不同水平下观测变量总体是否服从正态分布第一，绘制Q-Q图
R绘制关于正态分布的Q-Q图的函数为qqnorm，基本书写格式为： qqnorm(数值型向量名)
进一步，若希望在Q-Q图上添加基准线，需调用qqline函数，基本书写格式为： qqline(数值型向量名,distribution = qnorm)
两分类型变量相关性的分析主要包括两个方面：第一，相关性的描述第二，相关性的检验
两分类型变量相关性的描述
两分类型变量相关性描述的工具是编制列联表。列联表中一般包括两分类型变量类别值交叉分组下的观测频数，表各行列的频数合计（边际频数），各频数占所在行列合计的百分比（边际百分比）以及占总合计的百分比（总百分比）等

数据挖掘作业讲解

《数据挖掘》作业第一章引言一、填空题（1）数据库中的知识挖掘(KDD)包括以下七个步骤：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示（2）数据挖掘的性能问题主要包括：算法的效率、可扩展性和并行处理（3）当前的数据挖掘研究中，最主要的三个研究方向是：统计学、数据库技术和机器学习（4）在万维网(WWW)上应用的数据挖掘技术常被称为：WEB挖掘（5）孤立点是指：一些与数据的一般行为或模型不一致的孤立数据二、单选题（1）数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于：（B ）A、所涉及的算法的复杂性；B、所涉及的数据量；C、计算结果的表现形式；D、是否使用了人工智能技术（2）孤立点挖掘适用于下列哪种场合？（D ）A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测（3）下列几种数据挖掘功能中，（ D ）被广泛的应用于股票价格走势分析A. 关联分析B.分类和预测C.聚类分析D. 演变分析（4）下面的数据挖掘的任务中，（ B ）将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示（5）下列几种数据挖掘功能中，（A ）被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析（6）根据顾客的收入和职业情况，预测他们在计算机设备上的花费，所使用的相应数据挖掘功能是（ B ）A.关联分析B.分类和预测C. 演变分析D. 概念描述（7）帮助市场分析人员从客户的基本信息库中发现不同的客户群，通常所使用的数据挖掘功能是（ C ）A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析（8）假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（ E ）A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题（1）什么是数据挖掘？答：数据挖掘是指从大量数据中提取或“挖掘”知识。

数据挖掘(第2版)-课件第5章关联规则

• 如：规则{尿布}—>{啤酒}表示尿布和啤酒的销售之间存在关联—— “啤酒与尿布”的故事。
• 关联分析用以发现事物间存在的关联性，除了购物篮分析外，有广泛应用，如：辅助决策——挖掘商场销售数据、发现商品间的联系；医疗诊断—— 用于发现某些症状与某种疾病之间的关联；网页挖掘——用于发现文档集合中某些词之间的关联，发现主题词演化模式、学科发展趋势；电子商务——进行产品的关联推荐等。
频繁项集
支持度不小于最小支持度阈值的项集
强关联规则
根据用户预先定义的支持度和置信度阈值，支持度不小于最小支持度阈值并且置信度不小于最小置信度阈值的规则
5.2.1 基本概念(4)
关联分析挖掘的关联规则分类根据处理值分类
布尔关联规则量化关联规则
根据涉及维度分类
单维关联规则多维关联规则
支持度 (support)
事务数据库D中包含项A和B的事务占所有事务的百分比
可表示为：support(A,B ) P(A B ) (A B )/ N
5.2.1 基本概念(3)
置信度
事务数据库D中同时包含项A和B的事务占包含项A的事务的百分比
条件概率表示为： confindence(A,B ) P(B | A) (A B )/ (A)
根据数据抽象层次分类
单层关联规则多层关联规则
【例5-1】设有事务集合如表5-1，计算规则{bread,milk tea} 的支持度、置信度。
交易号TID
顾客购买的商品
ห้องสมุดไป่ตู้
交易号TID
T1
bread, cream, milk, tea
T6
T2
bread, cream, milk
T7

（完整版）数据挖掘概念课后习题答案

（完整版）数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库，给出每种数据挖掘功能的例⼦。

特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如，学⽣的特征可被提出，形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓，这些特征包括作为⼀种⾼的年级平均成绩(GPA：Grade point a ve r s ge) 的信息，还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如，具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓，就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣，⽽具有低GPA 的学⽣的65%不是。

关联是指发现关联规则，这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如，⼀个数据挖掘系统可能发现的关联规则为：m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中，X 是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣，12%（⽀持度）主修计算机科学并且拥有⼀台。

个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%（置信度，或确定度）分类与预测不同，因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型（或，⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的功能）相似性是他们都是预测的⼯具：分类被⽤作预测⽬标数据的类的标签，⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。

形成的每⼀簇可以被看作⼀个对象类。

西安交大数据挖掘第五次作业

第五次作业Weihua Wang 1、假设数据挖掘的任务是将如下八个点聚类为三个类.A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9)距离函数为欧几里得函数.假设初始我们选择A1,B1,C1为每个聚类的中心,用K-means 方法给出:a)在第一次循环后的三个聚类中心b)最后的三个簇解:首先计算A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) A1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 B1(5,8) 3.61 4.24 5 0 3.61 4.12 7.21 1.41 C1(1,2) 8.06 3.16 7.28 7.21 6.71 5.36 0 7.62由上表可得,各点的归属簇为:A1:A1,B1:A3,B1,B2,B3,C2C1:A2,C1第一次循环后三个聚类中心为First1:(2,10)First2:((8+5+7+6+4)/5,(4+8+5+4+9)/5)=(6,6)First3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) F1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 F2(6,6) 5.66 4.12 2.83 2.24 1.41 2 6.40 3.61 F3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可得,各点的归属簇为:F1:A1,C2F2:A3,B1,B2,B3F3:A2,C1Second1:((2+4)/2,(10+9)/2)=(3,9.5)Second2:((8+5+7+6)/4,(4+8+5+4)/4)=(6.5,5.25)Second3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) S1(3,9.5) 1.12 4.61 7.43 2.50 6.02 6.26 7.76 1.12 S2(6.5,5.25) 6.54 4.51 1.96 3.13 0.56 1.35 6.39 4.51 S3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知，各点的归属簇为：S1：A1,B1,C2S2：A3,B2,B3S3：A2,C1Third1:((2+5+4)/3,(10+8+9)/3)=(3.67,9)Third2:((8+7+6)/3,(4+5+4)/3)=(7,4.33)Third3: ((2+1)/2,(5+2)/2)=(1.5,3.5)A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) T1(3.67,9) 1.95 4.33 6.61 1.66 5.20 5.52 7.49 0.33 T2(7,4.33)7.56 5.04 1.05 4.18 0.67 1.05 6.44 5.55 T3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知，各点的归属簇为：T1:A1,B1,C2T2:A3,B2,B3T3:A2,C1各点的归属簇至此已不发生变化，故最后的三个簇为：Final1:A1,B1,C2Final2:A3,B2,B3Final3:A2,C12、进行单链和全链层次聚类，绘制树状图显示结果，树状图应当清楚地显示合并的次序。

数据挖掘——探索数据的奥秘智慧树知到课后章节答案2023年下青岛工学院

数据挖掘——探索数据的奥秘智慧树知到课后章节答案2023年下青岛工学院青岛工学院第一章测试1.数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

（）A:对 B:错答案:对2.下面哪些是时空数据的应用（）。

A:气象学家使用人造卫星和雷达观察飓风 B:从多媒体数据库中发现有趣的模式 C:机动车辆管理者把GPS安装在汽车上，以便更好地监管和引导车辆 D:动物学家把遥感设备安装在野生动物身上，以便分析生态行为答案:气象学家使用人造卫星和雷达观察飓风;机动车辆管理者把GPS安装在汽车上，以便更好地监管和引导车辆;动物学家把遥感设备安装在野生动物身上，以便分析生态行为3.数据挖掘生命周期的数据理解阶段，起于原始数据收集，止于熟悉数据、识别数据质量问题。

（）A:对 B:错答案:错4.以下关于数据挖掘规律的描述中，不正确的是（）。

A:业务知识是数据挖掘过程每一步的中心 B:对所有领域的每个数据挖掘问题,总有模式可循。

C:数据准备超过数据挖掘过程的3/4 D:给定应用的正确模型只能通过实验发现答案:数据准备超过数据挖掘过程的3/45.关于数据挖掘生命周期的部署阶段，说法正确的是（）。

A:部署阶段要完成模型的创建 B:执行部署步骤的通常是数据分析师 C:部署通常是数据挖掘项目的终点 D:建立模型的目的不能仅仅是增加对数据的了解答案:部署阶段要完成模型的创建6.“8,000”和“10,000”表示:（）。

A:数据 B:信息 C:知识 D:智慧答案:数据7.“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:（）。

A:数据 B:知识 C:信息 D:智慧答案:信息8.“飞机无法飞过高山”表示:（）。

A:知识 B:智慧 C:数据 D:信息答案:知识9.数据取样时，除了要求抽样时严把质量关外，还要求抽样数据必须在足够范围内有代表性。

数据仓库与挖掘第五章_数据挖掘概述

数据有噪声的。传统数据分析方法的数据源一般都是清洁
好的、结构化的数据，数据挖掘则需要从不完全的、有噪声的、模糊的数据中发现知识。
数据挖掘与传统数据分析方法区别
数据可能是非结构化的。数据挖掘不仅可以处理结构化的数据，而且可以处理半结构化或者非结构化的数据。事实上，基于文本的数据挖掘甚至互联网上的数据挖掘正是数据挖掘的研究方向之一。
数据挖掘和数据仓库
大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。优点：数据仓库的数据清理和数据挖掘的数据清理差不多，如果数据在导入数据仓库时已经清理过，那很可能在做数据挖掘时就没必要再清理一次了，而且所有的数据不一致的问题都已经被解决了。
为了数据挖掘你也不必非得建立一个数据仓库，建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。
传统的数据分析方法基于假设驱动的:一般都是先给出一个假设然后通过数据验证。
数据挖掘在一定意义上是基于发现驱动的：模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。
数据挖掘和数据仓库
分类与估值
分类与估值（Classification and Estimation）
分类指通过分析一个类别已知的数据集的特征来建立一组模型，该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式：分类规则（IF-THEN），决策树或者数学公式，乃至神经网络。
估值与分类类似，只不过它要预测的不是类别，而是一个连续的数值。

数据挖掘5

传统数据分析工具（DSS/EIS）
数据挖掘工具
工具特点
分析重点分析目的数据集大小启动方式
回顾型的、验证型的
已经发生了什么从最近的销售文件中列出最大客户数据维、维中属性数、维中数据均是少量的企业管理人员、系统分析员、管理顾问启动与控制
预测型的、发现型的
预测未来的情况、解释发生的原因锁定未来的可能客户，以减少未来的销售成本数据维、维中属性数、维中数据均是庞大的数据与系统启动，少量的人员指导统计分析工具已经成熟，其他工具正在发展中
5.2 分类与预测
分类的目的是提出一个分类函数或分类模型（即分类器），通过分类器将数据对象映射到某一个给定的类别中。数据分类可以分为两步进行。

第一步建立模型，用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。这一步也称作有监督的学习，导出模型是基于训练数据集的，训练数据集是已知类标记的数据对象。第二步使用模型对数据对象进行分类。首先应该评估模型的分类准确度，如果模型准确度可以接受，就可以用它来对未知类标记的对象进行分类。
5.1.1 数据挖掘的演变

1.数据挖掘技术的发展（1）数据挖掘产生的背景是四个方面的原因促进了数据挖掘技术产生、发展和应用。 A.大容量数据库的出现。 B.先进计算机技术应用。 C.现代化经营管理的需要。 D.对数据挖掘精、深能力的要求。
数据挖掘:多个学科的融合
数据库系统统计学

（2）对数据挖掘技术的商业定义从商业角度看，数据挖掘是新型的商业分析处理技术。它是从大型数据库或数据仓库中发现并提取隐藏在其中信息的一种新技术，帮助决策者寻找数据间潜在的关联，发现被忽略的因素。（3）数据挖掘工具与传统数据分析工具的比较数据挖掘是一类深层次的数据分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

本科生实验报告
实验课程数据挖掘
学院名称信息科学与技术学院
专业名称计算机科学与技术
学生姓名代星
学生学号201413030317
指导教师
实验地点
实验成绩
二〇一六年11月二〇一六年11月
第五章作业题一
第1章实验内容
在UCI上下载一个用于分类的数据集，使用C4.5算法，设置不同的参数建立两个有指导的学习，记录检验集错误率。

使用式（5,9）确定两个模型的检验集错误率是否存在显著差异。

第2章实验目的
对于一个用于分类的数据集，使用C4.5算法，设置不同的参数建立两个有指导的学习，记录检验集错误率。

使用式（5,9）确定两个模型的检验集错误率是否存在显著差异，从而学会评估有指导的学习模型。

第3章算法思想
选择具有最大增益率的属性作为分支节点来分类实例数据。

第4章实验过程
4.1数据准备
数据集名为IRIS.xls，选择所有150个实例和5个属性，其中4个属性作为输入属性，第5个属性Iris_type作为输出属性，生成.csv文件，加载到Weka。

4.2 建立模型
使用Weka进行有指导的学习训练，选择C4.5数据挖掘算法，在Weka中名为J48，将test options 设置为 Percentage split ，使用百分比72%，选择Iris_type 作为输出属性。

单击Moreoptions按钮，打开Classifier evaluation options 对话框，在Output predictions点击choose选中PlainText。

表示将在输入结果中显示作为检验集实力的计算输出。

单击Start按钮，执行程序。

查看混淆矩
阵，计算错误率为9.5%。

通过分析混淆矩阵，重新设置参数使用百分比66%，重复上述步骤，执行程序，计算错误率为3.9%，较之前有了些许提升。

接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。

公式如上图所示。

其中E1为模型M1的检验集分类错误率；E2为模型M2的检验集分类错误率；q为两个模型分类错误率的平均值，即q=（E1+E2）/2；n1和n2分别是检验集A和B的实例个数；q（1-q）是用E1和E2计算出来的方差值。

代入数据可得最后的Z=0.057，如果Z值大于等于1.96，就有95%的把握认为M1和M2的检验集性能差别是显著的。

此时算出来的是0.057，就说明两个聚类算法的性能差别不是显著的。

第5章实验结果
1、修改参数前：C4.5数据挖掘算法：
2、修改参数后：C4.5数据挖掘算法：
第6章结果分析
通过观察混淆矩阵，并记录检验集错误率，从而修改参数使错误率减小，虽然通过计算结果改进的不明显，但是通过实验掌握了学习方法。

第7章心得体会
通过这次试验，在以前的基础上更加深入的了解了C4.5决策树算法以及Weka 软件的使用。

第五章作业题二
第1章实验内容
使用心脏病人数据集（CardiologyNumerical）的前150个实例作为训练集实例，剩下的153个实例作为检验集实例，选择两种或多种数据挖掘技术建立有指导的学习模型，利用混淆矩阵和检验集错误率评估所建模型，并使用假设检验确定这些模型之间是否存在显著性差异。

第2章实验目的
选择两种或多种数据挖掘技术建立有指导的学习模型，利用混淆矩阵和检验集错误率评估所建模型，并使用假设检验确定这些模型之间是否存在显著性差异，从而学会评估有指导的学习模型。

第3章算法思想
一、k-means 算法:
（1）随机选择一个K值，用以确定簇的总数。

（2）在数据集中任意选择K个实例，将它们作为初始的簇中心。

（3）计算K个簇中心与其他剩余实例简单欧氏距离，用这个距离作为实例之间相似性的度量，将与某个簇相似度高的实例划分到该簇中，成为其成员之一。

（4）使用每个簇中的实例来计算该簇新的簇中心。

（5）如果计算得到新的簇中心等于上次迭代的簇中心，终止算法过程。

否则用新的簇中心作为簇中心并重复步骤（3）~（5）。

二、最大期望（EM）算法：是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。

最大期望经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。

最大期望算法经过两个步骤交替进行计算：第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是最大化（M），最大化在 E 步上求得的最大似然值来计算参数的值。

M 步上找到的参数估计值被用于下一个 E 步计算中，这个过程不断交替进行。

第4章实验过程
4.1数据准备
心脏病人数据集（CardiologyNumerical）的前150个实例作为训练集实例，剩下的153个实例作为检验集实例，生成.csv文件，加载到Weka。

4.2 建立模型
（1）加载数据集,选择Instance列，单击Remove按钮，使该属性不参加训练。

切换到Cluster选项卡，单击Choose按钮，打开算法选择对话框，选择SimpleKMeans算法。

（2）单击Choose按钮右方的文本框，打开参数设置对话框，查看参数，并保持默认。

注意将K值（numCluster）设置为2，距离函数选择欧氏距离。

（3）单击Start按钮，查看结果。

（4）结果中将151个实例分为0和1两个参数分别由91个和60个实例。

使用Kmeans算法最终分类为0的有84个，分类为1的有68个。

与原始的数据集中
的分类有一定的偏差。

计算得分类错误率为5.6%。

（5）单击Choose按钮，打开算法选择对话框，使用EM算法进行实验，结果中分类为0的有74个，分类为1的有78个。

与原始数据集中的分类有一定差别，分类错误率为4.9%。

（6）
接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。

公式如上图所示。

代入数据可得最后的Z=1.076，如果Z值大于等于1.96，就有95%的把握认为M1和M2的检验集性能差别是显著的。

此时算出来的是1.076，就说明两个聚类算法的性能差别是不显著的。

第5章实验结果
SimpleKMeans算法：
EM算法：
第6章结果分析
结果中将151个实例分为0和1两个参数分别由91个和60个实例。

使用Kmeans 算法最终分类为0的有84个，分类为1的有68个。

与原始的数据集中的分类有一定的偏差。

计算得分类错误率为5.6%。

使用EM算法进行实验，结果中分类为0的有74个，分类为1的有78个。

与原始数据集中的分类有一定差别，分类错误率为4.9%。

第7章心得体会
从这次的作业中更加深入的了解了Kmeans算法以及Weka软件的使用，还学习了新的算法。

第五章作业题三
第1章实验内容
使用MS Excel的CORREL函数和散点图确定心脏病人数据集（CardiologyNumerical）的maximun heart rate和peak属性之间的关系。

第2章实验目的
学会使用MS Excel的CORREL函数和散点图确定心脏病人数据集（CardiologyNumerical）的maximun heart rate和peak属性之间的关系。

第3章算法思想
函数作用：返回单元格区域 array1 和 array2 之间的相关系数。

使用相关系数可以确定两种属性之间的关系。

第4章实验过程
4.1数据准备
在Excel中加载心脏病人数据集（CardiologyNumerical）
4.2 建立模型
4.2.1 CORREL函数
（1）在Excel中加载心脏病人数据集（CardiologyNumerical）。

（2）在一个空白单元格中输入=CORREL(H2:H304,J2:J304)，单机确定按钮。

得出的结果为-0.34419，说明maximun heart rate和peak属性具有一定的但较小的负相关性。

4.2.2 散点图
（1）在Excel中加载心脏病人数据集（CardiologyNumerical）。

（2）选中maximun heart rate和peak列，打开“插入”菜单，单机“散点图”按钮，插入以这两个属性为x坐标和y坐标的散点图，结果如下。

选中maximun heart rate和peak列，打开“插入”菜单，单机“散点图”按钮，插入以这两个属性为x坐标和y坐标的散点图。

第5章实验结果
1.由函数计算得出的结果为-0.34419，说明maximun heart rate和peak属性具有一定的但较小的负相关性。

2.散点图：
第6章结果分析
1.由函数计算得出的结果为-0.34419，说明maximun heart rate和peak属性具有一定的但较小的负相关性。

2.散点图中的点没有明显的线性分布，说明这两个属性的相关性很小。

第7章心得体会
通过这次试验，学会使用MS Excel的CORREL函数和散点图确定相关度。