数据挖掘原理与实践蒋盛益版期末复习

合集下载

汕头大学数据挖掘期末复习

汕头大学数据挖掘期末复习

汕头大学2019数据挖掘期末复习资料(浩军老师班)考试范围:数据预处理、数据关联分析、分类与预测、SVM、K-MEANS、聚类考试题型:简答题,复习请以实验相关内容为主数据挖掘课程的主要内容:1.数据挖掘概述2.数据预处理3.数据挖掘算法-关联分析4.数据挖掘算法-分类与预测5.数据挖掘算法-聚类分析一、数据挖掘概述什么是数据挖掘?数据挖掘概念:从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术(机器学习)的综合。

数据挖掘定义:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据的特征:大容量、含噪音(不完全、不正确)、异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)数据挖掘有哪些步骤?1.确定预测目标2.统计数据特征3.根据数据特征进行数据预处理4.应用数据挖掘模型(分类、聚类、关联分析、离群点挖掘、标记等)5.分析模型的准确率6.找出影响模型准确率的因素,回到第3步迭代直到模型足够完美。

二、数据预处理数据预处理有哪些步骤?1.数据清理2.数据集成3.数据归约4.数据变换与数据离散化为什么要进行数据预处理?现实世界的数据是不完整的、含有噪声的、不一致的、冗余的。

低质量的数据将导致低质量的挖掘结果。

1)现实世界的数据一般是脏的、不完整的和不一致的。

2)数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。

3) 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。

数据的质量涉及的三个要素是?准确性,完整性和一致性。

现实世界的数据一般是脏的不完整的不一致的。

数据预处理技术可以改善数据的质量。

如何填充数据中存在的缺失值?1.忽略元组(删除)2.使用一个全局常量填充空缺值(例如NULL)3.使用属性的平均值、众数、中位数来填充空缺值4.人工填充空缺值数据清理补充缺失的属性值:使用属性的中心度量(如均值或者中位数或者众数(频率度量出现单峰)填充缺失值。

数据挖掘考试复习资料

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策.2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1:OLAP是针对特定问题的联机数据访问和分析。

通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。

定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

)7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典 (一文搞定,期末考试不再担忧)

【数据挖掘】期末考试备考复习宝典单选1、下列选项哪个描述的是“训练样本”(B)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断2、下列选项哪个描述的是“分类”(C)A、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果B、在电子病历数据中,每一个样本有八个检测指标,每个样本还有一个医生诊断结果C、在电子病历数据中,每一个样本有八个检测指标,但是没有医生诊断结果;算法自动得到这些样本的诊断结果D、在电子病历数据中,每一个样本有八个检测指标,医生根据这八个指标做出诊断3、列哪个选项描述的不是“聚类”(C)A、搜索引擎返回的文档中,将相似的文档聚合成一类B、电子商务网站数据中,购物历史相似的用户自动聚合成一组C、电子商务网站数据中,分析出用户常常一起购买的商品,组合到一起促销D、在电子病历数据中,将体检指标相似的样本自动聚合成一组4、在MATLAB语言中,以下说法中错误的是A、MATLAB中默认的数据类型是doubleB、3<5的运算结果是logical类型C、变量Abc和abc是代表两个相同的变量D、灰度图的图像矩阵中的数据是uint8类型5、数据对象的别名不包括(D)A、记录B、样本C、向量D、特征6、属性的别名不包括(B)A、特征B、样本C、字段D、维7、下列说法不正确的是(C)A、测量标度是将数值或符号与对象的属性相关联的规则B、属性的性质不必与用来度量它的值的性质完全相同C、即使在不同的应用问题中,同一个物理量也必然使用同一种类型的属性来描述D、属性类型可以划分为:标称、序数、区间、比率这四种8、某办公自动化系统中,采用出生年份表示雇员的年龄,这是什么类型属性(C)A、标称B、序数C、区间D、比率9、某学籍管理系统中,采用百分制表示学生分数,这是什么类型属性(D)A、标称B、序数C、区间D、比率10、描述一个数据集的属性主要不包括(A)A、置信度B、维度C、分辨率D、稀疏性11、下列说法中错误的是(D)A、噪声是测量误差的随机部分B、数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。

数据挖掘期末复习整理

数据挖掘期末复习整理
50.监督学习(185):分类器的学习在被告知每个训练元组属于哪个类的“监督”下进行。
51.无监督学习(185):又称为“聚类”,每个训练元组的类标号是未知的,并且要学习的类的个数或集合也可能事先不知道。
52.如何评价学习算法(187):从以下几个方面评价:准确率、速度、鲁棒性、可升缩性、可解释性。
2.决策树(P189):信息增益(192)例6-1;增益率(184)例6-2;
3.贝叶斯分类(P200);贝叶斯定理(201);朴素贝叶斯分类(202);例6-4 P203
四.综合
1.数据挖掘产生的背景
答:随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。而电信、银行、大型零售业每天产生的数量以TB来计算。人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据背后隐藏的知识手段。导致了“数据爆炸但知识贫乏”的现象。于是人们开始提出“要学会选择、提取、抛弃信息”,并且开始考虑:如何才能不被信息淹没?如何从中及时发现有用的知识、提高信息利用率?如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息?这给我们带来了另一些头疼的问题:
结果=(1-0.5)*6+0.5*7=6.5
25.五数概况(35):由中位数,四分位数Q1和Q3,最小和最大观·测值组成,按一下序列写为:Minimun,Q1,Median,Q3,Maximum.
26.方差、标准差(35):
N个观测值x1,x2………Xn的方差是:

数据挖掘期末复习

数据挖掘期末复习

《数据挖掘》总复习题1.数据挖掘系统可以根据什么标准进行分类?挖掘的数据库类型分类、挖掘的知识类型分类、所用的技术分类、应用分类2.知识发现过程包括哪些步骤?数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?一个概念分层定义一个映射序列,将底层概念到更一般的高层概念。

4.多维数据模型上的OLAP操作包括哪些?上卷、下钻、切片和切块、转轴、其它OLAP操作5.OLAP服务器类型有哪几种?关系OLAP(ROLAP)服务器、多维OLAP(MOLAP)服务器、混合OLAP(HOLAP)服务器、特殊的SQL服务器6.数据预处理技术包括哪些?数据清理、数据集成、数据变换、数据归约7.什么是数据清理?数据清理例程可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性8.什么是数据集成?数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。

这些源可能包括多个数据库、数据方或一般文件。

9.什么是数据归约?数据归约技术,如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小。

10.数据清理的内容包括哪些?遗漏值、噪音数据、不一致数据11.将下列缩略语复原OLAP——on-line analytical processingDM——data miningKDD——knowledge discovery in databasesOLTP——on-line transaction processingDBMS——database management systemDWT——discrete wavelet transform12.什么是数据挖掘?数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道的,但又有潜在有用的信息和知识的过程。

13.什么是关联规则?什么是强关联规则?强关联规则都是有趣的吗?关联规则:关联规则挖掘寻找给定数据集中项之间的有趣联系。

数据挖掘期末复习提纲(整理版)

数据挖掘期末复习提纲(整理版)

1.熟悉数据挖掘的流程:提示:1)业务理解2)数据理解3)数据准备4)建立模型5)模型评估6)模型发布2.数据库系统与数据仓库系统的区别:数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程:而数据库是面向具体操作的、单一的、实时的、更新的数据集合,支持管理机构日常操作的。

数据库系统的主要任务是执行联机事务和查询处理,这种系统称为OLTP系统,涵盖了组织机构的大部分日常操作;另一方面,数据仓库在数据分析和决策方面为用户和知识工人提供服务。

3. 数据聚合需考虑的问题;4. 利用免费商品做促销的关联规则挖掘问题:1)找到免费商品的频繁1—项集,记为S1。

2)使用FP增长算法生成那些价格不少于$200的频繁项集,记为S2。

这是一个单调约束,因此不必要在每一步使用“生成—测试”过程,这样能节省一些不必要的计算开销。

如果我们有一个频繁项价格至少¥200,则没必要对这个频繁项的任何超集进行测试。

这是因为任何其他商品加到这个频繁项里,价格肯定会增多。

需要检验的是超集是否是频繁的。

这里之所以使用FP增长算法的原因是Apriori算法丢弃了那些价格低于$200的频繁项集。

这样导致了将不能够发现满足约束条件的频繁项集。

FP增长算法不会有这样的问题,因为它保留了关于数据库的完整信息在一个树结构中。

3)从S1S2中找到频繁项集。

4)生成满足最小置信度且形如2S 的规则。

1S5.分布式数据的关联规则挖掘方法:第一.在每一个站点挖掘局部频繁项集,设CF为四个站点的局部频繁项集的并集;第二.计算CF中每个频繁项集在各个站点的支持度计数;第三.计算CF中每个项集的全局支持度计数,可以通过将它在四个站点的局部支持度计数累加起来;那些全局支持度大于支持度阀值的项集为频繁项集;第四.从全局频繁项集里导出强规则。

6.急切分类、惰性分类的优缺点:急切分类比惰性分类在速度上要更快。

因为它在接受新的待测数据之前已经构造了一个概括的模型。

数据挖掘期末复习资料

数据挖掘期末复习资料

数据挖掘期末复习资料2009-02-21 20:38:37| 分类:读书笔记 | 标签: |字号大中小订阅题型:填空(20空)、判断(20分)、简答(5个:预处理方法、决策树、朴素贝叶斯过程、其他一些知识内容)、大题(算法:关联分析、分类、决策树、ID3算法、贝叶斯方法、A神经网络、聚类回归占得比较小)概述一、数据挖掘是一个多学科领域,具体涉及到哪些相关学科?数据库及相关领域知识。

二、什么是数据挖掘,产生的背景,典型的数据挖掘系统的主要成分?数据挖掘定义:数据挖掘是从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。

典型的数据挖掘系统的主要成分:1.数据库,数据仓库或其他信息库;2.数据库或数据仓库服务器:3.知识库;4.数据挖掘引擎;5.模式评估模块;6.图形用户界面。

三、数据挖掘的功能有哪些?数据挖掘功能-可以挖掘什么类型的模式。

数据挖掘任务:描述和预测。

描述性挖掘任务刻划数据库中数据的一般特性;预测性挖掘任务在当前数据上进行推断。

数据挖掘的功能——用于指定数据挖掘任务中要找的模式类型。

其模式类型介绍如下:(1)、概念/类描述:特征化和区分。

用汇总的、简洁的、精确的方式描述每个类和概念,称这种描述为类/概念描述,通过三种方式得到:1)数据特征化 2)数据区分 3)数据特征化和比较。

(2)关联分析:发现规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。

关联规则的含义为:满足X中条件的数据库元组多半也满足Y中条件。

包括多维关联规则和单维关联规则。

(3)分类和预测:分类与预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。

分类是找出描述并区分数据类或概念的模型或函数,以便能用模型预测类标记未知的对象类。

如:可以构造一个分类模型来对银行贷款进行风险评估(安全或危险);也可建立一个预测模型以利用顾客收入与职业(参数)预测其可能用于购买计算机设备的支出大小。

数据挖掘期末考试复习题(精).doc

数据挖掘期末考试复习题(精).doc

1数据挖掘来源于机器学习2数据仓库是面向主题的集成的稳定的不同时间的数据集合,用于支持经营管理中决策制定过程;3元素据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心,4Codd将数据分析模型分为四类绝对模型解释模型思考模型或公式化;5数据立方体是在所以可能组合的维上进行分组聚集运算的总和;6 (数据质量)是(|数据仓库|)的成败关键; 7概括分析是探索者分析过程的第一步。

8.数据仓库的物理模型设计是对逻辑模型设计的数据模型确定物理存储结构和存取方法。

9.自组织网络以ART模型,Kohonen模型为代表,用于聚集类。

10.预测是利用历史数据找出变化规律,建立模型。

并用此模型来预测未来数据的种类,特征等;11调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

12 S Q L Server ssas提供了所以业务数据的同意整合试图,可以作为传统报表和数据挖掘,在线分析处理,关键性能指示器记分卡的基础13数据仓库的概念模型定义通常采用信息包括图法来进行设计;14关联规则的经典算法包括()()15分类关联规则16分类器设计阶段包含划分数据集,分类器构造,分类器测试;16雪花模型是对星型模型式维表的进一步层次化和规范化来消除冗余的数据;17数据处理通常分为两大类,联机事务处理,联机分析处理。

18数据抽取的两个常见类型是静态抽取和增量抽取;19维度表一般由主键,分类层次和描述属性组成。

20 ROLAp是基于关系数据库的OLAP实现,而MO L AP是基于多维数据机构组织的OLAP实现。

21数据仓库按照其开发过程,其关键环节包括数据抽取,数据存储,数据管理,数据表现。

2 2 KD D是从数据集中识别出有效的新颖的潜在有用的以及最终可理解的模式的高级处理过程。

2 3 遗传算法的基本要素问题编码:初始群体的设定:适应值函数的设计:遗传操作设计;控制参数设定:24数据集市数据集市是指具有特定应用的数据仓库,主要针对某个具有应用战与意义的应用或者具体部门级的应用,支持用户利用自己有的数据获得重要竞争的优势。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章数据挖掘定义技术层面:数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。

商业层面:数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

数据挖掘任务预测任务根据其它属性的值预测特定属性的值,如分类、回归、离群点检测。

描述任务寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。

(1) 分类(Classification)分析分类分析,通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。

分类分析广泛应用于用户行为分析(受众分析)、风险分析、生物科学等。

(2) 聚类(Clustering)分析“物以类聚,人以群分”。

聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。

聚类可以帮助决定哪些组合更有意义,广泛应用于客户细分、定向营销、信息检索等等。

(3) 回归(Regression )分析回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。

其可应用于风险分析、作文自动评分等领域。

(4) 关联(Association)分析关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。

关联分析广泛用于市场营销、事务分析等领域。

聚类与分类的主要区别聚类与分类是容易混淆的两个概念,聚类是一种无指导的观察式学习,没有预先定义的类。

而分类问题是有指导的示例式学习,预先定义的类。

数据挖掘过程数据挖掘和知识发现紧密相连。

知识发现是从数据中发现有用知识的整个过程⏹知识发现的主要步骤:⏹数据清洗。

其作用是清除数据噪声和与挖掘主题明显无关的数据。

⏹数据集成。

其作用是将来自多数据源中的相关数据组合到一起。

⏹数据转换。

其作用是将数据转换为易于进行数据挖掘的数据存储形式。

⏹数据挖掘。

其作用是利用智能方法挖掘数据模式或规律知识。

⏹模式评估。

其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。

⏹知识表示。

其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识从商业的角度看,数据挖掘过程可分为三个阶段数据收集:数据收集容易且不引人注意,但却是数据挖掘的基础。

知识是从海量数据里提取出来的,因此要挖掘知识必须得收集一定量的数据。

收集到的原始数据一般存在缺失值、错误值等问题,不能直接用作知识提取的数据源,需要进行数据预处理。

知识提取:基于经过预处理的数据,使用各种数据挖掘方法(如分类、聚类、关联分析等)进行知识提取,这是数据挖掘的核心部分。

知识辅助决策:数据挖掘技术已被广泛地应用于各领域,其提取出来的知识可以很好地辅助决策者做出良好的决策第二章数据统计特征数据的中心度量1数据集“中心”的最常用、最有效的数值度量是(算术)均值(mean)。

2设x1, x2,…, x N是N个值的集合,则该值集的均值定义为:截断均值:指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。

中位数是p=100%时的截断均值,而标准均值是对应于p=0%的截断均值。

例:计算{1,2,3,4,5,90}值集的均值,中位数和p=40%的截断均值.解:均值是17.5,中位数是3.5,p=40%时的截断均值也是3.5数据预处理⏹数据清理⏹数据集成⏹数据变换⏹数据归约⏹数据离散化数据清理——噪声数据的平滑方法⏹目前噪声数据的平滑方法包括:⏹分箱:分箱方法通过考察“邻居”(即周围的值)来平滑有序数据的值。

⏹聚类:聚类将类似的值组织成群或“簇”。

⏹回归:让数据适合一个函数来平滑数据。

数据平滑实例⏹一组排序后的数据(单位:元):4,8,15,21,21,24,25,28,34⏹划分为等深的箱❑箱1:4,8,15❑ 箱2:21,21,24 ❑ 箱3:25,28,34⏹ 用箱平均值进行平滑❑ 箱1:9,9,9(下同)⏹ 用箱的边界进行平滑❑ 箱1:4,4,15 ❑ 箱2:21,21,24 ❑ 箱3:25,25,34数据变换——规范化⏹ 最小-最大规范化:aa av vmin max min '--=,优点:计算简单⏹ Z -score 规范化: aadev d s mean v v ()_tan '-=, a mean 是均值,a dev d s _tan 为标准差⏹ 小数定标规范化: 的最小整数1|)v (| max 是使j 其中,,10''<=jvv离散属性间的相关性计算❑ 离散型数据间相关性计算(互信息)⏹ 特征x 的信息熵⏹ 已知变量y 后x 的条件信息熵⏹ 信息增益数据对象之间的相异度⏹ 距离:❑ 欧几里得距离∑=-=nkk k y x y x d 12)(),(其中,n 的维数(总特征数),X k 和Y k 分别表示X 和Y 的第k 个分量❑ 闵可夫斯基(Minkowski )距离xnk x k k q p dist 11)||(∑=-=❑ x =1,城市块(曼哈顿)距离 ❑ x =2,欧几里得距离❑ x =∞,切比雪夫(Chebyshev)距离二值属性⏹ 二元数据相似性度量 M 01 = x 取0并且y 取1的属性的个数 M 10 = x 取1并且y 取0的属性的个数 M 00 = x 取0并且y 取0的属性的个数 M 11 = x 取1并且y 取1的属性的个数⏹ 简单匹配系数(Simple Matching Coefficient,SMC): SMC = 值匹配的属性个数 /属性个数 = (M 11 + M 00) / (M 01 + M 10 + M 11 + M 00)⏹ Jaccard 系数 J = 匹配的个数 /不涉及0-0匹配的属性个数 = (M 11) / (M 01 + M 10 + M 11)例子X = (1 0 0 0 0 0 0 0 0 0) Y = ( 0 0 0 0 0 0 1 0 0 1)M 01 = 2 (x 取0并且y 取1的属性的个数) M 10 = 1 (x 取1并且y 取0的属性的个数) M 00 = 7 (x 取0并且y 取0的属性的个数) M 11 = 0 (x 取1并且y 取1的属性的个数)SMC = (M 11 + M 00)/(M 01 + M 10 + M 11 + M 00) = (0+7) / (2+1+0+7) = 0.7 J = M 11 / (M 01 + M 10 + M 11) = 0 / (2 + 1 + 0) = 02.18 以下表格包含了属性name ,gender ,trait -1,trait -2,trait -3,及trait -4,这里的name 是 对象的id ,gender 是一个对称的属性,剩余的trait 属性是不对称的,描述了希望找到的笔友的个人特点。

假设有一个服务是试图发现合适的笔友。

对 不对称的属性的值,值P 被设为1,值N 被设为0。

假设对象(潜在的笔友)间的距离是基于不对称变量来计算的。

(a)计算对象间的简单匹配系数;SMC(Keavn,Caroline)=(2+2)/(0+0+2+2)=1SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0(b)计算对象间的Jaccard 系数;Jaccard(Keavn,Caroline)=2/(2+0+0)=1Jaccard(Keavn,Erik)=0/(0+2+2)=0Jaccard(Caroline,Erik)=0/(0+2+2)=0(c)你认为哪两个人将成为最佳笔友?哪两个会是最不能相容的?根据属性的匹配程度,Keavn和Caroline将成为最佳笔友,Caroline和Erik会是最不能相容的(d)假设我们将对称变量gender包含在我们的分析中。

基于Jaccard系数,谁将是最和谐的一对?为什么?若将对称变量gender包含在分析中,设值M被设为1,值F被设为0,Jaccard(Keavn,Caroline)=2/(2+1+0)=2/3Jaccard(Keavn,Erik)=1/(1+2+2)=1/5Jaccard(Caroline,Erik)=0/(0+2+3)=0因为Jaccard(Keavn,Caroline)最大,因此,Keavn和Caroline是最和谐的一对。

第三章分类的定义❑分类是数据挖掘中的一种主要分析手段❑分类的任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:分类与回归的区别❑分类和回归都有预测的功能,但是:⏹分类预测的输出为离散或标称的属性;⏹回归预测的输出为连续属性值;❑分类与回归的例子:⏹预测未来某银行客户会流失或不流失,这是分类任务;⏹预测某商场未来一年的总营业额,这是回归任务。

分类与聚类的区别❑分类因为使用了类标号属性,属于有监督的学习方法❑聚类,事先没有使用任何类标号信息,属于无监督的学习方法决策树的基本概念⏹决策树(Decision Tree)是一种树型结构,包括:决策节点(内部节点)、分支和叶节点三个部分。

⏹其中:❑决策节点代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。

❑ 叶节点存放某个类标号值,表示一种可能的分类结果。

❑ 分支表示某个决策节点的不同取值。

❑ 决策树可以用来对未知样本进行分类,分类过程如下:从决策树的根节点开始,从上往下沿着某个分支往下搜索,直到叶结点,以叶结点的类标号值作为该未知样本所属类标号。

决策树的属性选择⏹ 虽然可以采用任何一个属性对数据集进行划分,但最后形成的决策树会差异很大。

需要寻找合适的属性选择方法。

⏹ 属性选择是决策树算法中重要的步骤,常见的属性选择标准包括信息增益和Gini 系数。

❑ 信息增益是决策树常用的分枝准则,在树的每个结点上选择具有最高信息增益的属性作为当前结点的划分属性。

❑ Gini 系数是一种不纯度函数,用来度量数据集的数据关于类的纯度。

获得大小合适的树⏹ 决策树学习的目的是希望生成能够揭示数据集结构并且预测能力强的一棵树,在树完全生长的时候有可能预测能力反而降低,为此通常需要获得大小合适的树。

⏹ 一般来说有两种获取方法:❑ 一种为定义树的停止生长条件,常见条件包括最小划分实例数、划分阈值和最大树深度等。

❑ 另一种方法是对完全生长决策树进行剪枝,方法是对决策树的子树进行评估,若去掉该子树后整个决策树表现更好,则该子树将被剪枝。

ID3分类算法⏹ 它使用信息增益(information gain)作为属性的选择标准。

相关文档
最新文档