数据仓库与数据挖掘技术-试题答案
数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。
参考答案:错误2.决策树中不包含以下哪种节点。
参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。
数据源可能涉及多个数据库、数据立方体或一般文件。
参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。
参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。
要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。
参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。
参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。
参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。
现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。
参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。
如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。
数据仓库与数据挖掘课后答案

Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用来决策分析。
2.从数据库发展到数据仓库的原因是什么?答:①数据太多,信息贫乏。
②异构环境数据的转换和共享。
③利用数据进行事务处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同答:数据库(DB)数据仓库(DW)面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。
Olap 联机分析处理,是数据仓库的核心,是对oltp的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。
5.答:oltp是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。
它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。
事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。
大量的数据操作主要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。
Oltp处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。
6.答:1.oltp 是明细的数据,olap 是汇总数据2.oltp 记录实时的数据,olap 包含2-3年历史数据3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。
4.oltp一次性处理的数据量少,olap一次处理的数据量大5.oltp对响应时间要求高,olap响应时间合理6.oltp面向应用,事务驱动,olap面向分析,分析驱动7. 数据库中数据字典包括哪些内容?P4-5答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么?P5答:元数据为关于数据的数据(data about data)。
(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。
特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。
2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。
3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。
数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。
设minsup=60%,minconf=80%。
TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。
解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。
数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部份 ( C )A.数据、模型、技术C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识D.建模能力、算法与技术、领域知识)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)A.OLAP 事务量大,但事务内容比较简单且重复率高B.OLAP 的最终数据来源与 OLTP 不一样C.OLTP 面对的是决策人员和高层管理人员D.OLTP 以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 会萃D. 估计遗漏值6. 在 ID3 算法中信息增益是指(A.信息的溢出程度C.熵增加的程度最大D )B.信息的增加效益D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8. 以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻觅最佳决策树是 NP 彻底问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12. 设 X={1,2,3}是频繁项集,则可由X 产生( C )个关联规则。
数据仓库与数据挖掘教程第2版陈文伟版课后习题答案非常全

第一章作业1.数据库及数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库及数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.( ,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
(,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。
数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。
10 .数据仓库的定义是什么?答:(1)对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。
概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。
2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
数据仓库与数据挖掘教程(第2版)课后习题答案第七章

数据仓库与数据挖掘教程(第2版)课后习题答案第七章第七章作业1.信息论的基本原理是什么?一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。
在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,也不可能判断信源会处于什么样的状态。
这种情形就称为信宿对于信源状态具有不确定性,而且这种不确定性是存在于通信之前的,因而又叫做先验不确定性。
在通信后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。
如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。
但是,在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。
因此,先验不确定性不能全部被消除, 只能部分地消除。
换句话说,通信结束之后,信宿仍具有一定程度的不确定性。
这就是后验不确定性。
2.学习信道模型是什么?学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。
学习信道模型的信源是实体的类别,采用简单“是”、“非”两类,令实体类别U 的值域为{u1,u2},U 取u1表示取“是”类中任一例子,取u2表示取“非”类中任一例子。
信宿是实体的特征(属性)取值。
实体中某个特征属性V ,他的值域为{v1,v2……vq}。
3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理?信息论原理是数据挖掘的理论基础之一。
一般用于分类问题,即从大量数据中获取分类知识。
具体来说,就是在已知各实例的类别的数据中,找出确定类别的关键的条件属性。
求关键属性的方法,即先计算各条件属性的信息量,再从中选出信息量最大的属性,信息量的计算是利用信息论原理中的公式。
4自信息:单个消息ui 发出前的不确定性(随机性)称为自信息。
数据仓库与数据挖掘,DBMS题库考试大纲和答案

确定索引策略——B树索引 位图索引等 确定数据存放位置 ——磁带 磁盘 等 确定存储分配优化 ◆数据仓库生成 通过专用的数据抽取工具或者通过自行编程 实现数据抽取、转换和装载。 ◆数据仓库运行与维护 建立DSS应用,使用数据仓库理解需求,调整和完善系统,维护数据仓库。 17. 简要说明异常点挖掘有哪些方法?
问答题: 1. 操作型数据和分析型数据的主要区别是什么?
面向分析,分析驱动 面向应用,事务驱动 面向决策人员,支持管理需要 面向操作人员,支持日常操作 用户数量相对较少 用户数量大 响应时间合理 对响应时间要求高 一次处理的数据量大 一次处理的数据量小 周期性更新 经常更新 历史数据 当前数据 综合性数据
18. 什么是数据驱动的系统设计方法? 19. 简述采用决策树方法进行分类的过程。 决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组 中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决 策树的内部结点进行属性值 的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的 类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应 着一组析取表达式规则。 20. 请简述采用神经元网络进行分类的过程。 人类大脑的思维分为抽象(逻辑)思维、形象(直观)思维和灵感(顿 悟)思维三种基本方式。 逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概 念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一 过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布 式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法. 13.
案。 序列模式分析:发现在时间序列上,一个项目集之后的项目集是 什么,即找到时间上连续的事件。 广义索引也是为了提高数据仓库中数据访问速度而采用的一种索 引技术。主要是处理一些最值问题。 星型模型:是最常用的数据仓库设计结构的实现模式。使数据仓 库形成了一个集成系统,为用户提供分析服务对象。核心是事实 表,围绕事实表的是维度表。通过事实表将各种不同的维度表连 接起来,各个维度表都连接到中央事实表。 OLAP中的维和维层次 维是人们观察数据的特定角度;维的层次 是维在不同细节程度的描述 雪片模型是对星型模型的扩展,每一个维度都可以向外连接到多 个详细类别表。雪花模型对星型模型的维度表进一步标准化,对 星型模型中的维度表进行了规范化处理。 关联分析适合于从关系中挖掘知识。包含关联发现、序列模式发 现和类似的时序发现等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
?
(1)现实世界的数据是杂乱的,数据多了什么问题会浮现。
数据库极易受到噪音数据(包含错误或者孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或者仅包含会萃数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,往往多达几G 或者更多。
进行数据预处理,提高数据质量,从而提高挖掘结果质量。
(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或者数据方;数据交换:规范化或者会萃可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过会萃、删除冗余特征或者聚类等方法来压缩数据。
数据离散化:属于数据归约的一部份,通过概念分层和数据的离散化来规约数据,对数字型数据特殊重要。
监督学习 (Supervised learning) 是通过发现数据属性和类别属性之间的关联模式,并通过利用这些模式来预测未知数据实例的类别属性。
监督学习又称为分类Classification 或者归纳学习Inductive Learning。
无监督学习(Unsupervised learning)即聚类技术。
在一些应用中,数据的类别属性是缺失的,用户希翼通过浏览数据来发现其的某些内在结构。
聚类就是发现这种内在结构的技术。
雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。
这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。
然而,与巨大的事实表相比,这种空间的节省可以忽略。
此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。
这样系统的性能可能受影响。
因此,在数据仓库设计中,雪花模式不如星形模式流行。
三
答: (1)所有频繁项集为: [E,K,O] [K,M] [K,Y] (2) 关联规则:
[O]->[E,K] 1.0
[E,O] -> [K] 1.0
[K,O] -> [E] 1.0
[M] -> [K] 1.0
[Y] -> [K] 1.0
答:
a) 决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。
每一个决策
树可以依靠对源数据库的分割进行数据测试。
这个过程以递归的方式对树进行修剪。
当不能再分割时,递归完成。
因此决策树不会无限循环。
b) 0
c) size
d) Children,SIN,class
public class BayesClassifier
{
private TrainingDataManager tdm;//训练集管理器
private String trainnigDataPath;//训练集路径
private static double zoomFactor = 10.0f;
/**
* 默认的构造器,初始化训练集
*/
public BayesClassifier()
{
tdm =new TrainingDataManager();
}
/**
* 计算给定的文本属性向量X 在给定的分类Cj 中的类条件概率* <code>ClassConditionalProbability</code>连乘值
* @param X 给定的文本属性向量
* @param Cj 给定的类别
* @return 分类条件概率连乘值,即<br>
*/
float calcProd(String[] X, String Cj)
{
float ret = 1.0F;
// 类条件概率连乘
for (int i = 0; i <X.length; i++)
{
String Xi = X[i];
ret *=ClassConditionalProbability.calculatePxc(Xi, Cj)*zoomFactor;
}
// 再乘以先验概率
ret *= PriorProbability.calculatePc(Cj);
return ret;
}
/**
* 去掉停用词
* @param text 给定的文本
* @return 去停用词后结果
*/
public String[] DropStopWords(String[] oldWords)
{
Vector<String> v1 =new Vector<String>();
for(int i=0;i<oldWords.length;++i)
{
if(StopWordsHandler.IsStopWord(oldWords[i])=alse)
{//不是停用词
v1.add(oldWords[i]);
}
}
String[] newWords = new String[v1.size()];
v1.toArray(newWords);
return newWords;
}
/**
* 对给定的文本进行分类
* @param text 给定的文本
* @return 分类结果
*/
@SuppressWarnings("unchecked")
public String classify(String text)
{
String[] terms = null;
terms= ChineseSpliter.split(text, " ").split(" ") /中文分词处理(分词后结果可能还包含有停用词)
terms = DropStopWords(terms) /去掉停用词,以免影响分类
String[] Classes = tdm.getTraningClassifications() /分类
float probility = 0.0F;
List<ClassifyResult> crs = new ArrayList<ClassifyResult>();//分类结果
for (int i = 0; i <Classes.length; i++)
{
String Ci = Classes[i];//第i 个分类
probility = calcProd(terms, Ci);//计算给定的文本属性向量terms 在给定的分类Ci 中的分类条件概率
//保存分类结果
ClassifyResult cr = new ClassifyResult();
cr.classification = Ci;//分类
cr.probility = probility;//关键字在分类的条件概率
System.out.println("In process .");
System.out.println(Ci + ":" + probility);
crs.add(cr);
}
//对最后概率结果进行排序
java.util.Collections.sort(crs,new Comparator()
{
public int compare(final Object o1,final Object o2)
{
final ClassifyResult m1 = (ClassifyResult) o1;
final ClassifyResult m2 = (ClassifyResult) o2;
final double ret = m1.probility - m2.probility;
if (ret < 0)
{
return 1;
}
else
{
return - 1;
}
}
});
//返回概率最大的分类
return crs.get(0).classification;
}
}
(1)最临近分类是基于要求的或者懒散的学习法。
因为它存放所有训练样本,并且直至新的样本需要分类时才建立分类。
begin
初始化 n x n 距离矩阵 D,初始化混淆矩阵 C,设置 t=0 , TotAcc = 0 , NumIterations 为要迭代次数。
计算所有输入样本和存储在 D 矩阵中的距离。
For t=1 to NumIterations do
Set c = 0 , Ntotal=0
将输入样本划分为 k 个同等大小的分组
For fold=1 to k do
指定第 fold 个样本进行测试,并且使用原来训练样本。
设置 Ntest 为要测试样本数量。
Set Ntotal = Ntotal+Ntest
For i = 1 to Ntest do
基于样本计算距离确定 k 个最邻近训练样本。
确定在 k 个最邻近样本中最频繁的分类标记。
在 w 为真并且对于预测测试样本分类标记为时,对混淆矩阵 C 进行递增 1 存储为。
如果,则在混淆矩阵对角线上加 1,否则在非对角线上加 1。
当为混淆矩阵对角线元素时,使用
确定分类器的精确度。
计算 . 最后计算
end。