k最近邻算法实验报告

合集下载

基于K近邻的分类算法研究

基于K近邻的分类算法研究K近邻（K-Nearest Neighbors）算法是一种常见的分类算法，它基于样本的特征相似性进行分类。

该算法的基本思想是，对于一个新的样本点，根据其与已知样本的距离，找出距离最近的K个已知样本，然后通过对这K个样本的分类情况进行统计，来对新样本进行分类。

K近邻算法的主要优点是简单、易于理解和实现，同时具有较好的分类效果。

然而，K近邻算法也存在一些缺点，包括计算复杂度高、对离群点敏感等。

因此，在应用K近邻算法时需要注意调整参数，并在数据预处理中去除异常值。

K近邻算法的步骤如下：1.计算样本之间的相似度：通常使用欧几里得距离或曼哈顿距离来计算样本之间的相似度。

样本间距离越小，相似度越高。

2.选择K值：K值是指在计算距离最近的K个样本时所选择的集合大小。

选择一个合适的K值非常重要，不同的K值会对分类结果产生影响。

3.找出K个最近的样本：根据已有样本与新样本的距离计算结果，找出距离最近的K个样本点，可以使用排序算法（如快速排序）来实现。

4.统计K个样本中的类别：统计在K个最近的样本中各个类别出现的频率，选择出现次数最多的类别作为新样本的类别。

5.进行分类：将新样本分类到出现频率最高的类别中。

K近邻算法的性能受到两个主要因素的影响：距离度量和K值的选择。

合适的距离度量方式和K值的选择能够显著提高算法的分类准确性。

然而，在处理大规模数据时，K近邻算法的计算复杂度较高，因为它需要对每个测试样本计算其与所有训练样本之间的距离。

为了降低计算复杂度，可以采用一些优化方法，如KD树、Ball树等。

在实际应用中，K近邻算法被广泛应用于文本分类、图像识别、推荐系统等领域。

例如，在推荐系统中，可以根据用户的兴趣领域和已有用户的行为数据，找出与一些用户兴趣相似的K个邻居用户推荐相应的商品。

总之，K近邻算法是一种简单、易于理解和实现的分类算法，它通过寻找样本之间的相似性来进行分类。

然而，该算法也存在一些缺点，需要在实际应用中合理调整参数，并对数据进行预处理，以提高分类效果。

加权k最近邻算法

加权K最近邻（Weighted K-Nearest Neighbors，简称WKNN）是一种在机器学习和数据挖掘中使用的算法，主要用于分类和回归问题。

它是一种基于实例的学习方法，其中最近的邻居被赋予权重，这些权重通常与实例的类别或特征有关。

在WKNN中，我们首先根据距离度量（如欧几里得距离、曼哈顿距离等）找出输入样本在训练数据集中K个最近邻。

然后，对于每个最近邻，我们根据某种规则（如权重函数）赋予它一个权重。

最后，我们根据加权的最近邻的类别或值进行预测。

权重函数通常与样本的类别或特征有关。

例如，如果一个样本属于一个特定的类别，并且它的某些特征比其他样本更显著（例如，在图像分类问题中，边缘或纹理信息可能会比颜色信息更重要），那么这些样本的邻居可能会被赋予更高的权重。

以下是一个简单的WKNN算法的实现步骤：
1. 初始化：为每个训练样本设定一个权重。

2. 对于新的输入样本，使用距离度量找出其K个最近邻。

3. 对每个最近邻，根据权重函数计算其权重。

4. 根据加权的最近邻的类别或值进行预测。

这种算法通常比简单的KNN算法更准确，因为它考虑了不同样本的重要性和影响力。

然而，它的实现和调优可能会更复杂，因为它需要一个适当的权重函数来平衡不同样本的重要性。

需要注意的是，WKNN并不一定比其他分类算法（如支持向量机、决策树、随机森林等）更优越，它可能更适合某些特定的问题和数
据集。

在选择算法时，需要根据具体的问题和数据集进行评估和实验。

(完整word版)数据挖掘与实验报告(word文档良心出品)

中科大数据挖掘实验报告姓名樊涛声班级软设一班学号SA15226248实验一K邻近算法实验一实验内容使用k近邻算法改进约会网站的配对效果。

海伦使用约会网址寻找适合自己的约会对象，约会网站会推荐不同的人选。

她将曾经交往过的的人总结为三种类型：（1）不喜欢的人（2）魅力一般的人（3）极具魅力的人尽管发现了这些规律，但依然无法将约会网站提供的人归入恰当的分类。

使用KNN算法，更好的帮助她将匹配对象划分到确切的分类中。

二实验要求（1）独立完成kNN实验，基本实现可预测的效果（2）实验报告（3）开放性：可以自己增加数据或修改算法，实现更好的分类效果三实验步骤（1）数据源说明实验给出的数据源为datingTestSet.txt，共有4列，每一列的属性分别为：①percentage of time spenting playing vedio games；②frequent flied miles earned per year；③liters of ice cream consumed per year；④your attitude towars this people。

通过分析数据源中的数据，得到规律，从而判断一个人的前三项属性来得出划分海伦对他的态度。

（2）KNN算法原理对未知属性的某数据集中的每个点一次执行以下操作①计算已知类别数据集中的每一个点和当前点的距离②按照距离递增依次排序③选取与当前点距离最小的k个点④确定k个点所在类别的出现频率⑤返回k个点出现频率最高的点作为当前点的分类（3）KNN算法实现①利用python实现构造分类器首先计算欧式距离然后选取距离最小的K个点代码如下：def classify(inMat,dataSet,labels,k):dataSetSize=dataSet.shape[0]#KNN的算法核心就是欧式距离的计算，一下三行是计算待分类的点和训练集中的任一点的欧式距离diffMat=tile(inMat,(dataSetSize,1))-dataSetsqDiffMat=diffMat**2distance=sqDiffMat.sum(axis=1)**0.5#接下来是一些统计工作sortedDistIndicies=distance.argsort()classCount={}for i in range(k):labelName=labels[sortedDistIndicies[i]]classCount[labelName]=classCount.get(labelName,0)+1;sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True) return sortedClassCount[0][0]②解析数据输入文件名，将文件中的数据转化为样本矩阵，方便处理代码如下：def file2Mat(testFileName,parammterNumber):fr=open(testFileName)lines=fr.readlines()lineNums=len(lines)resultMat=zeros((lineNums,parammterNumber))classLabelVector=[]for i in range(lineNums):line=lines[i].strip()itemMat=line.split('\t')resultMat[i,:]=itemMat[0:parammterNumber]classLabelVector.append(itemMat[-1])fr.close()return resultMat,classLabelVector;返回值为前三列属性被写入到resultMat二维数组中，第四列属性作为标签写入到classLableVector中③归一化数据不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，使各指标处于同一数量级。

人工智能实验报告

⼈⼯智能实验报告⼈⼯智能课程项⽬报告姓名：班级：⼆班⼀、实验背景在新的时代背景下，⼈⼯智能这⼀重要的计算机学科分⽀，焕发出了他强⼤的⽣命⼒。

不仅仅为了完成课程设计，作为计算机专业的学⽣，了解他，学习他我认为都是很有必要的。

⼆、实验⽬的识别⼿写字体0~9三、实验原理⽤K-最近邻算法对数据进⾏分类。

逻辑回归算法（仅分类0和1）四、实验内容使⽤knn算法：1.创建⼀个1024列矩阵载⼊训练集每⼀⾏存⼀个训练集2.把测试集中的⼀个⽂件转化为⼀个1024列的矩阵。

3.使⽤knnClassify（）进⾏测试4.依据k的值，得出结果使⽤逻辑回归：1.创建⼀个1024列矩阵载⼊训练集每⼀⾏存⼀个训练集2.把测试集中的⼀个⽂件转化为⼀个1024列的矩阵。

3.使⽤上式求参数。

步长0.07，迭代10次4.使⽤参数以及逻辑回归函数对测试数据处理，根据结果判断测试数据类型。

五、实验结果与分析5.1实验环境与⼯具Window7旗舰版+python2.7.10+numpy（库）+notepad++（编辑）Python这⼀语⾔的发展是⾮常迅速的，既然他⽀持在window下运⾏就不必去搞虚拟机。

5.2实验数据集与参数设置Knn算法：训练数据1934个，测试数据有946个。

数据包括数字0-9的⼿写体。

每个数字⼤约有200个样本。

每个样本保持在⼀个txt⽂件中。

⼿写体图像本⾝的⼤⼩是32x32的⼆值图，转换到txt⽂件保存后，内容也是32x32个数字，0或者1，如下图所⽰建⽴⼀个kNN.py脚本⽂件，⽂件⾥⾯包含三个函数，⼀个⽤来⽣成将每个样本的txt⽂件转换为对应的⼀个向量：img2vector(filename):，⼀个⽤来加载整个数据库loadDataSet():，最后就是实现测试。

5.3评估标准看测试数与测试结果是否相同。

相同输出结果正确，否则输出结果错误。

5.4实验结果与分析实验分析：KNN算法可以说是使⽤蛮⼒进⾏分类，每进⾏⼀个测试样本的判断，都要对所以的训练集操作⼀次，时间复杂度和空间复杂度都会随着训练集和测试集的数量⽽增加。

机器学习实例---1.1、k-近邻算法（简单k-nn）

机器学习实例---1.1、k-近邻算法（简单k-nn）机器学习实例---1.1、k-近邻算法（简单k-nn）⼀、总结⼀句话总结：> 【取最邻近的分类标签】：算法提取样本最相似数据(最近邻)的分类标签> 【k的出处】：⼀般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处> 【k-近邻算法实例】：⽐如，现在我这个k值取3，那么在电影例⼦中，按距离依次排序的三个点分别是动作⽚(108,5)、动作⽚(115,8)、爱情⽚(5,89)。

【在这三个点中，动作⽚出现的频率为三分之⼆，爱情⽚出现的频率为三分之⼀】，所以该红⾊圆点标记的电影为动作⽚。

这个判别过程就是k-近邻算法。

1、k-近邻算法距离度量？> ⽤欧⽒距离就好：$$| A B | = \sqrt { ( x _ { 1 } - x _ { 2 } ) ^ { 2 } + ( y _ { 1 } - y _ { 2 } ) ^ { 2 } }$$> 例如：(101,20)->动作⽚(108,5)的距离约为16.552、简单的k-近邻算法步骤？> 1、【计算距离】：计算已知类别数据集中的点与当前点之间的距离；> 2、【距离排序】：按照距离递增次序排序；> 3、【选k个点】：选取与当前点【距离最⼩】的k个点；> 4、【确定k个点的类别】：确定前k个点所在类别的出现频率；返回前k个点所出现频率最⾼的类别作为当前点的预测分类。

3、k-邻近算法不具有显式的学习过程？> 【没进⾏数据训练】：k-近邻算法没有进⾏数据的训练，【直接使⽤未知的数据与已知的数据进⾏⽐较，得到结果】。

因此，可以说k-邻近算法不具有显式的学习过程。

4、完整的k-近邻算法流程？> 1、【收集与准备数据】：可以使⽤爬⾍进⾏数据的收集，也可以使⽤第三⽅提供的免费或收费的数据。

⼀般来讲，数据放在txt⽂本⽂件中，按照⼀定的格式进⾏存储，便于解析及处理。

k-近邻算法实例 -回复

k-近邻算法实例-回复什么是k近邻算法，以及如何在实践中应用它？k近邻算法（k-Nearest Neighbors，简称kNN算法）是一种用于分类和回归问题的非参数化机器学习算法。

在分类问题中，kNN算法通过计算新样本与已知样本的距离，找到其k个最近邻居，并将新样本分配到与其最相似的类别中。

在回归问题中，kNN算法将新样本的目标值设为其k个最近邻居的平均值。

kNN算法的基本思想是新样本与已知样本的相似性取决于它们在特征空间中的距离。

在实践中，kNN算法具有许多应用场景。

以下是一个kNN算法实例，描述了如何使用该算法来解决一个分类问题。

假设我们有一组已知的鸢尾花数据集，包含了150个样本和4个特征。

每个样本都属于三个不同的类别中的一个：山鸢尾（Setosa）、变色鸢尾（Versicolor）和维吉尼亚鸢尾（Virginica）。

我们的目标是根据这些特征将新样本分类到正确的类别中。

首先，我们需要对数据集进行预处理和准备工作。

我们将数据集拆分为特征集和目标变量集。

特征集包括4个特征列，而目标变量集则包含每个样本所属的类别。

接下来，我们需要将数据集划分为训练集和测试集。

我们将通过训练集来训练模型，并使用测试集来评估模型的性能。

通常情况下，我们将数据集的80用于训练，20用于测试，可以通过使用train_test_split()函数来轻松实现。

然后，我们需要选择一个合适的k值。

k值决定了我们要考虑多少个最近邻居。

通常情况下，k的选择需要根据具体问题和数据集来确定。

较小的k值可能导致模型过于复杂和过拟合，而较大的k值可能导致欠拟合。

因此，我们需要进行交叉验证来选择一个合适的k值。

在k近邻算法中，常见的选择是使用奇数k值，以避免在多个类别中出现平局。

接下来，我们使用训练集来训练kNN模型。

训练过程实际上只是简单地将训练集存储在模型中，以便在需要时进行比较。

然后，我们使用测试集来评估模型的性能。

对于每个测试样本，我们计算它与训练集中各个样本的距离，并选择与之最接近的k个样本。

KNN算法总结范文

KNN算法总结范文KNN（K-nearest neighbors）算法是一种常用的分类和回归算法。

该算法的基本思想是通过计算待分类样本与已知类别样本之间的距离，找出最近的K个已知类别样本，然后根据这K个最近样本的类别进行预测或分类。

1.简单有效：KNN算法是一种基于实例的学习算法，不需要假设数据的分布情况，因此适用于各种类型的数据。

2.高度灵活：KNN算法不仅可以用于分类问题，还可以用于回归问题，对于多种类型的数据预测都适用。

3.鲁棒性强：KNN算法对数据中的噪声和异常值不敏感，这是因为算法会考虑多个邻居的类别进行预测，不会受个别样本的影响。

4.可处理多类别问题：KNN算法可以处理多类别问题，通过选择合适的K值和多数表决法，可以预测出多个类别的可能性。

然而，KNN算法也存在一些缺点：1.需要大量的存储空间：KNN算法需要保存训练集中的所有样本，当训练集非常大时，会消耗大量的存储空间。

2.计算复杂度高：KNN算法需要计算待分类样本与所有训练样本之间的距离，并选取最近的K个样本，因此在大规模数据集上的计算复杂度很高。

3.对数据的缩放敏感：KNN算法是基于距离的算法，如果特征之间的度量尺度不同，会导致一些特征对距离的贡献过大，影响算法的性能。

针对KNN算法的缺点，可以采取以下方法进行改进和优化：1.降维：通过特征选择或特征提取等降维方法，减少特征的数量，从而减少计算量和存储空间的消耗。

2.核方法：使用核方法对数据进行映射，将高维特征空间的计算转化为低维特征空间的计算，从而提高计算效率。

3.近似计算：使用近似计算方法，如K-d树、球树等数据结构，减少计算距离的复杂度。

4.特征缩放：对数据进行标准化或归一化处理，将不同尺度的特征统一到相同的尺度上，从而避免度量尺度不同的问题。

总结来说，KNN算法是一种简单有效的分类和回归算法，具有高度灵活性和鲁棒性，可以处理多类别问题。

然而，该算法在存储空间消耗和计算复杂度方面存在一些缺点，可以通过降维、核方法、近似计算和特征缩放等方法进行改进和优化。

k- 最近邻算法

k- 最近邻算法摘要：1.K-最近邻算法的定义和原理2.K-最近邻算法的计算方法3.K-最近邻算法的应用场景4.K-最近邻算法的优缺点正文：1.K-最近邻算法的定义和原理K-最近邻（K-Nearest Neighbors，简称KNN）算法是一种基于相似度度量的聚类分析方法。

该算法的基本思想是：在数据集中，每个数据点都与距离它最近的K 个数据点属于同一类别。

这里的K 是一个超参数，可以根据实际问题和数据情况进行调整。

KNN 算法的主要步骤包括数据预处理、计算距离、确定最近邻和进行分类等。

2.K-最近邻算法的计算方法计算K-最近邻算法的过程可以分为以下几个步骤：（1）数据预处理：将原始数据转换为适用于计算距离的格式，如数值型数据。

（2）计算距离：采用欧氏距离、曼哈顿距离等方法计算数据点之间的距离。

（3）确定最近邻：对每个数据点，找到距离最近的K 个数据点。

（4）进行分类：根据最近邻的数据点所属的类别，对目标数据点进行分类。

3.K-最近邻算法的应用场景K-最近邻算法广泛应用于数据挖掘、机器学习、模式识别等领域。

常见的应用场景包括：（1）分类：将数据点划分到不同的类别中。

（2）回归：根据特征值预测目标值。

（3）降维：通过将高维数据映射到低维空间，减少计算复杂度和噪声干扰。

4.K-最近邻算法的优缺点K-最近邻算法具有以下优缺点：优点：（1）简单易懂，易于实现。

（2）对数据规模和分布没有特殊要求。

（3）对噪声不敏感，具有较好的鲁棒性。

缺点：（1）计算复杂度高，尤其是大规模数据集。

（2）对离群点和噪声敏感。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

题目k-最近邻算法实现学生姓名学生学号专业班级指导教师2015-1-2实验二k-最近邻算法实现一、实验目的1.加强对k-最近邻算法的理解；2.锻炼分析问题、解决问题并动手实践的能力。

二、实验要求使用一种你熟悉的程序设计语言，如C++或Java，给定最近邻数k和描述每个元组的属性数n，实现k-最近邻分类算法，至少在两种不同的数据集上比较算法的性能。

三、实验环境Win7 旗舰版+ Visual Studio 2010语言：C++四、算法描述KNN(k Nearest Neighbors)算法又叫k最临近方法。

假设每一个类包含多个样本数据，而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类，KNN就是计算每个样本数据到待分类数据的距离。

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。

因此，采用这种方法可以较好地避免样本的不平衡问题。

另外，由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN 方法较其他方法更为适合。

该方法的不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K 个最近邻点。

目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。

该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

1、算法思路K -最临近分类方法存放所有的训练样本，在接受待分类的新样本之前不需构造模型，并且直到新的（未标记的）样本需要分类时才建立分类。

K -最临近分类基于类比学习，其训练样本由N 维数值属性描述，每个样本代表N 维空间的一个点。

这样，所有训练样本都存放在N 维模式空间中。

给定一个未知样本，k -最临近分类法搜索模式空间，找出最接近未知样本的K 个训练样本。

这K 个训练样本是未知样本的K 个“近邻”。

“临近性”又称为相异度（Dissimilarity ），由欧几里德距离定义，其中两个点 X （x1,x2,…,xn ）和Y （y1,y2,…,yn ）的欧几里德距离是：2222211)()()(),(n n y x y x y x y x D -+⋯+-+-=未知样本被分配到K 个最临近者中最公共的类。

在最简单的情况下，也就是当K=1时，未知样本被指定到模式空间中与之最临近的训练样本的类。

2、算法步骤step.1---初始化距离为最大值；step.2---计算未知样本和每个训练样本的距离dist ； step.3---得到目前K 个最临近样本中的最大距离maxdist ；step.4---如果dist 小于maxdist ，则将该训练样本作为K -最近邻样本； step.5---重复步骤2、3、4，直到未知样本和所有训练样本的距离都算完； step.6---统计K -最近邻样本中每个类标号出现的次数； step.7---选择出现频率最大的类标号作为未知样本的类标号。

3、算法伪代码搜索k个近邻的算法：kNN(A[n],k)输入：A[n]为N个训练样本在空间中的坐标（通过文件输入），k为近邻数输出：x所属的类别取A[1]~A[k]作为x的初始近邻，计算与测试样本x间的欧式距离d （x,A[i]）,i=1,2,.....,k；按d（x，A[i]）升序排序，计算最远样本与x间的距离D<-----max{d(x,a[j]) | j=1,2,.....,k};for(i=k+1;i<=n;i++)计算a[i]与x间的距离d(x,A[i]);if(d(x,A[i]))<Dthen 用A[i]代替最远样本按照d(x,A[i])升序排序，计算最远样本与x间的距离D<---max{d(x,A[j]) | j=1,...,i };计算前k个样本A[i]),i=1,2,...,k所属类别的概率，具有最大概率的类别即为样本x的类。

五、数据结构代码结构如图所示，方法描述如下：KNN：KNN类构造函数，用于读取数据集；get_all_distance:KNN类公有函数，计算要分类的点到所有点的距离；get_distance:KNN类私有函数，计算两点间的距离；get_max_freq_label:KNN类公有函数，在k个数据里，获取最近k个数据的分类最多的标签，将测试数据归位该类。

类图如上图所示，KNN类的成员变量描述如下：dataSet：tData型二维数组，用于训练的数据集；k：int型，从k个最近的元素中，找类标号对应的数目的最大值，归类；labels：tLable型一维数组，类标签；map_index_dist：map<int,double>型，记录测试点到各点的距离；map_label_freq：map<tLable,int>型，记录k个邻居类，各类的个数。

六、程序截图七、实验总结八、附件1.程序源码kNN1.cpp#include<iostream>#include<map>#include<vector>#include<algorithm>#include<fstream>using namespace std;typedef char tLabel;typedef double tData;typedef pair<int,double> PAIR;const int colLen = 2;const int rowLen = 10;ifstream fin;class KNN{private:tData dataSet[rowLen][colLen];tLabel labels[rowLen];int k;map<int,double> map_index_dis;map<tLabel,int> map_label_freq;double get_distance(tData *d1,tData *d2);public:KNN(int k);void get_all_distance(tData * testData);void get_max_freq_label();struct CmpByValue{bool operator() (const PAIR& lhs,const PAIR& rhs){return lhs.second < rhs.second;}};};KNN::KNN(int k){this->k = k;fin.open("data.txt");if(!fin){cout<<"can not open the file data.txt"<<endl;exit(1);}/* input the dataSet */for(int i=0;i<rowLen;i++){for(int j=0;j<colLen;j++){fin>>dataSet[i][j];}fin>>labels[i];}}/** calculate the distance between test data and dataSet[i]*/double KNN:: get_distance(tData *d1,tData *d2){double sum = 0;for(int i=0;i<colLen;i++){sum += pow( (d1[i]-d2[i]) , 2 );}//cout<<"the sum is = "<<sum<<endl;return sqrt(sum);}/** calculate all the distance between test data and each training data*/void KNN:: get_all_distance(tData * testData){double distance;int i;for(i=0;i<rowLen;i++){distance = get_distance(dataSet[i],testData);//<key,value> => <i,distance>map_index_dis[i] = distance;}//traverse the map to print the index and distancemap<int,double>::const_iterator it = map_index_dis.begin();while(it!=map_index_dis.end()){cout<<"index = "<<it->first<<" distance = "<<it->second<<endl;it++;}}/** check which label the test data belongs to to classify the test data*/void KNN:: get_max_freq_label(){//transform the map_index_dis to vec_index_disvector<PAIR>vec_index_dis( map_index_dis.begin(),map_index_dis.end() );//sort the vec_index_dis by distance from low to high to get the nearest data sort(vec_index_dis.begin(),vec_index_dis.end(),CmpByValue());for(int i=0;i<k;i++){cout<<"the index = "<<vec_index_dis[i].first<<" the distance = "<<vec_index_dis[i].second<<" the label = "<<labels[vec_index_dis[i].first]<<" the coordinate ( "<<dataSet[ vec_index_dis[i].first ][0]<<","<<dataSet[ vec_index_dis[i].first ] [1]<<" )"<<endl;//calculate the count of each labelmap_label_freq[ labels[ vec_index_dis[i].first ] ]++;}map<tLabel,int>::const_iterator map_it = map_label_freq.begin();tLabel label;int max_freq = 0;//find the most frequent labelwhile( map_it != map_label_freq.end() ){if( map_it->second > max_freq ){max_freq = map_it->second;label = map_it->first;}map_it++;}cout<<"The test data belongs to the "<<label<<" label"<<endl;}int main(){tData testData[colLen];int k ;cout<<"please input the k value : "<<endl;cin>>k;KNN knn(k);cout<<"please input the test data :"<<endl;for(int i=0;i<colLen;i++)cin>>testData[i];knn.get_all_distance(testData);knn.get_max_freq_label();system("pause");return 0;}2.数据集data.txt。