基于距离类中心最近分类器和朴素贝叶斯分

合集下载

机器学习领域中的分类算法

机器学习领域中的分类算法

机器学习领域中的分类算法随着大数据时代的到来,机器学习已经成为了最炙手可热的技术之一。

在数据挖掘和人工智能领域,分类问题一直是非常重要的问题之一。

分类指的是将数据集中的实例按照某种规则将其区分开来。

分类算法可以让机器对不同的输入数据进行自动分类,从而得到更加精准、高质量的预测结果。

在机器学习领域中,分类算法是比较基础和常用的方法之一。

在研究分类算法之前,需要了解一下两个非常重要的概念:特征和标签。

特征是指用于对实例进行描述的属性,比如身高、体重、性别等;而标签则是对每个实例所属类别的标记,也称为类标。

分类算法的目的就是,通过学习这些特征和标签之间的关系,预测新的输入数据的类别。

分类算法的种类非常多,我们可以根据不同的分类方式来对其进行分类。

比如说,可以根据分类模型的分布方式将其分为生成模型和判别模型;也可以根据算法中使用的训练方法将其分为监督学习和非监督学习。

下面我们将会讨论一些常见的分类算法。

1. K最近邻算法(K-Nearest Neighbor Algorithm)K最近邻算法是一种监督学习的算法,它的主要思想是:对于一个新的输入样本,它所属的类别应当与与它最近的K个训练样本的类别相同。

其中K是一个可调参数,也称为邻居的个数。

算法的流程大致如下:首先确定K的值,然后计算每一个测试数据点与训练数据集中每个点的距离,并根据距离从小到大进行排序。

最后统计前K个训练样本中各类别出现的次数,选取出现次数最多的类别作为该测试样本的输出。

K最近邻算法简单易用,但是它有一些局限性。

首先,算法的分类效果对数据的质量非常敏感,因此需要对数据进行预处理。

其次,算法需要存储全部的训练数据,对于大规模数据集,存储和计算的开销非常大。

2. 决策树算法(Decision Tree Algorithm)决策树是一种基于树形结构进行决策支持的算法。

其原理是:将一个问题转化为简单的二选一问题并逐步求解,形成一棵树形结构,从而形成不同的决策路径。

大数据的经典的四种算法

大数据的经典的四种算法

大数据的经典的四种算法大数据经典的四种算法一、Apriori算法Apriori算法是一种经典的关联规则挖掘算法,用于发现数据集中的频繁项集和关联规则。

它的基本思想是通过迭代的方式,从单个项开始,不断增加项的数量,直到不能再生成频繁项集为止。

Apriori算法的核心是使用Apriori原理,即如果一个项集是频繁的,则它的所有子集也一定是频繁的。

这个原理可以帮助减少候选项集的数量,提高算法的效率。

Apriori算法的输入是一个事务数据库,输出是频繁项集和关联规则。

二、K-means算法K-means算法是一种聚类算法,用于将数据集划分成K个不同的类别。

它的基本思想是通过迭代的方式,不断调整类别中心,使得每个样本点都属于距离最近的类别中心。

K-means算法的核心是使用欧氏距离来度量样本点与类别中心的距离。

算法的输入是一个数据集和预设的类别数量K,输出是每个样本点所属的类别。

三、决策树算法决策树算法是一种分类和回归算法,用于根据数据集中的特征属性,构建一棵树形结构,用于预测目标属性的取值。

它的基本思想是通过递归的方式,将数据集分割成更小的子集,直到子集中的样本点都属于同一类别或达到停止条件。

决策树算法的核心是选择最佳的划分属性和划分点。

算法的输入是一个数据集,输出是一个决策树模型。

四、朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的分类算法,用于根据数据集中的特征属性,预测目标属性的取值。

它的基本思想是假设特征属性之间相互独立,通过计算后验概率来进行分类。

朴素贝叶斯算法的核心是使用贝叶斯定理和条件独立性假设。

算法的输入是一个数据集,输出是一个分类模型。

五、支持向量机算法支持向量机算法是一种用于分类和回归的机器学习算法,用于找到一个超平面,将不同类别的样本点分开。

它的基本思想是找到一个最优的超平面,使得离它最近的样本点到超平面的距离最大化。

支持向量机算法的核心是通过求解凸二次规划问题来确定超平面。

算法的输入是一个数据集,输出是一个分类或回归模型。

简述基于距离的分类算法

简述基于距离的分类算法

简述基于距离的分类算法一、引言基于距离的分类算法是机器学习中常用的一种分类方法,它通过计算不同样本之间的距离来确定样本之间的相似度,从而将它们分为不同的类别。

本文将从以下几个方面对基于距离的分类算法进行详细介绍。

二、基本概念1. 距离度量:在基于距离的分类算法中,需要定义不同样本之间的距离度量方法。

常用的方法有欧氏距离、曼哈顿距离、切比雪夫距离等。

2. 样本空间:指所有样本组成的空间,每个样本都可以看作该空间中一个点。

3. 样本特征:指每个样本所具有的特征或属性,如身高、体重等。

三、KNN算法KNN(K-Nearest Neighbor)算法是基于距离度量来进行分类和回归分析的一种非参数性统计方法。

它通过计算未知样本与已知样本之间的距离来找到最近邻居,并将未知样本归入与其最近邻居相同的类别中。

KNN算法具有简单易懂、效果好等优点,在实际应用中得到了广泛的应用。

四、K-means算法K-means算法是一种基于距离度量的聚类算法,它将样本空间划分为k个簇,每个簇包含距离最近的k个样本。

在算法开始时,需要随机选择k个样本作为初始中心点,然后计算所有样本与这些中心点之间的距离,并将每个样本归入距离最近的簇中。

接着重新计算每个簇的中心点,并重复以上步骤直到达到收敛条件。

K-means算法具有较高的效率和准确性,在数据挖掘和图像处理等领域得到了广泛应用。

五、DBSCAN算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法。

它通过计算每个样本周围其他样本的密度来确定该样本所属于的簇,并将密度较小的点归为噪声点。

在DBSCAN算法中,需要定义两个参数:邻域半径和最小密度。

邻域半径表示一个点周围所包含其他点的最大距离,而最小密度表示一个簇所包含点数目的下限值。

DBSCAN算法具有处理复杂数据集、不受初始化影响等优点,在图像处理和数据挖掘等领域得到了广泛应用。

14种分类算法

14种分类算法

14种分类算法
1.决策树算法:将数据集划分为不同的类别,并且利用树形结构进行分类。

2. 朴素贝叶斯算法:基于贝叶斯定理,通过观察已知类别的数据来进行分类。

3. K-近邻算法:利用距离度量,找出与新数据最接近的K个数据,根据这K个数据的类别进行分类。

4. 支持向量机算法:通过寻找最优的超平面将不同的数据进行分类。

5. 线性分类器算法:通过建立线性模型来进行分类。

6. 神经网络算法:模拟生物神经网络,通过训练来识别模式并进行分类。

7. 随机森林算法:通过构建多个决策树来进行分类,最终将多个分类结果汇总得出最终分类结果。

8. AdaBoost算法:通过逐步调整数据权重,构建多个分类器,最终将多个分类结果汇总得出最终分类结果。

9. Logistic回归算法:通过建立逻辑回归模型来进行分类。

10. 梯度提升树算法:通过构建多个决策树,并通过梯度下降算法来更新模型参数,最终得到最优模型进行数据分类。

11. 最近中心点算法:通过计算距离来确定数据分类,将数据分为K个簇,并根据簇中心进行分类。

12. 高斯混合模型算法:将数据看做是由多个高斯分布组成的混
合模型,并通过最大期望算法来求解模型参数,最终得到数据分类结果。

13. 模糊聚类算法:将数据划分为不同的簇,并通过模糊理论来确定数据与簇的隶属度,最终得到数据分类结果。

14. 深度学习算法:通过建立多层神经网络,对大量数据进行训练,得到最优模型进行数据分类。

贝叶斯分类器(3)朴素贝叶斯分类器

贝叶斯分类器(3)朴素贝叶斯分类器

贝叶斯分类器(3)朴素贝叶斯分类器根据,我们对贝叶斯分类器所要解决的问题、问题的求解⽅法做了概述,将贝叶斯分类问题转化成了求解P(x|c)的问题,在上⼀篇中,我们分析了第⼀个求解⽅法:极⼤似然估计。

在本篇中,我们来介绍⼀个更加简单的P(x|c)求解⽅法,并在此基础上讲讲常⽤的⼀个贝叶斯分类器的实现:朴素贝叶斯分类器(Naive Bayes classifier)。

1 朴素贝叶斯分类原理1.1 分类问题回顾我们的⽬标是通过对样本的学习来得到⼀个分类器,以此来对未知数据进⾏分类,即求后验概率P(c|x)。

在中,我们描述了贝叶斯分类器是以⽣成式模型的思路来处理这个问题的,如下⾯的公式所⽰,贝叶斯分类器通过求得联合概率P(x,c)来计算P(c|x),并将联合概率P(x,c)转化成了计算类先验概率P(c)、类条件概率P(x|c)、证据因⼦P(x)。

h∗(x)=\argmax c∈Y P(c|x)=\argmax c∈Y P(x,c)P(x)=\argmaxc∈YP(c)∗P(x|c)P(x)其中的难点是类条件概率P(x|c)的计算,因为样本x本⾝就是其所有属性的联合概率,各种属性随意组合,变幻莫测,要计算其中某⼀种组合出现的概率真的是太难了,⽽朴素贝叶斯的出现就是为了解决这个问题的。

要想计算联合概率P(a,b),我们肯定是希望事件a与事件b是相互独⽴的,可以简单粗暴的P(a,b)=P(a)P(b),多想对着流星许下⼼愿:让世界上复杂的联合概率都变成简单的连乘!1.2 朴素贝叶斯朴素贝叶斯实现了我们的梦想!朴素贝叶斯中的朴素就是对多属性的联合分布做了⼀个⼤胆的假设,即x的n个维度之间相互独⽴:P([x1,x2,...,x n]|c)=P(x1|c)P(x2|c)...P(x1|c)朴素贝叶斯通过这⼀假设⼤⼤简化了P(x|c)的计算,当然,使⽤这个假设是有代价的,⼀般情况下,⼤量样本的特征之间独⽴这个条件是弱成⽴的,毕竟哲学上说联系是普遍的,所以我们使⽤朴素贝叶斯会降低⼀些准确性;如果实际问题中的事件的各个属性⾮常不独⽴的话,甚⾄是⽆法使⽤朴素贝叶斯的。

不平衡数据分类方法综述

不平衡数据分类方法综述

不平衡数据分类方法综述随着大数据时代的到来,越来越多的数据被收集和存储,其中不平衡数据成为了一个普遍存在的问题。

不平衡数据指的是在分类问题中,不同类别的样本数量差别很大,例如欺诈检测、疾病诊断、文本分类等领域。

不平衡数据分类问题的存在会导致分类器的性能下降,因此如何有效地处理不平衡数据分类问题成为了研究的热点之一。

本文将综述当前常用的不平衡数据分类方法,包括基于采样的方法、基于代价敏感的方法、基于集成的方法、基于生成模型的方法和基于深度学习的方法。

一、基于采样的方法基于采样的方法是指通过对训练集进行采样来平衡不同类别的样本数量。

其中包括欠采样和过采样两种方法。

1. 欠采样欠采样是指随机删除多数类的样本,使得多数类和少数类样本数量接近。

常用的欠采样方法包括随机欠采样、聚类欠采样和Tomek链接欠采样。

随机欠采样是指从多数类中随机删除一些样本,使得多数类和少数类样本数量相等。

聚类欠采样是指将多数类样本聚类成若干个簇,然后从每个簇中随机删除一些样本。

Tomek链接欠采样是指删除多数类和少数类之间的Tomek链接样本,Tomek链接样本是指在样本空间中距离最近的一个多数类样本和一个少数类样本。

欠采样方法的优点是可以减少训练时间和存储空间,但是也有一些缺点。

首先,欠采样会导致信息丢失,可能会削弱多数类样本的代表性。

其次,欠采样可能会引入噪声,因为删除样本是随机的。

2. 过采样过采样是指对少数类样本进行复制或合成,使得多数类和少数类样本数量接近。

常用的过采样方法包括随机过采样、SMOTE和ADASYN。

随机过采样是指随机复制少数类样本,使得多数类和少数类样本数量相等。

SMOTE是指对每个少数类样本找到若干个最近邻样本,然后随机合成新的少数类样本。

ADASYN是指对每个少数类样本计算其与多数类样本的密度比,然后根据密度比生成新的少数类样本。

过采样方法的优点是可以保留所有的少数类样本和信息,但是也有一些缺点。

首先,过采样可能会引入冗余样本,因为合成样本是基于原始样本的。

分类模型归纳总结

分类模型归纳总结

分类模型归纳总结在机器学习和数据挖掘领域,分类是一种常见的任务,它旨在根据给定的特征将数据点分为不同的类别。

分类模型是用于解决分类问题的数学模型。

本文将对一些常见的分类模型进行归纳总结,包括逻辑回归、决策树、支持向量机和随机森林等。

一、逻辑回归(Logistic Regression)逻辑回归是一种广泛应用于分类问题的线性模型。

它通过将输入特征与权重相乘,并通过一个激活函数(如sigmoid函数)将结果映射到[0, 1]的范围内,从而预测样本属于某个类别的概率。

逻辑回归具有简单、高效的特点,适用于二分类问题。

二、决策树(Decision Tree)决策树是一种基于树结构的分类模型。

它通过将特征空间划分为多个矩形区域,每个区域对应一个类别,从而实现对样本进行分类。

决策树具有易解释、易理解的特点,可处理离散和连续特征,并且具备较好的鲁棒性。

三、支持向量机(Support Vector Machine)支持向量机是一种经典的分类模型,通过在特征空间中构造最优超平面,将不同类别的样本分开。

支持向量机可处理线性可分和线性不可分的问题,在高维空间中表现出色,并具有一定的抗噪能力。

四、随机森林(Random Forest)随机森林是一种集成学习方法,由多个决策树组成。

它通过对训练集随机采样,并对每个采样子集构建一个决策树,最终通过投票或平均等方式得到分类结果。

随机森林具有较高的准确性和较好的泛化能力,对于处理高维数据和大规模数据集具有一定优势。

五、朴素贝叶斯分类器(Naive Bayes Classifier)朴素贝叶斯分类器是一种基于贝叶斯定理的概率分类模型。

它假设各个特征之间相互独立,并根据训练数据计算类别的先验概率和特征的条件概率,从而进行分类预测。

朴素贝叶斯分类器简单、高效,并在处理文本分类等领域表现突出。

六、神经网络(Neural Networks)神经网络是一类模拟人脑结构和功能的机器学习模型。

它包含输入层、隐藏层和输出层,通过不同层之间的连接权重进行信息传递和特征提取,最终实现分类任务。

classification函数

classification函数

classification函数
分类函数可以是许多不同的算法,每种算法都有其优点和局限性,适用于不同的数据集和问题。

以下是几种常见的分类函数算法:
1. 朴素贝叶斯分类器(Naive Bayes Classifier):基于贝叶斯规则和特征独立性假设,用于处理分类问题。

它通常适用于文本分类、垃圾邮件过滤等任务。

2. 决策树(Decision Tree):通过树形结构对数据集进行划分,每个节点表示一个特征,每个分支表示一个取值。

决策树易于理解和解释,但容易产生过拟合。

3. 支持向量机(Support Vector Machine,SVM):通过寻找一个最优超平面来对数据进行分类。

SVM在高维空间下效果良好,适用于二元分类和多元分类问题。

4. k近邻算法(k-Nearest Neighbors,KNN):根据样本间的距离来进行分类,即将新样本分配给离其最近的k个训练样本。

KNN的训练开销较小,但预测时计算量较大。

5. 逻辑回归(Logistic Regression):用于处理二元分类问题,通过将输入的线性组合映射到sigmoid函数来预测样本的类别概率。

逻辑回归易于解释和调节,但对于非线性分类问题效果有限。

这些算法只是分类函数的一小部分,还有许多其他的分类函数算法,如随机森林、神经网络、神经决策树等。

选择适当的分类函数算法取决于数据集的性质、问题的复杂度和算法的优劣。

分类函数具有广泛的实际应用,如垃圾邮件检测、情感分析、图像识别、医学诊断等领域。

通过训练合适的分类函数模型,可以对未知的样本进行准确的分类,从而为决策和预测提供有价值的信息。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于距离类中心最近分类器和朴素贝叶斯分类器的投票规则刘志杰学号:mg0633026(南京大学计算机与科学技术系南京市 210093)Voting Principle Based on Nearest kernel classifier and Naive Bayesian classifierLiu ZhijieAbstract: This paper presented a voting principle based on multiple classifiers. This voting principle was based on the naïve Bayesian classification algorithm and a new method based on nearest to class kernel classifier that was proposed. The recognition ability of each classifier to each sample is not the same. A model of each classifier was obtained by the training on the train data, which acts as basis of the voting principle. After that, They were collected to make a decision according to the majority voting. The experiment shows that the presented voting principle achieves good performance for high recognition.Key words: V oting principle; Multiple classifiers; Naive Bayesian classifier; Nearest kernel classifier摘 要: 本文提出了一个基于多种分类器的投票规则。

它基于一种新的距离类中心最近的分类算法和朴素贝叶斯分类算法。

每种分类器对不同的模式的识别率不相同。

每种分类器从训练集上训练所得的模型构成了投票规则的基础,最后的结论由相对多数投票决定。

实验数据表明,该方法可以提高分类的准确率。

关键词: 投票规则;多分类器;朴素贝叶斯分类器;最近距离分类器1 前言分类技术有着非常广泛的应用,分类技术的核心是构造分类器,常见的分类器有决策树、神经网络、贝叶斯分类器等。

但在使用过程中,单一的分类算法难以获得完全令人满意的性能,同时在分类中利用不同的分类器得到不同的分类结果,这些结果之间往往存在着很强的互补性[1][2]。

因此通过把多个分类器的分类结果进行融合能有效的提高分类识别效果及增强识别系统的鲁棒性,因此目前多分类器融合方法得到了广泛的应用并成为了一个令人关注的热点[3]。

对分类器进行融合的简单方法就是进行投票表决,如多数票同意规则和完全一致规则等等。

本文采用的分类器技术为朴素贝叶斯分类算法和最近距离分类算法。

在多种分类技术中,朴素贝叶斯分类器由于具有坚实的数学理论基础及综合先验信息和数据样本信息的能力,而且简单有效,所以得到了广泛的应用。

但是,朴素贝叶斯分类器基于“独立性假设”前提,而现实世界中,这种独立性假设经常不满足,因此影响了朴素贝叶斯分类器的分类精确度。

如果将属性间的依赖性考虑进来,放松独立性假设条件,就可以进一步扩展朴素贝叶斯分类器[4]。

本文提出了一种新的分类器算法,对于每一类,基于训练样本构造出类中心点的坐标。

然后对每一个测试数据,求出它到每一类中心点的距离,其中距离最短的即为其分类,也即为测试样本到哪一类的中心最近,即属于那一类。

在本文中,第2部分介绍朴素贝叶斯分类算法在分类过程中的应用。

第3部分介绍最近距离分类算法的应用。

第4部分介绍在使用两种分类算法得出的结果之上进行处理并投票决定最后的分类结果。

第5部分为对分类算法进行10-折交叉验证法(10-fold cross-validation)评估得出的数据,表明此投票规则具有较好的分类精确度。

第6部分对全文进行综述。

2 朴素贝叶斯分类算法贝叶斯分类算法是数据挖掘中一项重要的分类技术,可与决策树和神经网络等分类算法相互媲美。

从理论上来说,在所有的分类算法中,贝叶斯分类算法具有最小的出错率[6],因而在实际应用中有着广泛的应用前景。

2.1 朴素贝叶斯分类算法概述朴素贝叶斯分类器基于贝叶斯公式中的先验概率和条件概率,它将事件的先验概率与后验概率结合起来,利用已知信息来确定新样本的后验概率。

贝叶斯分类算法的目标就是求待分类样本数据在不同类中的最大后验概率,并将此样本数据归纳为具有最大后验概率的类。

2.2 分类过程中遇到的问题2.2.1 贝叶斯概率为零的处理在求解贝叶斯概率的过程中,有时候会遇到某一类贝叶斯概率为零的情形。

在这种情况下,如果不进行调整的话,就会使最后的分类结果产生偏差。

在解决的过程中采取的方法为:首先,如果某一个属性在每一类中都没有出现过,即全部为0,则将此属性所对应的概率置为1。

这样此属性在求解分类概率过程中不起作用,也相当于对这个属性进行约简;其次,如果某一个属性在一部分类中没有出现,而其它类中出现过。

在出现过的那部分类中不会发生此属性概率为0的情况,无需调整;而在没有出现过的这一部分类中就会出现此属性概率为0的情形,这时候就需要调整。

调整方法为让每个属性至少出现一次,即如果有n个属性A1,A2,…,A n.则在求解概率过程中,分子个数加1,分母的个数加n[5]。

3 最近距离分类器3.1 最近距离分类算法概述最近距离分类算法是按如下方法进行分类的:每个数据样本用一个n维特征向量X={x1,x2,…,x n}表示,分别描述对n个属性A1,A2,…,A n样本的n个度量。

假定有m个类C1,C2,…,C m。

首先对于训练样本,求出每个类的中心点的位置l1,l2,…,l m。

假设第i类C i中的样本数为s i个,这s i个样本的n个属性A1,A2,…,A n之和为N1,N2,…N n个。

则第i类的中心点位置为:l i= {N1,N2,…N n}/s i。

对于测试样本Y中每一个要测试的数据y i,求出它到每一类中心点的距离,若到第i类C i中的距离最小,那么就把y i,标识为第i类C i。

3.2 最近距离分类算法和K-近邻算法的区别最近距离分类算法有点类似于k-近邻算法,都是基于距离的远近来对样本进行分类。

但二种算法又有明显的区别:3.2.1 比较距离的对象不同最近距离分类算法是对训练样本求出每一类中心点的坐标,在内存中只保存类中心点坐标的数据。

然后在测试时求出测试数据到每一类中心点的距离,距离最近的即为其分类。

k-近邻算法是一种懒散的算法。

它不需要训练,将所有训练样本保存在内存中。

对测试数据,求出它到每一个训练样本的距离,距离最近的样本的分类也即为其分类。

因此,在比较的对象上,k-近邻算法是要和所有的训练样本比较,而最近距离分类算法只和每一类中心点比较。

33.2.2 空间花费不同最近距离分类算法对训练样本进行训练后,只在内存中保存训练得到的每一类中心点的坐标数据。

假设样本共有N类,则只需N个数组来存放每一类中心点的坐标数据,每个数组的长度为数据的属性个数。

在内存中存放这些数组即可。

k-近邻算法需要将所有的训练样本全部保存在内存中,当训练样本的数量比较大时,内存的消耗非常可观。

3.2.3 时间花费不同时间花费可从两个方面来考虑:训练阶段和测试阶段。

在训练阶段,最近距离分类算法需要将所有训练样本读入内存,并计算每一类中心点的坐标数据。

但这个过程的花费并不大。

而且例如在本文提出的投票算法中,是将最近距离分类算法和朴素贝叶斯分类算法结合在一起,则在训练时数据只需读入内存一次,每一类中心点的坐标数据和贝叶斯概率数据即可全部得到,计算的时间开销很小。

k-近邻算法也要读入数据,但无需生成训练模型。

在测试阶段,最近距离分类算法在测试样本时,只需求测试样本数据到每一类中心点的距离,如果有N 类,就求N个距离,求其中的最小值。

所需的测试时间花费不大。

而k-近邻算法是要将每个测试样本数据和每一个训练数据进行比较,求出距离。

并比较找出其中的最小距离。

当训练样本个数很多时,全部数据都要进行很多遍的读取和比较,测试的时间开销非常大。

3.3 最近距离分类算法和朴素贝叶斯分类算法的结合在本文的投票算法中,是基于最近距离分类算法和朴素贝叶斯分类算法的结合。

这二种算法在训练的过程中可以同时进行,大大缩短训练所花费的时间。

在对训练数据进行训练的过程中,读入所有的训练数据,假设样本共有N类,然后构造N个数组,记录每类中包含所有属性的数量。

在这些数组的基础上既可以求出相应所需的贝叶斯概率,也可非常容易的求出每一类中心点的坐标数据。

节省了训练时间。

3.4 最近距离分类算法面临的问题及可能的改进在使用最近距离分类算法对train1和train2进行分类的过程中,大多数文件的分类准确度较高,但也存在一些分类不准确的情形。

究其原因,最近距离分类算法是基于训练数据求类的中心点,但这只是对类中心点的近似逼近,并不能非常准确的反应出类中心点的位置。

因此当训练数据个数较少或分布不均时,就会使逼近所得的类中心点坐标偏离真正的中心点。

为此有必要去研究更好的算法来逼近类中心点,例如能否构建加权模型来弥补属性的分布不均或类数量的分布不均等等。

4 投票规则最终分类结果的生成方法采用了加权投票算法。

4.1 Train1的投票规则对于第一个分类任务train1。

具有2个view,为inlinks和fulltext。

使用朴素贝叶斯分类器对两个view 文件:inlinks和fulltext得到两个分类结果result1和result2;使用距离中心点最短分类器对两个view文件:inlinks和fulltext同样得到两个分类结果temp1和temp2。

求解temp1和temp2的或运算结果得到第3个分类结果文件result3。

利用三个分类结果result1,result2和result3进行投票,采取由多数投票决定的规则。

4.2 Train2的投票规则对于第二个分类任务train1。

具有5个view,分别为url, ancurl, origurl, alt以及caption。

在训练过程中,由后三个view所得到得分类结果精确度较低。

故采用前两个view进行分类。

分类方法同上类似。

首先使用朴素贝叶斯分类器对两个view文件:url和ancurl得到两个分类结果result1和result2;然后再使用距离中心点最短分类器对两个view文件:url和ancurl同样也得到两个分类结果temp1和temp2。

相关文档
最新文档