KNN算法应用

合集下载

knn 相似k线算法

KNN算法是一种通过测量不同特征值之间的距离进行分类的算法。

在股票市场K线图分析的情境中，KNN算法可以用来预测股票价格的走势。

具体来说，KNN算法通过比较新股票的K线图与数据库中已有的股票K线图来寻找最相似的股票。

它首先计算新股票与数据库中每一只已有股票的相似度，然后找出相似度最高的几只股票（即“最相似”的股票）。

这些相似度可以基于各种不同的特征来计算，例如开盘价、收盘价、最高价、最低价等。

在确定了最相似的股票后，KNN算法将根据这些相似股票的价格走势来进行预测。

例如，如果新股票与数据库中的某一只股票非常相似，该算法可能会预测新股票的价格将与这只相似股票的价格走势相似。

需要注意的是，KNN算法的结果很大程度上取决于所选择的K值（即邻居的数量）。

在选择K值时，需要考虑到既要让K值足够大以便包含足够多的信息，又要让K值足够小以便减少噪声和异常值的影响。

此外，KNN算法是一种“惰性学习器”，也就是说它在预测新样本时并不需要重新训练模型，只需要找到最相似的样本即可。

这使得它在处理大规模数据集时具有优势，因为可以节省大量的计算时间和存储空间。

总的来说，KNN算法在股票市场K线图分析中可以发挥重要作用，但需要谨慎选择K值并理解其局限性。

大数据十大经典算法kNN讲解

可解释性差
KNN算法的分类结果只依赖于最近邻的样本，缺乏可解释性。
无法处理高维数据
随着维度的增加，数据点之间的距离计算变得复杂，KNN算法在高维空间中的性能会受到影响。
对参数选择敏感
KNN算法中需要选择合适的K值，不同的K值可能会影响分类结果。
04
KNN算法的改进与优化
基于距离度量的优化
与神经网络算法的比较
神经网络算法
神经网络算法是一种监督学习算法，通过训练神经元之间的权重来学习数据的内在规律。神经网络算法在处理大数据集时需要大量的计算资源和时间，因为它的训练过程涉及到复杂的迭代和优化。
KNN算法
KNN算法的训练过程相对简单，不需要进行复杂的迭代和优化。此外，KNN算法对于数据的分布和规模不敏感，因此在处理不同规模和分布的数据集时具有较好的鲁棒性。
对数据分布不敏感
KNN算法对数据的分布不敏感，因此对于非线性问题也有较好的分类效果。
简单直观
KNN算法原理简单，实现直观，易于理解。
分类准确度高
基于实例的学习通常比基于规则或判别式的学习更为准确。
对异常值不敏感
由于KNN基于实例的学习方式，异常值对分类结果影响较小。
缺点
计算量大
KNN算法需要计算样本与所有数据点之间的距离，因此在大规模数据集上计算量较大。
欧氏距离
适用于数据特征呈正态分布的情况，但在非线性可分数据上表现不佳。
余弦相似度
适用于高维稀疏数据，能够处理非线性可分问题。
曼哈顿距离
适用于网格结构的数据，但在高维数据上计算量大。
皮尔逊相关系数
适用于衡量两组数据之间的线性关系。
K值选择策略的优化

KNN原理及应用

4.3.4 KNN 分类器K 近邻法也就是K·Neaurest Neighbor 方法，又称为KNN 分类法。

它是一个理论上比较成熟的方法，是由Cover 和Hart （1967）提出的。

此算法的思想简单直观：若一个样本在特征空间中的k 个最相似（也就是特征空间中最邻近）的样本中的大多数都属于某一个类别，则此样本也属于这个类别。

此方法在分类决策上仅依据最邻近的一个或几个样本的类别来最终决定待分样本所属的类别。

最近邻法是在己知类别的训练样本条件下，按最近距离原则对待识模式分类。

KNN 分类方法思想直观，效果较好，方法简单，其中某些技术在理论上能够实现先验知识完备的贝叶斯决策的分类效果，可以适应类域分布较复杂的情况之中，是最重要的模式识别技术之一，而且在生物信息学等多个科学领域有着非常重要的应用。

假设数据集：(){}i jy ，i=1，2，…，c ，j=1，2，…，iN，此∑==ci iN N 1个数据分别属于c 种不同类别，其中i N 是第i 个分类i w 的样本个数。

分类思想是：对一个待测数据x 分别计算它与这N 个已知类别的样本()i j y 的距离，将其判为距离最近的那个样本所属的类。

基于此分类思想i w 类的判决函数是：)(2,1m i n )(d i j iN j i y x x -=⋅⋅⋅=，i=1,2，…，c （4.48）判决规则为：))((min arg x ,2,1x d m i ci m ⋅⋅⋅==∈，ω （4.49）因为上述的方法仅根据离待识模式最近的一个样本的类别所决定其类别，所以一般称为最近邻法或1-近邻方法。

为了克服单个样本类别的偶然性，从而增加分类的可靠性，考察待测数据的k 个最近邻样本，这k 个最近邻中哪一类的样本最多，就将x 判属给哪一类，也就是说如果假设样本最多就将x 判属为哪一类。

例如设c k k k ，，， 21分别是x 的k 个最近邻样本属c w w w ，，， 21的样本数，定义i w 类的判决函数是： iik d =）（x ，i=1,2，…,c （4.50）判决规则为：))((ax x ,2,1x d m m i ci m ⋅⋅⋅==∈，ω （4.51）该方法通常称k 近邻算法，也就是KNN 。

k近邻算法解决实际问题

k近邻算法（k-Nearest Neighbors，简称kNN）是一种非常实用的机器学习算法，可以用于解决各种实际问题。

以下是一些使用kNN算法解决实际问题的例子：1.垃圾邮件识别：通过分析邮件的内容和元数据，使用kNN算法训练模型，
可以识别垃圾邮件。

具体地，可以将邮件内容作为输入特征，标签为正常邮件或垃圾邮件，使用kNN算法进行分类。

2.电影推荐：使用kNN算法可以基于用户的历史行为和偏好，推荐类似风格
的电影。

例如，可以根据电影的导演、演员、类型、主题等特征，使用kNN算法对用户进行分类，并推荐与用户所在类别最相似的电影。

3.信用卡欺诈检测：通过分析大量的信用卡交易数据，使用kNN算法可以检
测出异常交易，预防欺诈行为。

可以将交易金额、时间、地点等作为输入特征，标签为正常交易或欺诈交易，使用kNN算法进行分类。

4.疾病诊断：在医疗领域，可以使用kNN算法根据患者的症状、病史、检查
结果等数据，进行疾病诊断。

可以将患者的各种特征作为输入，标签为某种疾病或健康状态，使用kNN算法进行分类。

5.语音识别：在语音识别领域，可以使用kNN算法进行语音到文字的转换。

具体地，可以将语音信号的某些特征作为输入，标签为相应的文字，使用kNN 算法进行分类，并对分类结果进行优化和调整。

总之，k近邻算法是一种非常实用的机器学习算法，可以用于解决各种实际问题。

在实际应用中，需要根据具体问题的特点选择合适的特征和参数，并对模型进行合理的评估和调整。

knn算法的应用场景

knn算法的应用场景
KNN算法是一种基于距离度量的分类算法，它是一种非常简单但是非常有效的机器学习算法。

KNN算法的应用场景比较广泛，其中一些主要的应用场景包括：
1. 电商领域：KNN算法可以根据用户历史购买记录，为用户推荐相关商品。

同时，它也可以根据用户对不同商品的评价来确定产品的质量和受欢迎程度。

2. 医疗领域：KNN算法可以用于帮助医生诊断疾病。

通过将患者的症状与已知疾病的数据进行比较，KNN算法可以帮助医生快速准确地确定病因。

3. 金融领域：KNN算法可以用于信用评估。

通过将客户的信用历史与已知的欺诈数据进行比较，KNN算法可以帮助银行等金融机构评估客户信贷风险。

4. 物流领域：KNN算法可以用于路线规划。

根据客户需求和物流条件，KNN算法可以确定最优的物流路径和配送方案。

总之，KNN算法的应用场景非常广泛，它可以应用于各种不同的领域和问题中。

- 1 -。

knn算法的例子

knn算法的例子k-最近邻算法（k-nearest neighbors，简称k-NN）是一种常用的分类和回归算法。

它基于一个简单的假设：如果一个样本的k个最近邻属于某个类别，那么该样本也很可能属于该类别。

k-NN算法非常直观和易于理解，因此被广泛应用于各种领域。

下面将以几个具体的例子来说明k-NN算法的应用。

1. 手写数字识别在机器学习领域，手写数字识别是一个经典的问题。

k-NN算法可以用于将手写数字图片分类成0到9之间的数字。

基于已有的数字图片数据集，可以计算待分类图片与每个已有图片的距离，并找出k 个最近邻。

然后根据这k个最近邻的标签来判断待分类图片的数字。

2. 电影推荐系统在电影推荐系统中，k-NN算法可以根据用户的历史评分和其他用户的评分来预测用户可能喜欢的电影。

通过计算待推荐电影与用户历史评分电影的相似度，找出k个最相似的电影，并根据这些电影的评分来预测用户对待推荐电影的评分。

3. 股票市场预测k-NN算法可以用于预测股票市场的趋势。

基于已有的股票数据，可以计算待预测股票与历史股票的相似度，并找出k个最相似的股票。

然后根据这k个股票的涨跌情况来预测待预测股票的涨跌。

4. 医学诊断在医学诊断中，k-NN算法可以帮助医生根据患者的各项指标来预测患有哪种疾病。

通过计算待预测患者与已有患者的相似度，找出k 个最相似的患者，并根据这些患者的疾病情况来预测待预测患者的疾病。

5. 文本分类k-NN算法可以用于文本分类，例如将新闻文章分类成不同的主题。

基于已有的训练数据，可以计算待分类文本与每个已有文本的相似度，并找出k个最相似的文本。

然后根据这k个文本的主题来预测待分类文本的主题。

6. 信用评估在信用评估中，k-NN算法可以用于预测申请贷款的人是否具有良好的信用记录。

通过计算待评估人员与已有人员的相似度，找出k个最相似的人员，并根据这些人员的信用记录来预测待评估人员的信用状况。

7. 图像处理k-NN算法可以用于图像处理，例如图像分类和图像检索。

knn算法的用法

knn算法的用法一、引言K近邻算法（K-NearestNeighbors，简称KNN）是一种基于实例的学习算法，它广泛用于分类和回归问题。

KNN算法以其简单、直观且易于理解的特点，在许多领域得到了广泛应用。

本文将详细介绍KNN算法的原理、应用场景、参数设置以及优缺点，帮助读者更好地理解和应用该算法。

二、KNN算法原理KNN算法的基本思想是通过比较待分类项与已知样本集中的每个样本的距离，找出与待分类项距离最近的K个样本。

根据这K个样本的类别，对待分类项进行预测。

最终，待分类项的类别是由这K个样本中最常见的类别决定。

三、KNN算法的应用场景KNN算法适用于以下场景：1.分类问题：KNN算法可以应用于各种分类问题，如文本分类、图像分类、生物信息学中的基因分类等。

2.回归问题：KNN算法也可以应用于回归问题，如房价预测、股票价格预测等。

3.异常检测：通过比较待分类项与已知样本集的距离，KNN算法可以用于异常检测，识别出与正常样本显著不同的数据点。

四、KNN算法参数设置KNN算法的参数包括：1.K值：确定近邻数，影响算法的准确度和计算复杂度。

过小的K 值可能会导致漏检，而过大的K值可能会导致误检。

需要根据实际问题进行尝试和调整。

2.距离度量方法：KNN算法支持多种距离度量方法，如欧氏距离、曼哈顿距离等。

选择合适的距离度量方法对于算法的性能至关重要。

3.权重策略：在计算待分类项的近邻时，不同的样本可能具有不同的权重。

常见的权重策略包括按照样本出现次数加权、按照距离加权等。

合适的权重策略可以提高算法的准确度和鲁棒性。

五、KNN算法优缺点优点：1.简单易实现：KNN算法实现简单，易于理解和应用。

2.对异常值和噪声具有鲁棒性：KNN算法对异常值和噪声具有较强的鲁棒性，可以有效地处理这些问题。

3.无需大量的参数调优：与其他机器学习算法相比，KNN算法的参数较少，无需进行复杂的参数调优。

缺点：1.对大数据处理能力有限：KNN算法的计算复杂度较高，尤其是在大规模数据集上，处理速度较慢。

knn算法在医学领域中的应用案例

knn算法在医学领域中的应用案例KNN（K-Nearest Neighbor）算法是一种常用的分类和回归方法，在医学领域中也有广泛的应用。

以下是一个KNN算法在医学领域中的应用案例：案例：基于KNN算法的肺癌诊断背景：肺癌是全球最常见的癌症之一，早期诊断和治疗对于提高治愈率和生存率至关重要。

传统的肺癌诊断方法通常依赖于病理学家的经验和技能，但这种方法存在一定的主观性和误差。

为了提高肺癌诊断的准确性和可靠性，可以采用KNN算法进行辅助诊断。

数据集：本案例采用了一项研究中的肺癌病理图像数据集，其中包括了不同类型和阶段的肺癌病理切片图像，以及相应的诊断结果。

数据集被划分为训练集和测试集，用于训练和测试KNN算法。

算法流程：1. 数据预处理：对原始图像数据进行预处理，包括缩放、归一化等操作，以使其适应KNN算法的要求。

2. 特征提取：从预处理后的图像中提取特征，可以使用不同的特征提取方法，如纹理分析、形状分析、灰度直方图等。

3. K值选择：选择合适的K值，即选择最接近的邻居数量。

在本案例中，可以使用交叉验证等方法确定最佳的K值。

4. 训练模型：使用训练集中的数据和选择的K值训练KNN模型。

5. 测试模型：使用测试集中的数据进行模型测试，评估模型的准确性和可靠性。

6. 诊断应用：将KNN算法应用于实际病例中，辅助病理学家进行肺癌诊断。

结果：通过对比实验和实际应用，发现基于KNN算法的肺癌诊断方法具有较高的准确性和可靠性，能够有效地辅助病理学家进行肺癌诊断，提高诊断的准确性和可靠性。

总结：KNN算法在医学领域中具有广泛的应用前景，可以提高医学诊断和治疗的效果。

未来可以进一步探索如何结合深度学习等其他机器学习方法，进一步提高医学领域的智能化水平。

knn算法解决实际问题的例子(一)

knn算法解决实际问题的例子(一)KNN算法解决实际问题K最近邻（K-Nearest Neighbor, KNN）算法是一种常见的机器学习算法，可以用于解决多种实际问题。

下面是一些KNN算法在实际问题中的应用示例：1. 电影分类•问题描述：为了帮助用户选择适合的电影，我们需要根据用户的历史观看记录和评分，将电影进行分类，比如喜剧、动作、爱情等分类。

•解决思路：使用KNN算法，将用户的历史观看记录和评分作为特征向量，根据特征向量的相似度度量，找到K个和当前电影最相似的电影，将它们的分类作为当前电影的分类。

2. 图像识别•问题描述：给定一张未知分类的图像，我们需要将它分为不同的类别，比如动物、植物、建筑等。

•解决思路：使用KNN算法，将已知类别的图像转换成特征向量，比如使用图像的像素值作为特征，然后根据特征向量的相似度度量，找到K个和未知图像最相似的图像，将它们的类别作为未知图像的类别。

3. 推荐系统•问题描述：根据用户的历史行为和兴趣，向用户推荐适合的商品、音乐或文章等。

•解决思路：使用KNN算法，将用户的历史行为和兴趣转换成特征向量，比如使用用户的点击记录和评分作为特征，然后根据特征向量的相似度度量，找到K个和用户兴趣最接近的商品、音乐或文章，将它们推荐给用户。

4. 病症诊断•问题描述：根据病人的症状，判断可能的疾病并给出诊断结果。

•解决思路：使用KNN算法，将病人的症状转换成特征向量，比如使用病人的体温、心率、血压等作为特征，然后根据特征向量的相似度度量，找到K个和病人症状最相似的病例，将它们的疾病作为当前病人的诊断结果。

5. 文本分类•问题描述：对给定的文本进行分类，比如新闻分类、情感分析等。

•解决思路：使用KNN算法，将文本转换成特征向量，比如使用词袋模型或tf-idf作为特征，然后根据特征向量的相似度度量，找到K个和当前文本最相似的文本，将它们的类别作为当前文本的分类。

以上是一些KNN算法在实际问题中的应用示例，KNN的优点在于简单易理解、无需训练等，但也有一些缺点，比如计算复杂度较高、对噪声数据敏感等。

KNN算法原理与应用

12
KNN算法的sklearn实现
sklearn.neighbors模块集成了 k-近邻相关的类，KNeighborsClassifier用做kNN分类
树，KNeighborsRegressor用做kNN回归树。KNeighborsClassifier类的实现原型如下：
class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform',
testData = [0.2, 0.1]
Result = classify(testData, group, labels, 3)
print(Result)
5
KNN算法基本原理
6
• 运行效果：
•
左下角两个点属于B类用蓝色点标识，右上角
两个点属于A类用红色标识。取k值为3时通过
kNN算法计算，距离测试点（0.2, 0.1）最近的
algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=1,
**kwargs)
13
KNN算法的sklearn实现
主要参数如下：
•
•
n_neighbors：整型，默认参数值为5。邻居数k值。
量的kNN搜索。
，适合于样本数量远大于特征数
KNN算法基本原理：距离计算
7
在KNN算法中，如何计算样本间距离非常重要，下面我们介绍几种常见的
距离计算方法。
闵可夫斯基距离
闵可夫斯基距离（Minkowski Distance）是一种常见的方法，用于衡量数值点之间距离。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

应用场景
(1)文本分类:文本分类主要应用于信息检索，机器翻译，自动文摘，信息过滤，邮件分类等任务。

文本分类在搜索引擎中也有着大量的使用，网页分类/分层技术是检索系统的一项关键技术，搜索引擎需要研究如何对网页进行分类、分层，对不同类别的网页采用差异化的存储和处理，以保证在有限的硬件资源下，提供给用户一个高效的检索系统，同时提供给用户相关、丰富的检索结果。

在搜索引擎中，文本分类主要有这些用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面，下载调度时会做不同的调度策略;在做页面信息抽取时，会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候，会根据用户所点击的url所属的类别来推断检索串的类别。

(2)回归:通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。

更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比。

(3)可以使用knn算法做到比较通用的现有用户产品推荐，基于用户的最近邻(长得最像的用户)买了什么产品来推荐是种介于电子商务网站和sns网站之间的精确营销。

只需要定期(例如每月)维护更新最近邻表就可以，基于最近邻表做搜索推荐可以很实时。

文本分类
1.KNN 算法最初由Cover 和Hart 于1968 年提出，该算法的基本思想是：根据传统的向量空间模型，文本内容被形式化为特征空间中的加权特征向量，即 D = D (T1，W1;T2,W2;…;Tn,Wn)。

对于一个测试文本，计算它与训练样本集中每个文本的相似度，找出K 个最相似的文本，根据加权距离和判断测试文本所属的类别。

具体算法步骤如下:
(1) 对于一个测试文本，根据特征词形成测试文本向量。

(2) 计算该测试文本与训练集中每个文本的文本相似度，计算公式为:
式中: x 为测试文本的特征向量；Sim(x,di)为相似度计算公式；b 为阈值，有待于优化选择；而y(di,Cj)的取值为1 或0，如果di属于Cj，则函数值为1，否则为0 。

(5)比较类的权重，将文本分到权重最大的那个类别中。

2.传统KNN 分类系统
传统的KNN 分类过程如图5-1：
传统的KNN 分类系统主要分为预处理、训练、分类三个阶段，如果要在不同时间进
行分类，则每次都需要对训练样本进行训练，这是造成了KNN 分类时间较长的原因之一，其实，在训练过程的一些数据，如特征集，训练好的样本等，对下一次分类同样有用。

3.改进后的分类系统
系统各模块的操作如下：
一、训练模块：训练模块在同一流程实现了预处理和训练两种功能，因为这两个模块的数据处理具有继承性，所以安排到同一模块实现。

“选择词典”按键将所使用的停用词词典加载到哈希表中；“选择维数”文本框可以更改文本向量的维数(特征数)；“训练文本库”按钮加载训练文本的文件夹，然后进行去停用词、分词、特征选择、特征权重计算、文本向量表示等一系列操作。

二、分类模块：“训练”按钮选择要进行分类的测试文本文件夹，读取测试文本，然后依次进行：分词、去停用词、特征选择、权重计算、向量表示、距离计算、K 近邻选择、类别评定等操作。

K 文本框输入为K 近邻数，n1为PKNN 算法选择的小样本数。

三、评价模块：评价模块实现分类结果的统计与评测，所采用的评价指标是：宏召回率、宏准确率、F1 值，“重置分类”键可以将内存中的全局变量清空，为下一次分类作准备，这样不需要再训练就能直接从xml文件中读取所需数据再次存放在全局变量中。

邮件过滤
随着互联网的广泛普及，电子邮件已经成为人们日常生活中最便捷、最经济的通信手段。

但是电子邮件给用户带来便捷的同时，也带来了不可避免的副产品——垃圾邮件。

由于实现比较简单以及受到利益的驱使，一些企业和个人采用了这种最经济的方式进行商业广告，一些黑客也采用发送电子邮件进行违法行为：盗窃用户的机密资料，攻击用户的电脑等。

电子邮件用户几乎每天都要收到几十、几百封垃圾邮件，每天都需要花费一定的精力与时间来判断是否为垃圾邮件，并进行清除。

垃圾邮件不仅影响到了电子邮件用户，对网络运营提供商和网络管理员也带来了无尽的烦恼。

这些所谓的垃圾邮件会占用用户的带宽、时间和存储资源，如果泛滥严重甚至会对网络通信造成堵塞，使得正常邮件不能正常发送和接收，垃圾邮件严重阻碍了互联网的健康发展。

因此对垃圾邮件过滤技术的研究具有很大的实用价值，也是亟待解决的问题。

传统的KNN 算法只考虑到相似度之和，或者简单的利用相似度个数的多少来进行判断；将KNN 算法应用于垃圾邮件的过滤中，而没有考虑到垃圾邮件本身的偏依赖特性，即用户情愿多收到一封垃圾邮件，也不愿意让垃圾邮件过滤系统将自己的正常邮件误判为垃圾邮件过滤掉；传统的KNN 分类算法进行分类时，每次都需要将待测样本和训练样本集中的每个样本进行比较，计算相似度，计算量十分的大，不适合实时性要求比较高的垃圾邮件过滤系统。

本文针对上述KNN 算法的不足之处进行改进，提出并设计一种考虑了偏依赖特性的基于平均相似度和相似度个数的KNN 算法。

该算法首先通过计算平均相似度而不是相似度之和来表示类权重值，同时考虑到相似样本的个数对分类性能的影响；其次引入了两个表示垃圾邮件本身的偏依赖特性的参数；最后，为了解决KNN 算法的计算量大的缺点，本文利用类中心向量法的思想，通过将将原始样本转化为一个个小类，并计算每个小类的中心向量，以代表原始训练样本建立分类模型，这就相当于将大样本转化为小样本，减少了比较次数，大大降低了KNN 分类算法的计算量。

实验表明，与传统的KNN 算法进行对比，本文提出的APC-KNN 算法应用于垃圾邮件的过滤，具有高正确率，低误报率等优点；并且能够更好的实现垃圾邮件的过滤，起到了保护电子邮件用户以及节省宽带等效果。

改进的KNN算法过滤系统的构建
将以上这种提升垃圾邮件过滤系统效率的方法应用于前面改进的KNN分类算法中，可以减少其计算量，提高分类速度。

提升后的KNN算法过滤系统可以称为APC-KNN过滤系统。

APC-KNN过滤系统具体流程如下：
Input：电子邮件训练样本和待测电子邮件
Output：待测电子邮件的类别
Step1：对训练样本进行预处理，包括中文分词、选取特征，根据选取的特征项集合重新描述训练样本，对训练集合提取特征；将训练样本表示为向量形式。

Step2：对于垃圾邮件和正常邮件两类进行伪聚类得到m+M个小类，分别计算它们的类中心向量。

Step3：对待测电子邮件进行预处理，根据特征项确定待测电子邮件的向量表示。

Step4：利用公式3.1计算待测电子邮件与所有小类的相似度根据相似度的大小排序，找出与待测电子邮件最相似的K个样本。

其中K值的初始值是人为给定的，并根据实验结果进行调整。

Step5：对这K个样本根据如下公式计算正常邮件和垃圾邮件的类权重：
其中p1=0.8，p2=0.2，k1+k2=K。

如果，则将当前待测电子
邮件判定为正常邮件，否则为垃圾邮件。

过滤系统包括样本的预处理、训练模块和分类模块三个部分，工作流程图如图
基于改进的 k NN 算法的中文网页自动分类方法研究
1 k N N 分类算法
k NN ( k 最近邻) 算法是一种传统的分类算法 ,在文本分类方面得到了广泛的研究和应用. kNN算法实际上是矢量相似度法的一种改进.一般有两种方法计算相似度 :
( 1) 欧氏距离 ,两个标准化的文本向量 a 、 b 之间的欧氏距离为
( 2) 余弦距离 , 计算两个向量的余弦夹角 :
该分类算法的基本思路是 : 在给定新文本后 ,考虑在训练文本集中与该测试文本距离最近 ( 最相似) 的 k 篇文本 , 根据这 k 篇文本所属的类别判定测试文本所属的类别.由于使用 kN N 算法进行分类的过程中 , 要计算测试文本与每个训练文本的相似度 ,这样无疑大大增加了分类的计算量 , 分类的速度无法提高 , 因此 ,在训练文本较多的情况下 ,如何减小计算量 ,提高分类速度是个关键性问题
2.基于改进的 k N N 算法的中文网页自动分类实现
2 . 1 特征提取
在英文文本分类中 ,常用的特征提取的评估函数有文档频数、信息增益、期望交叉熵、互信息、 x2统计、文本证据权和几率比等. 但这些方法用于中文文本的特征提取 , 并没有很高的效率. 这主要有两个方面的原因 : 第一 ,特征提取的计算量太大 ,特征提取效率太低 ,而特征提取的效率直接影响到整个文本分类系统的效率 ; 第二 , 经过特征提取后生成的特征向量维数太高 ,而且不能直接计算出特征向量中各个特征词的权重. 因此 , 在中文文本分类中 ,如何提取特征词以及如何控制特征向量的维数 ,成为了一个亟待解决的难题.本文采取的是基于词性的特征提取方法[ 11 ].这种方法充分考虑了汉语言自身的特性 ,在中文文本中 ,往往是文章中的名词和动词包含了能标识该文本类别的信息. 因此 , 在基于词性的特征提取过程中 ,只提取中文文本中的名词和动词作为文本的一级特征词 ,再根据这些特征词的词频和文本频度计算其权重 , 取权重高的 V 个特征词作为文本的核心特征词. 这种方法不仅很大程度上提高了特征词提取的效率而且有效地降低了特征向量的维数.
2. 2 训练库生成
对于训练库中收集的网页进行以下处理 :
( 1) 定义类别集合 C = { C 1 , …, Ci , …, Cm } ;
( 2 ) 给出训练文档集合 S = { S1 , …, S i , …,S n } , 每个训练文档 S j 被标上所属的类别标识 Ci ;
( 3) 统计 S 中所有文档的特征矢量 V ( S j ) ;
( 4) 根据采取的不同分类算法 , 确定文档 Ci 的特征矢量.。