机器学习中距离和相似度度量专业知识讲座

合集下载

knn 余弦相似度和欧式距离

KNN算法在机器学习领域中被广泛应用，它是一种监督学习算法，用于分类和回归。

KNN算法的核心思想是基于已知类别的数据集，通过测量新数据点与已知类别数据点之间的距离来进行分类。

在KNN算法中，常用的距离度量有欧氏距离和余弦相似度。

在本文中，我们将深入探讨这两种距离度量的特点和应用，以便更好地理解它们在KNN算法中的作用。

1. 欧氏距离欧氏距离是最常见的距离度量方式之一，它衡量的是两个点之间的直线距离。

在二维空间中，欧氏距离的计算公式为：\[d(x,y) = \sqrt{(x1-y1)^2 + (x2-y2)^2}\]其中，\(x\)和\(y\)分别是两个点的坐标，\(x1\)和\(y1\)是\(x\)和\(y\)的第一个维度的坐标，\(x2\)和\(y2\)是\(x\)和\(y\)的第二个维度的坐标。

2. 余弦相似度余弦相似度是衡量两个向量方向的夹角的相似程度，它不考虑向量的大小。

在KNN算法中，常用余弦相似度来衡量特征向量之间的相似程度。

余弦相似度的计算公式为：\[similarity = \frac{A \cdot B}{||A|| \times ||B||}\]其中，\(A\)和\(B\)分别是两个特征向量，\(A \cdot B\)是\(A\)和\(B\)的点积，\(||A||\)和\(||B||\)分别是\(A\)和\(B\)的范数。

3. 欧氏距离和余弦相似度的比较欧氏距离和余弦相似度在KNN算法中的作用略有不同。

欧氏距离更适用于数值型特征，它能够更好地反映不同特征之间的绝对距离。

而余弦相似度更适用于文本分类、推荐系统等领域，它能够更好地反映特征向量之间的相对方向。

4. 个人观点和理解在实际应用中，选择欧氏距离还是余弦相似度取决于数据的特征和具体情况。

在处理数值型特征时，欧氏距禿更能反映特征之间的绝对距离，更适合于KNN算法的分类。

而在处理文本分类、推荐系统等领域时，余弦相似度能更好地反映特征向量之间的相对方向，更适合于KNN算法的应用。

欧氏距离或余弦相似度

欧氏距离或余弦相似度标题：欧氏距离与余弦相似度：两种度量方法的比较与应用导言：在机器学习和数据挖掘领域中，度量两个向量之间的相似性是一项重要的任务。

欧氏距离和余弦相似度是常用的度量方法，本文将比较这两种方法的特点和应用，并讨论它们在实际问题中的优缺点。

一、欧氏距离的定义和应用欧氏距离是空间中两个点之间的直线距离。

它的计算方法简单直观，适用于多个领域。

例如，在图像识别中，我们可以通过计算图像像素之间的欧氏距离来判断它们的相似性。

然而，欧氏距离对于数据的尺度敏感，当数据具有不同的尺度时，可能导致结果不准确。

此外，在高维空间中，欧氏距离的计算复杂度也会增加，影响算法的效率。

二、余弦相似度的定义和应用余弦相似度衡量的是两个向量之间的夹角余弦值。

它不受数据尺度的影响，可以更好地反映向量之间的方向关系。

在文本挖掘中，我们可以利用余弦相似度来计算文档之间的相似性，从而实现文本分类和推荐系统等任务。

此外，余弦相似度的计算简单高效，特别适用于处理稀疏向量。

三、欧氏距离与余弦相似度的比较1. 效果比较：欧氏距离适用于数值型数据，能够提供更准确的相似性度量。

而余弦相似度则适用于文本、图像等高维稀疏数据，能够更好地反映向量之间的方向关系。

2. 计算复杂度比较：欧氏距离的计算复杂度为O(n)，其中n为向量的维度。

而余弦相似度的计算复杂度为O(1)，不受向量维度的影响。

3. 尺度敏感性比较：欧氏距离对数据的尺度敏感，需要进行归一化处理，以避免结果偏差。

而余弦相似度不受数据尺度影响，可以直接比较向量之间的相似性。

欧氏距离和余弦相似度在不同的场景下具有不同的优势和应用。

在选择度量方法时，我们需要根据具体问题的特点和需求来决定使用哪种方法。

在实际应用中，我们也可以结合这两种方法，根据实际情况来选择最合适的度量方式。

结论：欧氏距离和余弦相似度是常用的度量方法，它们在不同的领域和问题中具有各自的优势。

欧氏距离适用于数值型数据，提供准确的相似性度量；而余弦相似度适用于高维稀疏数据，能够更好地反映向量之间的方向关系。

机器学习中距离和相似性度量方法

机器学习中距离和相似性度量方法距离和相似性度量是机器学习中一种重要的数学工具，用于衡量数据集中样本之间的相似性或差异。

在许多机器学习算法中，距离和相似性度量方法被广泛应用于分类、聚类、降维等任务中，帮助机器学习模型更好地理解和处理数据。

下面将介绍一些常见的距离和相似性度量方法。

1. 欧几里得距离(Euclidean distance)：欧几里得距离是最常用的距离度量方法之一，用于计算两个向量之间的直线距离。

对于两个n维向量x和y，欧几里得距离可以表示为：d(x, y) = sqrt((x1-y1)^2 + (x2-y2)^2 + ... + (xn-yn)^2)2. 曼哈顿距离(Manhattan distance)：曼哈顿距离是另一种常见的距离度量方法，用于计算两个向量之间的路径距离。

对于两个n维向量x和y，曼哈顿距离可以表示为：d(x, y) = ，x1-y1， + ，x2-y2， + ... + ，xn-yn3. 闵可夫斯基距离(Minkowski distance)：闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广，可以根据参数p的不同取值决定使用欧几里得距离还是曼哈顿距离。

对于两个n维向量x和y，闵可夫斯基距离可以表示为：d(x, y) = ((，x1-y1，^p) + (，x2-y2，^p) + ... + (，xn-yn，^p))^1/p4. 切比雪夫距离(Chebyshev distance)：切比雪夫距离是曼哈顿距离的推广，用于计算两个向量之间的最大绝对差距。

对于两个n维向量x和y，切比雪夫距离可以表示为：d(x, y) = max(，x1-y1，, ，x2-y2，, ..., ，xn-yn，)5. 余弦相似度(Cosine similarity)：余弦相似度是一种广泛用于文本和稀疏数据的相似性度量方法。

对于两个n维向量x和y，余弦相似度可以表示为：sim(x, y) = (x·y) / (，x，*，y，)其中，x·y表示向量x和y的点积，x，和，y，表示向量x和y的范数。

全面总结7种距离、相似度方法

全面总结7种距离、相似度方法距离(distance，差异程度)、相似度(similarity，相似程度)方法可以看作是以某种的距离函数计算元素间的距离，这些方法作为机器学习的基础概念，广泛应用于如：Kmeans聚类、协同过滤推荐算法、相似度算法、MSE损失函数、正则化范数等等。

本文对常用的距离计算方法进行归纳以及解析，分为以下几类展开：一、闵氏距离（Minkowski Distance）类二、相似度（Similarity)三、字符串距离(Distance of Strings)四、集合距离 (Distance of Sets)五、信息论距离 (Information Theory measures)六、时间系列、图结构的距离七、度量学习(Metric Learning)附、常用的度量方法汇总一、闵氏距离（Distance）类•闵氏距离（Minkowski Distance）对于点x=(x1,x2...xn) 与点y=(y1,y2...yn) , 闵氏距离可以用下式表示：闵氏距离是对多个距离度量公式的概括性的表述，p=1退化为曼哈顿距离；p=2退化为欧氏距离；切比雪夫距离是闵氏距离取极限的形式。

•曼哈顿距离（Manhattan Distance）VS 欧几里得距离（Euclidean Distance）曼哈顿距离公式：欧几里得距离公式：如下图蓝线的距离即是曼哈顿距离（想象你在曼哈顿要从一个十字路口开车到另外一个十字路口实际驾驶距离就是这个“曼哈顿距离”，此即曼哈顿距离名称的来源，也称为城市街区距离），红线为欧几里得距离：•切比雪夫距离（Chebyshev Distance）切比雪夫距离起源于国际象棋中国王的走法，国际象棋中国王每次只能往周围的8格中走一步，那么如果要从棋盘中A格(x1,y1)走到B格(x2,y2)最少需要走几步？你会发现最少步数总是max(|x2-x1|,|y2-y1|)步。

有一种类似的一种距离度量方法叫切比雪夫距离。

dml算法原理(二)

dml算法原理(二)DML算法原理在计算机科学和机器学习领域，DML（Discriminative Metric Learning）算法是一种用于学习距离度量的技术。

它在模式识别和图像检索等任务中具有广泛的应用。

本文将从浅入深地介绍DML算法的原理。

1. 距离度量在许多机器学习任务中，我们需要衡量不同样本之间的相似度或差异性。

而距离度量是评估样本之间差异的一种常用方式。

常见的距离度量方法包括欧氏距离、曼哈顿距离和余弦相似度等。

2. 判别性学习判别性学习是一种通过学习样本的类别信息来判断未知样本所属类别的方法。

与之相对的是生成模型，生成模型是通过学习样本的概率分布来预测新样本的方法。

判别性学习更加关注样本之间的类别差异，因此适用于许多需求准确预测类别的应用。

3. DML算法概述DML算法旨在通过学习距离度量来最大化类别之间的差异，从而提高判别性能力。

它通过学习一个映射函数，将输入样本映射到一个新的特征空间，并在新的空间中学习一个距离度量函数。

DML算法的过程可以简单概括为以下几个步骤：•输入：训练样本集合，包含样本的特征和类别信息。

•映射函数：将输入样本映射到一个新的特征空间，通常通过非线性变换实现。

•距离度量函数：在新的特征空间中学习一个距离度量函数，使同一类别样本之间的距离尽可能小，不同类别样本之间的距离尽可能大。

•损失函数：定义一个损失函数，衡量距离度量函数的性能。

常用的损失函数包括对比损失（contrastive loss）和三元组损失（triplet loss）等。

4. DML算法的训练过程DML算法的训练过程可以分为以下几个步骤：1.初始化距离度量函数，通常随机初始化或使用预训练模型参数。

2.选择一对样本，通常包括一个锚样本和一个正样本（同一类别）或负样本（不同类别）。

3.计算锚样本和正样本（或负样本）在新的特征空间中的距离。

4.根据距离计算损失函数，并更新距离度量函数的参数。

5.重复步骤2~4，直到达到收敛条件或训练次数达到预设值。

机器学习中距离和相似度度量专业知识讲座

马式距离本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。
若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）, 则公式就成了：
则Xi与Xj之间的马氏距离等于他们的欧氏距离。即：若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。
标准化欧氏距离是在假设数据各个维度不相关的情况下，利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关（例如：身高较高的信息很有可能会带来体重较重的信息，因为两者是有关联的），就要用到马氏距离
补本文充档：所欧提式供距的信离息和仅余供弦参相考之似用度，不能作为科学依据，请勿模仿。文档如有不
当之处，请联系本人或网站删除。
（1）欧氏距离从向量间的绝对距离区分差异，计算得到的相似度值对向量各个维度内的数值特征非常敏感，而余弦夹角从向量间的方向夹角区分差异，对向量各个维度内的数值特征不敏感，所以同时修正了用户间可能存在的度量标准不统一的问题。（2）余弦夹角的值域区间为[-1,1]，相对于欧式距离的值域范围 [0,正无穷大],能够很好的对向量间的相似度值进行了量化。
(Adjusted Cosine Similarity)
虽然余弦相似度对个体间存在的偏见可以进行一定的修正，但是因为只能分辨个体在维之间的差异，没法衡量每个维数值的差异，会导致这样一个情况：比如用户对内容评分，5分制。（此处是两个内容） X评分为(1,2)，Y评分为(4,5)，使用余弦相似度得出的结果是 0.98。两者极为相似，但从评分上看X似乎不喜欢这2个内容，而Y比较喜欢，余弦相似度对数值的不敏感导致了结果的误差。
Jaccard相似当系之处数，(请J联a系c本c人a或r网d站C删除o。efficient)

相似度度量

相似度度量之后准备进攻推荐算法，今天先从相似度度量开始。

总结了一下在机器学习时候用的所有用到的相似度度量以及使用代码，后续还会继续更新。

所介绍的相似度如下：1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵曼哈顿距离曼哈顿距离也叫出租车距离，用来标明两个点在标准坐标系上的绝对轴距总和。

公式如下：想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。

实际驾驶距离就是这个“曼哈顿距离”。

而这也是曼哈顿距离名称的来源，曼哈顿距离也称为城市街区距离(City Block distance)。

欧氏距离和曼哈顿距离的区别在于：它们对向量之间差异的计算过程中，各个维度差异的权值不同。

比如两个向量A(1,2),B(4,8)，它们的：欧氏距离 L_o = 6.7;曼哈顿距离 L_m = 9;向量各个属性之间的差距越大，则曼哈顿距离越接近欧式距离。

### 曼哈顿距离# 计算两点之间的距离def ManhattanDist(A,B):return sum(abs(A-B))# return math.sqrt(sum([(a - b)**2 for (a,b) in zip(A,B)]))X = np.array([1,2,3,4])Y = np.array([3,3,2,7])print(ManhattanDist(X,Y))欧氏距离欧氏距离就是欧几里得距离(Euclidean Distance)欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。

公式如下：欧氏距离虽然很有用，但也有明显的缺点。

它将样本的不同属性（即各指标或各变量量纲）之间的差别等同看待，这一点有时不能满足实际要求。

距离测度与相似度测度的比较论文素材

距离测度与相似度测度的比较论文素材距离测度与相似度测度的比较在数据分析、机器学习和模式识别领域中，距离测度和相似度测度是两个常用的计算方法。

它们在寻找样本之间的关系、分类和聚类等任务中起着重要的作用。

本文将探讨距离测度和相似度测度的特点，并对它们进行比较。

一、距离测度距离测度是用来衡量两个样本之间的差异或相似性的方法。

常见的距离测度包括欧氏距离、曼哈顿距离和闵可夫斯基距离等。

欧氏距离是最常用的距离测度之一。

它通过计算两个样本间相应维度的差值的平方和的平方根来衡量其距离。

欧氏距离计算公式如下：d(x, y) = √[∑(xi - yi)²]其中，xi和yi分别代表样本x和样本y的某个特征的取值。

欧氏距离越小，说明两个样本的特征越相似。

曼哈顿距离是另一种常见的距离测度。

它通过计算两个样本间相应维度的差值的绝对值和来衡量其距离。

曼哈顿距离计算公式如下：d(x, y) = ∑|xi - yi|与欧氏距离相比，曼哈顿距离更适合于特征具有明显分割的情况。

闵可夫斯基距离是欧氏距离和曼哈顿距离的推广。

它可以根据具体需求调节参数来控制距离的形式。

闵可夫斯基距离计算公式如下：d(x, y) = (∑(|xi - yi|)ᵖ)^(1/p)其中，p是一个可调的参数。

当p=1时，等价于曼哈顿距离；当p=2时，等价于欧氏距离。

二、相似度测度相似度测度是用来衡量两个样本之间的相似程度的方法。

相似度测度的结果通常在0到1之间，越接近1表示两个样本越相似，越接近0表示两个样本越不相似。

常用的相似度测度包括余弦相似度、相关系数和Jaccard相似系数等。

余弦相似度是用来衡量两个样本在向量空间中的夹角的方法。

余弦相似度计算公式如下：sim(x, y) = (x·y) / (||x|| · ||y||)其中，x和y分别代表样本x和样本y在向量空间上的向量表示。

相关系数是用来衡量两个样本变量之间关联程度的方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

d
kn 1x1kskx2k2
n k1
x1kx2k sk2
2
如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。
本使文不档同所规提格供的的信数息据仅转当供换之参处考到，之同请用一联，规系不格能本作人为或科网学站依删据除，。请勿模仿。文档如有不
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。
相似度度量
相似度度量（Similarity），即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
闵可夫斯基当距之处离，请联系本人或网站删除。
闵可夫斯基距离（Minkowski distance）不是一种距离，而是一组距离的定义。
1
n

x1k x2k p p
k1

该距离最常用的 p 是 2 和 1, 无穷大 •P=2是欧几里得距离（Euclidean distance）， •P=1是曼哈顿距离（Manhattan distance）。 •当 p 趋近于无穷大时，闵可夫斯基距离转化成切比雪夫距离（Chebyshev distance）
4) d(x,k)+ d(k,y) >= d(x,y)
// 三角形法则: (两边之和大于第三边)
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
欧式距离当之处，请联系本人或网站删除。
即：所有点的对应维度之差的平方的求和再开方。欧式距离相似度算法需要保证各个维度指标在相同的刻度级别，比如对身高、体重两个单位不同的指标使用欧氏距离可能使结果失效。
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
缺点：
当之处，请联系本人或网站删除。
举个栗子
二维样本(身高,体重)，其中身高范围是150~190，体重范围是50~60，有三个样本：a(180,50)，b(190,50)， c(180,60)。那么a与b之间的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c之间的闵氏距离，但是身高的10cm等价于体重的10kg吗？因此用闵氏距离来衡量这些样本间的相似度有问题。
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
在机器学习和数据当挖之掘处中，，请联我系们本经人常或需网站要删知除道。个体间差异的大小，进而评价个体的相似性和类别。根据数据特
马式距离本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。
若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）, 则公式就成了：
则Xi与Xj之间的马氏距离等于他们的欧氏距离。即：若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。
标准化欧氏距离是在假设数据各个维度不相关的情况下，利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关（例如：身高较高的信息很有可能会带来体重较重的信息，因为两者是有关联的），就要用到马氏距离
简单说来，闵氏距离的缺点主要有两个： 1. 将各个分量的量纲(scale)，也就是“单位”当作相同的看待了。 2. 没有考虑各个分量的分布（期望，方差等)可能是不同的。
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
标准化欧氏当距之处离，请联系本人或网站删除。
引入标准化欧式距离的原因是一个数据xi的各个维度之间的尺度不一样。比如v1=(100,10,30),v2 = (500,40,10)。对所有维度分别进行处理，使得各个维度分别满足标准正态分布。即
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
曼哈顿距离当之处，请联系本人或网站删除。
曼哈顿距离来源于城市区块距离，是将多个维度上的距离进行求和后的结果
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
切比雪夫距当之离处，请联系本人或网站删除。
切比雪夫距离（Chebyshev distance）是向量空间中的一种度量，二个点之间的距离定义为其各坐标数值差的最大值。从一个位置走到其他位置需要的步数恰为二个位置的切比雪夫距离，因此切比雪夫距离也称为棋盘距离。
列
行
标准化：对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。特点：1、保持各个特征维度对目标函数的影响权重
2、对目标函数的影响体现在几何分布上 3、在已有样本足够多的情况下比较稳定。归一化（区间缩放）：基于边界值（最大值，最小值），将值的区间缩放到某个特点的范围，如[0,1] 特点：1、对不同特征维度进行伸缩变换 2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的） 3、对目标函数的影响体现在数值上 4、把有量纲表达式变为无量纲表达式。
余弦相似度当之处，请联系本人或网站删除。
两个向量越相似，向量夹角越小，余弦值的绝对值越大；值为负，两向量负相关。
应用：文本的相似度和推荐系统等。
本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不
举个简单栗子：当之处，请联系本人或网站删除。
句子A：这只皮靴号码大了。那只号码合适句子B：这只皮靴号码不小，那只更合适怎样计算上面两句话的相似程度？基本思路：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。第一步，分词。句子A：这只/皮靴/号码/大了。那只/号码/合适。句子B：这只/皮靴/号码/不/小，那只/更/合适。第二步，列出所有的词。这只，皮靴，号码，大了。那只，合适，不，小，很
性的不同，可以采用不同的度量方法。
一般而言，定义一个距离函数 d(x,y), 需要满足下面几个基本准则：Biblioteka 1) d(x,x) = 0
// 到自己的距离为0
2) d(x,y) >= 0
// 距离非负
3) d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是a，那么
B 到 A 的距离也应该是 a