距离和相似度度量
特征相似度计算

特征相似度计算
特征相似度计算是用于比较两个或多个对象之间的相似程度的方法。
在不同的领域和任务中,可以使用各种方法和度量来计算特征相似度。
以下是一些常见的特征相似度计算方法:
1. 欧氏距离(Euclidean Distance):欧氏距离是最常见的特征相似度度量之一。
它计算特征向量之间的欧氏距离,即向量之间的直线距离。
2. 余弦相似度(Cosine Similarity):余弦相似度用于度量特征向量之间的夹角余弦值。
它忽略向量的绝对大小,而关注它们之间的方向和相似性。
3. 相关系数(Correlation Coefficient):相关系数用于度量特征向量之间的线性相关程度。
它反映了两个变量之间的关联性,取值范围从-1到1。
4. Jaccard相似系数(Jaccard Similarity Coefficient):Jaccard相似系数用于度量集合之间的相似度。
它计算两个集合的交集与并集之间的比例。
5. 汉明距离(Hamming Distance):汉明距离用于比较两个等长字符串之间的差异。
它计算两个字符串在相同位置上不同元素的数量。
6. 编辑距离(Edit Distance):编辑距离用于度量两个字符串之间的相似性。
它表示通过插入、删除和替换操作将一个字符串转换为另一个字符串所需的最小操作次数。
以上只是一些常见的特征相似度计算方法,实际应用中可以根据具体的问题和数据类型选择适当的方法。
不同的方法适用于不同的场景,并且可能需要针对具体任务进行调整和优化。
常用距离度量方法总结

常⽤距离度量⽅法总结常⽤距离度量⽅法总结⼀、总结⼀句话总结:1、欧⽒距离2、马⽒距离3、曼哈顿距离4、闵可夫斯基距离5、汉明距离6、杰卡德相关系数7、余弦相似度8、切⽐雪夫距离9、⽪尔逊相关系数1、曼哈顿距离(Manhattan)?> 表⽰两个点在标准坐标系上的【绝对轴距之和】,两点在南北⽅向上的距离加上在东西⽅向上的距离,即【d(i,j)=|xi-xj|+|yi-yj|】。
2、汉明距离?> 汉明距离是⼀个概念,它表⽰【两个(相同长度)字对应位不同的数量】,⽐如:【1011101 与 1001001 之间的汉明距离是 2】3、余弦相似度(cosine similarity)?> ⽤向量空间中【两个向量夹⾓的余弦值】作为衡量两个个体间差异的⼤⼩。
4、切⽐雪夫距离(Chebyshev distance)?> 切⽐雪夫距离(Chebyshev distance)或是L∞度量是向量空间中的⼀种度量,⼆个点之间的距离定义为【其各座标数值差的最⼤值】。
设平⾯空间内存在两点,它们的坐标为(x1,y1),(x2,y2),则【dis=max(|x1−x2|,|y1−y2|)】,即【两点横纵坐标差的最⼤值】⼆、常⽤距离度量⽅法⼤全转⾃或参考:常⽤距离度量⽅法⼤全https:///jimchen1218/p/11504545.html有时候,我们需要度量两个向量之间的距离来决定他们的归属。
接下来列举⼀些常⽤的距离度量⽅法1、欧⽒距离2、马⽒距离3、曼哈顿距离4、闵可夫斯基距离5、汉明距离6、杰卡德相关系数7、余弦相似度8、切⽐雪夫距离9、⽪尔逊相关系数1、欧⽒距离:也叫欧⼏⾥得距离两点之间或多点之间的距离表⽰法⼆维空间的公式:其中,为点与点之间的欧⽒距离;为点到原点的欧⽒距离。
n维空间的公式:其实就是应⽤勾股定理计算两个点的直线距离,它会受指标不同单位刻度影响,所以,在使⽤前⼀般要先标准化,距离越⼤,个体间差异越⼤改进⽅法1:标准化欧⽒距离:针对各分量分布不⼀致,将各分量都标准化到均值,⽅差相等标准化后值:(标准化前的值-分量的均值)/分量标准差改进⽅法2:2、马⽒距离(Mahalanobis):表⽰点与分布之间的距离,考虑到各种特性之间的联系,且尺度⽆关。
计算曲线相似度的算法

计算曲线相似度的算法
计算曲线相似度的算法有很多种,以下列举几种常见的算法:
1. 欧几里得距离(Euclidean Distance):该算法计算两条曲线
之间的欧几里得距离,即对应点之间的距离的平方和的平方根。
较低的欧几里得距离表示曲线相似度较高。
2. 皮尔逊相关系数(Pearson Correlation Coefficient):该算法
计算两条曲线之间的皮尔逊相关系数,该系数度量了两条曲线的线性关系程度。
较高的皮尔逊相关系数表示曲线相似度较高。
3. 动态时间规整(Dynamic Time Warping, DTW):该算法将
两条曲线进行时间上的扭曲,使它们在时间轴上对齐,并通过计算对应点之间的距离来度量曲线相似度。
DTW算法可以处
理曲线在时间轴上的不同速度和长度。
较低的DTW距离表示
曲线相似度较高。
4. 离散傅里叶变换(Discrete Fourier Transform, DFT):该算
法将两条曲线转换为频域表示,并计算它们之间的频域距离或相似度。
较低的频域距离表示曲线相似度较高。
5. 小波变换(Wavelet Transform):该算法将两条曲线进行小
波变换,并计算它们之间的小波距离或相似度。
小波变换可以捕捉到曲线的局部特征。
较低的小波距离表示曲线相似度较高。
这些算法可以根据具体的需求和曲线的特点选择适合的方法进行计算。
常见的距离度量

常见的距离度量标题:常见的距离度量:理解与应用引言:在数学、统计学和计算机科学中,距离度量是一种用于衡量两个事物之间相似性或差异性的工具。
在现实生活和学术领域中,我们经常遇到需要计算和比较距离的情况。
本文将介绍常见的距离度量方法,并探讨它们的原理、特性以及在不同领域中的应用。
一、欧氏距离:欧氏距离是最为常见和直观的距离度量方法之一。
它基于欧几里得空间中的几何概念,通过计算两点之间的直线距离来衡量它们之间的距离。
欧氏距离的数学定义为两点之间的直线距离的平方根。
欧氏距离适用于连续的特征空间,并且在聚类、分类和回归等机器学习任务中被广泛应用。
二、曼哈顿距离:曼哈顿距离是另一种常见的距离度量方法。
它基于城市街区的概念,通过计算两点之间在每个维度上坐标差的绝对值之和来衡量它们之间的距离。
曼哈顿距离的数学定义为两点之间横向和纵向距离的总和。
曼哈顿距离适用于特征空间为离散值的情况,并在推荐系统、路径规划和图像处理等领域中得到广泛应用。
三、切比雪夫距离:切比雪夫距离是一种衡量两个向量之间的最大差异性的度量方法。
它通过计算两点之间在每个维度上坐标差的最大值来衡量它们之间的距离。
切比雪夫距离的数学定义为两点之间坐标差的最大值。
切比雪夫距离适用于特征空间为离散或连续值的情况,并在异常检测、模式识别和图像相似度比较等领域中被广泛应用。
四、闵可夫斯基距离:闵可夫斯基距离是一种结合了欧氏距离和曼哈顿距离的一般化距离度量方法。
它通过计算两点在每个维度上坐标差的绝对值的p次幂之和的p次方根来衡量它们之间的距离。
当p为1时,闵可夫斯基距离退化为曼哈顿距离;当p为2时,闵可夫斯基距离退化为欧氏距离。
闵可夫斯基距离适用于各种特征空间和测度要求,并在多领域如图像识别、数据挖掘和生物信息学中得到广泛应用。
五、相关系数距离:相关系数距离是一种用于衡量两个向量之间相关程度差异的度量方法。
它通过计算两个向量之间的相关系数的差的绝对值来衡量它们之间的距离。
人脸识别算法 欧氏距离 余弦相似度

人脸识别算法欧氏距离余弦相似度一、人脸识别算法的基本原理人脸识别算法是一种利用人脸特征信息进行身份识别的技术。
它主要通过采集图像或视频中的人脸信息,然后提取特征并对比库中已存在的人脸信息,最终确定身份的一种技术手段。
在人脸识别算法中,欧氏距离和余弦相似度是两种常用的相似度计算方法。
在我们深入讨论这两种方法之前,我们需要先了解一下它们的基本原理。
欧氏距离是一种用于度量向量之间的距离的方法,其计算公式为:d(x, y) = √((x1 - y1)² + (x2 - y2)² + ... + (xn - yn)²) 。
在人脸识别算法中,常用欧氏距离来度量两张人脸图像之间的相似度,即通过比较特征向量之间的欧氏距离来识别身份。
与欧氏距离相似,余弦相似度也是一种用于度量向量之间的相似度的方法,其计算公式为:sim(x, y) = (x·y) / (‖x‖·‖y‖),其中x和y分别为两个向量。
在人脸识别算法中,余弦相似度常用于比较两个特征向量之间的夹角,来度量它们之间的相似度。
二、人脸识别算法中的欧氏距离应用在人脸识别算法中,欧氏距离常被用于度量两张人脸图像之间的相似度。
通过将人脸图像转化为特征向量,并使用欧氏距离来比较这些向量之间的距离,来确定是否为同一人。
举例来说,当系统需要识别一个人脸时,它首先会将该人脸图像提取特征并转化为特征向量,然后与存储在数据库中的特征向量进行比较。
通过计算欧氏距离,系统可以得出两个特征向量之间的距离,从而确定该人脸是否为已知身份。
三、人脸识别算法中的余弦相似度应用除了欧氏距离外,余弦相似度在人脸识别算法中也有着广泛的应用。
与欧氏距离不同,余弦相似度更侧重于计算两个向量之间的夹角,而非距离。
在人脸识别算法中,余弦相似度被用来比较两个特征向量之间的夹角,通过夹角的大小来确定它们之间的相似度。
这种方法能够更好地捕捉到特征向量之间的方向性信息,从而提高识别的准确性。
如何 计算 语句 相似度 欧氏距离

如何计算语句相似度欧氏距离
《如何计算语句相似度欧氏距离》
在自然语言处理领域,计算语句相似度是一个重要的问题。
语句相似度指的是衡量两个语句之间的语义相似程度。
欧氏距离是一种常用的计算语句相似度的方法之一。
下面我们将介绍如何使用欧氏距离来计算语句相似度。
首先,我们需要将两个语句转换成向量表示。
这里通常会使用词袋模型或者词嵌入等方法将语句中的单词转换成向量。
然后,我们可以将这两个语句的向量表示分别记为A和B。
接下来,我们可以通过计算这两个向量的欧氏距离来衡量它们之间的相似度。
欧氏距离的计算公式为:
```
d = sqrt((a1 - b1)^2 + (a2 - b2)^2 + ... + (an - bn)^2)
```
其中,a1, a2, ..., an 分别表示向量A的各个维度的取值,b1, b2, ..., bn 表示向量B的各个维度的取值。
计算出欧氏距离d之后,我们可以将其作为语句相似度的度量值。
通常情况下,欧氏距离越小,表示两个语句之间的语义相似度越高。
总而言之,欧氏距离是一种简单有效的计算语句相似度的方法。
通过将语句转换成向量表示,并计算这些向量之间的欧氏距离,我们可以量化地评估两个语句之间的语义相似程度。
在实际应用中,我们也可以结合其他方法来综合考量语句相似度,以更准确地衡量语义相似度。
相似度量 方法 对比 总结 综述
相似度量方法对比总结综述相似度量是指用于衡量两个对象之间相似程度的方法。
在现实生活中,我们经常需要比较不同对象之间的相似性,比如文本相似度、图像相似度、音频相似度等。
相似度量方法可以帮助我们在各种领域进行对象之间的比较和匹配。
首先,让我们来看一些常用的相似度量方法。
在文本相似度方面,常用的方法包括余弦相似度、Jaccard相似度、编辑距离等。
余弦相似度通过计算两个向量之间的夹角来衡量它们的相似程度,而Jaccard相似度则通过计算两个集合的交集与并集的比值来衡量它们的相似程度。
在图像相似度方面,常用的方法包括结构相似性(SSIM)、均方误差(MSE)等。
这些方法都有各自的特点和适用范围,可以根据具体的应用场景选择合适的方法。
其次,让我们对这些相似度量方法进行对比。
不同的相似度量方法适用于不同的数据类型和应用场景。
比如,余弦相似度适用于文本数据的相似度比较,而SSIM适用于图像数据的相似度比较。
在选择相似度量方法时,需要考虑数据的特点、计算复杂度、准确性等因素。
有些方法可能在某些场景下表现更好,而在其他场景下表现较差。
因此,对不同方法进行对比可以帮助我们选择最合适的方法。
最后,综述一下相似度量方法的应用和发展趋势。
随着大数据和人工智能技术的发展,相似度量方法在各个领域都有着广泛的应用,比如推荐系统、信息检索、图像识别等。
未来,相似度量方法可能会更加注重多模态数据的相似度比较,比如文本和图像的跨模态相似度比较,以及结合深度学习等新技术进行相似度量的研究和应用。
总的来说,相似度量方法在数据分析和人工智能领域具有重要意义,不同的方法适用于不同的场景,通过对不同方法的对比和综述可以更好地理解和应用这些方法。
皮尔逊相关法和平方欧式距离
皮尔逊相关法和平方欧式距离引言皮尔逊相关法和平方欧式距离是数据分析和机器学习领域中常用的两种相似度度量方法。
它们可以用于比较和评估两个向量之间的相似程度。
本文将详细介绍这两种方法的原理、计算公式以及应用领域,并分析它们的优缺点。
一、皮尔逊相关法1.1 概述皮尔逊相关法是用来度量两个变量之间线性关系强度的一种统计方法。
它通过计算两个变量的协方差和各自的标准差,得到相关系数。
相关系数的取值范围在-1到1之间,接近1表示变量间存在强正相关关系,接近-1表示变量间存在强负相关关系,接近0表示变量间不存在线性关系。
1.2 计算公式皮尔逊相关系数的计算公式为:r=∑(X−X‾)n(Y−Y‾)√∑(X i−X‾)2ni=1√∑(Y i−Y‾)2ni=1其中,X i和Y i分别为两个变量的第i个观测值,X‾和Y‾分别为两个变量的均值。
1.3 应用领域皮尔逊相关法广泛应用于统计学、数据分析和机器学习领域。
它可以用来研究变量之间的关联性、评估预测模型的拟合程度,以及筛选特征变量等。
二、平方欧式距离2.1 概述平方欧式距离是一种计算两个向量之间距离的方法。
它基于欧式距离的思想,但对距离的计算进行了平方处理。
平方欧式距离的值越小,表示两个向量越接近。
2.2 计算公式平方欧式距离的计算公式为:nd=∑(X i−Y i)2i=1其中,X i和Y i分别为两个向量的第i个分量。
2.3 应用领域平方欧式距离常用于聚类分析、数据挖掘和模式识别等领域。
它可以用来度量数据点之间的相似度,从而帮助我们发现数据中的分组结构。
三、皮尔逊相关法与平方欧式距离的比较3.1 相似度与距离的区别皮尔逊相关法和平方欧式距离分别用于度量相似度和距离。
相似度越大表示两个变量或向量越相似,而距离越小表示两个变量或向量越接近。
3.2 公式差异皮尔逊相关系数通过计算协方差和标准差得到,而平方欧式距离只需计算各分量的差值平方和。
因此,皮尔逊相关法更加关注变量间的线性关系,而平方欧式距离更加关注变量间的差异程度。
曲线相似度
曲线相似度曲线相似度(CurveSimilarity)是指两条曲线在形状上的相似程度,它是用来评估曲线的形状的一种量化技术。
它可以应用于基于图像的指纹识别,细胞学分析,生物医学图像处理,社会网络分析,智能交通系统和生物信息学等领域。
曲线相似度的主要应用目标是为了找到一组曲线中最接近的。
曲线相似度的评价方法主要有基于距离的曲线相似度和基于内容的曲线相似度。
基于距离的曲线相似度主要采用距离度量,该度量指的是两条曲线之间的剩余距离的最小值,它可以从曲线的拐点处计算出来。
基于内容的曲线相似度是根据曲线的形状特征来评估曲线之间的相似度,其中常用的方法有曲线指标比对算法(ContourIndex-Based Comparison),位置和弯曲度比对算法(Position-Curvature Comparison),直线性比较算法(Linear Comparison)和共轭比较算法(Conjugate Comparison)。
另外,曲线相似度还可以用来实现曲线间的自动分类。
通过对曲线的特征提取,比如拐点数量,曲线的弯曲度,曲线的弯曲角度等,可以计算曲线之间的相似度,通过对曲线的相似程度加以分类,可以实现曲线间的自动分类,从而更好地挖掘出被观测到的曲线的特征,有助于研究者提出具有丰富具象性的模型。
曲线相似度在指纹识别,生物医药图像处理,社会网络分析,智能交通系统,生物信息学等领域都有很广泛的应用。
它是由曲线特征驱动的,它有助于更准确地识别曲线,从而可以将研究曲线变化的过程变得更加容易。
曲线相似度也可以应用于实际中,比如工厂过程控制中的曲线比较,零件表面检测中的曲线匹配等。
应用曲线相似度的核心原理在于曲线的弯曲度,计算出来的相似度值可以更准确地反映出两条曲线之间存在的差异,从而达到精确定位和识别特征目标的目的。
综上所述,曲线相似度是一种量化技术,可用于评估曲线的形状,广泛应用于指纹识别,生物医药图像处理,社会网络分析,智能交通系统,生物信息学等领域,它可以帮助研究者准确定位和识别特征目标。
向量相似度计算
向量相似度测量2013-02-23 19:36:21| 分类:默认分类 |字号订阅相似度,可以完全转化为两个向量之间的相似度。
而向量的相似度通常可以用曼哈顿距离或者余弦距离来计算。
事实上,这种表示方法压缩了字符串,用每个字符出现的次数代替了字符串本身,损失了字符出现的位置信息。
因此,对于同一个消息,如果只调换了字符顺序的话,通过这种方式计算出的消息指纹不变。
但实际情况中,这种情况往往出现较少。
(一个极端的例子。
是“喜欢”和“欢喜”)3.3.2 最短编辑距离最短编辑距离是一个经典的概念。
对一个字符串进行添加一个字符、删除一个字符或修改一个字符定义为进行一次操作。
两个字符串的最短编辑距离是指把一个字符串变为另外一个字符串需要的最少操作次数。
求解最小编辑距离是一个可以用动态规划方法解决的经典问题。
7.4.3 曼哈顿距离度量不同于欧几里得距离,曼哈顿距离度量下,任意两点之间的距离是其坐标的绝对差异的总和。
图7.6比较在XY平面上的两个点之间的欧氏距离和曼哈顿距离。
这个距离测量的名字来源于曼哈顿的街道网格布局。
任何一个新的纽约客知道,你不能从第二大道的第二街直通建筑物步行到第六大道的第六街。
真正的步行距离会比 4*4块多,在数学上,两个n维向量的曼哈顿距离公式如下:在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。
最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。
当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。
为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。
下面来看看主要可以用哪些方法来衡量两者的差异,主要分为距离度量和相似度度量。
距离度量距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
距离和相似度度量
2011-10-08 15:55 来源:网站数据分析 2个评论 分享文章
A- A+
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。
最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值
(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。
为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,
即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面来看看主要可以用哪些方法来衡
量两者的差异,主要分为距离度量和相似度度量。
距离度量
距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。
欧几里得距离(Euclidean Distance)
欧氏距离是最常见的距离度量,衡量的是多维空间中各个点之间的绝对距离。公式如下:
因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身
高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。
明可夫斯基距离(Minkowski Distance)
明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。公式如下:
这里的p值是一个变量,当p=2的时候就得到了上面的欧氏距离。
曼哈顿距离(Manhattan Distance)
曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果,即当上面的明氏距离中p=1
时得到的距离度量公式,如下:
切比雪夫距离(Chebyshev Distance)
切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那
么如果要从棋盘中A格(x1, y1)走到B格(x2, y2)最少需要走几步?扩展到多维空间,其实切比
雪夫距离就是当p趋向于无穷大时的明氏距离:
其实上面的曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。
马哈拉诺比斯距离(Mahalanobis Distance)
既然欧几里得距离无法忽略指标度量的差异,所以在使用欧氏距离之前需要对底层指标进行数据的标准化,
而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距离度量——马哈拉诺比斯距离
(Mahalanobis Distance),简称马氏距离。
相似度度量
相似度度量(Similarity),即计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体
间相似度越小,差异越大。
向量空间余弦相似度(Cosine Similarity)
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相
似度更加注重两个向量在方向上的差异,而非距离或长度上。公式如下:
皮尔森相关系数(Pearson Correlation Coefficient)
即相关分析中的相关系数r,分别对X和Y基于自身总体标准化后计算空间向量的余弦夹角。公式如下:
Jaccard相似系数(Jaccard Coefficient)
Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度
量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系
数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数,只比较xn和
yn中相同的个数,公式如下:
调整余弦相似度(Adjusted Cosine Similarity)
虽然余弦相似度对个体间存在的偏见可以进行一定的修正,但是因为只能分辨个体在维之间的差异,没法
衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内
容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看
X似乎不喜欢这2个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种
不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是
3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,
但显然更加符合现实。
欧氏距离与余弦相似度
欧氏距离是最常见的距离度量,而余弦相似度则是最常见的相似度度量,很多的距离度量和相似度度量都
是基于这两者的变形和衍生,所以下面重点比较下两者在衡量个体差异时实现方式和应用环境上的区别。
借助三维坐标系来看下欧氏距离和余弦相似度的区别:
从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的
数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。
如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦相似度cosθ是保持不变的,
因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。
根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧氏距离能够
体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行
为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,
更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准
不统一的问题(因为余弦相似度对绝对数值不敏感)。
上面都是对距离度量和相似度度量的一些整理和汇总,在现实的使用中选择合适的距离度量或相似度度量
可以完成很多的数据分析和数据挖掘的建模,后续会有相关的介绍。