相似度的计算

合集下载

曲线相似度算法范文

曲线相似度算法范文曲线相似度算法是用于比较两条曲线之间的相似程度的算法。

在许多应用场景中，我们需要判断两条曲线是否相似，比如在数据挖掘中用于模式识别和分类，或者在图像处理中用于图像匹配和图像识别。

本文将介绍几种常见的曲线相似度算法。

1.欧几里德距离算法：欧几里德距离是最简单的一种相似度算法，它衡量的是两条曲线之间的几何距离。

通过计算两条曲线上对应点的坐标之差的平方和再开方，可以得到两条曲线之间的欧几里德距离。

欧几里德距离越小，则表示两条曲线越相似。

2.动态时间规整算法（DTW）：DTW算法是一种基于时间序列相似度比较的算法，它可以衡量两条曲线之间在时间上的扭曲程度。

DTW算法首先将两条曲线上的所有点两两配对，然后计算每对点之间的距离。

通过动态规划的方法，可以找到一条最佳匹配路径，使得整条曲线之间的距离最小化。

DTW算法可以有效地处理两条曲线之间的时间偏移和长度不一致的情况。

3.弦图相似度算法：弦图相似度算法是一种基于形状特征的相似度算法，它主要用于比较两条曲线的形状相似程度。

弦图相似度算法首先将两条曲线上的点按照等分弦长的方式进行采样，然后计算每对采样点之间的距离。

通过计算两条曲线上所有点之间的距离，可以得到每条曲线的弦图。

最后，通过比较两个弦图的相似度指标，可以得到两条曲线的相似度。

4.小波变换相似度算法：小波变换相似度算法是一种基于频率特征的相似度算法，它主要用于比较两条曲线的频率分布情况。

小波变换相似度算法通过对两条曲线进行小波变换，得到每个频率段上的能量分布。

通过比较两个频率分布的相似度指标，可以得到两条曲线的相似度。

以上介绍的是常见的几种曲线相似度算法，不同的算法适用于不同的应用场景。

在实际应用中，我们可以根据具体需求选择合适的算法进行曲线相似度比较。

同时，也可以根据需要将多个算法进行组合，以得到更准确的相似度评估结果。

两组数据相似度计算方法

两组数据相似度计算方法（实用版2篇）目录（篇1）1.引言2.两组数据的相似度计算方法概述3.方法一：欧氏距离4.方法二：余弦相似度5.方法三：Jaccard 相似度6.方法四：Jaro-Winkler 相似度7.总结与展望正文（篇1）一、引言在数据挖掘和机器学习领域，衡量两组数据之间的相似度是一项重要任务。

相似度计算方法可以帮助我们判断数据之间的相似程度，从而为数据融合、数据匹配等应用提供依据。

本文将介绍四种常用的两组数据相似度计算方法。

二、两组数据的相似度计算方法概述两组数据的相似度计算方法主要通过比较数据之间的差异来衡量其相似性。

常用的方法包括欧氏距离、余弦相似度、Jaccard 相似度和Jaro-Winkler 相似度。

三、方法一：欧氏距离欧氏距离是最常见的距离度量方法，它计算两个数据点之间的直线距离。

对于两组数据，我们可以分别计算每对数据点之间的欧氏距离，然后取平均值作为两组数据的相似度。

欧氏距离适用于各种数据类型，但对于不同尺度的特征可能会产生误导。

四、方法二：余弦相似度余弦相似度是通过计算两组数据的夹角余弦值来衡量它们之间的相似性。

余弦值在 -1 到 1 之间，接近 1 表示两组数据非常相似，接近 -1 表示两组数据完全不相似。

余弦相似度对数据进行归一化处理，可以处理不同尺度的特征。

但它对数据中的极端值较为敏感。

五、方法三：Jaccard 相似度Jaccard 相似度主要用于处理集合数据。

它通过计算两个数据集合的交集与并集的比值来衡量它们之间的相似度。

Jaccard 相似度的取值范围为 0 到 1，0 表示两个集合完全不相似，1 表示两个集合完全相同。

六、方法四：Jaro-Winkler 相似度Jaro-Winkler 相似度是一种字符串匹配度量方法，它同时考虑了字符串中的长匹配和短匹配。

Jaro-Winkler 相似度可以处理不同长度的字符串，并具有较高的匹配性能。

七、总结与展望本文介绍了四种常用的两组数据相似度计算方法：欧氏距离、余弦相似度、Jaccard 相似度和 Jaro-Winkler 相似度。

excel数据相似度公式

excel数据相似度公式el数据相似度公式是一种新型的数据分析算法，它可以在较短的时间内就可以快速、准确地计算出数据之间的相似度。

它在全局范围内遍历大规模数据集，以突出反映数据间的相似性和差异性，为用户提供更准确、可靠的数据比较分析，并对数据进行分类和分组。

el数据相似度公式的定义是：假设原始数据集中有m个变量，则el数据相似度公式可以表示为：Sim(Object1, Object2) =_(i=1)^m〖 w_i * (x_(i1) -x_(i2))^2〗其中，Object1和Object2分别代表任意两个数据，w_1,w_2,……,w_m分别为不同变量对比相似度的加权因子，x_i1x_i2分别为两个数据对应变量值。

需要注意的是，加权因子w_i不能小于0，而且一般取值范围为[0,1]。

由el公式可以看出，当w_i的值越大，则表明i号变量比较重要，反之则越小，表明i号变量比较不重要。

有了这个公式，我们就可以很容易地评估任意两组数据的相似度，从而发现数据之间的关系。

el数据相似度公式还可以用来实现数据聚类。

例如，我们可以将数据按照相似度聚类。

假设有一组数据，要按照el数据相似度公式进行聚类，首先，我们可以确定各个变量的加权因子，然后，将这些变量值带入el公式，计算出各组数据之间的相似度，并基于相似度形成聚类群集。

el数据相似度公式是一种可以有效地分析和比较大规模数据的有力工具，它具有计算速度快、准确率高的特性，在许多数据分析领域都得到了广泛的应用，包括机器学习、数据挖掘、智能对话、自然语言处理等。

此外，el数据相似性公式也被用于实现数据建模，比如利用el 公式来进行推荐系统的建模，可以建立数据的相似矩阵，从而准确地预测用户的需求和兴趣点，帮助用户找到最适合自己的商品或服务。

综上所述，el数据相似度公式的出现标志着数据分析和比较技术取得重大突破，能够有效帮助用户快速准确地计算出大规模数据集之间的相似性，并利用聚类算法实现高效数据建模，为数据分析领域提供了一个新的技术方案，也让多学科交叉的创新取得了长足进展。

序列数据相似度计算

序列数据相似度计算
摘要：
1.序列数据相似度计算的定义与重要性
2.常用的序列数据相似度计算方法
3.实例分析
4.总结
正文：
序列数据相似度计算是研究序列数据之间相似性的一种方法，它在生物学、语言学、信息检索等领域有着广泛的应用。

对于序列数据，我们通常关心的是它们之间的相似程度，而序列数据相似度计算就是用来量化这种相似程度的。

常用的序列数据相似度计算方法有动态规划法、最长公共子序列法、最小编辑距离法等。

动态规划法是一种基于数学模型的算法，它通过计算两个序列之间的最长递增子序列来确定它们的相似度。

最长公共子序列法则是通过寻找两个序列中最长的公共子序列来计算它们的相似度。

最小编辑距离法则是通过计算将一个序列转换成另一个序列所需的最小操作次数来计算它们的相似度。

以蛋白质序列比对为例，科学家们可以通过比较两个蛋白质序列的相似度，来推测它们的功能和结构是否相似。

这种方法在生物信息学领域被广泛应用，有助于我们理解基因和蛋白质之间的关系。

总的来说，序列数据相似度计算是一种重要的数据分析方法，它在许多领域都有着广泛的应用。

两种常用的相似度计算方法

两种常用的相似度计算方法
计算机视觉中，相似度计算方法是一项重要技术，其中最常用的就是基于欧几里得距离的相似度计算和基于余弦相似的计算。

本文将深入探讨这两种计算方法的原理及其历史发展。

两种常用的相似度计算方法
一直以来，计算相似度一直都有很多不同的方法，通常被用来衡量两个对象之间的相似程度，也被广泛用于机器学习等方面。

尽管有许多不同的相似度计算方法，但下面介绍的两种常见的方法是最基本而又最常见的：
1.余弦相似度
余弦相似度是一种计算两个向量的相似度的有效方法。

它是计算任意两个向量夹角余弦值的一种常用方法，从而确定它们的异同程度。

余弦夹角的值范围在-1.0到1.0之间，值越接近1.0表示两个向量的异同程度越相似，值越接近-1.0表示两个向量的异同程度越不相似。

2.曼哈顿距离
曼哈顿距离或简称L1距离，也叫城市距离或现实距离，是指两点在空间中彼此间的距离，其核心思想是步行街区时走过的步数，即一步次序计算两点之间的距离。

对于两个点P(x,y)和Q(m,n)，其曼哈顿距离就是：|x-m|+|y-n|.它可以衡量不同维度属性之间的距离或的相似程度，被广泛应用于诸多机器学习中。

总的来说，两种常用的相似度计算方法--余弦相似度和曼哈顿距离，一个关注向量之间的夹角，另一个关注距离，都可以用来衡量对象之间的相似程度。

具体使用哪种方法取决于所解决问题的特征，在不同的领域中，相似度计算的方法也会有所不同。

常用相似度计算方法

常用相似度计算方法
嘿，咱今天就来聊聊那些常用的相似度计算方法呀！
你看哦，有一种方法叫余弦相似度。

这就好比是两个向量之间的“亲密
程度”。

比如说有两个音乐列表，一个里面都是摇滚歌曲，另一个也有很多
摇滚歌曲，那它们的余弦相似度可能就会比较高，就像两个好朋友都喜欢同一种音乐一样。

还有欧式距离呢！想象一下，在一个地图上，两个点之间的距离。

比如有两个城市，它们在地图上的位置远近，就可以用欧式距离来衡量。

如果两个城市离得很近，那欧式距离就小，说明它们挺相似的；要是离得老远，那相似度自然就低啦。

再来说说杰卡德相似系数。

这就好像是比较两个集合有多少共同的元素。

比如说有两堆水果，一堆有苹果、香蕉、橘子，另一堆有苹果、葡萄、橙子，那它们共同有的就是苹果，用这个来计算它们的相似度就很有趣。

咱平时生活里也能用到这些相似度计算方法呢！比如说找朋友，你和一个人有很多共同爱好，那你们的相似度就高呀，可能就更容易成为好朋友。

或者在选电影看的时候，发现一部电影和你之前喜欢的电影很相似，那你可能就会更想去看。

在工作中也一样哦！比如数据分析的时候，要看看不同的数据组之间有多相似，就能更好地进行分类和分析啦。

还有哦，想象一下在美食的世界里，不同的菜品之间也可以用相似度计算呢！比如两道菜都用了很多辣椒，那它们在口味上的相似度可能就比较高。

总之呀，这些相似度计算方法就像是我们生活中的小助手，能帮我们更好地理解和比较各种事物之间的关系。

是不是很有意思呀？下次你再遇到什么要比较相似性的事情，就可以想想这些方法啦！。

人脸相似度计算

人脸相似度计算人脸相似度计算是基于人脸识别技术的应用之一，通过比较不同人脸之间的相似程度，判断两个人脸是否属于同一人。

人脸相似度计算在人脸识别、人脸验证、人脸搜索等领域有着广泛的应用，如刷脸支付、人脸解锁等。

人脸相似度的计算过程包括人脸特征提取和相似度量化两个步骤。

首先，人脸相似度计算需要对人脸进行特征提取。

人脸特征提取是将人脸图像转换为一组具有代表性的数值特征的过程。

常见的人脸特征提取方法有主成分分析（PCA）、线性判别分析（LDA）、局部二值模式（LBP）等。

这些方法能够从图像中提取出人脸的特征信息，形成一组数值向量作为人脸的表示。

其次，计算相似度需要对提取出的人脸特征进行量化。

常见的人脸相似度量化方法包括欧式距离、余弦相似度、马氏距离等。

欧式距离是计算两个向量之间的直线距离，余弦相似度则是计算两个向量之间的夹角余弦值，而马氏距离则是考虑到数据的协方差矩阵，在欧式距离的基础上进行了修正。

这些方法能够衡量两个人脸特征之间的差异程度，从而反映出他们的相似度。

除了上述的基本方法，现在还有许多基于深度学习的人脸相似度计算方法。

例如，基于卷积神经网络（CNN）的人脸相似度计算模型能够通过端到端的学习，将人脸图像映射到特征空间，并计算相似度。

这些深度学习方法通常采用大规模的人脸数据集进行训练，能够获取更准确的人脸特征表示，从而提高相似度计算的准确性。

此外，在进行人脸相似度计算时，还需要注意一些问题。

例如，人脸图像的质量会影响相似度的准确性，因此在计算前需要对图像进行预处理，如人脸对齐、光照归一化等。

同时，人脸相似度计算还需要考虑到人脸图像的角度、表情、遮挡等因素对相似度的影响，这些因素可能导致相似度计算的误差。

总而言之，人脸相似度计算是一项重要的人脸识别技术，能够在刷脸支付、人脸解锁等场景中发挥重要作用。

通过人脸特征提取和相似度量化两个步骤，能够判断不同人脸之间的相似程度，从而实现人脸识别和验证。

随着深度学习技术的发展，人脸相似度计算的准确性将会进一步提高，为更多应用场景提供更精确的人脸识别解决方案。

向量的相似度计算常用方法9个

向量的相似度计算常用方法9个在向量相似度计算中，有许多常用的方法可以用于比较向量之间的相似程度。

下面将列举九种常用的向量相似度计算方法，并对每种方法进行详细介绍。

1. 余弦相似度（Cosine Similarity）：余弦相似度是一种常用的向量相似度计算方法，用于比较两个向量之间的方向是否相似。

它通过计算两个向量之间的夹角余弦值来度量它们之间的相似度，取值范围为[-1,1]，值越接近1表示向量越相似。

2. 欧氏距离（Euclidean Distance）：欧氏距离是一种常用的向量相似度计算方法，用于度量两个向量之间的距离。

它通过计算两个向量之间的直线距离来度量它们之间的相似度，取值范围为[0,+∞)，值越接近0表示向量越相似。

3. 曼哈顿距离（Manhattan Distance）：曼哈顿距离是一种常用的向量相似度计算方法，用于度量两个向量之间的距离。

它通过计算两个向量之间在每个维度上的差值的绝对值之和来度量它们之间的相似度，取值范围为[0,+∞)，值越接近0表示向量越相似。

4. 闵可夫斯基距离（Minkowski Distance）：闵可夫斯基距离是一种常用的向量相似度计算方法，它是欧氏距离和曼哈顿距离的一种推广。

它通过计算两个向量各个维度上差值的p次方之和的p次方根来度量它们之间的相似度，取值范围为[0,+∞)，值越接近0表示向量越相似。

5. 切比雪夫距离（Chebyshev Distance）：切比雪夫距离是一种常用的向量相似度计算方法，用于度量两个向量之间的距离。

它通过计算两个向量各个维度上差值的绝对值的最大值来度量它们之间的相似度，取值范围为[0,+∞)，值越接近0表示向量越相似。

6. 杰卡德相似系数（Jaccard Similarity Coefficient）：杰卡德相似系数是一种常用的用于度量两个集合相似程度的向量相似度计算方法。

它通过计算两个集合的交集元素个数与并集元素个数的比值来度量它们之间的相似度，取值范围为[0,1]，值越接近1表示集合越相似。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

相似度计算1相似度的计算简介关于相似度的计算，现有的几种基本方法都是基于向量（Vector）的，其实也就是计算两个向量的距离，距离越近相似度越大。

在推荐的场景中，在用户-物品偏好的二维矩阵中，我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。

下面我们详细介绍几种常用的相似度计算方法：1.1皮尔逊相关系数（Pearson Correlation Coefficient）皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度，它的取值在 [-1，+1] 之间。

s x , sy是 x 和 y 的样品标准偏差。

类名：PearsonCorrelationSimilarity原理：用来反映两个变量线性相关程度的统计量范围：[-1,1]，绝对值越大，说明相关性越强，负相关对于推荐的意义小。

说明：1、不考虑重叠的数量；2、如果只有一项重叠，无法计算相似性（计算过程被除数有n-1）；3、如果重叠的值都相等，也无法计算相似性（标准差为0，做除数）。

该相似度并不是最好的选择，也不是最坏的选择，只是因为其容易理解，在早期研究中经常被提起。

使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。

Mahout中，为皮尔森相关计算提供了一个扩展，通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。

1.2欧几里德距离（Euclidean Distance）最初用于计算欧几里德空间中两个点的距离，假设 x，y 是 n 维空间的两个点，它们之间的欧几里德距离是：可以看出，当 n=2 时，欧几里德距离就是平面上两个点的距离。

当用欧几里德距离表示相似度，一般采用以下公式进行转换：距离越小，相似度越大。

类名：EuclideanDistanceSimilarity原理：利用欧式距离d定义的相似度s，s=1 / (1+d)。

范围：[0,1]，值越大，说明d越小，也就是距离越近，则相似度越大。

说明：同皮尔森相似度一样，该相似度也没有考虑重叠数对结果的影响，同样地，Mahout通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。

1.3Cosine 相似度（Cosine Similarity）Cosine 相似度被广泛应用于计算文档数据的相似度：类名： UncenteredCosineSimilarity原理：多维空间两点与所设定的点形成夹角的余弦值。

范围：[-1,1]，值越大，说明夹角越大，两点相距就越远，相似度就越小。

说明：在数学表达中，如果对两个项的属性进行了数据中心化，计算出来的余弦相似度和皮尔森相似度是一样的，在mahout中，实现了数据中心化的过程，所以皮尔森相似度值也是数据中心化后的余弦相似度。

另外在新版本中，Mahout提供了UncenteredCosineSimilarity类作为计算非中心化数据的余弦相似度。

1.4Spearman秩相关系数--Spearman Correlation类名：SpearmanCorrelationSimilarity原理：Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数。

范围：{-1.0,1.0}，当一致时为1.0，不一致时为-1.0。

说明：计算非常慢，有大量排序。

针对推荐系统中的数据集来讲，用Spearman 秩相关系数作为相似度量是不合适的。

1.5Tanimoto 系数（Tanimoto Coefficient）Tanimoto 系数也称为 Jaccard 系数，是 Cosine 相似度的扩展，也多用于计算文档数据的相似度：类名：TanimotoCoefficientSimilarity原理：又名广义Jaccard系数，是对Jaccard系数的扩展，等式为范围：[0,1]，完全重叠时为1，无重叠项时为0，越接近1说明越相似。

说明：处理无打分的偏好数据。

1.6对数似然相似度类名：LogLikelihoodSimilarity原理：重叠的个数，不重叠的个数，都没有的个数说明：处理无打分的偏好数据，比Tanimoto系数的计算方法更为智能。

1.7曼哈顿距离类名：CityBlockSimilarity原理：曼哈顿距离的实现，同欧式距离相似，都是用于多维数据空间距离的测度范围：[0,1]，同欧式距离一致，值越小，说明距离值越大，相似度越大。

说明：比欧式距离计算量少，性能相对高。

2各相似度计算方法优缺点分析2.1基于皮尔森相关性的相似度—Pearsoncorrelation-based similarity皮尔森相关系数反应了两个变量之间的线性相关程度，它的取值在[-1, 1]之间。

当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。

用数学公式表示，皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。

协方差（Covariance）：在概率论和统计学中用于衡量两个变量的总体误差。

如果两个变量的变化趋于一致，也就是说如果其中一个大于自身的期望值，另一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，则协方差为负值。

其中u表示X的期望E(X), v表示Y的期望E(Y)。

标准差（Standard Deviation）：方差(Variance)：在概率论和统计学中，一个随机变量的方差表述的是它的离散程度，也就是该变量与期望值的距离即方差等于误差的平方和的期望，基于皮尔森相关系数的相似度有两个缺点：(1) 没有考虑用户间重叠的评分项数量对相似度的影响；(2) 如果两个用户之间只有一个共同的评分项，相似度也不能被计算。

上表中，行表示用户（1～5）对项目（101～103）的一些评分值。

直观来看，User1和User5用3个共同的评分项，并且给出的评分值差也不大，按理他们之间的相似度应该比User1和User4之间的相似度要高，可是User1和User4有一个更高的相似度1。

例子：同样的场景在现实生活中也经常发生，比如两个用户共同观看了200部电影，虽然不一定给出相同或完全相近的评分，他们之间的相似度也应该比另一位只观看了2部相同电影的相似度高吧！但事实并不如此，如果对这两部电影，两个用户给出的相似度相同或很相近，通过皮尔森相关性计算出的相似度会明显大于观看了相同的200部电影的用户之间的相似度。

Mahout对基于皮尔森相关系数的相似度给出了实现，它依赖一个DataModel作为输入。

同时，Mahout还针对缺点(1)进行了优化，只需要在构造PearsonCorrelationSimilarity 时多传入一个Weighting.WEIGHTED参数，就能使有更多相同评分项目的用户之间的相似度更趋近于1或-1。

[java] ：1. UserSimilarity similarity1 = new PearsonCorrelationSimilarity(model);2. double value1 = erSimilarity(1, 4);3. double value2= erSimilarity(1, 5);4. UserSimilarity similarity2 = new PearsonCorrelationSimilarity(model,Weighting.WEIGHTED);5. double value3 = erSimilarity(1, 4);6. double value4 = erSimilarity(1, 5);结果：Similarity of User1 and User4:0.9999999999999998Similarity of User1 and User5: 0.944911182523068Similarity of User1 and User4 with weighting: 0.9999999999999999Similarity of User1 and User5 with weighting: 0.9862277956307672.2基于欧几里德距离的相似度——EuclideanDistance-based Similarity欧几里德距离计算相似度是所有相似度计算里面最简单、最易理解的方法。

它以经过人们一致评价的物品为坐标轴，然后将参与评价的人绘制到坐标系上，并计算他们彼此之间的直线距离。

图中用户A和用户B分别对项目X、Y进行了评分。

用户A对项目X的评分为1.8，对项目Y的评分为4，表示到坐标系中为坐标点A(1.8, 4)；同样用户B对项目X、Y的评分表示为坐标点B(4.5, 2.5)，因此他们之间的欧几里德距离（直线距离）为：计算出来的欧几里德距离是一个大于0的数，为了使其更能体现用户之间的相似度，可以把它规约到(0, 1]之间，具体做法为：1 / (1 + d)。

参见上表。

只要至少有一个共同评分项，就能用欧几里德距离计算相似度；如果没有共同评分项，那么欧几里德距离也就失去了作用。

其实照常理理解，如果没有共同评分项，那么意味着这两个用户或物品根本不相似。

2.3余弦相似度——Cosine Similarity余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。

相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。

与欧几里德距离类似，基于余弦相似度的计算方法也是把用户的喜好作为n-维坐标系中的一个点，通过连接这个点与坐标系的原点构成一条直线（向量），两个用户之间的相似度值就是两条直线（向量）间夹角的余弦值。

因为连接代表用户评分的点与原点的直线都会相交于原点，夹角越小代表两个用户越相似，夹角越大代表两个用户的相似度越小。

同时在三角系数中，角的余弦值是在[-1, 1]之间的，0度角的余弦值是1，180角的余弦值是-1。

借助三维坐标系来看下欧氏距离和余弦相似度的区别：从图上可以看出距离度量衡量的是空间各点间的绝对距离，跟各个点所在的位置坐标（即个体特征维度的数值）直接相关；而余弦相似度衡量的是空间向量的夹角，更加的是体现在方向上的差异，而不是位置。

如果保持A点的位置不变，B点朝原方向远离坐标轴原点，那么这个时候余弦相似度cos是保持不变的，因为夹角不变，而A、B两点的距离显然在发生改变，这就是欧氏距离和余弦相似度的不同之处。