相似度计算公式资料

合集下载

最长公共子串计算相似度公式

最长公共子串计算相似度公式
最长公共子串计算相似度公式是一种用于计算两个字符串相似度的方法，它基于最长公共子串的概念。

最长公共子串指的是两个字符串中相同的最长的子串，比如字符串“abcdxyz”和“xyzabcd”中的最长公共子串为“abcd”。

计算相似度的公式是：相似度 = (最长公共子串长度 * 2) / (两个字符串长度之和)。

其中，最长公共子串长度是指两个字符串中最长的公共子串的长度，而两个字符串长度之和则是指两个字符串长度的总和。

这个公式的意义在于，当两个字符串的最长公共子串越长时，它们的相似度就越高。

另外，由于这个公式使用了两个字符串长度之和作为分母，因此它能够在一定程度上抵消两个字符串长度差异对相似度计算的影响。

最长公共子串计算相似度公式常常被用于文本比对、搜索引擎等领域，它的实现也比较简单，只需要利用动态规划算法求出两个字符串的最长公共子串长度即可。

- 1 -。

余弦相似度计算公式

余弦相似度计算公式余弦相似度是一种常见的计算文本相似性的方法。

其原理是将文本中每个词分别表示成可以描述该文本内容的向量，再用余弦公式计算这两个向量之间的夹角余弦值，以期实现计算文本相似度的目标。

一、余弦相似度的定义余弦相似度（Cosine Similarity）是一种常用的文本相似度计算方法，它的概念很简单，给定两个n维向量，它通过以下公式计算出他们之间的相似程度：相似度 = Cos θ = A · B / ||A|| * ||B||其中：A、B 为两个n维的列向量；Cosθ表示两者之间的夹角余弦值；||A||、||B|| 表示A、B向量的模长。

二、余弦相似度的计算1、将文本中每个词分别提取出来，然后用TF-IDF算法进行词向量化，表示每个词在文本中的重要性。

2、用索引表示出每个文本的词，假设第一篇文本的词索引为A，第二篇文本的词索引为B，则形成两个m长度的向量，元素为各个词向量的模长。

3、用余弦公式计算两个向量之间夹角余弦值，表示文本之间的相似度。

Cos θ = (A·B)/(||A||*||B||)三、余弦相似度的应用1、余弦相似度主要用于文本检索和文本分类，可以用来计算文本之间的相似程度，用于比较文本语义、语义抽取和相似性判断；2、余弦相似度也可以计算图像之间的相似度，用于相似图像搜索；3、余弦相似度的结果可以用于互联网推荐系统，例如用户根据评论计算产品之间的相关性，给出产品推荐；4、余弦相似度还可以被用于协同过滤，例如针对用户之间的兴趣相似性，对用户在某产品上的行为提供建议；5、用余弦相似度进行搜索，可以减少人工干预或启发式搜索的时间和行为，从而使搜索获得更快的响应。

四、余弦相似度的优缺点优点：1、计算结果直观易懂，介于0-1之间；2、具有良好的稳定性和确定性，计算速度快；3、存在明确的表达式，使用简单；4、适合大规模文本数据分析；缺点：1、计算结果受语料库太小影响大；2、分析结果不但和文本相关，还和文本的大小相关；3、容易受到语义分布在不同文本中的影响；4、对分词的精度和同义词的处理敏感，对语义抽取难以理解。

三角形的相似公式

三角形的相似公式以三角形ABC和三角形DEF为例，如果它们的对应角度相等，则可以判断它们相似。

相似三角形的对应边长之比可以通过相似三角形的对应边的长度比来表示。

下面是三角形的相似公式及其证明：1.AA相似定理（角-角-相似定理）如果两个三角形的两个对应角相等，则这两个三角形相似。

具体可以表示为：∠A=∠D，∠B=∠E，则△ABC~△DEF。

证明：根据角的等量可知，∠A=∠D，∠B=∠E。

由于角度之和为180°，可推导出∠C=∠F。

所以，根据角-角-角相似性质，得出△ABC~△DEF。

2.SS相似定理（边-边-边相似定理）如果两个三角形的两对边之比相等，则这两个三角形相似。

具体可以表示为：AB/DE=BC/EF=AC/DF，则△ABC~△DEF。

证明：根据边的比例可知，AB/DE=BC/EF=AC/DF。

由于两个角之和也相等，即∠A=∠D，∠B=∠E。

所以，根据边-角-边相似性质，得出△ABC~△DEF。

3.SAS相似定理（边-角-边相似定理）如果两个三角形的一对相对应的边之比相等，并且这两个边之间的夹角也相等，则这两个三角形相似。

具体可以表示为：AB/DE=BC/EF，∠B=∠E，则△ABC~△DEF。

证明：根据边的比例可知，AB/DE=BC/EF。

由于两个夹角也相等，即∠B=∠E。

所以，根据边-角-边相似性质，得出△ABC~△DEF。

通过上述相似公式，我们可以判断两个三角形是否相似，以及计算两个相似三角形的对应边长比例。

对于给定的相似三角形，我们可以根据已知的边长比例求解未知边长，或者根据已知的边长计算出未知角度。

需要注意的是，相似三角形的边长比例只与角度有关，而与具体的边长无关。

所以，在判断两个三角形相似时，只需要比较它们的角度是否相等，而不必考虑具体的边长。

另外，相似三角形的角度相等是相似的必要条件，但不是充分条件。

也就是说，如果两个三角形的角度相等，它们不一定是相似的。

通过相似公式，我们可以更好地理解三角形的形状和性质，并在实际问题中应用。

余弦相似度公式与角度公式

余弦相似度公式与角度公式1. 余弦相似度公式余弦相似度是一种常用的相似度计算方法，它可以衡量两个向量之间的相似程度。

在自然语言处理、信息检索、推荐系统等领域中，余弦相似度被广泛应用。

余弦相似度公式如下：cosθ = A·B / (||A|| × ||B||)其中，A和B表示两个向量，A·B表示向量A和向量B的点积，||A||和||B||表示向量A和向量B的模长。

通过计算两个向量之间的余弦值，可以得到它们的相似度。

余弦相似度的取值范围在-1到1之间，数值越接近1表示两个向量越相似，数值越接近-1表示两个向量越不相似，数值接近0表示两个向量之间没有明显的相似性。

在自然语言处理中，可以将文本转换为向量表示，例如使用词袋模型或词向量模型。

然后，通过计算向量之间的余弦相似度，可以衡量文本之间的相似程度。

这在文本匹配、文本分类、搜索引擎等任务中具有重要的应用价值。

2. 角度公式在几何学中，角度是两条射线之间的夹角。

可以使用余弦公式来计算两条射线之间的角度。

余弦公式如下：cosθ = (A·B) / (||A|| × ||B||)其中，A和B表示两条射线，A·B表示两条射线的点积，||A||和||B||表示两条射线的长度。

通过计算两条射线之间的余弦值，可以得到它们之间的角度。

余弦值的取值范围在-1到1之间，当余弦值为1时，表示两条射线重合，夹角为0度；当余弦值为-1时，表示两条射线相反，夹角为180度。

在计算机图形学和计算机视觉中，角度公式常被用于计算物体之间的旋转角度、图像之间的相似度等。

通过计算角度，可以量化物体之间的差异或相似程度，进而应用于目标识别、图像检索等领域。

总结：余弦相似度公式和角度公式都是衡量相似度或角度的数学工具。

余弦相似度公式用于计算向量之间的相似度，可以应用于文本匹配、文本分类等领域；角度公式用于计算射线之间的角度，可以应用于物体旋转、图像相似度等领域。

相似度的计算

一．相似度的计算简介关于相似度的计算，现有的几种基本方法都是基于向量（Vector）的，其实也就是计算两个向量的距离，距离越近相似度越大。

在推荐的场景中，在用户 - 物品偏好的二维矩阵中，我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。

下面我们详细介绍几种常用的相似度计算方法：●皮尔逊相关系数（Pearson Correlation Coefficient）皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度，它的取值在 [-1，+1] 之间。

s x , sy是 x 和 y 的样品标准偏差。

类名：PearsonCorrelationSimilarity原理：用来反映两个变量线性相关程度的统计量范围：[-1,1]，绝对值越大，说明相关性越强，负相关对于推荐的意义小。

说明：1、不考虑重叠的数量；2、如果只有一项重叠，无法计算相似性（计算过程被除数有n-1）；3、如果重叠的值都相等，也无法计算相似性（标准差为0，做除数）。

该相似度并不是最好的选择，也不是最坏的选择，只是因为其容易理解，在早期研究中经常被提起。

使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。

Mahout中，为皮尔森相关计算提供了一个扩展，通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。

●欧几里德距离（Euclidean Distance）最初用于计算欧几里德空间中两个点的距离，假设 x，y 是 n 维空间的两个点，它们之间的欧几里德距离是：可以看出，当 n=2 时，欧几里德距离就是平面上两个点的距离。

当用欧几里德距离表示相似度，一般采用以下公式进行转换：距离越小，相似度越大。

类名：EuclideanDistanceSimilarity原理：利用欧式距离d定义的相似度s，s=1 / (1+d)。

相似度计算公式

相似度计算公式
相似度计算是一项基于计算的比较两个或多个实体之间差异的任务，它可以帮助人们更好地理解他们之间的关系。

一般来说，相似度
计算使用类似于标准化欧氏距离（Euclidean Distance）的特征比较
函数，即d（X，Y）= √（∑（Xi - Yi）2），其中X和Y分别表示两
个向量的特征向量，i表示特征的编号。

此外，也可以使用更复杂的基
于信息论的知识度量，如Jaccard系数、Sørensen–Dice系数和共现
矩阵。

通过计算向量的不同，人们可以创建出各种不同的特征差异指标，并把它们用于衡量文本、形象、音乐、视觉和其他内容之间的相
似性。

例如，人们可以计算文字内容之间的相似性，并计算其相似度指
标（例如，基于信息论的语义相似度），从而进行情感分析和句子相
似性的比较等。

此外，人们也可以通过图像处理的方法，计算形状、
色彩和细节等图像内容之间的相似度。

在音乐方面，相似度计算也可以用来计算不同演奏中音序（旋律）或音调（节奏）等内容之间的相似性。

这种计算可以帮助人们发现潜
在的关联，并对他们之间的联系进行定量分析。

总之，相似度计算是一种基于计算的技术，它可以帮助人们更好
地比较并理解不同实体之间的差异。

它可以使用标准的欧氏距离特征
比较函数，也可以使用更复杂的基于信息论的知识度量函数，例如Jaccard系数和Sørensen–Dice系数等，用于衡量不同文本、图像、
音乐或其他内容之间的相似性。

物品相似度计算

物品相似度计算
利用余弦定理公式计算物品间的相似度
1.余弦相似度原理：用向量空间中的两个向量夹角的余弦值作为衡量两个个体间差异大小的度量，值越接近1，就说明夹角角度越接近0°，也就是两个向量越相似。

用向量余弦公式简化为：
2.推导过程
向量a，b，夹角为θ：
做辅助线c：
余弦定理求cosθ：
如图，将这个模型放到二维坐标下：
那么构建出来的三角形三条边的边长分别为（勾股定理）：
把a,b,c代入余弦定理公式，计算过程如下：
由于：
所以：
上述公式是在二维坐标中进行推导的，如果拓展到n维坐标，这个公式会写成：
3. 实际运用
现在假设：
A用户喜欢a,b,d；B用户喜欢b,c,e；C用户喜欢c,d；D用户喜欢b,c,d；E用户喜欢a,d
建立物品-用户的倒排表，列出每个物品都被哪些用户喜欢，其中“1”表示喜欢，“2”表示不喜欢。

利用前面说到的余弦定理公式计算两个物品间的相似度。

例如：将物品a和b分别看作是多维空间中的两个向量，则有：a（1,0,0,0,1）；b（1,1,0,1,0），所以物品a和物品b的相似度为：
4.总结
至此，我们已经完成了利用余弦定理公式计算物品间的相似度。

不过由于生产环境中的用户量和物品量都肯定不只有5个，当我们的数据量非常庞大时，这种计算方法就会显得非常吃力。

三角形的相似公式

三角形的相似公式
三角形的相似公式是指在两个相似的三角形中，它们各个对应边的长度之比相等。

也就是说，如果有两个相似的三角形，它们的对应边分别为a，b，c和a'，b'，c'，则有以下三个相似公式：
1. a/a' = b/b' = c/c' （对应边比例相等）
2. a/b = a'/b'，b/c = b'/c'，a/c = a'/c' （对应边比例相等）
3. (a+b)/c = (a'+b')/c' （两个三角形的两个相邻边之和的比例相等）
这些公式在三角形的相似性质中非常重要，可用于解决许多几何问题，如求未知边长或角度等。

同时，由于三角形的相似性质与三角函数的关系密切，它们也有着广泛的应用价值。

- 1 -。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

相似度计算
在数据挖掘中经常需要用到比较两个东西的相似度。

比如搜索引擎要避免非常相似的文档出现在结果的前几页，再比如很多网站上都有的“查找与你口味相似的用户”、“你可能喜欢什么什么”之类的功能。

后者其实是很大的一块叫做“协同过滤”的研究领域，留待以后详谈。

首先我们定义两个集合S,T的Jaccard相似度: Sim(S,T) = |S,T的交集| / |S,T的并集|。

直观上就容易感觉出这是一个很简单而且比较合理的度量，我不清楚有没有什么理论上的分析，在此省略。

下面先主要说一下文档的相似度。

如果是判断两个文档是否完全相同，问题就变得很简单，只要简单地逐字符比较即可。

这里有一个叫做Shingling的方法，其实说起来很圡，就是把每相邻的k个字符作为一个元素，这样整篇文档就变成了一个集合。

比如文档是"banana"，若k=2，转化以后得到集合为{"ba","an","na"}，于是又变成了前述集合相似度的问题。

关于k值的设置，显然过小或过大都不合适，据说比较短的比如email之类可以设k=5，比如长的文章如论文之类可以设k=9。

当然，这是一个看上去就很粗糙的算法，这里的相似度比较只是字符意义上的，如果想进行语义上的比较就不能这么简单了（我觉得肯定有一摞摞的paper在研究这个）。

不过同样可以想见的是，在实际中这个粗糙算法肯定表现得不坏，速度上更是远优于复杂的NLP方法。

在实际工程中，必然糙快猛才是王道。

有一点值得注意的是，Shingling方法里的k值比较大时，可以对每个片段进行一次hash。

比如k=9，我们可以把每个9字节的片段hash成一个32bit的整数。

这样既节省了空间又简化了相等的判断。

这样两步的方法和4-shingling占用空间相同，但是会有更好的效果。

因为字符的分布不是均匀的，在4-shingling中实际上大量的4字母组合没有出现过，而如果是9-shingling再hash成4个字节就会均匀得多。

在有些情况下我们需要用压缩的方式表示集合，但是仍然希望能够（近似）计算出集合之间的相似度，此时可用下面的Minhashing方法。

首先把问题抽象一下，用矩阵的每一列表示一个集合，矩阵的行表示集合中所有可能的元素。

若集合c包含元素r，则矩阵中c列r行的元素为1，否则为0。

这个矩阵叫做特征矩阵，往往是很稀疏的。

以下设此矩阵有R行C列。

所谓minhash是指把一个集合（即特征矩阵的一列）映射为一个0..R-1之间的值。

具体方法是，以等概率随机抽取一个0..R-1的排列，依此排列查找第一次出现1的行。

例如有集合S1={a,d}, S2={c}, S3 = {b,d,e}, S4 = {a,c,d}，特征矩阵即如下S1 S2 S3 S4
0a 1 0 0 1
1b 0 0 1 0
2c 0 1 0 1
3d 1 0 1 1
4e 0 0 1 0
设随机排列为43201(edcab)，按edcab的顺序查看S1列，发现第一次出现1的行是d(即第3行)，所以h(S1) = 3，同理有h(S2)=2, h(S3)=4, h(S4)=3。

此处有一重要而神奇的结论：对于等概率的随机排列，两个集合的minhash值相同的概率等于两个集合的Jaccard相似度。

证明：同一行的两个元素的情况有三种：X.两者都为1；Y.一个1一个0；Z.两者都为0。

易知Jaccard相似度为|X|/(|X|+|Y|)。

另一方面，若排列是等概率的，则第一个出现的X中元素出现在Y中元素之前的概率也为|X|/(|X|+|Y|)，而只有这种情况下两集合的minhash值相同。

于是方法就有了，我们多次抽取随机排列得到n个minhash函数h1,h2,…,hn，依此对每一列都计算n个minhash值。

对于两个集合，看看n个值里面对应相等的比例，即可估计出两集合的Jaccard相似度。

可以把每个集合的n个minhash值列为一列，得到一个n行C列的签名矩阵。

因为n可远小于R，这样我们就把集合压缩表示了，并且仍能近似计算出相似度。

在具体的计算中，可以不用真正生成随机排列，只要有一个hash函数从[0..R-1]映射到[0..R-1]即可。

因为R是很大的，即使偶尔存在多个值映射为同一值也没大的影响。

--------------------------------------------------------------------------------------------------
如果有N个集合，求它们之间两两的相似度就需要N*(N-1)/2次计算，当N很大时这个代价仍然承受
不起。

于是我们需要一种方法能够不遍历所有可能的元素对就找出相似度较大的那些（大于某个给定的阈值t），这就是所谓Locality-Sensitive Hashing。

第三章的后半部分基本全是围绕这一话题展开的。

这里又要出现一个比较神奇的方法了：由上篇文章所述，对每一列c（即每个集合）我们都计算出了n行minhash值，我们把这n个值均分成b组，每组包含相邻的r=n/b行。

对于每一列，把其每组的r个数都算一个hash值出来，把此列的编号记录到hash值对应的bucket里。

如果两列被放到了同一个bucket里，说明它们至少有一组(r个)数的hash值相同，此时可认为它们有较大可能相似度较高（称为一对candidate）。

最后在比较时只对落在同一个bucket里的集合两两计算，而不是全部的两两比较。

下面进行一点理论上的分析。

如果两个集合被放到一个桶里，说明它们至少有一组minhash值是相同的。

设两个元素的一次minhash值相同的概率是s（就是那个Jaccard 相似度），那么一组全相同的概率是s^r，则b组中至少有一组相同的概率为
1-(1-s^r)^b。

如果b和r固定，那么此概率与s值形成的曲线是一个S型。

S型斜率最高的点大约在(1/b)^(1/r)处。

可以发现这个算法只能得到近似的结果，有可能两个相似度大于阈值t的集合没有被放到一个桶里，于是就漏掉了；另外也可能相似度小于t的集合被放到了一个桶里，造成了无效的计算。

我们希望这两种错误都尽可能地小。

形式化一点就是，我们定义一种函
数(Locality-Sensitive Function, LSF)，它把一个集合映射为一个值，如果两个集合映射到的值相同，就认为他们有可能相似度较高。

这个函数的好坏可以用一个四元组(d1,d2,p1,p2)表示，意思是说，如果两集合的距离（此处我们把距离定义为1减去Jaccard相似度）小于d1，则它们至少有p1的概率映射为同一个值；如果两集合的距离大于d2，则它们至多有p2的概率映射为同一个值。

可以发现对于同样的一对(d1,d2)，p1越大p2越小，那么这个函数的效果就越好。

对于上述minhash的例子，如果只用一次minhash值作为LSF，那么它是
(d1,d2,1-d1,1-d2)-sensitive，此时其实那个S-曲线是一条直线。

比如令d1=0.2,
d2=0.6，它就是(0.2, 0.6, 0.8, 0.4)。

而如果我们用4组每组4个minhash值按上述方法计算，那么它是(0.2, 0.6, 0.8785, 0.0985)，可以发现p1变大而p2变小了。

在极端情况下，如果b和r都很大，那个S曲线将近似成为一个分段函数，一开始的时候几乎一直是0，突然极快地跳到接近1，这时效果是非常好的，但是需要大量的minhash 值计算。

另外，这里对于LSH的讨论实际上是很一般化的，待比较的东西不一定是集合，“距离”的定义不一定非和Jaccard相似度有关，LSF函数也不一定和minhash算法有关。

比如可以定义01串的hamming距离，或者欧氏空间中的点的距离等等。

对于hamming距离，LSF可定义为随机取一个二进制位看其是否相同，那么对于两个长度为L，Hamming距离为d的串，相同的概率就是d/L，所以是(d1,d2,1-d1/L,1-d2/L)-sensitive，此时同样可以用多次取值的方法进行加强。

对于欧氏空间的点，情况比较复杂，书上给了一个二维空间的例子，方法是随机取一条直线并将其划分成固定长度的小段，将两个点映射到这条线上，看其是否落入同一个小段内。

也可以推出一个四元组的结果，不过推导比较麻烦，在此略过.。