基于地理位置时间序列的相似性研究

电子设计工程

ElectronicDesign Engineering

第25卷Vol.25第8期No.82017年4月Apr.2017

收稿日期:2016-03-15

稿件编号:201603187

作者简介:彭艳兵(1974—),男,江苏南京人,博士,高级工程师。研究方向:网络行为分析,海量数据挖掘。

在数据挖掘和自然语言处理中一个重要的计

算就是相似度计算,相似度常用于衡量研究对象之间的密切程度。相似度的计算过程主要分为3个部分,研究对象的特征选择、特征的向量化和选择合适的相似度算法。在不同的应用场景,算法常受限于数据规模、时间效率等,相似度的算法选择又会有所区别和不同。下面介绍几种相似度的计算方法。

向量空间模型(Vector Space Model )是应用最广泛的一个相似度计算模型,在该模型中,每个研究对象被映射为一个特征向量,通过计算特征向量之间的欧式距离或余弦值[1-3]作为判断相似性的依据。向量空间模型在许多应用中起着至关重要的作用,也是很多扩展算法[4-7]的基础。

基于Hash的相似度计算方法,是一种基于概率的降维方法,主要用于大规模数据的压缩与实时计算场景下。该方法将原始信息不可存储与计算的问题转化为映射空间的可存储计算问题,例如,Google 的网页去重[8],Google News 的协同过滤[9]等都是采用

Hash方法进行近似相似度的计算。一些常用的基于Hash的计算方法还包括I-match算法、Shingling 算法、Locality-Sensitive Hashing [10]族等算法。

基于主题相似度的词袋模型(Bag-of-Words ),

词袋模型的研究对象的特征必须独立,按照特征向量的匹配情况来度量研究对象之间的相似度,常用的主题分析方法包括Latent SemanticAnalysis

基于地理位置时间序列的相似性研究

彭艳兵1,姚伟烈2,刘卫江2

(1.烽火通信科技股份有限公司南京研发部江苏南京210019;2.大连海事大学辽宁大连116026)摘要:位置时间序列常被应用到不同的研究领域,具有很高的商业价值。本文通过计算位置时间序列的余弦相似度找到确定与其近似的位置时间序列。同时针对余弦相似度在计算位置时间序列相似性出现的偏差,提出了一种余弦相似度的改进方法(单侧相似度)。单侧相似度给出了不同位置时间序列的包含关系,这种关系是余弦相似度的进一步解释,可以用来衡量不同研究对象之间的包含程度。通过实验,证明了单侧相似度更适合描述位置时间序列的相似性。关键词:上网习惯;位置时间序列;位置权重;余弦相似度;单侧相似度中图分类号:TN0

文献标识码:A

文章编号:1674-6236(2017)08-0037-04

Research on similarity based on location time series

PENG Yan -bing 1,YAO Wei -lie 2,LIU Wei -jiang 2

(1.Nanjing Research and Development Department ,FiberHome Communication Technology Co.Ltd.,

Nanjing 210019,China ;2.Dalian Maritime University ,Dalian 116026,China )

Abstract:Position time series are often used in different researchfields ,and have highcommercial value.By calculating and comparing the similarity of position time series ,we can find the approximate position time series.For the deviation appears in similarity calculation of position time series by cosine similarity ,an improved method (unilateral similarity )was proposed based on cosine similarity.Unilateral similarity given a containment relationship between different position time series ,this relationship is further explained cosine similarity ,whichis used to measure the containment relationship between different researchobject.The experimental results show that the unilateral similarity is more suitable for describing the similarity of position time series.

Key words:surfing habits ;position time series ;position weight ;cosine similarity ;unilateral similarity -37-

万方数据

相关主题
相关文档
最新文档