一种基于深度学习的多源异构数据融合方法

合集下载

多源异构数据的推荐系统模型与算法

多源异构数据的推荐系统模型与算法

多源异构数据的推荐系统模型与算法随着互联网的发展,人们对个性化推荐系统的需求越来越高。

个性化推荐系统是一种根据用户的兴趣和需求,从众多信息中筛选出最相关和最有价值的信息,并向用户进行推荐的技术。

而多源异构数据是指来自不同数据源和不同类型数据的集合,包括文本、图像、音频、视频等。

如何有效地利用这些多源异构数据进行个性化推荐成为了一个重要而有挑战性的问题。

在传统的个性化推荐系统中,通常只利用了用户与物品之间的交互信息进行推荐。

这种方法存在一些问题,比如存在冷启动问题、无法充分挖掘用户和物品之间潜在关系等。

为了解决这些问题,并提高个性化推荐系统的效果,研究者们开始关注利用多源异构数据进行个性化推荐。

多源异构数据包含了更加丰富和全面的信息,可以更好地反映用户和物品之间复杂而丰富的关系。

例如,在电商网站中,可以利用商品描述文本、商品图片以及用户评论等信息进行个性化推荐;在音乐网站中,则可以利用歌曲的音频特征、歌曲的歌词、用户的听歌历史等信息进行个性化推荐。

利用多源异构数据进行个性化推荐可以更准确地理解用户的兴趣和需求,从而提供更有针对性和个性化的推荐结果。

为了利用多源异构数据进行个性化推荐,研究者们提出了一系列模型和算法。

其中,一种常用的方法是基于特征融合的模型。

这种方法将不同数据源中提取出来的特征进行融合,得到一个综合表示用户和物品之间关系的特征向量。

然后,通过计算用户与物品之间特征向量之间的相似度来进行推荐。

另一种常用方法是基于深度学习的模型。

深度学习是一种通过构建多层神经网络来学习数据表示和抽象特征的方法。

在多源异构数据中,可以利用深度学习模型对不同类型数据进行建模,并将不同类型数据融合在一起得到一个综合表示用户和物品关系信息的向量。

然后,通过计算这些向量之间相似度来进行推荐。

除了上述两种方法外,还有其他一些方法被提出来利用多源异构数据进行个性化推荐。

例如,基于图的推荐方法,该方法将用户和物品之间的关系建模为一个图结构,通过图上的路径和节点之间的关系来进行推荐。

数据特征融合经典方法_概述及解释说明

数据特征融合经典方法_概述及解释说明

数据特征融合经典方法概述及解释说明1. 引言1.1 概述在当前信息时代,数据的积累量呈指数级增长。

然而,这些海量的数据往往存在着高维度、复杂性和异构性等问题,对数据挖掘和分析带来了挑战。

为了充分利用这些宝贵的数据资源,并从中获取有意义的信息和洞察力,数据特征融合成为一种重要的技术手段。

1.2 文章结构本文将围绕数据特征融合经典方法展开讨论。

首先,在第2节中,我们将介绍几种常用的数据特征融合方法,包括方法A、方法B和方法C。

接下来,在第3节中,我们将对数据特征融合的概念进行解释,并讨论经典方法的优势与限制。

最后,在第4节中,我们将通过应用案例和实际效果评估来验证这些经典方法的实际应用价值。

最后一节则是对整篇文章进行总结,并展望未来数据特征融合研究的发展方向。

1.3 目的本文旨在系统地概述和解释数据特征融合经典方法,并深入探讨其在实际应用中的效果和局限性。

通过对这些方法的介绍和评估,我们希望能够增进对数据特征融合技术的理解,并为相关领域的研究和实践提供有益的指导和启示。

而对未来数据特征融合研究方向的展望,则可以引领更加创新和高效的数据分析方法的发展。

2. 数据特征融合经典方法:2.1 方法A:方法A是一种常用的数据特征融合方法。

它主要基于统计学原理,通过整合不同数据源的特征信息,来达到提高模型性能的目的。

该方法首先对待融合的数据进行探索性分析,了解不同特征之间的关系和重要程度。

然后,根据特征选择算法挑选出最具代表性和相关性的特征,并进行组合。

最后,采用适当的机器学习算法对整合后的特征进行建模与训练。

2.2 方法B:方法B是基于深度学习技术的数据特征融合方法。

它利用深度神经网络模型强大的拟合能力,能够从多个数据源中提取出高层次、抽象化的特征表示形式。

该方法首先构建深度神经网络结构,包括卷积神经网络(CNN)和循环神经网络(RNN)等,并将不同数据源输入到相应网络中进行训练。

然后,通过将各网络输出进行融合或级联操作得到最终预测结果。

融合多源异构数据的图卷积神经网络混合推荐模型

融合多源异构数据的图卷积神经网络混合推荐模型

第14卷㊀第2期Vol.14No.2㊀㊀智㊀能㊀计㊀算㊀机㊀与㊀应㊀用IntelligentComputerandApplications㊀㊀2024年2月㊀Feb.2024㊀㊀㊀㊀㊀㊀文章编号:2095-2163(2024)02-0001-08中图分类号:TP391文献标志码:A融合多源异构数据的图卷积神经网络混合推荐模型刘㊀铭,何利力,郑军红(浙江理工大学计算机科学与技术学院,杭州310018)摘㊀要:推荐系统可以让用户在海量数据环境下挑选出自己真正需要的内容,为更全面地反映用户个人偏好,提高推荐的准确度,本文提出一种融合多源异构数据和图卷积神经网络的混合推荐模型(MHDGCN)㊂该模型融合用户评分和评论等用户-项目交互数据,先将其转化为特征向量,然后将特征向量使用图卷积神经网络进行聚合和加权;接着采用Transformer重新分配聚合后的权重系数;最后将聚合后的特征向量优化相关参数得到推荐结果㊂经在真实数据集上的对比实验,MHDGCN在准确率㊁召回率㊁平均倒数排名(Mrr)㊁命中率和归一化折损累计增益(NDCG)5个指标上均优于基线方法,验证了模型的有效性,提升了推荐模型的推荐性能㊂关键词:多源异构;图卷积神经网络;Transformer;注意力机制;推荐算法Hybridrecommendationmodelbasedongraphconvolutionnetworkintegratingmulti-sourceheterogeneousdataLIUMing,HELili,ZHENGJunhong(SchoolofComputerScienceandTechnology,ZhejiangSci-TechUniversity,Hangzhou310018,China)Abstract:Therecommendationsystemallowsuserstopickoutwhattheyreallyneedinanenvironmentofmassivedata.Inordertofullyreflectthepersonalpreferencesofusersandimprovetheaccuracyofrecommendation,thispaperproposesahybridrecommendationmodel(MHDGCN)thatintegratesmulti-sourceheterogeneousdatabasedongraphconvolutionalneuralnetwork.Firstly,themodelintegratestheratings,commentsandsocialnetworkdynamicdataofusersandconvertsthemintofeaturevectors.Thefeaturevectorsareaggregatedandweightedusingthegraphconvolutionalneuralnetwork.Thentransformerisusedtoredistributetheaggregatedweightcoefficients.Finally,theaggregatedfeaturevectorsareoptimizedtoobtaintherecommendationresults.ComparisonexperimentsonrealdatasetsshowthatMHDGCNissuperiortothebaselinemethodinaccuracyrate,recallrate,Mrr,hitrateandNDCG,whichverifiestheeffectivenessofthemodel.Keywords:multi-sourceheterogeneous;GCN;Transformer;attentionmechanism;recommendationalgorithm基金项目:浙江省重点研发计划项目(2022C01238)㊂作者简介:刘㊀铭(1998-),男,硕士研究生,主要研究方向:软件工程技术;何利力(1966-),男,博士,教授,博士生导师,主要研究方向:智能软件系统与工程㊂通讯作者:郑军红(1978-),男,博士,讲师,主要研究方向:智能软件系统与工程㊂Email:zdzhengjh@sohu.com收稿日期:2023-02-240㊀引㊀言随着信息技术的快速迭代发展,信息过载问题日益严重[1]㊂传统的协同过滤推荐算法通过用户的历史行为交互和用户偏好进行推荐[2]㊂其中,矩阵分解[3]是最流行的一种协同过滤算法㊂该算法使用特征向量来表示用户和项目,将用户和项目投影到共享的潜在空间中,用户对项目的交互也被表示为其潜在向量的内积[4]㊂传统推荐算法基于其快速训练和快速部署的特性,在一定程度上可以解决信息过载问题,但无法很好地处理稀疏性大的数据,导致推荐准确性不理想等相关问题[5]㊂学者们为在一定程度上缓解数据稀疏性和提高推荐性能,基于图的方法被应用到推荐系统中[6]㊂图神经网络[7](GraphNeuralNetwork,GNN)中的图结构利用节点之间应用推理发现新的连接,从而提高推荐准确性和推荐项目多样性㊂Wang等[8]提出一种基于深度图卷积的用户-项目嵌入神经网络协同过滤算法(NGCF),其主要通过传播嵌入用户-项目的图结构,对用户-项目交互图中高阶连通性的表达建模,之后通过矩阵分解协同过滤框架完成推荐㊂He等[9]提出了一种名为LightGCN的推荐算法模型,其是一种基于深度图卷积的用户-项目嵌入神经网络协同过滤算法,是在NGCF上进行的优化和改进㊂通过消融实验,证明了在邻域聚合时自信息的多余,以及在损失函数方面进行了相关的优化㊂由以上可知,基于图神经网络的协同过滤推荐算法相比传统的卷积神经网络,能够在一定程度上缓解数据稀疏性和提高推荐性能㊂虽然基于GCN的模型能够有效提取节点之间的高阶信息,但因平滑问题而无法加大对特征提取的深度㊂为了进一步提高推荐性能和缓解数据的稀疏性问题,通过引入注意力机制[10],捕获用户-项目之间长距离的依赖关系,从而提高推荐性能和适应数据稀疏性的数据集㊂刘雨盺等[11]基于LightGCN进行改进,将层组合系数改为可学习的模型参数,利用注意力机制学习加权系数,进而优化目标节点的最终嵌入表示,提升最终的推荐效果㊂王巍等[12]提出GCACF算法,使用改进的图神经网络算法提取特征信息,并使用注意力机制重新分配特征信息的权重,提高了推荐性能㊂综上所述,在以上的模型中引入注意力机制有很好的效果,但是缺乏对用户的兴趣㊁评论等相关特征信息的使用㊂因此,本文提出一种融合多源异构数据和图卷积神经网络的混合动态推荐模型(Multi-sourceHeterogeneousDataGraphConvolutionNetworkDynamicModel,MHDGCN)㊂首先,该模型融合用户评分和评论等用户-项目交互数据,将其转化为特征向量,然后将特征向量使用图卷积神经网络进行聚合和加权,之后采用Transformer重新分配聚合后的权重系数,最后将聚合后的特征向量优化相关参数,得到推荐结果㊂1㊀MHDGCN模型MHDGCN模型需将初始的用户和项目相关信息转换为One-Hot编码㊂但One-Hot编码中的向量彼此正交,用户和项目彼此之间没有相似关系,需通过WordVec2模型[13],将One-Hot转化为低纬度的连续值,并将其中意思相近的词映射到向量空间相近的位置,然后使用图卷积神经网络对用户项目特征向量进行全特征迭代抽取相关信息,之后将图卷积得到的用户-项目矩阵通过Transformer进一步提取用户的偏好特征,将得到的用户-项目评分矩阵进行一个全连接,通过softmax得出预结果㊂MHDGCN模型主要由4个模块组成,模块1是数据预处理阶段,模块2是图卷积神经网络对数据特征聚合阶段,模块3是一种基于注意力机制的深度学习模型(Transformer)的编码器(Encoder)和解码器(Decoder),模块4是模型预测阶段㊂MHDGCN模型整体架构如图1所示㊂E n c o d e r E n c o d e r E n c o d e rE n c o d e r E n c o d e r E n c o d e rD e c o d e r D e c o d e r D e c o d e r D e c o d e r D e c o d e r D e c o d e r输出s o f t m a x 全连接T r a n s f o r m e rr (u ,i )e i 4*e u 1*e u 1(0)e u 1,e u 1,e u 1(1)(2)(3)e i 4,e i 4,e i 4(1)(2)(3)c o n c a t c o n c a t 归一化归一化ei 1ei 2ei 3i 1i 2i 3(l -1)(l -1)(l -1)u 1的邻居节点e u 0e ieu 2e u 3u 2u 3(l -1)(l -1)i 4的邻居节点L a y e r 1L a y e r 2L a y e r 3L a y e r 1L a y e r 2L a y e r 3(0)e i 4图1㊀MHDGCN模型结构Fig.1㊀StructureofMHDGCN2智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第14卷㊀1.1㊀数据预处理若有用户集合U={u1,u2, ,un}和商品集合I={i1,i2, ,im},n和m分别为用户和商品的总数,定义用户与商品的交互矩阵为EɪMmˑn,Eij={1,review},表示用户ui对商品ij发生了交互,并进行评论的内容㊂对交互矩阵E进行One-hot编码[14],再采用Word2vec的Skip-gram模型来获得稠密的连续特征向量㊂Skip-gram模型[15]本质上是计算输入向量与目标输出向量之间的余弦相似度,余弦相似度表示词语之间的关系,最后进行softmax归一化㊂其计算公式为pω0|ωi()=eU0㊃IiðjeUj㊃Ii(1)㊀㊀其中,Ii是Embedding层矩阵里的列向量,也是ωi的输入矢量;Uj是softmax层矩阵里的列向量,也就是ωi的输出矢量㊂将得到的稠密连续特征向量按照一定的维度产生e0u和e0i㊂其中,e0u表示初始用户特征向量,e0i表示初始商品特征向量㊂1.2㊀图卷积神经网络图卷积网络(GraphConvolutionalNetwork,GCN)的作用类似于卷积神经网络(ConvolutionalNeuralNetwork,CNN),但是GCN主要操作的对象是图数据㊂通过提取用户-商品交互的网络图的空间结构特征,每一个卷积层处理一阶邻域的特征信息,通过多层的卷积层实现多阶邻域的聚合,最终实现聚合各个节点的特征㊂这种聚合各个邻居节点特征的方式可以表示为e(k+1)u=AGG(e(k)u,{e(k)i:iɪNu})(2)式中:e(k)u表示第k层用户的嵌入,e(k)i表示第k层商家的嵌入,Nu表示用户与商家的关联集合㊂AGG[16]是一个抽象表示的聚合函数,是整个图卷积神经网络的核心部分,通过多层的图卷积层来实现多阶邻域的聚合,最终实现聚合各个节点的特征㊂在图卷积神经网络模型中采用优化后简单加权和聚合的方式,并选择再聚合时不与其本身相连接㊂这种用户-项目交互的图卷积可以用公式表示为:e(k+1)u=ðiɪNu1㊀Nu㊀Nie(k)i(3)e(k+1)i=ðiɪNi1㊀Ni㊀Nue(k)u(4)式中:e0()u㊁e0()i分别表示用户u和商品i的嵌入,Ni㊁Nu分别表示用户与商品的节点集,拉普拉斯范数1㊀Ni㊀Nu表示商家对用户偏好的贡献程度㊂在经过多次卷积之后,可以得到用户和商品的多个嵌入表示:eu=ðKk=01k+1e(k)u(5)ei=ðKk=01k+1e(k)i(6)式中:1k+1表示第k层嵌入聚合后嵌入表示的权重,需要通过学习而不断变化的参数,且1k+1ȡ0㊂1.3㊀Transformer神经网络Transformer由多层堆叠的Encoder和Decoder构成,且每层又包括多头注意力机制[17],以及残差神经网络和归一化㊂Transformer的模型如图2所示:用户-项目特征目标查询多头注意力残差连接归一化全连接归一化全连接残差连接归一化残差连接归一化多头注意力残差连接归一化多头注意力位置编码E n c o d e rN?N?D e c o d e r残差连接图2㊀Transformer模型结构Fig.2㊀Structureoftransformermodule㊀㊀自注意力机制主要是模仿生物视觉的显著性检测和选择性注意,建立长距离的依赖关系[18],解决卷积神经网络的局限性㊂因自注意力机制在对当前位置的信息进行编码时,会过度的将注意力集中于自身的位置,所以在此采用多头注意力机制可以生成更加准确的全局嵌入向量㊂3第2期刘铭,等:融合多源异构数据的图卷积神经网络混合推荐模型多头注意力机制将查询(Queue)㊁键(Key)和值(Value)分别进行不同的且经过训练的h(头的数量)次3个维度线性投影,然后将其拼接起来再次投影,得到最后的结果㊂多头注意机制的项目嵌入矩阵X=[x1,x2, ,xn]TɪRnˑd,xi为所有项目中第i个项目的嵌入向量,输出为Y=[y1,y2, ,yn]ɪRnˑd,yi为经过多头注意力机制新生成的第i个项目的嵌入向量㊂公式为:head=Attention(QWQi,KWKi,VWVi)(7)AttentionQ,K,V()=softmaxQKT㊀dæèçöø÷V(8)Y=Concat(head1, ,headh)Wo(9)㊀㊀其中,Q表示查询;K代表键;V代表值;WQi㊁WKi㊁WVi分别为3个维度的投影矩阵;Wo为权重矩阵㊂注意层直观的计算出所有值的加权和,其中查询i和j之间的权值与查询i与j之间的交互有关㊂缩放因子㊀d是为了避免内积过大,尤其是在维度较高的情况㊂每个解码器有两个多头注意力机制层,第一个多头注意力机制层采用了掩码[19]的操作,主要是为了遮盖当前位置之后的信息,确保当前位置的预测结果只取决于当前位置输出㊂第二个多头注意力机制层和编码器中相同,但是输入Q㊁K㊁V来源不同,K㊁V通过最后一层的输出计算得出,Q则是由第一个掩码注意力机制层的矩阵计算得出㊂1.4预测层将产生的所有用户和商品特征连接起来({u1t,,unt}表示用户特征㊁商家{i1t, ,int}表示商品特征),计算用户向量和商品向量的内积,得出推荐的分数㊂再使用softmax函数,对所有的推荐分数进行归一化,z^表示用户对商家的综合评分矩阵,得到最终预测评分应用于推荐列表(TOP-N)推荐,其公式如下:y^u,i=uTtit(10)z^=softmax(y^t)(11)1.5㊀模型学习本模型的任务是进行TOP-N推荐,为了学习模型参数,目标函数使用BPR损失函数,其计算公式为LBPR=ð(u,i,j)ɪo-lnσ(y^ui-y^uj)+λ θ 22(12)㊀㊀其中,o={(u,i,j)|(u.i)ɪR+,(u.j)ɪR-}表示成对的训练数据;R+表示用户已经交互的集合;R-表示未进行交互的集合;λ是L2正则化系数,防止过拟合㊂本文使用Adam优化器,更新模型参数㊂2㊀实验与分析2.1㊀实验环境代码在开源的深度学习框架Pytorch-1.5.1开发,底层为Python3.8.3,所用操作系统为Windows10㊂2.2㊀数据集本文使用的实验数据来自于亚马逊[20]公开数据集中较常用的Kindle_Store和Videos_Games数据集,数据集的统计见表1㊂表1㊀数据集Table1㊀Statisticsofdatasets数据集名称用户数物品数评论数稀疏度/%Kindle_Store682236193598261999.97Videos_Games243031067223178099.912.3㊀实验评价指标在实验中,使用召回率(Recall@N)㊁平均倒数排名(Mrr@N)㊁命中率(Hit@N)㊁归一化折损累计增益(NDCG@N)㊁准确率(Precision@N)5个指标来评估TOP-N推荐的性能㊂召回率是一种计算数据集中相关项目分数的方法,表示正确预测为正占全部正样本的比例,其计算公式为Recall@N=IuɘIrIr(13)㊀㊀平均倒数排名是计算由算法找到的第一个相关项在实际推荐列表中的排名,其计算公式为Mrr@N=1IrðuɪU1rank∗u(14)㊀㊀其中,rank∗u算法是为用户找到的第一个相关项的排名位置㊂命中率是计算每个用户在Top-k列表中属于测试集合的总数与测试集合的总数比,其计算公式为Hit@N=IuI(15)㊀㊀归一化折损累计增益是考虑每个商品实际的相关性与前后顺序,相当于不同的用户之间进行标准化,其计算公式为NDCG@N=ðpi=12reli-1log2i+1ð|REL|i=12reli-1log2i+1(16)4智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第14卷㊀㊀㊀其中,reli代表用户对i这个位置上的相关度;|REL|表示按照相关性从大到小进行排序的结果,取前P个结果组成的集合㊂准确率主要体现推荐算法所产生的推荐项目中用户感兴趣商家所占的百分比:Precision@N=IuɘIrI(17)2.4㊀基准算法及参数设置本次实验使用基准算法如下:(1)NGCF[8]是一种基于深度图卷积神经网络,主要通过传播嵌入用户-项目的图结构,对用户-项目交互图中高阶连通性的表达建模,之后通过矩阵分解协同过滤框架完成推荐㊂(2)LightGCN[9]在NGCF基础上进行优化和改进,是一种基于深度图卷积的用户-项目嵌入神经网络协同过滤算法㊂通过消融实验,证明了在邻域聚合时多余的自信息,以及进行了相关的优化后完成推荐㊂(3)LightGCN-s[11]基于LightGCN进行改进,将层组合系数改为可学习的模型参数,利用注意力机制学习加权系数,进而优化目标节点的嵌入表示,为后续的排名预测提供更加有效的嵌入向量,从而提升最终的推荐效果㊂(4)GCACF[12]使用改进的图神经网络算法提取特征信息,并使用注意力机制重新分配特征信息的权重,以此进行推荐㊂实验按照8ʒ1ʒ1的比例在用户维度上随机划分数据集来构建训练集㊁验证集和测试集;MHDGCN模型超参数的设置见表2㊂表2㊀模型的超参数设置Table2㊀Hyperparametersettings超参数名称参数值用户㊁项目嵌入维数64优化器Adam学习率0.001批处理大小256L2正则项系数1e-22.5㊀实验结果分析2.5.1㊀不同推荐算法比较为了评估MHDGCN模型的性能,在Amazon-Kindle_Store数据集进行实验,通过设置TOP-N模拟不同程度的稀疏数据场景,不同推荐算法在稀疏场景下的性能试验结果如图3 图7所示:0.450.400.350.300.250.200.150.101020304050推荐个数RecallrateN G C FL i g h t G C NL i g h t G C N-sG C A C FM H D G C N图3㊀召回率曲线Fig.3㊀Curveofrecallrate0.460.440.420.400.380.360.341020304050推荐个数MRRN G C FL i g h t G C NL i g h t G C N-sG C A C FM H D G C N图4㊀平均倒数排名曲线Fig.4㊀CurveofMRR0.950.900.850.800.750.700.650.601020304050推荐个数HitN G C FL i g h t G C NL i g h t G C N-sG C A C FM H D G C N图5㊀命中率曲线Fig.5㊀CurveofHitrate0.320.300.280.260.241020304050推荐个数NDCGN G C FL i g h t G C NL i g h t G C N-sG C A C FM H D G C N图6㊀归一化折损累计增益曲线Fig.6㊀CurveofNDCG5第2期刘铭,等:融合多源异构数据的图卷积神经网络混合推荐模型0.240.220.200.180.160.140.120.101020304050推荐个数P r e c i s i o nN G C FL i g h t G C N L i g h t G C N -s G C A C F M H D G C N图7㊀准确率曲线Fig.7㊀CurveofPrecision㊀㊀通过实验,统计了各算法在推荐个数为5㊁10㊁15㊁20㊁25㊁30㊁35㊁40㊁50时的实验结果㊂由图可以看出,MHDGCN与基准算法在召回率㊁命中率以及归一化折损累计增益指标与推荐项目个数成正比,与准确率成反比㊂加入注意力机制的LightGCN-s和GCACF的推荐性能明显好于LightGCN模型,说明引入注意力机制能在一定程度上提升模型的推荐性能㊂MHDGCN相比于几种基准算法在推荐性能指标Recall㊁MRR㊁Hit㊁NDCG㊁Precision上均有显著提升㊂为了验证模型的有效性,在参数不变的情况下,对Amazon-Videos_Games数据集进行实验,结果见表3㊂表3㊀Videos_Games实验结果Table3㊀ExperimentalresultsofVideos_Games模型指标N5101520253035404550NGCFRecall@N0.11300.17870.23060.27220.30900.33890.37200.39610.42160.4405MRR@N0.41090.42910.43410.43420.43800.43660.43400.42910.43450.4399Hit@N0.60950.74500.80850.85360.88240.90140.92100.93050.94070.9483NDCG@N0.25090.24390.24250.25440.26490.27230.27960.28970.29530.3040Precision@N0.21930.18060.15870.14020.13200.12180.11390.10890.10120.0984LightGCNRecall@N0.10510.17780.22850.26920.29820.33650.36520.39190.41640.4342MRR@N0.40690.42700.43240.43520.43620.43050.43400.42690.43200.4306Hit@N0.61680.74080.80040.84530.87630.88400.91700.92950.94060.9483NDCG@N0.24660.23550.24250.25370.26100.27020.27760.28790.29320.3009Precision@N0.21960.17850.15830.13930.13170.12110.11380.10890.10010.0986LightGCN-sRecall@N0.12510.19600.24850.29480.33310.36670.39340.42240.44630.4701MRR@N0.43580.45500.46030.45770.46130.46320.46310.46240.46520.4634Hit@N0.63860.76820.83560.87630.90430.92120.93440.94750.95730.9643NDCG@N0.27080.26340.26700.27400.28380.29300.30020.30900.31730.3247Precision@N0.23620.19320.16810.15120.13930.12950.12100.11440.10850.1036GCACFRecall@N0.14150.20070.25270.29790.33450.36780.39500.42390.44840.4723MRR@N0.43790.46110.46340.46570.46680.46830.46660.46830.46570.4643Hit@N0.64790.77750.84650.87780.90500.92330.93630.95100.95770.9666NDCG@N0.27080.26440.26960.27730.29260.30310.30310.31140.32600.3292Precision@N0.23380.19330.17030.15260.13590.13270.12100.11500.10970.1043MHDGCNRecall@N0.15760.22530.26230.31500.34760.37630.39770.42970.45210.4777MRR@N0.44060.46310.46440.47270.46830.46880.46880.46970.47160.4773Hit@N0.67940.79100.84720.88200.90800.92530.93570.95150.95860.9767NDCG@N0.27140.27140.27320.28070.29820.30960.31120.31900.33160.3366Precision@N0.24520.19950.17430.15650.14620.13800.12600.12050.11570.10976智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第14卷㊀㊀㊀通过两个数据集的实验对比可得出,在稀疏性较低的数据集中,所有推荐算法的性能都有一定的提升,由此可以得出数据的稀疏性越低,推荐性能越差㊂2.5.2㊀不同聚合阶数下的效果实验为了探究本模型在不同聚合阶数下对推荐性能的影响,分别在Kindle_Store和Videos_Games数据集上进行实验,同时使用Recall@5和Precision@5对不同阶数的模型影响,其他参数保持不变㊂根据表4可知,随着聚合阶数的增加,在两种数据集上的召回率和准确率都有一定的提升㊂表4㊀不同聚合阶数下对推荐性能的影响Table4㊀Effectsofdifferentpolymerizationordersonrecommendationperformance模型指标Kindle_Store1234Videos_Games1234MHDGCNRecall@50.12510.14370.14850.15080.12820.13600.14050.1433Precision@50.22100.22790.23380.23460.21140.21750.22150.22292.5.3㊀消融实验为了探究各个模块对于整体模型的影响,分别在Kindle_Store数据集下进行了去除评论等相关特征信息处理模块和去除Transformer模块两组实验㊂具体实验结果如图8所示:P r e c i s i o n@5 R e c a l l@5P r e c i s i o n@5 R e c a l l@500.050.100.150.200.2500.050.100.150.200.25㊀㊀(a)去除评论等相关信息处理模块㊀㊀㊀㊀㊀㊀㊀㊀(b)去除Transformer模块图8㊀消融实验对比Fig.8㊀Ablationexperiments㊀㊀实验结果表明,去除评论等相关特征信息处理模块的影响略小于Transformer模块,对整个模型的影响约为4.32%,而去除Transformer模块影响约为6.85%㊂由此可以看出,对于评论特征提取与Transformer模块对于实验的结果都十分重要㊂综上所述,本文提出的MDHGCN模型在各项指标上都优于其他算法,推荐结果更好㊂因此,加入用户行为及评论信息使推荐更为准确;且融合图卷积神经网络和Transformer得出的模型能够提高推荐算法性能㊂3㊀结束语MHDGCN是一种融合多源异构数据和图卷积神经网络的混合推荐模型,不仅能够基于用户评分㊁评论和社交网络动态数据,而且还能通过图卷积神经网络进行聚合和Transformer重新分配聚合后的权重系数进行深度挖掘用户和项目的信息,提高推荐算法性能㊂通过在真实数据集上进行对比实验,MHDGCN在准确率㊁召回率㊁Mrr㊁命中率和NDCG5个指标上均优于基线方法,验证了模型的有效性,能够在一定程度上缓解数据稀疏性问题,提升推荐模型的推荐质量㊂参考文献[1]WANGH,ZHAOM,XIEX,etal.Knowledgegraphconvolutionalnetworksforrecommendersystems[J].arXivpreprintarXiv:1905.04413v1,2019.[2]BAIT,WENJR,ZHANGJ,etal.Aneuralcollaborativefilteringmodelwithinteraction-basedneighborhood[C]//Proceedingsofthe2017ACMonConferenceonInformationandKnowledgeManagement.2017:1979-1982.[3]WANGX,JINH,ZHANGA,etal.Disentangledgraphcollaborative7第2期刘铭,等:融合多源异构数据的图卷积神经网络混合推荐模型filtering[C]//Proceedingsofthe43rdInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2020:1001-1010.[4]HEX,LIAOL,ZHANGH,etal.Neuralcollaborativefiltering[C]//Proceedingsofthe26thInternationalConferenceonWorldWideWeb.IEEE,2017:173-182.[5]CHICAIZAJ,VALDIVIEZO-DIAZP.Acomprehensivesurveyofknowledgegraph-basedrecommendersystems:Technologies,development,andcontributions[J].Information,2021,12(6):232.[6]王星凯,邓浩江,盛益强.基于深度学习的智能推荐系统综述[J].网络新媒体技术,2021,10(1):1-11,36.[7]KIPFTN,WELLINGM.Semi-supervisedclassificationwithgraphconvolutionalnetworks[J].arXivpreprintarXiv:1609.02907,2016.[8]WANGX,HEX,WANGM,etal.Neuralgraphcollaborativefiltering[C]//Proceedingsofthe42ndInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2019:165-174.[9]HEX,DENGK,WANGX,etal.LightGCN:Simplifyingandpoweringgraphconvolutionnetworkforrecommendation[C]//Proceedingsofthe43rdInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.IEEE,2020:639-648.[10]VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed[J].arXivpreprintarXiv:1706.03762,2017.[11]刘雨昕,陈春雨.基于图卷积神经网络的推荐算法[J].应用科技,2022,49(4):13-17.[12]王巍,杜雨晅,郑小丽,等.基于图卷积自注意力机制的神经协同推荐算法[J].计算机工程与应用,2023,59(13):247-258.[13]MIKOLOVT,CHENK,CORRADOG,etal.Efficientestimationofwordrepresentationsinvectorspace[J].arXivpreprintarXiv:1301.3781,2013.[14]CHENC,ZHANGM,LIUY,etal.Neuralattentionalratingregressionwithreview-levelexplanations[C]//Proceedingsofthe2018WorldWideWebConference.IEEE,2018:1583-1592.[15]MIKOLOVT,SUTSKEVERI,CHENK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[J].arXivpreprintarXiv:1310.4546,2013.[16]刘艺璇,孙英娟,李婉桦,等.基于图神经网络和LSTM的社交推荐算法[J].长春师范大学学报,2022,41(8):48-53.[17]马欣.基于Transformer的序列推荐研究[D].长春:长春师范大学,2022.[18]TAICY,WUMR,CHUYW,etal.Mvin:Learningmultiviewitemsforrecommendation[C]//Proceedingsofthe43rdInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2020:99-108.[19]ZHANGJ,SHIX,ZHAOS,etal.STAR-GCN:Stackedandreconstructedgraphconvolutionalnetworksforrecommendersystems[J].arXivpreprintarXiv:1905.13129,2019.[20]MCAULEYJ,LESKOVECJ.Hiddenfactorsandhiddentopics:understandingratingdimensionswithreviewtext[C]//Proceedingsofthe7thACMConferenceonRecommenderSystems.2013:165-172.8智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第14卷㊀。

基于多源异构数据的图像识别技术研究

基于多源异构数据的图像识别技术研究

基于多源异构数据的图像识别技术研究随着时代的发展,图像识别技术已经渐渐成为生活中不可缺少的一部分。

我们可以通过人脸识别功能解锁我们的手机、在社交媒体中使用自动标注功能识别我们的照片、在医学领域中使用影像技术识别病变等等。

然而,随着数据规模的不断扩大和数据种类的不断增多,传统的图像识别方法已经无法满足现在的需求。

基于多源异构数据的图像识别技术因此应运而生。

一、多源异构数据的概念多源异构数据是指来自不同来源、具有不同数据类型和格式、内容不完全相同的数据。

例如,来自不同医院的医学影像数据,由于拍摄设备的不同、图像采集参数的不同,使得这些数据具有异构性。

多源异构数据的处理存在以下三个方面的挑战:1. 数据量大。

由于数据来自不同源头,采集到的数据量可能很大,涉及到数据的处理和存储。

2. 格式和类型不同。

数据的编辑软件问题导致了异源数据的类型和格式上的不同。

3. 内容差异。

数据的来源不同,即使数据是同一类别的,也可能具有不同的含义、特征和属性。

在处理和分析数据时,必须充分考虑这些差异。

二、多源异构数据在图像识别中的应用多源异构数据的处理技术已经应用于图像识别领域。

通常涉及到采集、处理、融合和分析不同来源的数据。

比如,当多张不同来源的图片需要检索时,系统需要根据用户提供的关键词查询多张图片,通过融合多个数据库来提高匹配的准确性。

而基于多源异构数据的图像识别技术就能够很好地解决这个问题。

三、多源异构数据融合技术的应用多源异构数据融合技术是一种将来自多个数据源的异构数据整合在一起的技术。

通过将不同来源的数据进行有效融合,可以进一步提升图像识别系统的准确率。

常见的融合方式有以下几种:1. 特征级融合。

由于图像具有不同的特征,可以通过提取不同层次的特征进行融合。

比如,利用深度学习方法提取不同层次的卷积神经网络特征进行融合。

2. 决策级融合。

将不同的决策结果进行融合,可以通过加权平均、多数投票等不同方式进行融合。

3. 数据级融合。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种基于深度学习的多源异构数据融合方法随着互联网和物联网技术的发展,产生了大量的多源异构数据,如文本数据、图像数据、传感器数据等。

这些数据在不同的领域和应用中具有重要的作用,但其异构性和多源性也给数据融合带来了挑战。

深度学习作为一种强大的机器学习方法,具有自动学习特征表示和处理大规模数据的能力,因此被广泛应用于多源异构数据融合的研究中。

基于深度学习的多源异构数据融合方法主要包括以下几个关键步骤:特征提取、特征融合和决策分类。

首先,对于不同类型的数据,需要将其转化为深度学习模型能够处理的特征表示。

例如,对于文本数据,可以使用循环神经网络(RNN)或卷积神经网络(CNN)进行特征提取;对于图像数据,可以使用卷积神经网络进行特征提取;对于传感器数据,可以使用自编码器或注意力机制进行特征提取。

特征提取完成后,需要将不同类型的特征进行融合。

融合的方式包括级联融合、堆叠融合和并行融合等。

级联融合是将不同类型的特征连接成一个长向量,然后输入到深度学习模型进行训练;堆叠融合是将不同类型的特征输入到不同的深度学习模型中进行训练,然后将各个模型的输出进行融合;并行融合是将不同类型的特征输入到不同的深度学习模型中进行训练,并将各个模型的输出进行融合。

融合后的特征可以更全面地表达多源异构数据的特点。

最后,融合后的特征通过一个决策分类器进行分类或预测。

通常使用全连接层或softmax层等进行分类。

决策分类器的目标是学习出能够更准确地区分不同类别的决策边界。

除了上述基本步骤外,基于深度学习的多源异构数据融合方法还可以应用其他技术来增强融合效果。

例如,可以引入注意力机制来自动学习数据的重要性权重,从而更加关注重要的数据源;还可以利用迁移学习的方法,将在一个领域上学习到的知识迁移到另一个领域上,从而提高融合效果。

总之,基于深度学习的多源异构数据融合方法能够提供更全面和准确的数据描述,从而为各种领域和应用带来更好的性能和效果。

随着深度学习的不断发展和改进,相信这种方法将会得到更广泛的应用和进一步的研究。

相关文档
最新文档