基于随机游走模型的关键词推荐算法_郭世龙

合集下载

基于概率分类模型的个性化推荐算法研究

基于概率分类模型的个性化推荐算法研究

失。

发掘用户的兴趣正是个性化推荐力求解决的问题。

第五,提高用户忠实度。

信息提供者要体现自己的价值,必须将自己的信息尽量多地展示给用户。

因此,用户数量是衡量一个互联网应用成功与否的重要指标。

另外一个重要指标是用户忠实度,用户忠实度高,用户粘性大,用户才不容易流失,而个性化推荐系统能够更好的跟踪用户的兴趣爱好,当用户使用一段时间后,为用户推荐的对象更加迎合用户的喜好,有助于提高用户忠实度。

如今,由于推荐系统能够针对用户的兴趣特征,为他提供个性化服务,从而提高用户使用体验,增加用户粘性,因此个性化推荐系统得到了广泛的应用。

然而,我们也将看到,个性化推荐系统的应用仍然面临很多挑战,为了能够更加准确的抓住用户的兴趣,为用户提供更好的个性化服务,对推荐算法、推荐系统结构及其实现的研究具有很高的实际价值。

1.2个性化推荐系统应用及研究现状1.2.1应用现状个性化推荐系统在向用户提供推荐的时候,必须获得用户的历史行为数据来建立用户兴趣模型,因此一般作为一个应用组件嵌入到网络应用中。

现在,推荐系统常应用于电商、影视推荐、阅读、基于位置的服务(LBS)等领域。

一,电子商务。

在电子商务领域,亚马逊在个性化推荐领域是当之无愧的王者。

亚马逊商城拥有最复杂的个性化推荐系统。

当用户使用该网站提供的服务的时候,网站会记录下用户购买、浏览、评价等用户行为数据。

然后通过分析这些行为数据,为用户展示个性化商品推荐列表和相关商品列表。

亚马逊的个性化推荐算法使用其2001年开发的Item-based协同过滤算法[1],该算法向用户推荐其以前有过正反馈(购买过,好评过等)的商品的相似商品。

国内的电子商务网站比如淘宝、京东、当当等无一例外的都向用户提供个性化推荐服务。

二,电影与视频。

在线视频网站Netflix也相当重视个性化推荐系统在其网站上的应用,当用户登录其网站的时候,网站会根据用户以前观看过的电影给用户推荐其可能感兴趣的电影。

除了Netflix,Youtube也在他们的网站上使用了个性化推荐系统,Youtube在其发表的论文[2]中表示他们也是用了Item-based协同过滤算法。

推荐系统中的随机游走问题研究与改进

推荐系统中的随机游走问题研究与改进

推荐系统中的随机游走问题研究与改进引言随着互联网的快速发展,人们在获取信息时面临着过载的问题。

在这个信息爆炸的时代,推荐系统成为解决这一问题的关键技术之一。

推荐系统通过分析用户的历史行为数据,提供个性化的推荐,从而帮助用户快速找到他们感兴趣的内容。

而在推荐系统中,随机游走问题被广泛应用于用户兴趣建模和推荐算法的优化等方面。

本文将从随机游走问题在推荐系统中的应用、存在的问题以及改进方向等方面进行探讨。

一、随机游走在推荐系统中的应用1. 用户兴趣建模在推荐系统中,用户兴趣建模是一个关键问题。

通过分析用户的历史行为数据,可以构建用户兴趣图谱,从而更好地了解用户的兴趣和需求。

随机游走是一种常用的建模方法,它通过模拟用户在兴趣图谱中的行为,获取用户的兴趣分布。

通过分析用户的兴趣分布,能够更准确地为用户推荐感兴趣的内容,提升推荐的效果。

2. 推荐算法优化推荐算法是推荐系统的核心。

随机游走被广泛应用于推荐算法的优化中。

在传统的协同过滤算法中,通过计算用户之间的相似度,再根据相似用户的行为进行推荐。

然而,这种方法存在冷启动问题和数据稀疏性问题。

随机游走通过模拟用户在兴趣图谱中的行为,可以找到更多潜在的兴趣节点,从而解决了冷启动问题和数据稀疏性问题。

二、随机游走问题在推荐系统中存在的问题1. 采样偏差在推荐系统中,随机游走的采样过程需要考虑节点的采样概率,从而保证采样的均匀性。

然而,传统的随机游走方法存在采样偏差问题,即有些节点被频繁地访问,而其他节点却很少被访问。

这种采样偏差会导致推荐结果的不公平性和不准确性。

2. 节点嵌入表示缺乏语义传统的随机游走方法中,节点的嵌入表示是通过随机游走过程中的节点访问顺序来获得的。

然而,这种表示方法缺乏语义相关性,无法描述节点之间的语义关系,从而影响推荐效果。

三、随机游走问题的改进方向1. 采样概率调整为了解决采样偏差问题,可以引入采样概率调整的方法。

通过分析节点的属性特征和边的权重信息,可以给节点分配合适的采样概率,从而保证采样的均匀性。

产品推荐中的基于基于内容的推荐算法优化研究

产品推荐中的基于基于内容的推荐算法优化研究

产品推荐中的基于基于内容的推荐算法优化研究随着互联网的迅猛发展,电子商务平台已经成为人们购物的主要途径,而产品推荐作为提高用户购买体验的重要手段,得到了广泛的应用和研究。

其中,基于内容的推荐算法在产品推荐中起到了关键的作用。

本文将从理论角度探讨基于内容的推荐算法的优化研究,以提高推荐准确度和用户满意度。

基于内容的推荐算法是根据用户的历史行为和喜好,分析商品的属性和特征,为用户推荐相似的商品。

然而,由于商品的属性和特征是多变的,传统的基于内容的推荐算法往往只能提供相对简单的推荐结果,无法满足用户的个性化需求。

因此,优化基于内容的推荐算法是保证推荐准确度和用户满意度的关键。

首先,可以通过引入深度学习技术来优化基于内容的推荐算法。

深度学习是一种模仿人脑神经网络结构和工作方式的机器学习方法,可以自动地从大规模数据中提取特征和模式。

在推荐系统中,可以使用深度学习方法来提取商品的高阶语义特征,从而提高推荐准确度。

例如,可以利用卷积神经网络(CNN)和循环神经网络(RNN)来对商品的图片和评论进行特征提取,以获取更加丰富和准确的商品描述信息。

其次,可以通过引入用户兴趣演化模型来优化基于内容的推荐算法。

用户的兴趣是时刻在变化的,因此,推荐系统应该能够识别和追踪用户的兴趣演化过程。

为此,可以利用隐马尔可夫模型(HMM)或马尔可夫链(Markov Chain)等模型来建立用户的兴趣演化模型,以预测用户未来的兴趣偏好。

通过将用户的兴趣演化模型与基于内容的推荐算法相结合,可以根据用户的历史行为和喜好,为其推荐更加准确和个性化的商品。

此外,还可以通过引入社交网络信息来优化基于内容的推荐算法。

社交网络已成为人们获取信息和交流的主要渠道,其中包含了大量与用户相关的信息。

可以通过挖掘用户在社交网络中的关系和行为,获取更加准确和全面的用户特征。

例如,可以利用用户在社交网络中的好友关系和点赞行为,来推断用户的兴趣和偏好,并为其推荐相关的商品。

基于主题分组与随机游走的App推荐算法

基于主题分组与随机游走的App推荐算法
为了进一步反映在同一类别内部不同 App的偏好,本文 构造了用户App组App三部图,并通过随机游走来获得推荐 列表,该方法(topicgroupingandrandom walkbasedrecommen dationalgorithm,TGRW)结合了主题分组和随机游走,使得 App 推荐更加具有针对性。
因而,按照类别来刻画用户的偏好,一方面可以克服数据 稀疏的问题,另一方面,也将使推荐具有针对性。对 App分类 可以采用不同 的 方 法。 LDA主 题 模 型,是 隐 语 义 分 析 的 一 种 重要方法。该模型主要用于挖掘文本中隐含的主题分布,在基 于文本内容的推荐中得到广泛应用,由于 App通常有一些介 绍性的文字描述,所以利用该模型可以实现对 App分类。
摘 要:近年来,App的数量呈爆炸式地增长,在庞大数量的手机 App中找到合适的 App给用户带来了困难。 传统的推荐系统方法运用到 App推荐上时有很多的局限性,如难以解决冷启动和用户对不同类别的应用具有不 同的选择偏好等问题。提出了一种基于主题分组和随机游走的个性化推荐算法 TGRW。TGRW 针对用户对每 类 App需要的数量、偏好的程度各不一样的特点,根据用户的 App使用记录,构造了 userApp组App的三元图模 型,通过对不同的用户在不同的推荐组上设置不同的权重,再利用随机游走算法计算出用户对每个 App的偏好概 率,从而形成推荐列表。在真实用户数据集上的实验表明,该方法比其他方法在推荐效果上得到了明显提升。 关键词:手机应用;主题模型;随机游走 中图分类号:TP3016 文献标志码:A 文章编号:10013695(2018)08227704 doi:10.3969/j.issn.10013695.2018.08.009
传统的推荐算法如基于用户的协同过滤、基于物品的协同 过滤、矩阵分解等可以运用到 App推荐上。但是,这些方法在 应用时将遇到以下问题:

基于深度学习的搜索引擎关键词推荐算法研究

基于深度学习的搜索引擎关键词推荐算法研究

基于深度学习的搜索引擎关键词推荐算法研究深度学习技术在计算机应用的许多领域都取得了巨大的成功。

其中,搜索引擎是一个最直接受益的领域,因为深度学习技术可以很好地解决搜索引擎中的关键词推荐问题。

这不仅可以提高搜索引擎的搜索质量,还可以提高用户体验。

在本文中,我们将探讨基于深度学习的搜索引擎关键词推荐算法。

一、搜索引擎关键词推荐算法概述搜索引擎用户通常会输入几个关键词来表达他们的搜索意图,但有些用户可能只输入一个或两个关键词,或者输入的关键词不够明确,需要更多的关键词来精确描述搜索意图。

因此,搜索引擎提供关键词推荐功能,这个功能会根据用户当前的搜索历史记录或者搜索习惯,给用户推荐一些关键词。

关键词推荐功能比较常见的方法是,给用户推荐与他们当前搜索的问题相关的一些关键词或热门搜索词。

这种方法的问题在于不能够个性化推荐,如果用户的搜索历史或习惯与大多数人不一样,那么推荐的关键词可能与用户的搜索意图不符。

基于深度学习的关键词推荐算法可以很好地解决这个问题。

这种方法根据用户的历史搜索记录和其他信息,构建一个用户模型,然后使用这个模型来预测用户可能感兴趣的关键词。

二、基于深度学习的关键词推荐算法详解基于深度学习的算法通常需要处理大规模的数据集,这些数据集中包含了大量的搜索记录。

这些搜索记录通常都是由文本组成的,因此自然语言处理技术是这种算法的重要组成部分。

在基于深度学习的关键词推荐算法中,我们可以使用深度神经网络来构建用户模型。

这个模型可以由多个层次组成,每个层次都包含多个神经元。

模型的输入通常是一个文本序列,每个单词可以由一个向量表示。

这些单词向量可以由词嵌入技术生成,词嵌入技术可以将每个单词映射到一个低维向量空间中。

模型的输出通常是一个关键词或相关关键词列表。

模型的训练过程中,我们需要给模型提供大量的输入输出样例,这些样例可以由用户历史搜索记录和热门搜索词组成。

模型可以使用梯度下降算法来优化训练误差,使得模型的预测结果能够尽可能地接近实际结果。

基于用户影响力游走模型的社会化推荐算法

基于用户影响力游走模型的社会化推荐算法

基于用户影响力游走模型的社会化推荐算法柳玲;马艺;文俊浩;王喜宾【摘要】社会化推荐在一定程度上缓解了推荐中的数据稀疏性问题,但是通常仅考虑了社交网络中用户间的局部影响关系.综合考虑用户的局部影响力和全局影响力,提出了基于用户影响力游走模型的社会化推荐算法,该算法根据用户信任关系和历史行为分析用户的局部影响力,通过评估用户的评分质量研究用户的全局影响力,然后将二者有机结合计算随机游走模型中各节点之间的转移概率.通过与以往的算法在均方根误差、覆盖率和F-Measure等指标的实验结果表明,提出的算法在一定程度上提高了推荐的性能.%Social recommendation alleviates the data sparse problem in recommendation to some extent, while it usually only involves the local influence between neighbors. Taking full account of local and global influence, this paper proposes a social recommendation algorithm based on a user influence walk model. The algorithm first calculates the local influence based on neighbors'trust relations and users'historic behaviors, and explores the global influence by measuring users' quality of rating. Then, exploit local and global influence together to compute the transition probability between each node in the random walk model. A lot of experiments is done based on RMSE(Root Mean Squared Error), coverage rate and F-Measure, the results show that the proposed algorithm improves performance for recommendation in some degree.【期刊名称】《计算机工程与应用》【年(卷),期】2017(000)010【总页数】7页(P61-67)【关键词】局部影响力;全局影响力;随机游走模型;社会化推荐;协同过滤【作者】柳玲;马艺;文俊浩;王喜宾【作者单位】重庆大学软件学院,重庆 401331;重庆大学软件学院,重庆 401331;重庆大学软件学院,重庆 401331;重庆大学软件学院,重庆 401331【正文语种】中文【中图分类】TP311推荐系统是一种帮助用户实现信息过滤的有效工具,已经广泛地运用在了各互联网产品和应用中。

随机漫步模型详解

随机漫步模型详解随机漫步模型(Random Walk Model)是一种常用的数学模型,用于描述随机变量在时间序列上的演化过程。

它在金融、物理、生物等领域都有广泛的应用。

本文将详细介绍随机漫步模型的基本概念、性质和应用。

一、基本概念随机漫步模型是一种离散时间的随机过程,其基本思想是在每个时间步长上,随机变量以相等的概率向上或向下移动一个固定的步长。

这个步长可以是正数也可以是负数,具体取决于随机变量的性质。

随机漫步模型可以用数学公式表示为:X(t) = X(0) + ε1 + ε2 + ... + εt其中,X(t)表示在时间t时刻的位置,X(0)表示初始位置,ε1, ε2, ..., εt表示在每个时间步长上的随机变量。

二、性质分析1. 无记忆性:随机漫步模型的每一步都是独立的,未来的移动方向不受过去的移动方向影响。

这意味着随机漫步模型没有趋势,无法预测未来的走势。

2. 均值回归:随机漫步模型的均值回归性质是指在长期的时间序列中,随机漫步模型的平均值会回归到初始位置。

这是因为随机漫步模型的移动是随机的,上升和下降的概率相等,所以在长期中,正向和负向的移动会相互抵消,使得平均值回归到初始位置。

3. 方差无界:随机漫步模型的方差是无界的,即随着时间的增加,随机漫步模型的波动幅度会越来越大。

这是因为随机漫步模型的移动是随机的,没有限制,所以随着时间的增加,随机漫步模型的波动范围也会增加。

三、应用领域1. 金融市场:随机漫步模型在金融市场中有广泛的应用。

例如,股票价格的变动可以看作是随机漫步模型,通过对随机漫步模型的分析,可以预测股票价格的走势,帮助投资者做出决策。

2. 自然科学:随机漫步模型在物理学、生物学等自然科学领域也有应用。

例如,分子的扩散过程可以用随机漫步模型来描述,通过对随机漫步模型的分析,可以研究分子的运动规律。

3. 计算机科学:随机漫步模型在计算机科学中也有应用。

例如,随机漫步算法可以用于解决一些优化问题,通过模拟随机漫步的过程,找到问题的最优解。

基于用户影响力游走模型的社会化推荐算法

2017,53(10)1引言推荐系统是一种帮助用户实现信息过滤的有效工具,已经广泛地运用在了各互联网产品和应用中。传统的推荐系统大体分为基于内容的推荐和协同过滤推荐两大类,它在一定程度上缓解了信息过载的问题,但仍存在着数据稀疏性等问题[1-2],越来越多的人开始寻求更好的途径来解决这些问题。随着社交网络的迅猛发展,将社交数据中的信任关系应用在其中成为了近几年研究的热点[3-4]。Massa[5]针对信任的属性进行了分析,提出可以从局部和全局两个角度出发定义信任。局部角度揭示了信任网络中邻居对用户的相对影响力,是一个局部的评判尺度;而全局角度则是从用户的全局影响力出发,描述了用户的全局可信程度。目前将信任关系应用在推荐中是当前研究的热点。Golbeck[6]根据用户的直接信任关系进行推荐预测,提出了TidalTrust推荐算法;在此基础上,Massa等人[7]提出了MoleTrust算法,将信任网络中一定深度内的间接信任用户考虑在内;Konstas等人[8]提出一种基于用户协同过滤的重启动随机游走推荐算法,结合社会标注与基金项目:国家自然科学基金(No.61379158);教育部高等学校博士学科点科研基金(No.20120191110028);重庆市科技计划项目(No.cstc2014jcyjA40054)。作者简介:柳玲(1970—),女,博士,副教授,研究领域为数据仓库与数据挖掘、推荐系统,E-mail:Liuling@cqu.edu.cn;马艺(1991—),女,硕士研究生,研究领域为个性化推荐;文俊浩(1969—),男,博士,教授,研究领域为数据挖掘、面向服务的计算;王喜宾(1985—),男,博士,研究领域为数据挖掘与推荐系统。收稿日期:2015-12-22修回日期:2016-03-11文章编号:1002-8331(2017)10-0061-07CNKI网络优先出版:2016-05-10,http://www.cnki.net/kcms/detail/11.2127.TP.20160510.1117.028.html基于用户影响力游走模型的社会化推荐算法柳玲,马艺,文俊浩,王喜宾LIULing,MAYi,WENJunhao,WANGXibin重庆大学软件学院,重庆401331SchoolofSoftwareEngineering,ChongqingUniversity,Chongqing401331,ChinaLIULing,MAYi,WENJunhao,etal.Socialrecommendationalgorithmbasedonuserinfluencewalkmodel.Com-puterEngineeringandApplications,2017,53(10):61-67.Abstract:Socialrecommendationalleviatesthedatasparseprobleminrecommendationtosomeextent,whileitusuallyonlyinvolvesthelocalinfluencebetweenneighbors.Takingfullaccountoflocalandglobalinfluence,thispaperproposesasocialrecommendationalgorithmbasedonauserinfluencewalkmodel.Thealgorithmfirstcalculatesthelocalinfluencebasedonneighbors’trustrelationsandusers’historicbehaviors,andexplorestheglobalinfluencebymeasuringusers’qualityofrating.Then,exploitlocalandglobalinfluencetogethertocomputethetransitionprobabilitybetweeneachnodeintherandomwalkmodel.AlotofexperimentsisdonebasedonRMSE(RootMeanSquaredError),coveragerateandF-Measure,theresultsshowthattheproposedalgorithmimprovesperformanceforrecommendationinsomedegree.Keywords:localinfluence;globalinfluence;randomwalkmodel;socialrecommendation;collaborativefiltering摘要:社会化推荐在一定程度上缓解了推荐中的数据稀疏性问题,但是通常仅考虑了社交网络中用户间的局部影响关系。综合考虑用户的局部影响力和全局影响力,提出了基于用户影响力游走模型的社会化推荐算法,该算法根据用户信任关系和历史行为分析用户的局部影响力,通过评估用户的评分质量研究用户的全局影响力,然后将二者有机结合计算随机游走模型中各节点之间的转移概率。通过与以往的算法在均方根误差、覆盖率和F-Measure等指标的实验结果表明,提出的算法在一定程度上提高了推荐的性能。关键词:局部影响力;全局影响力;随机游走模型;社会化推荐;协同过滤文献标志码:A中图分类号:TP311doi:10.3778/j.issn.1002-8331.1512-0289ComputerEngineeringandApplications计算机工程与应用61ComputerEngineeringandApplications计算机工程与应用2017,53(10)社交关系建立推荐模型;Jamali等人[9]提出了TrustWalker模型,将基于信任和基于项目的协同过滤算法与随机游走模型很好地融合在一起。在与传统推荐算法的结合中,基于信任的推荐有效缓解了推荐中的冷启动问题,并在一定程度上提高了推荐的准确率和覆盖率[10-11],但是大多数算法都仅利用了信任网络中的局部影响力而忽略了用户的全局影响力。全局影响力在其他领域(如信息检索、病毒营销等)已经取得了一定的成果,同时挖掘社交数据中用户的全局影响力也取得了一定的进展。Moghaddam等人[12-13]提出不同用户的评分质量不同,导致了不同用户对他人的影响也不同,此类评分质量可用于衡量用户的全局影响力。O’Donovan等人[14]提出推荐中可以利用用户的全局影响力对评分数据进行过滤、加权等,不过该算法并未考虑信任的传递性。基于以上分析,本文综合考虑用户的局部和全局影响力:一方面,根据用户的信任关系和历史行为分析用户在信任网络中的局部影响力;另一方面,通过评估用户在系统中的评分质量衡量用户的全局影响力,然后采用协调手段将二者结合以计算随机游走模型中各节点间的转移概率,在此基础上,结合经典的协同过滤技术提出了一种基于用户影响力游走模型的社会化推荐算法(后面以ImpactWalker表示),给出了新的推荐思路。2ImpactWalker模型随机游走模型是社会化推荐中最典型的模型之一,其中最大的挑战在于确定每步游走的转移概率和每趟游走的深度。转移概率的确定对提高算法性能起着重要作用,而游走深度的控制则有利于减少噪音数据对推荐模型的影响。为了获取足够信息,减少噪音数据的负面影响,文献[9]提出了一种融合协同过滤技术的随机游走模型TrustWalker,在随机游走过程中不仅考虑邻居对目标项目的评分,还将与目标项目相似的项目考虑在内,从而对游走的深度进行有效控制。在此基础上,本文综合利用信任网络中用户的局部和全局影响力来计算游走模型中每步的转移概率。算法的主要步骤如下:(1)根据用户的信任关系建立二元信任网络Tn×n,n是用户的数量,ti,j=1表示用户i信任用户j,ti,j=0表示用户i尚未建立对用户j的信任关系。(2)从目标用户出发,在Tn×n中进行随机游走。根据用户整体影响力计算转移概率:一方面,根据用户的信任关系和历史行为的相似度计算局部影响力,另一方面,通过衡量用户评分质量评估用户的全局影响力,然后综合计算信任网络中用户的整体影响力。(3)建立随机游走的单趟和全局终止条件,进行完整的随机游走。(4)根据随机游走的结果进行评分预测。本文用符号u、v、w等表示用户,用i、j等表示项目,以k表示随机游走的步数,表1列出了文中用到的其他符号。2.1一趟随机游走的过程为了预测用户u0对项目i的评分ru0,i,在信任网络中从节点u0出发开始随机游走,每一步均会抵达一个用户节点,假设在第k步抵达了节点u,如果用户u对项目i有评分,那么该趟游走结束,并返回u对i的评分ru,i,否则在节点u处,将会有两种选择:(1)以ϕu,i,k的概率在节点u处停止该趟游走,并且从u的评分项目集Iu中随机选择一个与i相似的项目j,返回u对j的评分ru,j作为该趟游走的结果。(2)以1-ϕu,i,k的概率在信任网络中继续游走,第k+1步抵达u的某个直接信任用户节点上。假设在用户节点u处决定继续游走,那么首先需要从u的直接信任用户集合TNu中随机选出一个用户作为下一步游走的起点。设Su是从TNu中选择用户v的随机变量。文献[9]将此转移概率描述为:P()Su=v=tu,v∑w∈TNutu,w=1||TNu(1)上式中的tu,v是指用户u和v之间的信任值,文献[9]将用户间的信任关系看成是二元的,因此tu,v为0或1,1表示u信任v,0表示u尚未建立对v的信任关系。从式(1)看出,TrustWalker模型将用户间的转移视作是等概率的,但是本文认为,尽管用户u与直接信任用户集中的所有邻居均建立了信任关系,然而不同的邻居对u的影响程度不相同,这种影响程度应与用户间的影响力相关,因此,通过分析局部和全局影响力,本文对该转移概率进行了修正。符号ru,iru,irˉuϕu,i,kTNuSuIuICu,vXu,i,kXu,iYu,iXYu,iRHu,iwu,v定义用户u对项目i的实际评分用户u对项目i的预测评分用户u的平均评分预测u0对i的评分时,第k步游走到u并停止该趟游走的概率用户u的直接信任用户集合从TNu中选择用户v的随机变量用户u的评分项目集合用户u和v的共同评分项目集合从u出发预测对i的评分,第k步游走到节点v的随机变量从u出发预测对i的评分,在某步游走到节点v的随机变量从u的评分项目集Iu中选择与i相似的项目j的随机变量从u出发预测对i的评分,游走到用户节点v并决定停止该趟游走、同时从Iv中选择j的随机变量评分信息ru,i获得的质量得分用户v对u的整体影响力表1符号列表62

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
键 词 顶 点 的 权重 是 相 同 的
图 中边 的 权重
目前 使 用 较 多 的 二 部 图 模型 中
所 以要 搜 索 就 是 因 为 对 要 检索 话 题 知 之 甚 少 甚 至 毫 无 概 念 这 时 候 用 户 很难 构 造 好 查 询
,

代 表关 键 词


的点击次数


者 为 了 能 更 准 确 地 表 达 用 户 输 入 关键 词 和 用 户 点 击
查 询 节 点在 语 义 上 越 接 近 输 入 查 询 节 点 就 越 应 该 得 到 推 荐 所 以 推 荐 算 法 的 主 要 部 分 便 可 分 为 二 部 图 模型 关 键 词 节 点的相 关性打分 和随机 游走算法 三 大 部

越相 关

二。


为用 户 在 输 入 关键 词
后点击
,
的次 数
现 大 大 缓 解 了 这 种 矛 盾 用 户 只 需 向 搜 索 引 擎 提 交查 询 短 语 搜 索 引擎 就 能 在很 短 的 时 间 内 向用 户 返 回 搜 索 结 果
一 方面 用 户输 入的查 询通 常较短



中顶 点 的 边 的 集 合 中 要为二部 图

为了 将 二部 图应 用 到 随机 游走模 型 之

是 用 户 提 交的
也可以通过查询节点
,
然 后 计 算 二 部 图 中其 他
建 立 一条 路 径
在 此 我们定义查询节 点到查询节 点的一
当且 仅 当 两 查 询 节 点 之 间 可
,
到集合
的期望 首次 到达 时间
,
介以 此 来 衡 量
是 一 个 线性

步 转 移 概 率 或 者 说 转移 概 率
。 ·
查询推荐是

搜 索中 的 新 兴 研 究 问 题 之 一 其 目 的 是

,
,
为用 户提供更为准确 更合用 户意 图的查询

查询推荐 对于
,
提 高 搜 索引 擎 的 用 户 体 验 增 强 搜 索 引 擎 的 用 户 粘 性 都 有 很 大作用
下 一 步的 研 究 工 作 需 要 在 两 个方 面 相 展 开 首 先 利
表示 该
文档
被点 击 的 总 次 数

节 点 到 文档
最 后 将 每个 关 键 词 节 点 以及 文 档 节 点 的 得 分 进 行 归 一 化 作 为 后 续 随 机 游 走 模型 转 移 概 率 的 计 算 基 础
分 以 下对 这 三 部 分 进 行 详 细 说 明
回画曰 目
口目粉画困
三 随 机游 走 模型
,

它 主 要 是 根据 用 户 提 交 的 关 键 词 通 过 自

身的关键词推荐算 法 向 用 户推荐 一 系 列相 关的 候选 查询 以方 便 用 户 修 正 关 键 词 进 行 二 次 查 询 本 文 提 出 了 基于 随

对于 关键
词节点与文档节点 的相关 性得 分 主要 考虑 两方 面 内容 搜
一 条路径
。 。
是 需 要 推 荐 的 查 询 由于 和 和
·

相 连 同 样和 和
,
相 连的查询 还有
可 能是其 他人在 进行 做 推荐 时 查询 设
,
检索 时 点 击 了
所 以在 给 查 询
可 以通 过 文 档 节 点 文档节点

和查询 节点
之 间建立 和文 档 节 点
可 能 就 是 需 要 推 荐 的 潜 在候 选 查 询 原 始 查 询 则 可 以另 集 合 查询节点 查询
,

时 间 最后 通 过 分 布 式 进行
王 晨升 北 京 邮 电 大 学 副 教 授
刘丰
,

钟 兴 志 北 京 邮 电 大 学硕 士 研 究 生
一 引言

一 二 部 图模 型
,

搜索 引擎 的点 击 日 志可 以用 来构 造
,
随 着 信 息 技 术 和 互 联 网的 迅 猛 发 展 人 们 逐 渐 从 信 息 匿 乏 的 时 代 走 入 了 信 息 过 载 的 时 代 人 们 从 海 量 数 据 中迅 速 和 准 确 地 获 取 到 所 需 的 信 息 变 得 越来 越 困 难
机 游 走 模型 的 关 键 词 推 荐 算 法 通 过 用 户 点 击 日志 建 立 关 键 词与用 户点击 的二部 图 并 利用 用 户点击 次数 用 户 点
击 次 序 搜 索 引 擎 给 出的 节点和
, 、
索 引 擎 自身 给 出 的 得 分 以及 通 过 用 户 点 击 得 到 的 得 分


查询

这 里 涉 及 到 较 多 的 计算 需 要
,
计算 来 得 出 结 果 本 文 的 关 键 词 推 荐 计算 流 程 前 一 次 输 出 作 为
, ,
搜 狐娱乐

明星
·
。£
后一 次的输入 第一 对 每 一 条 查 询 日 志
,
同时输 出 阶段 同时

,
,


, ·
,




,
,
两 个键 值 对 在
给 出 一 组相 关 的 推 荐

的建议 以及用 户进行 的主动 筛选

其中
,


最后给出该算 法的分 布式求 解过程

,
文档

是 当用 户输 入 关键词
时 搜 索引 的相 关

以满 足 现今 搜 索 引 擎 对 于 大 数 据 处 理 的 需 求 二 基 于 随 机 游 走 模 型 的推 荐 算 法 设 计

,
到达 提高
系统效率的 目 的 这是 遵 循 的 一 个最 基本 的 准 则


在处 理 海 量 数 据 时 需 要
四 结语
,
有 了查 询 节 点 到 查 询 节 点 的 转 移 概 率 文 档 节 点 到 文 档 节 点 的 转 移 概率 再 加 上 查 询 节 点 到 文 档 节 点 的 转 移 概率 文 档 节 点 到 查 询 节 点 的 转 移 概 率 这 样 就 有 了二 部 图 中 任 意 两 节 点 之 间 的 转 移 概率 转 移 概率

,
键 词 推 荐 方 法 并 提 出 基 于 用 户点 击
词及 用 户 点 击 的
,
,

志 基 于 随 机 游 走 模 型 的 关 键 词 推荐 算 法



该 算 法 通 过对 用 户 输 入 的 关 键
进行 相 关 性 打 分 再 以 归 一 化 后 的 相 关 性 分 值 作 为 随 机 游 走 模 型 的 转 移 概 率 对 算 其 首 次 击 中


年第 ”
卷第

由于 图 中 的 查 询 节 点 和 查 询 节 点
,
为图
中关 键 词
查询

点击次数,。。并 不 相 连 文档 节 点 和 文 档 节 点 也 不 相 连 但 从 一 个 查 询 节
点 可 能 通 过 文 档 节 点 和 另 一 个 查 询 节 点 相 连 就 好 比在 图 中 可 以寻 找 一 条 从 一 个 查 询 节 点 到 另 一 个 查 询 节 点 的 路 径 查询节点
另一 方面

为首次到达时刻 因此 其 实 就 是 一 个随 机变 量


是 研 究 个性 化 的 查 询 推 荐 为 用 户 提 供 更 好 的 推 荐 服 务
【 参考 文献 】
河 以看 出 ,
设 时刻
时从节点
出发 随机 行走 到集合 的期望值为
中节 点 的 期 望 时 刻 为
介池 就 是 说 随 机 变 量
求 解 适合 海 量 数 据 处 理 的 需 求 【 关键 词 】 关 键 词 推 荐 点 击 日 志 随 机 游 走模 型 分 布 式 计 算
【 作者简介 】 郭世龙 那 京 邮 电 大 学硕 士 研 究 生 研 究 方 向 虚 拟 现 实 技 术 杨 光 北 京 邮 电 大 学副 教授 研 究 方 向 数控 机床 与 自动 控 制



,
,
一 一
,



排 序 等 一 系列 信 息 进 行 关键 词 分

为 搜 索 引 擎 给 出的 得 分
为用 户 给 出的得
,
节 点 的 相 关 性 打 分 对 分值 进行 归 一 化 后作 为 随

这种方法综合考 虑了 搜 索 引擎在 进行 相关 排名 时给 出
·
机游 走 的 转 移 概率 通 过 对 首 次 到 达 时 间 的 结 果 进 行 排 序
,

二部图

我们可以定义二部图为
,

,
为二 部图
左边的顶点集 且
中每 一 个 顶 点 代 表 链 接 点 击 日 志 中 的 一 中 的 每个 顶 点
卫 为连 接
搜 索 引擎的 出

个关 键 词 刀 为 二 部 图 中右 边 的 顶 点 集 且
代 表 链 接 点 击 日志 中 的 一 条 文 档 链 接


为 二部 图 中节 点
,
到节点


为图
中顶 点 的 子 集 八 为 时 刻

时 在图
用 现 有 的 元 搜 索引 擎 和 推 荐 系 统 动 态 搜 集 点 击 日 志 并 用 新
相关文档
最新文档