来自IBM的推荐算法:以Amazon、豆瓣网为例,探索推荐引擎内部的秘密
电子商务网站的推荐算法模型研究

电子商务网站的推荐算法模型研究随着互联网技术的发展和电子商务的普及,越来越多的人开始使用电子商务网站进行购物。
然而,在如此庞大的商品数量和不同的用户需求下,如何为用户提供个性化的推荐产品就成为了电商网站面临的重要问题。
因此,推荐算法模型的研究和应用至关重要,它关系到电商网站的用户体验和商家的收益。
电子商务网站可分为包括B2B、B2C、C2C在内的多种类型,不同类型的电商网站用户群体和商品种类各异,因此他们的推荐算法模型也各不相同。
下面将从推荐算法的原理、应用和发展等方面探讨电商网站的推荐算法模型。
一、推荐算法模型的原理推荐系统的核心在于从历史数据推测出用户对未来可能需要的商品或信息,从而实现精准推送。
推荐算法模型可分为以下两种:1.基于内容的推荐模型基于内容的推荐模型是利用商品本身的属性进行匹配推荐。
在该模型中,计算商品特征的方式称为特征提取,它通过对用户与商品之间的关系分析来进行推荐。
例如,在一个图书电商网站上,如果用户经常搜索科技类书籍,则网站可以根据用户历史数据为其推荐更多的科技书籍,通过这种方式推送其喜好、实现个性化推荐。
2.基于协同过滤的推荐模型基于协同过滤的推荐模型是根据用户行为进行推荐的一种方法。
该模型是基于用户行为(比如浏览记录或购买历史)来推断用户的偏好,从而为用户推荐有可能感兴趣的商品。
例如,在一个家庭服务电商网站上,如果一个用户经常搜索保洁服务,但从未购买过,网站就可以根据这个用户的浏览记录,通过算法找到其他购买了保洁服务的用户,进而向此用户推荐保洁服务,提高此用户的点击率和转化率。
二、推荐算法模型的应用随着推荐算法模型的发展,电商网站的个性化推荐也越来越普及,其应用广泛涉及各类电商网站的商品推荐、用户群体划分及销售策略制定等方面。
1. 商品推荐在商品推荐方面,电商网站应根据用户搜索、购买等行为分析,推荐用户感兴趣的商品,提高用户的购物体验,增加网站的销量。
例如,淘宝就通过推荐系统为用户推荐同类商品,或者推荐与用户搜索商品类别相关的热门商品,提高网站的购物转化率。
baichuan2模型原理

baichuan2模型原理百川2(Baichuan2)模型是一个用于推荐系统的深度学习模型。
推荐系统是一种利用用户的历史行为数据和物品信息来预测用户对物品的喜好程度的技术。
Baichuan2模型是阿里巴巴提出的一种用于解决推荐系统问题的模型,其原理涉及到深度学习和推荐系统的相关知识。
Baichuan2模型的原理可以从以下几个方面来解释:1. 深度学习原理,Baichuan2模型基于深度学习技术,深度学习是一种人工智能的分支,通过模拟人类大脑的神经网络结构来实现对数据的学习和理解。
Baichuan2模型利用深度学习的方法来学习用户的行为数据和物品信息,从而预测用户对物品的喜好程度。
2. 神经网络结构,Baichuan2模型采用了深度神经网络结构,通过多层神经网络来学习用户的行为数据和物品信息之间的复杂关系。
神经网络可以通过反向传播算法来不断调整网络中的参数,从而使得模型能够更准确地预测用户的喜好。
3. 特征工程,在Baichuan2模型中,对用户行为数据和物品信息进行特征提取是非常重要的。
模型需要对用户的历史行为数据进行编码,并提取出有意义的特征,以便神经网络能够更好地理解用户的行为模式和偏好。
4. 损失函数和优化算法,Baichuan2模型在训练过程中需要定义合适的损失函数来衡量模型预测结果与真实数据之间的差异,并通过优化算法来不断调整模型参数,使得损失函数达到最小值,从而提高模型的预测准确性。
总的来说,Baichuan2模型是基于深度学习技术的推荐系统模型,通过神经网络结构、特征工程、损失函数和优化算法等多个方面的原理来实现对用户喜好的预测。
该模型在处理大规模的用户行为数据和物品信息时具有较好的性能,能够为用户提供个性化的推荐服务。
new bing 原理讲解

new bing 原理讲解引言搜索引擎在现代社会起到了举足轻重的作用,为人们提供了获取信息和解决问题的重要工具。
Bing作为谷歌之外最为知名的搜索引擎之一,其背后的原理是如何实现的呢?本文将对Bing的原理进行全面、详细、完整且深入的探讨。
搜索引擎的基本原理搜索引擎的基本原理是根据用户输入的关键词,在搜索引擎的数据库中查找相关的网页,并按照一定的规则进行排序和展示。
搜索引擎的原理可以分为三个主要步骤:爬取、索引和检索。
1. 爬取爬取是指搜索引擎通过自动化程序(蜘蛛或爬虫)在互联网上抓取网页的过程。
爬虫会从一个起始页面开始,通过页面上的链接逐步遍历整个互联网。
爬取过程中,爬虫会收集网页的URL、标题、内容和其他重要信息。
2. 索引索引是将爬取到的网页进行处理和组织,以便后续的检索。
在索引过程中,搜索引擎会对网页进行去重、分词和建立倒排索引等操作。
倒排索引是搜索引擎中非常重要的组成部分,通过该索引可以快速定位包含关键词的网页。
3. 检索当用户输入关键词进行搜索时,搜索引擎会根据索引中的信息找到相关的网页,并按照一定的算法对网页进行排序。
在排序过程中,搜索引擎会考虑网页的相关性、权威性和用户体验等因素。
最终,搜索引擎会将排序好的网页结果展示给用户。
Bing的原理Bing作为微软旗下的搜索引擎,其原理与其他搜索引擎基本类似,但也有自己的特点。
1. 爬取Bing的爬取过程主要分为四个步骤:种子URL生成、URL抓取、页面下载和页面解析。
•种子URL生成:Bing会从一些预定义的种子URL开始爬取网页,种子URL 通常是一些知名的网站或已知的高质量网页。
•URL抓取:Bing的爬虫会通过正则表达式或其他方法提取页面中的URL,并加入待爬取队列中。
•页面下载:爬虫会下载待爬取队列中的网页,并保存到Bing的服务器上。
•页面解析:Bing会对下载下来的网页进行解析,提取出其中的内容和其他重要信息。
2. 索引Bing的索引过程包括去重、分词和建立倒排索引三个主要步骤。
卓越亚马逊的推荐系统

Amazon根据用户来源的推荐系统(文章来自子木的博客转载请注明)Amazon根据用户来源的推荐系统这个体系分为两部分:第一部分Amazon根据用户来源来判断是否给出相关搜索的推荐的页面:在google里面搜索这本书30年后你拿什么养活自己点击进入amazon的页面所看到的图是这样的当把通过google来的《30年后,你拿什么养活自己》这本书的url 通过粘贴到浏览器打开我们看到的页面是一样的url但是是不一样的页面, mazon 判断用户来源,当用户通过搜索引擎来的用户给他一个推荐页面,在js里面判断了refer信息PS:(amazon定义了pathname为searh。
对这个问题进行发散思维,也许通过referre判断出其它path,亚马逊会给出另外一套体系的页面,比如针对联盟、针对facebook的用户。
通过javascript:alert(document.referrer);命令看推荐的商品是关键字在amazon站内搜索的结果,图:第二部分Amazon通过判断keywords在站内搜索结果数目来决定是否给出相关搜索的推荐页面,当搜索结果数目大于1的时候给出相关搜索的推荐,当搜索结果等于一的时候无相关搜索推荐页面。
当我们通过一个长尾关键字30年后,你拿什么养活自己?顶级理财师出上班族的财富人生规划课来进行搜索时候商品的url 无论是通过搜索引擎还是通过自己来源,都没有相关搜索的推荐页面。
因为的搜索结果为1.总结:amazon这套系统的逻辑大致是这样,当用户通过搜索引擎来页面的时候,一般认为搜索引擎的用户的搜词不够精准,于是amazon扮演起一个搜索精准化的功能,将用户的搜索结果精准(给出关键词的站内搜索页面推荐)。
当用户搜索的关键字比较精准(根据站内搜索结果数目判断为一条的),认为是精准搜索,不给出相关搜索推荐页面。
搜索引擎不可告人的小秘密

结 果 可 能 是 美 国 本 土 家 居 连 锁 店 C ae rt & B r l也 可 能 是 家 得 宝 公 司 ( o ar , e H me D p t 多 种 经 营 零 售 公 司 S as家 装 e o) , er, 来 占 据 搜 索 结 果 第 一 位 , 在 新 秀 丽 官 排 网之前。 拥 有 10 10多 家 商 店 , 1 2 0年 有 0 1 8 美 元 的 总 收 入 ,en y公 司 毫 无 7亿 Pne 疑 问 是 美 国 零 售 业 的 佼 佼 者 。然 而 , 谷 网络 世 界 内 潜 藏 的 “ 帽 ” 优 化 工 具 。 黑 这 种 工 具 通 过 一 些 技 术 手 段 提 高 了 网
C e 或 Ga ( 国 服 装 品 牌 ) rw p美 。
好的 , 那输 入 “ 上 用 品 (edn ) 床 b d ig” 呢 ?结 果 可 能 是 家 居 产 品 零 售 商 B d e
B t B y n , 尔 玛 , 者 是 亚 马 逊 ah& e o d 沃 或 网站 上 的 床 上 用品 板 块 . 该 公 它 J C. e n y”
歌 的 既 定 目标 是 通 过 筛 选 互 联 网 的 每
个角落来找到最重要的相关网页。
司 击 败 了 数 百 万 的 网 站 — — 不 仅 仅 在 搜 索 “rse, edn n ra u s ( dessb d igadae g” 服 r 饰 , 上 用 品 , 地 毯 ) 关 键 词 的 时 床 小 等
换 句 话 说 , 某 一 时 刻 整 个 国 家 在
中 Pne e n y公 司 是 最 显 著 的 客 厅 家 具 的
manticoresearch案例

manticoresearch案例Manticoresearch是一家专注于开源搜索技术的公司,其提供的搜索解决方案帮助企业快速、高效地处理大量的数据。
本文将通过介绍一个真实的Manticoresearch案例,来展示其在实际应用中的价值和优势。
概述在这个案例中,我们将关注一个电子商务平台如何利用Manticoresearch来改进其商品搜索功能,提高用户体验和销售业绩。
背景该电子商务平台是一个在线零售商,拥有庞大的商品库存和大量的用户流量。
然而,他们的搜索功能却表现出一些问题,如搜索结果不准确、搜索速度慢等。
这给用户带来了不便,并可能导致潜在销售机会的流失。
为了解决这些问题,该平台决定引入Manticoresearch。
解决方案在与Manticoresearch的合作下,该平台实施了以下解决方案来改善其商品搜索功能:1. 数据索引优化该平台通过重新设计商品数据的索引结构,将其存储在Manticoresearch的索引实例中。
这个新的索引结构更加紧凑和高效,能够更快地响应用户的搜索请求。
同时,优化了关键字匹配算法,提高了搜索结果的准确性。
2. 分布式搜索架构为了应对大量的用户请求和提升搜索速度,该平台采用了Manticoresearch的分布式搜索架构。
通过在多台服务器上分布索引实例和查询节点,平台能够更好地利用资源,提高搜索性能和可扩展性。
这使得在高峰时段,用户仍然可以快速获取准确的搜索结果。
3. 智能推荐除了基本的搜索功能外,该平台还利用Manticoresearch的推荐引擎,为用户提供个性化的商品推荐。
通过分析用户的搜索历史、购买记录和行为数据,该平台能够准确预测用户的兴趣和需求,为其推荐最合适的商品。
这不仅提高了销售转化率,也提升了用户体验。
4. 实时监控与优化为了确保搜索系统的稳定性和性能,该平台采用Manticoresearch提供的实时监控和优化工具。
通过监控搜索性能指标、索引状态和资源使用情况,平台能及时发现和解决潜在的问题,提高搜索系统的可靠性和效率。
搜索引擎的肮脏秘密

T e f tlw s y ttk se e g o d r , h r a a si a e n r y t o wok i s e e ft a r so l o mo e ee t n c o s v n i two k i n y t v lcr sa r s h o
y u e r h o rs a c .
以热量 形 式 散 失 。这 叫 做 熵 或 无 序 状
A s c e su e u t p g r g l rt a d u c s fl rs l a e b n s ca y n 态 。 s i i 由网络搜 索产 生 。
r o r d b l o s o o u es p c e no ae p we e y mi in fc mp tr a k d it l wa e o s s, al wi d tg t e o f n t n a rh u e l r o eh r t u ci s a e o Th e m e rh “ n ie’ i p S ac e 算 。 e tr s ac e gn ’ s a t . e rh s
÷科 技 博 览÷
H mrs ac e’ ppouehsen Oun csoh a etr ?v — Wctwsetue yh e oYdt f, tr s ba nr udah ob e t o
l s a d te r o js m aue olr. e , n yaen tu t e s rdi d l s s h n a
od rt o rc r e fte u ie s , b td wn i r e o y u o ro h nv re n u o n te s r e a s hn sg tme s . T e ma mo h e v rfr ti g e sy m hr l —
推荐系统与个性化推送算法

推荐系统与个性化推送算法随着互联网技术的飞速发展和大数据的兴起,推荐系统逐渐成为各大平台不可或缺的一部分。
推荐系统是一种能够根据用户的个人兴趣和行为习惯,为其提供个性化的信息、产品或服务的技术。
而个性化推送算法则是推荐系统中的核心算法之一,它能够根据用户的历史数据和特征,将最相关和最合适的内容或物品推荐给用户。
推荐系统在电子商务、社交媒体、音乐、视频、新闻等领域都有着广泛的应用。
例如,亚马逊的推荐系统能够根据用户的浏览记录和购买历史,为其推荐可能感兴趣的商品。
社交媒体平台如Facebook和Instagram,都会根据用户的点赞、评论和关注信息,向用户推荐可能感兴趣的用户和内容。
而音乐和视频流媒体平台如Spotify和Netflix,则会根据用户的听歌或观影历史,为其推荐相似风格的音乐和电影。
个性化推送算法的实现有多种方法和技术。
其中,基于协同过滤的算法常被应用于推荐系统中。
协同过滤是一种根据用户行为数据来识别用户偏好的方法,它可以将用户分组为具有相似偏好的群体,然后根据这些群体的喜好推荐内容。
通过分析用户历史数据,推荐系统可以找到与用户偏好相似的其他用户,并将这些用户喜欢的内容推荐给目标用户。
除了协同过滤,基于内容的推荐算法也是个性化推送的重要方法之一。
基于内容的推荐算法是根据物品的属性和特征,将相似的物品推荐给用户。
例如,在新闻推荐系统中,系统会通过分析新闻文章的关键词、分类、时间等属性,将与用户兴趣相关的新闻推送给用户。
这种方法能够根据用户对不同属性的偏好,进行精准的个性化推荐。
另外,深度学习也被广泛应用于个性化推送算法中。
深度学习通过构建多层神经网络,并利用大量的训练数据,能够自动地学习用户和物品之间的复杂关系。
例如,在电影推荐系统中,系统可以通过深度学习算法,将用户的历史观影记录和电影的属性进行学习和匹配,从而推荐与用户兴趣相符的电影。
然而,推荐系统也存在一些问题和挑战。
首先,冷启动问题是指在推荐系统初始阶段,由于缺乏用户的行为数据,系统无法有效地为用户提供个性化推荐。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
们使用习惯的信息发现。
如今,随着推荐技术的不断发展,推荐引擎已经在电子商务 (E-commerce,例如 Amazon,当当网) 和一些基于 social 的社会化站点 ( 包括音乐,电影和图书分享,例如豆瓣,Mtime 等 ) 都取得很大的成功。
这也进一步的说明了,Web2.0 环境下,在面对海量的数据,用户需要这种更加智能的,更加了解他们需求,口味和喜好的信息发现机制。
推荐引擎前面介绍了推荐引擎对于现在的 Web2.0 站点的重要意义,这一章我们将讲讲推荐引擎到底是怎么工作的。
推荐引擎利用特殊的信息过滤技术,将不同的物品或内容推荐给可能对它们感兴趣的用户。
图 1. 推荐引擎工作原理图图 1 给出了推荐引擎的工作原理图,这里先将推荐引擎看作黑盒,它接受的输入是推荐的数据源,一般情况下,推荐引擎所需要的数据源包括:要推荐物品或内容的元数据,例如关键字,基因描述等;系统用户的基本信息,例如性别,年龄等用户对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。
其实这些用户的偏好信息可以分为两类:显式的用户反馈:这类是用户在网站上自然浏览或者使用网站以外,显式的提供反馈信息,例如用户对物品的评分,或者对物品的评论。
隐式的用户反馈:这类是用户在使用网站是产生的数据,隐式的反应了用户对物品的喜好,例如用户购买了某物品,用户查看了某物品的信息等等。
显式的用户反馈能准确的反应用户对物品的真实喜好,但需要用户付出额外的代价,而隐式的用户行为,通过一些分析和处理,也能反映用户的喜好,只是数据不是很精确,有些行为的分析存在较大的噪音。
但只要选择正确的行为特征,隐式的用户反馈也能得到很好的效果,只是行为特征的选择可能在不同的应用中有很大的不同,例如在电子商务的网站上,购买行为其实就是一个能很好表现用户喜好的隐式反馈。
推荐引擎的分类推荐引擎的分类可以根据很多指标,下面我们一一介绍一下:推荐引擎是不是为不同的用户推荐不同的数据根据这个指标,推荐引擎可以分为基于大众行为的推荐引擎和个性化推荐引擎这是一个最基本的推荐引擎分类,其实大部分人们讨论的推荐引擎都是将个性化的推荐引擎,因为从根本上说,只有个性化的推荐引擎才是更加智能的信息发现过程。
根据大众行为的推荐引擎,对每个用户都给出同样的推荐,这些推荐可以是静态的由系统管理员人工设定的,或者基于系统所有用户的反馈统计计算出的当下比较流行的物品。
个性化推荐引擎,对不同的用户,根据他们的口味和喜好给出更加精确的推荐,这时,系统需要了解需推荐内容和用户的特质,或者基于社会化网络,通过找到与当前用户相同喜好的用户,实现推荐。
根据推荐引擎的数据源其实这里讲的是如何发现数据的相关性,因为大部分推荐引擎的工作原理还是基于物品或者用户的相似集进行推荐。
那么参考图 1 给出的推荐系统原理图,根据不同的数据源发现数据相关性的方法可以分为以下几种:根据系统用户的基本信息发现用户的相关程度,这种被称为基于人口统计学的推荐(Demographic-based Recommendation)根据推荐物品或内容的元数据,发现物品或者内容的相关性,这种被称为基于内容的推荐(Content-based Recommendation)根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,这种被称为基于协同过滤的推荐(Collaborative Filtering-based Recommendation)。
根据推荐模型的建立方式可以想象在海量物品和用户的系统中,推荐引擎的计算量是相当大的,要实现实时的推荐务必需要建立一个推荐模型,关于推荐模型的建立方式可以分为以下几种:基于物品和用户本身的,这种推荐引擎将每个用户和每个物品都当作独立的实体,预测每个用户对于每个物品的喜好程度,这些信息往往是用一个二维矩阵描述的。
由于用户感兴趣的物品远远小于总物品的数目,这样的模型导致大量的数据空置,即我们得到的二维矩阵往往是一个很大的稀疏矩阵。
同时为了减小计算量,我们可以对物品和用户进行聚类,然后记录和计算一类用户对一类物品的喜好程度,但这样的模型又会在推荐的准确性上有损失。
基于关联规则的推荐(Rule-based Recommendation):关联规则的挖掘已经是数据挖掘中的一个经典的问题,主要是挖掘一些数据的依赖关系,典型的场景就是“购物篮问题”,通过关联规则的挖掘,我们可以找到哪些物品经常被同时购买,或者用户购买了一些物品后通常会购买哪些其他的物品,当我们挖掘出这些关联规则之后,我们可以基于这些规则给用户进行推荐。
基于模型的推荐(Model-based Recommendation):这是一个典型的机器学习的问题,可以将已有的用户喜好信息作为训练样本,训练出一个预测用户喜好的模型,这样以后用户在进入系统,可以基于此模型计算推荐。
这种方法的问题在于如何将用户实时或者近期的喜好信息反馈给训练好的模型,从而提高推荐的准确度。
其实在现在的推荐系统中,很少有只使用了一个推荐策略的推荐引擎,一般都是在不同的场景下使用不同的推荐策略从而达到最好的推荐效果,例如 Amazon 的推荐,它将基于用户本身历史购买数据的推荐,和基于用户当前浏览的物品的推荐,以及基于大众喜好的当下比较流行的物品都在不同的区域推荐给用户,让用户可以从全方位的推荐中找到自己真正感兴趣的物品。
深入推荐机制这一章的篇幅,将详细介绍各个推荐机制的工作原理,它们的优缺点以及应用场景。
基于人口统计学的推荐基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户,图 2 给出了这种推荐的工作原理。
图 2. 基于人口统计学的推荐机制的工作原理从图中可以很清楚的看到,首先,系统对每个用户都有一个用户 Profile 的建模,其中包括用户的基本信息,例如用户的年龄,性别等等;然后,系统会根据用户的 Profile 计算用户的相似度,可以看到用户 A 的 Profile 和用户 C 一样,那么系统会认为用户 A 和 C 是相似用户,在推荐引擎中,可以称他们是“邻居”;最后,基于“邻居”用户群的喜好推荐给当前用户一些物品,图中将用户 A 喜欢的物品 A 推荐给用户 C。
这种基于人口统计学的推荐机制的好处在于:因为不使用当前用户对物品的喜好历史数据,所以对于新用户来讲没有“冷启动(Cold Start)”的问题。
这个方法不依赖于物品本身的数据,所以这个方法在不同物品的领域都可以使用,它是领域独立的(domain-independent)。
那么这个方法的缺点和问题是什么呢?这种基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,比如图书,电影和音乐等领域,无法得到很好的推荐效果。
可能在一些电子商务的网站中,这个方法可以给出一些简单的推荐。
另外一个局限是,这个方法可能涉及到一些与信息发现问题本身无关却比较敏感的信息,比如用户的年龄等,这些用户信息不是很好获取。
基于内容的推荐基于内容的推荐是在推荐引擎出现之初应用最为广泛的推荐机制,它的核心思想是根据推荐物品或内容的元数据,发现物品或者内容的相关性,然后基于用户以往的喜好记录,推荐给用户相似的物品。
图 3 给出了基于内容推荐的基本原理。
图 3. 基于内容推荐机制的基本原理图 3 中给出了基于内容推荐的一个典型的例子,电影推荐系统,首先我们需要对电影的元数据有一个建模,这里只简单的描述了一下电影的类型;然后通过电影的元数据发现电影间的相似度,因为类型都是“爱情,浪漫”电影 A 和 C 被认为是相似的电影(当然,只根据类型是不够的,要得到更好的推荐,我们还可以考虑电影的导演,演员等等);最后实现推荐,对于用户 A,他喜欢看电影 A ,那么系统就可以给他推荐类似的电影 C。
这种基于内容的推荐机制的好处在于它能很好的建模用户的口味,能提供更加精确的推荐。
但它也存在以下几个问题:1. 需要对物品进行分析和建模,推荐的质量依赖于对物品模型的完整和全面程度。
在现在的应用中我们可以观察到关键词和标签(Tag)被认为是描述物品元数据的一种简单有效的方法。
2. 物品相似度的分析仅仅依赖于物品本身的特征,这里没有考虑人对物品的态度。
3. 因为需要基于用户以往的喜好历史做出推荐,所以对于新用户有“冷启动”的问题。
虽然这个方法有很多不足和问题,但他还是成功的应用在一些电影,音乐,图书的社交站点,有些站点还请专业的人员对物品进行基因编码,比如潘多拉,在一份报告中说道,在潘多拉的推荐引擎中,每首歌有超过 100 个元数据特征,包括歌曲的风格,年份,演唱者等等。
基于协同过滤的推荐随着 Web2.0 的发展,Web 站点更加提倡用户参与和用户贡献,因此基于协同过滤的推荐机制因运而生。
它的原理很简单,就是根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,然后再基于这些关联性进行推荐。
基于协同过滤的推荐可以分为三个子类:基于用户的推荐(User-based Recommendation),基于项目的推荐(Item-based Recommendation)和基于模型的推荐(Model-based Recommendation)。
下面我们一个一个详细的介绍着三种协同过滤的推荐机制。
基于用户的协同过滤推荐基于用户的协同过滤推荐的基本原理是,根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,在一般的应用中是采用计算“K- 邻居”的算法;然后,基于这 K 个邻居的历史偏好信息,为当前用户进行推荐。
下图 4 给出了原理图。
图 4. 基于用户的协同过滤推荐机制的基本原理上图示意出基于用户的协同过滤推荐机制的基本原理,假设用户 A 喜欢物品 A,物品 C,用户 B 喜欢物品 B,用户 C 喜欢物品 A ,物品 C 和物品 D;从这些用户的历史喜好信息中,我们可以发现用户 A 和用户 C 的口味和偏好是比较类似的,同时用户 C 还喜欢物品 D,那么我们可以推断用户A 可能也喜欢物品 D,因此可以将物品 D 推荐给用户 A。
基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是计算用户的相似度,并基于“邻居”用户群计算推荐,但它们所不同的是如何计算用户的相似度,基于人口统计学的机制只考虑用户本身的特征,而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度,它的基本假设是,喜欢类似物品的用户可能有相同或者相似的口味和偏好。