算法新闻 第5章-智能推荐算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
存在怎样的技术准备和前置条件来支持这些智能推荐算法以及智能推荐系统呢?有四个主要条件: (1)大数据技术的发展以及开源大数据处理平台的普及。 (2)机器学习算法的突破。 (3)移动互联网的繁荣发展。 (4)用户习惯的改变。
一、开源大数据处理平台的普及
在当前的时间节点上,大数据不论是对于自然科学及人文社会科学,还是对于工业界,均具有重要意义。从数据的产生来看, 每一个个体用户,都是大数据的贡献者,都为海量数据的生成提供了源数据。
离线计算适用于单次计算任务对完成时间的要求不高并且单次计算任务通常不需要反复执行的计算场景,如机器学习模型 的训练。
大数据的软件计算框架
(2)在线计算(Spark) 随着对计算性能要求的提高,某些在大数据集合上的计算也需要达到实时或者准实时的标准。为了实现在线级别的大数据 计算,可以在Hadoop和HDFS平台的基础上搭建Spark计算平台。Spark是快速通用的大规模数据计算引擎。与离线计算 不同的是,在线计算的中间输出结果可以保存在内存中,从而不再需要读写HDFS,有效地减少I/O,提高系统效率,因此 Spark能更好地适用于需要重复进行的计算场景。 从底层存储来看,以上离线计算和在线计算的大数据框架在存储层面,都是在Hadoop分布式文件系统上存储的。二者的 区别在于计算过程是否需要反复读取硬盘数据,从而区分出在线计算和离线计算两种情况。
2.大数据计算框架
(1)离线计算(MapReduce) 早期的大数据计算框架技术主要采取离线计算的方式。在运算过程中,首先通过对计算任务的分解,把数据集切分为多个 分片;随后,每一次运算从硬盘加载一部分数据分片并分配到集群中不同的机器上进行计算,其中,需要把一些必要的中 间结果保存到硬盘上(HDFS);然后再由后续的运算模块把中间结果读到内存,再进行合并计算,求出结果后,将其写 到硬盘,完成一次离线的分布式计算。
跃用户近1亿(参见微博数据中心《2017微博用户发展报告》)。 • 在电子商务领域,2018年“双11”电商购物节期间,来自商务部的数据显示,全国网络零售交易额超过3000亿元。在网络
应用领域,谷歌搜索引擎每天需要处理24PB级别的数据。 • 在算法智能推荐系统领域,截至2017年12月,今日头条系统一共有3亿用户,日活跃用户量超过3000万,系统的日均点击
• 由于大数据的量级呈现几何方式的增长,传统的硬件架构已经很难满足需求。巨大的PB级别数据量级对于数据的采集 和存储都提出了新的要求,通俗地讲,就是要求大数据系统既能存得下数据又能快速读写,并且在足够短的时间里完 成计算。
• 通常,存储系统的升级并不仅仅指存储容量升级,系统对其他资源也有额外的需求,如I/O带宽和计算能力。也就是说, 为了支持海量数据的存储和计算,需要高性能的计算和存储设备完成大数据上的分析和计算任务,因此,大数据计算 系统的硬件会体现出大存储容量、多主机、多CPU、高速运算、高速I/O、数百GB内存等特点。
“大数据”从数据量级的角度来说到底有多“大”? • 在办公领域,以电子邮件系统为例,全球范围内每秒会发出数百万封电子邮件。 • 在视频分享和推荐领域,YouTube网站的流量数据总量超过百亿,每天新增总播放时长达数万小时的视频,并且其单日浏览
量也达数亿甚至数十亿。 • 在社交媒体领域,截至2017年底,新浪微博月阅读量超百亿的垂直领域达25个,微博内容存量已超过千亿,微博搜索月活
关键词
智能推荐系统、大数据技术、机器学习算法、关联规则推荐 算法
第1节 智能推荐系统的发端
目前,接入互联网的设备特别是通过移动互联网接入的移动终端设备之上,各种各样的应用软件层出不穷。其中一个不容忽视 的趋势就是智能推荐系统正在热火朝天地发展和壮大,越来越多的应用软件系统引入智能推荐算法,用以实现更好的个性化内 容呈现和精准送达。
量大概是5亿次,每个用户的平均使用时长为47分钟。
支撑大数据的硬件平台
• 针对海量的数据,需要相应的硬件来完成这些数据的采集、存储和计算。从数据体量的角度,目前的大数据量级已经 达到了PB级别。
补充:PB是英文Pega Byte的缩写,其中B是英文byte的缩写,即“字节”。通常,个人电脑硬盘的存储容量是GB(Giga Byte,吉字节,又称“千兆”)级别的,如256GB、512GB等。此处,1GB=1024MB,1MB(Mega Byte,兆字节, 简称“兆”)=1024kb,1kb(Kilobyte,千字节)=1024B。
• 为了应对不断增长的数据,目前常见的大数据系统扩展方式有纵向扩展和横向扩展两种。 纵向扩展:主要是利用已有的存储系统架构,通过不断增加存储容量来满足数据增长的需求。 横向扩展:进行系统升级,通过增加独立的设备来提高系统的运算能力。
大数据的软件计算框架
从软件方面来说,大数据系统还需要实现大数据的计算框架。从软件功能的角度,存在存储”和“计算”这两种类型的大 数据计算框架。
新编21世纪新闻传播学系列教材·新闻学系列
AlgorithmicJournalism
算法新闻
目 录 Contents
01 02 03 04 05 06
个性化分发与内容生产变革 算法推荐原理 用户画像的标签体系 文本型内容的建模与分析 智能推荐算法 大数据与推荐系统
目 录 Contents
07
基于算法推荐的自媒体定位
08
新媒体背景下的内容生产
09
新媒体时Байду номын сангаас的标题
10
新媒体内容的制作
11
新媒体的内容生产运营
12
人工智能与推荐系统
5 第 章 智能推荐算法
本章要点
本章围绕智能推荐算法的起源、发展、应用和评估展开。首 先介绍智能推荐系统的发端,即智能推荐系统得以发源和发 展的多种前置技术条件和准备,包括大数据技术、机器学习 算法、移动互联网的发展以及用户特点的变化。接下来,以 关联规则推荐算法为例,具体介绍智能推荐算法的原理和过 程、可能的改进及其演进方向。最后介绍如何对推荐算法进 行评估,帮助算法推荐系统筛选最合适的算法。
1. 大数据存储框架(Hadoop+HDFS) 目前,开源的大数据存储平台主要是基于Hadoop平台实现的。Hadoop是一种分布式系统基础架构,用户可以在不了解 分布式底层细节的情况下,开发分布式程序,充分利用集群的计算能力进行高速运算和存储。基于Hadoop技术的大数据 存储平台实现了海量数据的分布式存储,在存储方面实现了一个分布式的文件存储系统HDFS,即Hadoop分布式文件系 统(Hadoop distribute file system)。针对海量数据的分布存储,可以降低存储设备的单点压力,提高存储的容错能力。 因此,大数据系统的内部实现可以由Hadoop平台加上分布式文件系统来支撑存储功能。
相关文档
最新文档