互联网大数据文献综述

互联网大数据文献综述
互联网大数据文献综述

互联网大数据文献综述

大数据分析的趋势

亮点

大数据分析中的当前的最先进技术的概述。

大数据分析的规模和应用前景趋势。

在硬件上的现况和未来的发展趋势,如何帮助我们解决大规模数据集。

讨论目前采用的软件技术和未来趋势,以解决大数据分析应用。

关键词:

大数据分析数据中心分布式系统

摘要:

大数据分析是并行的分布式系统未来的主要应用之一。数据仓库目前应用的规模已经超过EB级,并且其规模还在不断增长。当数据集和相关应用程序超出了他们的规模,给这些的构成要求和软件开发方法的考虑带来了重大挑战。数据集通常是分布式,它们的大小和安全考虑到分布式技术来得到保证。数据经常驻留在不同的平台上计算,对网络能力,容错性,安全性和访问控制的考虑是在许多应用中的关键。在其他应用程序中,分析任务的截止时间主要与数据质量有关。对于大多数新兴应用程序,数据驱动的模型和方法,能够大规模操作的方法,到目

前还未找到。即使知道可以缩放的方法,验证结果又是一个重大的问题。硬件平台的特性和软件堆栈从根本上影响数据分析。在这篇文章中,我们提供了一个概述的最先进的硬件和软件的趋势在大数据分析应用程序前景的应用。

引言

随着互联网关键的技术的发展,计算作为一个实用程序的设想在上世纪90年代中期开始形成。在网格计算时代的早期人们通常认为硬件作为主要资源。网格计算技术专注于分享、选择和聚合各种各样的地理上分布的资源。这些资源包括超级计算机、存储和其他设备,用来解决在科学、工程和商业的大规模计算密

集型问题。这些框架的一个关键特性是他们的支持透明跨域管理和资源管理能力。“数据即资源”的概念被普及在p2p系统。Napster、Gnutella,和Bit Torrent 允许节点共享多媒体数据内容通常直接彼此以分散的方式。这这些框架强调互操作性和动态性,降低成本,资源共享特定的沟通和协作,聚集。然而,在这些平台上,匿名,隐私问题和扩展性问题的考虑是次要的。

最近,云计算环境的可靠性、服务的健壮性被(通常的访问来自客户机的浏览器)来自于客户端,大规模生产的移动设备和通用计算机的访问检验。云计算的服务观念概述为“基础架构即服务”(云计算资源在云中可用),数据即服务(数据在云中可用)和软件即服务(访问程序在云中执行)。从服务提供者的角度来看这提供了相当大的好处(在硬件和管理的成本降低),整体资源的利用率,以及更好的客户端接口。云环境的计算底层通常依赖于高效和弹性的数据中心架构,基于虚拟化的计算和存储技术,高效利用商品硬件组件。目前的数据中心通常规模为成千上万的节点,计算在云计算中经常跨越多个数据节点。

新兴的基于云的环境与分布式数据中心托管的大型数据仓库,同时也为分析提供强力的处理有效的并行/分布式算法的需要。潜在的社会经济效益的大数据分析,与多样性的应用提出是很大的挑战,在本文的其他部分我们重点强调数据分析问题的规模和范围。我们描述了常用的硬件平台上执行分析应用的相关情况,并考虑存储,处理,网络和能量。然后,我们专注于应用程序,即虚拟化技术,运行时系统/执行环境和编程的软件基础模型。我们在多样性数据分析的应用中,对健康和人类福利进行计算机建模与模拟得出一个简短的结论。

1.1数据分析的规模和范围

最近保守的研究估计,在2008年世界上的企业服务器系统已经能处理了

9.57 ×10^21字节的数据。这一数字预计将从这基础上每两年翻了一番。举一个例子,沃尔玛的服务器每过一个小时就要处理超过一百万客户交易,这些信息插入到数据库,存储超过2.5 PB的数据与167座国会图书馆的书籍数量相当。在欧洲核子研究中心的大型强子对撞机每年将产生大约15千兆字节的数据,足以填满超过170万个双层DVD。每天,Facebook产生近500 TB的用户日志数据和数百万TB的图像数据。每分钟,在YouTube有100小时的视频被上传,有135000小时的视频被观看。每一秒,有超过28000个多媒体(MMS)消息被发送。在2012大约4600万的移动应用程序被下载了,每一个应用程序收集到更多的数据。推特的服务上有超过5亿5000万的活跃用户,他们每秒钟产生9100条推特。eBay系统每一天处理超过100 PB的数据。在其他领域,波音喷气发动机每运转30分钟能产生10 TB的操作信息。其中,如果每一天有25000的航班,仅仅数据传感器和机器生产的足迹信息的数据,在横渡一次大西洋将产生几百TB的数据。

这些例子只是惊鸿一瞥,来自不同数据源的生态系统的数据集在迅速扩张。结构化数据(例如,金融,电子医学记录,政府统计),半结构化数据(例如,文本,微博,电子邮件),非结构化(例如,音频和视频),和实时数据(如网络痕迹,一般的监测日志)。如果有组织和适当的分析的话,所有这些应用都有可能提供宝贵的见解。在当今广泛公认需要有效分析的大型数据集的应用程序。这些应用包括医疗保健分析(例如,个性化基因组学),业务流程优化,和社会网络为基础的建议。然而,预测表明数据增长将在很大程度上超过了可预见的成本改善,密度的存储技术,来处理它可用的计算能力和相关的能源熵。例如,在2002和2009之间数据流量增长了56倍,相比,相应的计算能力的增加是16倍(主

要是跟踪穆尔的法律)。相比之下,1998至2005数据中心的规模的增长是每年173%。这些趋势推断,大概需要13年对于计算能力的增加才能满足需求。然而,能源效率并不是像预期在同一时间内增加25倍。这产生几乎40倍的严重的不匹配的增加在数据分析能源足迹上。

负载特性。大数据工作负载的全面研究,可以帮助他们理解对硬件和软件设计的影响。由数值计算的“七个小矮人”,MEHUL,Shah等。试图定义一组“数据小矮人”即关键数据处理内核用来提供当前和未来的数据中心的负载特性的报道。在2010年借鉴一组广泛的负载特性,他们建立了一套分类尺寸(响应时间,访问模式,工作组,数据类型,读与写,处理复杂度),并得出结论,五个工作负载模型可以令人满意的覆盖以数据为中心的工作负载:(一)在PB级规模的分布式排序,(二)在内存中的索引搜索,(三)推荐系统,具有较高的处理负载和规则的通信模式,(四)顺序访问为基础的数据复制(五)视频上传和流交互应答率的服务器。在联机分析处理(OLAP)的工作负载可以表示为(1)、(3)、(4)的组合、在线事务处理(OLTP)的工作量只能部分捕获,在未来可能需要另一个类别,在内存索引和查询支持捕获一些这些负载特性的方面,但工作集因为太大而不能放在内存中。

1.2. 设计考虑

在未来,大的规模、范围和性质(负载特性)的大数据分析应用,能独立的分别对硬件系统,软件系统和架构设计提供有趣的见解。

对硬件的影响。数据访问模式和访问数据的频率(冷与热数据)可以驱动未来的内存层次结构的优化:数据一般为热数据;但是随着时间的推移,它变成了归档,冷的数据,最适合存储在NVM中。然而,有显着的例外的周期性或客户

流失的访问模式(季节相关主题,名人的标题),和热庞大的数据集(比较基因组计算)应加以考虑。此外,潜在的维度之间的相关性出现能对硬件堆栈的进行预测:一个视频,由于存在多种格式或语言字幕,结果有许多版本,这些可以离线生成和存储(因此需要足够的存储)或动态生成(代码转换和翻译调控)数据给数据中心,或是在用户的设备上(客户端计算)带来计算压力。另外,可能要重新考虑相对优先级的进展,在处理器设计的性能的考虑在当前的子系统的I/O 之上。存在这样一种替代的极端,一种选择将是考虑一个可能的“版本”:层次结构的计算支持数据存储的元素,而不是今天的设计存储层次结构为计算元素服务。逐渐瓦解现有的存储层次结构的平滑过渡,这样进一步提供节省能源消耗。了解工作负载也能在硬件识别可能会用于直接执行特殊用途处理单元。图形处理器、现场可编程门阵列(FPGA),专业化的特定应用集成电路(ASIC),和专用的视频编码器/解码器都是值得考虑的。这样的硬件加速器大大减少能源消耗,与通用处理相比较。这些可以集成在芯片上,导致的以数据为中心的家族是非对称处理器。

对软件的影响。软件系统、存储和计算的需要为了迎合一个相当大的问题:数据规模的空间、工作负载的性质和其他应用程序的需求,像一致性、可用性和分区容忍。大数据规模需求高度可扩展的分布式存储系统能够适应大量的数据,有效率的入口和出口的机制;Apache的Flume就是这样的有利于数据收集的系统。此外,这些存储系统应该支持高效查询的内存缓存和其他OLTP工作负载;即使HDFS 最近增加了支持缓存。

不同工作负载需求各种各样的计算特点引擎,流式处理更多的在线数据的查询与事务支持。

大数据分析通常允许对其定量的输出放宽精度约束,从而影响算法设计。随机的算法应用原始的、昂贵的计算内核和最后牺牲精度(数据可证明的界限尺寸/精度权衡)。能源意识到计算内核可以减少能源足迹的分析计算,同时保留性能与最小精度退化(能源/精度权衡)。

2.数据分析的硬件平台

我们现在考虑当前数据分析的硬件平台,以及这些平台将来如何发展。

2.1 内存/存储

在传统的系统设计,磁盘用于数据持久化和DRAM内存更快的访问/磁盘缓存。然而传统磁盘有移动的部件,很大程度上制约了他们的一生和建立对其访问的时间界限。另一方面,DRAM芯片需要静态刷新电路独立消费能源判断是否有数据读/写活动。非易失性存储器(NVM)技术能解决这些缺点,并有望在未来设计发挥重大作用。有几个以数据为中心的NVM应用程序[的建议。基于Flash 的应用可以公开为块存储通过串行连接SCSI(SAS)和串行先进技术附件(SATA)或PCI Express接口甚至结合解散汇总内存提供降低成本效益解决方案。其他类型的非易失性存储器如相变存储器(PCRAM)和忆阻器已提出将集成作为字节寻址的内存在芯片上的存储器总线或直接堆放(3D堆)。非易失性存储器也可以用于实现额外的缓存层次,或更换持久存储,从而用于各级促进减缓内存崩溃的内存类型。这些建议的共同点是稳定的转变用于持久性数据存储的内存接口,理由是性能与简化。

移动计算更接近数据也受到许多大型数据管理任务的一般结构,随后产生相关框架。例如在经常使用的MapReduce范式中,数据被分区在可用的节点和任

务计划,这样配置与数据操作的数量有关。任务和相关数据的搭配也很注重节约能源。最近的毫微级储存方案主张计算与持久性数据存储的搭配。这是让人想起过去的想法,活跃存储,增强磁盘控制器处理特殊计算任务,是当时应用程序范围有限的原始提案。

从进化的角度来看,磁盘仍然具有很高的成本。因此,他们不太可能完全被取代在之后的一段时间。NVM技术应被视为近期未来设计的有吸引力的组成部分。在这方面,我们还应该考虑到变化的应用将引发在总体的软件的栈的变化。例如,当前的文件系统是在以毫秒的延迟优化。NVMs提供延迟减少约三个数量级在这段时间(微秒)。有的建议基于闪存的固态硬盘(SSD)支持key-value 存储抽象,有利于它的工作负载。还有其他人建议固态硬盘作为传统硬盘的缓存组织(混合设计)。理想情况下NVMs应该暴露在的持久性指令集级别(ISA),操作系统可以使用他们有效(例如,通过重新设计的部件,承担记忆波动或提供给上层,放置档案资料节能NVM模块API。)的数据。另一方面,持久的记忆能力将降低分离性;可以通过持久的内存交换解决这个问题。从算法的角度设计和相关的数据结构,non-volatility可以推动替代,优化设计和索引的实现结构,键值存储数据库和文件系统,所有大数据分析的主要组件。

2.2 网络资源对于数据分析

主要考虑设计标准通信协议栈的链路,网络和传输层的设计与互操作性的不同的技术和制造商的组件。在这个设计中链路层是不可靠的,因此拥塞或不可靠的通信信道会造成数据包丢失。为了补救,传输层在最后要求让步传播,从而影响带宽。然而,一个典型的数据中心网络环境是完全不同的广域网。首先,它的信道可以被认为是无损的,这一假设应该理想地反映在它实现的流动机制。在一个

单一的行政控制下,它大多是均匀的,所以向后兼容已经部署的协议不是问题。负载平衡器和应用程序代理从外部通信所以没有单独的内部交通与常规TCP公平性问题。在排队的情况下,往返时间(RTT)可小于250微秒。应用程序同时需要非常高的带宽和非常低的延迟。此外,很少有统计复用,所以一个流可以主导一个特定的路径。

数据中心网络中的一个特殊性能瓶颈是在许多大型网络应用程序广泛使用

的分区/总设计模式:从更高层次的应用程序的请求被分解成块,并在较低层的代理聚集,查看这些代理的反应,然后汇总产生的结果。由此可见,数据以传回多对一的方式遍历一个瓶颈环节。随着并发者数量的增加,吞吐量的应用水平在接收时比容量低几个数量级。例如,这可能发生在MapReduce工作的shuffle 阶段,当中间的键-值对多映射转移到适当的reducers。最近的一个变种TCP,TCP数据中心(DCTCP),解决了这个Fork-Join网络交通结构,利用工程变更协议在大多数商品交换中实现的扩展,允许端到端的网络拥塞通知丢弃数据包。相反,未来的性能问题可能会带动开关设备的定制。

注意,处理特定网络的缺点的细节与选择的协议基本上是相关的。这个基本的竞争者是以太网和无线带宽。无线带宽是一种能量比例网络,这个属性让这种技术的优势,因为能源效率是一个主要的设计目标在未来数据中心。预计这两个选项将在即将到来的未来会成为应用程序为基础。

关于互连技术,光学和电气光学设计有着显着的优点。然而,由于光电转换代表能源效率的瓶颈,我们的目标是使用一个全光开关结构。这种转变将被首先消除了网络接口控制器(NIC),所以网络处理器将直接对话;同样也可以使光成为处理到内存的路径,最近发布的第一个平行光收发模块原型具有每秒传输一个TB

信息能力,由IBM清楚地识别大数据分析作为目标市场,强调设备的能源效率。英特尔还计划推出一个成本有效的光学互连的雷电接口电缆(已准备在苹果产品中使用)。作为一种混合电/光开关的一个例子,太阳神是一个体系结构有显着减少的,布线,成本和功耗的开关元件。它是一个二级多根树的开关和核心交换机,其中的核心包括传统的电分组交换机和微机电系统为基础的光电路开关。包括电气交换机的原因是需要处理在聚集的交通需求之间的不同对突发性证明:支持这一类型的交通所需的(光)电路的数目将是禁止的,和电分组交换将是可取的。

2.3 大数据分析中的能量问题

能量均衡是云计算的一个重要目标系统和组件。大多数数据中心操作超过一半的峰值负载,虽然它们的效率最大化在峰值负载。能量比例意味着功率消耗与负载之间一个线性关系。这是可以实现的明确地使用能量比例的设备,或仅为计算过程中绝对必要的组件。更具体地说,工作整合通常适用于粗—像单个服务器机器一样的细粒度组件,这种方法的适用性很大程度上取决于类型的计算:批量处理产生理想的功率减少但在线或并行应用程序不允许这样的能量储蓄计划。请注意能量相称性不是名义上的光网络技术的特点(静态激光功率消费)。

然而,能量优化与系统在更大的部署中更容易节省电力,特别是在输送电子设备之前的能量,管道移动或存储数据处理。冷却功率交付在大多数情况下,适合于能源的设计和实施。安德烈等人因子数据中心的效率为三个计算设备,服务器的能源转换,执行计电子元件的效率,和计算的本身。尽管第三项是最相关的我们的讨论,前两个因素每瓦特“生产性”消耗2.2瓦的能量。以一个更整体的方法来优化第三项。巴利加等人。考虑优化能源消费在全球云系统首先分析能耗概况的运输,储存,并在各种存储即服务绘制场景服务器,软件作为一种服务,和处

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (3) 大数据定义 (3) 大数据来源 (3) 传统数据库和大数据的比较 (3) 大数据技术 (4) 大数据的存储与管理 (4)

大数据隐私与安全 (5) 大数据在信息管理层面的应用 (6) 大数据在宏观信息管理层面的应用 (6) 大数据在中观信息管理层面的应用 (7) 大数据在微观信息管理层面的应用 (8) 大数据背景下我国信息资源管理现状分析 (9) 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (2) 大数据定义 (2) 大数据来源 (2) 传统数据库和大数据的比较 (3) 大数据技术 (3) 大数据的存储与管理 (4) 大数据隐私与安全 (4) 大数据在信息管理层面的应用 (5) 大数据在宏观信息管理层面的应用 (5) 大数据在中观信息管理层面的应用 (6) 大数据在微观信息管理层面的应用 (7) 大数据背景下我国信息资源管理现状分析 (8)

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的 大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文: 大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理 大数据来源 1)来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等

大数据外文翻译参考文献综述

大数据外文翻译参考文献综述 (文档含中英文对照即英文原文和中文翻译) 原文: Data Mining and Data Publishing Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party

running the algorithm. In contrast, privacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is immunized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy. Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive information of individuals cannot be identified easily. Anonymity Models, k-anonymization techniques have been the focus of intense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information

大数据云计算文献综述

大数据云计算文献综述 一个大数据的调查 摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。 关键字大数据云计算物联网数据中心Hadoop 智能电网大数据分析 1、背景 1.1大数据时代的曙光 在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。 另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。

近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。 目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下: 图一、持续增长的数据 信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。 云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。

大数据时代 文献综述

智慧时代下大数据技术在教育 领域的应用研究综述 姓名:李欢欢学号:2012221111120004 一、前言 大数据是近年来出现在通信和计算机领域中的一个热门关键词。关于大数据,尚未有一个统一的定义,但却有两个观点能够诠释大数据的本质。第一个观点来自于Gartner公司的Merv Adrian在2011年第一季度刊登在Teradata Magazine上的一篇文章,文中指出“数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力”[1]。另一个观点来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年6月发布的《大数据:创新、竞争和生产力的下一个前沿》报告,报告中提出“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集”[2]。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据已经深刻地影响到人们的生活、工作和学习。大数据的意义在于对由多种类型数据构成的数据集体进行分析和研究,提取有利用价值的信息,从而帮助人们在解决问题时可以作出科学的决策。同样大数据的威力强烈地冲击着教育系统,正在成为推动教育系统创新与变革的颠覆性力量。 二、大数据技术在教育领域的应用现状分析 1 大数据定义与特征 大数据(bigdata),又称巨量资料,海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。研究机构Gartner[3]认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,大数据只是数字化时代出现的一种现象。 大数据的主要特点可以概括为4V+1C。4V包含了四个层面:第一,即V olume(大容量),海量数据,规模庞大,已跃升到PB 级别;第二,Velocity(高速度),实时处理,处理速度快,涉及感知、传输、决策、控制开放式循环的大数据,数据实时处理有着极高要求,通过传统数据库查询方式得到的“当前结果”可能已没有价值,这也是大数据和传统的数据挖掘技术本质上的不同;第三,Variety(多样性),数据类型繁多:网络日志、视频、地理位置信息、图片等都是大数据;第四,Veracity(低密度),数据价值大,但价值密度低。对海量数据挖掘分析,对未来趋势与模式的可预测分析,深度复杂分析;“1C”即Complexity,是通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[4]。 2 国内研究现状 对于“智慧时代下大数据技术在教育领域的应用”国内研究的现状,我主要通过借助中国知网提供的论文发表数据进行分析。在中国知网中选择“高级检索”类型,并在检索条件中选择“主题”检索,输入“大数据”并含“教育”,截止到2014年4月17日共检索出303 条结果与之相关,通过手工筛选,把会议报道等无关信息剔除掉,剩余160篇文章。 大数据在教育领域的应用,与国外相比,国内起步稍晚,还未形成整体力量。虽然2009年开始,大数据就成为了流行词汇,但是它在教育领域的应用是近3年才出现的。国内最早

大数据的经济学研究文献综述

大数据的经济学研究文献综述 摘要: 本文从大数据背景下的经济学研究出发,分析了大数据背景下对传统经济学所带来的冲击和挑战,以及大数据在经济学中的应用。大数据的应用给传统经济学带来了全新的方法,更重要的是,大数据给传统经济学带了全新的视角。 【关键词】大数据;大数据经济学;传统经济学;挑战 Abstract This article analyzed the big data which bring a big impact and challenges on the traditional economics under the background of big data, as well as the big data applications in economics. Big data’s applications has brought a new approach to traditional economics, more importantly, big data has brought a new perspective of traditional economics. 【Key words】big data; big data economics; traditional economics; challenges 1国外关于大数据经济学问题的探讨现状 对于大数据的概念,企业和学术界目前尚未形成公认的准确定义。维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。Dumbill ( 2012)采用IBM 公司的观点,认为大数据具有“3V”特点,即规模性( Volume ) 、多样( Variety ) 、实时性( Velocity) 。以IDC 为代表的业界认为大数据具备“4V”特点,即在3V 的基础上增加价值性( Value) 。权威IT 研究与顾问咨询公司Gartner将大数据定义为“在一个或多个维度上超出传统信息技术的处理能力的极端信息管理和处理问题。美国国家科学基金会( NSF) 则将大数据定义为“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。 维克托(2013)赞同许多物理学家的看法,认为世界的本质就是数据。因此,大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。

大数据研究综述

大数据文献综述 随着以博客、社交网络、基于位置的服务LBS为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,数据正以前所未有的速度在不断地增长和累积,国际数据公司( IDC) 的数字宇宙研究报告称[1]:2011 年全球被创建和被复制的数据总量超过1. 8ZB,且增长趋势遵循新摩尔定律( 全球数据量大约每两年翻一番) ,预计 2020 年将达到 35ZB.与此同时,数据复杂性也急剧增长,其多样性、低价值密度、实时性等复杂特征日益显著,大数据时代已经来到。学术界、产业界甚至于政府机构都已经开始密切关注大数据问题,并对其产生浓厚的兴趣。 一、大数据国内外发展现状 对于学术界,1989 年在美国底特律召开的第 11 届国际人工智能联合会议专题讨论会上,首次提出了“数据库中的知识发现(KDD)”的概念。在1995年召开了第一届知识发现与数据挖掘国际会议,随着与会人员的增加,KDD国际学术成为年会。大数据的兴起,主要是国际顶尖期刊《Nature》早在2008年推出了Big data专刊[2]。计算社区联盟(computing community consortium ) 在2008年发表了报告“big data computing:creating revolutionary breakthroughs in commerce, science and society ”[3],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。《science》在2011年2月推出专刊“dealing with data ”[4],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性.美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《challenges and opportunities with big data》[5]。该白皮书从学术的角度出发介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。全球知名的咨询公司麦肯锡(McKinsey )2011年6月份发布了一份关于大数据的详尽报告“big data :the next frontier for innovation , competiton,and productivity”[6],对大数据的影响、关键技术和应用领域等都进行了详尽的分析。进入2012年以来,大数据的关注度与日俱增1月份的达沃斯世界经济论坛上,大数据是主题之一,该次会议还特别针对大数据发布了报告“big data,big compat :new possibilities for international development”[7],探讨了新的数据产生方式下,如何更好地利用数据来产生良好的社会效益.该报告重点关注了个人产生的移动数据与其他数据的融合与利用.3月份美国奥巴马政府发布了“大数据研究和发展倡议”[8](big data research and development initiative),投资2亿以上美元,正式启动“大数据发展计划”.计划在科学研究、环境、生物医学等领域利用大数据技术进行突破.奥巴马政府的这一计划被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措.与此同时,联合国一个名为“global pulse ”的倡议项目在今年5月发布报告“big data for development :challenges or opportunities”[9],该报告主要阐述大数据时代各国特别是发展中国家在面临数据洪流(data deluge)的情况下所遇到的机遇与挑战,同时还对大数据的应用进行了初步的解读.《纽约时报》的文章“the age of big data ”[10]。则通过主流媒体的宣传使普通民众开始意识到大数据的存在,以及大数据对于人们日常生活的影响。 在产业界,经济利益成为主要的推动力,IBM、ORACLE、微软、谷歌、亚马逊、Facebook、Teradata、EMC、惠普等跨国巨头也因大数据技术的发展而更加具有竞争力[11]。仅2009 年一年,谷歌公司通过大数据业务对美国经济贡献540 亿

大数据文献综述范文写比较文学的文献综述范文

大数据文献综述范文写比较文学的文献综述范文文献综述格式及写作技巧(附文献综述范文) 文献综述是在对文献进行阅读、选择、比较、分类、分析和综合的基础上,研究者用自己的语言对某一问题的研究状况进行综合叙述的情报研究成果。文献的搜集、、分析都为文献综述的撰写奠定了基础。 文献综述格式一般包括: 文献综述的引言: 包括撰写文献综述的原因、意义、文献的范围、正文的标题及基本内容提要; 文献综述的正文: 是文献综述的主要内容,包括某一课题研究的历史 (寻求研究问题的发展历程)、现状、基本内容 (寻求认识的进步),研究方法的分析(寻求研究方法的借鉴),已解决的问题和尚存的问题,重点、详尽地阐述对当前的影响及发展趋势,这样不但可以使研究者确定

研究方向,而且便于他人了解该课题研究的起点和切入点,是在他人研究的基础上有所创新; 文献综述的结论: 文献研究的结论,概括指出自己对该课题的研究意见,存在的不同意见和有待解决的问题等; 文献综述的附录: 列出 ___,说明文献综述所依据的资料,增加综述的可信度,便于读者进一步检索。 一、文献综述不应是对已有文献的重复、罗列和一般性介绍,而应是对以往研究的优点、不足和贡献的批判性分析与评论。因此,文献综述应包括综合提炼和分析评论双重含义。 文献综述范文1:“问题——探索——交流”小学数学教学模式的研究

... ...我们在网上浏览了数百种教学模式,下载了二百余篇有关教学模式的文章,研读了五十余篇。概括起来,我国的课堂教学模式可分三类: (1) 传统教学模式——“教师中心论”。这类教学模式的主要理论根据是行为主义学习理论,是我国长期以来学校教学的主流模式。它的优点是... ...,它的缺陷是... ... (2) 现代教学模式——“学生中心论”。这类教学模式的主要理论依据是建构主义学习理论,主张从教学思想、教学设计、教学方法以及教学管理等方面均以学生为中心,20世纪 90年代以来,随着信息技术在教学中的应用,得到迅速发展。它的优点是... ...,它的缺陷是... ... (3) 优势互补教学模式——“主导——主体论”。这类教学模式是以教师为主导,以学生为主体,兼取行为主义和建构主义学习理论之长并弃其之短,是对“教师中心论”和“学生中心论”的扬弃。“主导——主体论”教学模式体现了辩证唯物主义认识论,但在教学实践中还没有行之有效的可以操作的教学方法和模式。 以教师为中心的传统小学数学教学模式可表述为“复习导入——传授新知——总结归纳——巩固练习——布置作业”。这种教学模

文献综述 大数据下医疗信息化研究

XXXX大学 毕业论文(设计)文献综述 大数据下医疗信息化研究文 献综述 院系名称:XXXX学院 专业:xxxxxxxx 学生姓名:Docer 学号: 123456789 指导老师:Docer XXXX大学教务处制

2017年3月1日 大数据下医疗信息化研究文献综述 摘要:医疗信息化是大数据时代下医疗卫生行业发展的总体趋势。但是,医疗信息化的发展目前处于起步阶段,发展中存在一些潜在问题,但是云计算和物联网等技术的发展为医疗信息化提供新的契机与发展空间。本文拟分析目前医疗信息化的发展现状、发展的问题与挑战并分析发展的机遇,提出医疗信息化发展的建议。 关键词:大数据医疗信息化研究综述 一、医疗信息化发展现状 对中国的医疗卫生信息化建设而言,2012年是一个值得纪念的年份。这一年,医疗信息化投入成倍增加,电子病历评级全面展开,医院等级评审重新启动,移动医疗、区域医疗、物联网持续升温,云计算、大数据崭露头角,信息安全得到更多重视,医院信息规范和标准化进一步加强,一些新的企业进军医疗IT市场医疗信息化的热潮扑面而来,让每一个行业从业者都切实感受到了它的热度。2012年国务院发布的《中国医疗卫生事业白皮书》中明确指出:“健康是促进人的全面发展的必然要求,……在中国这个有着13亿多人口的发展中大国,医疗卫生关系亿万人民健康,是一个重大民生问题。”医疗信息化则是医疗卫生事业能否更好服务于公众的重要保障。近年来信息技术飞速发展,实现物物相联的物联网和使IT资源按需分配的云计算等技术使得医疗卫生信息化日新月异,2013年成为大数据元年。医疗卫生信息平台、业务系统、数字化医疗仪器与设备在医疗卫生机构迅速普及开来,与之同时产生了大量的医疗信息资源。如何让利用这些海量的信息资源更好地为医疗卫生行业的管理、医院的诊疗、科研和教学服务,已经越来越成为人们所关注的热点。与此同时,医疗数据的隐私性、安全性问题也随之而来,特别是当这些数据需要发布在网上供二次使用的时候。近些年来,随着政府对医疗卫生信息化建设重视程度的加深和政府投人的增多,我

互联网与大数据思维 的文献综述

【题名】互联网和大数据思维 【作者】郭大蕾 【学号】 【系别】11级广播电视新闻学 【前言】 “大数据”的提出由来已久,由于互联网和信息技术的进步,各个领域的数据量都在迅猛增长,而通过数据的分析、开发和整合,人类现在可以发现新的知识、创造新的价值,从而带来“大知识”、“大科技”、“大智能”、“大利润”和“大发展”。伴随我们的理念、思维方式、营销方法论势必也要进行变革,即所谓的大数据思维。而“美丽说”作为大型女性时尚社交网站,可以说是大数据思维运用中新型互联网社交网站的典型案例。 大数据,既是“因为小所以大”,也是“因为大所以小”。因为小所以大,是大数据的“有”。因为互联网上有很细节、很海量的数据,在互联网的社会环境下可以通过技术方法在经济可承受的前提下把数据找回来。而因为大所以小,是大数据的“用”。由于有了丰富的数据,各类互联网媒体、服务才可以针对某一个特定用户,给他提供更精准的服务,将传统的“一对多灌输式的广告”变为“个性化推荐”。 “大数据”,其实并不是新的概念和现象。早在1980 年代,美国就有人提出了“大数据”的概念。30多年来,由于互联网和信息技术的进步,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨。最近这一两年,“大数据”这个概念在美国变得越来越流行、越来越重要。2012年3月,美国联邦政府宣布投入2亿多美元启动大数据的研发任务,并把大数据定义为和历史上的互联网、超级计算同等重要的国家战略。之所以上升到国家战略的层面,是因为随着数据的爆炸,数据的收集、保存、维护、共享、使用等等任务,都成为横跨各个领域、牵一发而动全身的现象和挑战。但这些现象和挑战的重中之重,还是因为人类分析和使用数据的能力大幅提高,通过数据的分析、开发和整合,人类现在可以发现新的知识、创造新的价值,从而带来“大知识”、“大科技”、“大智能”、“大利润”和“大发展”。 而我们一直生活在数据的世界里,但以往受限于技术,主要应用抽样、局部、片面的数据,或者在不能获得实证数据的时候依赖经验、理论、假设等去发现未知领域的规律。而现在,互联网推动了大数据由后台走向前台。

大数据的经济学研究文献综述

大数据的经济学研究文献综述 学院:金融学院班级:13金融学硕姓名:熊美兰 摘要:本文从传媒经济本体研究、产业经济学视角下的传媒经济研究、传媒经济研究工具的创新等方面来管窥近年来该领域的主要关注点以及新趋势和新突破,同时关注传媒经济学科体系研究的最新发展。本年度传媒经济研究主题较为集中,主要是探讨传媒产业的数字化生存、全媒体转型策略与路径。演化经济学、制度经济学、计算机和通信技术等视角和方法的引人,更加凸显了传媒经济学“跨学科”和“融合”的特征。 关键字:全媒体;三网联合;大数据;云计算;传媒经济学 一、引言 2012年,Twitter上每天发布超过4亿条微博,Facebook上每天更新的照片超过1000万张,Farecast公司用将近10万亿条价格记录来预测机票价格,准确率高达75%,采用该系统购票,平均每张机票可节省50美元Gartner 预测未来5年全球大数据将会增加8倍,其中80%是非结构化数据2013年世界上存储的数据将达到1.2ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB),如果将这些数据刻录到CDR只读光盘上,并堆起来,其高度将是地球到月球距离的5倍2011年,麦肯锡公司对全世界大数据的分布作了一个研究和统计,中国2010年新增的数据量约为250PB,而欧洲约为2000PB,美国约为3500PB,大数据已经深深地充斥了人类经济社会的许多角落。 著名未来学家阿尔文托夫勒(1980)[1]很早就在其经典著作《第三次浪潮》中,将大数据热情地赞誉为第三次浪潮的华彩乐章,但是大数据成为高频词是最近一两年的事情。随着社交网络“物联网”云计算的兴起,数据规模越来越大,2011年5月,全球知名咨询公司麦肯锡(Mckinsey andCompany)发布了《大数据: 创新、竞争和生产力的下一个前沿领域》[2]报告,标志着“大数据”时代的到来,指出数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用,将预示着新一波生产率增长和消费者盈余浪潮的到来,2012年世界经济论坛发布了《大数据、大影响》[3]的报告,从金融服务、健康教育农业、医疗等多个领域阐述了大数据给世界经济社会发展带来的机会。2012年3月,奥巴马政府发布《大数据研究和发展倡议》[4],投资2.5亿美元,正式启动大数据发展计划,计划在科学研究、环境、

大数据下医患关系研究的文献综述

大数据下医患关系研究的文献综述

————————————————————————————————作者:————————————————————————————————日期:

研究生课程论文《大数据下医患关系研究的文献综述》 课程名称中国特色社会主义理论与实践研究 姓名赖志远 学号1611403003 专业机械工程 任课教师朱银端 开课时间2016-2017学年第一学期

教师评阅意见: 论文成绩评阅日期 课程论文提交时间:年月日

大数据下医患关系研究的文献综述 赖志远 摘要:近年来,关于医疗纠纷的新闻报道层出不穷,“医闹”现象频频出现在公众的视野当中,不和谐的医患关系已经成为当下中国社会的热点话题。学者们就医患关系的性质、影响因素及应对策略等方面进行了深入分析探讨,形成了许多富有见地的成果。本文在大数据的背景下,以医患关系热点问题为中心进行探讨,对近年来的理论成果进行分析总结,主要从国内医患关系的性质、影响因素和构建和谐医患关系的对策这三个方面进行阐述,并在此基础上提出了相关看法及建议。 关键词:大数据医患关系文献综述 一、医患关系的性质 要界定医患关系的性质,首先要弄清医患关系这一概念的内涵和外延。医患关系的内涵和外延,因审视角度的不同而有所差异。从医学角度看,医患关系是医方与患方在诊疗护理过程中产生的特定医治关系。广义上,医方包括医疗机构、医疗者和护士;患方包括患者、患者家属及患者家属以外的监护人。由此可见,医患关系是一个涉及六方面当事人,由诊断、治疗、护理三方面结合而成的较为复杂的社会关系,其中最为关键的是医疗者与患者之间的关系。 李运华认为医患关系的本质是商品货币性质。目前,各国不论是发达国家还是发展中国家,也不论是资本主义或是社会主义,为本国民提供医疗健康保障,免除或是减轻医疗经济负担已经成为普遍的政策方针,只是形式和程度不同。由此可见医疗服务的福利性,但这是存在于医疗机构与国家,特别是患者与国家之间的关系,并非是存在于医院与患者之间。所以说,这种福利性只是给医患关系的商品货币交换关系披上了一层独特的外衣,即使医患之间的货币交换采取一种特别的方式。其中的奥秘在于,医疗机构的服务经费大部分来源于政府的拨款,而这拨款实际上来自于政府对全民的税收,患者在接受医疗服务时享受的福利可以看做是国家或者社会通过国民收入再分配的方式发放于患者手中,这便是所谓医疗服务的福利性。但是如果把政府从这三者中抽出,医院与患者之间的关系便是不折不扣的商品货币交换的关系。1 陈运来则强调医患关系中的合同性质,认为合同性质才能真正揭示医患关系的本质。其总的看法是医患关系应当是一种民事法律关系,且是民事法律关系中的医疗服务合同关系,主要使用《民法通则》和《合同法》。持合同关系的理由主要由以下五点:一、医患关系是由民法所确认和保护的一种社会关系;二、医患关系是一种以人身权和财产权为内容的社会关系;三、医患关系是一种体现国家意志和当事人意志的思想意志关系;四、医患关系具有平 1李运华. 论医患关系的经济本质与法律性质[J]. 医学与社会,2002,04:42-44.

大数据的商业银行文献综述

大数据的商业银行研究文献综述 学院:金融学院班级:13金融学硕姓名:熊美兰 摘要:随着以社交网络为代表的web2.0的兴起、智能手机的普及、各种监控系统及传感器的大量分布,人类正在进入一个数据大爆炸的时代,“大数据”的概念应运而生。本文第一部分简要概括大数据的内涵和对社会、商业和监管环境造成的普适性影响。第二部分详细分析大数据给商业银行带来的机遇和。在此基础上,第三部分提出若干商业银行应对大数据的策略。 关键字:大数据;商业银行;影响;机遇与挑战;策略 1. 引言 随着以社交网络为代表的web2.0的兴起、智能手机的普及、各种监控系统及传感器的大量分布,人类正在进入一个数据大爆炸的时代,“大数据”的概念应运而生。大数据被誉为继云计算、物联网之后IT产业又一次颠覆性的技术变革,已经引起各方面的高度关注。麦肯锡在2011年发布研报《大数据:下一个创新、竞争和生产率的前沿》(Manyi ka,Chui,Brown,Bughin,Dobbs,Roxburgh,和Byers,2011),认为数据已经渗透到每个行业和业务职能领域,逐渐成为重要的生产要素,而人们对于海量数据的运用,预示着新一波生产率增长和消费者盈余浪潮的到来。麦肯锡认为金融行业是首先能够受益于大数据浪潮的行业;IBM、Oracle、SAP等业界巨头纷纷收购与大数据有关的公司,积极布局大数据领域。作为拥有大量数据的银行业,在大数据的浪潮中将会受到怎样的影响?我们又应该如何应对?在信息科技界和政府层面对大数据的讨论如火如荼之际,系统讨论大数据和商业银行关系的研究文章却十分鲜见。本文第一部分简要概括大数据的内涵和对社会、商业和监管环境造成的普适性影响。第二部分详细分析大数据给商业银行带来的机遇和。在此基础上,第三部分提出若干商业银行应对大数据的策略。 2. 大数据的内涵及其对社会、商业和个人造成的普适性影响 2.1大数据的内涵 大数据是指一般数据库软件难以获取、储存、管理和分析的大容量数据(Manyika,Chui,Brown,Bughin,Dobbs,Roxburgh,和Byers,2011),它具有4V的特点(王伟、吴以四,2012):一是数据容量巨大(volume)。国际数据公司(IDC的研究报告称,

大数据文献综述

大数据文献综述 Company number:【0089WT-8898YT-W8CCB-BUUT-202108】

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:15 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

大数据文献综述英文版

大数据文献综述英文版 Prepared on 24 November 2020

The development and tendency of Big Data Tang Xia (Guilin University of electronic technology, electronic engineeringandautomation, Guilin) Abstract: "Big Data"is the most popular IT word after the "Internet of things"and "Cloud computing". From the source, development, status quo and tendency of big data, we can understand every aspect of it. Big data is one of the most important technologies around the world and every country has their own way to develop the technology. Key words: big data; IT; technology 1 The source of big data Despite the famous futurist Toffler propose the conception of “Big Data” in 1980, for a long time, because the primary stage is still in the development of IT industry and uses of information sources, “Big Data” is not get enough attention by the people in that age[1]. 2 The development of big data Until the financial crisis in 2008 force the IBM ( multi-national corporation of IT industry) proposing conception of “Smart City” and vigorously promote Internet of Things and Cloud computing so that information data has been in a massive growth meanwhile the need for the technology is very urgent. Under this condition, some American data processing companies have focused on developing large-scale concurrent processing system, then the “Big Data” technology become available sooner and Hadoop mass data concurrent processing system has received wide attention. Since 2010, IT giants have proposed their products in big data area. Big companies such as EMC、HP、IBM、Microsoft all purchase other manufacturer relating to big data in order to achieve technical integration[1]. Based on this, we can learn how important the big data strategy is. Development of big data thanks to some big IT companies such as Google、Amazon、China mobile、Alibaba and so on, because they need a optimization way to store and analysis data. Besides, there are also demands of health systems、geographic space remote sensing and digital media[2]. 3 The status quo of big data Nowadays America is in the lead of big data technology and market application. USA federal government announced a “Big Data’s research and development” plan in March,2012, which involved six federal government department the National Science Foundation, Health Research Institute, Department of Energy, Department of Defense, AdvancedResearchProjectsAgency and

相关主题
相关文档
最新文档