大数据综述

大数据综述
大数据综述

大数据综述

大数据作为互联网、物联网、移动计算、云计算之后IT产业又一次颠覆性的技术变革,正在重新定义社会管理与国家战略决策、企业管理决策、组织业务流程、个人决策的过程和方式。随着科技和社会的发展进步加上计算机和网络技术的兴起,社交网络、物联网、云计算以及多种传感器的广泛应用,使数量庞大,种类众多,时效性强为特征的数据的不断涌现,引发了数据规模的爆炸式增长[1]。

国际数据公司(International Data Corporation,IDC)研究报告称:2011年全球被创建和被复制的数据总量超过1. 8ZB,且增长趋势遵循新摩尔定律(全球数据量大约每两年翻一番),预计2020 年将达到35ZB。与此同时,数据复杂性也急剧增长,其多样性(多源、异构、多模态、不连贯语法或语义等) 、低价值密度(大量不相关信息、知识“提纯”难度高)、实时性(数据需实时生成、存储、处理和分析)等复杂特征日益显著。预示着全球已然进入了“大数据”时代[2]。

1.大数据国外研究现状

1.1大数据相关理论的研究

“大数据”这一术语从2008年开始在科技领域中出现,随之引起学术界的广泛研究兴趣。《Nature》与《Science》杂志分别出版专刊,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论大数据处理和应用专题。世界各国政府也高度重视大数据领域的研究和探索,并从国家战略的层面推出研究规划以应对其带来的挑战。虽然大数据研究已在全球范围内成为热点和焦点,但目前国内外大数据相关的研究仍然处于起步阶段,面向管理和决策的大数据研究与应用逐步兴起,研究理念、思路、方法和学术路线等方面的探索已经开始全面展开[3]。

大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有重要的战略意义。目前,大数据已经在政府公共管理、医疗服务、零售业、制造业,以及涉及个人的位置服务等领域得到了广泛应用,并产生了巨大的社会价值和产业空间。麦肯锡公司在一份研究报告中,根据西方产业数据预测,大数据的应用将能为欧洲发达国家的政府节省1000亿欧元以上的运作成本,使美国医疗保健行业的成本降低8%,约每年3000多亿美元,并使得零售商的营业利润率提高60%以上[4]。市场调研机构IDC的“数字宇宙”研究报告中则预测,大数据技术与服务市场在2015年将达到169亿美元,实现40%的年增长率,为IT与通信产业增长率的7倍[5]。大数据中蕴含的巨大商业价值、科学研究价值、社会管理与公共服务价值以及支撑科学决策的价值正在被认知与开发利用。

1.2大数据关键技术进行的研究

1.2.1批量数据处理技术

数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力。Mayer-Schonberger在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果[6]。因此,大数据的处理对于当前存在的技术来说是一种极大的挑战。目前,人们对大数据的处理形式主要是对静态数据的批量处理、对在线数据的实时处理,以及对图数据的综合处理[7]。

批量大数据来源:在互联网领域中,批量大数据来源主要包括:(a)社交网络:Facebook、新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、音视频等不同形式的数据。对这些数据的批量处理可以对社交网络进行分析,发现人与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关的主题,提升用户的体验。(b)电子商务:电子商务中产生大量的购买历史记录、商品评论、商品网页的访问次数和驻留时间等数据,通过批量分析这些数据,每个商铺可以精准地选择其热卖商品,从而提升商品销量;这些数据还能够分析出用户的消费行为,为客户推荐相关商品,以提升优质客户数量。(c)搜索引擎:Google、百度搜索等大型互联网搜索引擎将会产生大量的数据信息[8]。

主要批量数据处理系统:由Google公司2003年研发的Google文件系统GFS 和2004年研发的MapReduce编程模型以其Web环境下批量处理大规模海量数据的特有魅力,在学术界和工业界引起了很大反响。凭借其适合非结构处理、大规模并行处理和简单易用等优势,在互联网搜索和其他大数据分析技术领域取得重大进展,成为主流技术[9]。

1.2.2流式数据处理技术

通俗而言,流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格式复杂,序列往往包含时序特性,或者有其他的有序标签。数据流中的数据格式可以是结构化的、半结构化的甚至是无结构化的。因此流式数据的处理系统要有很好的容错性与异构数据分析能力,能够完成数据的动态清洗、格式处理等.并且,流式数据是活动的(用完即弃),随着时间的推移不断增长,这与传统的数据处理模型(存储→查询)不同,要求系统能够根据局部数据进行计算,保存数据流的动态属性。

流式计算的应用场景:流式计算的应用场景较多,典型的有两类:(a) 数据采集应用:数据采集应用通过主动获取海量的实时数据,及时地挖掘出有价值的信息。当前数据采集应用有日志采集、传感器采集、Web数据采集等。日志采集系统是针对各类平台不断产生的大量日志信息量身订做的处理系统,通过流式挖掘日志信息,达到动态提醒与预警功能。传感器采集系统(物联网)通过采集传感器的信息(通常包含时间、位置、环境和行为等内容),实时分析提供动态的信息展示,目前主要应用于智能交通、环境监控、灾难预警等。Web 数据采集系统是利用网络爬虫程序抓取万维网上的内容,通过清洗、归类、分析并挖掘其数据价值。(b) 金融银行业的应用:在金融银行领域的日常运营过程中会产生大量数据,这些数据的时效性往往较短,不仅有结构化数据,也会有半结构化和非结构化数据.通过对这些大数据的流式计算,发现隐含于其中的内在特征,可帮助金融银行进行实时决策。这与传统的商业智能(BI)分析不同,BI 要求数据是静态的,通过数据挖掘技术,获得数据的价值.然而在瞬息万变的场景下,诸如股票期货市场,数据挖掘技术不能及时地响应需求,就需要借助流式数据处理的帮助。

流式数据处理系统:流式数据处理已经在业界得到广泛的应用,典型的有Twitter 的Storm,Facebook 的Scribe,Linkedin 的Samza,Cloudera 的Flume,Apache 的Nutch。

1.2.3交互式数据处理技术

在大数据环境下,数据量的急剧膨胀是交互式数据处理系统面临的首要问题。互联网领域。在互联网领域中,主要体现了人际间的交互.随着互联网技术的发展,传统

的简单按需响应的人机互动已不能满足用户的需求,用户之间也需要交互,这种需求诞生了互联网中交互式数据处理的各种平台,如搜索引擎、电子邮件、即时通讯工具、社交网络、微博、博客以及电子商务等,用户可以在这些平台上获取或分享各种信息。此外,各种交互式问答平台,如百度的知道、新浪的爱问以及Yahoo!的知识堂等。由此可见,用户与平台之间的交互变得越来越容易,越来越频繁。这些平台中数据类型的多样性,使得传统的关系数据库不能满足交互式数据处理的实时性需求。

目前,各大平台主要使用NoSQL类型的数据库系统来处理交互式的数据,如HBase[10]采用多维有续表的列式存储方式;MongoDB[11]采用JSON格式的数据嵌套存储方式。大多NoSQL 数据库不提供Join 等关系数据库的操作模式,以增加数据操作的实时性。

交互式数据处理系统:交互式数据处理系统的典型代表系统是Berkeley的Spark系统和Google 的Dremel系统。

1.2.4图数据处理技术

图由于自身的结构特征,可以很好地表示事物之间的关系,在近几年已成为各学科研究的热点。图中点和边的强关联性,需要图数据处理系统对图数据进行一系列的操作,包括图数据的存储、图查询、最短路径查询、关键字查询、图模式挖掘以及图数据的分类、聚类等.随着图中节点和边数的增多(达到几千万甚至上亿数),图数据处理的复杂性给图数据处理系统提出了严峻的挑战。图能很好地表示各实体之间的关系,因此,在各个领域得到了广泛的应用,如计算机领域、自然科学领域以及交通领域。

当今世界上比较流行的 3 个典型的图数据处理系统,包括Google的Pregel 系统,Neo4j系统和微软的Trinity 系统。

1.3大数据与云计算相结合的研究

大数据分析是大数据研究领域的核心内容之一。然而云计算技术对大数据的分析具有得天独厚的优势。Google 首席经济学家Hal Varian 教授指出:“数据正在变得无处不在、触手可及;而数据创造的真正价值,在于我们能否提供进一步的稀缺的附加服务。这种增值服务就是数据分析[。”数据的背后隐藏着信息,而信息之中蕴含着知识和智慧。大数据作为具有潜在价值的原始数据资产,只有通过深入分析才能挖掘出所需的信息、知识以及智慧.未来人们的决策将日益依赖于大数据分析的结果,而非单纯的经验和直觉。

早在2009年, 联合国就启动了“全球脉动计划”, 拟通过云计算技术对大数据进行分析进而推动落后地区的发展, 2011 年 5 月,全球知名咨询公司麦肯锡( Mckinsey and Company)发布了《大数据: 创新、竞争和生产力的下一个前沿领域》[12]报告,报告指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素[13]而2012 年1 月的世界经济论坛年会也把“云计算与大数据”作为重要议题之一。2012年3月, 美国政府提出“大数据研究和发展倡议”, 发起全球开放政府数据运动, 把大数据的分析放在重要的战略位置. 英国政府也将大数据分析技术作为重点发展的科技领域, 在发展8 类高新技术的 6 亿英镑投资中, 大数据的注资占三成。2014 年7月, 欧盟委员会也呼吁各成员国积极发展大数据技术,并将采取具体措施发展大数据业务. 例如建立大数据领域的公私合作关系;依托

“地平线2020”科研规划, 创建开放式数据孵化器;成立多个超级云计算中心;在成员国创建数据处理设施网络[14]。

评述:国外在对大数据的行研究,主要集中在对大数据格式的转化、数据转移和大数据及时处理的问题上,但是由于大数据具有异构性和异质性的特点,所以学者需要设法提高大数据格式转化的效率和大数据的处理速率,目前国外学者主要从批量数据、流式数据、交互式数据和图数据处理技术进行研究,目的在于加速大数据的处理和计算能力从而有效的提高大数据的应用价值。

2.大数据国内研究现状

日前,IDC的首份关于大数据的报告《中国大数据技术与服务市场2012-2016年预测与分析》发布,该报告显示大数据市场规模将从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。该报告指出中国已进入大数据时代。

IDC中国负责商业分析软件市场研究的经理潘永花指出:“从全球看,大型的IT公司普遍增加了对大数据相关技术和产品的投资,同时也出现了不少新的关注大数据的小型公司。在中国,互联网巨头是率先使用大数据技术的用户,但他们主要基于开源软件自主开发大数据应用。电信和银行领域开始对大数据技术和服务产生浓厚的兴趣,将会从非关键应用开始尝试使用大数据解决方案。”

在中国,移动互联网、电子商务、物联网以及社交媒体的快速发展已经使我们进入了大数据时代。潘永花认为,大数据市场不是由某些特定产品所驱动的,每种应用实例都需要不同层次的产品组合,包括服务器、存储、网络、软件和服务等,以获得更好的应用效果。

2.1大数据相关理论研究

在我国学术界和产业界也早已经开始高度重视大数据的研究和应用的工作,并纷纷启动了相应的研究计划。

在政府层面,科技部“十二五”部署了关于物联网、云计算的相关专项。2012 年,中国科学院院长白春礼院士呼吁中国应制定国家大数据战略。同年 3 月,科技部发布的《“十二五”国家科技计划信息技术领域2013 年度备选项目征集指南》中的“先进计算”板块己明确提出“面向大数据的先进存储结构及关键技术”,国家“973计划”、“863计划”、国家自然科学基金等也分别设立了针对大数据的研究计划和专项。地方政府也对大数据战略高度重视,2013 年上海市提出了《上海推进大数据研究与发展三年行动计划》,重庆市提出了《重庆市人民政府关于印发重庆市大数据行动计划的通知》,2014 年广东省成立大数据管理局负责研究拟订并组织实施大数据战略、规划和政策措施,引导和推动大数据研究和应用工作。贵州、河南和承德等省市也都推出了各自的大数据发展规划。

在学术研究层面, 国内许多高等院校和研究所开始成立大数据的研究机构。与此同时,国内有关大数据的学术组织和活动也纷纷成立和开展。2012 年中国计算机学会和中国通信学会都成立了大数据专家委员会,教育部也在人民大学成立“萨师煊大数据分析与管理国际研究中心”。近年来开展了许多学术活动,主要包括:CCF大数据学术会议、中国大数据技术创新与创业大赛、大数据分析与管理国际研讨会、大数据科学与工程国际学术研讨会、中国大数据技术大会和中国国际大数据大会等。

在产业层面,国内不少知名企业或组织也成立了大数据产品团队和实验室,力争在大数据产业竞争中占据领先地位。

2.2大数据关键技术研究

国内,大数据技术的发展呈现良好势头。华为提供了基于x86服务器的SmartVision大数据处理解决方案,催生数据基础架构的革新。SmartVision方案引入了流处理机制、提供统一的存储处理平台、提供基于虚拟机的弹性服务方案,是一个系统性的工程,在存储、计算、网络等硬件方面拥有完整的多层次的产品线。在“2012华为云计算大会”上,推出了OceanStor MVX 大数据存储解决方案,存储系统是融合了Scale-out NAS、Scale-out Database 和Scale-out Backup,实现存储、分析、备份多位一体,面向大数据存储的集群存储系统[15]。

周江等人提出了面向大数据分析,用于满足数据中心和互联网应用服务的分布式文件系统Clover。该系统是一个虚拟文件系统,采用多元数据服务器架构,为系统客户提供高可扩展和高可用的存储服务.它采用基于目录划分和一致性Hash算法的两级映射机制来管理名字空间,提高了系统的可扩展性,同时引入分布式全局目录表,减少了元数据迁移带来的开销.它基于共享存储池设计,利用改进的两阶段提交协议,解决了扩展元数据服务所带来的分布式元数据操作一致性问题.Clover 还提出了基于共享存储池的高可用机制,提高了元数据的可靠性[16].孟小峰等人利用空间角度和距离对整个数据进行划分,考虑到MapReduce在计算中slave节点间不进行信息实时共享的特性,提出了一种简便的数据筛选方法。从数据划分、数据筛选等方面对云环境下的大数据Top-K查询问题进行研究[17][18]。

2.3大数据与云计算相结合的研究

2013年12月13-15日,国际高级云计算与大数据会议(International Conference om Advanced Cloud and Big Data,CBD)在南京东南大学成功召开。Bai Li提出一种基于内部反馈信息的人工蜂群算法,并针对蛋白质序列应用与粒子群优化算法、标准人工蜂群算法和差分进化算法进行比较,验证了该算法的有效性和鲁棒性。Zheng zhong提出一种新的基于计算智能和贝叶斯模拟的通用算法策略。Zhe Liu提出了改进的马尔科夫链蒙特卡洛的1目标辨识方法,并用仿真实例验证了算法的有效性。

广大学者认为:大数据的发展离不开云计算技术,云计算支撑着大数据存储、管理以及数据分析等。因此学者把目光聚集在大数据与云计算的相结合的研究上。大数据与云计算它们都是为数据存储和处理服务的,都需要占用大量的存储和计算资源,而且大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术也都是云计算的关键技术。学者余从国认为云计算和大数据实际上是工具与用途的关系,即云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有价值的用武之地。大数据若与云计算相结合,将相得益彰,互相都能发挥最大的优势。云计算能为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,并更方便地提供服务;而来自大数据的业务需求,能为云计算的落地找到更多更好的实际应用。

评述:综观国内对大数据领域的研究和应用发展现状可见,大数据相关的研究与应用目前仍然处于起步阶段,学术研究大多局限于宏观层面;基于互联网和社会媒体的企业大数据研究与应用亟需进一步的深入开展;现有的大数据研究大多立足于信息科学,侧重于大数据的获取、存储、处理、挖掘和信息安全等方面,鲜有

从管理学的角度探讨大数据对于现代企业生产管理和商务运营决策等方面带来的变革与冲击的研究。

3.总评:由于大数据提出时间较晚,国内外相关的学术研究尚处在探索阶段,已有的研究主要围绕两条研究主线。

第一条研究主线是数据科学研究,主要关注大数据的技术框架与关键技术。本领域的研究主要集中于大数据的储存与处理。大数据虽来源广泛,但其最基本处理流程相同,即为在合适的工具辅助下,对广泛异构旳数据源进行抽取与集成,结果按照一定的标准统一储存,主要处理模式可分为流处理与批处理。大数据研究的重要目标之一就是提出类似关系型数据库的科学理论来指导当前现实中越来越多的海量非结构化数据的存储与处理。

第二条主线是社会科学的大数据研究,集中在商业智能与分析领域。在大数据时代,公司需要能够确定、联合以及管理多来源的数据,通过“数据挖掘”来构建模型用来预测和优化产出,试图从模型中寻找商业机会或威胁,而不是像从前决策那样由一个问题或假设展开,这彻底颠覆了企业决策的过程,且大数据为决策提供事后评价。

通过以上文献综述可见,现有的研究基本遵循两个核心理论的逻辑:一是基于信息价值论的大数据商业价值研究。信息价值论的核心是信息的价值具有针对性、及时性和准确性。第二是探讨大数据价值增值过程与路径。虽然国内外学者开始关注大数据的商业价值研宄,但是这些研究尚处于起步阶段,缺乏成熟的理论体系和可供借鉴的研究成果。

主要参考文献:

[1] 马建光.大数据的概念、特征及其应用[J]. 国防科技, 2013,34(2):10-18.

[2]GANTZ J, REINSEL D. Extracting value from chaos[C]. IDC iView, 2011: 1–12.

[3]张引.大数据应用的现状与展望[J].计算机研究与发展,11(50):216-233.

[4] 陶雪娇.大数据研究综述[J]. 系统仿真学报,2013,(25):142-147 .

[5]李国杰.大数据研究的科学价值[J].中国计算机学会通信, 2012, 8(9): 8-15.

[6] Mayer-Schonberger V, Cukier K. Big data: A revolution that will transform how we live, work, and think[J]. Houghton Mifflin Harcourt, 2013. 1(5):33-41.

[7] Sun DW, Zhang GY, Zheng WM. Big data stream computing:Technologies and instances[J].Journal of Software, 2014,25(4):839-862.

[8] 程学旗. 大数据系统和分析技术综述[J]. 软件学报, 2014,25(9):1889-1908.

[9]Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Communications of the ACM, 2008,51(1): 107-113.

[10] Melnik S, Gubarev A, Long JJ, Romer G, Shivakumar S, Tolton M, Vassilakis T. Dremel: Interactive analysis of Web-scale datasets. Proc. of the VLDB Endowment, 2010,3(1-2):330-339.

[11] Malewicz G, Austern MH, Bik AJ, Dehnert JC, Horn I, Leiser N, Czajkowski G. Pregel: A system for large-scale graph processing. In: Proc. of the 2010 ACM SIGMOD Int’l Conf. on Management of Data. ACM, 2010. 135-146.

[12]Labrinidis A, Jagadish HV. Challenges and opportunities with big data. PVLDB, 2012,5(12):2032-2033.

[13] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD skills: New analysis practices for big data. PVLDB, 2009,2(2): 1481-1492.

[14]任磊,杜一,马帅. 大数据可视分析综述[J]. 软件学报, 2014, 5(9): 1909-1936.

[15]CT 论坛.华为SmartVision大数据解决方案[Z]. 2012https://www.360docs.net/doc/db5764969.html,.

[16] 周江. 面向大数据分析的分布式文件系统关键技术[J]. 计算机研究与发展, 2014,51(2):382-39.

[17]孟小峰,慈祥.大数据管理:概念、技术与挑战.计算机研究与发展,2013,50(1):146-169.

[18] 慈祥,孟小峰. 一种云环境下的大数据Top—K查询方法[J]. 软件学报, 2014,25(4):813-825.

[19]冯芷艳.大数据背景下商务管理研究若干前言课题[J].管理科学学报,2013,16(1):5-6.

[20]王珊.架构大数据:挑战、现状与展望[J].计算机学报,2011,10(34),1745-1750.

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

国内外大数据产业发展现状与趋势研究

龙源期刊网 https://www.360docs.net/doc/db5764969.html, 国内外大数据产业发展现状与趋势研究 作者:方申国谢楠 来源:《信息化建设》2017年第06期 大数据作为新财富,价值堪比石油。 进入21世纪以来,随着物联网、电子商务、社会化网络的快速发展,数据体量迎来了爆炸式的增长,大数据正在成为世界上最重要的土壤和基础。根据IDC(互联网数据中心)预测,2020年的数据增长量将是2010年的44倍,达到35ZB。世界经济论坛报告称,“大数据为新财富,价值堪比石油”。随着计算机及其存储设备、互联网、云计算等技术的发展,大数据应用领域随之不断丰富。大数据产业将依赖快速聚集的社会资源,在数据和应用驱动的创新下,不断丰富商业模式,构建出多层多样的市场格局,成为引领信息技术产业发展的核心引擎、推动社会进步的重要力量。 大数据产业发展现状 全球大数据产业发展概况 目前,大数据以爆炸式的发展速度迅速蔓延至各行各业。随着各国抢抓战略布局,不断加大扶持力度,全球大数据市场规模保持了高速增长态势。据IDC预测,全球大数据市场规模 年增长率达40%,在2017年将达到530亿美元。美国奥巴马政府于2012年3月宣布投资2亿美元启动“大数据研究和发展计划”,将“大数据研究”上升为国家意志;2015年发布“大数据研究和发展计划”,深入推动大数据技术研发,同时还鼓励产业、大学和研究机构、非盈利机构与政府一起努力,共享大数据提供的机遇。目前,美国大数据产业增长率已超过71%,大数据在美国健康医疗、公共管理、零售业、制造业等领域产生了巨大的经济效益。英国政府自2013年开始就注重对大数据技术的研发投入,2015年投入7300万英镑用于55个政府的大数据应用项目,投资兴办大数据研究中心,通过大数据技术在公开平台上发布了各层级数据资源,直接或间接为英国增加了近490亿至660亿英镑的收入,并预测到2017年,大数据技术可以为英国提供5.8万个新的工作岗位,或将带来2160亿英镑的经济增长。法国2011年推出了公开的数据平台 date.gouv.fr,以便于公民自由查询和下载公共数据;2013年相继发布《数字化路线图》、《法国政府大数据五项支持计划》等,通过为大数据设立原始扶持资金,推动交通、医疗卫生等纵向行业设立大数据旗舰项目,为大数据应用建立良好的生态环境,并积极建设大数据初创企业孵化器。日本在《日本再兴战略》中提出开放数据,将实施数据开放、大数据技术开发与运用作为2013-2020年的重要国家战略之一,积极推动日本政务大数据开放及产业大数据的发展,零售业、道路交通基建、互联网及电信业等行业的大数据应用取得显著效果。韩国政府高度重视大数据发展,科学、通信和未来规划部与国家信息社会局(NIA)共建大数据中心,大力推动全国大数据产业发展。根据《2015韩国数据行业白皮书》统计显示, 数据服务市场规模占韩国总行业市场规模的47%,位列第一;数据库构建服务以41.8%的占有

大数据环境下的增强学习综述_仵博

大数据环境下的增强学习综述* 仵 博,冯延蓬,孟宪军,江建举,何国坤 (深圳职业技术学院 教育技术与信息中心,广东 深圳 518055) 摘 要:在大数据应用领域,如何快速地对海量数据进行挖掘是当前大数据应用基础研究的热点和难点,也是制约大数据真正应用的关键.而机器学习是解决该问题的有效途径,本文综述抽象增强学习、可分解增强学习、分层增强学习、关系增强学习和贝叶斯增强学习等五类增强学习方法的研究进展,分析了它们的优势和缺点,指出将监督学习或半监督学习与增强学习相结合是大数据机器学习的有效方法. 关键词:大数据;增强学习;维数灾 中图分类号:TP18 文献标志码:B 文章编号:1672-0318(2014)03-0071-05 增强学习(Reinforcement Learning,简称RL)是一种有效的最优控制学习方法,实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化学习控制,是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向.增强学习因其具有较强的在线自适应性和对复杂系统的自学能力,使其在机器人导航、非线性控制、复杂问题求解等领域得到成功应用[1-4].经典增强学习算法按照是否基于模型分类,可分为基于模型(Model-based)和模型自由(Model-free)两类.基于模型的有TD学习、Q学习、SARSA和ACTOR-CRITIC等算法.模型自由的有DYNA-Q和优先扫除等算法.以上经典增强学习算法在理论上证明了算法的收敛性,然而,在实际的应用领域,特别是在大数据环境下,学习的参数个数很多,是一个典型的NP难问题,难以最优化探索和利用两者之间的平衡[5-8].因此,经典增强学习算法只在理论上有效. 为此,近年来的增强学习研究主要集中在减少学习参数数量、避免后验分布全采样和最小化探索次数等方面,达到算法快速收敛的目的,实现探索和利用两者之间的最优化平衡.当前现有算法按照类型可分为五类:1)抽象增强学习;2)可分解增强学习;3)分层增强学习;4)关系增强学习;5)贝叶斯增强学习. 1 抽象增强学习 抽象增强学习(Abstraction Reinforcement Learning,简称ARL)的核心思想是忽略掉状态向量中与当前决策不相关的特征,只考虑那些有关的或重要的因素,达到压缩状态空间的效果[9].该类算法可以在一定程度上缓解“维数灾”问题.状态抽象原理如图1所示. 目前,状态抽象方法有状态聚类、值函数逼近和自动状态抽象等方法.函数逼近方法难于确保增强学习算法能够收敛,采用线性拟合和神经网络等混合方法来实现函数逼近是当前的研究热点和方向.状态聚类利用智能体状态空间中存在的对称性来压缩状态空间,实现状态聚类.自动状态抽象增 深圳职业技术学院学报 2014年第3期 No.3, 2014 收稿日期:2013-10-14 *项目来源:广东省自然科学基金项目(S2011040004769)和深圳市科技研发资金项目(JCYJ20120617134831736) 作者简介:仵 博(1979-),男,河南桐柏人,副教授,博士,主要研究领域为序贯决策、机器学习和大数据. 冯延蓬(1980-),男,山东潍坊人,讲师,硕士,主要研究领域为无线传感器网络、智能决策和大数据. 孟宪军(1979-),男,北京大兴人,助理研究员,博士,主要研究领域为数据挖掘、自然语言处理和机器学习. 江建举(1976-),男,河南内乡人,高级工程师,硕士,主要研究机器人控制、群智能和大数据. 何国坤(1980-),男,广东深圳人,高级工程师,硕士,主要研究领域为软件工程、机器学习和大数据. https://www.360docs.net/doc/db5764969.html,- 71 -

大数据综述

Computer Science and Application 计算机科学与应用, 2018, 8(10), 1503-1509 Published Online October 2018 in Hans. https://www.360docs.net/doc/db5764969.html,/journal/csa https://https://www.360docs.net/doc/db5764969.html,/10.12677/csa.2018.810163 Overview on Big Data Kaiyue Liu China University of Mining & Technology (Beijing), Beijing Received: Oct. 1st, 2018; accepted: Oct. 11th, 2018; published: Oct. 19th, 2018 Abstract As a current popular technical, big data has received wide attention from every industry. In order to further understand big data, this paper comprehensively describes big data from the six aspects: The basics of big data, the origin and development status of big data, big data processing, big data application, big data challenges and the future of big data. The basics of big data include the con-cepts and differences between big data and traditional databases, and the characteristics of big data. The big data processing includes generating and getting data, preprocessing data, data sto-rage, analyzing and mining data. This article is a systematic review of big data, and can establish a good knowledge system for scholars who are new to big data. Keywords Big Data, Data Storage, Data Mining, Data Visualization, Big Data Application 大数据综述 刘凯悦 中国矿业大学(北京),北京 收稿日期:2018年10月1日;录用日期:2018年10月11日;发布日期:2018年10月19日 摘要 大数据作为当今的热点技术,受到了各行各业的广泛关注。为了进一步认识大数据,本文从大数据的基础、大数据的起源和发展现状、大数据的处理流程、大数据的应用、大数据面临的挑战、大数据未来展望六个方面对大数据进行了综合性描述。其中大数据基础包括大数据和传统数据库的概念和区别、大数据的特性,处理流程包括数据生成和获取、数据预处理、数据存储、数据分析挖掘。本文是大数据的系统性综述,可以对初次接触大数据的学者建立了良好的知识体系。

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (3) 大数据定义 (3) 大数据来源 (3) 传统数据库和大数据的比较 (3) 大数据技术 (4) 大数据的存储与管理 (4)

大数据隐私与安全 (5) 大数据在信息管理层面的应用 (6) 大数据在宏观信息管理层面的应用 (6) 大数据在中观信息管理层面的应用 (7) 大数据在微观信息管理层面的应用 (8) 大数据背景下我国信息资源管理现状分析 (9) 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

工业大数据分析综述:模型与算法

摘要:随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用,大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。对这些数据进行分析,有助于改进生产工艺、提高生产效率、降低生产成本,为实现智能制造奠定基础。因此,工业大数据分析引起了工业界和学术界的广泛关注。模型和算法是大数据分析理论和技术中的两个核心问题。介绍了工业大数据分析的基本概念,综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果,并探索了大数据分析模型和算法的未来研究方向。 关键词:工业大数据; 大数据分析; 模型; 算法; 智能制造 1 引言 当今时代,信息化和工业化的融合已经成为发展趋势,《中国制造2025》指出:“新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点”。工业大数据在两化融合过程中起着至关重要的作用,国务院颁发的《促进大数据发展行动纲要》把发展工业大数据列为主要任务之一:“推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,分析感知用户需求,提升产品附加价值,打造智能工厂。建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台”。工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、射频识别(radio frequency identification,RFID)、工业传感器、工业自动控制系统、工业互联网、企业资源计划(enterprise resource planning,ERP)、计算机辅助设计(computer

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (2) 大数据定义 (2) 大数据来源 (2) 传统数据库和大数据的比较 (3) 大数据技术 (3) 大数据的存储与管理 (4) 大数据隐私与安全 (4) 大数据在信息管理层面的应用 (5) 大数据在宏观信息管理层面的应用 (5) 大数据在中观信息管理层面的应用 (6) 大数据在微观信息管理层面的应用 (7) 大数据背景下我国信息资源管理现状分析 (8)

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的 大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文: 大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理 大数据来源 1)来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等

大数据外文翻译参考文献综述

大数据外文翻译参考文献综述 (文档含中英文对照即英文原文和中文翻译) 原文: Data Mining and Data Publishing Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party

running the algorithm. In contrast, privacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is immunized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy. Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive information of individuals cannot be identified easily. Anonymity Models, k-anonymization techniques have been the focus of intense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information

人文社科大数据研究现状综述

人文社科大数据研究现状综述 前言 数据的历史与人类的历史一样久长。步入现代社会以来,伴随信息载体、种类和数量的增多,数据种类越来越丰富,数字、文字、图像、音频、视频等也都是数据。通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。不仅人类自然科学发展史上的不少进步都和数据采集分析直接相关,而且人文社会科学的发展也始终离不开数据。自20世纪后期以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发社会全面变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。大数据正产生于这一大的历史背景下。 大数据就是囊括了包括各方面信息的一个庞大的数据总和,其最核心的价值在于对海量数据进行存储和分析,并实现预测某一事物发展的趋向。相比起现有的其他技术而言,大数据的廉价、迅速、优化这三方面的综合成本是最低的。大数据最重要的是如何使用,最大的挑战在于哪些领域能更好地使用数据及大数据的应用情况如何。人文社科包含人文科学和社会科学,是一个非常广泛的领域,大数据逐渐成为其研究热点,尤其是在农业、医疗、金融、社会管理等方面得到了很好的应用,为社会的发展提供了很大的帮助。 工业革命以后,以文字为载体的信息量大约每十年翻一番;1970 年以后,信息量大约每三年就翻一番。到如今,全球信息总量每两年就可以翻一番。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”大数据无时无刻都在影响着我们的日常生活、国民经济、社会发展,受到社会各界的关注,如何利用这些海量数据去解决社会生活中的问题,已经成为当前研究的热点。人文社科领域重在研究并阐述各种社会现象及其发展规律,随着现实社会中数据量的剧增,比如社会化媒体,包括微信、微博、网站等,已经渗透到人们生活的各个领域,开放的群体通信和群体互动已经成社会生活的重要组成部分。人文社科领域原有的研究方法已经无法有效地处理这些数据。在过去,人文社科领域的研究常常采取抽样问卷调查、座谈、访谈等方法采集数据。然而,再好、再合理的抽样方法,反映的总是对局部和部分人群、阶层的研究结果,随机偶然性较大,准确性欠佳。如今,大数据处理技术为其提供了新的思想和方法。通过各个平台或网站的并联进行进一步分析,开展思想动态研究、行为方式分析、生活方式探索,发展趋势预测,乃至可以替代传统意义上的问卷调查而进行大规模的数据分析。通过大数据的这些相关技术挖掘社会化数据中隐藏的信息,揭示社会现象并为社会问题提供可靠的解决方案,解决了人文社科领域传统方法无法有效处理的问题。随着大数据研究的发展,大数据在人文社科领域已经有了很多较为典型的应用,特别是在农业、医疗、金融、社会管理等行业。 大数据是知识经济时代的战略高地,是国家和全球的新型战略资源。作为思维的革命性创新,大数据为科学研究带来了新的方法论。习近平总书记在谈到如何繁荣发展中国特色哲学社会科学时,要求我们善于“运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”,这为信息化时代的人文社会科学研究的方式变革与理论创新指出了正确的方向。大数据正在成为当前中国社会快速信息化的最重要表征之一。我们应当深刻认识大数据及其对人文社会科学研究所

大数据的国内外研究现状与发展动态分析报告

大数据的国内外研究现状及发展动态分析大数据的概念 产生的背景与意义 上世纪60年代到80年代早期,企业在大型机上部署财务、银行等关键应用系统,存储 介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,这些数据无疑是非常有限的。随着PC的出现和应用增多,企业内部出现了很多以公文档为主要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据 量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代,几乎全民 都在制造数据。而与此同时,数据的形式也极其丰富,既有社交网络、多媒体等应用所主动 产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的增长,企业所处理的数据已经达到PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在数据的这种 爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热议。在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。 大数据热潮的掀起让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦 苦挣扎转向在蓝海领域奋起直追的战略机遇。传统IT行业对于底层设备、基础技术的要求 非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取 得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头 过河的试错阶段。中国市场的规模之大也为这一产业发展提供了大空间、大平台。大数据对 于中国企业不仅仅是信息技术的更新,更是企业发展战略的变革。随着对大数据的获取、处 理、管理等各个角度研究的开展,企业逐渐认识数据已经逐渐演变成“数据资产”。任何硬件、软件及服务都会随着技术发展和需求变化逐渐被淘汰,只有数据才具有长期可用性,值得积累。数据是企业的核心资产,可以是也应该是独立于软硬件系统及应用需求而存在的。 大数据是信息技术演化的最新产物,确立了数据这一信息技术元素的独立地位。正因为数据不再是软硬件及应用的附属产物,才有了今天爆炸式的数据增长,从而奠定了大数据的基础。

大数据云计算文献综述

大数据云计算文献综述 一个大数据的调查 摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。 关键字大数据云计算物联网数据中心Hadoop 智能电网大数据分析 1、背景 1.1大数据时代的曙光 在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。 另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。

近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。 目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下: 图一、持续增长的数据 信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。 云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。

大数据技术研究综述

大数据技术研究综述 摘要:大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命。文中介绍了大数据的概念、典型的4“V”特征以及大数据的关键技术,归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。最后,本文对大数据时代做了总结与展望。 关键词:大数据;数据处理技术;云计算

当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT 领域最大的市场机遇之一,其作用堪称又一次工业革命[1]。 我们身处数据的海洋,几乎所有事物都与数据有关,环境、金融、医疗……我们每天都在产生数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝网购物……大量数据实时地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。 1大数据的概念 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如:百度每天大约要处理几十PB 的数据;Facebook 每天生成300 TB以上的日志数据;据著名咨询公司IDC 的统计,2011年全球被创建和复制的数据总量为1.8 ZB(1021) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。 大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”: (1) 数据体量(V olumes) 巨大。大型数据集,从TB级别,跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 (3) 价值(Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据时代 文献综述

智慧时代下大数据技术在教育 领域的应用研究综述 姓名:李欢欢学号:2012221111120004 一、前言 大数据是近年来出现在通信和计算机领域中的一个热门关键词。关于大数据,尚未有一个统一的定义,但却有两个观点能够诠释大数据的本质。第一个观点来自于Gartner公司的Merv Adrian在2011年第一季度刊登在Teradata Magazine上的一篇文章,文中指出“数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力”[1]。另一个观点来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年6月发布的《大数据:创新、竞争和生产力的下一个前沿》报告,报告中提出“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集”[2]。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据已经深刻地影响到人们的生活、工作和学习。大数据的意义在于对由多种类型数据构成的数据集体进行分析和研究,提取有利用价值的信息,从而帮助人们在解决问题时可以作出科学的决策。同样大数据的威力强烈地冲击着教育系统,正在成为推动教育系统创新与变革的颠覆性力量。 二、大数据技术在教育领域的应用现状分析 1 大数据定义与特征 大数据(bigdata),又称巨量资料,海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。研究机构Gartner[3]认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,大数据只是数字化时代出现的一种现象。 大数据的主要特点可以概括为4V+1C。4V包含了四个层面:第一,即V olume(大容量),海量数据,规模庞大,已跃升到PB 级别;第二,Velocity(高速度),实时处理,处理速度快,涉及感知、传输、决策、控制开放式循环的大数据,数据实时处理有着极高要求,通过传统数据库查询方式得到的“当前结果”可能已没有价值,这也是大数据和传统的数据挖掘技术本质上的不同;第三,Variety(多样性),数据类型繁多:网络日志、视频、地理位置信息、图片等都是大数据;第四,Veracity(低密度),数据价值大,但价值密度低。对海量数据挖掘分析,对未来趋势与模式的可预测分析,深度复杂分析;“1C”即Complexity,是通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[4]。 2 国内研究现状 对于“智慧时代下大数据技术在教育领域的应用”国内研究的现状,我主要通过借助中国知网提供的论文发表数据进行分析。在中国知网中选择“高级检索”类型,并在检索条件中选择“主题”检索,输入“大数据”并含“教育”,截止到2014年4月17日共检索出303 条结果与之相关,通过手工筛选,把会议报道等无关信息剔除掉,剩余160篇文章。 大数据在教育领域的应用,与国外相比,国内起步稍晚,还未形成整体力量。虽然2009年开始,大数据就成为了流行词汇,但是它在教育领域的应用是近3年才出现的。国内最早

相关文档
最新文档