大数据综述

大数据综述
大数据综述

兄弟连IT教育作为国内领先的培训机构,迄今已有10年的教育历史。8大特色课程:PHP培训、安卓培训、JAVAEE+大数据、UI设计、HTML5培训、云计算架构师,虚拟现实VR培训,机器人教育培训,在目前IT市场特别火,每门课程都由名师牵头,以认认真真的态度做教育。

随着移动互联网?物联网和云计算技术的迅速发展,开启了移动云时代的序幕,大数据(BigData)也越来越吸引人们的视线?正如1982年世界预测大师?未来学家约翰.奈斯比特(John.Naisbitt)在他的著作中所提到的:“我们现在大量生产信息,正如过去我们大量生产汽车一样”?“人类正被信息淹没,却饥渴知识”,等等诸的预言均在当下得到了充分的证实,这也恰恰说明,世界正处一个信息爆照的时代?

Internet的出现缩短了人与人?人与世界之间的距离,整个世界连成一个“地球村”,人们通过网络无障碍交流交换信息和协同工作?与此同时,借助Internet的高速发展?数据库技术的成熟和普及?高内存高性能的存储设备和存储介质的出现,人类在日常学习?生活?工作中产生的数据量正以指数形式增长,呈现“爆炸”状态?“大数据问题”(Big DataProblem)就是在这样的背景下产生的,成为科研学术界和相关产业界的热门话题,并作为信息技术领域的重要前沿课题之一,吸引着越来越多的科学家研究大数据带来的相关问题。

期刊《Nature》和《Science》针对大数据分别出版了专刊“Big Data”和“Dealingwith Data”,从互联网技术?互联网经济学?超级计算?环境科学?生物医药等多个方面讨论了大数据处理面临的各种问题。2011年5月,全球知名咨询公司麦肯锡(Mckensey and Company)在美国拉斯维加斯举办了第11届EMC World 年度大会,设定的主题为“云计算相遇大数据”,发布了“Big data:Thenext frontier for innovation,competition andproductivity”的报告,首次提出“大数据”的概念,并在报告中指出:“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。美国联邦政府建立统一的门户开放网站——https://www.360docs.net/doc/bc11401853.html,,开放政府拥有的公共数据,鼓励民众对其进行自由开发,进一步推进政府数据开放;美国政府各部门也纷纷有所行动,美国国家科学基金委员会(NSF)?美国国家卫生研究院(NIH)?美国能源部(DOE)?美国国防部(DOD)?美国国防部高级研究计划局(DARPA)?美国地质勘探局(USGS)等6个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力?

处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的物联网“十二五”规划中,把信息处理技术作为4项关键技术创新工程之一提出,其中包括了海量数据存储?数据挖掘?图像视频智能分析,这都是大数据的重要组成部分。而另外3项:信息感知技术?信息传输技术?信息安全技术,也与“大数据”密切相关。同时,为推动大数据在我国的发展,2012年8月,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,其任务之一就是研制用于大数据采集?存储?处理?分析和挖掘的未来数据系统;同时,中国计算机学会成立了大数据专家委员会(CCF Big DataTask Force,CCF BDTF);为探讨中国大数据的发展战略,中科院计算机研究所举办了以“网络数据科学与工程——一门新兴的交叉学科”为主题的会议,与国内外知名专家学者一起为中国大数据发展战略建言献计;2013年,科技部正式启动863项目“向大数据的先进存储结构及关键技术”,启动5个大数据课题。

由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不可挡。如何将巨大的原始数据进行有效地利用和分析,使之转变成可以被利用的知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题,同时也是大数据最重要的研发意义所在。

1.1. 大数据的产生

现在的社会是一个信息化?数字化的社会,互联网?物联网和云计算技术的迅猛发展,使得数据充斥着整个世界,与此同时,数据也成为一种新的自然资源,亟待人们对其加以合理?高效?充分的利用,使之能够给人们的生活工作带来更大的效益和价值。在这种背景下,数据的数量不仅以指数形式递增,而且数据的结构越来越趋于复杂化,这就赋予了“大数据”不同于以往普通“数据”更加深层的内涵。

在科学研究(天文学?生物学?高能物理等)?计算机仿真?互联网应用?电子商务等领域,数据量呈现快速增长的趋势。美国互联网大数据平台(IDC)指出,互联网上的数据每年将增长50%以上,每2年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。数据并非单纯指人们在互联网上发布的信息,全世界的工业设备?汽车?电表上有着无数的数码传感器,随时测量和传递有关位置?运动?震动?温度?湿度乃至空气中化学物质的变化等也产生了海量的数据信息。

科学研究产生大数据。现在的科研工作比以往任何时候都依赖大量的数据信息交流处理,尤其是各大科研实验室之间研究信息的远程传输。比如类似希格斯玻粒子的发现就需要每年36个国家的150多个计算中心之间进行约26PB的数据交流。在过去的10年间,连接超过40个国家实验室?超级计算中心和科学仪器的能源科学网(Esnet)上的流量每年以72%的速度增长,2012年11月Esnet将升级为100Gbps。

物联网的应用产生大数据。物联网(the Internet ofthings)是新一代信息技术的重要组成部分,解决了物与物?人与物?人与人之间的互联。本质而言,人与机器?机器与机器的交互,大都是为了实现人与人之间的信息交互而产生的。在这种信息交互的过程中,催生了从信息传送到信息感知再到面向分析处理的应用。人们接受日常生活中的各种信息,将这些信息传送到大数据平台,利用大数据平台的智能分析决策得出信息处理结果,再通过互联网等信息通信网络将这些数据信息传递到四面八方,而在互联网终端的设备利用传感网等设施接受信息并进行有用的信息提取,得到自己想要的数据结果。

目前,物联网在智能工业?智能农业?智能交通?智能电网?节能建筑?安全监控等行业都有应用。巨大连接的网络使得网络上流通的数据大幅度增长,从而催生了大数据的出现。

海量网络信息的产生催生大数据。移动互联时代,数以百亿计的机器?企业?个人随时随地都会获取和产生新的数据。互联网搜索的巨头Google现在能够处理的网页数量是在千亿以上,每月处理的数据超过400PB,并且呈继续高速增长的趋势;Youtube每天上传7万小时的视频;淘宝网在2010年就拥有3.7亿会员,在线商品8.8亿件,每天交易超过数千万笔,单日数据产生量超过50TB,存储量40PB;2011年Internet World统计互联网用户近20亿,Facebook注册用户超过8.5亿,每天上传3亿张照片,每天生成300TB日志数据;新浪微博每天有数十亿的外部网页和API接口访问需求,每分钟都会发出数万条微博;百度目前数据总量接近1000PB,存储网页数量接近1万亿,每天大约要处理60亿次搜索请求,几十PB数据;据IDC

的研究结果,2011年创造的信息数量达到1800EB,每年产生的数字信息量还在以60%的速度增长,到2020年,全球每年产生的数据信息将达到35ZB……所有的这些都是海量数据的呈现。

随着社交网络的成熟?传统互联网到移动互联网的转变?移动宽带的迅速提升,除了个人电脑?智能手机?平板电脑等常见的客户终端之外,更多更先进的传感设备?智能设备,比如智能汽车?智能电视?工业设备和手持设备等都将接入网络,由此产生的数据量及其增长速度比以往任何时期都要多,互联网上的数据流量正在迅猛增长。

1.2. 大数据的提出

1989年,Gartner Group的Howard Dresner首次提出“商业智能”(Business Intelligence)这一术语。商业智能通常被理解为企业中现有的数据转化为知识?帮助企业做出明智的业务经营决策的工具,主要

目标是将企业所掌握的的信息转换成竞争优势,提高企业决策能力?决策效率?决策准确性。为了将数据转

化为知识,需要利用数据仓库?联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术。随着互联网络

的发展,企业收集到的数据越来越多?数据结构越来越复杂,一般的数据挖掘技术已经不能满足大型企业的需要,这就使得企业在收集数据之余,也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析

的问题。由此,IT界诞生了一个新的名词——“大数据”。

对于“大数据”的概念目前来说并没有一个明确的定义。经过多个企业?机构和数据科学家对于大数据的理解阐述,虽然描述不一,但都存在一个普遍共识,即“大数据”的关键是在种类繁多?数量庞大的数据中,快速获取信息。维基百科中将大数据定义为:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取?管理?处理,并整理成为帮助企业经营决策更积极目的的资讯。IDC将大数据定义为:为更经济地从高频率的?大容量的?不同结构和类型的数据中获取价值而设计的新一代架构和技术。信

息专家涂子沛在著作《大数据》中认为:“大数据”之“大”,并不仅仅指“容量大”,更大的意义在于

通过对海量数据的交换?整合和分析,发现新的知识,创造新的价值,带来“大知识”?“大科技”?“大利润”和“大发展”。

从“数据”到“大数据”,不仅仅是数量上的差别,更是数据质量的提升。传统意义上的数据处理方

式包括数据挖掘?数据仓库?联机分析处理(OLAP)等,而在“大数据时代”,数据已经不仅仅是需要分析处

理的内容,更重要的是人们需要借助专用的思想和手段从大量看似杂乱?繁复的数据中,收集?整理和分析

数据足迹,以支撑社会生活的预测?规划和商业领域的决策支持等。

著名数据库专家?图灵奖的获得者Jim Gray博士总结出,在人类的科学研究史上,先后经历了实验(Empirical)?理论(Theoretical)和计算(Computational)3种范式,而在数据量不断增加和数据结构愈加

复杂的今天,这3种范式已经不足以在新的研究领域得到更好地运用,所以JimGray博士提出了科学的“第

4种范式”(TheFouth Paradigm)这一新型的数据研究方式,即“数据探索”(Data Exporation),用以指

导和更新领域的科学研究。数据探索,通过设备采集数据或是模拟器仿真产生数据;通过软件实现过程仿真;将重要信息存储在电脑中;科学家通过数据库分析相关数据。

1.3. 大数据的特征

在日新月异的IT业界,各个企业对大数据都有着自己不同的解读。但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)?Variety(种类多)?Velocity(速度快)和最重要的Value(价值密度低)。

Volume是指大数据巨大的数据量与数据完整性。十几年前,由于存储方式?科技手段和分析成本等的

限制,使得当时许多数据都无法得到记录和保存。即使是可以保存的信号,也大多采用模拟信号保存,当

其转变为数字信号的时候,由于信号的采样和转换,都不可避免存在数据的遗漏与丢失。那么现在,大数

据的出现,使得信号得以以最原始的状态保存下来,数据量的大小已不是最重要的,数据的完整性才是最

重要的。

Variety意味着要在海量?种类繁多的数据间发现其内在关联。在互联网时代,各种设备连成一个整体,个人在这个整体中既是信息的收集者也是信息的传播者,加速了数据量的爆炸式增长和信息多样性。这就

必然促使我们要在各种各样的数据中发现数据信息之间的相互关联,把看似无用的信息转变为有效的信息,从而做出正确的判断。

Velocity可以理解为更快地满足实时性需求。目前,对于数据智能化和实时性的要求越来越高,比如开车时会查看智能导航仪查询最短路线,吃饭时会了解其他用户对这家餐厅的评价,见到可口的食物会拍

照发微博等诸如此类的人与人?人与机器之间的信息交流互动,这些都不可避免带来数据交换。而数据交换的关键是降低延迟,以近乎实时的方式呈献给用户。

大数据特征里最关键的一点,就是Value。Value的意思是指大数据的价值密度低。大数据时代数据的价值就像沙子淘金,数据量越大,里面真正有价值的东西就越少。现在的任务就是将这些ZB?PB级的数据,利用云计算?智能化开源实现平台等技术,提取出有价值的信息,将信息转化为知识,发现规律,最终用知识促成正确的决策和行动。

1.4. 大数据的应用

发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变,这对于提升企业综合竞争力和政府的管制能力具有深远意义的影响。将大量的原始数据汇集在一起,通过智能分析?数据挖掘等技术分析数据中潜在的规律,以预测以后事物的发展趋势,有助于人们做出正确的决策,从而提高各个领域的运行效率,取得更大的收益。

商业

商业是大数据应用最广泛的领域。沃尔玛(Walmart)通过对消费者购物行为等这种非结构化数据进行分析,了解顾客购物习惯,从销售数据分析适合搭配在一起买的商品,创造了“啤酒与尿布”的经典商业案例;淘宝服务于卖家的大数据平台——“淘宝数据魔方”有一个“无量神针——倾听用户的痛”屏幕,监听着几百万淘宝买家的心跳,收集分析买家的购物行为,找出问题的先兆,避免“恶拍”(买家拍下产品但拒收)发生,淘宝还针对买家设置大数据平台,为买家量身打造完善网购体验的产品。

金融

大数据在金融业也有着相当重要的作用。华尔街“德温特资本市场”公司分析全球3.4亿微博账户的留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司2012年第一季度获得了7%的收益率。Equifax公司是美国三大征信所之一,其存储的财务数据覆盖了所有美国成年人,包括全球5亿个消费者和8100万家企业。在它的数据库中与财务有关的记录包括贷款申请?租赁?房地产?购买零售商品?纳税申报?费用缴付?报纸与杂志订阅等,看似杂乱无章的共26PB 数据,经过交叉分享和索引处理,能够得出消费者的个人信用评分,从而推断客户支付意向与支付能力,发现潜在的欺诈。

医疗

随着大数据在医疗与生命科学研究过程中广泛应用和不断扩展,产生的数据之大?种类之多令人难以置信。比如医院中做B超?PACS影像?病理分析等业务产生了大量非结构化数据;2000年一幅CT存储量才10MB,现在的CT则含有320MB,甚至600MB的数据量,而一个基因组序列文件大小约为750MB,一个标准病理图的数据量则有接近5GB。如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院就可以累积达数TB 甚至PB级的结构化和非结构化数据。

另外,为了实现医院之间对病患信息的共享,2010年我国公布的“十二五”规划中指出要重点建设国家级?省级和地市级三级卫生信息平台,建设电子档案和电子病历两个基础数据库等。随着国家逐渐加大对电子病历的投入,各级医院也将加大在大数据平台?医疗信息仓库等领域的投入,医疗信息存储将越来越受重视,医疗信息中心的关注点也将由传统“计算”领域转移到“存储”领域上来。

制造业

中国制造业的相关企业随着ERP?PLM等信息化系统的部署完成,管理方式由粗放式管理逐步转为精细

化管理,新产品的研发速度和设计效率有了大幅提升,企业在实现对业务数据进行有效管理的同时,积累

了大量的数据信息,产生了利用现代信息技术收集?管理和展示分析结构化和非结构化的数据和信息的诉求,企业需要信息化技术帮助决策者在储存的海量信息中挖掘出需要的信息,并且对这些信息进行分析,通过

分析工具加快报表进程从而推动决策?规避风险,并且获取重要的信息,

因此,越来越多的企业在原有的各种控制系统(DCS?FCS?CIPS等)和各种生产经营管理系统(MIS?MRPⅡ?CRM?ERP等)的基础上,管理重心从以前的以流程建设为主,转换为以流程建设和全生命周期数据架构建

设并行的模式,在关注流程的质量和效率的同时,又关注全流程上数据的质量和效率,建立以产品为核心

的覆盖产品全生命周期的数据结构,用企业级PLM系统来支撑这些数据结构,有效地提高了企业满足市场

需求的响应速度,更加经济地从多样化的数据源中获得更大价值。

1.5. 大数据的挑战

随着近年来大数据热潮的不断升温,人们认识到“大数据”并非是指“大规模的数据”,更加代表了

其本质含义:思维?商业和管理领域前所未有的大变革。在这次变革中,大数据的出现,对产业界?学术界

和教育界都正在产生巨大影响。随着科学家们对大数据研究的不断深入,人们越来越意识到对数据的利用

可以为其生产生活带来巨大便利的同时,也带来了不小的挑战。

(一)大数据的安全与隐私问题

随着大数据的发展,数据的来源和应用领域越来越广泛:在互联网上随意浏览网页,就会留下一连串

的浏览痕迹;在网络中登录相关网站需要输入个人的重要信息,例如用户名密码?身份证号?手机号?住址?

银行卡密码等;随处可见的摄像头和传感器会记录下个人的行为和位置信息,等等。通过相关的数据分析,数据专家就可以轻易挖掘出人们的行为习惯和个人重要信息。如果这些信息运用得当,可以帮助相关领域

的企业随时了解客户的需求和习惯,便于企业调整相应的产品生产计划,取得更大的经济效益;但若是这些重要的信息被不良分子窃取,随之而来的就是个人信息?财产等的安全性问题。

为了解决大数据时代的数据隐私问题,学术界和工业界纷纷提出自己的解决办法。Lindell等提出了

保护隐私的数据挖掘(Privacy PreservingData Mining)概念;Sweeney针对位置服务的安全性问题,提出

了一种k-匿名方法,即将自己与周围的(k-1)个用户组合成一个数据集合,从而模糊了自己的位置概念;差分隐私(Differential Privacy)保护技术可能是解决大数据隐私问题的有力武器,Dwork在2006年提出了一种新的差分隐私方法,Roy等于2010年提出了一种隐私保护系统Airavat,将集中信息流控制和差分隐

私保护技术融入云计算的数据生成与计算阶段,防止MapReduce计算过程中的数据隐私泄露。

此外,大数据时代数据的更新变化速度加快,而一般的数据隐私保护技术大都基于静态数据保护,这

就给隐私保护带来了新的挑战。在复杂变化的条件下如何实现数据隐私安全的保护,这将是未来大数据研

究的重点方向之一。

(二)大数据的集成与管理问题

纵观大数据的发展历程,大数据的来源与应用越来越广泛,为了把散布于不同的数据管理系统的数据收集起来统一整理,就有必要进行数据的集成与管理。虽然对数据的集成和管理已经有了很多的方法,但是传统的数据存储方法已经不能满足大数据时代数据的处理需求,这就面临着新的挑战。

1)数据存储。在大数据时代,大数据的特征之一就是数据类型的多样性。数据类型由传统的结构化数据逐渐转变为半结构化?非结构化数据。另外,数据的来源也逐渐多样化,传统的数据大都来自于少部分军事企业或是研究所的电脑终端;现在,随着互联网和移动设备在全球的普及,平板电脑?手机?GPS等产生的数据呈“井喷”状态,因此,数据的存储就显得格外重要。由前文可看出,传统的数据存储方式已经不足以满足现在的数据存储需求,为了应对越来越多的海量数据和日渐复杂的数据结构,很多公司都着手研发适用于大数据时代的分布式文件系统和分布式并行数据库,如HDFS?BigTable等。在数据存储过程中,数据格式的转换是必要的,而且是非常关键和复杂的,这就对数据存储系统提出了更高的要求。

2)数据清洗。大数据时代数据的特征“Value”,是大数据低价值密度的体现。也就是说,大数据量并不意味着大信息量,很多时候它意味着冗余数据的增多?垃圾价值的泛滥,因此,对数据进行筛选?清理是十分必要的,否则过多的干扰信息一方面会占据大量的存储空间,造成存储资源的浪费,另一方面这些垃圾数据会对真正有用的信息造成干扰,影响数据分析结果。大数据时代的数据清洗过程必须更加细致和专业,即在数据清洗过程中,既不能清洗地过细,因为这会增加数据清洗的复杂度,甚至有可能会把有用的信息过滤掉;也不能清洗的不细致,因为要保证数据筛选的效果。

(三)大数据的IT技术架构问题

大数据因其独特的特征对数据分析处理系统提出了极高的要求,无论是存储?传输还是计算,在大数据分析技术平台上,将会是一个技术的激烈交锋。因为现有的大数据平台技术难以满足大数据的处理需求,所以IT架构的革命性重构势在必行。

美国的6个部门共同启动的大数据研究计划中,绝大部分的研究项目都是针对大数据带来的技术挑战,主要应对大数据分析算法和系统的效率问题。

大数据分析技术。目前来看,海量数据中超过85%的数据都是半结构化和非结构化的数据,传统的关系型数据库已经无法处理。根据CAP理论(Consistency,Availability,Partitions tolerance),一致性?可用性和容错性不可兼得,因此,关系型数据库没有良好的可扩展性。以MapReduce和Hadoop为代表的非关系型数据库的非关系型分析技术因其具有良好的横向扩展(Scale-out)能力而在大数据分析领域得到

了广泛应用,现已成为大数据处理的主流技术。尽管这样,MapReduce和Hadoop在性能方面依然不能尽如人意,还需根据实际应用情况不断更新研发更高效?更实用的大数据分析技术。

数据融合。大数据时代数据的数量和质量都达到了一个前所未有的状态,但是若没有一个很好的技术将这些“一盘散沙”的数据充分整合,就无法最大化地发挥大数据的价值,因此,大数据处理技术面临的一个重要问题就是如何将个人?企业和政府的各种信息数据加以融合。因为这些数据的格式基本都不一致,这就给数据融合带来了相当大的困难。为了解决这个问题,须研究推广不与平台绑定的数据格式,用这样一种统一的数据格式,将人类社会?物理世界和网络空间联系起来,构建统一的信息系统。

大数据能耗问题。大数据的处理?存储和通信都是要消耗相当大的能源,在能源价格上涨迅速的今天,由于数据的存储规模不断扩大,高能耗已经逐渐成为制约大数据快速发展的瓶颈之一。但是由于大数据的发展也是刚刚起步,能耗问题也未能得到足够的重视。《纽约时报》曾经做过一年的调查,发表了一篇名为“Power,Pollution and the Internet”的文章,文章显示,Google大数据平台的耗电量每年3 000kW

左右,可是只有6%~12%的电能被用来支撑大数据的分析处理?对客户的需求进行响应等系统运行,绝大部分电能只是用来支撑很多闲置状态的服务器,因此,为了减少不必要的能源消耗,首先可以运用低功耗的硬件资源,比如闪存?PCM等,这些新型存储硬件的功耗相对传统磁盘等硬件要低很多;另外,随着世界能源的消耗量越来越大,“第三次工业革命”浪潮也迅速席卷全球,可以考虑引入新型可再生能源,比如传统的电能可以用太阳能?风能?生化能等产生,避免使用传统的不可再生能源如煤炭?石油等,既节约了能源又减少了环境污染。

(四)大数据的生态环境问题

大数据的生态环境问题首先涉及的是数据资源管理和共享的问题。这是一个信息化开放的时代,互联网的开放式结构使人们可以在地球的不同角落同时共享所有的网络资源,这给科研工作带来了极大的便利。但是并不是所有的数据都是可以被无条件共享的,有些数据因为其特殊的价值属性而被法律保护起来不能随意被无条件利用。由于现在相关的法律措施还不够健全,还缺乏足够强的数据保护意识,所以总会出现数据信息被盗用或是数据所有权归属的问题,这既有技术问题也有法律问题。如何在保护多方利益的前提下解决数据共享问题将是大数据时代的一大重要挑战。

大数据时代,数据的产生和应用领域已经不局限于某几个特殊的场合,几乎所有的领域如政治?经济?社会?科学?法律等都能看到大数据的身影,因此,涉及这些领域的数据交叉问题就不可避免。随着大数据影响力的深入,大数据的分析结果势必将会对国家治理模式,企业的决策?组织和业务流程,个人生活方式等都将产生巨大的影响,而这种影响模式是值得以后深入研究的。

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

国内外大数据产业发展现状与趋势研究

龙源期刊网 https://www.360docs.net/doc/bc11401853.html, 国内外大数据产业发展现状与趋势研究 作者:方申国谢楠 来源:《信息化建设》2017年第06期 大数据作为新财富,价值堪比石油。 进入21世纪以来,随着物联网、电子商务、社会化网络的快速发展,数据体量迎来了爆炸式的增长,大数据正在成为世界上最重要的土壤和基础。根据IDC(互联网数据中心)预测,2020年的数据增长量将是2010年的44倍,达到35ZB。世界经济论坛报告称,“大数据为新财富,价值堪比石油”。随着计算机及其存储设备、互联网、云计算等技术的发展,大数据应用领域随之不断丰富。大数据产业将依赖快速聚集的社会资源,在数据和应用驱动的创新下,不断丰富商业模式,构建出多层多样的市场格局,成为引领信息技术产业发展的核心引擎、推动社会进步的重要力量。 大数据产业发展现状 全球大数据产业发展概况 目前,大数据以爆炸式的发展速度迅速蔓延至各行各业。随着各国抢抓战略布局,不断加大扶持力度,全球大数据市场规模保持了高速增长态势。据IDC预测,全球大数据市场规模 年增长率达40%,在2017年将达到530亿美元。美国奥巴马政府于2012年3月宣布投资2亿美元启动“大数据研究和发展计划”,将“大数据研究”上升为国家意志;2015年发布“大数据研究和发展计划”,深入推动大数据技术研发,同时还鼓励产业、大学和研究机构、非盈利机构与政府一起努力,共享大数据提供的机遇。目前,美国大数据产业增长率已超过71%,大数据在美国健康医疗、公共管理、零售业、制造业等领域产生了巨大的经济效益。英国政府自2013年开始就注重对大数据技术的研发投入,2015年投入7300万英镑用于55个政府的大数据应用项目,投资兴办大数据研究中心,通过大数据技术在公开平台上发布了各层级数据资源,直接或间接为英国增加了近490亿至660亿英镑的收入,并预测到2017年,大数据技术可以为英国提供5.8万个新的工作岗位,或将带来2160亿英镑的经济增长。法国2011年推出了公开的数据平台 date.gouv.fr,以便于公民自由查询和下载公共数据;2013年相继发布《数字化路线图》、《法国政府大数据五项支持计划》等,通过为大数据设立原始扶持资金,推动交通、医疗卫生等纵向行业设立大数据旗舰项目,为大数据应用建立良好的生态环境,并积极建设大数据初创企业孵化器。日本在《日本再兴战略》中提出开放数据,将实施数据开放、大数据技术开发与运用作为2013-2020年的重要国家战略之一,积极推动日本政务大数据开放及产业大数据的发展,零售业、道路交通基建、互联网及电信业等行业的大数据应用取得显著效果。韩国政府高度重视大数据发展,科学、通信和未来规划部与国家信息社会局(NIA)共建大数据中心,大力推动全国大数据产业发展。根据《2015韩国数据行业白皮书》统计显示, 数据服务市场规模占韩国总行业市场规模的47%,位列第一;数据库构建服务以41.8%的占有

大数据环境下的增强学习综述_仵博

大数据环境下的增强学习综述* 仵 博,冯延蓬,孟宪军,江建举,何国坤 (深圳职业技术学院 教育技术与信息中心,广东 深圳 518055) 摘 要:在大数据应用领域,如何快速地对海量数据进行挖掘是当前大数据应用基础研究的热点和难点,也是制约大数据真正应用的关键.而机器学习是解决该问题的有效途径,本文综述抽象增强学习、可分解增强学习、分层增强学习、关系增强学习和贝叶斯增强学习等五类增强学习方法的研究进展,分析了它们的优势和缺点,指出将监督学习或半监督学习与增强学习相结合是大数据机器学习的有效方法. 关键词:大数据;增强学习;维数灾 中图分类号:TP18 文献标志码:B 文章编号:1672-0318(2014)03-0071-05 增强学习(Reinforcement Learning,简称RL)是一种有效的最优控制学习方法,实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化学习控制,是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向.增强学习因其具有较强的在线自适应性和对复杂系统的自学能力,使其在机器人导航、非线性控制、复杂问题求解等领域得到成功应用[1-4].经典增强学习算法按照是否基于模型分类,可分为基于模型(Model-based)和模型自由(Model-free)两类.基于模型的有TD学习、Q学习、SARSA和ACTOR-CRITIC等算法.模型自由的有DYNA-Q和优先扫除等算法.以上经典增强学习算法在理论上证明了算法的收敛性,然而,在实际的应用领域,特别是在大数据环境下,学习的参数个数很多,是一个典型的NP难问题,难以最优化探索和利用两者之间的平衡[5-8].因此,经典增强学习算法只在理论上有效. 为此,近年来的增强学习研究主要集中在减少学习参数数量、避免后验分布全采样和最小化探索次数等方面,达到算法快速收敛的目的,实现探索和利用两者之间的最优化平衡.当前现有算法按照类型可分为五类:1)抽象增强学习;2)可分解增强学习;3)分层增强学习;4)关系增强学习;5)贝叶斯增强学习. 1 抽象增强学习 抽象增强学习(Abstraction Reinforcement Learning,简称ARL)的核心思想是忽略掉状态向量中与当前决策不相关的特征,只考虑那些有关的或重要的因素,达到压缩状态空间的效果[9].该类算法可以在一定程度上缓解“维数灾”问题.状态抽象原理如图1所示. 目前,状态抽象方法有状态聚类、值函数逼近和自动状态抽象等方法.函数逼近方法难于确保增强学习算法能够收敛,采用线性拟合和神经网络等混合方法来实现函数逼近是当前的研究热点和方向.状态聚类利用智能体状态空间中存在的对称性来压缩状态空间,实现状态聚类.自动状态抽象增 深圳职业技术学院学报 2014年第3期 No.3, 2014 收稿日期:2013-10-14 *项目来源:广东省自然科学基金项目(S2011040004769)和深圳市科技研发资金项目(JCYJ20120617134831736) 作者简介:仵 博(1979-),男,河南桐柏人,副教授,博士,主要研究领域为序贯决策、机器学习和大数据. 冯延蓬(1980-),男,山东潍坊人,讲师,硕士,主要研究领域为无线传感器网络、智能决策和大数据. 孟宪军(1979-),男,北京大兴人,助理研究员,博士,主要研究领域为数据挖掘、自然语言处理和机器学习. 江建举(1976-),男,河南内乡人,高级工程师,硕士,主要研究机器人控制、群智能和大数据. 何国坤(1980-),男,广东深圳人,高级工程师,硕士,主要研究领域为软件工程、机器学习和大数据. https://www.360docs.net/doc/bc11401853.html,- 71 -

大数据综述

Computer Science and Application 计算机科学与应用, 2018, 8(10), 1503-1509 Published Online October 2018 in Hans. https://www.360docs.net/doc/bc11401853.html,/journal/csa https://https://www.360docs.net/doc/bc11401853.html,/10.12677/csa.2018.810163 Overview on Big Data Kaiyue Liu China University of Mining & Technology (Beijing), Beijing Received: Oct. 1st, 2018; accepted: Oct. 11th, 2018; published: Oct. 19th, 2018 Abstract As a current popular technical, big data has received wide attention from every industry. In order to further understand big data, this paper comprehensively describes big data from the six aspects: The basics of big data, the origin and development status of big data, big data processing, big data application, big data challenges and the future of big data. The basics of big data include the con-cepts and differences between big data and traditional databases, and the characteristics of big data. The big data processing includes generating and getting data, preprocessing data, data sto-rage, analyzing and mining data. This article is a systematic review of big data, and can establish a good knowledge system for scholars who are new to big data. Keywords Big Data, Data Storage, Data Mining, Data Visualization, Big Data Application 大数据综述 刘凯悦 中国矿业大学(北京),北京 收稿日期:2018年10月1日;录用日期:2018年10月11日;发布日期:2018年10月19日 摘要 大数据作为当今的热点技术,受到了各行各业的广泛关注。为了进一步认识大数据,本文从大数据的基础、大数据的起源和发展现状、大数据的处理流程、大数据的应用、大数据面临的挑战、大数据未来展望六个方面对大数据进行了综合性描述。其中大数据基础包括大数据和传统数据库的概念和区别、大数据的特性,处理流程包括数据生成和获取、数据预处理、数据存储、数据分析挖掘。本文是大数据的系统性综述,可以对初次接触大数据的学者建立了良好的知识体系。

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (3) 大数据定义 (3) 大数据来源 (3) 传统数据库和大数据的比较 (3) 大数据技术 (4) 大数据的存储与管理 (4)

大数据隐私与安全 (5) 大数据在信息管理层面的应用 (6) 大数据在宏观信息管理层面的应用 (6) 大数据在中观信息管理层面的应用 (7) 大数据在微观信息管理层面的应用 (8) 大数据背景下我国信息资源管理现状分析 (9) 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

工业大数据分析综述:模型与算法

摘要:随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用,大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。对这些数据进行分析,有助于改进生产工艺、提高生产效率、降低生产成本,为实现智能制造奠定基础。因此,工业大数据分析引起了工业界和学术界的广泛关注。模型和算法是大数据分析理论和技术中的两个核心问题。介绍了工业大数据分析的基本概念,综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果,并探索了大数据分析模型和算法的未来研究方向。 关键词:工业大数据; 大数据分析; 模型; 算法; 智能制造 1 引言 当今时代,信息化和工业化的融合已经成为发展趋势,《中国制造2025》指出:“新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点”。工业大数据在两化融合过程中起着至关重要的作用,国务院颁发的《促进大数据发展行动纲要》把发展工业大数据列为主要任务之一:“推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,分析感知用户需求,提升产品附加价值,打造智能工厂。建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台”。工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、射频识别(radio frequency identification,RFID)、工业传感器、工业自动控制系统、工业互联网、企业资源计划(enterprise resource planning,ERP)、计算机辅助设计(computer

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (2) 大数据定义 (2) 大数据来源 (2) 传统数据库和大数据的比较 (3) 大数据技术 (3) 大数据的存储与管理 (4) 大数据隐私与安全 (4) 大数据在信息管理层面的应用 (5) 大数据在宏观信息管理层面的应用 (5) 大数据在中观信息管理层面的应用 (6) 大数据在微观信息管理层面的应用 (7) 大数据背景下我国信息资源管理现状分析 (8)

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的 大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文: 大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理 大数据来源 1)来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等

大数据外文翻译参考文献综述

大数据外文翻译参考文献综述 (文档含中英文对照即英文原文和中文翻译) 原文: Data Mining and Data Publishing Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party

running the algorithm. In contrast, privacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is immunized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy. Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive information of individuals cannot be identified easily. Anonymity Models, k-anonymization techniques have been the focus of intense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information

人文社科大数据研究现状综述

人文社科大数据研究现状综述 前言 数据的历史与人类的历史一样久长。步入现代社会以来,伴随信息载体、种类和数量的增多,数据种类越来越丰富,数字、文字、图像、音频、视频等也都是数据。通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。不仅人类自然科学发展史上的不少进步都和数据采集分析直接相关,而且人文社会科学的发展也始终离不开数据。自20世纪后期以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发社会全面变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。大数据正产生于这一大的历史背景下。 大数据就是囊括了包括各方面信息的一个庞大的数据总和,其最核心的价值在于对海量数据进行存储和分析,并实现预测某一事物发展的趋向。相比起现有的其他技术而言,大数据的廉价、迅速、优化这三方面的综合成本是最低的。大数据最重要的是如何使用,最大的挑战在于哪些领域能更好地使用数据及大数据的应用情况如何。人文社科包含人文科学和社会科学,是一个非常广泛的领域,大数据逐渐成为其研究热点,尤其是在农业、医疗、金融、社会管理等方面得到了很好的应用,为社会的发展提供了很大的帮助。 工业革命以后,以文字为载体的信息量大约每十年翻一番;1970 年以后,信息量大约每三年就翻一番。到如今,全球信息总量每两年就可以翻一番。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”大数据无时无刻都在影响着我们的日常生活、国民经济、社会发展,受到社会各界的关注,如何利用这些海量数据去解决社会生活中的问题,已经成为当前研究的热点。人文社科领域重在研究并阐述各种社会现象及其发展规律,随着现实社会中数据量的剧增,比如社会化媒体,包括微信、微博、网站等,已经渗透到人们生活的各个领域,开放的群体通信和群体互动已经成社会生活的重要组成部分。人文社科领域原有的研究方法已经无法有效地处理这些数据。在过去,人文社科领域的研究常常采取抽样问卷调查、座谈、访谈等方法采集数据。然而,再好、再合理的抽样方法,反映的总是对局部和部分人群、阶层的研究结果,随机偶然性较大,准确性欠佳。如今,大数据处理技术为其提供了新的思想和方法。通过各个平台或网站的并联进行进一步分析,开展思想动态研究、行为方式分析、生活方式探索,发展趋势预测,乃至可以替代传统意义上的问卷调查而进行大规模的数据分析。通过大数据的这些相关技术挖掘社会化数据中隐藏的信息,揭示社会现象并为社会问题提供可靠的解决方案,解决了人文社科领域传统方法无法有效处理的问题。随着大数据研究的发展,大数据在人文社科领域已经有了很多较为典型的应用,特别是在农业、医疗、金融、社会管理等行业。 大数据是知识经济时代的战略高地,是国家和全球的新型战略资源。作为思维的革命性创新,大数据为科学研究带来了新的方法论。习近平总书记在谈到如何繁荣发展中国特色哲学社会科学时,要求我们善于“运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”,这为信息化时代的人文社会科学研究的方式变革与理论创新指出了正确的方向。大数据正在成为当前中国社会快速信息化的最重要表征之一。我们应当深刻认识大数据及其对人文社会科学研究所

大数据的国内外研究现状与发展动态分析报告

大数据的国内外研究现状及发展动态分析大数据的概念 产生的背景与意义 上世纪60年代到80年代早期,企业在大型机上部署财务、银行等关键应用系统,存储 介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,这些数据无疑是非常有限的。随着PC的出现和应用增多,企业内部出现了很多以公文档为主要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据 量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代,几乎全民 都在制造数据。而与此同时,数据的形式也极其丰富,既有社交网络、多媒体等应用所主动 产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的增长,企业所处理的数据已经达到PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在数据的这种 爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热议。在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。 大数据热潮的掀起让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦 苦挣扎转向在蓝海领域奋起直追的战略机遇。传统IT行业对于底层设备、基础技术的要求 非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取 得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头 过河的试错阶段。中国市场的规模之大也为这一产业发展提供了大空间、大平台。大数据对 于中国企业不仅仅是信息技术的更新,更是企业发展战略的变革。随着对大数据的获取、处 理、管理等各个角度研究的开展,企业逐渐认识数据已经逐渐演变成“数据资产”。任何硬件、软件及服务都会随着技术发展和需求变化逐渐被淘汰,只有数据才具有长期可用性,值得积累。数据是企业的核心资产,可以是也应该是独立于软硬件系统及应用需求而存在的。 大数据是信息技术演化的最新产物,确立了数据这一信息技术元素的独立地位。正因为数据不再是软硬件及应用的附属产物,才有了今天爆炸式的数据增长,从而奠定了大数据的基础。

大数据云计算文献综述

大数据云计算文献综述 一个大数据的调查 摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。 关键字大数据云计算物联网数据中心Hadoop 智能电网大数据分析 1、背景 1.1大数据时代的曙光 在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。 另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。

近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。 目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下: 图一、持续增长的数据 信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。 云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。

大数据技术研究综述

大数据技术研究综述 摘要:大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命。文中介绍了大数据的概念、典型的4“V”特征以及大数据的关键技术,归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。最后,本文对大数据时代做了总结与展望。 关键词:大数据;数据处理技术;云计算

当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT 领域最大的市场机遇之一,其作用堪称又一次工业革命[1]。 我们身处数据的海洋,几乎所有事物都与数据有关,环境、金融、医疗……我们每天都在产生数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝网购物……大量数据实时地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。 1大数据的概念 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如:百度每天大约要处理几十PB 的数据;Facebook 每天生成300 TB以上的日志数据;据著名咨询公司IDC 的统计,2011年全球被创建和复制的数据总量为1.8 ZB(1021) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。 大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”: (1) 数据体量(V olumes) 巨大。大型数据集,从TB级别,跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 (3) 价值(Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据时代 文献综述

智慧时代下大数据技术在教育 领域的应用研究综述 姓名:李欢欢学号:2012221111120004 一、前言 大数据是近年来出现在通信和计算机领域中的一个热门关键词。关于大数据,尚未有一个统一的定义,但却有两个观点能够诠释大数据的本质。第一个观点来自于Gartner公司的Merv Adrian在2011年第一季度刊登在Teradata Magazine上的一篇文章,文中指出“数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力”[1]。另一个观点来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年6月发布的《大数据:创新、竞争和生产力的下一个前沿》报告,报告中提出“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集”[2]。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据已经深刻地影响到人们的生活、工作和学习。大数据的意义在于对由多种类型数据构成的数据集体进行分析和研究,提取有利用价值的信息,从而帮助人们在解决问题时可以作出科学的决策。同样大数据的威力强烈地冲击着教育系统,正在成为推动教育系统创新与变革的颠覆性力量。 二、大数据技术在教育领域的应用现状分析 1 大数据定义与特征 大数据(bigdata),又称巨量资料,海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。研究机构Gartner[3]认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,大数据只是数字化时代出现的一种现象。 大数据的主要特点可以概括为4V+1C。4V包含了四个层面:第一,即V olume(大容量),海量数据,规模庞大,已跃升到PB 级别;第二,Velocity(高速度),实时处理,处理速度快,涉及感知、传输、决策、控制开放式循环的大数据,数据实时处理有着极高要求,通过传统数据库查询方式得到的“当前结果”可能已没有价值,这也是大数据和传统的数据挖掘技术本质上的不同;第三,Variety(多样性),数据类型繁多:网络日志、视频、地理位置信息、图片等都是大数据;第四,Veracity(低密度),数据价值大,但价值密度低。对海量数据挖掘分析,对未来趋势与模式的可预测分析,深度复杂分析;“1C”即Complexity,是通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[4]。 2 国内研究现状 对于“智慧时代下大数据技术在教育领域的应用”国内研究的现状,我主要通过借助中国知网提供的论文发表数据进行分析。在中国知网中选择“高级检索”类型,并在检索条件中选择“主题”检索,输入“大数据”并含“教育”,截止到2014年4月17日共检索出303 条结果与之相关,通过手工筛选,把会议报道等无关信息剔除掉,剩余160篇文章。 大数据在教育领域的应用,与国外相比,国内起步稍晚,还未形成整体力量。虽然2009年开始,大数据就成为了流行词汇,但是它在教育领域的应用是近3年才出现的。国内最早

相关文档
最新文档