大数据概述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据概述

目录

第一章大数据的定义 (3)

1、大数据时代的背景 (3)

2、大数据时代的到来 (3)

3、大数据的特征 (4)

第二章大数据的相关技术 (5)

1、对现有技术的挑战 (5)

2、大数据处理技术 (5)

3、大数据与云计算 (6)

4、大数据与分布式技术 (8)

第三章大数据在各个领域的应用 (10)

1、大数据在互联网企业的应用 (10)

2、大数据在政府机构的应用 (11)

3、银行业在大数据的应用 (11)

第四章大数据在未来的展望 (14)

第一章大数据的定义

1、大数据时代的背景

半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快,创造出了“大数据(Big Data)”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。

Big Data是近来的一个技术热点,历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon 早在20世纪90年代就经常提及Big Data。

2011年5 月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。

21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。

2、大数据时代的到来

近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互。

互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据:1)全球每秒钟发送2.9 百万封电子邮件;2)每天会有2.88 万个小时的视频上传到Youtube;3)推特上每天发布5 千万条消息;4)每天亚马逊上将产生6.3 百万笔订单;4)每个月网民在Facebook 上要花费7 千亿分钟;5)Google 上每天需要处理24PB 的数据。

根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律),并且大量新数据源的出现则导致了非结构化、半结构化数据爆发

式的增长,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35亿GB的数据量,相较于2010年,数据量将增长近30倍。这不是简单的数据增多的问题,而是全新的问题。

大数据时代的到来,使我们要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。

3、大数据的特征

1)数据量大(Volume)

大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。

2)类型繁多(Variety)

大数据的类型可以包括网络日志、音频、视频、图片、地理位置信息等等,具有异构性和多样性的特点,没有明显的模式,也没有连贯的语法和句义,多类型的数据对数据的处理能力提出了更高的要求。

3)价值密度低(Value)

大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式做可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。

4)速度快时效高(Velocity)

处理速度快,时效性要求高,需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。

面对大数据的全新特征,既有的技术架构和路线,已经无法高效地处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

第二章大数据的相关技术

1、对现有技术的挑战

1) 对现有数据库管理技术的挑战

传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-Distributed Database) ,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。

2) 对经典数据库技术的挑战

经典数据库存并没有考虑数据的多类别(variety),SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。

3)实时性的技术挑战

传统的数据仓库系统和各类BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。

4)对网络架构、数据中心、运维的挑战

人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。

2、大数据处理技术

面对大数据时代的到来,技术人员纷纷研发和采用了一批新技术,主要包括分布式缓存、

相关文档
最新文档