大数据研究综述
大数据文献综述范文docx(二)2024

大数据文献综述范文docx(二)引言概述:大数据在当前社会中扮演着重要角色。
本文综述了关于大数据的相关文献,分析了该领域的最新发展和趋势。
本文首先介绍了大数据的定义和特点,然后对大数据的应用领域进行了深入探讨,包括商业、医疗、社交媒体和智能交通等。
接着,本文讨论了大数据分析的关键技术和工具,包括数据挖掘、机器学习和云计算等。
其次,本文介绍了大数据在决策支持、市场预测和风险管理方面的应用案例。
最后,本文总结了目前大数据领域的挑战和未来发展方向。
正文:第一大点:大数据的定义和特点1. 什么是大数据2. 大数据的特点有哪些3. 大数据与传统数据的区别第二大点:大数据的应用领域1. 大数据在商业领域的应用2. 大数据在医疗领域的应用3. 大数据在社交媒体的应用4. 大数据在智能交通中的应用第三大点:大数据分析的关键技术和工具1. 数据挖掘在大数据分析中的应用2. 机器学习在大数据分析中的应用3. 云计算在大数据分析中的应用第四大点:大数据在决策支持、市场预测和风险管理中的应用案例1. 大数据在决策支持中的应用案例2. 大数据在市场预测中的应用案例3. 大数据在风险管理中的应用案例第五大点:大数据领域的挑战和未来发展方向1. 大数据领域目前面临的挑战2. 大数据未来的发展趋势总结:本文综述了关于大数据的相关文献,介绍了大数据的定义和特点,分析了大数据在商业、医疗、社交媒体和智能交通等领域的应用情况。
同时,本文讨论了大数据分析的关键技术和工具,以及大数据在决策支持、市场预测和风险管理等方面的应用案例。
最后,本文总结了当前大数据领域所面临的挑战,并展望了大数据的未来发展方向。
大数据时代 文献综述

大数据时代文献综述引言概述:随着信息技术的快速发展,大数据时代已经到来。
大数据的概念是指规模大、种类多、速度快的数据集合,对数据的采集、存储、处理和分析提出了巨大挑战。
本文将通过文献综述的方式,探讨大数据时代的发展现状和未来趋势。
一、大数据的定义和特点1.1 大数据的定义:大数据是指规模大、种类多、速度快的数据集合,通常包括结构化数据和非结构化数据。
1.2 大数据的特点:大数据具有四个特点,即3V特征,即Volume(数据量大)、Velocity(数据处理速度快)、Variety(数据类型多样)、Value(数据价值高)。
二、大数据的应用领域2.1 金融领域:大数据在金融领域的应用包括风险管理、反欺诈、精准营销等方面。
2.2 医疗领域:大数据在医疗领域的应用包括个性化治疗、疾病预测、医疗资源优化等方面。
2.3 零售领域:大数据在零售领域的应用包括用户画像分析、商品推荐系统、库存管理等方面。
三、大数据技术和工具3.1 数据采集技术:大数据的采集技术包括传感器技术、网络爬虫技术、日志文件采集技术等。
3.2 数据存储技术:大数据的存储技术包括分布式文件系统、NoSQL数据库、云存储等。
3.3 数据处理技术:大数据的处理技术包括MapReduce、Spark、Hadoop等。
四、大数据时代的挑战和机遇4.1 挑战:大数据时代面临的挑战包括数据安全、数据隐私、数据质量等方面。
4.2 机遇:大数据时代带来的机遇包括数据驱动决策、商业智能、创新服务等方面。
4.3 发展趋势:大数据时代的发展趋势包括数据治理、数据可视化、人工智能与大数据的结合等。
五、大数据时代的未来展望5.1 数据科学家的需求:随着大数据时代的到来,数据科学家的需求将越来越大。
5.2 数据安全和隐私保护:在大数据时代,数据安全和隐私保护将成为重要议题。
5.3 人工智能与大数据的融合:未来,人工智能技术将与大数据技术深度融合,推动产业变革和创新。
大数据及其处理系统研究综述

大数据及其处理系统研究综述引言随着科技的快速发展,大数据已成为当今社会的重要组成部分,对各行各业产生了深远的影响。
大数据技术是指通过采集、存储、处理、分析等手段,从海量的数据中提取有价值的信息和知识,服务于各个领域。
本文将对大数据及其处理系统进行深入研究和分析,以期为相关领域的发展提供参考和借鉴。
大数据的概念及特点大数据是指规模巨大、结构复杂、高速增长的数据集合,具有数量庞大、类型多样、实时性强、价值密度低等特征。
这些数据来自于各种来源,包括互联网、社交媒体、企业数据库等。
大数据的特点可以归纳为四个方面:量(Volume)、速度(Velocity)、多样性(Variety)和真实性(Veracity)。
量:指数据的规模庞大,以ZB、EB、TB为单位来衡量。
速度:指数据的产生和处理速度非常快,具有实时性。
多样性:指数据类型多样,包括结构化数据、非结构化数据、半结构化数据等。
真实性:指数据的来源和准确性难以保证,需要进行数据清洗和验证。
大数据处理系统的研究大数据处理系统是指用于对大数据进行采集、存储、处理和分析的技术系统。
以下是大数据处理系统的研究重点:1. 数据存储和管理在大数据时代,数据的存储和管理成为了一个重要的问题。
分布式文件系统如Hadoop的HDFS和Google的GFS是常用的数据存储技术,它们可以将数据分散存储在多台机器上,实现数据的可靠性和可扩展性。
此外,数据库技术如NoSQL和NewSQL也得到了广泛的应用,它们可以处理结构化和非结构化的数据,具有高性能、高扩展性和高可用性。
2. 数据处理和分析数据处理和分析是大数据处理系统的核心。
批处理和流处理是两种常见的大数据处理方式,批处理主要解决大规模的结构化数据问题,如Hadoop的MapReduce;流处理则主要解决实时性问题,如Apache 的Storm和Flink。
分析技术包括机器学习、数据挖掘、统计学习等,可以对数据进行深入的分析和挖掘,发现数据中的模式和规律。
大数据安全研究综述

大数据安全研究综述随着大数据技术的日益发展,大数据安全问题也越来越受到人们的关注。
本文将对近年来大数据安全研究领域的相关工作进行综述。
一、大数据安全威胁大数据安全威胁包括以下几个方面:数据泄露、数据篡改、数据丢失、隐私泄露、身份伪装等。
1.数据泄露大数据中存储的数据是企业或个人的重要信息,一旦被泄露,将会造成严重的经济和社会损失。
2.数据篡改大数据中的数据量极大,由于数据来源和数据质量的不确定性,难以确定数据的真实性和完整性。
因此,黑客或攻击者可以通过篡改数据来达到各种目的。
3.数据丢失大数据的存储方式和传输方式非常复杂,不可避免地会出现数据丢失的情况,特别是在数据备份方面存在巨大的难度。
5.身份伪装攻击者可以通过伪装身份来获取机密信息,并且很难被发现。
因此,在大数据环境下,身份验证和访问控制显得非常重要。
二、大数据安全技术目前,针对大数据安全威胁,研究者们提出了一系列解决方案。
1.加密技术加密技术是目前最基本的安全技术,可以保证数据在传输过程中的隐私性和机密性。
在大数据存储和传输方面,加密技术可以通过数据加密、会话加密、磁盘加密等方式来实现。
2.访问控制技术访问控制技术是大数据安全技术中非常重要的一部分,可以帮助用户进行身份验证和权限控制。
目前,常见的访问控制技术包括基于角色的访问控制、基于身份的访问控制、基于属性的访问控制等。
3.数据备份和恢复技术数据备份和恢复技术是保证大数据可靠性和稳定性的关键技术,可以帮助用户尽快从数据丢失或硬件损坏等情况中恢复数据,并且保障数据的一致性。
4.数据脱敏技术数据脱敏技术可以避免敏感数据的泄露,主要包括数据加密、数据掩码、数据消毒等方法。
5.远程监控技术远程监控技术可以对大数据系统进行全面监控,及时捕捉安全漏洞和攻击行为,保障大数据的安全性。
6.智能安全威胁分析技术智能安全威胁分析技术可以通过对大数据进行深度分析和挖掘,发现安全威胁和异常行为,提高安全防护的能力。
大数据研究综述

大数据研究综述随着互联网和数据技术的不断发展,数据产生速度和数据量不断增加。
特别是在互联网、物联网等领域,大量的数据被不断产生和收集,这些数据如何进行处理和分析,对于很多学科和行业都提出了新的挑战和机遇。
大数据研究成为了近年来热门的研究方向之一。
大数据研究的概念大数据是指数据规模远远超过传统数据处理能力的数据集合。
这里的数据集合包括结构化数据、半结构化数据和非结构化数据等多种形式的数据。
大数据的特点是数据速度、数据量和数据多样性。
相应地,大数据研究主要关注以下方面:•数据存储:存储海量的数据,保证数据的安全性和完整性。
•数据处理:快速处理大量的数据,同时保证数据的质量和准确性。
•数据分析:利用统计学、机器学习等方法,挖掘数据中蕴含的规律和价值。
•数据可视化:将数据可视化呈现,更好地为决策者和用户提供数据支持。
大数据研究的应用在大数据研究中,可以涉及到很多学科和行业。
以下是一些大数据研究的应用领域:经济学大数据技术可以帮助经济学家更准确地对经济趋势做预测和分析。
以金融数据为例,基于大数据分析可以更好地了解金融市场的运行规律和交易者的行为。
帮助金融机构识别风险、进行风险管理和投资决策。
社会学大数据研究对社会学也有很大的帮助。
通过大数据分析,可以研究社交网络、网民言论等信息,了解人们社交、消费等行为习惯。
同时可以探讨人们的价值观和观念演变,对社会学的理论和方法提供新的支持和挑战。
医学大数据研究在医学方面的应用也十分广泛。
通过大数据分析,医生可以更加准确地诊断疾病、预测病变等。
同时,大数据研究对药物研发、生物学研究等方面也有很大的帮助。
工业和交通大数据技术可以帮助工厂更好地进行生产管理,优化工业生产过程。
例如,在智能制造领域,企业可以基于大数据分析进行预测和优化,提高工厂的效率和产能。
此外,在交通领域,通过大数据分析可以更好地对道路交通流量进行预测和调度,优化交通流速,提高用户出行体验。
大数据研究的挑战和未来随着大数据领域的快速发展,大数据研究也面临一些挑战。
大数据技术研究综述

⼤数据技术研究综述⼤数据技术研究综述摘要:⼤数据是继云计算、物联⽹之后IT 产业⼜⼀次颠覆性的技术⾰命。
⽂中介绍了⼤数据的概念、典型的4“V”特征以及⼤数据的关键技术,归纳总结了⼤数据处理的⼀般流程,针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。
最后,本⽂对⼤数据时代做了总结与展望。
关键词:⼤数据;数据处理技术;云计算当⼈们还在津津乐道云计算、物联⽹等主题时,⼀个崭新的概念——⼤数据横空出世。
⼤数据是继云计算、物联⽹之后IT产业⼜⼀次颠覆性的技术⾰命,对国家治理模式、企业决策、组织和业务流程,以及个⼈⽣活⽅式等都将产⽣巨⼤的影响。
⼤数据的挖掘和应⽤可创造出超万亿美元的价值,将是未来IT 领域最⼤的市场机遇之⼀,其作⽤堪称⼜⼀次⼯业⾰命[1]。
我们⾝处数据的海洋,⼏乎所有事物都与数据有关,环境、⾦融、医疗……我们每天都在产⽣数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝⽹购物……⼤量数据实时地影响我们的⼯作、⽣活乃⾄社会发展。
数据成为与⾃然资源、⼈⼒资源同样重要的战略资源,引起了科技界和企业界的⾼度重视。
1⼤数据的概念⼤数据本⾝就是⼀个很抽象的概念,提及⼤数据很多⼈也只能从数据量上去感知⼤数据的规模,如:百度每天⼤约要处理⼏⼗PB 的数据;Facebook 每天⽣成300 TB以上的⽇志数据;据著名咨询公司IDC 的统计,2011年全球被创建和复制的数据总量为1.8 ZB(1021) ,但仅仅是数据量并不能区分⼤数据与传统的海量数据的区别。
在2008年《Science》杂志出版的专刊中,⼤数据被定义为“代表着⼈类认知过程的进步,数据集的规模是⽆法在可容忍的时间内⽤⽬前的技术、⽅法和理论去获取、管理、处理的数据”[2]。
⼤数据不是⼀种新技术,也不是⼀种新产品,⽽是⼀种新现象,是近来研究的⼀个技术热点。
⼤数据具有以下4个特点,即4个“V”:(1) 数据体量(V olumes) 巨⼤。
大数据研究综述

大数据研究综述介绍随着科技的不断发展和普及,大数据变得越来越重要。
大数据提供了一个巨大的机会来寻找和发现有价值的信息并抵消业务和市场方面的风险。
在本篇综述中,我们将介绍目前关于大数据研究的一些最新成果和发现。
大数据概述大数据指的是一组数据,这些数据是巨大的、复杂的、需要高效处理的。
传统的数据处理方法已经无法胜任对大数据的处理。
最初的大数据处理需要在分布式系统上进行。
现在,与普通数据相比,大数据的主要特征是四个“V”:Volume(大量的数据),Variety(多样性),Velocity(高速传输),Verification(真实性验证)。
这些特点要求我们在处理大数据时应注意到。
大数据技术的迅速发展使得大数据应用场景不断拓展。
目前,大数据处理在电子商务、金融、医疗、云计算等领域已经得到应用。
在这些领域,大数据技术的应用可以带来很多价值。
大数据处理大数据到来之后,其处理方法也在不断变化。
当前的一些大数据处理方法和技术包括:分布式系统分布式系统被广泛应用于大数据处理。
在分布式系统中,接收数据的节点将数据分成若干部分并分配给不同的节点进行处理。
存储技术存储技术非常重要,当前大数据存储技术包括分布式存储、云存储、内存存储等。
分布式存储是当前最流行的一种存储方式。
数据挖掘数据挖掘是大数据处理中的一个重要步骤。
它包括数据预处理、数据分析、数据挖掘等步骤以获取有价值的信息。
机器学习机器学习是另一个重要的大数据处理方法。
它通过多种算法来分析数据,从而能够做出预测和判断。
大数据应用大数据处理方法对于商业和科学等领域都有重要的应用。
目前,有很多大数据分析应用,包括数据预测、数据侦查和数据分析。
商业分析商业领域是大数据分析的主要应用领域之一。
大数据处理可以为企业提供全面的市场和客户分析,以满足其业务需求。
在这个领域,大数据技术的应用涉及到很多方面,包括市场细分、产品开发和销售等。
科学研究在科学研究领域,大数据处理技术可以被用于数据挖掘、保护和数据分析。
大数据文献综述(一)

大数据文献综述(一)引言概述:大数据是当前信息技术发展的热点,它以巨大规模的、多种类型的数据集为基础,通过创新的处理和分析方法,揭示出隐藏在数据背后的规律和价值,对于推动社会经济的发展具有重要作用。
本文旨在对大数据的相关文献进行综述,系统梳理大数据的定义、特点、应用领域等方面的研究成果,为深入理解和应用大数据提供参考依据。
正文内容:一、大数据的定义与特点1. 大数据的定义:从数据量、速度、多样性等方面阐述大数据的底线。
2. 大数据的特点:探讨大数据的海量、高维、真实、价值等特点,以区别于传统数据。
二、大数据的技术基础1. 大数据的存储技术:介绍分布式文件系统、NoSQL数据库等存储大数据的技术手段。
2. 大数据的处理技术:讨论MapReduce、Hadoop等大数据处理框架及其应用场景。
三、大数据的应用领域1. 金融领域:探索大数据在风险评估、投资决策等方面的应用。
2. 医疗领域:分析大数据在疾病预测、基因分析等方面的应用案例。
3. 零售领域:剖析大数据在市场分析、用户行为预测等方面的应用。
4. 媒体领域:阐述大数据在舆情分析、个性化推荐等方面的应用。
四、大数据的挑战与机遇1. 数据隐私与安全问题:探讨大数据背后存在的隐私泄露和数据安全问题。
2. 数据质量与整合问题:分析大数据链路中可能出现的数据质量不确定性和信息孤立问题。
3. 人才缺口与资源投入问题:讨论大数据技术人才与资源投入不足的挑战。
五、大数据的未来发展趋势1. 人工智能与大数据:探讨人工智能与大数据的紧密结合,推动大数据应用走向智能化。
2. 数据驱动的企业发展:分析数据驱动型企业的兴起和发展趋势。
3. 数据治理与合规性问题:讨论大数据时代下数据治理与合规性的重要性。
总结:本文通过对大数据的定义、特点、技术基础、应用领域、挑战与机遇以及未来发展趋势的综述,为读者提供了深入了解大数据的基础知识和前沿动态的参考。
随着信息技术的不断发展,大数据将继续引领社会变革的浪潮,为各行业创造更多的机遇与挑战。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
http:∥ • 142 •
第 25 卷 增刊 2013 年 8 月
Vol. 25 S
陶雪娇, 等: 大数据研究综述
Aug., 2013
有面向主题、集成性、时变性和非易失性特点,成为数据 分析和联机分析的重要平台;随着网络的普及和 web 2.0 网站的兴起,基于 Web 的数据库和非关系型数据库等技术 应运而生……目前,智能手机和社交网络的广泛使用,使 得各种类型的数据呈指数增长,渐渐超出了传统关系型数 据库的处理能力,数据中存在的关系和规则难以被发现, 而大数据技术很好的解决了这个难题,它能够在成本可承 受的条件下,在较短的时间内,将数据采集到数据仓库中, 用分布式技术框架对非关系型数据进行异质性处理,通过
1
定义
研究机构 Gartner 的定义: 大数据是指需要新处理模式
才能具有更强的决策力、洞察发现力和流程优化能力的海 量、高增长率和多样化的信息资产。 维基百科的定义:大数据指的是所涉及的资料量规模 巨大到无法通过目前主流软件工具,在合理时间内达到撷 取、管理、处理并整理成为帮助企业经营决策目的的资讯。 麦肯锡的定义: 大数据是指无法在一定时间内用传统 数据库软件工具对其内容进行采集、 存储、 管理和分析的 数据集合。 无论哪种定义,我们可以看出,大数据并不是一种新 的产品也不是一种新的技术, 就如同本世纪初提出的“海量 数据”概念一样,大数据只是数字化时代出现的一种现象。 那么海量数据与大数据的差别何在 ?从翻译的角度看, “大数据”和“海量数据”均来自英文,“big data”翻译为“大数 据”,而“large-scale data”或者“vast data”则翻译为“海量数 据”。从组成的角度看,海量数据包括结构化和半结构化的 交易数据,而大数据除此以外还包括非结构化数据和交互 数据。 Informatica 大中国区首席产品顾问但彬进一步指出, 大数据意味着包括交易和交互数据集在内的所有数据集, 其规模或复杂程度超出了常用技术,按照合理的成本和时 限捕捉、管理及处理这些数据集的能力。可见,大数据由 海量交易数据、 海量交互数据和海量数据处理三大主要的 技术趋势汇聚而成。 上个世纪 60 年代,数据一般存储在文件中,由应用程 序直接管理;70 年代构建了关系数据模型,数据库技术为 数据存储提供了新的手段;80 年代中期,数据仓库由于具
1989 年在美国底特律召开的第 11 届国际人工智能联
http:∥ • 143 •
第 25 卷 增刊 2013 年 8 月
系统仿真学报 Journal of System Simulation
Vol. 25 S Aug., 2013
合会议专题讨论会上,首次提出了 “数据库中的知识发现 (KDD)”的概念。1995 年召开了第一届知识发现与数据 挖掘国际学术会议,随着与会人员的增多,KDD 国际会议 发展为年会。1998 年在美国纽约举行了第四届知识发现与 数据挖掘国际学术会议,不仅进行了学术讨论,而且 30 多 家软件公司展示了自己的产品,比如, IBM 公司研制的 Intelligent Miner,用来提供数据挖掘的解决方案;SPSS 股 份公司开发了基于决策树的数据挖掘软件 Clementine ; Oracle 公司开发的 Darwin 数据挖掘套件,另外还有 SAS 公司的 Enterprise 和 SGI 公司的 Mine Set 等。 经济利益成为主要的推动力,IBM、ORACLE、微软、 谷歌、亚马逊、Facebook、Teradata、EMC、惠普等跨国巨 头也因大数据技术的发展而更加具有竞争力[5]。仅 2009 年 一年,谷歌公司通过大数据业务对美国经济贡献 540 亿美 元;2005 年以来,IBM 投资 160 亿美元进行 30 多次与大 数据相关的收购,使业绩稳定高速增长,2012 年,IBM 股 价每股突破 200 美元大关,3 年内翻了 3 番;eBay 通过数 据挖掘精确计算出广告中每个关键字带来的回报,2007 年 以来,广告费降低了 99%,同时顶级卖家占总销售额的百 分比上升至 32%;2011 年,Facebook 首次公开新数据处理 分析平台 PUMA,通过对数据多处理环节区分优化,相比 之前单纯采用 Hadoop 和 Hive 进行处理的技术,数据分析 周期从 2 天降到 10 秒以内,效率提高数万倍。 2012 年 3 月,奥巴马政府公布“大数据研发计划”,旨 在提高和改进人们从海量、 复杂的数据中获取知识的能力, 发展收集、储存、保留、管理、分析和共享海量数据所需 要的核心技术,大数据成为继集成电路和互联网之后信息 科技关注的重点。 与国外相比,国内起步稍晚,还未形成整体力量,企 业使用数据挖掘技术尚不普遍 , 但近几年出现了蓬勃发展 的态势。 我国国家自然科学基金于 1993 年首次支持对数据挖 掘领域的研究项目。1999 年,在北京召开第三届亚太地区 知识发现与数据挖掘国际会议(PAKDD),收到论文 158 篇
第 25 卷 增刊 2013 年 8 月
系统仿真学报© Journal of System Simulation
Vol. 25 S Aug., 2013
大数据研究综述
陶雪娇,胡晓峰,刘洋
(国防大学信息作战与指挥训练教研部, 北京 100091) 摘要:2010 年,全球数据量跨入了 ZB 时代,据 IDC 预测,至 2020 年全球将拥有 35ZB 的数据 量,大量数据实时地影响我们工作、生活,甚至国家经济、社会发展,大数据时代已经到来。大 数据具有数据量巨大、数据类型多样、流动速度快和价值密度低的特点,大数据技术为我们分析 问题和解决问题提供了新的思路和方法,其研究渐渐成为热点。阐述了大数据的相关概念、特点、
引言
当我们对“云计算”、“物联网”等概念还感觉模糊的时 候,“大数据”横空出世且其发展呈燎原之势。为了减少火 车脱轨造成的伤亡,交通系统变得更加智能。火车上安装 了各种传感器来收集各个部位运行情况的数据,以此来检 测存在安全隐患的器件,当然,这些还远不能称为“智能”, 要对铁轨乃至整个交通系统都能够进行实时的数据采集, 甚至对影响交通的天气情况都要考虑在内,现在把这些信 息加入到火车的承载量、出发以及到达等数据里,一个大
[4]
2.2 数据种类繁多(Variety)
随着传感器种类的增多以及智能设备、社交网络等的 流行,数据类型也变得更加复杂,不仅包括传统的关系数 据类型,也包括以网页、视频、音频、e-mail、文档等形式 存在的未加工的、半结构化的和非结构化的数据。
2.3 流动速度快(Velocity)
我们通常理解的是数据的获取、存储以及挖掘有效信 息的速度,但我们现在处理的数据是 PB 级代替了 TB 级, 考虑到“超大规模数据”和“海量数据”也有规模大的特点, 强调数据是快速动态变化的,形成流式数据是大数据的重 要特征,数据流动的速度快到难以用传统的系统去处理。
大数据技术特别是在数据挖掘方面国内外发展状况以及我们在大数据时代面临的挑战。通过综
述,对大数据有一个全面的认识,为下一步研究打下基础。 关键词:大数据;大数据技术;数据挖掘;挑战 中图分类号:TP301 文献标识码:A 文章编号:1004-731X (2013) S-0142-05
Overview of Big Data Research
图 1 IDC 全球数据使用量预测
数据挖掘与分析,从大量化、多类别的数据中提取价值, 大数据技术将是 IT 领域新一代的技术与架构。
2011 年 6 月,IDC 研究报告《从混沌中提取价值》中 三个基本论断构成了大数据的理论基础[3],人们对大数据 的关注程度日益上升,据统计,Google“大数据”搜索量自 2011 年 6 月起呈直线上升趋势, 大数据时代的到来毋庸置疑。
TAO Xue-jiao, HU Xiao-feng, LIU Yang (The Department of Information Operation & Command Training of NDU, Beijing 100091, China)
Abstract: In 2010, the quantity of data reached ZB level. According to IDC, there will be at least 35 zettabytes of stored data in 2020. Massive data are affecting our life, even the economy and the development of the society. The Big Data era has already come. There are four defining characteristics of Big Data: volume, variety, velocity and value. It is often referred to them as “the 4Vs”. The Big Data technology will offer new ideas and methods, which is becoming popular. Introductions to Big Data and Big Data technology with particular emphasis on Data Mining were given. There will be a comprehensive understanding of Big Data and lay a foundation for further study. Key words: big data; big data technology; data mining; challenge
数据问题就出现了[1]。 我们身处数据的海洋,几乎所有事物都与数据有关, 环境、金融、医疗……我们每天都在产生数据,打电话、 发短信、进地铁站安检、进办公楼刷卡、在 QQ 上聊天、 上淘宝网购物……大量数据实时地影响我们的工作、生活 乃至社会发展。数据成为与自然资源、人力资源同样重要 的战略资源,引起了科技界和企业界的高度重视。 根据国际数据资讯(IDC)公司监测,全球数据量大约每 两年翻一番,预计到 2020 年,全球将拥有 35ZB 的数据量 (如图 1 所示),并且 85%以上的数据以非结构化或半结构 化的形式存在。IT 专业人员预见数据处理面临的挑战,用 “Biห้องสมุดไป่ตู้ Data(大数据)”来形容这个问题。其实,“大数据”这个 名词并不新鲜, 早在上个世纪 80 年代就有美国人提出来[2]。 2008 年 9 月, 《科学》 杂志发表文章“Big Data: Science in the Petabyte Era”,“大数据”这个词开始广泛传播。