大数据 big data
大数据名词解释

大数据名词解释
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
先说结论——大数据技术,其实就是一套完整的“数据+业务+需求”的解决方案。
它其实是一个很宽泛的概念,涉及五个领域:
1.业务分析;
2.数据分析;
3.数据挖掘;
4.机器学习;
5.人工智能。
从1到5,越来越需要技术背景;从5到1,越来越贴近具体业务。
其实,除了像搜索引擎这样依靠数据技术而诞生的产品外,大部分互联网产品在生存期,即一个产品从0到1的阶段,并不是特别需要大数据技术的。
而在产品的发展期,也就是从“1”到“无穷”的阶段,“大数据技术”对产品的作用才会逐渐体现。
主要原因是初期产品的功能和服务较少,也没有“积累的用户数据”用于模型研发。
所以,我们常听说“构建大数据的壁垒”,这里面,“数据技术”是小壁垒,“大数据”本身才是大壁垒。
这里就从“大数据”开始说起。
大数据是什么

大数据是什么大数据(Big Data)是指规模巨大、复杂度高且难以用传统数据处理工具进行处理和分析的数据集合。
它通常具有以下特征:数据量大、数据类型多样、数据生成速度快以及数据价值密度低。
大数据的处理和分析需要借助先进的技术和工具,以从中发现隐藏的模式、趋势和关联性,从而为决策和创新提供支持。
大数据的特征:1. 数据量大:大数据的数据量通常以TB(Terabyte,千亿字节)或PB (Petabyte,百万亿字节)为单位进行计量。
这些数据来自于各种来源,如社交媒体、传感器、日志文件等。
2. 数据类型多样:大数据可以包含结构化数据(如关系数据库中的表格数据)、半结构化数据(如XML文件、JSON文件)和非结构化数据(如文本、图像、音频、视频等)。
3. 数据生成速度快:大数据的生成速度非常快,例如社交媒体上每秒钟产生的推文数量、传感器收集的实时数据等。
4. 数据价值密度低:大数据中的很大一部分是垃圾数据或冗余数据,对于决策和创新来说并不具有实际价值。
大数据的应用:1. 商业智能和决策支持:通过对大数据的分析,企业可以从中发现市场趋势、消费者偏好、产品改进机会等,从而提高决策的准确性和效率。
2. 金融行业:大数据分析可以帮助银行和保险公司识别欺诈行为、风险管理、个性化推荐等。
3. 健康医疗:通过对大数据的分析,可以改善医疗保健服务、提高疾病预测和诊断的准确性,帮助制定个性化的治疗方案。
4. 城市管理:大数据分析可以帮助城市管理者实时监测和优化城市交通、能源消耗、环境污染等,提高城市的可持续发展。
5. 社交媒体和广告:通过对大数据的分析,可以了解用户的兴趣和行为,从而进行精准的广告投放和个性化的推荐。
6. 科学研究:大数据分析在天文学、生物学、物理学等领域有着广泛的应用,可以帮助科学家发现新的规律和知识。
大数据的处理和分析:1. 数据采集和存储:大数据的采集可以通过传感器、网络爬虫、日志文件等方式进行,采集到的数据需要存储在分布式文件系统或数据库中,如Hadoop、MongoDB等。
大数据英语翻译

大数据英语翻译1. 大数据的英语翻译是"big data"。
"big data" 是指处理和分析庞大、复杂数据集的技术和方法。
2. "big data" 是由两个单词组成的短语。
"big" 意味着数据集非常庞大,通常无法通过传统的数据处理方法来处理和分析。
而"data" 指的是收集到的各种类型的信息。
3. 大数据是在现代技术快速发展的背景下出现的。
随着互联网、传感器技术、社交媒体等信息源的爆炸性增长,我们能够收集到大量的数据,这些数据对于解决问题和做出决策具有重要意义。
4. 大数据的特点是三个"V":体量(Volume)、速度(Velocity)和多样性(Variety)。
体量指的是数据集非常庞大,数量级通常是以千、百万、甚至十亿计。
速度指的是数据的产生和流动的速度非常快,需要实时或近实时地进行处理和分析。
多样性指的是数据的类型和格式多种多样,包括结构化数据(如数据库中的表格)、半结构化数据(如XML或JSON文件)和非结构化数据(如文本、图像、视频等)。
5. 大数据的应用范围非常广泛。
在商业领域,大数据可以用于市场调研、客户分析、销售预测等。
在医疗领域,大数据可以用于研究疾病模式、个性化医疗等。
在城市规划领域,大数据可以用于交通管理、环境保护等。
在科学研究领域,大数据可以用于天文学、生物学等。
6. 大数据的处理和分析需要借助于先进的技术和工具。
其中,数据采集、数据存储、数据处理和数据可视化是关键的环节。
数据采集可以通过传感器、网络爬虫、调查问卷等方式获取数据。
数据存储可以使用分布式文件系统(如Hadoop)、关系型数据库、NoSQL数据库等技术。
数据处理可以使用分布式计算、机器学习、统计分析等方法。
数据可视化可以使用图表、地图、仪表盘等方式将数据展示出来。
7. 大数据的发展也带来了一些挑战和问题。
什么是大数据?

什么是大数据?什么是大数据?大数据(Big Data)是指规模巨大、种类繁多的数据集合,无法用常规的数据处理工具进行管理和处理。
这些数据通常以超过传统数据处理能力的速度,并展现出高度的多样性、复杂性和实时性。
大数据的处理需要借助于先进的数据分析和处理技术,以从中挖掘出有价值的信息和洞察力。
⒈大数据的特点⑴规模巨大:大数据所涉及的数据集合非常庞大,通常以TB、PB甚至EB为单位计算。
⑵多样性:大数据包含不同类型和来源的数据,例如结构化数据、半结构化数据和非结构化数据。
⑶实时性:大数据的速度很快,需要实时处理和分析,以快速反应市场变化和数据趋势。
⒉大数据的应用领域⑴企业管理和决策:大数据分析可以帮助企业了解市场需求、消费者行为和竞争对手情况,优化产品设计和营销策略。
⑵社会公共管理:大数据可以用于城市交通管理、环境监测、智慧城市等领域,提高公共服务效率。
⑶医疗卫生:通过对大数据的分析,可以发现疾病的模式和趋势,帮助医生做出准确的诊断和预测治疗效果。
⑷金融行业:大数据分析可以用于风险评估、欺诈检测、个性化产品推荐等,提高金融机构的运营效率和风险管理能力。
⒊大数据的处理技术⑴数据采集与存储:包括数据抓取、数据清洗和数据存储等技术,确保数据的准确性和完整性。
⑵数据分析与挖掘:通过技术工具和算法,对大数据进行分析和挖掘,以发现数据中隐藏的模式和关联关系。
⑶可视化和报告:将分析结果以可视化的方式呈现,提供直观的数据展示和报告。
⑷机器学习和:通过机器学习和技术,对大数据进行预测和决策支持。
附件:本文档未涉及附件。
法律名词及注释:⒈数据隐私:保护个人数据不被未经授权的访问和使用。
⒉数据保护法:规定了个人数据的处理和保护规则。
⒊数据安全:保障数据不受损坏、丢失、泄露等威胁。
什么是大数据

一、什么是大数据1、概念:大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
2、如何理解大数据?大数据概念分解成三个层面:第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。
从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。
分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。
分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
3、大数据的特点:4V特点(IBM提出):Volume(大量)、Variety(多样)、Value (价值)、Velocity(高速)。
第一,数据体量巨大。
大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。
比如,网络日志、视频、图片、地理位置信息等等。
第三,价值密度低,商业价值高。
第四,处理速度快。
4、大数据与云计算联系与区别从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。
大数据必然无法用单台的计算机进行处理,必须采用分布式架构。
关于大数据你应该知道的50个专业术语

关于大数据你应该知道的50个专业术语1. 大数据(Big Data)- 指的是规模庞大、复杂多变的数据集合。
它在各个领域中不断积累和产生,涵盖了结构化、半结构化和非结构化的数据。
2. 数据挖掘(Data Mining)- 是从大数据中自动发现和提取有用信息的过程。
它使用统计学、模式识别和机器学习等技术,帮助解读数据并发现隐藏的模式和规律。
3. 云计算(Cloud Computing)- 是通过互联网提供各种计算资源和服务的模式。
大数据通常需要庞大的计算和存储能力,云计算提供了弹性和可靠的资源解决方案。
4. 数据仓库(Data Warehouse)- 是用于存储和管理结构化数据的集中式系统。
它经过数据清洗和整合,方便用户进行复杂的分析和查询。
5. 数据湖(Data Lake)- 是指将各种类型和格式的数据存储在一个集中式的存储系统中。
与数据仓库不同,数据湖不需要事先定义数据模式和结构,可以更灵活地处理复杂的数据分析需求。
6. Hadoop- 是一个开源的分布式计算框架,用于处理大规模数据集。
它基于MapReduce算法,能够有效地分布和处理数据。
7. MapReduce- 是一种并行计算编程模型,用于处理大规模数据集。
它将数据分成多个小块,分发给多个计算节点进行并行计算,最终将结果合并返回。
8. Spark- 是一个快速、通用、高级的大数据处理引擎。
它支持内存计算,能够在大数据集上进行复杂的数据处理和分析。
9. 数据可视化(Data Visualization)- 是将数据以图表、图形和其他可视化形式展示的过程。
它能够帮助用户更好地理解和分析数据,发现潜在的信息和见解。
10. 数据清洗(Data Cleaning)- 是处理和修正数据中的错误、缺失和不一致之前的过程。
清洗后的数据更加准确可靠,有助于后续的分析和应用。
11. 数据集成(Data Integration)- 是将来自不同数据源的数据合并成一个统一的数据集的过程。
大数据是什么
大数据是什么大数据(Big Data)是指规模庞大、复杂度高且难以用传统数据处理工具进行捕捉、管理和处理的数据集合。
这些数据集合通常包含结构化数据(如关系数据库中的数据)和非结构化数据(如文本、音频、视频等),并且具有高速度、高密度和高多样性的特点。
大数据的特点1. 体量巨大:大数据的数据量通常以TB(1TB=1024GB)或PB(1PB=1024TB)为单位,甚至更高。
2. 多样性:大数据可以包含来自各种来源和格式的数据,如传感器数据、社交媒体数据、图像和视频数据等。
3. 时效性:大数据的生成速度非常快,需要实时或近实时处理,以便及时获取有用的信息。
4. 真实性:大数据通常是从真实世界中收集的,具有较高的真实性和代表性。
5. 不确定性:大数据中的数据质量和准确性往往难以保证,需要进行数据清洗和预处理。
大数据的应用1. 商业决策:大数据分析可以帮助企业了解市场趋势、消费者行为和竞争对手情况,从而做出更明智的商业决策。
2. 金融风控:通过对大数据的分析,可以识别潜在的风险和欺诈行为,提高金融机构的风险管理能力。
3. 医疗健康:利用大数据分析技术,可以挖掘医疗数据中的潜在关联和模式,提高疾病诊断和治疗效果。
4. 智慧城市:通过对城市中各种传感器和设备产生的大数据进行分析,可以优化城市交通、能源利用和公共服务等方面的运行效率。
5. 社交媒体分析:大数据分析可以帮助企业了解用户在社交媒体上的行为和偏好,从而改进产品和服务。
6. 物流管理:通过对物流数据的分析,可以优化运输路线、减少物流成本,提高物流效率。
7. 科学研究:大数据分析在天文学、生物学、气象学等领域有着广泛的应用,帮助科学家发现新的规律和知识。
大数据的处理技术1. 数据采集:通过传感器、日志文件、网络爬虫等方式收集大数据。
2. 数据存储:使用分布式文件系统(如Hadoop HDFS)或NoSQL数据库(如MongoDB)等技术进行大数据的存储。
大数据是什么
大数据是什么大数据(Big Data)是指规模庞大、复杂度高且难以通过传统数据处理工具进行捕捉、管理和处理的数据集合。
大数据的特点主要包括四个方面:数据量大、数据类型多样、数据生成速度快以及数据价值密度低。
数据量大:大数据的数据量通常以TB(Terabytes)或者PB(Petabytes)为单位进行衡量。
这些数据可以来自各种来源,包括传感器、社交媒体、电子商务、医疗保健等领域。
数据类型多样:大数据不仅包含结构化数据(如数据库中的表格数据),还包括非结构化数据(如文本、图像、音频、视频等)。
这些数据类型多样,需要使用不同的方法和工具进行处理和分析。
数据生成速度快:大数据的生成速度非常快,需要即时处理和分析。
例如,社交媒体上每秒钟产生的数据量非常庞大,需要实时监测和分析用户的行为和情绪。
数据价值密度低:大数据中往往包含了大量的噪音和冗余信息,数据的价值并不都是显而易见的。
因此,需要通过数据挖掘和分析技术,从大数据中提取出有价值的信息和洞察。
大数据的应用领域广泛,包括但不限于以下几个方面:1. 商业智能和市场分析:通过分析大数据,企业可以了解消费者的行为和偏好,优化产品设计和市场营销策略,提高销售和客户满意度。
2. 金融风险管理:银行和金融机构可以通过分析大数据,识别潜在的风险和欺诈行为,提高风险管理和预测能力。
3. 医疗保健:大数据可以帮助医疗机构分析患者的病历、病情和治疗效果,提供个性化的医疗服务和药物推荐。
4. 城市规划和交通管理:通过分析大数据,城市可以优化交通流量,提高公共交通的效率,减少交通事故和拥堵。
5. 农业和环境保护:通过分析气象数据、土壤数据和植物生长数据,农业和环保部门可以制定更科学的农作物种植计划和环境保护措施。
为了处理和分析大数据,需要使用一些特殊的技术和工具,包括:1. 分布式存储和计算:大数据通常存储在多个服务器上,需要使用分布式存储系统(如Hadoop)进行管理和处理。
大数据是什么
大数据是什么大数据(Big Data)是指规模巨大、复杂度高且难以用传统软件工具进行处理和管理的数据集合。
它具有三个主要特征:数据量大、数据类型多样、数据处理速度快。
大数据的产生源自于互联网、社交媒体、传感器技术等各个领域,它们产生的数据量庞大且呈指数级增长。
大数据的特征:1. 数据量大:大数据以TB、PB、甚至EB为单位进行计量,远远超过传统数据处理能力。
2. 数据类型多样:大数据不仅包括结构化数据(如关系数据库中的表格数据),还包括非结构化数据(如文本、图像、音频、视频等)。
3. 数据处理速度快:大数据需要在短时间内进行高速处理和分析,以获取有用的信息和洞察。
大数据的应用:1. 商业智能:通过对大数据的分析,企业可以了解市场趋势、消费者行为,从而制定更有效的商业策略。
2. 金融风控:银行和金融机构可以利用大数据分析客户的信用风险,预测市场波动,提高风险管理能力。
3. 医疗健康:通过分析大数据,医疗机构可以实现个性化诊疗,提高疾病预测和治疗效果。
4. 城市管理:政府可以利用大数据分析城市交通流量、环境污染等信息,优化城市规划和资源分配。
5. 物联网:大数据与物联网的结合可以实现智能家居、智慧交通、智能制造等领域的创新应用。
大数据的处理技术:1. 分布式存储:大数据需要分布式存储系统,如Hadoop和HDFS,将数据分散存储在多台服务器上,提高数据的可靠性和可扩展性。
2. 分布式计算:大数据需要分布式计算框架,如MapReduce和Spark,将计算任务分解为多个子任务,分布在多台服务器上并行处理,提高处理速度和效率。
3. 数据挖掘与机器学习:通过数据挖掘和机器学习算法,可以从大数据中提取有用的信息、模式和规律,用于预测、分类和优化决策。
4. 可视化技术:通过可视化工具和技术,将大数据转化为直观、易于理解的图表、图像和动画,帮助用户更好地理解和分析数据。
大数据的挑战:1. 数据隐私与安全:大数据中可能包含敏感信息,如个人身份、财务数据等,保护数据的隐私和安全是一个重要挑战。
大数据的定义
大数据的定义什么是大数据大数据(Big Data)是指规模巨大、复杂多变、难以用常规数据库和软件工具进行管理和处理的数据集合。
大数据不仅包含传统结构化数据(如关系型数据库中的表格数据),还包括非结构化数据(如文本、图片、音频、视频等)和半结构化数据(如日志文件、社交媒体数据等)。
大数据的特点主要体现在以下几个方面:1.规模巨大:大数据通常以TB(Terabyte,万亿字节)和PB(Petabyte,千万亿字节)为单位计量,远远超过传统数据库处理能力的数据量。
2.高速生成:大数据的生成速度非常快,数据源涵盖了各个领域的传感器、监控设备、社交媒体、互联网等,数据量增长迅猛。
3.多样化和多源性:大数据涵盖了各种不同类型的数据,不仅包括结构化数据,还包括非结构化和半结构化数据。
4.价值密度低:大数据中存在大量的噪音和冗余信息,需要进行数据清洗、预处理和分析,才可以发现其中蕴含的价值。
通过对大数据的处理和分析,可以获得有关消费者行为、市场趋势、业务运营等方面的重要见解和决策支持,从而为企业和组织提供更快、更准确、更智能的决策基础。
大数据的特点1. 规模巨大大数据的规模巨大是其最显著的特点之一。
随着科技的发展和互联网的普及,数据的产生速度呈指数级增长。
从社交媒体、电子商务、传感器、机器日志等各个方面,数据在快速积累。
当数据量达到一定的规模后,传统的数据库管理系统就无法满足处理和存储的需求,需要引入大数据技术。
2. 高速生成大数据的生成速度非常快,尤其是一些实时数据,如股票行情、交通监控、气象数据等。
这些数据源的生成速度非常迅猛,需要实时采集和处理。
而且大数据的获取和分析要及时,以便作出及时的决策。
3. 多样性和多源性大数据不仅包含传统的结构化数据,还包括非结构化和半结构化数据。
非结构化数据是指没有固定格式的数据,如文本、图片、音频、视频等;半结构化数据是指有部分结构化的数据。
大数据涵盖了各个领域的数据,如社交媒体数据、电子邮件、日志文件、传感器数据等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
未来的世界将不再由石油驱动,而是 由数据驱动
• 大数据案例 (1)腾讯——大数据技术促使腾讯视频成为国 内第一 (2)T-Mobile——大数据帮助移动运营商降低 客户流失率 (3)TXU Energy——智能电表 (4)麦克拉伦一级方程式车队——借助大数 据技术,降低事故,保驾护航 (5)UPS快递——大数据技术下的最佳行车路 径 (6)DPR——用大数据设计建筑
大数据,首先你要能存的下大数据。
• 传统的文件系统是单机的,不能横跨不同的机 器。HDFS(Hadoop Distributed FileSystem)的设 计本质上是为了大量的数据能横跨成百上千台 机器,但是你看到的是一个文件系统而不是很 多文件系统。HDFS为你管理这些数据。存的 下数据之后,你就开始考虑怎么处理数据,虽 然HDFS可以为你整体管理不同机器上的数据 ,但是这些数据太大了。一台机器读取成T上 P的数据比如微博要更新24小时热博,它必须 在24小时之内跑完这些处理。 MapReduce / Tez / Spark的功能。MapReduce是第一代计算 引擎,Tez和Spark是第二代
法国电力公司:基于 大数据的运营分析
芝加哥警方用大数据分析来预防犯罪,从而减少了犯罪事 件的发生
用数据武装警察
大数据:有助发现癌症阿喀琉斯之踵 下医疗健康也进入了数据分析时代
Duang~的一
现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均 把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说, 90% 以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫 盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法 和成本,以及需要的专业人才。本文无论是对创业团队还是投资机构 都是非常有指导意义的。
•
•
•
现在让我们回到当代。 2008 年 8 月, 大数据 “成功偶像” 之一的谷歌 (Google) 公司领衔在《自然》(Nature) 杂志上发表论文, 推介了一个如 今被称为 “谷歌流感趋势” (Google Flu Trends) 的系统。 这一系统能利 用互联网上有关流感的搜索的数量和分布来估计各地区流感类疾病的患 者数目。 谷歌表示, 这一系统给出的估计不仅比美国疾病控制与预防 中心 (Centers for Disease Control and Prevention——简称 CDC) 的数据更 快速, 而且还有 “不依赖于理论” (theory-free) 的特点。 但是, 这个一度引起轰动的系统经过几年的运行后, 却引人注目地演 示了大数据可能带来的陷阱。 2013 年 2 月,《自然》杂志资深记者巴特勒 (Declan Butler) 发表了一篇 题为 “当谷歌弄错了流感” (When Google got flu wrong) 的文章, 指出 “谷歌流感趋势” 对 2012 年底美国流感类疾病患者数目的估计比美国 疾病控制与预防中心给出的数据高了约一倍。 不仅如此, “谷歌流感 趋势” 在 2008-2009 年间对瑞士、 德国、 比利时等国的流感类疾病患 者数目的估计也都失过准。 大数据在这些例子中为什么会失败呢? 人们很快找到了原因。 比如《 文摘》杂志对 1936 美国总统竞选预测的失败, 是因为该杂志的调查对 象是从汽车注册资料及电话簿中选取的, 而汽车及电话在当时的美国尚 未普及, 使得由此选出的调查对象缺乏代表性。 而谷歌对 2012 年底美 国流感类疾病患者数目的估计失败, 则是因为媒体对那段时间的美国流 感类疾病作了渲染, 使得很多非患者也进行了有关流感的搜索, 从而 干扰了 “谷歌流感趋势” 的估计。 在统计学中, 这被称为系统误差 (systematic error), 只要存在这种误差, 数据量再大也无济于事。
大数据改变世界
Big data changes the world
• 3月16日消息,汉诺威IT博览会(CeBIT)在德国开幕,阿里巴巴创 始人马云在开幕式上作了主题演讲。在演讲中马云表示,未来 三十年,因为数据经济,人类社会将会真正进入巨大的变革时 代。“未来的世界,我们将不再由石油驱动,而是由数据驱动 ;生意将是C2B而不是B2C,用户改变企业,而不是企业向用户 出售——因为我们将有大量的数据;制造商必须个性化,否则他 们将非常困难。” • 马云表示,未来的世界,企业将不再会关注于规模、标准化和 权力,只会关注于灵活性,敏捷性,个性化和用户友好。而一 家互联网公司要想活得长久,必须找到一个方式让互联网经济 和实体经济相结合,这个方式就是数据。
大数据真的很牛B吗?不不不,分分 钟让你读懂它
• 大数据的概念被吵的越来越厉害,这对于一个 新技术领域的诞生是一个必经过程。对于“大 数据”(Big Data),研究机构Gartner给出的定 义是:“大数据”是需要新处理模式才能具有 更强的决策力、洞察发现力和流程优化能力的 海量、高增长率和多样化的信息资产。 • 两年前,《纽约时报》撰文“欢迎大数据的到 来”,两年后,大数据的商业价值已经显现。 在各个行业,我们都已能看到大数据的身影。
•
•
• 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样 密不可分。大数据必然无法用单台的计算机进行处理,必须采用 分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但 它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟 化技术。[2] • 随着云时代的来临,大数据(Big data)也吸引了越来越多的关 注。《著云台》的分析师团队认为,大数据(Big data)通常用 来形容一个公司创造的大量非结构化数据和半结构化数据,这些 数据在下载到关系型数据库用于分析时会花费过多时间和金钱。 大数据分析常和云计算联系到一起,因为实时的大型数据集分析 需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑 分配工作。 • 大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的 数据。适用于大数据的技术,包括大规模并行处理(MPP)数据 库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平 台、互联网和可扩展的存储系统。
• 对于许多人来说,收集数据就足以促使他们更多地运 动或睡更多觉。比如,牛津大学生理神经科学教授 Russell Foster 称,大多数人认为自己的睡眠质量要比 实际睡眠质量差。对于这些人而言,有客观的指标来 参考会减轻不少痛苦。 • 但许多用户需要的不仅仅是这些。《美国医学会期刊 》发表的一项引发诸多争议的研究表明,拥有一台健 身追踪设备并追踪数据只是迈向更健康生活的一小步 ,几乎没有用处。这是近一半用户几乎立即停止使用 健身追踪设备的原因。这也是 Jawbone、Fitbit、微软 以及其他厂商推出功能超强设备的原因,为了让用户 持续使用。所有这些设备都能收集更多数据,但只有 很少设备找到好好利用这些数据的方式。
• 物联网、云计算、移动互联网、车联网、手机 、平板电脑、PC以及遍布地球各个角落的各 种各样的传感器,无一不是数据来源或者承载 的方式。 • 有些例子包括网络日志,RFID,传感器网络, 社会网络,社会数据(由于数据革命的社会) ,互联网文本和文件;互联网搜索索引;呼叫详 细记录,天文学,大气科学,基因组学,生物 地球化学,生物,和其他复杂和/或跨学科的 科研,军事侦察,医疗记录;摄影档案馆视频 档案;和大规模的电子商务。
有了大数据,零售商的服务模式变天了
想象一下,如果你了解每个顾客所思所想,并在他们踏入 店门的那一刻就提供他们所期待的服务,这才是真正的消 费创新。更令人欣喜的是,这一天的到来会比我们想象的 更快。
《坦克世界》的开发商Wargaming West的产品监制和创意总监T.J. Wagner在PAX East游戏展会表示:“追踪世界各地数百万用户玩一 款网络游戏的游戏分数、游戏进程和游戏数据是一件很正经的事情。”
大数据的陷阱
•
这几年, 大数据 (big data) 的 “出镜率” 颇高。 连带着, “数据科学家 ” (data scientist) 成为了新的高薪一族。 人气、 财气的提升也带动了士气 , 有人开始高估大数据的神通, 仿佛只要积累了足够多数据, 请 “数据 科学家” 们坐在电脑前——就像福尔摩斯坐在太师椅上——敲一通键盘, 各种问题就都能迎刃而解。 大数据真有如此神通吗? 回顾一段小历史对我们也许不无启示。那是在 1936 年, 美国共和党人艾尔弗·兰登 (Alfred Landon) 与民主党人富兰克林· 罗斯福 (Franklin D. Roosevelt) 竞选总统。 当时很有影响力的《文摘》杂志 (The Literary Digest) 决定搞一次超大规模的民意调查, 调查人数高达 1,000 万, 约为当时选民总数的 1/4, 最终收到的回复约有 240 万份, 对 于民意调查来说可谓是 “大数据”——事实上, 哪怕在今天, 一些全国性 民意调查的调查对象也只有几千。 通过对这组 “大数据” 的分析,《文 摘》杂志预测兰登将以 55% 比 41% 的显著优势获胜。 但不久后揭晓的真 正结果却是罗斯福以 61% 比 37% 的优势大胜。《文摘》杂志的 “大数据 ” 遭到了惨败。 当然, 那是陈年旧事了。 区区 240 万份回复作为民意调查是超大规模的 , 从数据角度讲, 以今天的标准来衡量却实在小得可怜。 不过, 今天的 “大” 在几十年后也未必不会如昔日的 “小” 一样可怜。 那段小历史的 真正启示在于: 数据已大到了统计误差可以忽略的地步, 结果却错得离 谱。 这种类型的错误对于大数据是一种警示。
认识大数据
大数据(big data)是这样的数据集合
数据量增长速度极快,用常规的数据工 具无法在一定的时间内进行采集、处理、 存储和计算的数据集合。对于“大数据” 研究机构Gartner给出了这样的定义。 “大数据”是需要新处理模式才能具有 更强的决策力、洞察发现力和流程优化 能力的海量、高增长率和多样化的信息 资产。
特点
• • 数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计 算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100 万个T)或 8 bit Z( =1 10Byte 亿个T)。 1 KB = 1,024 Bytes 类型繁多( Variety )。第二个特征是种类和来源多样化。包括结构化、 1 MB = 1,024 KB = 1,048,576 Bytes 半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、 地理位臵信息等等,多类型的数据对数据的处理能力提出了更高的要求 1 GB = 1,024 MB = 1,048,576 KB 。 1 TB = 1,024 GB = 1,048,576 MB 1 PB =Value 1,024 TB = 1,048,576 GB 价值密度低( )。第三个特征是数据价值密度相对较低,或者说 是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感 1 EB = 1,024 PB = 1,048,576 TB 知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强 1 ZB = 1,024 EB = 1,048,576 PB 大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。 1 YB = 1,024 ZB = 1,048,576 EB 速度快时效高( Velocity 1 BB = 1,024 YB )。第四个特征数据增长速度快,处理速度也 = 1,048,576 ZB 快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询 1 NB = 1,024 BB = 1,048,576 YB 到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统 1 DB = 1,024 NB = 1,048,576 BB 数据挖掘的显著特征。