认识大数据(一)
对大数据的认识

对大数据的认识随着信息时代的不断发展,大数据已经成为了当今社会的热门话题。
大数据指的是巨大的、复杂的、多样化的数据集合,这些数据无法被传统的数据处理工具和技术所处理和分析。
而对于大数据的认识,正逐渐成为人们关注和探索的焦点。
一、大数据的定义与特点大数据定义为对大规模数据集合进行分析和处理的方法和技术。
大数据技术是指通过对大量结构化、半结构化和非结构化数据进行采集、存储、管理和分析,以从中获取有价值的信息和洞察力。
大数据具有以下几个特点:1. 规模庞大:大数据的规模通常以PB、ZB甚至EB为单位,这些数据量占据着不同数据源。
2. 复杂多样:大数据来源广泛,包括用户行为、社交媒体、物联网设备等。
这些数据形式多样,包括文本、图像、音频等,使得数据处理更加复杂。
3. 处理困难:由于数据量大、复杂度高,传统的数据处理方法已经无法胜任。
需要采用新的技术和算法进行大数据的处理和分析。
二、大数据的应用领域大数据在各个领域都有着广泛的应用,其中几个关键领域如下:1. 商业与市场营销:通过对大数据的分析,企业可以更好地了解消费者的需求和行为。
大数据可以帮助企业进行市场细分、产品定价和推广策略的制定。
2. 金融服务:大数据对于金融机构来说至关重要。
金融领域的大数据分析可以帮助银行和保险公司提供更好的风险评估、投资管理和信贷决策。
3. 医疗保健:大数据在医疗行业的应用有助于医院提高患者的诊断和治疗效果,同时也可以帮助公共卫生机构进行疾病预测和流行病监测。
4. 城市规划:大数据可以帮助城市规划者了解城市的交通情况、资源利用和环境保护等方面的情况,以便更好地进行城市规划和管理。
三、大数据的挑战与问题尽管大数据有着广泛的应用前景,但是也存在一些挑战和问题:1. 隐私保护:大数据涉及到大量个人信息的采集和处理,因此隐私保护成为了一个重要的问题。
需要加强对个人信息的保护和合规性审查。
2. 数据质量:大数据的质量直接关系到结果的可靠性和决策的准确性。
对大数据的认识

对大数据的认识大数据是指规模庞大、类型繁多且难以处理的数据集合。
随着信息技术的快速发展和互联网的普及,大数据已经成为当今社会的重要资源和研究领域。
在各个行业和领域中,大数据的应用已经取得了显著的成果,并对决策、创新和发展产生了深远的影响。
一、大数据的特点1. 规模庞大:大数据的数据量通常以TB、PB甚至EB来计量,远远超过传统数据处理方法的能力。
2. 多样性:大数据包含了结构化数据、半结构化数据和非结构化数据,如文本、图像、音频、视频等,具有多种类型和多种形式。
3. 时效性:大数据的产生速度非常快,需要实时或近实时的处理和分析,以满足实时决策和应用的需求。
4. 价值密度低:大数据中包含了大量的噪声和冗余信息,需要通过挖掘和分析来提取有价值的信息。
二、大数据的应用领域1. 金融行业:大数据在金融行业中的应用非常广泛,包括风险管理、反欺诈、信用评估、投资决策等方面。
通过对大量的交易数据和用户行为数据进行分析,可以提高风险控制能力和决策效果。
2. 医疗健康:大数据在医疗健康领域的应用可以帮助提高疾病预测和诊断的准确性,优化医疗资源的配置,改善医疗服务的质量和效率。
例如,通过分析患者的基因数据和临床数据,可以实现个性化的治疗方案。
3. 零售业:大数据在零售业中可以帮助企业进行市场分析、销售预测和用户行为分析,以优化产品定价、推广策略和供应链管理。
通过对大量的销售数据和用户行为数据进行挖掘,可以提高企业的竞争力和盈利能力。
4. 交通运输:大数据在交通运输领域的应用可以帮助提高交通管理和运输效率,减少交通拥堵和事故发生。
通过对交通流量数据和车辆轨迹数据进行分析,可以实现交通信号优化、路径规划和交通事故预警等功能。
5. 媒体娱乐:大数据在媒体娱乐领域可以帮助企业进行用户画像、内容推荐和营销策略。
通过对用户行为数据和社交媒体数据进行分析,可以提高用户体验和品牌影响力。
三、大数据的挑战和未来发展1. 数据隐私和安全:大数据的应用涉及大量的个人和机密信息,如何保护数据的隐私和安全成为一个重要的挑战。
对大数据的认识和看法

对大数据的认识和看法随着信息时代的到来,科技在不断进步,社会的发展也离不开高科技。
当今社会最火热的当属大数据了,我对大数据有些认识,下面我就来说说我对大数据的认识和看法。
大数据就是一种新型的、全新的信息技术,目前已经在很多行业都得到了广泛运用。
大数据具有4大优点:一是数据类型多,数据量大,信息涵盖范围广;二是获取速度快,能够以较低的成本,较短的时间来提供给决策者各种所需要的信息;三是容错率较高,大数据技术能确保即使计算出现错误,也可以重新获取正确的数据结果;四是安全性好,通过加密和脱敏等方式,保障数据信息安全。
下面我来说说我对大数据的看法吧!我觉得对于大数据,我们不能把它当作洪水猛兽,应该合理利用大数据,促进社会的发展。
首先,对大数据的利用要谨慎,不能盲目地依赖大数据。
大数据并不能决定事情的好坏,只有合理利用才能创造价值,产生效益。
对于人类社会来说,无论什么事情都不能绝对化,绝对化只会让事物失去自身的特点,更没有办法得到大家的支持。
例如当今社会所流行的微信,如果把它运用得好,那肯定会为人类社会的发展做出贡献,但是如果把它用在犯罪上,那就糟糕了。
因此,对大数据的利用,我们应该谨慎而行,一定要做到合理利用,促进社会的发展。
所谓“大数据”应该具备三个基本特征:大量性、多样性和价值性。
其次,大数据的存储、处理、分析过程中要防止滥用和泄露,必须实现信息资源的共享。
近几年来,随着移动互联网的发展,我国网民数量迅速增长,仅仅今年上半年,中国网民规模就达到了6。
34亿,其中手机网民规模达5。
94亿,而且这个数字还在不断增长。
截至2017年6月,我国网站总量高达312。
7万个,其中,政府网站2。
3万个,比2016年底减少1。
9万个。
从数量上看,虽然政府网站比前两年有明显的减少,但是每年都在增加,所以有许多虚假网站在欺骗用户。
所以,对大数据的存储、处理、分析过程中要防止滥用和泄露,必须实现信息资源的共享。
对大数据的认识

对大数据的认识引言概述:在信息时代的今天,大数据已经成为了人们生活中不可或缺的一部分。
大数据的概念不仅仅是指数据的规模大,更重要的是其对于决策、创新和发展的影响。
本文将从五个方面详细阐述对大数据的认识。
一、大数据的定义和特点1.1 数据规模庞大:大数据的特点之一是数据量巨大,以至于传统的数据处理方法无法胜任。
1.2 数据来源多样:大数据可以来自各种渠道,包括社交媒体、传感器、日志文件等,这些数据来源的多样性使得大数据更加丰富和全面。
1.3 数据处理速度快:大数据的处理需要具备快速的处理能力,以便及时分析和应用这些数据。
二、大数据的应用领域2.1 商业决策支持:大数据的分析可以帮助企业预测市场趋势、优化供应链、提高客户满意度等,从而为商业决策提供有力支持。
2.2 社会管理与公共服务:大数据可以应用于城市交通管理、环境监测、公共安全等领域,实现智慧城市的建设和提升公共服务质量。
2.3 医疗健康领域:大数据的分析可以帮助医疗机构提高病人的诊断和治疗效果,推动医疗健康领域的创新和发展。
三、大数据的挑战与机遇3.1 数据隐私和安全:大数据的应用面临着数据隐私和安全的挑战,需要建立完善的数据保护机制和隐私政策。
3.2 数据质量和可信度:大数据的质量和可信度对于决策和分析的准确性至关重要,需要建立数据质量管理体系。
3.3 技术和人才短缺:大数据的处理和分析需要具备专业的技术和人才,因此技术和人才短缺是大数据发展的一大挑战。
四、大数据的未来发展趋势4.1 人工智能与大数据的结合:人工智能技术的发展将进一步推动大数据的应用和发展,实现更智能化的数据分析和决策支持。
4.2 云计算与大数据的融合:云计算技术的发展为大数据的存储和处理提供了更好的解决方案,将进一步推动大数据的发展。
4.3 数据治理与合规性:数据治理和合规性将成为大数据发展的重要方向,建立规范的数据管理和使用机制。
五、结语大数据已经成为了推动经济社会发展的重要力量,对于企业、政府和个人来说都具有重要意义。
对大数据的认识和理解

对大数据的认识和理解大数据是指以庞大、复杂而又多样的数据集为基础,通过计算机和相关技术进行存储、管理和分析的过程。
在当今信息化社会中,大数据已经成为技术发展和经济增长的重要驱动力。
本文将对大数据的认识和理解进行探讨。
一、大数据的背景和特点在传统的数据处理中,数据的规模较小且结构简单,可以通过传统的数据管理和分析方法进行处理。
然而,随着科技的进步和互联网的普及,数据以指数级别的速度增长,而且数据的结构变得越来越复杂,传统的方法已经无法有效地应对这种挑战。
大数据的特点主要体现在以下几个方面:1. 数据量巨大:大数据的处理对象是规模庞大的数据集,这些数据包括结构化数据(如数据库记录)和非结构化数据(如文本、图像、音视频等)。
2. 多样性:大数据来源广泛,包括社交媒体数据、传感器数据、日志数据等,数据的种类和形式多样,要求具备多样的数据分析和处理技术。
3. 时效性:大数据的产生和更新速度非常快,需要实时或近实时的处理和分析。
4. 质量不一:大数据中存在着各种不完整、不准确和冗余的数据,需要进行数据清洗和质量控制。
二、大数据的应用领域大数据的应用领域非常广泛,几乎涉及到各个行业和领域。
以下将列举一些常见的应用领域:1. 商业智能和市场营销:通过对大数据的分析,企业可以了解消费者的需求和行为,提供个性化的产品和服务,优化市场营销策略。
2. 金融和保险业:大数据可以帮助金融机构进行风险评估、诈骗检测和交易分析,提高业务效率和风险控制能力。
3. 医疗健康:通过分析大数据,可以实现个体化诊疗、疾病预测和健康管理,提升医疗服务的质量和效率。
4. 城市管理和智慧城市:利用大数据分析技术,可以对城市的交通、环境、能源等进行监测和管理,优化城市运行效率和资源利用率。
5. 教育和科研:大数据可以帮助教育机构进行学生评估、教学优化和个性化教育,促进科学研究的进展。
三、大数据的挑战和未来发展虽然大数据带来了许多机遇和优势,但也面临着一些挑战:1. 数据安全和隐私保护:大数据中可能包含个人敏感信息,需要加强数据安全和隐私保护措施。
对大数据的认识

对大数据的认识大数据是指规模庞大、类型多样、难以处理的数据集合。
随着互联网的发展和技术的进步,大数据已经成为当今社会的重要资源和研究领域。
在各个行业中,大数据的应用越来越广泛,对经济、科技、社会等方面产生了深远的影响。
一、大数据的定义和特征大数据的定义可以从三个方面来理解:数据的规模、数据的类型和数据的处理难度。
首先,大数据的规模往往是海量的,以TB、PB甚至EB为单位。
其次,大数据的类型丰富多样,包括结构化数据、半结构化数据和非结构化数据。
最后,大数据的处理难度较高,传统的数据处理方法已经无法胜任,需要借助新的技术和工具来进行分析和挖掘。
二、大数据的应用领域1. 商业和市场营销:通过对大数据的分析,企业可以了解消费者的行为和偏好,从而制定更有效的营销策略和推广活动。
2. 金融和保险:大数据可以帮助金融机构进行风险评估、欺诈检测和客户关系管理等方面的工作,提高业务效率和风险控制能力。
3. 医疗和健康:通过对大数据的分析,医疗机构可以提供更精准的诊断和治疗方案,改善医疗服务质量和效率。
4. 城市管理和交通:大数据可以帮助城市管理者更好地了解城市的交通流量、环境状况等信息,从而进行城市规划和交通管理。
5. 教育和科研:大数据可以用于教育评估、学生学习行为分析和科学研究等方面,提供更好的教育和研究支持。
三、大数据的挖掘和分析方法1. 数据收集和清洗:首先需要收集大量的数据,并进行清洗和预处理,去除噪声和冗余信息,保证数据的质量和准确性。
2. 数据存储和管理:大数据的存储和管理是一个重要的问题,需要选择适合的数据库和存储技术,保证数据的安全和可靠性。
3. 数据挖掘和分析:通过使用机器学习、数据挖掘和统计分析等方法,对大数据进行挖掘和分析,发现其中的规律和模式,提供有价值的信息和洞察。
4. 可视化和呈现:将分析结果以可视化的方式展示,可以更直观地理解数据的含义和趋势,帮助决策者做出正确的决策。
四、大数据的挑战和未来发展1. 数据隐私和安全:大数据的应用涉及大量的个人信息,如何保护数据的隐私和安全是一个重要的问题。
对大数据的认识

对大数据的认识大数据是指规模庞大、复杂多样、难以在常规时间范围内进行处理和管理的数据集合。
它具有三个特点:数据量大、数据种类多样、数据处理速度快。
大数据的出现,使得我们能够从海量的数据中获取有价值的信息和洞察力,并应用于各个领域。
首先,大数据具有巨大的数据量。
随着互联网的普及和技术的进步,产生的数据量呈指数级增长。
例如,社交媒体、电子商务、物联网等领域产生的数据量巨大,每天都有海量的数据被生成和存储。
其次,大数据的种类多样。
大数据不仅包括结构化数据,如数据库中的表格数据,还包括非结构化数据,如文本、音频、视频等。
此外,大数据还包括来自传感器、日志文件、社交媒体等各种来源的数据。
这些不同种类的数据需要进行有效的整合和分析,以获得有用的信息。
第三,大数据的处理速度快。
对于大数据来说,传统的数据处理方法已经无法满足需求。
大数据处理需要借助于分布式计算和并行处理等技术,以高效地处理大规模数据集。
例如,Hadoop和Spark等大数据处理框架可以加速数据处理过程,提高处理效率。
大数据的应用非常广泛。
在商业领域,大数据可以帮助企业做出更精准的市场预测和决策。
通过对消费者行为和偏好的分析,企业可以更好地了解市场需求,并针对性地推出产品和服务。
在医疗领域,大数据可以帮助医生进行疾病诊断和治疗方案选择。
通过分析大量的医疗数据和基因组数据,可以找到疾病的规律和潜在治疗方法。
在城市管理中,大数据可以帮助政府更好地规划交通、资源分配和环境保护等方面。
通过对城市中各种数据的收集和分析,可以提高城市的运行效率和居民的生活质量。
然而,大数据也面临一些挑战和问题。
首先是数据隐私和安全问题。
大数据中包含大量的个人隐私信息,如姓名、地址、银行账号等。
如果这些数据泄露或被滥用,将对个人和企业造成严重的损失。
其次是数据质量问题。
大数据中可能存在数据错误、重复、缺失等问题,这会影响到数据分析的准确性和可靠性。
此外,大数据的分析和处理需要大量的计算资源和技术人才,这对于一些中小型企业和发展中国家来说是一个挑战。
对大数据的认识

对大数据的认识大数据是指规模庞大、复杂度高且难以处理的数据集合。
随着信息技术的迅速发展,人们在日常生活、商业活动、科学研究等各个领域产生了大量的数据。
这些数据包含着宝贵的信息和洞察力,通过对大数据的认识和分析,可以帮助我们做出更明智的决策,提升效率和竞争力。
一、大数据的特点1. 规模庞大:大数据的数据量通常是传统数据处理方法无法处理的。
它可以包括数十亿甚至数百亿的数据记录。
2. 复杂度高:大数据不仅仅是结构化数据,还包括非结构化和半结构化数据,如文本、图像、音频、视频等。
这些数据需要通过特殊的技术和算法进行处理和分析。
3. 多样性:大数据来自不同的来源和领域,包括社交媒体、传感器、金融交易等。
这些数据具有不同的格式和特点,需要采用不同的方法进行处理和分析。
4. 实时性:大数据的产生速度非常快,需要实时或近实时地进行处理和分析,以便及时获取有用的信息和洞察。
二、大数据的应用领域1. 商业决策:通过对大数据的分析,可以了解消费者的需求、购买行为和偏好,帮助企业制定更精准的营销策略和产品定位。
2. 金融风控:大数据可以帮助金融机构识别潜在的风险和欺诈行为,提高风险管理和反欺诈能力。
3. 医疗健康:通过分析大数据,可以发现疾病的流行趋势、患者的治疗效果和药物的副作用,为医疗决策提供依据。
4. 城市管理:大数据可以帮助城市管理者监测交通流量、环境污染和能源消耗,优化城市规划和资源配置。
5. 物流运输:通过对大数据的分析,可以优化物流路径和运输计划,提高物流效率和成本控制。
6. 社交媒体:大数据分析可以帮助企业了解用户的社交网络、兴趣和行为,提供个性化的推荐和服务。
7. 科学研究:大数据分析在天文学、生物学、气象学等科学领域有着广泛的应用,帮助科学家发现新的规律和知识。
三、大数据的处理和分析技术1. 数据采集和清洗:从不同的数据源收集数据,并进行清洗和预处理,以确保数据的准确性和完整性。
2. 存储和管理:选择合适的存储技术和架构,如分布式文件系统和数据库,以支持大数据的存储和管理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
也谈大数据(一)记录中的世界2015年9月24日孙波今天去听了个讲座,关于大数据和云计算,主讲老师主要围绕大数据的一些基础和应用示例以及数据安全方面,有一点收获,有一点想法,很多老师没有提到的东西,还有些自己对大数据理解已经沉淀很久了,特此写下来。
主要是关于大数据的认识。
一、大数据的概念讲座上,老师讲的大数据概念,几乎和百度百科上的一样:大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
然而这样的“大数据”对我们又有什么价值呢?我觉得,我们所提到的大数据,必须是以能从中挖掘出一定价值的,能指导我们现实生活作为前提条件的。
我理解的大数据有两个层面:1、广义的大数据概念。
广义的大数据,就是“人类通过信息化手段将现实世界记录为数据的集合”。
或者说,其本质是在人类世界目前的所有信息化系统下,产生的数据集合,这些数据汇集成一个映射现实世界的虚拟信息世界。
这个虚拟信息世界的所有数据,即广义大数据,也就是说,广义的大数据有且只有一个。
2、狭义的大数据概念狭义的大数据概念,是指围绕某一对象,以及某一时间范围进行考察,该对象在该段时间内通过各种信息化途径产生的数据的集合,称之为“大数据”。
这里引入“对象”的概念,是建立在我前面提出的“大数据必须是有价值的”这一基础上的,要让大数据产生价值,就要有目的性的去挖掘、分析、统计,并为某些对象提供服务,就好像肉对狗有价值,草对羊有价值,考察对象至关重要。
二、三个世界为了进一步阐述我的大数据观点,这里我提出“三个世界”的观点,所谓三个世界,是指“客观世界”、“记录世界”、“认知世界”1、客观世界“客观世界”指的是唯物主义理论中的世界,它不以人类的认知为界限,不为人类的意识所改变。
是一个客观现实,不管人类是否探索到,或者是否了解,是否理解。
2、记录世界“记录世界”可以说是数字化的“客观世界”,是人类在生产、生活过程中对“客观世界”的发现和有意或者无意的信息记录。
一定程度上是对“客观世界”的信息化映射。
3、认知世界“认知世界”是指人类对客观世界的认知,从而产生了一个在人类文明中的“世界”,这个世界里包含了人类各个历史阶段各个层次的文明,从地心说到日心说,牛顿定律到相对论等等,也是指人类科学和社会意识形态中所理解的“世界”。
“认知世界”是人类试图去探索“客观世界”,去理解“客观世界”的成果。
通常“认知世界”是一部分人类专注于对“记录世界”的分析研究和归纳总结后产生的。
为了更好的说明这三个世界,我举一个例子。
描述1:孙波生活在地球上,地球上经常有火山喷发。
描述2:孙波每次打喷嚏都会写进日记。
地球上每次火山喷发也都有人类记录。
描述3:若干年后,通过这些记录,人们有一个惊人的发现:孙波每打100个喷嚏,就正好会有一座火山喷发,于是科学家推导出这个理论:每当孙波打喷嚏的次数能被100整除,就会发生火山喷发。
从此,每当孙波打90个喷嚏的时候,火山周围的村民就会搬迁或者躲到地下。
上面三个描述,描述1就是客观世界,描述2就是记录世界,描述3就是认知世界。
虽然例子举得荒诞,但是人类文明就是在这样三个世界中轮转进步的,比如太阳历和月亮历的建立,看云、看日晕、看月晕识天气,等等那些古老的常识,就是通过对客观世界的观察记录,然后再在记录中分析总结,得出结论,人类对这些推导和理论,在一开始往往是知其然而不知其所以然的,新的研究会解答之前的疑问,却会带来新的问题。
事实上,人类科学文明就好比在剥一个由客观现实做成的洋葱,每剥开一层就是科学文明有一次进步,这个洋葱会越剥越小,但是永远剥不到核心,可以一直剥下去。
这个就像儿子问我的问题:“为什们蜻蜓低飞就是要下雨了?”,“因为下雨前气压低湿度大,飞虫翅膀湿了飞不高”;“为什么翅膀湿了就飞不高?”,“因为小水珠比较重!”;“为什么小水珠重?”,“因为水的密度比空气大!”;“为什么水的密度大就重?”,“因为万有引力,质量越大,引力越大!”,“什么是万有引力?”“……”。
其实,当年劳动人民看到低飞的蜻蜓就知道要下雨,根本不知道后面这么多为什么。
而万有引力也不是问题的终点,至少目前的相对论指出:万有引力的根本是质量对时空的扭曲。
而即便是大名鼎鼎的“相对论”,我儿子也能大胆的问上更多个“为什么?”三、记录世界的重要性很多时候,人类对客观世界进行了记录,然后要在很久之后才能发现其中的规律,产生新的认知理论。
因此,记录世界是人类主观意识下,对客观世界的映射,而其中蕴藏的秘密,或许等待着我们去发现。
如实、客观、标准化的记录,并且该记录可以长期保存,准确还原,这样的记录具有最大的价值。
四、“大数据”时代为什么现在到来先让我们回到“大数据”的官方定义,以及它的特性,我们看到,大数据有以下几个特性:容量(V olume):数据的大小决定所考虑的数据的价值的和潜在的信息;种类(Variety):数据类型的多样性;速度(Velocity):指获得数据的速度;可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量;复杂性(Complexity):数据量巨大,来源多渠道;大数据为什么现在到来?因为现在的人类技术让“大数据”有了存在的可能。
记得1997年的时候,我在大学念书,好友汪明写信告诉我,他买了一个4.3G的大脚硬盘,哇!4.3G啊,让我激动不已,那时候还是用10多张1.44M软盘装win95的年代,一张600M光盘里有200多个游戏,就像宝贝一样,我这个计算机专业的人家里,硬盘是540M 的,还分了C:D:E:F:4个区,现在人家居然买了4.3G的硬盘。
别的方面,我就不再讲一遍计算机的发展史了,知名的摩尔定律说明了一切。
据我所知,目前的大数据相关概念,其实很早以前就有了,当年我学过一门课程叫做“数据挖掘”。
在某些时候,其研究的对象,就类似与目前的“大数据”,只是很多时候,供分析研究的数据仅限于专业领域,其复杂性,多样性和实时性不足,这一方面和“大数据”理论有偏差。
而互联网发展到大约2010年,智能手机把移动数据终端,GPS放到每个人的口袋里,这可以说是一个“大数据”理论的“奇点”。
回到那个我打喷嚏的故事中来,我每次打喷嚏都写在日记中,所以可能有一本包着塑料红书皮的《孙波日记》在我床头的抽屉里。
而每次火山喷发,都有史料记载,然而,不同地方的火山喷发情况却分别独自记录在各地的某些科学家的书本上,有罗马文的,有英文的,有中文的……,这些记录都是对现实世界的记录,也共同组成了我理论中的“记录世界”。
然而,《孙波日记》放在我的抽屉里,各地的火山记录也散布各处,这样的情况下,就算一万年,也不会有人发现“孙波每打100个喷嚏,就会有1个火山喷发”。
直到如今,信息化时代到来,各地的地质学家和历史学家把各自的火山喷发数据按照时间索引汇集成册,纂书一本《地球火山历史》然后发到互联网,同时,我把我的日记放到了QQ空间,再然后,孙波的一个学地理的网上好友无意间发现了这个惊人的规律:孙波每100个喷嚏就会让一座火山喷发。
补充说明,这个“孙波打喷嚏引发火山”理论,如果时间和实践证明这一理论可以指导现实,那么即便现在看似无厘头,但是背后一定有一个还不为人所知的科学。
同样,如果之前的依据只是巧合,必然会在时间的考验中被检验,被否定。
这是人类文明的发展规律。
如果说无意识的数据整合后,发现了新的规律,叫做“惊人的发现”,那么有意识的去融合多样化的、复杂的、巨大的数据去发现规律,得出总结,这就是“大数据应用”了。
五、数据融合是大数据的关键信息化技术的日新月异,让很多不可能变为可能,催生了很多服务人类的专业应用,比如智能手机、汽车导航、网上购物、远程医疗、或者细化到目前智能手机上的各个APP,这些应用无时无刻都在运作,在它们运作的时候,都附属产生了数据,这些数据基本是标准化的,及时的,真实的。
汽车行驶的坐标、人们购买的物品、你的血压心律、等等都被保存在每个不同应用的数据库中。
也就说,目前爆炸式增长的信息系统正在以前所未有的规模和各式各样的方式即时记录着我们的客观世界。
如今是“记录世界”大爆炸的年代,“记录世界”就是广义概念的“大数据世界”。
各个应用虽然也能通过各自为政的数据信息中分析统计和数据挖掘,但是价值有限,于是,“大数据”被提了出来。
从广义上讲“大数据”已经放在那里了,就看怎么应用了。
“孙波打喷嚏引发火山”的理论,是以时间线为基础,将火山喷发时间和孙波打100的整数倍喷嚏的时间作为融合点,研究分析得出的理论,试想,如果在《孙波日记》中忘记写日期,那么这个理论也就无从考证了。
所以,在大数据应用实践中,也就是狭义的“大数据”理论中,有一个考察对象的概念,该考察对象的某些属性,应该是融合数据的核心基础。
举例来说,如果结合手机定位和淘宝购物两个不同系统的数据分析不同地区的人的购物习惯,那么考察对象就是人,而这两个系统必须有一个融合点,就比方说是身份证号,或者手机号,通过融合点,可以把两块本来不相关的数据融合起来,才能形成有价值的大数据,从而分析出,比如:上海人喜欢买鲜肉月饼,北京人喜欢买甜月饼。
这个融合点类似于关系数据库的主键和外键一样,可以把两个数据表联合起来。
六、总结陈词要总结的是怎么做“大数据应用”,为什么要加上“应用”,因为大数据本身已经存在了,且本身也不会自动产生价值,只有人们有意识的去融合数据、挖掘信息、并总结归纳,然后再用于新的领域起到指导作用,才会产生价值,这就是“大数据应用”。
要让大数据价值最大化我认为要做到以下几点1、信息化系统数据规范的统一虽然在“大数据”名词解释中称大数据是“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”,但是让“记录世界”的各项记录标准化,是更加有利于大数据融合的,前面说的,对什么地方的人的购物习惯的大数据分析就是基于身份证号码和手机号码的标准化。
2、客观记录尽可能多和真实的数据比如淘宝系统,或者阳光太仓人才网。
在开发设计系统时,用户什么时候下单,求职者什么时候应聘,数据记录中可以精确到日,也能精确到秒,可以保留ip地址信息,也能不保留。
但是,如今的信息技术,让记录更加精确的数据的代价变得很小,有些数据,虽然以目前的眼光或者以割裂的方式来看价值不大,但是还是应该尽可能去记录,也就是说,在代价不大的情况下“记录世界”越详细越好,越有利于大数据的应用。
3、找到融合点产生新价值我们知道,画一个坐标系,如果横坐标是时间,纵坐标是速度,记录数据呈现的斜率就是加速度。
如果横坐标是时间,纵坐标是路程,那么记录数据呈现的斜率就是速度。
类似的二维表在统计学上经常被使用,其实就是两组数据的有机融合,产生了一个对我们有价值的信息。