大数据时代的统计学

合集下载

大数据时代下统计学有何意义

大数据时代下统计学有何意义

大数据时代下统计学有何意义1. 引言1.1 大数据时代的背景在当今数字化时代,大数据已经成为我们生活和工作中不可或缺的一部分。

随着互联网的迅速发展和物联网技术的普及,各行各业都在不断产生海量的数据,这些数据以前所未有的速度增长和积累。

大数据时代的背景可以说是信息爆炸,数据爆炸,让我们面临着巨大的数据量和复杂性。

在大数据时代,统计学与机器学习、人工智能等新兴科技相互融合,共同推动了数据科学的发展。

统计学在数据清洗和预处理中的应用,以及在数据可视化和解释中的重要性,也凸显了其在大数据时代的重要作用。

随着大数据的不断增长和发展,统计学在大数据时代的意义也愈发重要,不可替代。

1.2 统计学在大数据时代的作用统计学在大数据时代扮演着至关重要的角色。

随着数据量不断增加和信息的急剧膨胀,统计学通过其丰富的理论和方法为大数据的解读和分析提供了基础。

统计学的主要任务是利用数据来描述事物的规律和特征,通过概括现实世界中的随机现象,揭示数据背后的规律性。

在大数据时代,统计学可以帮助人们从海量数据中提取有效信息,发现隐藏的规律和关联,进行数据的有效管理和分析。

统计学还在数据的清洗和预处理中发挥着关键作用。

在实际应用中,大数据往往存在着缺失值、异常值和噪声等问题,而统计学可以运用其方法来解决这些问题,保证数据的质量和准确性。

统计学的技术和工具可以帮助对数据进行清洗、处理和转化,使数据更具可信度和应用价值。

统计学在大数据时代的作用不可低估,它为数据的概括、分析和解读提供了基础,帮助人们更好地理解和利用大数据。

统计学的发展将对大数据时代产生深远影响,推动数据科学的发展,为人类社会的发展和进步提供有力支持。

2. 正文2.1 统计学对数据的概括和分析统计学对数据的概括和分析是大数据时代中至关重要的一环。

通过统计学的方法和技术,我们可以对海量的数据进行概括和分析,从中挖掘出有用的信息和规律。

统计学帮助我们理解数据中的趋势和关联,帮助我们更好地理解数据背后的故事。

统计学在大数据时代的新挑战有哪些

统计学在大数据时代的新挑战有哪些

统计学在大数据时代的新挑战有哪些在当今数字化、信息化飞速发展的时代,大数据已经成为了我们生活和工作中不可或缺的一部分。

从社交媒体的信息流到电子商务的交易记录,从医疗健康的病历数据到科学研究的观测结果,数据的规模和复杂性呈爆炸式增长。

而统计学作为一门研究数据收集、整理、分析和解释的学科,在这个大数据时代面临着前所未有的新挑战。

首先,数据的规模和多样性是统计学面临的一大挑战。

传统的统计学方法通常适用于相对较小、结构清晰的数据样本。

然而,在大数据环境中,数据的规模可能达到数十亿甚至更多的记录,而且数据的来源和类型极其多样,包括结构化数据(如数据库中的表格)、半结构化数据(如 XML 和 JSON 格式的数据)以及非结构化数据(如文本、图像、音频和视频)。

处理如此大规模和多样化的数据,需要新的算法和技术来有效地存储、管理和分析。

例如,对于海量的文本数据,传统的统计分析方法可能难以直接应用。

需要运用自然语言处理技术将文本转化为可量化的特征,然后再进行统计分析。

而对于图像和视频数据,如何提取有意义的特征并进行统计建模也是一个难题。

此外,不同来源和类型的数据可能存在质量参差不齐、缺失值、异常值等问题,这增加了数据预处理的难度和复杂性。

其次,数据的产生速度也是一个重要的挑战。

在大数据时代,数据的生成速度非常快,实时数据处理成为了常见的需求。

例如,金融交易中的高频数据、社交媒体上的实时信息流、物联网设备产生的连续监测数据等。

传统的统计学方法往往是基于批处理的模式,难以满足实时处理的要求。

为了应对这一挑战,需要开发新的流式计算和实时分析技术。

这些技术能够在数据不断流入的过程中进行快速的处理和分析,及时提供有价值的信息。

同时,还需要考虑如何在有限的计算资源和时间内做出准确的决策,这对算法的效率和精度提出了更高的要求。

再者,数据的相关性和复杂性也是统计学需要应对的难题。

大数据中往往存在着复杂的相关性和依赖关系,不再是简单的线性关系或独立分布。

大数据时代下统计学有何意义

大数据时代下统计学有何意义

大数据时代下统计学有何意义统计学在大数据时代下的意义体现在它可以帮助我们从庞大的数据中提炼出有价值的信息。

大数据的特点就是数据量庞大、类型多样,对于我们来说,如何从这些数据中获取有意义的信息是一项非常具有挑战性的任务。

统计学通过对数据进行采样、分组、概率统计等方法,可以帮助我们从海量的数据中找出有意义的模式和规律,为决策者提供科学依据。

对于一家电商公司来说,统计学可以帮助他们分析用户购买行为和喜好,进而制定个性化推荐策略,提高销售量和用户满意度。

统计学在大数据时代下的意义还表现在它可以帮助我们进行数据的清洗和整合。

随着大数据的普及,数据质量的问题也逐渐凸显出来。

大量的数据中可能存在着噪声、异常值等问题,这些问题会对我们的分析结果产生不良影响。

统计学可以通过一系列的数据清洗和处理方法,去除掉那些无效和错误的数据,使得我们所分析的数据更加准确和可靠。

大数据往往来源于各种各样的数据源,不同数据源之间存在着不一致或者冗余的问题。

统计学可以通过数据整合的方法,将多个数据源的数据进行合并和整合,形成完整的数据集,为后续的分析和挖掘打下基础。

这对于企业来说意义重大,可以帮助他们更好地全面了解市场和用户需求。

统计学在大数据时代下的意义还表现在它可以帮助我们进行数据的建模和预测。

大数据时代的数据量庞大且类型多样,如何利用这些数据进行准确的预测和建模是一个重要的问题。

统计学可以通过分析已有的数据,建立数学模型,预测未来的趋势和变化。

在金融领域,统计学可以通过分析历史数据,建立风险模型,预测未来的市场波动,帮助投资者进行风险控制和投资决策。

统计学在大数据时代下的意义还体现在它可以帮助我们进行数据的可视化和解释。

大数据时代产生的数据量很大,数据的复杂性和抽象性也较高,这给我们的理解和解释带来了一定的困难。

统计学通过可视化等手段,将复杂和抽象的数据转化为图表、图像等形式,直观地展示给我们,使得我们可以更加直观地理解数据的含义和趋势。

大数据时代下的统计学

大数据时代下的统计学

大数据时代下的统计学随着信息技术的飞速发展和全球互联网的普及,大数据时代已经来临。

大数据的出现给人们的生活和工作带来了诸多变化,也给统计学提出了新的挑战和机遇。

在这个大数据时代下,统计学如何发展和应用,成为了学术界和产业界争相探讨和探索的课题。

一、大数据时代对统计学的影响在大数据时代,数据的规模呈几何级数增长,各种类型的数据如气象数据、人口数据、金融数据、医疗数据等不断涌现,并且呈现出高维度、复杂性和实时性的特点。

这就要求统计学家既要掌握传统统计学方法,又要拥抱新兴的数据科学方法,提高处理大规模、多维度、实时性数据的能力。

大数据时代也加速了统计学与其他学科的融合。

统计学与计算机科学、人工智能、数据挖掘等领域的融合,以及与经济学、生物医学、社会学等领域的跨学科合作,已经成为大数据时代下统计学的发展趋势。

统计学不再是一个独立的学科,而是与其他学科相互渗透、相互融合,为其它学科的发展和应用提供支持和保障。

在大数据时代,传统的统计学方法已经不能满足对大规模、高维度、实时性数据的处理需求。

统计学家需要不断创新,研发和应用新的统计学方法,以适应大数据时代的挑战。

1. 机器学习机器学习是一种基于统计学原理和计算机科学算法的方法,通过训练模型,从大规模数据中挖掘规律和模式,提取特征和信息。

在大数据时代,机器学习已经成为处理大规模数据的有效手段,广泛应用于数据分类、聚类、回归、预测等领域。

2. 深度学习3. 数据挖掘在大数据时代,统计学的应用领域变得更加广泛和深入,渗透到人们的生活和各行各业的方方面面。

1. 社会科学大数据时代下,统计学不仅仅是一种工具,更成为社会科学研究的基础性学科。

统计学的方法和理论被广泛应用于经济学、社会学、政治学等领域,帮助人们更好地理解社会现象和规律。

2. 金融领域金融领域是大数据时代下统计学的重要应用领域。

统计学的方法被广泛用于金融市场的预测、风险管理、投资组合优化等方面,帮助金融机构和投资者做出科学的决策。

大数据时代统计学面临的机遇与挑战

大数据时代统计学面临的机遇与挑战

大数据时代统计学面临的机遇与挑战一、本文概述随着信息技术的飞速发展,大数据时代已经悄然来临,数据量的爆炸式增长和类型的多样化给统计学带来了新的机遇和挑战。

本文旨在探讨大数据时代下统计学所面临的机遇与挑战,分析统计学的变革趋势,并展望未来的发展方向。

我们将从数据获取与处理的挑战、统计分析方法的创新、以及大数据在各个领域的应用等方面展开论述,以期为统计学的未来发展提供有益的参考和启示。

在大数据时代,统计学的应用领域得到了极大的拓展,不仅在经济、金融、社会科学等传统领域发挥着重要作用,还在生物信息、医疗健康、环境科学等新兴领域展现出强大的生命力。

然而,大数据的复杂性和不确定性也给统计学的理论研究和应用实践带来了新的挑战。

因此,如何适应和利用大数据时代的机遇,克服其中的挑战,成为统计学面临的重要课题。

本文将从多个角度对大数据时代统计学的机遇与挑战进行深入剖析,以期为统计学的未来发展提供有益的借鉴和指导。

二、大数据时代统计学的机遇在大数据时代,统计学面临着前所未有的机遇。

这一变革为统计学的发展和应用提供了广阔的空间和无限的可能性。

大数据的丰富性为统计学提供了更为充足的数据资源。

传统的统计学往往受限于数据样本的大小和代表性,难以进行全面的分析和预测。

然而,在大数据时代,海量的数据资源使得统计学家能够获取更为全面、细致的信息,从而进行更为准确和深入的统计分析。

大数据的多样性为统计学提供了更为丰富的分析维度。

在大数据的支持下,统计学家可以从多个角度和层面进行数据的分析和解读,挖掘出更多的信息和价值。

这种多维度的分析方式不仅有助于揭示数据背后的规律和趋势,还可以为决策提供更为全面和科学的依据。

大数据的实时性为统计学提供了更为及时的信息反馈。

在传统的统计学中,数据的收集和处理往往需要耗费大量的时间和精力,导致分析结果具有一定的滞后性。

然而,在大数据时代,数据的实时更新和处理使得统计学家能够及时地获取和分析数据,从而对市场变化、社会动态等进行实时的监测和预测。

大数据时代下统计学有何意义

大数据时代下统计学有何意义

大数据时代下统计学有何意义统计学在大数据时代下有助于发现规律和趋势。

大数据时代意味着数据的规模庞大,数以亿计的数据源源不断地被产生和积累。

但光有大量数据并不能真正帮助人们做出有意义的决策,而统计学提供的方法和工具可以帮助人们从这些海量数据中发现规律和趋势。

通过统计学的分析方法,可以从复杂的数据中提取出关键信息,用于预测趋势、制定计划和做出决策。

统计学在大数据时代下有助于验证和推断。

尽管大数据提供了丰富的信息,但这些信息并不一定都是准确和可靠的。

统计学提供了一套科学的方法,用于验证数据的可靠性和真实性。

通过统计学的抽样与推断方法,可以利用部分数据推断出整体数据的特征和分布。

统计学还可以帮助人们从相对小的样本中得出关于整个总体的结论,提高数据的使用效率和价值。

统计学在大数据时代下有助于解释和可视化数据。

在大数据时代,数据的规模和复杂性使得数据的解释和理解变得更加困难。

统计学可以帮助人们对数据进行解释和可视化,以便更好地理解数据背后的含义。

通过统计学的方法,可以将数据进行分类、汇总和展示,使其更具有可读性和易于理解性。

这样,数据的价值就能够得到充分地发挥,为人们的决策和行动提供有力的支持。

统计学在大数据时代下有助于数据的隐私和安全保护。

在大数据时代,随着数据的广泛收集和使用,数据隐私和安全面临着严峻的挑战。

统计学可以通过数据加密、匿名化和其他方法来保护数据的隐私和安全。

统计学还可以帮助智能系统从原始数据中提取有用的特征,而不需要直接访问原始数据,从而减少了数据泄露的风险。

大数据时代下,统计学仍然具有重要的意义。

它能够帮助人们从海量的数据中发现规律和趋势,验证和推断数据的可靠性,解释和可视化数据,保护数据的隐私和安全。

统计学的研究方法和工具为人们在大数据时代下做出科学决策和行动提供了重要的支持。

统计学在大数据时代下的意义不可低估。

大数据背景下的统计学发展方向分析

大数据背景下的统计学发展方向分析

大数据背景下的统计学发展方向分析随着大数据时代的到来,统计学的发展方向也随之发生了变化。

传统的统计学方法已经不能满足大数据处理的需求,因此统计学在大数据背景下的发展方向也逐渐呈现出新的趋势和变化。

本文将从统计学的应用领域、方法论、工具技术和专业人才需求等角度,对大数据背景下的统计学发展方向进行分析。

一、统计学的应用领域在大数据背景下,统计学的应用领域将进一步拓展和深化。

传统的统计学主要应用于生物统计、经济统计、社会统计等领域,随着大数据技术的发展,统计学将会广泛应用于金融、医疗、能源、交通、环境保护等各个行业。

特别是在金融领域,大数据和统计学的结合将有助于风险管理、投资决策、信用评估等方面的提升。

在医疗领域,大数据和统计学的应用也将有助于疾病预测、医疗资源优化配置等方面的改善。

统计学将逐渐成为各个领域数据分析和决策的基础工具。

二、统计学的方法论在大数据背景下,统计学的方法论也将发生一些变化。

传统的统计学方法主要包括参数估计、假设检验、方差分析等,这些方法对数据的规模和维度有一定的要求。

在大数据背景下,传统的统计学方法往往难以适用于海量和高维度的数据分析。

统计学将向更加灵活和高效的方法发展,如机器学习、深度学习、神经网络等。

这些方法能够更好地处理大数据,并从中挖掘出隐藏在数据背后的规律和模式,为决策提供更加有力的支持。

三、统计学的工具技术在大数据背景下,统计学的工具技术也将得到进一步的推广和应用。

传统的统计学工具主要包括R、Python、SAS等,这些工具在小样本数据分析方面表现出色,但在大数据分析方面存在一定的局限性。

统计学将向更加高效和强大的工具技术发展,如Hadoop、Spark、Flink等大数据处理平台,以及各种云计算平台和数据库技术。

这些工具技术能够更好地处理大数据,并为统计学方法的应用提供更加稳定和可靠的支持。

四、统计学的专业人才需求在大数据背景下,统计学的发展将对专业人才提出更高的要求。

大数据背景下的统计学发展方向分析

大数据背景下的统计学发展方向分析

大数据背景下的统计学发展方向分析一、机器学习在大数据时代,数据量的剧增给传统的统计学建模带来了极大的挑战。

传统的假设检验和回归分析等方法不再足以应对复杂的数据和模型,需要更加高效、准确的数学科技来处理大型数据集。

机器学习正是一种利用算法和数据自动发现规律和预测结果的数据分析方法,其主要涉及到深度学习、决策树、支持向量机等技术,可以用来解决大规模、高维度的数据分析。

二、数据挖掘数据挖掘主要是指对大量数据进行自动或半自动的分析,从中发掘出有用的知识和信息,是一种通过大量数据挖掘关联、规律和模式的技术。

它主要包括分类、聚类、关联规则挖掘、神经网络等。

三、多元统计学多元统计学主要研究多个变量之间的关系,给统计学提供了一种全新的视角和方法。

它通过各种可视化和分析工具,可以更好地解释和发现数据中隐藏的结构。

在大数据分析中,多元统计分析可以用来发现子群体、分群和类别、发现数据之间的关联等。

四、贝叶斯统计学贝叶斯统计学是一种建立在贝叶斯定理上的推理方法,通过先验概率和后验概率的结合,实现对参数估计和预测的精准控制。

它主要用来处理缺失数据或不完全信息的分析问题,也可以有效地处理大量的观测数据和参数不确定性问题。

贝叶斯方法在神经网络中的应用等领域中也表现出了极高的效果。

五、时空统计学时空统计学主要是指针对时空数据的统计分析方法,主要用来处理地理信息系统和气象学等领域的数据。

它通过使用时空模型来描述时间、空间位置、方向等要素之间的关系,有效地提高了数据挖掘和模型预测的准确性。

六、可视化数据分析可视化数据分析是指通过图表、地图、动画等方式将数据转化为可视化形式,透视数据背后的规律和趋势。

通过可视化数据分析,我们可以更好地发现数据中的关联和模式,并提高数据分析的效率和准确性。

总的来说,在大数据时代下,能够运用更多的模型和算法,我们可以更好地分析和利用数据。

机器学习、数据挖掘、多元统计学等技术可以用来更好地挖掘和分析大规模、高维度的数据,并发现数据隐藏的结构和规律。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代的统计学摘要:本文主要围绕“大数据”展开话题,结合“统计学”专业,论述了什么是大数据,什么是统计学,在对概念的了解基础上掌握大数据的发展历程以及统计学的发展历程。

从中找出大数据与统计学的联系,然后进一步了解在大数据时代下统计学所处的地位以及大数据时代下统计学的变化和发展。

在前人的研究基础上,我们进一步的发现问题并探讨问题,运用统计学方法去解决大数据时代下的一些问题,并提出自己的看法。

关键词:大数据;统计学;数据挖掘;数据分析引言本文写作的目的在于阐述大数据的定义、历史发展及趋势、运用领域等有关大数据的问题,以及阐述统计学的定义、发展趋势、运用领域等有关统计方面的问题。

在此基础上探析大数据时代下的统计学发生的变化,带来的影响,以及所导致的统计学的发展趋势。

有关大数据的文献很多,涉及的领域也相当广泛,如互联网、天文学、大气科学、基因组学、大规模电子商务等等,都离不开计算机作为载体,它们都成为了大数据的来源。

本文写作主要基于运用统计学知识去处理大数据所涉及问题,而运用统计方法分析问题所涉及的范围也相当广泛。

对于大数据的到来,对于统计学来说是福音,因为它为大数据时代处理大数据问题带来了有效的解决方法。

本文所引用文献主要来自于2011年到2015年的国内外有关大数据的期刊文献,从不同角度描述了大数据对当今时代的影响,尤其是对本文的另一位主角--统计学的影响。

而对于一个统计学专业出身的人,对于大数据时代下统计学的发展有喜有忧,大数据时代的到来在一定程度上促进了统计学的发展,同样的也带来了巨大的挑战。

这些都需要我们一步步的解决并完善。

正文1 大数据的来源与发展历程“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。

当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。

随着谷歌MapReduce和Google File System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度[1-5]。

不过,大约从2009年开始,“163大数据”才成为互联网信息技术行业的流行词汇。

美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

就这样,“大数据”在不知不觉中进入了我们的生活,无论哪里都有着它的影子,这说明“大数据时代”已经到来。

我们可以这样来定义“大数据时代”,大数据时代是建立在通过互联网、物联网等现代网络渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和展示的信息时代。

在这个时代,人们几乎能够从任何数据中获得可转换为推动人们生活方式变化的有价值的知识[22]。

“大数据时代”的到来引起了业界和学界的广泛关注,大量研究成果不断涌现。

那么什么是大数据呢?大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

大数据是一种大规模数据的管理和利用的商业模式和技术平台的泛指,它与传统的海量数据不同的是,它除了数据规模呈现几何级数增长的特征之外,还包括所有数据类型的采集、分类、处理、分析和展现等多个方面,从而最终实现从大数据挖掘潜在巨大价值的目的[18]。

到目前为止对于大数据还没有统一的定义。

对于大数据,其特点[18]在于:(1)数据体量大。

普遍认为PB级的数据为大数据的起点。

(2)数据类型繁多。

既可以是传统的有因果关系的结构化数据如关系数据库数据,但更多的是诸如网络日志、视频、图片、地理位置信息等等的半结构化和非结构化数据。

(3)价值密度低。

大数据蕴藏的价值虽然巨大,价值密度却很低,往往需要对海量的数据进行挖掘分析才能得到真正有用的信息,从而产生价值。

以视频为例,连续不间断监控过程中,可能有用的数据仅有一两秒。

(4) 处理速度快。

大数据时代更强调实时分析,而不是批量分析,奉行 1秒定律。

即一般要在秒级时间范围内给出分析结果,时间太长就失去价值。

基于统计学的角度,我们应该如何理解“大数据”呢?李金昌认为,大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据[20]。

2 统计学的发展历程由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原始社会,也就是说距今足有五千多年的漫长岁月。

但是,能使人类的统计实践上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百余年的短暂历史。

统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现代推断统计学三种形态[18-20]。

古典记录统计学形成期间大致在十七世纪中叶至十九世纪中叶。

统计学在这个兴起阶段,还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国家社会经济状况的过程中,初步建立了统计研究的方法和规则。

到概率论被引进之后,才逐渐成为一项较成熟的方法。

最初卓有成效地把古典概率论引进统计学的是法国天文学家、数学家、统计学家拉普拉斯(P.S. Laplace,1749~1827)。

因此,后来比利时大统计学家凯特勒指出,统计学应从拉普拉斯开始。

近代描述统计学形成期间大致在十九世纪中叶至二十世纪上半叶。

由于这种“描述”特色由一批原是研究生物进化的学者们提炼而成,因此历史上称他们为生物统计学派。

生物统计学派的创始人是英国的高尔登(F. Galton,1822~1911),主将是高尔登的学生毕尔生(K.Pearson,1857~1936)。

现代推断统计学形成期间大致是二十世纪初叶至二十世纪中叶。

人类历史进入二十世纪后,无论社会领域还是自然领域都向统计学提出更多的要求。

各种事物与现象之间繁杂的数量关系以及一系列未知的数量变化,单靠记录或描述的统计方法已难以奏效。

因此,相继产生“推断”的方法来掌握事物总体的真正联系以及预测未来的发展。

从描述统计学到推断统计学,这是统计发展过程中的一个大飞跃。

统计学发展中的这场深刻变革是在农业田间试验领域中完成的。

因此,历史上称之为农业试验学派。

对现代推断统计的建立贡献最大的是英国统计学家哥塞特(W.S. Gosset,1876~1937)和费雪(R.A. Fisher,1890~1962)。

在大数据时代,对统计学来说既是机遇又是挑战,机遇在于大数据的分析主要建立在统计学的基础上对数据进行处理、分析,从而使得大数据“可视化”,而挑战在于,当下传统统计学的方法对于大数据的不适用,这需要我们进一步对统计学进行发展与创新。

3大数据时代对统计学的影响统计学是一门古老的学科,已经有三百多年的历史,在自然科学和人文社会科学的发展中起到了举足轻重的作用; 统计学又是一门生命力及其旺盛的学科,他海纳百川又博采众长,随着各门具体学科的发展不断壮大。

毫不例外,大数据时代的到来,给统计学科带来了发展壮大机会的同时,也使得统计学科面临着重大的挑战。

怎样深刻地认识和把握这一发展契机,怎样更好地理解和应对这一重大挑战,这就迫使我们需要澄清大数据的概念"明确大数据的特征; 重新审视统计的工作过程"提出新的统计思想理念[22]。

3.1 大数据对样本和总体的影响统计利用大数据的目的[6]是为了推断经济总体或社会总体,经济或社会指标的平均数或分位数等情况。

统计学强调的是样本的代表性,而代表性这一要求一般是通过概率抽样来满足的。

大数据虽然有着海量的样本量,能够提供丰富的信息,但是严格来说,大数据并不是一个抽样样本,相反大数据样本会存在缺乏代表性、信息冗余、存在噪声等诸多问题,这种情况下很容易带来分析结果的系统偏差[26]。

如果说,传统统计研究的数据是有意收集的结构化的样本数据,那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。

样本数据与大数据的这种区别,具有什么样的统计学意义? 我们知道,样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据,不仅数据量有限,而且如果过程偏离方案,数据就不能满足要求。

基于样本数据所进行的分析,其空间十分有限---通常无法满足多层次、多角度的需要,若遇到抽样方案事先未曾考虑到的问题,数据的不可扩充性缺点就暴露无疑。

而大数据是一切可以通过现代信息技术记录和量化的数据,不仅所蕴含的信息量巨大,而且不受各种框框的限制---任何种类的数据都来者不拒、也无法抵拒。

不难发现,大数据相比于样本数据的最大优点是,具有巨大的数据选择空间,可以进行多维、多角度的数据分析。

更为重要的是,由于大数据的大体量与多样性,样本不足以呈现的某些规律,大数据可以体现; 样本不足以捕捉的某些弱小信息,大数据可以覆盖; 样本中被认为异常的值,大数据得以认可。

这将极大地提高我们认识现象的能力,避免丢失很多重要的信息,避免失去很多决策选择的机会[20]。

所以说,在大数据时代下,大数据既是样本,也是总体。

由于计算机处理技术发生着日新月异的变化,人们处理大规模复杂数据的能力日益增强,从大规模数据中提取有价值信息的能力日益提高,人们将会迅速进入大数据时代。

数据时代,不仅会带来人类自然科学技术和人文社会科学的发展变革,还会给人们的生活和工作方式带来焕然一新的变化[22]。

3.2 相关分析变化大数据时代的到来使得相关分析需要达到的要求更高,针对传统统计分析中的相关测量法存在的缺陷,大数据时代的相关分析首先满足“通用性”和“均等性”两个准则,相关分析的结果应该只与变量之间连动性的紧密程度有关,而不应受变量间相关形式的影响[29-30]。

近些年,国外已经有很多学者开始注意到大数据时代相关分析方法的重要性,对如何改进相关分析方法进行了研究。

Reshef等学者(2011)基于信息论中关于两个事件集合的相关性信息度量提出了一种关于相关性分析的改进方法--最大信息系数(Maximal Information Coefficient,MIC)的,可以对变量间的非函数相关关系进行有效的识别。

David Lopea-Paz等学者(2013)运用 Copula 转换提出了随机相关系数(Randomized Dependence Coefficient,RDC),并与MIC方法进行了对比,证明前者的时间复杂度更低。

Hoang V.Nguyen 等学者(2014)根据MIC方法,提出了更一般化的相关分析方法--最大相关分析(Maximal Correlation Analy-sis,MAC),扩展了MIC方法的运用范围,可以对两组变量之间的非函数相关关系进行准确的测量[27]。

相关文档
最新文档