大数据时代统计学发展的若干问题

合集下载

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨随着信息技术的飞速发展,大数据已成为当今社会各行业的一个重要资源和工具。

统计工作作为大数据时代的重要组成部分,也面临着诸多挑战和问题。

本文将从数据的质量、数据的分析和应用以及数据隐私保护等方面探讨大数据时代统计工作面临的问题,并提出相应的对策。

一、数据的质量问题在大数据时代,数据的质量问题愈发突出。

大数据涉及的数据量巨大,数据质量不高将会导致分析结果出现偏差,进而影响决策的准确性。

大数据来源复杂,数据的一致性和完整性难以保证,这也会对统计工作的可靠性产生负面影响。

大数据中还存在数据孤岛和数据质量不一致的问题,这使得大数据的处理和应用相对困难。

应对数据质量问题的对策:1. 强化数据采集和存储管理,提高数据的准确性和一致性。

统计部门应制定统一的数据采集标准,加强数据质量监控和管理,确保数据的准确性和一致性。

2. 运用先进的数据清洗和整合技术,及时发现和修复数据中的错误和缺失,提高数据的完整性。

3. 建立数据质量评估体系,通过数据质量分析和评估工具,定期对数据质量进行评估和监控,及时发现和解决数据质量问题。

二、数据的分析和应用问题大数据时代的统计工作,主要面临着数据分析和应用的问题。

由于大数据的复杂性和多样性,传统的统计分析方法和工具已经无法满足实际需求,统计工作面临着分析方法不足、技术手段不够先进等问题。

大数据的应用也面临着巨大的挑战,包括数据可视化、大数据应用平台建设等方面的问题。

应对数据分析和应用问题的对策:1. 不断更新和完善统计分析方法和工具,引入先进的数据科学技术和算法。

统计部门可以通过培训和引进人才等方式,不断完善自身的技术水平,提高数据分析的效率和准确性。

2. 加强大数据可视化技术的研发和应用,通过可视化展示数据,提高数据的解释性和实用性,为决策提供更直观、更全面的支持。

3. 统计部门应积极参与大数据应用平台的建设和运维工作,推动大数据应用的深入发展,为各行业提供更可靠的数据服务和支持。

统计学在大数据时代的新挑战有哪些

统计学在大数据时代的新挑战有哪些

统计学在大数据时代的新挑战有哪些在当今数字化、信息化飞速发展的时代,大数据已经成为了我们生活和工作中不可或缺的一部分。

从社交媒体的信息流到电子商务的交易记录,从医疗健康的病历数据到科学研究的观测结果,数据的规模和复杂性呈爆炸式增长。

而统计学作为一门研究数据收集、整理、分析和解释的学科,在这个大数据时代面临着前所未有的新挑战。

首先,数据的规模和多样性是统计学面临的一大挑战。

传统的统计学方法通常适用于相对较小、结构清晰的数据样本。

然而,在大数据环境中,数据的规模可能达到数十亿甚至更多的记录,而且数据的来源和类型极其多样,包括结构化数据(如数据库中的表格)、半结构化数据(如 XML 和 JSON 格式的数据)以及非结构化数据(如文本、图像、音频和视频)。

处理如此大规模和多样化的数据,需要新的算法和技术来有效地存储、管理和分析。

例如,对于海量的文本数据,传统的统计分析方法可能难以直接应用。

需要运用自然语言处理技术将文本转化为可量化的特征,然后再进行统计分析。

而对于图像和视频数据,如何提取有意义的特征并进行统计建模也是一个难题。

此外,不同来源和类型的数据可能存在质量参差不齐、缺失值、异常值等问题,这增加了数据预处理的难度和复杂性。

其次,数据的产生速度也是一个重要的挑战。

在大数据时代,数据的生成速度非常快,实时数据处理成为了常见的需求。

例如,金融交易中的高频数据、社交媒体上的实时信息流、物联网设备产生的连续监测数据等。

传统的统计学方法往往是基于批处理的模式,难以满足实时处理的要求。

为了应对这一挑战,需要开发新的流式计算和实时分析技术。

这些技术能够在数据不断流入的过程中进行快速的处理和分析,及时提供有价值的信息。

同时,还需要考虑如何在有限的计算资源和时间内做出准确的决策,这对算法的效率和精度提出了更高的要求。

再者,数据的相关性和复杂性也是统计学需要应对的难题。

大数据中往往存在着复杂的相关性和依赖关系,不再是简单的线性关系或独立分布。

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨随着信息技术的高速发展,大数据技术已经成为了信息时代的核心驱动力之一。

大数据时代的到来给统计工作带来了新的挑战和机遇。

统计是大数据时代的基础,但同时也面临着一系列的问题和困难。

本文将探讨大数据时代统计工作面临的问题,并提出相应的对策。

一、问题1. 数据量庞大大数据时代所面临的最大问题就是数据量的庞大。

传统的统计工作通常处理的数据规模有限,但在大数据时代,数据量已经飙升至TB甚至PB级别。

这极大地增加了统计工作的难度,传统的统计方法往往无法适应。

2. 数据质量参差不齐随着数据量的增加,数据的质量也变得参差不齐。

在大数据时代,数据往往来自多个来源,包括传感器、社交媒体、互联网等,这些数据的质量各异,有的数据来源不可靠,有的数据存在缺失和错误。

3. 数据处理速度需求高大数据时代对数据处理速度提出了更高的需求。

传统的统计方法可能需要花费大量的时间来处理大数据,导致数据的时效性变差。

在商业领域,对数据的实时分析和处理已经成为了一种竞争优势。

4. 隐私和安全问题大数据时代涉及到大量个人和机密数据,这就引发了隐私和安全问题。

统计工作者需要保证数据的安全性和隐私性,同时要确保对数据进行合法和合规的使用。

5. 多样化的数据类型在大数据时代,数据的类型变得非常多样化,包括结构化数据、半结构化数据和非结构化数据等。

传统的统计方法面对这种多样化的数据类型往往显得力不从心。

二、对策1. 引入新的统计方法和技术面对大数据时代的挑战,统计工作者需要引入新的统计方法和技术。

可以借助机器学习和人工智能技术来处理大数据,提高数据分析的效率和准确性。

还可以采用分布式计算和并行计算技术来加快数据处理的速度。

2. 加强数据质量管理为了应对数据质量参差不齐的问题,统计工作者需要加强数据质量管理。

可以通过数据清洗、数据标准化、数据匹配等手段来提高数据的质量,确保数据的准确性和完整性。

3. 建立实时数据处理系统在大数据时代,实时数据分析变得至关重要。

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨1. 引言1.1 背景介绍在大数据时代,数据量呈现爆炸式增长的趋势,各行各业都面临着海量数据的处理和分析挑战。

随着互联网的快速发展,人工智能、物联网、云计算等新技术的不断涌现,大数据已经成为信息化时代的核心驱动力量。

大数据的应用,已经深刻影响到社会的方方面面,包括商业、医疗、金融、科研等领域。

大数据的兴起带来了企业决策的科学化和精准化,但也给统计工作带来了一系列新的问题和挑战。

传统的统计方法和工具已经无法满足大数据分析的需求,数据质量、隐私保护、技术水平等方面也面临着巨大的压力和挑战。

如何有效应对大数据时代统计工作面临的问题,成为当前急需解决的重要课题。

本文将重点探讨在大数据时代统计工作所面临的问题及可能的解决方案。

1.2 问题提出在大数据时代,统计工作面临着诸多问题和挑战。

随着数据量的急剧增加,传统的统计方法和工具已经无法有效处理如此庞大的数据量,给统计工作带来了巨大的挑战。

数据质量问题也成为一个亟待解决的难题,因为大数据往往包含着来自不同来源和不同格式的数据,如何确保数据的准确性和完整性成为统计工作者亟待解决的问题。

隐私保护也是一个值得重视的问题,在大数据时代,个人隐私有可能被泄露和滥用,如何在保证数据可用性的同时确保个人隐私成为一个复杂的难题。

由于技术水平不断更新换代,统计工作者也面临着技术水平不足的挑战,如何及时更新自己的技术知识并应用到实际工作中成为一个亟待解决的问题。

以上种种问题使得统计工作在大数据时代面临着重重困难,需要寻找新的解决方案和对策。

1.3 重要性在大数据时代,统计工作面临着诸多问题和挑战。

重要性不言而喻。

大数据时代的到来意味着数据量的激增,统计工作者需要面对海量的数据进行分析和处理,这对其工作效率和准确性提出了更高的要求。

数据质量问题在大数据时代尤为突出,统计工作者需要花费更多的时间和精力来清洗和筛选数据,以确保分析结果的可靠性和准确性。

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨随着大数据时代的到来,统计工作面临着一系列新的问题。

这些问题不仅涉及到统计方法和技术的更新,还需要考虑到隐私保护、数据安全和数据治理等方面的挑战。

本文将探讨大数据时代统计工作面临的问题,并提出相应的对策。

大数据时代统计工作面临的问题之一是数据的质量和可靠性。

随着数据源的多样化和数据量的增长,很多数据可能存在噪声、缺失值和错误等问题,导致统计结果的不准确性。

对数据进行清洗和预处理变得尤为重要。

对于数据清洗,可以采用数据挖掘和机器学习的方法,自动检测和修复数据中的错误和缺失值。

也需要加强对数据质量的监控和评估,建立数据质量评价指标和评估体系,保证数据的可靠性和准确性。

另一个问题是数据的隐私保护。

在大数据时代,我们面临的数据来源越来越广泛和多样化,可能涉及个人的隐私信息。

在进行统计分析时,需要采取相应的隐私保护措施,如数据脱敏、去标识化和加密等。

还需要建立合适的法律和政策框架来保护个人隐私,明确数据使用和共享的规则和标准。

第三个问题是数据的安全性。

随着大数据的广泛应用,数据的安全性越来越重要。

很多数据可能包含敏感信息,一旦泄露或被攻击,将对个人和企业造成巨大的损失。

应对数据的安全性进行全面的保护。

这包括建立安全的数据存储和传输机制,加强数据的访问控制和权限管理,以及建立数据安全监控和预警系统等。

大数据时代统计工作面临的一个重要问题是数据治理。

在大数据时代,数据成为了企业和组织最重要的资产之一,因此需要建立相应的数据治理机制,包括数据规范、数据管理和数据治理体系等。

数据规范是指为数据制定统一的标准和规则,以保证数据的一致性和可比性;数据管理是指对数据进行管理和维护,包括数据的采集、存储、清洗和预处理等;而数据治理是指对数据进行监控和控制,以保证数据的合规性和可信度。

针对上述问题,我们可以采取一些对策来解决。

可以加强统计人员的培训和技能提升,提高他们在大数据时代的统计方法和技术应用能力。

浅谈大数据时代统计学的挑战与机遇

浅谈大数据时代统计学的挑战与机遇

浅谈大数据时代统计学的挑战与机遇随着互联网技术的快速发展和大数据的迅猛增长,统计学也面临着新的挑战和机遇。

在大数据时代,统计学面临着如下几个挑战。

首先,传统的统计模型难以应对大数据时代的需求,即需要更高效、更精准、更灵活的方法。

传统的统计学方法可能需要大量的计算时间和计算资源,以适应大规模数据的分析和处理,这在大数据时代显得非常不切实际。

其次,传统的统计方法可能无法处理数据质量和数据稳定性问题。

在大数据时代,数据的质量和稳定性成为了最关键的问题,传统的统计方法可能会因为无法处理缺失数据、异常值等问题而产生偏差和误差,对数据分析产生不良影响。

第三,大数据时代数据来源广泛,数据类型多样。

相对于传统的样本调查统计方法,大数据时代的数据来源更为广泛,类型多样,收集方式更为多元,因此传统的统计方法需要进行重构和改进,以适应不同来源、不同类型的数据。

所以说,大数据时代对统计学提出了诸多挑战,但同时也为统计学提供了全新的机遇。

首先,大数据时代的到来为统计学研究提供了丰富的数据基础,使得更多的统计学理论和方法得以实践,发掘数据背后的价值和信息,为数据分析提供新的思路和方法。

其次,大数据时代使得统计学从侧面推动数学、计算机科学等学科领域的发展,积极开展跨学科合作,联合研究,形成了一种新的综合学科思路,如数据科学等,这种跨学科交叉的思路推动了统计学的创新和发展。

此外,大数据时代对统计学人才的要求也发生了改变。

传统的统计学方法仅需要具备数学和统计学知识的人才,而在大数据时代,随着数据量的爆炸式增长和数据应用的广泛化,往往需要更具备计算机和数据科学方面的专业知识,实现数据的获取、存储、挖掘和分析。

总体来说,大数据时代的到来是一个有挑战、有机遇的时代,统计学需要不断创新、改进和追求跨学科交叉,以推动统计学的发展和在大数据时代中的应用。

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨

大数据时代统计工作面临的问题及对策探讨随着大数据技术的发展和普及,统计工作在处理海量数据方面变得越来越重要。

然而,在面对大数据时代的挑战时,统计工作者也面临着一系列的问题。

本文将探讨这些问题,以及可能的解决方案。

1. 数据采集大数据时代需要处理的数据成千上万,如何收集这些数据是一个非常重要的问题。

传统的数据采集方法可能已经过时,无法胜任大数据时代的需求。

因此,需要发展更高效和准确的数据采集方法,如自动化数据采集和网络爬虫技术等。

同时,隐私和数据安全的考虑也需要在数据采集的过程中得到充分的保护。

2. 数据的清洗与预处理大数据时代的数据质量不可避免地存在噪声和异常值,需要进行清洗和预处理。

传统的数据清洗方法不再适用,因为其时间成本太高。

因此,需要自动化的数据清洗工具和技术来解决这个问题。

数据预处理也需要结合现代计算机技术,如并行处理和分布式计算等,以提高效率和速度。

3. 数据分析在数据量爆炸式增长的情况下,传统的统计分析方法可能已无法适应。

因此,需要发展新的数据分析方法,如机器学习、深度学习和自然语言处理等。

这些方法可以快速而准确地分析大数据,挖掘出隐藏的信息和模式。

4. 数据可视化数据可视化是使数据更易于理解和诠释的核心工作之一。

然而,大数据时代的数据复杂性和维度高度增加,需要更高效而先进的可视化技术。

这些技术包括交互式可视化、虚拟现实和增强现实等,可以更好地展示和解释大数据。

5. 隐私保护大数据时代的数据搜集范围和数量不断增加,保护隐私成为一个日益重要的问题。

在数据搜集和存储的过程中,需要确保个人信息得到充分的保护。

因此,需要采用一系列的技术和策略来保护数据隐私,如数据加密、匿名化和脱敏等。

综上所述,大数据时代的统计工作面临着一系列的问题,但同时也提供了丰富的机遇和挑战。

解决这些问题的关键在于不断发展和使用新的技术和方法,同时注重数据安全和隐私保护。

只有这样,才能更好地满足大数据时代的需求和挑战。

浅谈大数据时代统计学的挑战与机遇

浅谈大数据时代统计学的挑战与机遇

浅谈大数据时代统计学的挑战与机遇随着信息技术的快速发展,大数据时代已经来临,大数据成为了当前和未来的重要资源。

在大数据时代,统计学的发展面临着新的挑战和机遇。

本文将从统计学的角度,浅谈大数据时代统计学面临的挑战和机遇。

在大数据时代,统计学面临的挑战主要有以下几个方面。

首先是数据量的挑战。

大数据时代的数据量巨大,传统的统计学方法和工具无法有效处理如此庞大的数据集。

传统的统计学模型需要基于一定的假设和先验知识,而大数据时代数据的规模和复杂性往往使这些假设难以满足。

统计学需要发展出适应大数据的新的方法和理论。

其次是数据质量的挑战。

在大数据时代,数据的质量往往难以保证。

由于数据的规模庞大、来源多样,其中可能包含各种噪声和错误。

这就给统计学的数据清洗和预处理带来了很大的挑战。

如何从大量的杂乱数据中提取出有用的信息,是统计学研究面临的一个重要问题。

大数据时代还给统计学的数据分析带来了新的挑战。

传统的统计学方法依赖于小样本数据进行分析,而在大数据时代,样本量往往非常大,往往无法将全部数据进行分析。

如何在样本量庞大的情况下,有效地进行数据分析,是统计学的一个新的挑战。

大数据时代提供了更多的数据资源,为统计学研究提供了更多的机会。

传统的统计学研究往往受限于数据的收集和获取,而在大数据时代,数据的获取变得更加容易,可以从各个领域和来源获取到大量的数据。

这为统计学的研究提供了更多的数据资源,可以进行更加全面和深入的研究。

大数据时代的数据多样性也为统计学研究提供了新的机遇。

传统的统计学方法主要针对数值型数据进行研究,而在大数据时代,非结构化数据、文本数据、图像数据等多种多样的数据类型也变得更加重要。

统计学需要发展出适应不同数据类型的新的方法和技术。

大数据时代的数据多样性还为统计学的交叉研究提供了新的机遇。

传统的统计学主要关注数据的概率性和随机性,而在大数据时代,数据与各个学科和领域的交叉日益增多,统计学也可以与其他学科进行更广泛的交叉合作,共同研究和解决实际问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代统计学发展的若干问题作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。

一、引言随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。

据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在过去两年产生的。

大数据时代已经到来。

基于自身态度和学术背景的差异,目前,来自不同领域、学科的学者对大数据的理解并没有一个统一的定义。

依照美国咨询公司麦肯锡(McKinsey)[2]的定义,大数据是指那些规模超出了典型的数据库软件工具的能力来进行捕获、存储、管理和分析的数据集。

与传统数据相比,大数据的大不仅仅是体量上的扩充,数据的结构、形式、粒度、组织等各方面都更加复杂。

凭借存储成本更低、运行效率更高的现代信息技术,大数据可以认为是一切可记录的数字化信号集合。

从数据特征来看,Grobelink. M(2012)提出了著名的“3V”定义,即多样性( Variety) 、规模性( Volume)、高速性( Velocity)[3]。

在此基础上,国际数据公司(IDC)认为大数据还具有价值密度低的特点(Value),而国际商业机器公司(IBM)则提出大数据的真实性(Veracity)。

[1]近年来,IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨国公司大力推动了大数据处理技术的发展,大数据在自然科学、金融、医疗、移动通信等领域涌现出了大量应用成果[3]。

伴随着大数据的广泛应用,越来越多的学者开始关注和讨论大数据问题,形成了一些颇具影响力、有代表性的观点。

其中最典型的要属舍恩伯格和库克耶(2013)提出的大数据时代三个重要的思维转变:更多(不是随机样本,而是全体数据)、更杂(不是精确性,而是混杂性)、更好(不是因果关系,而是相关关系)[4]。

上述观点在业界、学术界引起很多共鸣,同时也存在很多质疑[5,6]。

此观点对于大数据时代统计学的发展方向具有一定的指导性作用,然而却很少有文章在探讨统计学科如何发展的背景下系统地对其进行反思。

因此,本文首先回顾了统计学发展历史,剖析了统计学的发展总是以应用为驱动,并在此基础上讨论了大数据背景下统计学的发展定位,进一步分析统计学与计算机之间的关系,并针对舍氏“三个重要的思维转变”提出自己的看法。

二、统计学与大数据大数据包含了宽泛的理论及应用领域,统计学作为提取大数据价值的核心学科该如何发展?要想弄清楚这个问题,我们不妨先简略回顾一下统计学的发展历史,从历史的角度来把握大数据时代统计学的发展定位问题。

统计学作为一门学科已有三百多年的历史。

按统计方法及历史的演变顺序,通常可以将统计学的发展史分为三个阶段,分别是古典统计学时期、近代统计学时期和现代统计学时期。

古典统计学的萌芽最早可以追溯到17世纪中叶,此时的欧洲正处于封建社会解体和资本主义兴起的阶段,工业、手工业快速增长,社会经历着重大变革。

政治改革家们急需辅助国家经营和管理的数据证据以适应经济发展需要,此时一系列统计学的奠基工作在欧洲各国相继展开。

在这一时期,以威廉.配第和约翰.格朗特为代表的政治算术学派与海尔曼。

康令(HermannConring)创立的国势学派相互渗透和借鉴,服务与指导了国家管理和社会福利改善。

18世纪末至19世纪末为近代统计学发展时期。

这一百年间欧洲各国先后完成了工业革命,科学技术开始进入全面繁荣时期,天文、气象、社会人口等领域的数据资料达到一定规模的积累,对统计的需求已从国家层面扩展至社会科学各个领域。

对事物现象静态性的描述也已不能满足社会需求,数理统计学派创始人凯特勒(A·J·Quetelet)率先将概率论引进古典统计学,提出了大数定律思想,使统计学逐步成为揭示事物内在规律,可用于任何科学的一般性研究方法。

一些重要的统计概念也在这一时期提出,误差测定、正态分布曲线、最小二乘法、大数定律等理论方法的大量运用为社会、经济、人口、法律等领域的研究提供了大量宝贵的指导。

20世纪科学技术的发展速度远超过之前的时代,以描述性方法为核心的近代统计已无法满足需求,统计学的重心转为推断性统计,进入了现代统计学阶段。

随着20世纪初细胞学的发展,农业育种工作全面展开。

1923年,英国著名统计学家费雪(R.A.Fisher)为满足作物育种的研究需求,提出了基于概率论和数理统计的随机试验设计技术以及方差分析等一系列推断统计理论和方法。

推断性统计方法的进步对工农业生产和科学研究起到了极大的促进作用。

自20世纪30年代,随着社会经济的发展和医学先进理念的吸收融合,人们对于医疗保险和健康管理的需求日益增长,统计思想渗透到医学领域形成了现代医学统计方法[8]。

例如在生存质量(Quality of life)研究领域,通过分析横向纵向资料,逐步形成了重复测量资料的方差分析、质量调整生存年(QALYs)法等统计方法[9]。

这一阶段,统计在毒理学、分子生物学、临床试验等生物医学领域获得了大量应用,这些领域的发展又带动统计方法不断创新,主成分估计、非参数估计、MME算法等方法应运而生。

随着现代生物医学的发展,计算机技术的进步,人类对健康的管理和疾病的治疗已进入基因领域,对基因数据分析产生了大量需求。

高维海量的基因数据具有全新的数据特征,由此一系列面向高维数据的统计分析方法相继产生。

回顾统计学史可以发现,在不同的社会背景下,统计学的发展都是以实际需求为驱动,伴随着需求和数据的改变逐步向前发展。

在以数据信息为核心的大数据时代,人类社会各个领域的发展都需要从大数据中汲取动力,这无疑对统计数据分析产生了大量的需求。

而大数据所具有的数据特征使得部分传统统计方法不再适用。

根据学科特点和历史沿革,不难看出,在大数据时代,统计学需要针对大数据的特征,以服务和满足各领域需求为目标,不断创新和发展数据分析方法与理论。

三、统计学与计算机自上个世纪以来计算机经历了飞跃式发展,计算机技术催生了大数据,并支撑了它的处理与分析。

计算机技术可以说是大数据发展的基础。

大数据时代对统计学发展的探讨自然离不开对计算机科学的关注。

大数据的价值产生于分析过程,作为大数据分析的主要工具与方法,统计学与计算机技术共同成为服务于大数据的核心科学。

两者关系密切,它们之间存在着合作与竞争并存的关系。

计算机为统计学的发展起到了极大的促进作用。

计算机使人类所拥有的数据水平达到了全新的高度,无论是从数量,类型,还是粒度等方面进行考察。

新型的数据或者数据特征催生出新的数据处理方法,例如社交网络的发展直接要求了基于网络的统计方法的产生;大数据流环境对数据流算法的要求等。

计算机技术也融进统计方法中,促进了新的统计方法的诞生。

自20世纪计算机兴起,一系列建立在计算机基础之上的统计方法就被开发出来:MCMC模拟计算、Jackknife、Bootstrap等。

此类方法不仅拓展了统计学领域,而且开创了解决问题的新思路。

进入大数据时代,以互联网为中心的云计算技术为大数据提供了保管、访问的场所和渠道。

伴随着分布式和并行计算(云计算核心技术)的快速发展,Bag of LittleBootstraps算法(2012)、Memory-Efficient Tucker Decomposition(2008)、基于MapReduce的K-means算法(2009)、基于MapReduce的并行Apriori算法(2012)等一系列面向大数据的抽样、分类、聚类、关联分析方法应运而生。

[10,11,12]在数据统计分析方法蓬勃发展的同时,以数据库技术为关键支撑的计算机信息处理技术在很多领域上也得到大量发展。

例如,在数据获取方面,DEEP WEB技术可以用于感知数据,以及进行高质量的数据继承和整合;在数据存储方面,谷歌、IBM和百度等公司大量运用的GFS技术,能够实现高效率的分布式数据存储,并且可以给大量用户提供总体性能较高的服务;在数据索引方面,当前比较主流的索引技术之一是BigTable,它是一个分布式的、可扩展的、高效的非关系型数据库;在可视化方面,Clustergram技术可以进行聚类,从而优化大数据分析结果的形式[13]。

大数据时代,统计学与计算机互相促进,存在着紧密合作关系。

另一方面,由于统计学的发展是以实际需求为驱动,如果要解决的问题随着计算机的发展可以得到很好的解决,那么相应的统计方法可能就埋没在浩瀚的历史长河里了。

比如在大数据时代,出现了超高维数据,LASSO、SCAD等方法在处理超高维数据下计算效率远远不够[14]。

对于超高维数据,Fan和Lv[15]提出的SIS(SureIndependence Screening)方法可以快速有效地把维数从超高维降到相对小的规模。

这是一种基于相关准则的降维方法,相关准则把特征重要性按照它们与因变量的边际相关来排序,并把与因变量的边际相关弱的那些变量过滤掉。

这种统计方法可以有效地降低计算成本,然而当计算机的速度和性能得到很大提升后,它的价值却在减小。

基于分布式系统的大规模数据软件平台Hadoop,通过并行处理可以成倍地提高计算机性能,作为显卡核心的图形处理器GPU拥有一个专为同时处理多重任务而设计的由数以千计小而高效的核心组成的大规模并行计算架构,经过并行计算的优化,理论上在GPU上的计算速度会比CPU快50-100倍[16],不借助SIS方法的“GPU+Hadoop”就可以直接处理超高维数据。

部分统计学方法有可能淹没在计算机技术的发展洪流中。

从学科的发展角度来看,统计学与计算机技术也存在一定的竞争关系。

与计算机的竞争关系揭示出统计学所面临的被替代的危机,而面对这个危机最好的态度是积极地拥抱计算机技术,让计算机技术融入统计学。

在大数据时代,统计学应该与计算机技术更加紧密地结合。

四、大数据分析的若干误区关于大数据的数据分析理念,学术界展开了很多研究与讨论,一定程度促进了统计学的发展和数据分析理念的更新,但是也出现了一些误区。

接下来,我们探讨大数据分析中的几个主要误区。

(一)因果关系大数据时代一个显著现象就是更关注于数据的相关关系。

舍恩伯格等在《大数据时代》[4]中提到大数据的一个思维转变:“相关关系比因果关系能更好地了解这个世界”。

国内外学者也开始更多地关注大数据时代相关分析方法的研究[17,18]。

针对相关分析展开的研究,使得人们对于自身和世界的认识拥有一个开放的信息系统视角,对事物的认识不再局限于封闭领域[4,19]。

相关文档
最新文档