大数据时代统计学发展的若干问题

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代统计学发展的若干问题

作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌

本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广

义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。

一、引言

随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在过去两年产生的。大数据时代已经到来。

基于自身态度和学术背景的差异,目前,来自不同领域、学科的学者对大数据的理解并没有一个统一的定义。依照美国咨询公司麦肯锡(McKinsey)[2]的定义,大数据是指那些规模超出了典型的数据库软件工具的能力来进行捕获、存储、管理和分析的数据集。与传统数据相比,大数据的大不仅仅是体量上的扩充,数据的结构、形式、粒度、组织等各方面都更加复杂。凭借存储成本更低、运行效率更高的现代信息

技术,大数据可以认为是一切可记录的数字化信号集合。从数据特征来看,Grobelink. M(2012)提出了著名的“3V”定义,即多样性( Variety) 、规模性( Volume)、高速性

( Velocity)[3]。在此基础上,国际数据公司(IDC)认为大数据还具有价值密度低的特点(Value),而国际商业机器公司(IBM)则提出大数据的真实性(Veracity)。[1]

近年来,IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨国公司大力推动了大数据处理技术的发展,大数据在自然科学、金融、医疗、移动通信等领域涌现出了大量应用成果[3]。伴随着大数据的广泛应用,越来越多的学者开始关注和讨论大数据问题,形成了一些颇具影响力、有代表性的观点。其中最典型的要属舍恩伯格和库克耶(2013)提出的大数据时代三个重要的思维转变:更多(不是随机样本,而是全体数据)、更杂(不是精确性,而是混杂性)、更好(不是因果关系,而是相关关系)[4]。上述观点在业界、学术界引起很多共鸣,同时也存在很多质疑[5,6]。此观点对于大数据时代统计学的发展方向具有一定的指导性作用,然而却很少有文章在探讨统计学科如何发展的背景下系统地

对其进行反思。因此,本文首先回顾了统计学发展历史,剖析了统计学的发展总是以应用为驱动,并在此基础上讨论了大数据背景下统计学的发展定位,进一步分析统计学与计算机之间的关系,并针对舍氏“三个重要的思维转变”提出自己

的看法。

二、统计学与大数据

大数据包含了宽泛的理论及应用领域,统计学作为提取大数据价值的核心学科该如何发展?要想弄清楚这个问题,我们不妨先简略回顾一下统计学的发展历史,从历史的角度来把握大数据时代统计学的发展定位问题。

统计学作为一门学科已有三百多年的历史。按统计方法及历史的演变顺序,通常可以将统计学的发展史分为三个阶段,分别是古典统计学时期、近代统计学时期和现代统计学时期。古典统计学的萌芽最早可以追溯到17世纪中叶,此时的欧

洲正处于封建社会解体和资本主义兴起的阶段,工业、手工业快速增长,社会经历着重大变革。政治改革家们急需辅助国家经营和管理的数据证据以适应经济发展需要,此时一系列统计学的奠基工作在欧洲各国相继展开。在这一时期,以威廉.配第和约翰.格朗特为代表的政治算术学派与海尔曼。康令(HermannConring)创立的国势学派相互渗透和借鉴,服务与指导了国家管理和社会福利改善。

18世纪末至19世纪末为近代统计学发展时期。这一百年间欧洲各国先后完成了工业革命,科学技术开始进入全面繁荣时期,天文、气象、社会人口等领域的数据资料达到一定规模的积累,对统计的需求已从国家层面扩展至社会科学各个领域。对事物现象静态性的描述也已不能满足社会需求,数

理统计学派创始人凯特勒(A·J·Quetelet)率先将概率论引进古典统计学,提出了大数定律思想,使统计学逐步成为揭示事物内在规律,可用于任何科学的一般性研究方法。一些重要的统计概念也在这一时期提出,误差测定、正态分布曲线、最小二乘法、大数定律等理论方法的大量运用为社会、经济、人口、法律等领域的研究提供了大量宝贵的指导。

20世纪科学技术的发展速度远超过之前的时代,以描述性方法为核心的近代统计已无法满足需求,统计学的重心转为推断性统计,进入了现代统计学阶段。随着20世纪初细胞学的发展,农业育种工作全面展开。1923年,英国著名统计学家费雪(R.A.Fisher)为满足作物育种的研究需求,提出了基于概率论和数理统计的随机试验设计技术以及方差分

析等一系列推断统计理论和方法。推断性统计方法的进步对工农业生产和科学研究起到了极大的促进作用。自20世纪30年代,随着社会经济的发展和医学先进理念的吸收融合,人们对于医疗保险和健康管理的需求日益增长,统计思想渗透到医学领域形成了现代医学统计方法[8]。例如在生存质量(Quality of life)研究领域,通过分析横向纵向资料,逐步形成了重复测量资料的方差分析、质量调整生存年(QALYs)法等统计方法[9]。这一阶段,统计在毒理学、分子生物学、临床试验等生物医学领域获得了大量应用,这些领域的发展又带动统计方法不断创新,主成分估计、非参数估计、MME

算法等方法应运而生。随着现代生物医学的发展,计算机技术的进步,人类对健康的管理和疾病的治疗已进入基因领域,对基因数据分析产生了大量需求。高维海量的基因数据具有全新的数据特征,由此一系列面向高维数据的统计分析方法相继产生。

回顾统计学史可以发现,在不同的社会背景下,统计学的发展都是以实际需求为驱动,伴随着需求和数据的改变逐步向前发展。在以数据信息为核心的大数据时代,人类社会各个领域的发展都需要从大数据中汲取动力,这无疑对统计数据分析产生了大量的需求。而大数据所具有的数据特征使得部分传统统计方法不再适用。根据学科特点和历史沿革,不难看出,在大数据时代,统计学需要针对大数据的特征,以服务和满足各领域需求为目标,不断创新和发展数据分析方法与理论。

三、统计学与计算机

自上个世纪以来计算机经历了飞跃式发展,计算机技术催生了大数据,并支撑了它的处理与分析。计算机技术可以说是大数据发展的基础。大数据时代对统计学发展的探讨自然离不开对计算机科学的关注。大数据的价值产生于分析过程,作为大数据分析的主要工具与方法,统计学与计算机技术共同成为服务于大数据的核心科学。两者关系密切,它们之间存在着合作与竞争并存的关系。

相关文档
最新文档