大数据在教育中的应用

相关主题

教育大数据应用

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据及其在教育中的应用

陆璟

(摘要目前对大数据的定义有三种,分别从数据体量、复杂性程度、价值

这三个角度来界定,反映了大数据三个最主要的特性。大数据在教育领域的主要应用是教育数据挖掘和学习分析。今后要加强多个来源的数据库整合,充分利用在线数据开展教育舆情分析等研究,在确保数据安全的前提下与专业数据公司开展合作。

[关键词]大数据数据挖掘学习分析

一、大数据的定义和类型

1.定义

“大数据”概念第一次创造出来是在2008年9月4日,谷歌成立10年前际,《自然》推出了大数据专辑,包括8篇大数据专题文章加上1篇编者按。虽然该专辑并没有直接提出大数据的定义,但是从互联网技术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战。概括而言,科学研究产生的数据集越来越大,并且数

据越来越复杂,使得研究人员都转向依靠数据挖掘工具、在线的团队合作(如维基百科和复杂的可视化技术。每年的研究数据聚合起来形成了大数据资源,依靠研究者自身去花大量精力记录和管理数据已经跟不上发展,科学研究数据的长期管理和维护需要有大机构的支持。但是政府、社会机构对此还没有充分认识,文化还跟不上数据的发展。这组文

章的目的是引起各方面对数据管理和分析的重视,指出充分利用数据实际上是需要额外建设大量基础设施、需要经费和资源支持、需要建立标准、需要工具和培训、需要专业的数据支持服务的。

目前对大数据的定义有三种,分别从数据体量、复杂性程度、价值这三个角度来界定什么是大数据。

第一次提出大数据的定义并且估计大数据的商业价值的

是全球著名咨询公司麦肯锡。2011年麦肯锡全球研究院发布了《大数据:创新、竞争和生产力的下一个新领域》,研究了数据和文档的规模,同时分析了处理这些数据能够释放出的潜在价值。麦肯锡对大数据的定义是从数据集的“大体量”人手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。麦肯锡故意采用了主观的定义,没有定义多大的数据集才是大数据,所以这个定义中的“大”是动态的概念。他们的假设是,随着技术的进步,随着时间的推移,符合大数据界定的数据集大小也将增加。还有,不同部门对大数据的界定也可能不同,这取决于他们通常用什么软件,以及某个特定产业的数据库是多大的。在考虑这些因素后,许多部门的大数据规模将从几十个TB到多个PB(几千个TB。维基百科采纳了麦肯锡的定义,认为大数据是一组庞大而复杂的数据集的集合,大且复杂到

难以用现有的数据库管理工具或传统的数据处理应用来处理。我国学界也采用了这一定义。

德勤咨询技术负责人罗伯特·福莱对大数据的定义是从“复杂性程度大”人手的。他在2012年提出,过去对大数据的界定主要基于规模,而实际上,规模并不是常规数据和大数据的关键区别。他对大数据的定义是:有用的数据源排列数量巨大,使有用的查询非常困难,并且,复杂的相关关系使得排除很困难。大数据的第一个属性是复杂性,大不是数量大,而是复杂性更大。例如一架飞机上有10万个传感器,产生的数据流要查询起来非常困难,但它的规模可能没有想象的那么大,1小时的飞行中产生的数据不到3G。而有些数据集很大,例如媒体流,生成量非常大,但是它的结构并不复杂,现在的搜索引擎和数据库工具可以很快将它解析出来。所以媒体流只是数据数量大,但复杂性程度却没有飞机传感器产生的数据那么大。大数据的另一个属性是很难删

除,使得隐私成为共同关注的问题。例如,从收费公路数据中清除与某个汽车司机相关联的所有数据几乎是不可能的,如果删除的话,传感器计数的汽车数量将不再与个人的计费记录匹配,也与公司收到的款项不平衡。我国学者李国杰也指出,大数据往往以复杂关联的数据网络这样一种独特的形式存在。

维克托·迈尔一舍恩伯格在《大数据时代》一书中主要从“价值大”的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。

《上海推进大数据研究与发展行动计划》对大数据的概念做了较全面的概括:大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值。

2.类型

大数据可以根据来源区分为三种类型。

(1科研数据。以数据为中心的传统学科(如基因组学、蛋白组学、天体物理学和脑科学等的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络, l立方毫米大脑的图像数据就超过1PB。《自然》杂志最早

提出大数据概念也是源于科学研究中产生的大量数据。

(2互联网数据。近年来大数据的飙升主要还是来自日常生活,特别是互联网公司的服务。谷歌每天要处理24PB 的数据,Facebook每天更新的照片超过1000万张[10],生

成300TB以上的日志数据,百度每天大约要处理几十个PB

的数据。

(3感知数据。传感网或物联网①的蓬勃发展是大数据的又一推动力。进入移动互联网时代后,移动平台的感知功能和基于位置的服务普及产生了大量感知数据,各个城市的视频监控每时每刻都在采集巨量的流媒体数据,工业监控也是大数据的重要来源,与互联网数据产生了重叠。

科学实验是科技人员设计的,如何采集数据、处理数据事先都已想好了,不管是检索还是模式识别,都有一定的规律可循。而网络大数据和感知数据有许多不同于自然科学数据的特点,包括多源异构、交互性、实效性、社会性、突发性和高噪声等,不但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生。所以一般而言,社会科学的大数据分析,特别是根据Web数据做经济形势、安全形势、社会群体事件的预测,比科学实验的数据分析更困难。分析这些新记录的事件,需要新的技术来处理非结构化的文本和图像数据、来自多个来源的数据、大量的数据。

3.对几个问题的理解

(1大数据的门槛究竟是多少?

多大的数据才达到大数据的门槛是一个随时间变

化的概念,在2011年麦肯锡公司对大数据做界定时,由于当时传统数据库有效工作的数据大小一般来说在10-100TB,因此10-100TB通常成为大数据的门槛。国际数据公司(IDC2012年发表第一份全球大数据技术和服务市场报告时

也把大数据的规模阈值设在100TB。随着数据库分析技术的发展,大

数据的门槛也在提高,目前一般认为PB级以上数据是大数据。

而根据麦肯锡公司的界定,大数据的阈值还与行业部门有关。据麦肯锡公司对美国所有1000人以上的公司或单位的数据库估计,截至2009年,美国积累的教育数据为269PB,大约为卫生数据的62%/,只有制造业(包含离散制造和流程制造在内的16%,平均到每个教育单位的数据为319TB,其中大量是视频和音频数据。目前最大的教育国际比较