【推荐】大数据与统计学培训课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 一定程度上看,大数据并不是一个严格的概念,而是 一个比喻式的称呼。
(一)如何理解大数据的“大”
❖ 一是“全体”的意思,即大数据就是全体数据,并 且数据量必须达到一定的规模。
❖ 二是“可扩充”的意思,即大数据就是可以不断扩 充容量的数据,任何数据一旦发生就可以被记录、 被吸收。
❖ 三是“有待挖掘”的意思,即大数据就是有待挖掘 的数据。大数据可能包含着丰富的、具有大价值的 信息,但被超大量的数据所掩盖、所分散而导致价 值密度低,只有挖掘才能发现。
❖ 最早与大数据概念有关的学科:天文学、气象学 和基因学,一开始就依赖于海量数据分析方法。
❖ 但从现代意义上看,大数据可以说是计算机与互 联网相结合的产物,前者实现了数据的数字化,后者 实现了数据的网络化。
❖ 大数据的本意是,所涉及的资料量规模巨大到无 法透过目前主流软件工具,在合理时间内达到撷取、 管理、处理、并整理成为帮助企业经营决策更积极目 的的资讯。
【推荐】大数据与统计学培训课件
【推荐】大数据与统计学培训课件
❖ 数据的产生: 数的产生基于以下三个要素,一是数,二是量,
三是计量单位。 数起源于人类祖先对“多”或“少”的认识,阿
拉伯数字的产生实现了数的抽象性和可计算性。 数的概念及数的基本逻辑关系形成以后,人们将
数的神秘性作为探寻与研究的目标之一,不断建立起 更加完备的、抽象的数的体系。
❖ 第四,大数据中有很多小数据问题,这些问题并不 会随着数据的增加而消失,反而可能更严重。
【推荐】大数据与统计学培训课件
【推荐】大数据与统计学培训课件
二、数据的变化与统计分析方法的发展
(一)数据的变化
❖ 回顾历史可以发现,数据的变化与统计分析方法的 发展呈现高度吻合的关系。有一种观点认为,数据 的变化过程可以分为三大阶段:数据的产生、科学 数据的形成和大数据的诞生。
❖ 其次,大数据是动态的,具有阶段性特征,同样的 关联词在不同时段可能具有不同的含义,围绕关联 词的话题会随着时间的推移而会发生某些偏离,从 而导致有偏的结论。
❖ 第三,对于我们所关心的研究主题,可能会受到大 量没有实际意义、实际内容甚至虚假信息的干扰, 让我们面对一堆数据无从下手,大数据变成了大迷 惑,甚至变成了大错误。
❖ 4V特点:Volume、Velocity、Variety、Value。
❖ 大数据自古有之?
❖ 人类曾经开展过的人口普查、产业普查等数据,是否 属于大数据?
❖ 在计算机技术与网络化未得到充分发展以前,人们自 然难以联想出大数据这个概念。
❖ 从统计学的角度看,大数据不是主要基于人工设计而 获得有限、固定、不连续、不可扩充的结构型数据, 而是主要基于现代信息技术与工具自动记录、储存、 能连续扩充、大大超出传统统计记录与储存能力的一 切类型的数据,最大特征是数字化基础上的数据化。
【推荐】大数据与统计学培训课件
【推荐】大数据与统计学培训课件
❖ 科学数据的形成: 科学数据的形成得益于对数据的科学研究,是在科
以数为基础,测量、计量和比较事物就有了精确 表达的语言,这在实践中就表现为量,它是客观事物 所具有的能体现差异程度的一种属性,是事物可以用 数来表现的规定性,包括量的规模、量的关系、量的 变化、量的界限与量的规律。
在以数来表示事物的特征并采用了科学的计量单 位后,就产生了真正意义上的数据——有根据的数。
大数据与统计学
浙江工商大学 李金昌
❖ 引言
❖Байду номын сангаас
作为归纳分析的科学,统计学可以从亚里士多德的“城邦
政情”算起,但作为一门数据分析的科学则应从配第的《政治
算术》算起。
300多年来,统计学围绕如何收集、整理和分析数据这一主 线而发展,构建起了庞大、多元、融合的应用方法体系,帮助 解决了各个领域大量复杂的现实问题。
统计学的发展,是根据数据的型态和问题的本质来改变的, 不是因为我们会做他背后的数学而发展的。不要因为(统计的) 问题困难而去做它;也不要因为它难而不做。(贺吉士 J.L.Hodges, 1922-2000)
R.C. Rao:统计的分析形式随时代的推移而变化着,但是 “从数据中提取一切信息”或者 “归纳和揭示”作为统计分析 的目的却一直没有改变。
❖ 基于数据的分类,储存数据与管理的方式——数据库 也有两种类型:关系型数据库(SQL接口)和非关系 型数据库(NOSQL接口)。
【推荐】大数据与统计学培训课件
【推荐】大数据与统计学培训课件
(三)大数据是不是好数据?
❖ 首先,大数据不会自动产生好的分析结果,不会自 动把隐藏其中的秘密呈现出来,如果数据不完整、 取舍不当或遭受破坏,那么就会产生错误的结论。
❖ 大数据除了结构型数据与非结构型数据的分类外, 还可作以下分类:
【推荐】大数据与统计学培训课件
❖ 如果从大数据产生的途径或渠道来看,大数据可以分 为社交网络数据、人机交换数据和感应数据(机器数 据)。
❖ 如果从功能上看,大数据可以分为交易型数据、流程 型数据和交互型数据。
❖ 需要特别指出的是,网络数据在大数据中占有特殊的 份量,又可分为自媒体数据、日志数据和富媒体数据 三类。从时间维度上,还可以把网络大数据分为以用 户数据、日志数据为代表的历史数据,以及以视频监 控数据和流媒体数据等为代表的流式数据,其中历史 数据蕴含着大量有价值的信息。
大数据时代的来临,迫使统计学站在一个新的起点上。
❖ 1998年,《科学》杂志刊登的一篇介绍计算机软 件HiQ的文章《大数据的处理程序》中第一次正式使 用了大数据(big data)一词。2008年9月《自然》 杂志出版“big data”专刊。
❖ 最近几年,关于大数据的文献迅速增加,但绝大 多数出于计算机领域的学者之手,较少有基于统计学 视角的深度学术讨论。
(二)如何理解大数据的“数据”
❖ 历史告诉我们,数据的含义是随着人类认识社会与 自然现象的视野的变化、以及认识能力与技术水平 的提升而改变的,经历了从传统运算型数据到现代 数字化数据的变化过程。
❖ 把一切信息都看成数据是当今社会的一个特征,是 一个自然进化的结果。大数据中的数据其实就是一 切可以通过数字化手段记录的信息。
相关文档
最新文档