从政治算术到大数据分析_李金昌

合集下载

我国统计调查体系改革刻不容缓

我国统计调查体系改革刻不容缓

我国统计调查体系改革刻不容缓
李金昌
【期刊名称】《统计研究》
【年(卷),期】2007(24)12
【摘要】统计调查体系改革是我国统计改革的主要组成部分之一,在20余年的改革进程中,受到了广大统计理论研究者和实际工作者的高度重视。

应该说,经过大家的共同努力,我国统计调查体系改革的力度是很大的,有些方面也取得了重要的进展,但总感觉还没有达到预期的目的,因此本文想就此再谈点个人的看法。

【总页数】3页(P52-54)
【作者】李金昌
【作者单位】浙江工商大学
【正文语种】中文
【中图分类】C8
【相关文献】
1.我国政府统计调查体系改革问题分析 [J], 胡青
2.对我国统计调查方法体系改革的回顾与展望 [J], 李金昌
3.对我国农村统计调查体系改革的几点设想 [J], 余明珍;王正双
4.当前我国统计调查体系改革形式分析 [J], 董碧玲
5.我国政府统计调查体系改革研究述评 [J], 王忠辉;王艳明;袁靖
因版权原因,仅展示原文概要,查看原文内容请购买。

统计测度_统计学迈向数据科学的基础_李金昌

统计测度_统计学迈向数据科学的基础_李金昌

第32卷第8期2015年8月统计研究Statistical Research Vol.32,No.8Aug.2015统计测度:统计学迈向数据科学的基础*李金昌内容提要:本文从大数据的背景出发,对统计测度问题进行了理论探讨。

论文基于有关文献资料,首先对统计测度的含义和分类进行了初步的讨论,然后分别从三个方面论述了统计测度既是统计学的立足之本、也是数据科学的基础这一基本观点,最后就如何创新和完善统计测度方法提出了一些看法。

关键词:统计测度;统计学;大数据;数据科学中图分类号:C812文献标识码:A文章编号:1002-4565(2015)08-0003-07Statistical Measurement as Foundation :From Statistics to Data ScienceLi JinchangAbstract :This paper ,against the backdrop of big data ,offers a theoretical discussion of the problem of statistical measurement.Based on relative literature ,it first probes the definition and categorization of statistical measurement ;it then argues from three perspectives that statistical measurement lays foundation for not only statistics but also data science ;finally ,it presents outlooks on how to improve and innovate methods of statistical measurement.Key words :Statistical Measurement ;Statistics ;Big Data ;Data Science*本文为浙江省高校人文社科重点研究基地(统计学)和浙江省2011协同创新中心(现代商贸流通体系建设协同创新中心)的成果之一。

如何正确测算我国居民收入基尼系数

如何正确测算我国居民收入基尼系数

如何正确测算我国居民收入基尼系数
洪兴建;李金昌
【期刊名称】《南开经济研究》
【年(卷),期】2005(000)004
【摘要】反映我国居民收入差距的基尼系数的值众说纷纭,至今没有权威的说法.为了科学客观地判断我国居民收入差距的程度,正确测算基尼系数刻不容缓,规范测算方法和程序是非常必要的.本文主要从五个方面阐述了对这一问题的看法:一、应该以国家统计部门的数据作为测算基尼系数的基础;二、计算基尼系数应首选离散方法;三、数据分组对真实基尼系数的影响不容忽视;四、应以家庭为单位的人均收入作为计算基尼系数的对象;五、要针对具体的抽样方法选择总体基尼系数的估计量形式.
【总页数】5页(P53-57)
【作者】洪兴建;李金昌
【作者单位】浙江工商大学统计学院讲师;厦门大学经济学院博士生;经济学博士、教授、博士生导师
【正文语种】中文
【中图分类】F2
【相关文献】
1.甘肃省居民收入分配基尼系数的测算和回归分析 [J], 曹子坚;何红梅;魏巍
2.对我国居民收入分配基尼系数的分析与思考--以我国2003-2012年基尼系数为
例 [J], 王琪
3.省域居民收入基尼系数测算及其变动趋势分析 [J], 田卫民
4.从基尼系数的测算看我国居民收入状况 [J], 夏华
5.居民收入样本分组数与基尼系数测算的关系探讨 [J], 陈建东;戴岱;冯瑛
因版权原因,仅展示原文概要,查看原文内容请购买。

统计学(李金昌) 第一章 总论

统计学(李金昌)  第一章  总论

结论:
不如叫“玉泉”或“娃哈哈”吧!
1
绪论
2 统计数据的搜集、整理与显示
3
变量分布特征的描述
4 5
抽样估计 假设检验
6
方差分析
7
相关回归分析
8
时间序列分析
9
统计指数
[主要参考教材]
⒈ 《统计学》 袁卫 庞 皓 曾五一 主编
高等教育出版社2000 年10月印刷
⒉ 《统计学》陈珍珍 主 编 罗乐勤 副主编 黄 良文 主审
原始数据
次级数据 人们对统计 数据的要求
直接从各调查单位搜集的用来 反映个体特征的数据资料
由原始数据加工得到的在一定 程度上能反映总体特征的数据 资料
客观性、准确性、及时性
[统计的涵义之二]
统计活动
即统计实践活动,是对社会经济现象 的数量方面进行搜集、整理和分析的 全过程
政府统计:国家统计局、职能部门
统计是以现象的数量方面为研究对象,收集数据、整理 数据、分析数据,用以揭示现象包含规律性的行为。
• 如果你打算去美国留学,你会查询 Barron’s Profile of American College,在”波士顿大学”这一栏中,你 会看到申请者的SAT语言考试的平均成绩是550 分,SAT数学考试的平均成绩600分,这些数字是什么意 思?什么是平均成绩?如果你的成绩低于年平均成绩,你 应该申请波士顿大学吗?
• 2011年3月1日,利用“google”引擎对互联网 上有关网页进行搜索,得到的结果是:包含 “统 计”这一词汇的网页高达213,000,000项,包 含“股票”这一词汇的网页有43,700,000项, 前者是后者的近5倍。
统计—无处不在
开篇案例

李金昌《统计学》(最新版)精品课件第九章 统计指数分析

李金昌《统计学》(最新版)精品课件第九章   统计指数分析
statistics第一节统计指数的基本问题第二节综合指数第三节平均指数第四节平均指标指数第五节统计指数体系与因素分析第九章统计指数分析statistics第一节统计指数的基本问题?一统计指数的含义?二统计指数的主要作用?三统计指数的主要分类?四统计指数的性质statistics统计指数简称指数起源于对物价变动的研究
Statistics
(一)统计指数按所考察的范围不同,可以分为个体指 数与总指数 (二)统计指数按指数化指标的性质不同,可以分为数 量指标指数与质量指标指数 (三)统计指数按对比的性质不同,可以分为动态指数 与静态指数
Statistics
统计指数具有以下一些性质: 一是综合性,即统计指数是综合反映由多事物或多项 目组成的复杂现象总体某一方面数量的总变动方向和 程度的相对数,是对多事物或多项目数量变动综合反 映的结果。 二是平均性,即统计指数所反映的综合变动实际上是 多事物或多项目某一数量的平均变动,是各事物或各 项目某一数量变动的平均结果。
pq pq
1 0
Statistics
第三节 平均指数
• 一、平均指数的概念及特点 • 二、平均指数的基本形式 • 三、平均指数的应用
Statistics
平均指数是计算总指数的另一种形式,是个体指数的 加权平均数。它具体又分为加权算术平均指数和加权 调和平均指数两种。需要指出的是,平均指数是与综 合指数并列的,是由于编制总指数的资料条件不同而 采用的一种方式,并不是对平均数求指数,那是平均 指标指数所要讨论的内容。从某种意义上说,平均指 数是综合指数的变形和发展。
1 1 0 1
Statistics
(三)费暄的理想指数 所谓费歇理想指数就是以拉氏指数与派氏指数的几何 平均数来编制综合指数的一种形式,由美国经济学家 沃尔什(C.M.Walsh)和皮古(Pigou)先后于1901年和 1912年提出,由美国统计学家费暄(I.Fisher)于 1927年进行了系统总结。其编制公式为: 数量指标指数: q p q p

大数据分析师如何进行政府数据分析和公共政策

大数据分析师如何进行政府数据分析和公共政策

大数据分析师如何进行政府数据分析和公共政策在当今数字化时代的到来下,大数据分析已经成为政府决策制定和公共政策执行的重要工具之一。

大数据分析师在政府部门发挥着不可或缺的作用,通过对海量数据的挖掘和分析,为政府提供有力的决策支持,帮助政府更加高效地制定和执行公共政策。

下面将介绍大数据分析师在进行政府数据分析和公共政策方面的主要方法和步骤。

一、政府数据分析的主要方法政府数据分析是指通过获取、整理和分析政府部门收集到的各类数据,得到有价值的信息,为政府决策和政策评估提供科学依据的过程。

大数据分析师在进行政府数据分析时,通常采用以下主要方法:1. 数据收集和整合:大数据分析师需要收集来自不同部门和渠道的数据,包括统计数据、调查数据、社交媒体数据等。

然后通过数据整合的技术手段,将这些数据进行整合和标准化,确保数据的一致性和可用性。

2. 数据清洗和预处理:在进行数据分析之前,大数据分析师需要对数据进行清洗和预处理。

包括去除重复数据、处理缺失值和异常值,以及对数据进行转换和归一化等操作,以提高数据的质量和准确性。

3. 数据挖掘和分析:在数据预处理完成后,大数据分析师可以利用数据挖掘和机器学习等技术,对数据进行深度挖掘和分析。

通过建立模型和算法,发现数据中的隐藏规律和关联关系,从而提取有价值的信息和洞察,并应用于政府决策和公共政策领域。

4. 可视化和呈现:将分析结果以可视化的方式呈现给决策者和政策执行者,是大数据分析师的重要任务之一。

通过图表、报表和可视化工具等方式,将复杂的数据分析结果转化为易于理解和使用的形式,提高决策者对政府数据分析的接受度和使用效果。

二、公共政策的数据分析步骤公共政策的制定和执行需要充分考虑社会、经济和环境等多方面的因素,而大数据分析师扮演着发掘数据背后规律并提供支持的重要角色。

以下是大数据分析师在进行公共政策数据分析时的主要步骤:1. 定义政策目标和关键问题:在进行公共政策数据分析之前,首先需要明确政策的目标和关键问题。

基于大数据思维的统计学若干理论问题

基于大数据思维的统计学若干理论问题

基于大数据思维的统计学若干理论问题
李金昌
【期刊名称】《统计研究》
【年(卷),期】2016(33)11
【摘要】本文基于大数据思维,对统计学若干理论问题进行了讨论.本文认为:在大数据背景下,统计学以数据为研究对象没有变,作为方法论科学的性质没有变,以探索真相为根本任务没有变;但是作为统计学研究对象的数据出现了四个新的动向,即数据内涵有新理解,数据结构与来源有新方式,数据不确定性有新表现,数据分析思路与技术有新要求;为此,需要重新理解和定义总体、个体与样本,标志与变量,可靠性与有效性这三组统计学中最基本也最重要的概念.最后本文指出,大数据为统计学发展提供了新的平台,需要我们从数据、方法和应用三个维度同时发力.
【总页数】8页(P3-10)
【作者】李金昌
【作者单位】浙江财经大学党委
【正文语种】中文
【中图分类】C829.2
【相关文献】
1.关于统计学科若干理论问题的系统分析 [J], 周民
2.教育统计学中的若干理论问题 [J], 任训学
3.环境统计学若干理论问题的研究 [J], 郭秀云
4.对统计学若干理论问题的再认识 [J],
5.对统计学若干理论问题的再认识──兼论“通用统计学”观点 [J], 符立志
因版权原因,仅展示原文概要,查看原文内容请购买。

李金昌统计学第四版复习

李金昌统计学第四版复习

此为整本书的复习资料,若应对期末考试,则不再考试范围内的请自动忽略。

第一章:总论统计含义:统计数据、统计活动、统计学统计学:关于如何搜集、整理和分析统计数据的科学。

古典统计学时期国势学派——德国政治算术学派——英国统计学发展历程近代统计学时期社会统计学派——德国数理统计学派——比利时现代统计学时期:推断统计统计学研究对象:现象的数量方面—统计数据定性数据定类数据计量尺度定序数据定量数据定距数据统计数据定比数据表现形式:绝对数、相对数、平均数来源:观测数据、实验数据加工程度:原始数据、次级数据时空状态:时序数据、截面数据总体:统计研究的客观对象全体,也称母体。

特征:大量性、同质性、差异性个体数量:有限/无限总体存在形态:具体/形象总体总体分类:个体计数:可计数/不可计数总体人为判定个体:自然/人为总体个体:组成总体的个别事物,也称总体单位。

总体与个体关系:1.总体随个体数量可变大变小;2.研究目的不同,总体中个体可改变;3.研究范围不同,总体和个体角色可变换。

样本:从总体中抽取一部分个体所组成的集合,也称字样。

其不具唯一性,除非其实总体本身。

样本数:总体中最多可抽取的不同样本数量。

样本与总体关系:1.总体是研究对象,样本是观测对象,样本是总体的代表和缩影;2.样本用来推断总体:观测样本的目的是对总体数量特征作出判断。

3.总体和样本角色可改变标志:描述或体现个体特征的名称,标志在每个不同个体的结果为标志变形表示方式品质标志:表明个体属性特征数量标志:表明个体数量特征表现结果是否相同不变标志:每个个体上表现完全相同分类可变标志:每个个体上表现不同表现个体直接程度直接标志(第一标志):直接表明个体属性或数量特征间接标志(第二标志):两个或两个以上标志计算后(通常对比)变量:狭义:可变的数量标志;变量是可变数量标志的抽象化;变量的具体数值—变量值(标志值)。

广义:可变标志(可变数量/品质标志)。

定性变量定类变量定序变量定量变量定距变量变量分类定比变量所受影响因素确定性变量随机性变量是否连续离散型变量(只能取整)连续性变量(随意取)统计指标:简称指标,是反映现象总体数量特征的概念及其数值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第31卷第11期2014年11月统计研究Statistical Research Vol.31,No.11Nov.2014从政治算术到大数据分析*李金昌内容提要:本文首先对大数据进行了再认识,包括如何理解大数据的“大”、如何理解大数据的“数据”以及大数据是不是好数据;然后对数据的变化与统计分析方法的发展进行了较为系统的历史梳理,对两者的关系进行了总结;最后探讨了统计学的新发展———大数据分析问题,认为大数据分析是数据科学赋予统计学的新任务,指出了大数据分析面临的挑战与突破口,提出了大数据分析需要达成的共识。

关键词:大数据;统计学;统计分析方法;数据科学中图分类号:C812文献标识码:A文章编号:1002-4565(2014)11-0003-12From Political Arithmetic to Big Data AnalysisLi JinchangAbstract :This paper reconstructs the understanding of big data ,including how “big ”the data are ,what “data ”can mean and whether big data are good data.It summarizes systematically the history of and the relationship between the changing conception of data and the developing method of statistical analysis.It also discusses the new development of statistics as a discipline :big data analysis.It considers big data analysis as the new mission that data science has given to statistics ,suggests the challenges that big data analysis faces and its breakthrough points ,and proposes the common ground for researchers engaged in big data analysis.Key words :Big data ;Statistics ;Methodology of statistical analysis ;data science*本文为浙江省高校人文社科重点研究基地(统计学)、浙江省“2011协同创新中心”(现代商贸流通体系建设协同创新中心)的成果之一,并为第十五次全国中青年统计科学研讨会特邀论文。

①本文关于大数据的很多认识参考了大量的文献资料,难以一一列出,在此一并致谢!作为以归纳分析为主的学科,统计学可以从亚里士多德的“城邦政情”算起,但作为一门数据分析的学科则应从配第的《政治算术》算起。

300多年来,统计学围绕如何收集、整理和分析数据这一主线而发展,构建起了庞大、多元、融合的应用方法体系。

在这一过程中,“数据”始终是统计学的研究对象,为了得到它、认识它、剖析它和利用它,统计学家们可谓历经苦难,并取得了令人欣慰的伟大成就。

不过,统计学不可能停止前进的步伐,因为“数据”还有太多未解之谜,并且还在不断增加新的谜面,尤其是随着大数据时代的来临数据含义不断拓展数据来源不断增加,迫使统计学站在一个新的起点上。

1998年,《科学》杂志刊登的一篇介绍计算机软件HiQ 的文章《大数据的处理程序》(A Handler for Big Data )第一次正式使用了大数据(big data )一词。

2008年9月《自然》杂志出版“big data ”专刊,使“大数据”一词在学术界得到了广泛认可和使用(杨绎,2012年)[1]。

最近几年,关于大数据的文献迅速增加,但是绝大多数出自于计算机领域的学者之手,讨论的内容除了大数据的内涵与特点、发展趋势与应用前景外,主要集中在计算技术(算法)和商业应用等方面,很少有基于统计学视角的深度学术讨论,这对于以数据为研究对象的统计学来说多少有些尴尬。

好在自去年以来,我国统计学领域和政府统计机构开展了一系列探讨大数据的活动,掀开了研究与应用大数据的新篇章。

但这只是一个开端,在面临机遇的同时也面临着挑战,需要我们在大数据的热潮中理性、科学地开展大数据研究,推进统计学科取得新的重大发展。

一、对大数据的再认识①最早与大数据概念有关的学科应该是天文学、·4·统计研究2014年11月气象学和基因学,它们从诞生之日起就依赖于海量数据分析方法。

从现代意义上看,大数据可以说是计算机与互联网相结合的产物,前者实现了数据的数字化,后者实现了数据的网络化,两者结合赋予了大数据新的含义。

因此,对于什么是大数据,多数人目前可能只有一个朦胧的感觉,每个人都可以基于某个视角或者某个领域给出自己的解释,而与大数据有关的领域既包括学术领域也包括应用领域(特别是商业领域),既包括计算机、统计学、数学领域也包括经济学、管理学领域,既包括社会现象也包括自然现象,要想在短时间内给出能被普遍接受的大数据定义是不可能的。

大数据概念之所以在近两年被正式提出并迅速产生全球性的影响,显然有其时代特征,关键点就在于基于现代信息技术的信息记录与储存能力的极大突破、以及各类电子化信息的膨胀式增长。

其实大数据自古有之,几千年来人类各种行为所产生的丰富多彩、客观存在的信息就是大数据,只是没有得到及时完整的记录与储存而已,并且记录与储存的方式也比较单一———少量的官方记录数据以及史记形式的描述,数据规模较小,数据类型较少,准确性也因方法技术落后而比较差。

毫无疑问,人类曾经开展过的人口普查、产业普查等活动产生的数据,当然属于大数据,但它们是一次性的、不可扩充的,并且普查的内容(指标)有选择、受限制,数据的类型也仅仅是结构化的数据。

因此,在计算机技术与网络化未得到充分发展以前,实际可知、可存、可用的数据资源总体上看仍然非常有限,人们自然难以联想出大数据这个概念。

但随着可记录、可储存、可利用的数据类型与容量井喷式的增加,以及数据记录与储存能力几何式的增长,大数据概念的提出也就不足为奇了。

当然,如今的大数据与以往的大数据具有不同的含义。

一定程度上看,大数据并不是一个严格的概念,而是一个比喻式的称呼。

我曾在“大数据与统计新思维”一文中提出对大数据的初步认识,并基于统计学视角给出了这样一个定义:大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据(李金昌,2014年)[2]。

这一表述还比较笼统,有必要对大数据进行再认识。

(一)如何理解大数据的“大”有人说,大就是多,大数据就是很多很多数据,多得超乎想象的数据。

这种理解是朴素的、直观的,相对于政治算术时期只能获得少量的登记数据或调查数据,情况确实如此。

但这种理解不够科学,因为它没有回答多到什么程度的数据才是大数据。

我认为,大数据的“大”具有多个层面的意思,可以从以下三个角度来理解。

一是“全体”的意思,即大数据就是一定条件下的全体数据,并且数据量必须达到一定的规模。

例如,我们借助现代信息技术手段把每一场足球比赛的所有信息(包括控球人与控球时间、足球运行线路,射门落点等)记录下来,就可以看作是大数据。

把某位网球运动员每一场比赛的每一个发球落点都记录下来,积累到一定量以后就形成一张球场发球落点分布图,这也可以理解为大数据。

二是“可扩充”的意思,即大数据就是可以不断扩充容量的数据,任何数据一旦发生就可以被记录、被吸收、被储存,理解这一点非常重要。

例如,该网球运动员每增加一次比赛,就可以在球场发球落点分布图上增加新的落点,如此不断扩充、不断增加落点分布数据。

这是传统的数据收集方法无法做到的。

正因为数据容量可扩充,才会出现超出传统储存能力的大数据,现代信息技术的快速发展正在接受和储存所有产生的数据,这种数据产生与接受的“大”都是在“可扩充”中完成的。

三是“有待挖掘”的意思,即大数据就是有待挖掘的数据。

数据就是信息,信息就有价值,但容易发现的信息通常没有什么价值,而具有价值的信息通常难以被轻易发现。

显然,大数据可能包含丰富的、具有大价值的信息,但由于被超大量的数据所掩盖、所分散而导致价值密度低,只有挖掘才能发现。

如果说我们以往有意收集有限的样本数据的过程就是信息价值的利用过程,那么大数据只有在挖掘以后才可能发现其信息价值所在。

例如,我们根据该运动员所有比赛的发球落点分布图(即发球落点大数据),可以通过计算球场各网格区域的落点频率而挖掘出其落点分布规律,数据量越大,分布规律越稳定。

以此为基础,还可以进一步挖掘出发球落点与发球速度的关系,甚至气温、湿度、场地类型等与发球落点的关系。

这就是信息价值所在。

据此,自我第31卷第11期李金昌:从政治算术到大数据分析·5·一方可以提高有效的发球落点概率,而对手一方可以提高有效的回球概率,谁利用谁得利,这就是有待挖掘的信息价值。

在大数据的所谓“5V”特征中(也有人说“V4”),最能体现其“大”的特征恰恰就是那个最容易被忽略的第五个特征“Value”。

不难发现,信息价值的挖掘需要数据的不断叠加,其结果就形成了大数据。

(二)如何理解大数据的“数据”与传统数据相比,大数据中的数据含义非常宽泛,更侧重于信息的意义。

历史告诉我们,数据的含义是随着人类认识社会与自然现象的视野的变化、以及认识能力与技术水平的提升而改变的,经历了从传统运算型数据到现代数字化数据的变化过程。

把一切信息都看成数据是当今社会的一个特征,是一个自然进化的结果。

大数据中的数据其实就是一切可以通过数字化手段记录的信息。

目前,多数人从结构化数据、半结构化数据和非结构化数据的分类中来理解大数据中的数据,但这仅仅是基于数据表现结果或储存形态的一个视角。

如果从大数据产生的途径或渠道来看,我们认为它又可以分为以下三类数据:一是人与人交往产生的社交网络数据,反映的是社会行为者基于互联网(通过文本、图像、动画、音频或视频等媒体)所产生的关联与交换信息,与人们的行为、意识等有关,例如分享信息、讨论工作、给予情感支持或提供友谊等;二是通过人机对话所产生的人机交换数据(也是网络数据),反映的是人与计算机之间传递和交换的信息,主要依靠可输入输出的外部设备和相应的软件来完成;三是物与物对接的感应数据和机器数据,反映的是由感应器或机器自身记录的有关机器运行的信息,例如飞机黑匣子、汽车仪表盘、车间监测器、产品检测仪、空气感应器等所记录的数据。

相关文档
最新文档