第二章 统计学统计数据的收集

合集下载

《统计学》课件-第二章统计数据的搜集和整理

《统计学》课件-第二章统计数据的搜集和整理
的单位,而调查单位可以是个人、企事业单位,也 。 调查对象:全省所有的乡镇企业, 调查单位:每个乡镇企业, 填报单位:每个乡镇企业。
例2:调查目的是为了掌握全国炼钢设备情况。 调查对象:全国所有炼钢设备, 调查单位:每台炼钢设备, 填报单位:具有炼钢设备的每个冶金企业。
调查时间有两种涵义,即调查资料所属时 间和调查工作期限。
调查时间是指调查资料所属的时间 :
时点现象 ─ 规定标准时刻, 时期现象 ─ 规定现象的起止时间。
调查期限是进行调查工作的时限,包括搜集资料和报送 资料的工作所需的时间,应尽可能缩短。
6.确定调查的组织实施计划
2021/3/18
二、统计数据的搜集方法 (一)直接观察法 (二)报告法(通讯法) (三)采访法 (四)登记法 (五)实验设计调查法 (六)其它方法:如网络、卫星遥感法、
GIS等
2021/3/18
(一)直接观察法(概念要点)
1. 就调查对象的行动和 意识,调查人员边观察边 记录以收集所需信息
2. 调查人员不是强行介 入
3. 能够在被调查者不察 觉的情况下获得资料
2021/3/18
(二)报告法(概念要点)
1. 也称通讯法调查,是一种标准化调查。 2. 调查者与被调查者没有直接的语言交流,信息的传递依赖
2021/3/18
个别深度访问(概念要点)
1. 一次只有一名受访者参加、针 对特殊问题的调查
2. 适合于较隐秘的问题,如个人 隐私问题;或较敏感的问题, 如政治方面的问题
3. 侧重于定性研究
2021/3/18
电话调查(概念要点)
1. 调查者利用电话与被调查者进 行语言交流以获得信息
2. 时效快、成本低 3. 问题的数量不宜过多

第2章统计数据的搜集与整理精品PPT课件

第2章统计数据的搜集与整理精品PPT课件

▪ 优点:应用范围广、结果正确、直接
▪ 缺点:成本高、研究时间长。
统计学
2-15
统计调查的组织方式
►统计报表
▪ 依据国家统计局或国家各行政管理的规定,自上而下 地统一布置,以一定的原始记录为依据,按照统一的 表式、指标、时间和程序自下而上地逐级提供基本统 计资料的调查方式。
►专门调查
▪ 普查
▪ 抽样调查
▪ 重点调查
►重点单位是指在全体中虽然数目不多,所占比不 大,但调查标志值却占较大比重。
▪ 典型调查
►有意识地选择有典型意义或具有代表性的单位。
统计学
2-16
统计报表
►是我国定期搜集基本统计资料的一种重要形式。 ►特点
▪ 来源于基层单位的原始记录 ▪ 项目稳定,有利于资料积累和动态比较
►种类
▪ 国家、部门和地方统计报表 ▪ 全面统计报表和非全面统计报表 ▪ 定期报表和年报 ▪ 基层表表和综合报表 ▪ 电讯报表和书面报表
►统计调查方法
▪ 现场观察法、报告法、问卷法、访谈法、实验 采集法等。
►统计调查的组织方式
▪ 统计报表 ▪ 专门调查
统计学
2-12
抽样调查方案
►确定调查目的(为什么调查) ►确定调查对象和调查单位
▪ 有许多性质相同的调查单位组成的现象总体。 ▪ 调查单位:所要研究的个体。
►确定调查项目:调查中所要调查单位的特征。 ►设计调查表与问卷设计 ►选择调查方法 ►确定调查时间和调查期限 ►制定调查的组织实施计划
统计学
2-13
统计调查方法
► 现场观察法
▪ 带有明确的目的到现场,直接观察获得数据信息。 ▪ 优点:准确;缺点:成本大
► 报告法(通讯法)

统计学第二章 统计数据的收集、整理与显示试题及答案

统计学第二章   统计数据的收集、整理与显示试题及答案

第二章统计数据的收集、整理与显示二、单项选择题1、人口普查的调查单位是(C )。

A、每一户B、所有的户C、每一个人D、所有的人2、对一批商品进行质量检验,最适宜采用的调查方法是(B )。

A、全面调查B、抽样调查C、典型调查D、重点调查3、下列调查中,调查单位与填报单位一致的是(D )。

A、企业设备调查B、人口普查C、农村耕畜调查D、工业企业生产经营现状调查4、抽样调查与重点调查的主要区别是(D )。

A、作用不同B、组织方式不同C、灵活程度不同D、选取调查单位的方法不同5、先对总体中的个体按主要标志加以分类,再以随机原则从各类中抽取一定的单位进行调查,这种抽样调查形式属于( D )。

A、简单随机抽样B、等距抽样C、整群抽样D、类型抽样6、对某省饮食业从业人员的健康状况进行调查,调查单位是该省饮食业的(D )。

A、全部网点B、每个网点C、所有从业人员D、每个从业人员7、调查时限是指(B )。

A、调查资料所属的时间B、进行调查工作的期限C、调查工作登记的时间D、调查资料的报送时间8、对某市全部商业企业职工的生活状况进行调查,调查对象是(B )。

A、该市全部商业企业B、该市全部商业企业的职工C、该市每一个商业企业D、该市商业企业的每一名职工9、作为一个调查单位(D )。

A、只能调查一个统计标志B、只能调查一个统计指标C、可以调查多个统计指标D、可以调查多个统计标志10、某市规定2018年工业经济活动成果年报呈报时间是2019年1月31日,则调查期限为( B )。

A、一天B、一个月C、一年D、一年零一个月11、统计分组对总体而言是( B )A、将总体区分为性质相同的若干部分B、将总体区分为性质不同的若干部分C、将总体单位区分为性质相同的若干部分D、将总体单位区分为性质不相同的若干部分12、按某一标志分组的结果表现为( B )A、组内差异性,组间同质性B、组内同质性,组间差异性C、组内同质性,组间同质性D、组内差异性,组间差异性13、设对某地区的人口按年龄分组如下:不满周岁,1—3岁,4—6岁,7—12岁,……60—64岁,65—79岁,80—99岁,100岁以上,最后一组的组中值近拟为( C )A、110岁B、104岁C、104.5岁D、105岁14、为充分利用所得到的原始资料以取得大量统计指标,在统计整理时关键是要( C )A、进行各种汇总B、进行各种计算C、充分利用分组法D、对原始资料进行分析15、按变量的性质和数据的多少划分,变量数列可分为( C )。

统计学 第二章 统计数据的搜集、整理和显示

统计学 第二章 统计数据的搜集、整理和显示

(二)实验方式
所谓实验方式,就是运用自然科学的试验 法,通过观测人为安排条件下试验产生的各种 结果并加以记录的方式来获取数据,或通过人 为安排条件下的试验来探求某个或某些因素对 所研究事物的数量影响程度和作用方式,凭借 实验结果来揭示所考察因素与所研究事物之间 的数量因果关系。
1、实验的原则
运用实验方式需要遵循下列两个原则:均衡分散
1、普查
普查是根据特定的统计研究目的而专门组织的 一次性的全面调查,用以收集所研究现象总体的全 面资料(即总体中的所有个体都是观测单位)。 普查的组织方式一般有两种:一是建立专门的 普查机构,配备一定数量的普查人员,对观测单位 直接进行登记。如我国历次的人口普查等。二是利 用观测单位的原始记录和核算资料,颁发调查表, 由观测单位按要求填报。如物资库存普查等。
重点调查的单位可以是一些企业、行业、 也可以是一些地区、城市。此种调查方式的优点是, 所投入的人力、物力少,而又较快地搜集到统计 信息资料。一般来讲,在调查任务只要求掌握基 本情况,而部分单位又能比较集中反映研究项目 和指标时,就可以采用重点调查。
在下列问题中为了得到数据,采用什么调查? • 为了买校服,了解每个学生衣服的尺寸。 • 商检人员在某超市检查出售的饮料的合格率。 • 对占全市工业总产值五分之一的六个大型企 业进行调查,以了解全市工业总产值的基本 情况。
观测性误差
数 据 收 集 误 差
也叫登记性误差或调查性误差,它 是在调查观测的各个环节因工作粗 心或被观测者不愿很好配合而造成 的所收集数据与实际情况不符的误 差,包括计量错误、记录错误、计 算错误、抄写错误、汇总错误、计 算机输入误差等工作误差,以及被 调查者不愿或难以提供真实情况的 误差,有时还存在调查人员弄虚作 假的误差和各种人为因素干扰的误 差。 这部分误差通常是人为造成的,通 过对统计调查资料的严密审核,是 可以发现并加以更正的。观测性误 差则可能存在于任何统计调查。 因样本不能完全代表总体而产生 的估计结果与总体真实数量特征 不符的误差。根据样本不能完全 代表总体的原因不同,代表性误 差又分为系统性代表性误差和偶 然性代表性误差两种。

统计数据的收集与整理资料重点

统计数据的收集与整理资料重点

第一次人口普查: 1953年6月,普查项目有:与户主关系、姓名、性别、 年龄、民族,以及本住址等6项。目的:为准备全国及地方人大会选举,做 好选民登记工作,并为国家的经济、文化建设提供确实的人口数字。
第二次人口普查: 1964年6月,普查项目有:除保留第一次普查的六个 项目外,新增了文化程度、本人成分、职业三项。目的是为了制定第三个 五年计划(1966-1970年)和长远规划提供依据。
缺点:访谈成本大,匿名性差,访谈结果与访 谈人员的素质、能力及其现场表现直接相关。 (五)实验采集法
优点:可以取得较为正确的原始资料; 缺点:成本高、研究时间长。
四、统计调查方案的设计
(一)确定调查目的 (二)确定调查对象和调查单位 (三)确定调查项目 (四)确定调查时间 (五)制定调查的组织实施计划 (六)选择调查方法
6.尊重隐私权。有利于客观性原则实现。
二、统计调查种类
统计调查可以从不同角度进行分类。 •(一)统计报表制度和专门调查 •(二)全面调查和非全面调查 •(三)经常性调查和一次性调查
三、统计调查方法
(一)直接观察法 优点:能够保证所收集资料的准确性; 缺点:观察成本较大(耗用人力、物力、财力、
时间等较大),由于观察者认识事物的能力不同,并带 有主观见解,其结果往往因人而异。 (二)报告法
第二章 统计数据的搜集
第一节 统计数据搜集的基本问题
1. 统计数据搜集的概念 – 根据统计研究预定的目的和任务,运 用科学的方法与手段,有计划、有组 织地向客观实际采集数据的过程。
2. 统计数据来源: – 原始资料(第一手资料); – 次级资料(第二手资料)
数据分类
原始 资料
数 据
次级 资料
1、统计调查 2、科学试验

西南财经大学向蓉美、王青华《统计学》第三版——第2章:统计数据的收集、整理与显示

西南财经大学向蓉美、王青华《统计学》第三版——第2章:统计数据的收集、整理与显示

– 调查内容详细、提供重要国情国力资料、数 据的规范化程度较高
提供抽样框

– 特别注意

• 必须规定标准时间 • 在规定时间内统一进行
• 基本内容和指标解释统一并相对稳定
• 需要PPT配套视频,请加VX:1033604968 11
Statistics
2.统计报表 –概念 • 按照国家有关法规的规定、自上而下地统一 布置、自下而上地逐级提供基本统计数据。 –特点 • 全面性、稳定性、连续性、可比性 • 曾经是我国数据收集的主要方式 • 耗费大、数据质量差等等。
3
Statistics
§2.1.2 统计调查方案
调查方案的内容

调查
调查

对象
项目


调查
和调

单位
查表

4
Statistics
1.确定调查目的
调查要达到的具体目标 回答“为什么调查?” 调查之前必须明确
5
Statistics
2.确定调查对象和调查单位
调查对象:调查研究的总体或调查范围 调查单位:需要对之进行调查的单位。可以是调查
12
Statistics
第二次全国经济普查的标准时点是2008年12月31日,时
期资料为2008年度。
第六次quanguo人口普查
主要目的:人口普查是一项重大的国情国力调查。组织开
展第六次全国人口普查,将查清十年来我国人口在数量、结构、
分布和居住环境等方面的变化情况,为科学制定国民经济和社
会发展规划,统筹安排人民的物质和文化生活,实现可持续发
重点单位——标志值在总体标志总量中占有 较大比重的单位

统计学第二章


一、统计数据的类型和来源
1. 统计调查概述
(1)统计调查的定义和意义。 ①统计调查的定义。统计调查是按照统计任务的要求, 运用科学的调查方法,有计划、有组织地向社会实际收集各项 资料的过程。统计资料的收集内容有两方面:一是直接收集反 映被调查者的个体原始资料(又称初级资料);二是根据研究 的目的,收集已经加工、整理出来的,说明现象总体的第二手 资料(又称次级资料)。由于第二手资料来源于原始资料,因 而,统计调查的基本任务是收集社会经济现象的原始资料。
前两类数据也称定性数据或品质数据,后两类数据也称 定量数据或数量数据。
一、统计数据的类型和来源
二、 统计数据的直接来源
统计数据的直接来源主要有两个:一是专门组织 的调查,二是科学试验。专门调查有统计部门进行的 统计调查,也有其他部门或机构为特定目的而进行的 调查,如新产品投放市场前所做的市场调查。专门调 查是取得社会经济数据的重要手段,而科学试验是取 得自然科学数据的主要手段。
一、统计数据的类型和来源
(1)定类尺度。定类尺度也称类别尺度或列名尺度, 是最粗略、最低层次的计量尺度。这种计量尺度只能按照事 物的某种属性对其进行平行的分类或分组。
(2)定序尺度。定序尺度又称顺序尺度,是对客观现 象之间等级差别或顺序差别的一种测度。这种计量尺度不仅 可以将客观现象分成不同的类别,还可以确定这些类别的优 劣或顺序。
一、统计数据的类型和来源
(3)定距数据。定距数据也称区间类别数据,说明的是 事物的数量特征,能够用数值表示。其结果是由定距尺度计量 形成的,表现为数值,可进行加、减运算。
(4)定比数据。定比数据也称比率类别数据,说明的也 是事物的数量特征,能够用数值表示。其结果是由定比尺度计 量形成的,表现为数值,可进行加、减、乘、除运算。

第二章统计数据的采集

第二章统计数据的采集学习目标知识目标:了解统计数据的类型;掌握统计数据的搜集组织形式和方法,以及统计数据搜集方案、调查问卷的设计方法。

能力目标:能够设计统计数据搜集方案和调查问卷,并能组织实施统计调查。

第一节统计数据的类型关键词:统计数据;定类数据;定序数据;定距数据;定比数据一、统计数据的计量尺度统计数据是采用某种计量尺度对客观现象进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。

因而人们在搜集统计数据之前要先对客观现象进行计量或测量。

按照计量学的一般分类方法以及对事物计量的精确程度,可将计量尺度由低级到高级、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。

对客观现象进行计量或测量时,采用不同的计量尺度可以得到不同类型的统计数据,而不同类型的统计数据需要用不同的统计分析方法来进行分析。

(一)定类尺度定类尺度也称类别尺度或列名尺度,是最粗略、最低层次的计量尺度。

这种计量尺度只能按照事物的某种属性对其进行平行的分类或分组。

例如,企业按组织形式分为独资企业、合伙企业和公司等。

这种计量尺度只能反映事物之间的类别差,对事物之间的其他差别不能反映。

因而,使用这种尺度对客观现象所作的分类,各类别之间只是并列关系,不能区分彼此的优劣或大小,各类别之间的顺序可以改变。

运用定类尺度计量出的统计数据,通常是通过计算出每一类别中各元素或个体出现的频数或频率来进行分析。

(二)定序尺度定序尺度又称顺序尺度,是对客观现象之间等级差别或顺序差别的一种测度。

这种计量尺度不仅可以将客观现象分成不同的类别,而且还可以确定这些类别的优劣或顺序。

定序尺度的计量结果也表现为类别,但与定类尺度测度的类别不一样,这些类别之间可以比较顺序。

例如,合格产品可以分为优等品、一等品、二等品、三等品等等。

定序尺度对事物的计量要比定类尺度精确一些,但它也只是测度了事物类别之间的顺序,并未测量出类别之间的准确差值。

定序尺度可用于分类,也可以用于统计分析中确定中位数、四分位数、众数等指标的位置。

统计学第二章数据搜集整理


普查的规定
• • • • 规定统一的调查项目 规定统一的标准时点 规定统一的普查周期 例如:第六次人口普查,调查表,性别、年龄、 民族、受教育程度、行业、职业、迁移流动、社 会保障、婚姻生育、死亡、住房情况等 • 截止时间,标准时点是2010年11月1日零时 • 人口普查的周期是10年,2000年,2010年
频率
fi
fi
fi :第i组频数
32
(2)频率的性质 (A )
0
fi
1 fi
(B ) (3)频数密度与频率密度(消除异距分组对频数影响) (A) (2.7) 频数密度=频数/组距 (B) (2.8) 频率密度=频率/组距 各组频数密度与各组组距乘积之和等于总体单位数,各 组频率密度与各组组距乘积之和等于1.
29
组数的确定(H.A.Struges经验公 式)

n = 1 + 3.3logN
N – 24 – 44 – 89 – 170 – 359 n 5 6 7 8 9
(斯特杰斯)
• • 15 • 25 • 45 • 90 • 180 • 组距=
30
四、频数(次数)分布
1.频数分布的基本理论
(1)频数分布的定义 在统计分组的基础上,将总体所有单位按某一标志 归类排列,并计算其相应出现的次数。 频数分布是统计整理的重要形式,通过对零乱的、 分散的原始资料进行有次序的整理,形成一系列反映 总体各组之间单位分布状况的数列,即分布数列。
10
• 概率抽样的特点: 1、样本单位按随机原则抽取,排除了主观因素对 选样的影响。 2、根据部分调查的实际资料对调查对象总体的数 量特征作出估计。 3、抽样误差可以事先计算并加以控制。 • 抽样调查的适用场合

统计学第二章统计数据的收集、整理与显示习题

第二章统计数据的收集、整理与显示习题一、填空:1.统计数据收集是根据统计研究预定的目的和任务,运用科学的,有计划、有组织地反映客观现实的统计资料的过程。

2.搜集统计数据的方法有:(1)直接观察法,(2),(3)(4)。

3.统计调查按搜集资料的组织方式不同,可以分为普查、、、。

4.我国现行的统计调查体系是:以必要的周期性的普查为基础,经常性的为主体,同时辅之以、科学推算和部分全面报表综合运用的统计调查方法体系。

5.统计调查的方案一般包括如下几项内容:(1)明确调查目的,(2),(3)(4)(5)(6)(7)。

6.数据整理是对统计调查所搜集到的各种数据进行,或是对已有的综合统计资料进行再整理。

7.数据整理的程序包括:(1)统计资料的审核,(2),(3)或绘制统计图,(4)统计资料的积累、保管和公布。

8.根据统计研究的目的和客观现象的内在特点,按(或几个标志)把被研究的总体划分为若干个的组,称为统计分组。

9.统计分组,必须遵循两个原则:和。

10.统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为的那一组内,即所谓“上限在不内”原则。

11.统计分组必须先对所研究现象的作出全面、深刻的分析,确定所研究现象的属性及其内部差别,而后才能够选择出反映事物本质特征的分组标志。

二、单选题1.统计调查对象是()A.总体各单位标志值B.总体单位C.现象总体D.统计指标2.我国统计调查体系中,作为“主体”的是()A.经常性抽样调查B.必要的统计报表C.重点调查及估计推算D.周期性普查3.要对某企业生产设备的实际生产能力进行调查,则该企业的“生产设备”是()A.调查对象B.调查单位C.调查项目D.报告单位4.对银行职工进行调查,调查对象是()A.所有银行B.银行所有职工C.每个银行D.银行每个职工5.全国人口普查中,总体单位是()A.每一个人B.每一个家庭C.每个银行D.银行每个职工6.报告单位亦称填报单位,它是()A.调查项目的承担者B.负责向上级报告调查内容的单位C.构成调查对象的每一个单位D.与调查单位相一致7.城镇家庭生活水平调查一般采用()A.重点调查B.典型调查C.普查D.抽样调查8.在统计资料的整理工作中,对原始资料的审核,重点是审核原始资料的()A.资料的准确性与完整性B.资料的完整性与代表性C.资料的准确性与及时性D.资料的准确性与全面性9.按某一标志分组的结果表现为()A.组内同质性、组间同质性B.组内同质性、组间差异性C.组内差异性、组间同质性D.组内差异性、组间差异性10.在统计分组时,若某个标志值刚好等于相邻两组上下限数值时()A.将此数值归入上限所在组B.将此数值归入下限所在组C.归入这两组中任意一组均可D.另设一组,归入其中11.在变量数列中,频率是指()A.各组分布次数相互之比B.各组的比率相互之比C.各组单位数与总体单位数之比D.各组的单位数12.当某一总体内最大变量值与最小变量值一定时,意味着()A.组距一定B.组数一定C.全距一定D.组限一定13.把保定市所有商店按商品销售额分组()A.只能进行单项式分组B.只能进行组距式分组C.既可以进行单项式分组,也可以进行组距式分组D.无法进行分组14. 统计表的构成,从形式上看包括()A.总标题和数字资料B.主词和宾词C.总标题、横行和纵栏标题三部分D.总标题、横行标题、纵栏标题和指标数值15. 统计表的构成,从内容上看,包括()A.总标题和指标数值B.主词和宾词C.总标题、横行和纵栏标题三部分D.总标题、横行标题、纵栏标题和指标数值16.编制单项数列,作为分组依据的变量是:甲、离散型变量;乙、连续型变量。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

观察研究 Observational studies
试验/实验 Experiments
观察研究
Observational Studies
• 在只观测不干扰的情形下收集信息
– Jane Goodall在坦桑尼亚的冈贝国家公园观察
野生黑猩猩行为:是否素食动物?食物中肉类
的比重?多久猎食一次?单独或集体行动?多 少只一起行动?只有雄性还是雌、雄都有?
Simple random sampling • 用机会选出的样本, 是让每个个体都有 同样的中选机会,来消除人为偏向
例2-8:一个简单随机抽样的例子——抽签选代表
Choosing Names from a box
• 从全班50人中选5人…
– 光荣而艰巨的任务:打扫教室 – 意外之喜:免费观赏进口大片
存在“因果关系(cause & effect)”
第二节
好样本与坏样本
有偏 Biased
• 如果统计问题的设计使得结果总是往某 个方向偏,我们就称这个设计是有偏的 ( Biased )。
两种有偏的抽样方法
Biased Sampling Methods • 方便抽样 convenience sampling
第二章 统计数据的收集
第一部分 数据的计量与类型
第二部分 统计数据的收集
第二章统计数据的收集
数 据 的 计 量 与 类 型
数据的计量尺度(对研究对象计量
的不同精确程度):
•定类尺度
•定序尺度 •定距尺度
•定比尺度
第二章统计数据的收集
数 据 的 计 量 与 类 型
数据的类型
定性数据 定量数据 变量 变量值 连续变量 离散变量
例2-7:写信给美国国会
假设你是美国某国会议员的幕僚,这位议员正在 考虑一项法案,该法案会对老人疗养院的服务, 提供政府资助的保险。你的报告指出,一共收 到 1128 封针对此法案的来信,其中 871 封反对 此项法案。国会议员说:“真没想至我的选区 当中,大部分人都反对这个法案。我还以为会 有很多人赞成。”你相信大部分的选民都反对 这个法案吗?你会怎么向国会议员解释这件事 牵涉到的统计问题?(自发性回应样本对总体 的代表性可能不够。 )
人为选择导致有偏
• 上述两种抽样方法之所以有偏,是因为
其中加入了人为选择(human choice)
– 方便样本:加入了取样者的偏好
– 自发回应样本:加入了被取样者的意志
统计学家开出的纠偏处方:利用不牵涉 人为选择的“机遇”(impersonal chance) 来选取样本——随机抽样
简单随机抽样
– 从总体抽样时,选取最容易取得的个体
• 自发回应样本 voluntary response sample
– 自动对某一普遍呼吁(general appeal)产生回应而 形成的样本,如写信回应(write-in)或电话回应 (call-in)意见调查
例2-4:给己方便,给人方便
设想我每周提供给你所在公司几箱橙子。你通过对每个 箱子抽样来检查橙子的质量。很容易你会只检查每一 箱顶上的几个橙子,但这不能作为整箱橙子的代表, 因为底部的橙子更可能在运输中受损。并且,如果我
– 中国的5次人口普查:53、64、82、90、2000
– 美国从1790开始,每10年 做一次的人口普查(宪法规定)
抽样调查 vs. 普查
• 普查需要耗费大量人力、财力、物力&时间
– 负得起费用,也担不起时间——如中CPS每月失
业统计如用普查,就 要等下年而非下月知道结果
• 在一些调查中样本将被毁坏 而无法通过普查
第二章统计数据的收集
数 据 的 计 量 与 类 型
数据的表现形式
绝对数、相对数
第二章统计数据的收集
统 计 Producing/collecting data 数 据 • 二手数据:图书馆、互联网 的 • 一手数据: 收 集 – 观察 observation
– 试验 experiment
产生/收集数据
例2-3 (续) :职业培训政策有否助益?
精心设计的试验能帮助我们回答这一问题。在失 一些失业人员会参加政府组织的职业培训,来提高自己 业人员中,选择两组相似的人(年龄、教育程度、婚 的工作技能。但这项政策是否真的有帮助,是不是应 姻与子女等方面),要求其中一组参加就业培训,但 该将所有失业人员都纳入这一计划?仅靠观察研究无 是对另一组不提供这一计划。若干年后,比较两组人 法告诉我们这项政策的效果:仅仅对比参加和未参加 的收入以及工作记录,就可以看出,要求参加就业培 就业培训的人,观察其后来的就业和收入,所下的结 训是否有预期的成效。 论未必正确。因为他们原先就可能存在许多差别(如: Source: David S. Moore, Statistics: Concepts and Controversies, 5th Ed.,
例2-3:职业培训政策有否助益?
一些失业人员会参加政府组织的职业培训,来提 一些失业人员会参加政府组织的职业培训,来提高自己 高自己的工作技能。但这项政策是否真的有帮助,是 的工作技能。但这项政策是否真的有帮助,是不是应 不是应该将所有失业人员都纳入这一计划?仅靠观察 该将所有失业人员都纳入这一计划?仅靠观察研究无 研究无法告诉我们这项政策的效果:仅仅对比参加和 法告诉我们这项政策的效果:仅仅对比参加和未参加 未参加就业培训的人,观察其后来的就业和收入,所 就业培训的人,观察其后来的就业和收入,所下的结 下的结论未必正确。因为他们原先就可能存在许多差 论未必正确。因为他们原先就可能存在许多差别(如: 别(如:已受过较多的教育、价值观和 已受过较多的教育、价值观和 动机不同)… 动机不同)…
例2-1 (续) :高压线会让儿童得白血病吗?
前门处都测量了磁场强度。不仅对儿童住家附近 的高压电线资料作了记录,还对儿童母亲在怀孕时住 处附近的高压电线资料作了记录。结论是,除了巧合 之外,并没有证据显示磁场和儿童白血病有相关关系。
Source: David S. Moore, Statistics: Concepts and Controversies, 5th Ed., 2001
– 烟花、灯丝测试
抽样调查 vs. 普查(续)
• 适当确定的小规模样本能提供比普查更精确
的数据
– 清点零件库存时与其叫一个不耐烦的职员,不如
精心安排的抽样来得准确
• 但有些时候只能依靠普查
– 需要详细的地方数据:如美国人口普查一个功能 就是为选区划分提供依据
例2-2:一次“以整个总体为样本”的 企图
2001
已受过较多的教育、价值观和
动机不同)…
观察 vs. 试验
• 观测的原则是:“观测,但别干扰”
– Jane Goodall在观察黑猩猩时,曾设立食物补给站, 让黑猩猩能在那里吃到香蕉。后来她承认该做法错
了,可能导致黑猩猩行为的改变
• 试验则存心改变行为,目的是要了解特定行为/
处理(treatment)是否会引起某种反应—是否
– 若我们想要了解关于全国大专学生的信息,那么 全国大专生就是我们的总体,即使抽样时受限制 只能在一所大学里进行,总体仍然不变。要想从 样本中得出什么结论来,必须知道样本代表的总 体是什么
• 样本只包括我们取得信息的那些个体
你不必吃完整头牛,才知道肉是老的。
普查
Census
• 普查(census)是试图把整个总体纳入样本的 抽样调查
• 通常无法进行试验
– 技术或道德原因
例2-1:高压线会让儿童得白血病吗?
电流产生磁场,所以生活在有电环境里,会使人 暴露在磁场。住在高压线附近,会增加这种暴露程度。 实验室中的研究显示,强烈磁场会干扰活细胞。但是 住在高压电线附近,接触到较弱的磁场,影响又如何? 有些数据显示,似乎住在这些地方的儿童,会有较多 的人患上属于血癌的白血病。 我们不能安排孩子去暴露在磁场下来做试验。而 要较多和较少暴露在磁场下的儿童罹患白血病的比例 也有点困难,因为白血病很罕见,而且居住位置除了 磁场暴露程度不同之外,也可能有 许多其它差异。
―数据!数据!数据!”他不
耐烦地喊道,“我不能做无米
之炊。”
—— Sherlock提要
• • • • • • • 原始数据来源 坏样本与好样本 真实世界中的抽样调查 实验面面观 真实世界中的实验 数据伦理 度量
• 数字合不合理?
第一节
原始数据来源
Where Do Data Come From?
知道你的抽样方法,我就会把烂的橙子放在底部而把
好的放在上面让你检查。 若你只检查表面,那么你的抽样结果就是有偏的——样 本橙对于其所要代表的总体橙来说,质量偏好。
例2-5:购物中心访谈
Interviewing at the Mall
生产商和广告商常借助购物中心访谈来收集有关消费者 行为和广告效力的信息。这种消费者样本既快速、又 便宜。 但在购物中心接触到的人并不能充分代表总体人口。例 如,这些人更富有、更多为青少年或退休人士。并且, 采访者倾向于从顾客群中选择外表整洁、和善的个人。 购物中心的样本是有偏的:对总体的某一部分人 过分 代表(over-represent) ,对其它人则代表不足(underrepresent ) 。来自该方便样本的观点,可能和总体的观 点大相径庭。
• 由于“人人不甘落后而又名额有限”:
– 将50个名字分别写在同样大小的纸条上,放入盒中 摇匀(总体)
– 从中抽出5张,就得到一个简单随机样本:不仅每 个人中选机会相同,且每个可能的样本(任5张) 被抽中的机会都相同
随机选样的最简单的办法:抽签选取
该方法选出的样本不加入“人意” —— 无取样者的个 人偏好、也无回应者的主动加入;而是“天意” — — 不论班干 / 普通同学、团员 / 非团员、男生 / 女生、 “乖”学生/―怪”学生……,每个人被选进样本的机 会相等
相关文档
最新文档