第1章 数据与统计学
第一章:统计学—数据与统计学

情况就完全不同。如果从上面品尝,你会
感到很咸而从底部品尝,你肯定觉得太淡
了。
23
第一章 数据与统计学(总论) STAT
下列说法正确吗?
例一:统计资料表明:大多数汽车事故出 在中等速度的行驶中,极少的事故是出在大 于150公里/小时的行驶速度上的。这是否就 意味着高速行驶比较安全?
例二:统计数字还表明,在亚利桑那州死 于肺结核的人比其他州的人多。这是否就意 味着亚利桑那州的气候容易生肺病?
第一章 数据与统计学(总论) STAT
抽样调查在统计中也是应用得十分广泛的,
它的核心思想是在某一类事物中,只选取其中 一小部分,根据这一小部分的情况来判定整个 事物的情况。
我们有些人可能都下过厨房,做过菜汤, 每当做完后,不少人还喜欢用小勺品尝一 下,以判断整个汤的咸淡是否合适。
同样是品尝咸淡,当我们吃小葱拌豆腐时,
第一章 数据与统计学(总论) STAT
吸烟有害健康。 不结婚的男性会早逝10年。 身材高的父亲,其子女的身材也较高。 每天摄取500毫克维生素C,生命可延长6年。 怕老婆的丈夫得心脏病的几率较大。 上课坐在前面的学生平均考试分数比坐在后面的高。 第二个出生的小孩没有第一个聪明,第三个…… 《守得住才叫爱》的作者一定是“好男人”
(研究数据 )
30
第一章 数据与统计学(总论) STAT
统计的应用领域
经济学
医学
管理学
统计学
工程学
社会学
…
31
第一章 数据与统计学(总论) STAT
actuarial work (精算)
agriculture (农业)
animal science (动物学)
anthropology (人类学)
统计学课件 第一章

一、统计与统计学
统计包含三种涵义,两重关系
1. 统计活动:对统计数据进行搜集、整理和分析的过 程 。 2. 统计数据:统计活动所产生的成果,用以描述我们 所研究现象的属性和特征 。如统计图表,统计分析报 告等。
一、统计与统计学
从1998年到2002年,中国经济一路高歌,国内生 产总值保持了年均增长7.6%的良好态势,先后跃上8
第三节 统计学的基本概念
一、总体与总体单位
总体 即统计总体,是指客观存在的、在 同一性质基础上结合起来的许多个别事物 的整体。 总体单位 即构成统计总体的个别单位。
+期末考试
15—20% 20-25%
75-80%
+考勤与课堂表现 5%
=总成绩
100%
第一节: 统计的产生与发展
一、统计与统计学
原始社会,从结绳记事开始,就有了统计 的萌芽。 奴隶社会(夏朝),有了人口和土地数字 的记载,这是我国最早的统计资料;古希腊、 罗马时代,开始了人口和财产的调查。 封建社会由于经济十分落后,统计发展缓 慢;统计广泛迅速地发展是在资本主义社会。 „ „ 总而言之,统计是适应社会政治经济的发 展和国家管理的需要而建立起来的,其发展与 社会生产力的发展紧密联系在一起。
经济学
医学
管理学
统计学
工程学
社会学
…
应用统计的领域
actuarial work (精算) agriculture (农业) animal science (动物学) anthropology (人类学) archaeology (考古学) auditing (审计学) crystallography (晶体学) demography (人口统计学) dentistry (牙医学) ecology (生态学) econometrics (经济计量学) education (教育学) election forecasting and projection (选举预测和策划) engineering (工程) epidemiology (流行病学) finance (金融) fisheries research (水产渔业研究) gambling (赌博) genetics (遗传学) geography (地理学) geology (地质学) historical research (历史研究) human genetics (人类遗传学)
应用统计知识点总结-第一章统计与统计数据收集

2.茎叶图:
2.3
当数据量很大时,排序和茎叶图都很难得出结论。此时需要使用图表。有多种不同类型的图表可以用来精确描述数值数据,包括频数分布表、折线图、面积图、柱形图、条形图、直方图、频数多边形、圆饼图、散点图、时间序列、曲线图以及对数图等等。
4.测量误差:测量误差是指由于样本数据测量程序的设计和应用不当所引起的误差。
1.3.6
优势:及时性和共享性 ,便捷性和低成本 ,可靠性和客观性 ,更好的接触性 ,穿越时空性 。
1.4
问卷是一种特殊形式的调查表。其特点是表中用一系列按照严密逻辑结构组成的问题,向被调查者调查具体事实和个人对某问题的反映、看法,它不要求被调查者填写姓名。问卷设计一般要遵循以下原则。
3组限:组限也即各组区间的上、下限。确定各组区间的上限和下限时,应保证各组之间既不重叠,又不能遗漏任一数据,使每一个数据都属于某一确定的分组。
重叠和组限不重叠组限
重叠组限——相邻组的上下限重合。
适用于连续型变量。但各组上、下限中有一个不包含再内。通常按“上限不在内”处理,即组区间是 [a, b)的形式。
例:第七次全国人口普查
1.3.3
在总体中选择部分重点单位进行调查,以了解总体基本情况的一种非全面调查。
重点调查的特点:
(1) 重点调查适用于调查对象的标志值比较集中于某些单位的场合,这些单位的管理比较健全,统计力量比较充实,能够及时取得准确资料。
(2) 重点调查的目的在于了解总体现象某些方面的基本情况,而不要求全面准确地推算总体数字。
应用统计学侧重于阐明统计学的基本原理,并将理论统计学的成果作为工具应用于各个领域。
统计学 第一章 总论

(三)现代统计学时期(从19世纪末到现 在,是现代统计学时期 )
这一时期的显著特点是数理统计学由于同 自然科学、工程技术科学紧密结合及被广泛应 用于各个领域而获得迅速发展,各种新的统计 理论与方法、尤其是推断统计理论与方法得以 大量涌现。现代统计学时期是统计学发展最辉 煌的时期。
三、统计学的学科性质
截面数据
又称静态数据,是指在相同或近似相同的时点 上获得的数据,通常是在不同空间上获得的。
二、统计数据研究过程
统计设计
统计设计要在有关学科理论指导下,根据研究问题的性质、目 的和任务,科学地确定统计研究的总体对象,明确所要搜集数 据的种类,确定相应的统计指标及其体系并给出统一的定义和 标准,确定统计数据搜集、整理、推断和分析的基本方法,规 定研究工作的进度安排和质量要求,拟定研究工作的资源配置 和组织实施方式等。 数据搜集就是按照统计设计的要求,有针对地获取所需的统计 数据的环节,也就是说,要通过统计观测或实验的方式、方法 去搜集各种各类计算统计指标所需的原始数据,以及其他已经 存在的各种相关数据。 数据整理就是对通过统计观测或实验所获得的原始数据,进行 必要的系统化处理,使之条理化、综合化,成为能反映总体特 征的统计数据的环节,也称为统计整理环节。 数据分析是在数据整理的基础上,运用各种统计方法对数据进 行各种统计分析,得出某些有用的定量结论的环节,也称为统 计分析环节。
定序数据
是对事物按照一定的顺序进行分类的结果,表 现为有顺序的类别,由定序尺度计量而成,各 类别之间有大小优劣之分。 表现事物数量特征的数据,具体又分为定距数 据与定比数据两种。
定量数据: 也称数量数据,用数值来表现。是指用数值来
一、统计数据类型 定距数据 是一种不仅能反映事物所属的的类别和
统计学(第四版)期末复习资料

第一章统计和统计数据名词解释1.统计学:收集处理分析解释数据并从数据中得出结论的科学。
2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。
3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。
4.分类数据:只能归于某一类别的非数字型数据。
5.顺序数据:只能归于某一有序类别的非数字型数据。
6.数值型数据:按数字尺度测量的观察值。
7.总体:包含所研究的全部个体(数据)的集合。
8.样本:从总体中抽取的一部分元素的集合。
9.参数:用来描述总体特征的概括性数字度量。
10.变量:说明现象某种特征的概念。
11.分类变量:说明事物类别的一个名称。
12.顺序变量:说明事物有序类别的一个名称。
13.数值型变量:说明事物数字特征的一个名称。
14.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
15.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
16.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。
17.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。
18.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
19.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。
20. 抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差简答题。
1.概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。
操作简便,时效快,成本低,专业要求不很高。
概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。
提出精度要求。
2.数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求3.误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。
统计学第一章-大学统计

第一章第一讲数据的图表展示第一节定类数据的整理和展示第二节定序数据的整理和展示第三节数值型数据的整理和展示统计数据的类型统计数据是对客观现象进行计量的结果。
根据对研究对象计量的不同精确程度,按数据的计量尺度由低到高、由粗略到精确分为两大层次:定性数据和定量数据。
定性数据可以再细分为定类数据和定序数据,定量数据可以再细分为定距数据和定比数据。
定性数据:常用文字表述,计量结果表现为类别定类数据(1)定类数据(Nominal Data)是按照客观现象的某种属性对其进行平行分类,所使用的数值只是作为各种分类的代码,并不反映各类的优劣、量的大小或顺序。
例如,人口按性别分为男和女,用“1”表示男性,“0”表示女性。
定类尺度的主要数学特征是“=”或“≠”。
在统计处理中,对于不同的类别,虽然可以计算单位数,但它不能表明第一类的一个单位可以相当于第二类的几个单位。
定序数据(2)定序数据(Ordinal Data)是对客观现象各类之间的等级差或顺序差测度的数据。
利用定序尺度不仅可以将研究对象分成不同的类别,而且还可以反映各类的优劣、量的大小或顺序。
例如,学生成绩可以分为优、良、中、及格和不及格等五类。
定序尺度虽然无法表明一个优等于几个良,但却能确切地表明优高于良,良又高于中……。
定序尺度的主要数学特征是“<”或“>”。
定量数据:计量结果表现为具体的数值定距数据(1)定距数据(Interval Data),又称间隔尺度数据,不仅能比较各类事物的优劣,还能确切计算出事物之间差异的大小。
例如,对于温度而言,每一度的温差都是相同的。
特点是没有绝对零点,可以做加减运算,但不能做乘除运算定比数据(2)定比数据(Ratio Data),是数据的最高等级,既有测量单位,也有绝对零点。
例如,学生人数、身高等。
注意1. 对定类数据和定序数据主要是做分类整理2. 对定距数据和定比数据则主要是做分组整理3. 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不一定适合于低层次的数据第一节定类数据的整理和展示一、◆基本过程:1. 列出各类别2. 计算各类别的频数3. 制作频数(频率)分布表4. 用图形显示数据定类数据的整理——频数分布二、◆频率的性质(1)任何频率都是界于0和1之间的一个分数。
第一章 期末复习总结与习题数据与统计学
第一章期末复习总结与习题数据与统计学第一章期末复习总结与习题数据与统计学第一章数据和统计1.1.1统计数据它是统计实践过程中获得的各种数字数据和其他相关实际数据的总称。
它是统计工作的目标和成果。
(1)变量和变量值说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。
例如,固定资产是一个变量,每个企业固定资产的具体价值就是变量值。
为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。
连续变量是指变量的值在数轴上是连续的,不能逐个枚举,也就是说,可以在一个区间内取任何实数。
例如,气象上的温度、湿度,零件的尺寸等。
离散变量是指变量的值,它们是整数值,可以逐个列出。
比如企业的数量,员工的数量等等。
确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。
随机变量是受许多小的不确定因素(也称为随机因素)影响的变量。
变量的值不能预先确定。
社会经济现象既有确定性变量也有随机变量。
统计学所研究的主要是随机变量。
(二)数据的计量尺度统计数据是整体单位符号或统计指标的具体定量表达。
根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。
1.1.2统计学统计学是一门关于如何收集、组织、显示和分析统计数据的方法学科学。
其目的是探索数据的内在定量规律。
1.1.3统计数据的规律性客观事物本身是必然性和偶然性的对立统一,必然性反映事物的本质特征,偶然性反映事物表现形式上的差异。
而统计数据是事物必然性与偶然性共同作用的结果,偶然性是对同一事物的多次观察得到的统计数据有差异,而必然性则隐含在统计数据本身。
统计学提供了探索数据内在规律的一套方法,利用统计方法是可以探索出其内在的数量规律性的。
1.4.1直接获取的数据直接统计调查:为获取统计数据而专门组织的调查。
如普查、重点调查和典型调查查、抽样调查、统计报表。
第一章 统计学基础知识-1
直 图 方
30 25 20 15 10 5 0 120% 100% 80% 60% 40% 20% 0%
频 率 累 % 积
频率
5.55 7.05 8.55 10.05 11.55 13.05 14.55 16.05 17.55 其 他
蔗 含 % 糖 量
第三节 统计特征数
反映数据资料的集中性趋势或分散程度的一些特 征数字,统称为统计特征数。 平均数,方差。 征数字,统称为统计特征数。如,平均数,方差 。 平均数: 一、集中性趋势的度量--平均数: 集中性趋势的度量 平均数 描述数据资料的集中性趋势, 描述数据资料的集中性趋势 , 反映资料的一般水 平及中心位置, 平及中心位置,并可作为资料的代表跟其它资料 比较。 比较。
(2)随机误差(偶然误差): )随机误差(偶然误差) 由很多不可避免且无法控制的偶然因素引起的误差。 由很多不可避免且无法控制的偶然因素引起的误差 。 分析测试中: 分析测试中: 分析方法本身的不完善性、仪器、环境、 分析方法本身的不完善性 、仪器、 环境、操作等各个 方面的偶然变化。 方面的偶然变化。 生物试验中: 生物试验中:产生随机误差的原因 供试材料的不均一性如种子质量、 供试材料的不均一性如种子质量、秧苗素质不可能完 全一致; 全一致; 光照、温度、湿度等影响生长的环境因子也可能随时 光照、温度、 随地发生的变化; 随地发生的变化; 农时操作的不一致性; 农时操作的不一致性; 其它不可预测的自然或人为因素的干扰。 其它不可预测的自然或人为因素的干扰。
编号 0 1 2 3 4 5 6 7 8 9 0 11.8 14.1 12.8 14.6 14.9 10.1 11.6 11.0 15.1 13.4 1 13.1 11.9 15.3 10.4 15.0 12.4 12.2 13.0 14.9 10.6 2 9.2 16.7 12.6 13.4 12.1 10.8 7.5 9.2 12.6 6.5 3 8.7 7.4 16.1 14.6 12.6 11.3 13.4 7.0 14.1 11.0 4 12.9 10.0 17.2 10.5 13.0 6.3 14.7 13.2 11.4 11.9 5 13.7 4.4 13.5 8.6 14.1 15.7 14.2 9.0 9.4 11.8 6 9.6 13.2 11.9 15.2 14.4 14.3 14.0 14.0 12.4 12.6 7 13.7 13.8 16.7 11.1 13.1 15.0 15.1 13.2 15.0 9.5 8 8.5 9.1 9.6 14.5 13.3 12.5 6.5 15.0 9.4 12.2 9 15.7 11.9 15.1 12.1 15.0 11.8 8.7 13.8 12.9 8.2
第1章 数据与统计学习题
第一章数据与统计学一、单项选择题1、指出下面的数据哪一个属于分类数据()A、年龄B、工资C、汽车产量D、购买商品的支付方式(现金、信用卡、支票)2、指出下面的数据哪一个属于顺序数据()A、年龄B、工资C、汽车产量D、员工对企业某项制度改革措施的态度(赞成、中立、反对)3、某研究部门准备在全市200万个家庭中抽取2000个家庭,据此推断该城市所有职工家庭的年人均收入,这项研究的统计量是()A、2000个家庭B、200万个家庭C、2000个家庭的人均收入D、200万个家庭的人均收入4、一家研究机构从IT从业者中随机抽取500人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的回答他们的消费支付方式是使用信用卡。
这里的“月收入”是()A、分类变量B、顺序变量C、数值型变量D、离散变量5、一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均消费是200元,他们选择在网上购物的主要原因是“价格便宜”。
这里的参数是()A、1000个消费者B、所有在网上购物的消费者C、所有在网上购物的消费者的平均消费额D、1000个消费者的平均消费额6、一名统计学专业的学生为了完成其统计作业,在《统计年鉴》中找到的2006年城镇家庭的人均收入数据属于()A、分类数据B、顺序数据C、截面数据D、时间序列数据7、一家公司的人力资源部主管需要研究公司雇员的饮食习惯,改善公司餐厅的现状。
他注意到,雇员要么从家里带饭,要么在公司餐厅就餐,要么在外面的餐馆就餐。
他收集数据的方法属于()A、访问调查B、邮寄调查C、个别深度访问D、观察调查8、从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为()A、简单随机抽样B、分层抽样C、系统抽样D、整群抽样9、为了调查某校学生的购书费用支出,从全校抽取4个班级的学生进行调查,这种调查方法是()A、简单随机抽样B、分层抽样C、系统抽样D、整群抽样10、为了调查某校学生的购书费用支出,将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名进行调查,这种调查方式是()A、简单随机抽样B、分层抽样C、系统抽样D、整群抽样11、在一项调查中,调查单位和填报单位()A、无区别,是一致的B、有区别,是不一致的C、无区别,是人为确定的D、有区别,但有时是一致的12、对家用电器的平均寿命进行调查,应该采用()A、普查B、重点调查C、典型调查D、抽样调查。
统计学(第1章)
排序
-
排 序 相对指标
量的差距
×
加减
有绝对0点
÷
乘除
第三章 统计数据的整理
28
三、统计指标和指标体系
(一)统计指标(Indicaton)的含义
统计指标简称指标,是反映同类社会 经济现象总体某一综合数量特征的概 念和数值。
统计指标的基本要素:时间限定、空 间范围、指标名称、指标数值、计量 单位、计算方法。
31
3、按计算方法和作用不同
6/15/2019
第一章 总论
32
(三)统计指标的特点
数量性 综合性:反映的是总体特征 质的规定性:统计指标应该具有实际
意义,包括时间、地点、条件等等。
6/15/2019
第一章 总论
33
(四)统计指标与标志的区别与联系
6/15/2019
第一章 总论
39
6/15/2019
第一章 总论
4
四、统计学在商务和经济中的应用
会计 财务 营销 生产 经济
6/15/2019
第一章 总论
5
第二节 统计学分类及研究方法
一、统计学的学科性质
方法论科学:定性-定量-定性 从数量方面来认识客观现象总体
6/15/2019
第一章 总论
6
二、描述统计学与推断统计学
对其进行分析的统计量主要是频数或 频率。
第三章 统计数据的整理
23
(2)定序尺度(顺序尺度 ordinal scale)
是把各类事物按一定特征的大小、高低、 强弱等顺序排列起来,构成定序数据,是 对事物之间等级或顺序差别的一种测度。
特征:
计量精度要优于定类尺度。它不仅可以测度 类别差,还可以测度次序差,并可比较大小, 但不能进行加减乘除计算。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
调查目的和内容 Why? 调查对象 Who? 调查项目(问卷设计的前期工作) 调查项目(问卷设计的前期工作) What? 的前期工作 调查方式和调查方法 How? 调查经费预算 Money? 调查实施时间 When?
您好! 您好! 我是×× ××调查 我是××调查 公司的调查 员…
座谈调查
1.也称集体访谈、焦点访谈 也称集体访谈、 采用小型座谈会的方式, 2. 采用小型座谈会的方式 , 挑选一组具有代表性的被调 查者, 在一个装有辅助设备的房间内, 查者 , 在一个装有辅助设备的房间内 , 在主持人的组 织下, 就某个专题进行讨论, 织下 , 就某个专题进行讨论 , 从而获得所需材料的方 法。 3.参加座谈会的人数不宜过多,一般为6-10人 参加座谈会的人数不宜过多,一般为6 10人 4.侧重于定性研究 5.优缺点
面访式问卷调查
调查员与被调查者面对面提问、 调查员与被调查者面对面提问、被调查者回答的一种 调查方式 优点 可提高调查的回答率 可提高调查数据的质量 能调节数据搜集所花费的时间 弱点 调查的成本较高 调查过程的质量控制有一定难度
电话式问卷调查
通过电话向被调查者实施调查 特点 速度快,能在短时间内完成调 适合于样本单位十分分散的情况 局限 如果被调查者没有电话,调查将无法实施 访问的时间不能太长 使用的问卷需要简单 被访者不愿意接受调查时,难以说服
2. 应用统计 – 研究统计学在各领域的具体应用
1.4 统计数据的来源
统计数据的类型
分类数据(categorical data) 对事物进行分类的结果 数据表现为类别,用文字来表述 例如,人口按性别分为男、女两类 企业性质:国有、集体、私营、外资 顺序数据(rank data) 对事物类别顺序的测度 数据表现为类别,用文字来表述 例如,产品分为一等品、二等品、三等品、次品等 考试成绩:优、良、中、及格、不及格
可进行比较(大小、高低、好坏的方向),但不能表示出具体的差距,也不能进 可进行比较( 大小、 高低、 好坏的方向) 但不能表示出具体的差距, 行加、 行加、减、乘、除等数学运算
数值型数据(metric data) 对事物的精确测度 结果表现为具体的数值例如:身高为175cm、168cm、183cm
统计数据的直接来源
统计规律 (一些例子 一些例子) 一些例子
正常条件下新生婴儿的男女性别比为105 105: 1. 正常条件下新生婴儿的男女性别比为105:100 投掷一枚质地均匀的硬币, 2. 投掷一枚质地均匀的硬币,出现正面和反面的频率 各为1/2;投掷一枚骰子出现1~6点的频率各为1/6 各为1 投掷一枚骰子出现1 点的频率各为1 3. 农作物的产量与施肥量之间存在相关关系
Thomas Robert Malthus (马尔萨斯) 马尔萨斯)
Leonhard Euler (欧拉) 欧拉)
历史上著名的统计学家
•Friedrich Gauss (高斯) (1777—1855) 高斯) 1777—1855) •Johann Gregor Mendel (孟德尔) (1822—1884) 孟德尔) 1822—1884) •Karl Pearson (皮尔逊) (1857—1936) 皮尔逊) 1857—1936) •Ronald Aylmer Fisher (费希尔) (1890—1962) 费希尔) 1890—1962) •Jerzy Neyman(奈曼) (1894—1981) Neyman(奈曼) 1894—1981) •Egon Sharpe Pearson (皮尔逊) (1895—1980) 皮尔逊) 1895—1980) •William Feller (费勒)(1906—1970). 费勒)(1906—1970)
一手资料:数据的直接来源, 一手资料:数据的直接来源,通过调查 或实验直接收集到的统计资料(普查、 或实验直接收集到的统计资料(普查、实验 式、观察式等) 观察式等)
搜集数据的基本方法
调查方法
实验方法
自填式
面访式
电话式
普查
为某一特定目的面专门组织的一次性全面调查。 为某一特定目的面专门组织的一次性全面调查。 专门组织 调查 目的:搜集某一时点上的国情国力和资源状况的全面资 目的: 料,为政府制定规划、方针政策提供依据。 特点:一次性或周期性
抽样调查
按随机原则 随机原则从总体中抽取样本; 随机原则 以样本指标(统计量)为依据推断总体参数 推断总体参数或 推断总体参数 检验总体的某种假设; 检验总体的某种假设 抽样误差可以事先计算 计算并加以控制 控制。 计算 控制
自填式问卷调查
没有调查员协助的情况下由被调查者自己完成调查问卷 问卷递送方法有:调查员分发、邮寄、网络、媒体 要求调查问卷结构严谨, 要求调查问卷结构严谨,有清楚的说明 弱点 问卷的返回率比较低 不适合结构复杂的问卷 调查周期比较长 数据搜集过程中出现的问题难于及时采取调改措施
第1章
1.1 1.2 1.3 1.4 1.5 1.6
数据与统计学
统计数据与统计学 统计学的产生和发展 统计学的分科 统计数据的来源 统计数据的质量 统计学的基本概念 本章小结
学习目标
1. 理解统计学的含义 2. 理解统计学与统计数据的关系 3. 了解统计学的分科 4. 了解统计学的发展过程 5. 理解统计数据的来源 6. 了解统计数据的质量 7. 理解统计中的几个基本概念
1.1 统计数据与统计学
什么是统计学? 什么是统计学?
收集、整理、 收集、整理、分析和解释数据的科学
1. 2. 3. 4. 数据搜集: 数据搜集:取得数据 数据分析: 数据分析:分析数据 数据表述: 数据表述:图表展示数据 数据解释: 数据解释:结果的说明
统计研究的过程
实际问题
收集数据 (取得数据) 取得数据) 整理数据 (处理数据 ) 解释数据 (结果说明) 结果说明) 分析数据 (研究数据 )
推断统计
反映客观 现象的数 据
样本数据
描述统计
(统计数据的搜集、整 统计数据的搜集、 显示和分析等) 总体数据 理、显示和分析等)
(利用样本信息和概率 论对总体的数量特征进 行估计和检验等) 行估计和检验等)
总体内在的 数量规律性
理论统计与应用统计
1. 理论统计
– 研究统计学的一般理论 – 研究统计方法的数学原理
统一的标准时间 规范性与准确性 工作量大, 工作量大,需要大量人力和财力,用得较少
例如:我国于1977年进行了职工人数普查;1978年进行了科学技术 例如:我国于1977年进行了职工人数普查;1978年进行了科学技术 1977年进行了职工人数普查 和基本建设在建项目普查;1990年进行了第四次全国人口普查; 和基本建设在建项目普查;1990年进行了第四次全国人口普查; 年进行了第四次全国人口普查 2000年进行了第五次全国人口普查。 2000年进行了第五次全国人口普查。 年进行了第五次全国人口普查
观察式调查
就调查对象的行动和意识, 就调查对象的行动和意识 , 调 查人员边观察边记录以收集所 需信息 调查人员不是强行介入 能够在被调查者不察觉的情况 下获得资料 如交通流量的调查
统计数据的间接来源
二手资料:数据的间接来源,间接引用现有的资料, 二手资料:数据的间接来源,间接引用现有的资料, 如各级政府公报、年鉴、期刊、各种专业数据库等。 如各级政府公报、年鉴、期刊、各种专业数据库等。
1.2 统计学的产生和发展
历史上著名的统计学家
•Jacob Bernoulli (伯努利)(1654—1705) (伯努利)(1654— •Edmond Halley (哈雷) (1656—1742) (哈雷) (1656— •De Moivre (棣莫弗) (1667—1754) (棣莫弗) (1667— •Thomas Bayes (贝叶斯) (1702—1761) (贝叶斯) (1702— •Leonhard Euler (欧拉) (1707—1783) (欧拉) (1707— •Pierre Simon Laplace (拉普拉斯) (1749—1827) Pierre Simon Laplace (拉普拉斯) (1749— (拉普拉斯) 拉普拉斯) •Adrien Marie Legendre (勒让德) (1752—1833) (勒让德) (1752— •Thomas Robert Malthus (马尔萨斯) (1766—1834) (马尔萨斯) (1766—
只能提供1500-5999元收入的人数,不能提供1200-1499元和 只能提供1500-5999元收入的人数,不能提供1200-1499元和 1500 元收入的人数 1200 6000-7999元收入的人数。 6000-7999元收入的人数。 元收入的人数
二者的利弊: 二者的利弊:
一手数据是通过研究者自行设计的调查取得的, 一手数据是通过研究者自行设计的调查取得的,因此 更能契合研究的计划,更有助于准确的反映研究结果。 更能契合研究的计划,更有助于准确的反映研究结果。但往 往由于研究经费和研究者精力所限, 往由于研究经费和研究者精力所限,获得海量的一手数据难 度较大,所以也有可能影响统计分析的准确性。 度较大,所以也有可能影响统计分析的准确性。 二手数据往往来自于专业的统计机构, 二手数据往往来自于专业的统计机构,因此其准确性 和权威性一般更高, 和权威性一般更高,而且获取二手数据的成本一般都会大大 小于为得到一手数据的付出。但是使用二手数据进行研究前, 小于为得到一手数据的付出。但是使用二手数据进行研究前, 一般要对数据进行提炼和组合才能更好的满足研究需要。 一般要对数据进行提炼和组合才能更好的满足研究需要。