统计学第三章数据的整理
统计学 第3章 统计数据的整理

统计分组的标志
第三章 统计数据的整理
统计分组的标志:分组标志就是将总体分为各个性质不同的标准或根据。
根
据分组标志的特征不同,总体可按属性标志分组,也可按数量标志分组。
1.按属性标志分组
以属性标志作为分组标志,并在属性标志的变异范围内划分各组界限,将总体 分为若干组。属性标志划分,概念明确,容易确定分组组数,如性别。
2.按数量标志分组
以数量标志作为分组标志,并在数量标志的变异范围内划分各组界限,将总体 分为若干组。如工资。
第三章 统计数据的整理
(五)简单分组和复合分组
在统计分组时,根据统计研究目的不同,分组标志的选择可以是一个标志,也可以是 两个或两个以上的标志,这样就有简单分组和复合分组之分:
1.简单分组 对总体只按一个标志分组称为简单分组。
第三章 统计数据的整理
数量次数分布的编制方法
在组距次数分布中,各组组距相同的次数分布称为等距次数分 布(表3-8)。各组组距不同的次数分布称为异距次数分布。
等距次数分布一般在现象性质差异变动比较均衡的条件下使用。
优点:
• 易于掌握次数分布的特性。
• 各组次数可以直接比较。
组数= 全距/组距
组距=全距/组数
100.00
提问:这是单 项次数分布还 是组距次数分 布?
第三章 统计数据的整理
数量次数分布的编制方法
例:对某工厂某月50名工人装配零件(件)情况进行调查, 得到下列初级资料:
106 81 98 111 91 107 86 105 93 106 82 108 114 122 109 104 125 103 113 102 106 84 128 104 91 112 85 96 115 89 97 105 92 111 107 97 105 124 106 86 96 110 112 103 108 110 109 125 101 119
统计学课件 第三张章 数据的整理与显示

1. 2.掌握3.掌握 4.用Excel5.§3.1数据的预处理3.1.1 数据审核3.1.2 数据筛选3.1.3 数据排序1.错误2.符合条件3.升序和降序4.按需要汇总(raw data)完整性准确性检查数据是否有错误,计算是否正确等数值型数据,计算检查)(second hand data)1.适用性2.时效性3.确认(data filter)1. 2.不符合明显错误剔除符合筛选出来,而不用Excel 进行数据筛选8名学生的考试成绩数据(data filter)(data rank)1.一定顺序2.有助于3.排序本身就是分析的目的4.借助于计算机(方法)1.分类数据 字母型习惯上用升序汉字型首位拼音字母笔画多少2.数值型–递增递增–递减x (2)>…>x (n)数据透视表(pivot table )1.复杂提取有用 2.重要信息汇总和作图3. 4.首行列标题拖至区域,将需要汇总的“变【向导—3步骤之3】对,即可输出数据透视表§3.2 分类和顺序数据的整理与显示3.2.1 分类数据的整理与显示3.2.2 顺序数据的整理与显示(基本问题)1.弄清数据类型2.分类数据和顺序数据分类整理3.数值型数据分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整(基本过程) BAEDC比率百分比比例频数分类(可计算的统计量)1.个数2.一类别全部数据3.4.不同类别制作频数分布表(bar Chart )1.宽度相同高度或长短2.单式复式3.分类数据频数分布4.条形图可以横置或纵置汇源果汁露露品牌(side - 1.不同时间或不同空间2.差异或变化趋势688563328247戴尔电脑品牌1.频数多少排序2.分类数据不同品牌饮料的帕累托图百事可乐露露汇源果汁品牌(pie Chart)1.圆形及圆内扇形的角度2.各组成部分所占的比例结构性问题3.绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占不同品牌饮料的构成旭日升冰茶22%分类数据显示图例(可计算的指标)频数逐级累加频率(百分比)的逐级累加☺☺☺☺☺☺———100.092562510276168753044.075.090.0100.0132225270300乙城市回答类别100.093.060.034.012.7300279180102387.040.066.087.3100.0211201982623007.033.026.021.312.72199786438非常不满意不满意一般满意非常满意百分比(%)户数(户)百分比(%)户数(户)向下累积向上累积百分比(%)户数(户)乙城市家庭对住房状况评价的频数分布(243001322252700100200300400非常不满意不满意一般满意非常满意累积户数(户)(a)向上累积非常不满意不满意一般满意非常满意(b)向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布(annular chart)1. 2.同时绘制多个总体3. 4.环形图主要用于展示分类和顺序数据满意非常满意§3.3 数值型数据的整理与显示3.3.1 数据分组3.3.2 数值型数据的图示等距分组等距分组异距分组异距分组(要点)一个变量值离散变量值较少的情况☺☺☺☺(要点)1.一个区间2.连续变量3.变量值较多4.“不重不漏”5.等距不等距☺~ ☺☺~ ☺☺~ ☺☺~ ☺☺~ ☺(步骤)1.确定组数2.确定组距上限与下限之差,可根据全部数据的最大统计频数并整理成频数分布表(几个概念)(例题分析)【例】某电脑公司2005年前四个月各天的销售量数据(单位:台)。
统计学(第三章)

四、统计分组方法 统计分组的关键在于选择分组标志和 划分各组界限。划分各组界限,就是要在 分组标志的变异范围内,划定各相邻组之 间的性质界限和数量界限。 (一)按品质标志分组的方法 选择反映事物属性差异的标志作为分 组标志,界限比较明确,类型比较稳定。 如,企业按所有制分组、人口按性别分组 等。
(二)按数量标志分组的方法 数量标志有离散型和连续型之分,其分 组的方法和形式也不同。 1、按离散型变量标志分组其形式有2个 (单项式分组和组距式分组); 2、按连续型变量标志分组其形式只有一 个(组距式分组)。
某班级学生按性别分组 学生按性别分组 男 女 合 计 人数(人) 60 40 100
2、按数量标志分组。按数量标志分组 就是选择反映事物数量差异的数量标志作 为分组标志,并在数量标志的变异范围内 划定各组界限,将总体划分为性质不同的 若干组成部分。 3、根据分组选择标志的多少不同,统 计分组又可分为简单分组和复合分组。 简单分组。简单分组是指对统计总体 仅按一个标志进行分组。
二、统计整理的步骤 1.设计统计整理方案 2.对原始资料进行审核 3.对原始资料进行分组和汇总 4.编制统计表或绘制统计图 综上所述,设计整理方案、对原始资 料进行审核是整理的前提,统计分组是统 计整理的基础,统计汇总是统计整理的中 心环节,编制统计表或绘制统计图是统计 整理的结果。
1.2、统计分组 一、统计分组的意义 统计分组既是统计认识问题的一种基 本方法,又是统计整理工作的具体内容之 一,因此它在整个统计工作过程中具有十 分重要的作用。
4、次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
1、钟形分布 钟形分布的特征是“中间多,两边少”,这类 分布是以平均值为中心的,越接近中心,分配的次 数越多,离中心越远,分配的次数越少,其曲线就 像一口古钟。
统计学统计数据的整理和显示

组数
组中值:各组中点位置所对应的变量值。其计算公式为:
01
或= (适用上开口组)
03
组中值= (适用所有闭口组)
02
或= (适用下开口组)
表3—2 三次产业增加值结构变化 资料来源:《中国统计年鉴》《2003年中国发展报告》,国家统计局2003年版,中国统计出版社。
从表中可以看出,我国1998—2002年,GDP年均增长7.7%,其中第一产业增加之年均增加2.9%,第二产业、第三产业增加值分别增长8.9%和8.0%。反映在结构中,第一产业比重下降,二、三产业比重上升。其中第一产业比重从1997年的19.1%下降到2002年的14.5%,下降了4.6个百分点;第二产业从50%提高到51.8%,上升了1.8个百分点;第三产业从30.9%提高到33.7%,上升了2.8个百分点。它反映着我国产业结构的变化发展过程。
举例说明:
1
某工厂生产车间30人工人日产量原始数据如下:
第三章 统计数据的整理和显示
本章主要内容
肆
叁
贰
壹
统计整理及其类型 统计整理:就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。包括(1)对统计调查所搜集到的各种数据进行分类和汇总;(2)对现成的综合统计资料的整理。本章指的是第一种整理。
第一节 统计数据整理概述
3.历史资料的审核:在利用历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可以从调查资料的历史背景、调查者搜集资料的目的以及资料来源等,来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确性。
第三章统计数据的整理与显示

统计整理方案 1、 确定汇总的统计指标和
综合表; 2、 确定分组方法; 3、 确定汇总资料的形式; 4、 确定资料的审查内容和
审查方法。
第三章 统计数据整理与显示
§2 统计分组 一、统计分组意义和作用 1、概念:它是根据统计研究的需要,将
统计总体按照一定的标志分成若干 个不同的组别。 对总体而言是“分”,对个体而言是“合”。 2、统计分组的原则
第三章 统计数据的整理 与显示
➢ 数量分组的方法 ➢ 分配数列的编制
§1 统计数据整理
一、统计整理的意义和内容 统计整理在统计工作中处于中间阶段,
起着承前启后的作用。通过数据整理,可 以使混乱、缺乏条理性的资料变成有条理 性、在某种程度上能够说明总体特征的有 用的资料。
它是根据统计研究的任务,对调查阶 段所搜集到的大量的原始资料进行加工汇 总,使其系统化、条理化、科学化,以反 映总体综合特征的资料的工作过程。
试将工人分成5组
其基本步骤为: 第一步:将原始资料按数值大小依次排列。 全距(Range)=最大变量值—最小变量值。
=576-432=144
第二步:确定变量的类型和分组方法(单 变量分组或组距分组)。
第三步:确定组数和组距(interval)。当 组数确定后,组距可计算得到: 组距=全距/组数
原则: 应将总体单位分别的特点显示出来 要考虑到原始资料的集中程度 要考虑到所研究对象的实际情况,考
例:重庆市按GDP计算的三次产业结构(%)
1980年
GDP
100
第一产业 38.4
第二产业 44.6
第三产业 17
1990年 100 33.4 39.7 26.9
2000年 100 17.8 41.4 40.8
统计数据的整理和显(1)

分组的原则:穷尽和互斥
1.按品质标志分组或按数量标志分组,或用两 种标志结合分组 2.按主要标志与辅助标志分组
(四)统计分组体系
1.简单分组与平行分组
标 按性别分组
志 男性 女性
(二)统计分组的作用
1.划分性质不同的各种类型,研究其特征和规律性
表1 我国近几年农业总产值情况 单位:亿元
类型 1995年 1996年 1997年 1998年
农业 11884.6 13539.8 13866.9 14099.3
林业
709.9
778 817.8 848.7
牧业
6044.9 7083 7620.3 7729.8
如:某校按学生人数分组,其组限为: 100人以下 101—200 201—300 301人以上
组距分组中,上述分组都是等距分组,即各组组 距相等,其特点是:
由于各组组距相等,各组次数的分布不受组距大 小的影响,它消除了组距对其分布的影响,与次数 密度的分布是一致的,一般呈正态分布。
同时也存在不等距分组即只要有一组组距不相等的 分组,也称异距分组。例如学生年龄18岁以下,1920,21-24,25岁以上等。其特点是:
60—70
—60
70以上等
61人以上等
我们把这种分组形式称为开口组。“以下”称之 为下开口,“以上”称之为上开口。
下开口的组中值=本组上限-(1/2)*相邻组 的组距
上开口的组中值=本组下限+(1/2)*相邻组 的组距
例如结合上面学生成绩的分布计算其组中值 下开口组中值=60-(1/2)×(70-60)=55 上开口组中值=70+(1/2)×(70-60)=75
统计学c第三章统计整理

合计
经济、管理类 基础课程
统计学
第三节 分布数列—变量数列
第五、绘制频数直方图和折线图
我一眼就看出 来了,大多数 人的日加工零 件数在120~ 125之间!
直方图下的面 积之和等于1
频 15
数
12
(人) 9
6 3 105 110 115 120 125 130 135 140 日加工零件数(个) 某车间工人日加工零件数的直方图
统计学
第三节 分布数列—变量数列
第四步,编制变量数列 某车间50名工人日加工零件数分组表 按零件数分组(件)
105~110 110~115 115~120 120~125 125~130 130~135 135~140
频数(人)
3 5 8 14 10 6 4 50
频率(%)
6 10 16 28 20 12 8 100
目前我国有的地方性别比为120:100,这是不正常的现象
2.划分现象的类型:如我国经济成份划分为国有经济
和非国有经济,工业化分为轻、重工业。
经济、管理类 基础课程
统计学
第二节 统计分组
3 揭示现象的内部结构:如我国人员结构、产业结构。 新交通法中,正确处理机动车司机和过路行人之间的关系 体现以人为本的理念.
经济、管理类 基础课程
统计学
第三节 分布数列—变量数列
(1)组距数列的几个常用概念
A. 组限:各组的界限,有上限和下限之分。
B. 组距:上限与下限之差 。 C. 组中值:上、下限之和的半数,即:
D. 次数密度:单位组距分配的次数。即:
经济、管理类 基础课程
统计学
第三节 分布数列—变量数列
E. 开口组与开口数列:第一组无下限或最后一组无 上 限的组称开口组。含开口组的数列称开口数列。 注意:a. 开口组的组距按相邻组的组距推算; b. 分组时正好等于组限的数应按“归下限原则”处 理。 缺上限的组中值= 下限+相临组组距的一半 缺下限的组中值= 上限—相临组组距的一半
统计学第三章 统计数据的整理

汇总技术:
有传统手工汇总和现代电子计算机汇总两种技术。
(1)手工汇总。常用的汇总方式有四种: • 划记法。划“正”字符号计数,多用于对总体单位数或次数的简单汇总。
• 过录法。将原始资料分类过录到事先设计的汇总简表中,可用于对内容项 目较多的资料的汇总。
• 折叠法。将每张调查表中需要汇总的同类项目及数据折压一个印记,一张 一张的重叠在一起,再进行汇总。这种方法一次只能选择一个项目及其数 据进行汇总,故适用于数据较少的资料。
• 卡片法。将需要汇总的项目数据分类登记在卡片上,再汇总计算。这种方 法适用于总体单位数多、且多采用复合分组形式的事物,特别是设备、器 材类的实物资产的汇总。
(2)电子计算机汇总。其数据处理程序如下: • 第一步,编程。使用计算机语言编写出一套完整的数据处理程序。
• 第二步,数据录入。计算机自动按程序进行数据处理,并将数据处理结果 存储在磁盘、磁带等磁介质中。
树茎
数叶
数据 个数
10 7 8 8
3
11 0 2 2 3 4 5 7 7 7 8 8 8 9
13
向上累 计个数
3
16
12 0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9
24
40
13 0 1 3 3 4 4 5 7 9 9
10
50
14 0 0 1 3
16284
22.3
第三产业
20228
27.7
合计
73025
100.0
3、变量数列的编制
成绩 (分)
某班学生《统计学》考试成绩分布表
学生人数 频率 (人) (%)
向上累计
人
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学第三章数据的整理
1
统计分组的依据是()。
A、标志
B、指标
C、标志值
D、变量值
正确答案:A 我的答案:A得分:4.0分
2
在进行组距分组时,以组中值作为该组数据的代表值的假定前提条件是()。
A、各组变量值均相等
B、各组数据在本组内呈均匀分布
C、各组组距均相等
D、各组频数均相等
正确答案:B 我的答案:B得分:4.0分
3
等距分组适合于()。
A、一切变量
B、变量变动比较均匀的情况
C、呈急剧升降变动的变量
D、按一定比率变动的变量
正确答案:B 我的答案:B得分:4.0分
4
确定连续型变量的组限时,相邻的组限一般要求()。
A、不重叠
B、重叠
C、不等
D、重叠或不重叠
正确答案:D 我的答案:D得分:4.0分
5
组距数列末组的向上累计为()。
A、该组的频数
B、频数之和
C、该组的频率
D、末组的向下累计频数
正确答案:B 我的答案:B得分:4.0分
6
反映人口死亡现象按年龄分布的次数分布为()。
A、钟形分布
B、U型分布
C、J型分布
D、反J型分布
正确答案:B 我的答案:B得分:4.0分
7
组数与组距的关系是()。
A、组数越多,组距越小
B、组数越多,组距越大
C、组数与组距无关
D、组数越少,组距越小
正确答案:A 我的答案:A得分:4.0分
8
按某一标志分组的结果表现为()。
A、组内同质性,组间同质性
B、组内同质性,组间差异性
C、组内差异性,组间同质性
D、组内差异性,组间差异性
正确答案:B 我的答案:B得分:4.0分
9
连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,末组的组中值为()。
A、260
B、215
C、230
D、185
正确答案:C 我的答案:C得分:4.0分
10
某年收入变量数列,其分组依次为10万元以下,10—20万元,20—30万元,30万元以上,则有()。
A、10万元应归入第一组
B、20万元应归入第二组
C、20万元应归入第三组
D、30万元应归入第三组
正确答案:C 我的答案:C得分:4.0分
二.多选题(共5题,20.0分)
1
统计资料整理的内容一般包括()。
A、资料审核
B、统计分组
C、统计汇总
D、编制统计表
正确答案:ABCD 我的答案:ABCD得分:4.0分
2
在分配数列中,()。
A、各组的频数之和应等于100
B、各组的频率之和应等于100%
C、某组频率越大,则该组标志值所起的相对作用就越大
D、某组频数越大,则该组标志值所起的绝对作用就越大
正确答案:BC 我的答案:BC得分:4.0分
统计表从形式上看由()组成。
A、总标题
B、横行标题
C、纵栏标题
D、主词
正确答案:ABC 我的答案:ABC得分:4.0分
4
统计表从内容上看由()组成。
A、总标题
B、横行标题
C、主词
D、宾词
正确答案:ABC 我的答案:CD得分:0.0分
5
选择分组标志时应考虑的因素有()。
A、统计研究目的或分组目的
B、标志能否反映事物本质
C、是区分事物数量差别还是性质差别
D、现象所处的客观历史条件
正确答案:ABD 我的答案:ABD得分:4.0分
三.判断题(共10题,40.0分)
1
按一个标志进行分组的是简单分组,按多个标志进行分组的是复合分组。
我的答案:√得分:4.0分正确答案:√
2
向上累计是各组上限以下的累计频数或累计频率,当所关注的是标志值较小的现象的次数分配情况时,通常采用向上累计。
我的答案:√得分:4.0分正确答案:√
资料审核的内容主要包括完整性、准确性和及时性三方面。
我的答案:√得分:4.0分正确答案:√
4
在编制变量数列时,若资料有特大或特小的极端数值,则宜采用开口组表示。
我的答案:√得分:4.0分正确答案:√
5
所谓“上限不在内”原则,是指当某单位的标志值恰好等于某组上限时,就把该单位归入该组。
我的答案:×得分:4.0分正确答案:×
6
能够对总体进行分组,是由于统计总体中各单位所具有的差异性决定的。
我的答案:√得分:4.0分正确答案:√
7
开口组组距数列计算的组中值为近似值。
我的答案:√得分:4.0分正确答案:√
8
饼状图是以图形面积的大小表现各组的频数或频率的大小。
我的答案:√得分:4.0分正确答案:√
9
分组标志的种类主要包括品质标志分组、数量标志分组和空间标志分组。
我的答案:×得分:4.0分正确答案:×
10
向下累计是各组下限以上的累计频数或累计频率,当所关注的是标志值较大的现象的次数分配情况时,通常采用向下累计。
我的答案:√得分:4.0分正确答案:√。