第三章社会统计资料的整理

合集下载

第三章社会统计资料的整理

第三章社会统计资料的整理
表1 某班学生统计学考试成绩表
本例视研究对象本身的特点和研究的目的,按组距为10,定组数为5。按经验的看法,组数过多过少都不妥,一般情况下可分为5~7组,组数尽可能取奇数,避免偶数。
(二)等距分组和异距分组 组距数列根据组距是否相等,分为等距数列和异距数列两种。等距数列中各组组距都是相等的(如表1所示);异距数列中每组的组距是不全相等的(如表2所示)。
分配数列是统计分组的一种重要形式,它可以反映总体的结构分布状况和分布特征,这对于统计分析是很重要的。根据分组标志的不同,分配数列可分为两种:品质分配数列(简称品质数列);变量分配数列(简称变量数列)。 按品质标志分组形成为品质数列。品质数列由各组名称和次数组成。各组次数可以用绝对数表示,即频数;也可以用相对数表示,即频率。见表3-3。
由此可见,变量数列也是由各组名称(由变量值表示)和次数(或频率)组成。频率大小表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率大小。变量的具体数值即变量值通常用符号x表示;各组单位数即次数或频数(其相对形式即频率)通常用符号f表示。变量数列的编制,特别是其中组距数列的编制是比较复杂的,下面就组距数列的编制方法专门加以研究。
等距数列适用于标志变异比较均匀的现象,或者说,各组性质差异是由变量值均匀增加或减少而引起的。例如,学生成绩60分以上者,每增加10分就进入高一级档次。人口按身长、体重的分组等,一般均采用等距数列。
2、异距数列。异距数列各组次数的数值受组距不同的影响。在研究各组次数实际分布时,要消除组距不同的影响,这就要将不等组距的次数换算成标准组距次数。可以数列中最小组组距为标准组距,将不等组距次数换算为统一的标准组距次数,并以此绘制图形,或者是在原数列基础上先计算次数密度或频率密度,其公式为: 次数密度=各组次数/各组组距 频率密度=各组频率/各组组距 以上两种方法实质上是一样的。

第3章 统计整理

第3章 统计整理



(2)必须选择最主要的标志作为分组依据;
例3:根据统计调查资料来研究人民生活水平变动情况时, 可供选择的分组标志有家庭人口数、每户就业人数、每 一就业者负担人数、家庭总收入、平均每人每月生活费 收入等,其中最能反映人民生活水平变动的标志是:平 均每人每月生活费收入,应选择这一标志作为分组标志。
练习:企业按净产值分组为:单位(万元) 10以下 10-20 20-30 计算首组和末组的组中值。 30-40 40-70 70以上 首组组中值=10-10/2=5(万元) 末组组中值=70+30/2=85(万元)
第四节
统计汇总
一、统计汇总:即在统计分组的基础上,将统计资料
归并到各组中去,并计算各组和总体的合计数(包 括单位总数和标志总量)的工作过程。


例如:对全国的工业企业进行
简单分组: 按所有制类型分:全民所有制企业、集体所有制企业 按轻重工业分:重工业、轻工业 按企业规模大小分:大型企业、中型企业、小型企业

复合分组:
重工业 全民所有制 轻工业 集体所有制
大型企业 中型企业 小型企业
重工业
轻工业

3、按分组标志的性质分为品质分组和数量分 组。
N 15-24 25-44 45-89 90-179 n 5 6 7 8
180-359 9
360-719 10
适用条件:
1.近似正态分布 2.现象特性适合等距分组


组限:指每组两端数值。分为上限和下限。 上限:每组的终点数值(最大值)。 下限:每组的起点数值(最小值)。 组限的形式:与变量的特点有关,重合式和不重合式。
第一节 统计整理的意义和程序
一、统计整理的意义 二、统计整理的程序

第三章 统计资料整理

第三章  统计资料整理

2.分组表: 2.分组表:主词按一个标志分组的统计表. 分组表
复合表: 3. 复合表:主词按两个或两个以上标志复合 分组的统计表. 分组的统计表.
四,统计表的编制原则
应遵循科学,实用,简明,美观的原则. 应遵循科学,实用,简明,美观的原则. 统计表的各种标题要简明扼要; 1.统计表的各种标题要简明扼要; 要合理安排统计表的结构; 2.要合理安排统计表的结构; 数据计量单位相同时,可放在表的右上角标明, 3. 数据计量单位相同时 , 可放在表的右上角标明 , 不同 时应放在每个指标后或单列出一列标明; 时应放在每个指标后或单列出一列标明; 表中的上下两条横线一般用粗线,其他线用细线; 4.表中的上下两条横线一般用粗线,其他线用细线; 5.统计表的栏数较多时,通常要加以编号; 统计表的栏数较多时,通常要加以编号; 通常情况下,统计表的左右两边不封口; 6.通常情况下,统计表的左右两边不封口; 表中的数字应该填写整齐,对准位数; 7.表中的数字应该填写整齐,对准位数; 对于没有数字的表格单元,一般用" 表示; 8.对于没有数字的表格单元,一般用"—"表示; 表中主词各行和宾词各栏, 9. 表中主词各行和宾词各栏 , 应按先局部后整体的原则 排列; 排列; 10.必要时可在表的下方加上注释. 10.必要时可在表的下方加上注释.

编制
四,次数分布的主要类型 钟型分布——"两头小,中间大" 两头小,中间大" 钟型分布 两头小
对称分布
右偏分布
左偏分布
两头大, U型分布——"两头大,中间小" 型分布 两头大 中间小"
U型分布
一边小, J型分布——"一边小,一边大" 型分布 一边小 一边大"

社会统计资料的整理

社会统计资料的整理

第三章社会统计资料的整理原始资料杂乱无章,需加整理,才能为人所用。

统计资料的整理,其基础是统计分组。

所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。

第一节统计分组的原则与标准统计分组的标志分为数量标志和品质标志两大类。

按国际惯例,无论采用何种标志进行统计分组,都应遵循以下一般原则:(1)分组应使各类别构成之和等于总体;(2)分组设计应能反映统计总体的分布规律性。

在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。

频数分布数列是统计分组工作的产物。

显然,按品质标志进行分组,我们可以得到品质数列;按数量标志进行分组,我们可以得到变量数列。

统计分组的关键在于选择分组标志和划分各组界限。

一般来讲,按品质标志来分组,其差别比较明确,区分也较容易。

按数量标志来分组则不同,对于划分各组界限,变量数列有较大的任意性。

如果划分不当,不仅容易混淆各组的差别,也可能无法反映变量的分布特征。

在统计整理和统计分析中,广泛应用变量数列,借以观察某一数量标志的变动及其分布状况。

因此,如何编制变量数列是我们重点需要掌握的。

第二节统计表统计调查搜集来的资料往往是没有次序的原始资料,使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。

变量数列是统计表的一种常用形式。

1.统计表的格式、内容与种类统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。

统计表的主要功用是汇总和积累统计资料,以简捷和有条理的方式表示统计资料的特征,从而使统计资料易于查对、比较、分析和记忆。

统计表通常有一定格式:总标题、横行标题(表侧)、纵栏标题(表头)、统计数值(表身)。

社会统计资料的整理练习题

社会统计资料的整理练习题

第三章社会统计资料的整理一、填空1.统计表从内容上看,是由()和宾词两部分构成的。

2.主词是统计表要说明的();宾词是用来说明主词的()。

3.统计表通常有一定格式,统计表各部位的名称分别是()、横行标题、纵栏标题、()。

4.统计分组的关键在于()和划分各组界限,统计分组法是统计资料________阶段的基本方法。

5.统计表按主词的分组情况,可分为简单表、简单分组表和()。

6、变量数列中各组标志值出现的次数称________,各组单位数占单位总数的比重称________。

7. 各组频数与组距之比称为__________,频数分配数列按照数量标志分组可以得到__________ 。

8.将全部变量值依次划分为若干个区间,并将每一区间的变量值作为一组,这样的分组方法称为________分组。

9. 变量数列有两个构成要素()和()。

对于连续变量,恰是某一组限的数据应按照____的原则归入相应的组别。

10.若采用异距分组,_______反映单位组距内分布的频数。

2.在频数分布图中,()标示为曲线的最高点所对应的变量值。

11.绘制直方图时,对于___变量和定序变量的分组,矩形的宽度是没有意义的。

6.u型曲线的特征是_______。

12.实际收入分配情况则由洛仑兹曲线表示,一般表现为一条下凹的弧线,下凹程度愈大,收入分配(),反之,则收入分配()。

13.基尼系数为(),表示收入绝对不平均;基尼系数为(),表示收入绝对平均。

二、单项选择题1.统计整理所涉及的资料是( C )。

A.原始资料B.次级资料C.原始资料和次级资料D.统计分析后的资料2. 单项数列分组通常只适用于( ) 的情况。

A.离散变量且变量值较多B.连续变量,但范围较大C.离散变量且变量值较少D.连续变量,但范围较小4.以一、二、三等品来衡量产品质地的优劣,那么该产品等级是()。

A. 品质标志B. 数量标志C. 质量指标D. 数量指标7. (B )的数列属于连续型变量数列。

第三章 统计整理(第3、4节)

第三章 统计整理(第3、4节)

2.组距数列的编制
组距数列:指每个组的变量值用一个区间来表现的变量数列。
编制条件:
变量是连续变量; 或:总体单位数较多变量不同取值个数也较多的离散变量。 编制步骤:


(1)将变量按由小到大的顺序排列,以看出变量值变动的范围大小 ,并确定全距。 全距=最大变量值-最小变量值
@2012 SIE Management Engineer System
5
第三章 统计整理



二、分类数列的种类
(一)品质数列
根据品质标志分组形成的分配数列叫品质分配数列,简称品质数列。


(二)变量数列
根据数量标志分组形成的分配数列称为变量分配数列,简称变量数列 。
@2012 SIE Management Engineer System
6
第三章 统计整理



三、变量数列的种类
13
第三章 统计整理

(2)确定组距和组数。 等距数列:变量值变动区间的长度相等。 异距数列:变量值变动区间的长度不完全相等。
确定组距的原则:
要能区分各组的性质差异 要能反映总体资料的分布特征 为方便计算,尽可能为5或10的整数倍 (3)确定组限及组限的表式方法。 (4)计算频数,编制变量数列。
日产量/件 20 21 22 23 24 25 26 合计 工人数/人 3 5 6 4 3 2 1 24 比重/% 12.5 20.8 25.0 16.7 12.5 8.3 4.2 100.0
@2012 SIE Management Engineer System
12
第三章 统计整理



100以下

第三章--统计整理-幻灯片(1)

第三章--统计整理-幻灯片(1)

如某班学生按年龄分组:17岁,18岁,19岁, 20岁, 21岁,22岁。
组距式分组
将作为分组依据的数量标志的整个取 值范围依次划分为若干个满足互斥性
和包容性的区间,用这些数值区间作
为组的名称。
某班学生统计 学原理成绩分 组
60分以下 60—70分 70—80分 80—90分 90分以上
组距式分组中的一些概念 《统计学原理》第三章 统计整理
对教师 的分类
按性别分类
男性 女性
高级 按职称分类 中级 共计7组
初级 2+3+2
青年 按年龄分类
中年
复合分组体系
对教师 的分类
按性别 分类
按职称 分类
按年龄 分类
《统计学原理》第三章 统计整理
共计12组 男 2×3×2
女 高级
中级
初级 青年 中年
《统计学原理》第三章 统计整理
统计资料的再分组
• 统计资料的再分组就是把统计分 组资料按某种要求,重新划定各 组界限,再将资料中的单位数或 比重分布重新做出调整。
对总体单位而言,是“合”,即将性质相同的 个体组合起来,在同一组内则保持着相同的性 质。
分组
《统计学原理》第三章 统计整理
25%
33%
分组前
分组后
42%
作用:1·区分事物的性质
例:按所有制性质划分,我国现有8种经济类型:
国有经济;集体经济;私营经济;个体经济 联营经济;股份制经济;外商投资经济;港 澳台投资经济
将统计调查得到的原始资料进行科
统计整理 学的分类和汇总,使之成为系统化、
条理化的综合资料,以反映研究总 体的特征。
地位 是统计调查的继续,统计分析的前提 和基础,起着承前启后的作用。

第三章统计整理

第三章统计整理
66.78% 10.33%
20.27%
68.70% 11.03%
16.60%
70.14% 13.26%
工厂按产量分组
Â Ý Ô · 1 2 3 4 5 6 Ï Æ º ¼
ú ¿ ¨Ô ² Á £ ª þ © ¼ £ x
2 3 4 3 4 5 21
¥ » É ± µ Î ³ ¾ ¨Ô £ y £ ª © 73 72 71 73 69 68 426
•向下累计是将各组频数和频率由变量值大的组 向变量值小的组累计(是各组下限以上的累计频 数或累计频率)
向下累计 生活费 250 275 300 325 350 375 合计 频数 10 8 12 9 5 6 50 累计频数 50 40 32 20 11 6 累计频率 100% 80% 64% 40% 22% 12%
2. 统计表的内容构成:主词部分和宾词部分。
注:统计表的构成和内容构成见表3-2
总标题
表3-2
按考试成绩分组 (分)
某班统计学原理考试成绩分布表
频数 组中值 学生数 (人) 比重 (%) 向上累计 学生数 (人) 比重 (%) 向下累计 学生数 (人) 比重 (%)
纵 栏 标 题
90以上 80-90 横 行 标 题 70-80 60-70 60以下 合计
大型企业 中型企业 小型企业 大型企业 中型企业 小型企业 重工业
轻工业
按分组标志的性质分

学生按性别分组
男 女
学生按民族分组
学生按考试成绩分组
90分以上 80-90 70-80 60-70 60 分以下 19岁及以下 20岁 21岁 22岁 23岁 24岁及以上
汉族 回族 苗族 土家族 羌族 壮族 . . .
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章社会统计资料的整理
原始资料杂乱无章,需加整理,才能为人所用。

统计资料的整理,其基础是统计分组。

所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。

第一节统计分组的原则与标准
统计分组的标志分为数量标志和品质标志两大类。

按国际惯例,无论采用何种标志进行统计分组,都应遵循以下一般原则:(1)分组应使各类别构成之和等于总体;(2)分组设计应能反映统计总体的分布规律性。

在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。

频数分布数列是统计分组工作的产物。

显然,按品质标志进行分组,我们可以得到品质数列;按数量标志进行分组,我们可以得到变量数列。

统计分组的关键在于选择分组标志和划分各组界限。

一般来讲,按品质标志来分组,其差别比较明确,区分也较容易。

按数量标志来分组则不同,对于划分各组界限,变量数列有较大的任意性。

如果划分不当,不仅容易混淆各组的差别,也可能无法反映变量的分布特征。

在统计整理和统计分析中,广泛应用变量数列,借以观察某一数量标志的变动及其分布状况。

因此,如何编制变量数列是我们重点需要掌握的。

第二节统计表
统计调查搜集来的资料往往是没有次序的原始资料,使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。

变量数列是统计表的一种常用形式。

1.统计表的格式、内容与种类
统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。

统计表的主要功用是汇总和积累统计资料,以简捷和有条理的方式表示统计资料的特征,从而使统计资料易于查对、比较、分析和记忆。

统计表通常有一定格式:总标题、横行标题(表侧)、纵栏标题(表头)、统计数值(表身)。

统计表从内容上看,是由主词和宾词两部分构成的。

主词是统计表所要说明的对象,它可以是总体各单位的名称、总体的各个组或总体单位的全部。

宾词是用来说明主词的标志和标志值(或指标名称和指标数值)。

主词通常列于表的左瑞,宾词通常列于表的上端。

但有时为了编排合理和阅读方便,也可以互换位置,将主词置于表的上端,将宾词置于表的左瑞。

统计表的种类是按主词和宾词交叉划分的。

统计表按主词是否分组以及分组的程度,可分为简单表、简单分组表和复合分组表。

统计表按宾词如何表达和配置,可分为简单设计两种。

2.统计表的制作规则
第三节 变量数列的编制
在社会统计学中,总体中各单位的分布特征首先是用统计表来表示的。

能够表示变量分布及其特征的统计表,即变量数列。

它的编制,在社会统计资料的整理中有特殊的意义。

变量数列有两个构成要素;①变量值——用来分组并按大小顺序排列的数量标志的具体数值,用符号i X 表示;②频数——总体单位在各组中出现的次数,用符号i f 表示。

将各组频数除以总体单位总数N (也称总体容量),就得到相对频数,简称频率.用符号i P 表示。

用频率也可以将变量分布的状况清晰地表示出来。

变量数列的编制比较复杂,这不仅因为划分各组界限有较大弹性,而且因为因变量有离散变量和连续变量之别,需分别加以讨论。

1.对于离散变量
离散变量所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数.因而能编制出单项式和组距式两种变量数列。

所谓单项数列,是指数列中每一个变量值一组,有几个变量值就有几组;所谓组距数列,是指数列中每一组由两个变量值的一个差值范围来表示。

首先,离散变量的整数值如果变动幅度较小,可以将每一个变量值列为一组,编制单项数列。

其次,离散变量的整数值如果变动幅度较大,而且总体单位数N 又很大,则要编制组距数列。

组距数列又有等距和异距两种。

组距数列的首组和末组还有开口组和闭口组之别。

对离散变量编制组距数列的具体做法是:在变量值变动的最大范围内,将全部变量值依次划分为几个区间,一个区间内的所有变量归为一组。

变量值变动的最大范围称为全距(R );区间距离(i h )称为组距;组距两端的数值称为组限;上限与下限之差就是组距;上限和下限之间的中点数值(i m )称为组中值。

2.对于连续变量
连续变量因其数学特征,在一个区间可以有无限多数值,无法按顺序一一列举,所以只能编制组距数列。

与离散变量组距数列不同之处在于,根据连续变量的特征,此时组距数列中相邻两组的上限和下限共有一个组限,即相邻两组交界处的组限重合。

至于恰等于某一组限的数据归于哪一组,应该按照“上限不包括在内”的原则处理。

有了这一规定,就不会在编制连续变量的数列时,发生违背“穷举”与“互斥”这两个基本原则的情况了。

3.组距和组数的确定
显然,组距和组数两者成反比关系。

因为等距分组和闭口组有编制方便、便于计算和便于绘制统计图等优点,因而统计分组应尽量采用等距分组以及闭口组。

但是如果碰到有极端值的情况,就要采取首组“向下开口”或末组“向上开口”的方式来处理。

异距分组主要在变量变动很不均匀而有急剧上升或突然下降之类情况发生时考虑。

有时,为了适应某项专门工作的需要,也采用异距分组。

4.累计频数
累计频数一般用大写字母F来表示。

累计又分向上累计和向下累计。

所谓向上累计,是以变量数列首组的频数为始点,逐个累计各组的频数,每组累计频数展示了小于该组上限的频数合计有多少。

所谓向下累计,则是以变量数列末组的频数为始点,逐个累计各组的频数,每组累计频数展示了大于该组下限的频数合计有多少。

当然,累计也可以根据相对频数分布来进行,得到的便是相对频数累计(或百分数累计)了。

第四节统计图
频数分布不但可以用统计表的形式表现,也可以用统计图的形式表现。

用统计图表示频数分布,较之用统计表,要直观便捷得多。

但缺点是不及统计表精确。

统计图的种类很多,本书使用的统计图有频数(频率)分布图、时间数列的历史曲线、相关关系的散点图等等。

根据编制好的频数分布数列,可以绘制出相应的统计图,最常用的有频数分布直方图、折线图、曲线图以及累计频数分布曲线。

具体方法是:先画直角坐标,横轴代表分组或各组组限,纵轴代表各组频数或频率,然后再根据相应的分配数列作图。

洛仑兹(Lorenz)曲线是一种用来反映社会收入分配平均程度的累计百分数曲线。

洛仑兹曲线的特点是在纵轴和横袖两个方向上都进行累计。

20世纪初意大利经济学家基尼(Gini)根据洛仑兹曲线提出了一种判断社会收入分配平
均程度的指标,用G表示。

设实际收入分配曲线和收入分配绝对平均线之间的面积为A,实际收入分配曲线右下方的面积为B。

并以A除以A+B的商表示不平均程度。

这个数值被称为基尼系数。

相关文档
最新文档