社会统计资料的整理

合集下载

第三章社会统计资料的整理

第三章社会统计资料的整理
表1 某班学生统计学考试成绩表
本例视研究对象本身的特点和研究的目的,按组距为10,定组数为5。按经验的看法,组数过多过少都不妥,一般情况下可分为5~7组,组数尽可能取奇数,避免偶数。
(二)等距分组和异距分组 组距数列根据组距是否相等,分为等距数列和异距数列两种。等距数列中各组组距都是相等的(如表1所示);异距数列中每组的组距是不全相等的(如表2所示)。
分配数列是统计分组的一种重要形式,它可以反映总体的结构分布状况和分布特征,这对于统计分析是很重要的。根据分组标志的不同,分配数列可分为两种:品质分配数列(简称品质数列);变量分配数列(简称变量数列)。 按品质标志分组形成为品质数列。品质数列由各组名称和次数组成。各组次数可以用绝对数表示,即频数;也可以用相对数表示,即频率。见表3-3。
由此可见,变量数列也是由各组名称(由变量值表示)和次数(或频率)组成。频率大小表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率大小。变量的具体数值即变量值通常用符号x表示;各组单位数即次数或频数(其相对形式即频率)通常用符号f表示。变量数列的编制,特别是其中组距数列的编制是比较复杂的,下面就组距数列的编制方法专门加以研究。
等距数列适用于标志变异比较均匀的现象,或者说,各组性质差异是由变量值均匀增加或减少而引起的。例如,学生成绩60分以上者,每增加10分就进入高一级档次。人口按身长、体重的分组等,一般均采用等距数列。
2、异距数列。异距数列各组次数的数值受组距不同的影响。在研究各组次数实际分布时,要消除组距不同的影响,这就要将不等组距的次数换算成标准组距次数。可以数列中最小组组距为标准组距,将不等组距次数换算为统一的标准组距次数,并以此绘制图形,或者是在原数列基础上先计算次数密度或频率密度,其公式为: 次数密度=各组次数/各组组距 频率密度=各组频率/各组组距 以上两种方法实质上是一样的。

社会实践中的统计数据分析方法

社会实践中的统计数据分析方法

社会实践中的统计数据分析方法统计学作为一门科学,广泛应用于社会实践中的各个领域。

它通过收集、整理和分析数据,帮助我们了解现象背后的规律,并为决策提供依据。

在本文中,我们将探讨社会实践中的统计数据分析方法。

一、数据收集与整理在进行统计数据分析之前,首先需要进行数据的收集与整理。

数据的收集可以通过问卷调查、实地观察、实验研究等方式进行。

在选择数据收集方法时,需要根据研究目的和数据的可行性进行合理选择。

而数据的整理则是将收集到的数据进行分类、筛选、清洗和归档,以便后续的分析工作。

二、描述性统计分析描述性统计分析是对数据进行总结和描述的方法。

它通过计算数据的中心趋势(如均值、中位数、众数)、离散程度(如标准差、极差)和数据的分布情况(如频数分布、百分位数)等指标,来描述数据的特征。

描述性统计分析可以帮助我们了解数据的基本情况,为后续的推断性统计分析提供参考。

三、推断性统计分析推断性统计分析是基于样本数据对总体进行推断的方法。

它通过对样本数据进行抽样分析,得出关于总体的概率推断。

常见的推断性统计分析方法包括假设检验和置信区间估计。

假设检验通过对样本数据进行假设检验,判断总体参数是否符合某种假设;置信区间估计则是通过对样本数据进行分析,给出总体参数的一个区间估计,以反映估计结果的不确定性。

四、相关性分析相关性分析是研究两个或多个变量之间关系的方法。

它通过计算相关系数来衡量变量之间的相关程度。

常见的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。

相关性分析可以帮助我们了解变量之间的相关性质,从而为决策提供依据。

五、回归分析回归分析是研究因果关系的方法。

它通过建立统计模型,分析自变量对因变量的影响程度。

回归分析可以帮助我们预测和解释变量之间的关系,并从中找出影响因素。

常见的回归分析方法包括线性回归、逻辑回归和多元回归等。

六、时间序列分析时间序列分析是研究时间上变化的方法。

它通过对时间序列数据进行建模和分析,揭示数据随时间变化的规律。

社会统计资料的整理练习题

社会统计资料的整理练习题

第三章社会统计资料的整理一、填空1.统计表从内容上看,是由()和宾词两部分构成的。

2.主词是统计表要说明的();宾词是用来说明主词的()。

3.统计表通常有一定格式,统计表各部位的名称分别是()、横行标题、纵栏标题、()。

4.统计分组的关键在于()和划分各组界限,统计分组法是统计资料________阶段的基本方法。

5.统计表按主词的分组情况,可分为简单表、简单分组表和()。

6、变量数列中各组标志值出现的次数称________,各组单位数占单位总数的比重称________。

7. 各组频数与组距之比称为__________,频数分配数列按照数量标志分组可以得到__________ 。

8.将全部变量值依次划分为若干个区间,并将每一区间的变量值作为一组,这样的分组方法称为________分组。

9. 变量数列有两个构成要素()和()。

对于连续变量,恰是某一组限的数据应按照____的原则归入相应的组别。

10.若采用异距分组,_______反映单位组距内分布的频数。

2.在频数分布图中,()标示为曲线的最高点所对应的变量值。

11.绘制直方图时,对于___变量和定序变量的分组,矩形的宽度是没有意义的。

6.u型曲线的特征是_______。

12.实际收入分配情况则由洛仑兹曲线表示,一般表现为一条下凹的弧线,下凹程度愈大,收入分配(),反之,则收入分配()。

13.基尼系数为(),表示收入绝对不平均;基尼系数为(),表示收入绝对平均。

二、单项选择题1.统计整理所涉及的资料是( C )。

A.原始资料B.次级资料C.原始资料和次级资料D.统计分析后的资料2. 单项数列分组通常只适用于( ) 的情况。

A.离散变量且变量值较多B.连续变量,但范围较大C.离散变量且变量值较少D.连续变量,但范围较小4.以一、二、三等品来衡量产品质地的优劣,那么该产品等级是()。

A. 品质标志B. 数量标志C. 质量指标D. 数量指标7. (B )的数列属于连续型变量数列。

统计资料保存、管理制度

统计资料保存、管理制度

统计资料保存、管理制度一、前言统计资料保存、管理制度是为了规范统计资料的收集、整理、保存、利用和销毁而制定的一系列制度和规定。

在当今信息化时代,各种统计资料的收集和利用已经成为各行各业不可或缺的一部分。

建立一套科学完善的统计资料保存、管理制度对于各种机构和企业至关重要。

二、统计资料的分类统计资料主要可以分为纸质资料和电子资料两种形式。

纸质资料包括各种报表、文件、表格等纸质载体,而电子资料则是指各种数字化的数据、文件等。

针对这两种不同的形式,统计资料保存、管理制度应当有所不同的规定。

三、统计资料保存管理制度的内容1、统计资料的收集在统计资料保存、管理制度中,首先需要规定统计资料的收集程序和要求。

包括对于哪些数据进行收集和记录、如何进行数据采集、由谁来负责数据的录入等详细的规定。

2、统计资料的整理和保存统计资料整理和保存是非常重要的环节,它关乎到统计数据的真实性和可靠性。

在统计资料保存、管理制度中应当规定统计数据的整理程序和标准,以及统计资料的保存时限和保存形式等。

3、统计资料的利用统计资料的利用是统计工作的最终目的,因此在统计资料保存、管理制度中也应当有相关规定。

包括如何进行数据分析、报表的制作、数据的报送和共享等方面的规定。

4、统计资料的销毁统计资料的销毁是保护数据安全和信息安全的重要环节。

在统计资料保存、管理制度中应当规定统计资料的销毁程序和要求,包括哪些数据可以销毁、如何销毁、由谁来负责销毁等方面的规定。

五、统计资料保存管理制度的要求1、合法合规统计资料保存、管理制度应当遵循相关法律法规规定,确保统计数据的合法合规性。

2、科学严谨统计资料保存、管理制度应当科学严谨,确保统计数据的准确性和可靠性。

3、便捷高效统计资料保存、管理制度应当考虑到信息化和数字化的发展趋势,保证统计数据的便捷获取和高效利用。

4、安全可靠统计资料保存、管理制度应当注重数据安全和信息安全,确保统计数据不受损坏、篡改或泄露。

第4章 统计资料整理

第4章   统计资料整理

20
例:某企业工人日产量资料如下
日产量分组(件) 工人数 日产量分组(件) 工人数
50—60 60—70 70—80 80—90
6
90—100
15
9
100—110
18
12
110—120
20
14
120—130
8
要求:1、指出上述变量数列属于哪一种变量数列? 这个数列说明什么问题?
2、指出统计表中的变量、变量值、上限、下限、次 数、频率、总体单位总数
200以下 10 200—400 30 400—600 35 600—800 15 800以上 10
频率 10%
30% 35% 15% 10%
要求:各组的频率大于0,各组的频率总和等于1 •累计频数指首先列出各组的组限,然后依次累计到本 组为止的各组频数。 •累计频率指累计频数除以频数总和。
2019/9/26
2019/9/26
27
平衡数列
平衡数列是利用总体内部有关变量或统计指标之间 的数量平衡关系而编制的统计数列,又称平衡表。
结构关系、比例关系 平衡关系有:相加平衡关系、相减平衡关系、收支
平衡关系。 分类
按内容不同分为人口平衡表、劳动力平衡表等。 按计量单位不同有价值量平衡表、实物量平衡表。 按统计范围不同分为综合平衡表、专项平衡表。 按排列不同分为收支对照式和棋盘式。
• 汇总技术:
手工汇总:划记法、过录法、折叠法、卡片法。
电子计算机汇总
5、表现统计资料
编表:经过汇总,得出表明社会现象总体和各个组的单 位数和一系列标志总量的资料,把这些资料按一定的规则在 表格上表现出来。
统计表、统计图、统计报告、统计模型、统计数据库

统计数据的整理和显(1)

统计数据的整理和显(1)
• 正确选择分组标志 ——根据统计研究的目的选择 ——在多个标志中选择最能反映事物本质特征的标志 ——注意不同时代标志的意义变化
分组的原则:穷尽和互斥
1.按品质标志分组或按数量标志分组,或用两 种标志结合分组 2.按主要标志与辅助标志分组
(四)统计分组体系
1.简单分组与平行分组
标 按性别分组
志 男性 女性
(二)统计分组的作用
1.划分性质不同的各种类型,研究其特征和规律性
表1 我国近几年农业总产值情况 单位:亿元
类型 1995年 1996年 1997年 1998年
农业 11884.6 13539.8 13866.9 14099.3
林业
709.9
778 817.8 848.7
牧业
6044.9 7083 7620.3 7729.8
如:某校按学生人数分组,其组限为: 100人以下 101—200 201—300 301人以上
组距分组中,上述分组都是等距分组,即各组组 距相等,其特点是:
由于各组组距相等,各组次数的分布不受组距大 小的影响,它消除了组距对其分布的影响,与次数 密度的分布是一致的,一般呈正态分布。
同时也存在不等距分组即只要有一组组距不相等的 分组,也称异距分组。例如学生年龄18岁以下,1920,21-24,25岁以上等。其特点是:
60—70
—60
70以上等
61人以上等
我们把这种分组形式称为开口组。“以下”称之 为下开口,“以上”称之为上开口。
下开口的组中值=本组上限-(1/2)*相邻组 的组距
上开口的组中值=本组下限+(1/2)*相邻组 的组距
例如结合上面学生成绩的分布计算其组中值 下开口组中值=60-(1/2)×(70-60)=55 上开口组中值=70+(1/2)×(70-60)=75

第三章 统计资料整理

第三章 统计资料整理

31
简单表案例
某年某公司所属两企业自行车合格品数量表
厂别 甲厂 乙厂 合 计 合格品数量(辆) 5000 7000 12000
32
简单分组表案例
2005年某月某公司各企业劳动生产率统计表 分组 总产值 (万元) 职工人 数(人) 劳动生产率 (元/人)
大型
中型 小型 合计
33
复合分组表案例
某年某地区工业增加值和职工人数
26
第三步:确定组限和组中值。以区分事物质的差别。
对于离散变量,相邻组组限可以间断,也
可重叠;
对于连续变量,相邻组组限必须重叠; 符合“上组限不计入”原则; 首末两组可使用“××以下”及“××以
上”的开口组。
27
第四步:归类汇总,计算各组次数。
本着“不重复,不遗漏”的原则,按照各个总体单位的具体 标志值,将其划归某一具体组之中。 对于重叠设置的组距数列,要本着“上限不在内”的原则。
19
某地区人口分布状况
人口按年龄分组 1岁以下(婴儿组) 1-7岁(幼儿组) 7-17岁(学龄儿童组) 17-55岁(有劳动能力的人口组) 55岁以上(老年组) 合计
人口数(万人) 1 6 12 24.6 8.1 51.7
20
对于异距数列,为了消除各组组距大小对次数分布的影响,
需计算
次数密度=该组次数/该组组距
14-16
16-18 18-20
16
12 5
540
620 680
8
三、统计分组的种类和分组标志的选择
(一)统计分组的种类 1、按标志的性质不同分为:品质标志分组和数量标志分组: 2、按选择标志的多少不同,可分为: 简单分组:对统计总体仅按一个标志进行分组。特点:只能 反映现象在某一标志特征方面的差异情况,说明的问题比较 简单明了。 复合分组:对同一总体采用两个或两个以上的标志重叠起来 进行分组。特点:可从几个不同角度了解总体内部的差别和 关系,因此能更全面、更深入地研究问题;复合分组的组数 随着分组标志的增加而成倍地增加。

统计学第三章 统计数据的整理

统计学第三章 统计数据的整理

汇总技术:
有传统手工汇总和现代电子计算机汇总两种技术。
(1)手工汇总。常用的汇总方式有四种: • 划记法。划“正”字符号计数,多用于对总体单位数或次数的简单汇总。
• 过录法。将原始资料分类过录到事先设计的汇总简表中,可用于对内容项 目较多的资料的汇总。
• 折叠法。将每张调查表中需要汇总的同类项目及数据折压一个印记,一张 一张的重叠在一起,再进行汇总。这种方法一次只能选择一个项目及其数 据进行汇总,故适用于数据较少的资料。
• 卡片法。将需要汇总的项目数据分类登记在卡片上,再汇总计算。这种方 法适用于总体单位数多、且多采用复合分组形式的事物,特别是设备、器 材类的实物资产的汇总。
(2)电子计算机汇总。其数据处理程序如下: • 第一步,编程。使用计算机语言编写出一套完整的数据处理程序。
• 第二步,数据录入。计算机自动按程序进行数据处理,并将数据处理结果 存储在磁盘、磁带等磁介质中。
树茎
数叶
数据 个数
10 7 8 8
3
11 0 2 2 3 4 5 7 7 7 8 8 8 9
13
向上累 计个数
3
16
12 0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9
24
40
13 0 1 3 3 4 4 5 7 9 9
10
50
14 0 0 1 3
16284
22.3
第三产业
20228
27.7
合计
73025
100.0
3、变量数列的编制
成绩 (分)
某班学生《统计学》考试成绩分布表
学生人数 频率 (人) (%)
向上累计
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章社会统计资料的整理
原始资料杂乱无章,需加整理,才能为人所用。

统计资料的整理,其基础是统计分组。

所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。

第一节统计分组的原则与标准
统计分组的标志分为数量标志和品质标志两大类。

按国际惯例,无论采用何种标志进行统计分组,都应遵循以下一般原则:(1)分组应使各类别构成之和等于总体;(2)分组设计应能反映统计总体的分布规律性。

在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。

频数分布数列是统计分组工作的产物。

显然,按品质标志进行分组,我们可以得到品质数列;按数量标志进行分组,我们可以得到变量数列。

统计分组的关键在于选择分组标志和划分各组界限。

一般来讲,按品质标志来分组,其差别比较明确,区分也较容易。

按数量标志来分组则不同,对于划分各组界限,变量数列有较大的任意性。

如果划分不当,不仅容易混淆各组的差别,也可能无法反映变量的分布特征。

在统计整理和统计分析中,广泛应用变量数列,借以观察某一数量标志的变动及其分布状况。

因此,如何编制变量数列是我们重点需要掌握的。

第二节统计表
统计调查搜集来的资料往往是没有次序的原始资料,使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。

变量数列是统计表的一种常用形式。

1.统计表的格式、内容与种类
统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。

统计表的主要功用是汇总和积累统计资料,以简捷和有条理的方式表示统计资料的特征,从而使统计资料易于查对、比较、分析和记忆。

统计表通常有一定格式:总标题、横行标题(表侧)、纵栏标题(表头)、统计数值(表身)。

统计表从内容上看,是由主词和宾词两部分构成的。

主词是统计表所要说明的对象,它可以是总体各单位的名称、总体的各个组或总体单位的全部。

宾词是用来说明主词的标志和标志值(或指标名称和指标数值)。

主词通常列于表的左瑞,宾词通常列于表的上端。

但有时为了编排合理和阅读方便,也可以互换位置,将主词置于表的上端,将宾词置于表的左瑞。

统计表的种类是按主词和宾词交叉划分的。

统计表按主词是否分组以及分组的程度,可分为简单表、简单分组表和复合分组表。

统计表按宾词如何表达和配置,可分为简单设计两种。

2.统计表的制作规则
第三节 变量数列的编制
在社会统计学中,总体中各单位的分布特征首先是用统计表来表示的。

能够表示变量分布及其特征的统计表,即变量数列。

它的编制,在社会统计资料的整理中有特殊的意义。

变量数列有两个构成要素;①变量值——用来分组并按大小顺序排列的数量标志的具体数值,用符号i X 表示;②频数——总体单位在各组中出现的次数,用符号i f 表示。

将各组频数除以总体单位总数N (也称总体容量),就得到相对频数,简称频率.用符号i P 表示。

用频率也可以将变量分布的状况清晰地表示出来。

变量数列的编制比较复杂,这不仅因为划分各组界限有较大弹性,而且因为因变量有离散变量和连续变量之别,需分别加以讨论。

1.对于离散变量
离散变量所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数.因而能编制出单项式和组距式两种变量数列。

所谓单项数列,是指数列中每一个变量值一组,有几个变量值就有几组;所谓组距数列,是指数列中每一组由两个变量值的一个差值范围来表示。

首先,离散变量的整数值如果变动幅度较小,可以将每一个变量值列为一组,编制单项数列。

其次,离散变量的整数值如果变动幅度较大,而且总体单位数N 又很大,则要编制组距数列。

组距数列又有等距和异距两种。

组距数列的首组和末组还有开口组和闭口组之别。

对离散变量编制组距数列的具体做法是:在变量值变动的最大范围内,将全部变量值依次划分为几个区间,一个区间内的所有变量归为一组。

变量值变动的最大范围称为全距(R );区间距离(i h )称为组距;组距两端的数值称为组限;上限与下限之差就是组距;上限和下限之间的中点数值(i m )称为组中值。

2.对于连续变量
连续变量因其数学特征,在一个区间可以有无限多数值,无法按顺序一一列举,所以只能编制组距数列。

与离散变量组距数列不同之处在于,根据连续变量的特征,此时组距数列中相邻两组的上限和下限共有一个组限,即相邻两组交界处的组限重合。

至于恰等于某一组限的数据归于哪一组,应该按照“上限不包括在内”的原则处理。

有了这一规定,就不会在编制连续变量的数列时,发生违背“穷举”与“互斥”这两个基本原则的情况了。

3.组距和组数的确定
显然,组距和组数两者成反比关系。

因为等距分组和闭口组有编制方便、便于计算和便于绘制统计图等优点,因而统计分组应尽量采用等距分组以及闭口组。

但是如果碰到有极端值的情况,就要采取首组“向下开口”或末组“向上开口”的方式来处理。

异距分组主要在变量变动很不均匀而有急剧上升或突然下降之类情况发生时考虑。

有时,为了适应某项专门工作的需要,也采用异距分组。

4.累计频数
累计频数一般用大写字母F来表示。

累计又分向上累计和向下累计。

所谓向上累计,是以变量数列首组的频数为始点,逐个累计各组的频数,每组累计频数展示了小于该组上限的频数合计有多少。

所谓向下累计,则是以变量数列末组的频数为始点,逐个累计各组的频数,每组累计频数展示了大于该组下限的频数合计有多少。

当然,累计也可以根据相对频数分布来进行,得到的便是相对频数累计(或百分数累计)了。

第四节统计图
频数分布不但可以用统计表的形式表现,也可以用统计图的形式表现。

用统计图表示频数分布,较之用统计表,要直观便捷得多。

但缺点是不及统计表精确。

统计图的种类很多,本书使用的统计图有频数(频率)分布图、时间数列的历史曲线、相关关系的散点图等等。

根据编制好的频数分布数列,可以绘制出相应的统计图,最常用的有频数分布直方图、折线图、曲线图以及累计频数分布曲线。

具体方法是:先画直角坐标,横轴代表分组或各组组限,纵轴代表各组频数或频率,然后再根据相应的分配数列作图。

洛仑兹(Lorenz)曲线是一种用来反映社会收入分配平均程度的累计百分数曲线。

洛仑兹曲线的特点是在纵轴和横袖两个方向上都进行累计。

20世纪初意大利经济学家基尼(Gini)根据洛仑兹曲线提出了一种判断社会收入分配平
均程度的指标,用G表示。

设实际收入分配曲线和收入分配绝对平均线之间的面积为A,实际收入分配曲线右下方的面积为B。

并以A除以A+B的商表示不平均程度。

这个数值被称为基尼系数。

相关文档
最新文档