第三章 统计数据的整理(

第三章 统计数据的整理(
第三章 统计数据的整理(

第三章统计数据的整理

通过统计调查,我们得到许多原始数据,但这些数据是反映总体单位特征的、分散的、不系统的,为此必须对数据进行整理,使之由“个别”上升到“一般”,成为既便于储存,又便于传递的反映总体特征的资料。统计数据的整理是统计分析的前提,关系到整个统计工作的质量,因此,必须十分重视统计数据的整理。统计数据整理的主要内容有:数据预处理、数据的分组(类)、汇总、整理后的数据显示。

第一节数据预处理

一、数据的审核

在分类汇总之前,必须对原始数据进行认真的审核。审核的内容是数据的完整性和准确性。所谓完整性审核,一是审核各调查单位的调查表或调查问卷是否汇集齐全,比如,已对500个学生分别发放了调查问卷,要审核是否全部回收,如果回收不全要及时催收;若无法催收,要清点已回收的数量;若回收的数量不能满足要求,必须进行补充调查。其次,要审核各份调查表或调查问卷的项目是否填写齐全。若填写不全要补充完整;若一些缺失的重要项目无法补充填写,视为无效调查表或调查问卷对其剔除。

所谓准确性审核,就是审核各调查项目的填写内容是否准确。数据的准确性审核主要采用逻辑检查和计算检查。逻辑检查就是根据项目之间存在的内在联系,从逻辑上或常识上判断其合理性,以确定其正确与否。计算检查就是根据有些项目之间数量上的依存关系,通过简单的计算,检查数据有无错误。

对于二手数据,应该弄清楚数据的来源、数据的口径、数据的时效性以及有关的背景材料,以便确定这些数据是否符合自己的需要,是否需要重新加工整理。

二、数据的录入

在对数据审核基础上,应该将调查所得的原始数据录入计算机形成数据文件,以便进行分组与汇总。用计算机Excel录入数据的文件格式为:第一列为各总体单位(或调查单位)的名称或编号,以后各列分别为调查所得的各变量的具体数据。应该注意的是,必须标示每列变量的名称——标志。

【例3-1】用单一表对重庆市5个企业2006年的销售收入等进行了调查,得到如下资料(单位:万元),将其录入到计算机Excel表格中。

企业名称销售收入利税资产负债

红星公司1050 5 152 142

嘉林公司3600 19 420 290

红光公司3750 40 670 370

白云公司400 5 54 35

渝乐公司380 3 60 33

录入后的文件格式如图3-1。

图3-1 重庆市5个企业2006年销售收入等数据的文件格式

二、数据的筛选与排序

(一)数据的筛选

筛选的目的主要有两个,一是对原始资料做进一步的准确性检查,将有错误的或不合要求的或录入有误的数据筛选出来,并根据具体情况给予修正或剔除。二是将符合某种条件的数据筛选出来。

【例3-2】根据以上的数据文件,筛选出重庆市①销售收入3000万元以上的企业;②销售收入3000万元、利税20万元且资产500万元以上的企业。

筛选出销售收入3000万元以上企业的计算机操作步骤是:

解:第1步:顺次点击【销售收入】单元格、【数据】菜单、【筛选】和【自动筛选】命令,见图3-2。

图3-2 Excel自动筛选命令

第2步:顺次点击【销售收入】标志的下拉箭头、【自定义】,见图3-3。

图3-3 选择“自定义”命令

第3步:点击对话框中的下拉箭头,选择“大于或等于”,并在其后的空格中输入3000,见图3-4。单击【确定】,即可得到图3-5所示的结果。

图3-4 填写“自定义自动筛选方式”对话框

图3-5 自动筛选结果

要筛选出销售收入3000万元、利税20万元且资产500万元以上的企业,由于筛选条件大于两个,需要进行高级筛选。进行高级筛选时,必须在数据文件之前预留三行,输入筛选条件,见图3-6。

图3-6 输入高级筛选条件

顺次点击【数据】、【筛选】、【高级筛选】,填写对话框。在高级筛选对话框的【数据区域】、【条件区域】对应的空格中分别引用A4:E9、A1:D2,见图3-7。单击“确定”,即可得到筛选的结果。

图3-7 填写高级筛选对话框

(二)数据的排序

从某种意义上说,数据的排序就是对资料的初步分析。因为通过数据的排序,可以对现象的发展趋势和分布状况有一个初步的认识,可以为统计分组提供有用的信息。有时,研究者就是要认识变量值最大的几个总体单位,比如,要认识某地纳税最多的几个企业。通过数据的排序,还可以发现极端值偏离一组数据的程度,从而对输入数据的正确性做出大致的判断。

用Excel对数值型数据降序或升序排序,即可以用工具栏的图标进行,也可以用【数据】菜单中的【排序】对话框完成;若要按字母顺序、笔画多少进行排序,则必须用【数据】菜单中的【排序】对话框完成。

第二节数据的统计分组

一、统计分组的含义与原则

(一)统计分组的含义

根据统计研究的目的和研究对象的特点,按照一个或几个标志,将被研究的统计总体划分为几个不同的组成部分,称为统计分组。任何统计总体都是由具有某种共同性质的许多个别单位所组成,这些个别单位除了它们的共性之外,在其它方面的特征各不相同。为了深刻

认识总体的全貌,就需要把总体的全部单位按一定标志划分为不同的组成部分。

统计分组实际上是对总体进行“分”与“合”的过程。所谓“分”,就是将总体划分为几个不同的组成部分,“合”就是将性质相近的总体单位合并在一组。比如,按文化程度标志把被调查者分为不识字或识字很少、初中、高中、大学及以上几个组,就是把各个被调查者按照文化程度的差异分到不同的组,即为“分”;把具有相同文化程度的人归并到同一个组,体现了“合”。

通过统计分组,可以划分社会经济现象的类型,可以研究现象的内部结构,也可以揭示某一现象与另一现象之间的依存关系。统计分组既是一种整理数据的方法,也是一种常用的统计分析方法。

在分组时,对研究总体可以按一个标志进行分组,从一个方面说明和反映事物的分布状况和内部结构,这种分组叫简单分组。比如,对某一人口总体按年龄可以分为20岁以下、20-35岁、35-55岁、55-65岁几个组。在许多场合,要用两个或两个以上的标志对总体进行分组,即先按一个标志分组,在此基础上再按第二个标志分组,又再层叠地按第三个标志分组等,它可以从多方面反映事物的分布和内部结构,这种分组叫做复合分组。比如,一定时期的新增价值按物质生产部门划分为农业、工业、建筑业、商业和邮电通讯业,在此基础上,对各个组又按一定的标志分组,比如农业,可进一步分为种植业、养殖业、林业、渔业,这种分组可以进一步揭示新增价值的构成。

(二)统计分组的原则

统计分组必须遵循两个基本的原则,这就是穷尽原则和互斥原则,或不重不漏的原则。

所谓穷尽原则,就是在分组时,必须使每一个总体单位都可以归属于某一组,而不能让任何总体单位遗漏。所谓互斥原则,就是在分组时,必须使总体的各个单位只能归属于一个组,而不能同时或可能同时归属于两个及两个以上的组。比如,把被调查者按从事的工作不同,分为企业工作人员、企业管理人员、科教文卫工作人员、个体从业人员等几个组,若某被调查者是企业的销售经理,那么,他既可以归属于企业工作人员,也可以归属于企业管理人员,这种分组不满足互斥原则。

二、非数值型数据的统计分组

可以对非数值型数据即分类数据或顺序数据分组,也可以对数值型数据分组。分组数据的性质不同,进行统计分组时的处理方法也不完全相同。

对非数值型数据分组也称为分类。分类数据和顺序数据是对事物性质属性的描述,在分类的时候,二者的区别在于:按分类数据分组可以不考虑类别之间的顺序,而按顺序数据分组则必须按照一定的顺序排列所分的类别。

有些现象的属性界限比较明确,且类别不多,按照这种标志分组就比较容易。比如,人口按性别、文化程度、婚否状况分组,学生按照所在院系的分组等。分组时,列出这些标志的各个类别,按类别汇总即可。

有些现象的品质属性界限比较模糊,存在交叉过渡状态,按照这种标志分组就比较困难。比如,从业人员按行业分组,若某人在高校从事校办工厂的工作,应归属于教育行业还是工业?又如人口按居住地分为城镇与乡村的分组,对于居住在城镇乡村过渡地带的居民如何分类?对于这一类问题,需研究制定统一的分类标准,为统计分组提供统一的依据。在实际工作中为了方便和统一,各国都制定了适合一般情况的标准分类目录,如我国的《国民经济行业分类》、《三次产业划分的规定》、《公有和非公有控股经济的分类办法》等,联合国为便于各国的国际比较,还制定了国际通行的有关分类标准。

三、数值型数据的分组

数值型数据分组就是要通过数值的不同来反映事物性质的差异。数值型数据分组有单项式分组和组距式分组。

单项式分组就是一一列举有限的变量值,用一个变量值作为一个组的分组形式。比如,对被调查住户按家庭就业人数分组,可分为:0个、1个、2个、3个等四个组。单项式分组适合于离散型变量并且变动范围不大情形,因为只有这种情形才可能一一列举有限的变量值。而对变动范围较大的离散型变量,若一一列举所有的变量值,将导致分组太多,每组的单位数太少,难以反映总体的特征,从而失去分组的意义;对于连续型变量,不可能一一列举所有的变量值,所以不适合进行单项式分组。

组距式分组就是将变量值依次划分为几个区间,每个区间作为一个组,再将总体各单位按变量值的大小分别归并于相应的某一个组的分组形式。比如,对被调查住户按月人均收入的多少分为0-500元、500-800元、800-1500元、1500-3000元、3000元以上几个组。组距式分组适合于连续型变量或变动范围较大的离散型变量。

组距式分组中,每一个组的最大值和最小值分别称为上限和下限,统称为组限;待分组数据中的最大值与最小值之差称为全距;各组的上限与下限之差为组距;上限和下限之间的中点数值称为组中值,其计算公式为:

2下限

上限组中值+

=

组距式分组要确定并考虑组距、组数、组限、组中值等问题。组距式分组的步骤是:

(一)确定组距与组数

组距与组数互为消长,在全距一定的情况下,若组数很多,则必然组距较小,反之,若组数少,则必然组距较大。在分组时,应避免组距过大或过小,因为当组距过大以至组数过少时,则可能将一些性质不同的单位归并到同一组,不能充分显示总体的特征;当组距过小以至组数过多时,则可能把性质相同或相近的单位分散到不同的组,也不能很好地显示总体的特征。比如对学生按考试成绩分为0-60分、60-100分,显然分组过少,不能充分揭示学生考试成绩的差异;反之,分为0-10、10-20、20-30、……等若干组,则分组过多,将一些性质相近的分数值分散到不同的组,也不便于反映考试成绩的分布。

组距式分组是先确定组距还是先确定组数?组数应为多少、组距应取多大?由于面临的社会经济现象不同,分析研究的目的不同,因此不能一概而论。应根据研究者的经验、研究对象的性质特征和研究目的来确定,也可以在以前分组的基础上做适当的调整。

组距式分组有等距分组和异距分组两种。若每组的组距完全相同,称为等距分组,若各组组距不完全相同,称为异距分组。一般来说,变量值分布比较均匀的情况下,适宜等距式分组。等距式分组有很多好处,它便于绘制统计图,便于进行一些运算。若变量值的分布不均匀,适宜于异距分组,即:在变量值比较密集的区间取较小的组距,在分布比较稀疏的区间取较大的组距。

(二)确定组限和组中值

确定了组数和组距后,还应考虑每个区间的端点值。各组两端的数值称为组限。组限的表现形式有很多,常见的有以下两种:

形式一形式二

500以下499以下

500-600 500-599

600-700 600-699

…………

形式一的特点是:相邻两组的上下限为相同的数值。形式二的特点是:相邻两组的上下限为相邻的两个自然数,又称为非重叠组限。一般来说,形式一适宜于连续型变量的分组,这样可以保证统计分组穷尽原则的实现,比如,某个总体单位的数值为599.5,则应归属于600-700组,若采用形式二,该单位将找不到可归属的组。形式二一般用于离散型变量的分组,因为离散型变量不可能出现599.5这种非整数的数据。

在采用形式一时,对于与组限相同的变量值应归属于哪一组?为满足统计分组的互斥原则和可比性,习惯上规定“上组限不在内”,也称“下闭上开原则”,即各组内包含下限值而不包括上限值。比如,500-600组包含500不含600,变量值500应归属于该组,而变量值600应归属于600-700这一组。

组距式分组掩盖了各组内数据的差异,为反映各组数据的一般水平,通常用组中值作为该组数据的代表值。若各组内数据分布均匀,组中值的代表性较强,如果分布不均匀,用组中值作为代表值的误差较大。因此,在确定组限时,应尽可能使各组内的数据均匀分布,以减小组中值作为各组代表值的误差。

在组距式分组中,若全部数据中的最大值或最小值与其它数据的差异较大,为避免出现空白组(没有变量值的组),经常将第一组或最后一组设计为“××以下”或“××以上”,这种没有明确下限或上限形式的组称为开口组。对于开口组组中值的计算,通常的做法是:假定与相邻组的组距相同,求出其下限或上限,再计算组中值。

为便于统计运算,组限尽可能取整为5或10的倍数。

四、统计汇总

实践表明,统计资料整理不仅仅是对原始数据分组,还必须进行统计汇总。一方面,要汇总总体的某一总量,比如,要汇总人口的总量、国家或地区新增价值的总量、主要产品的产出总量;另一方面,要在统计分组的基础上,汇总各组的总体单位数和各组的标志总量,以反映总体多方面的特征。比如,对某城市的150户居民户户主的文化程度、年龄、家庭人口数、家庭月总收入、家庭月总支出等进行调查。在取得各户数据的基础上,若要研究户主的文化程度与家庭经济水平的关系,可以按户主的文化程度分组,汇总各文化程度组的居民户数、家庭人口数、家庭月总收入等,在此基础上可进一步计算各组的户均人数、人均每月总收入等指标,以认识户主的文化程度与家庭的规模大小、与家庭人均总收入等是否存在某种联系。汇总的内容和进一步计算的指标可用统计表的形式反映,见表3-1。

表3-1 150户居民家庭情况汇总表

第三节频数分布的概念及其编制

一、频数分布的概念和种类

在统计分组的基础上,将各组的数据个数即总体单位数(若抽样调查则是样本单位数)汇总出来,把它们一一对应排列,并以表格的形式表现出来,这种形式称为频数分布,也称为次数分布或分布数列。例如,将150个居民住户按户主的文化程度分组,把各组的户数汇总出来,排列成统计表3-2的形式,就是频数分布。

表3-2 150户居民按户主文化程度分组的频数分布

总体单位数,也称为频数、次数。根据需要,可以计算各组频数与总频数的比值,称其为频率或比重。频率应满足两个条件:各组频率大于(或等于)0而小于1;各组频率之和等于1或100%。

频数分布是统计整理得到的重要结果,它可以反映总体的分布特征、研究总体内部结构,在统计定量分析中有广泛的用途。

统计分组可按分类数据、顺序数据或数值型数据分组,因此,在此基础上形成的频数分布有分类数据的频数分布、顺序数据的频数分布和数值型数据的频数分布。由于统计调查得到的原始数据数量巨大,用手工的方式编制频数分布非常繁复,借助于计算机可以十分快捷地得到结果。下面介绍用计算机Excel编制频数分布的方法。

二、非数值型数据频数分布的编制

对于非数值型数据即分类数据和顺序数据的频数分布,可以用Excel的【数据】菜单编制,也可以用【工具】菜单编制,还可以用统计函数【FREQUENCY】编制。下面介绍用【工具】菜单编制非数值型数据频数分布的步骤。

【例3-3】为进一步了解重庆市农村全面建设小康社会的主要障碍和问题,随机抽取了800户农户进行调查,其调查内容之一是户主的文化程度。备选答案有不识字或识字很少、小学、初中、高中(含中专)、大学及以上。为简便起见,只给出60户的回答结果如下,要求根据以下资料编制频数分布。

小学初中初中初中初中

初中小学初中初中高中

高中初中初中初中高中

初中小学初中初中小学

初中初中小学小学小学

初中不识字小学高中小学

初中小学小学高中初中

初中高中小学小学初中

高中高中高中高中高中

初中初中初中初中初中

初中高中初中初中高中

初中高中小学初中初中

解:以上资料为顺序数据,用Excel的【工具】菜单编制频数分布的步骤如下:

第1步:将数据输入到A列,并对不同的文化程度按由低到高的顺序分别赋值为1、2、3、4、5。见图3-8。

图3-8 数据输入的形式

第2步:顺次单击【工具】、【数据分析】,见图3-9;单击【直方图】、【确定】,出现【直方图】对话框,见图3-10。

图3-9 选择【工具】菜单

第3步:填写对话框:在【输入区域】中引用对各文化程度的赋值,本例为B1:B61;在【接受区域】引用按顺序排列的文化程度的代码,即D1:D6;勾选【标志】;选择【输出区域】,并在相应的空格中引用一个单元格,比如F1;勾选“图表输出”。见图3-10。

图3-10 填写直方图的对话框

第4步:单击【确定】,得到如图3-11的结果:

图3-11 输出的结果

第5步:根据以上结果编制按文化程度分组的频数分布,根据需要还可以计算频率,见表3-3:

表3-3 农户按户主文化程度分组的频数分布

从表3-3可以看出,60户农户户主中,不识字的人很少,也没有大学及以上文化程度的户主,50%多的户主是初中文化程度。

三、数值型数据频数分布的编制

数值型数据分组有单项式分组和组距式分组。在单项式分组条件下的频数分布称为单项式频数分布,又称为单项数列;组距式分组条件下形成的频数分布称为组距式频数分布,又称组距数列。编制单项数列与非数值型数据频数分布的操作方法相似,此不赘述。现介绍用

Excel编制组距式频数分布的操作步骤。

【例3-4】续上例。对60户农户的年纯收入调查,得到以下数据。要求对60户农户按年纯收入分组,编制组距式频数分布。

8000 7500 15000 12000 16000

4500 7500 4500 12000 5000

8000 30000 8000 12000 6000

9000 25000 9000 12000 12500

7120 3000 7120 9000 13000

6800 9000 7120 7900 17000

5900 7900 7120 8200 30000

7520 8200 7900 6800 15000

6000 6800 8200 9000 4500

8000 9000 6800 7800 8000

9000 7800 9000 9600 9000

15000 9600 9600 9600 7120

解:根据以上数值型数据编制频数分布的步骤是:

第1步:将原始数据输入Excel的某一列,比如A列,并将数据排序。根据排序结果所反映的分布情况,拟分为七个组,即:5000以下、5000-6000、6000-7000、7000-8000、8000-10000、10000-20000、20000以上。

第2步:将各组上限减1的数值(最后一组应大于或等于最大的变量值)输入Excel的另一列,比如B列。这是因为:对于与组限相同的变量值,计算机汇总时包含上限值,故此,要在B列输入各组上限减1的数值,以保证下闭上开原则的实现。见图3-12。

图3-12 输入数据及各组上限

第3步:顺次单击【工具】、【数据分析】、【直方图】、【确定】,出现直方图对话框。

第4步:填写对话框:在【输入区域】引用输入的原始数据,本例为A1:A61;在【接收区域】引用各组上限减1的数值,本例为B1:B8;勾选【标志】;选择【输出区域】并在对应的空格内引用一个单元格,比如C1;勾选【图表输出】。见图3-13。

图3-13 填写直方图的对话框

第5步:单击【确定】,得到输出结果,见图3-14。

图3-14 输出的结果

第6步:根据输出结果编制频数分布,还可以计算频率,即各组农户数占总户数的比重。见表3-4。

表3-4 农户按纯收入分组的频数分布

从表3-47000元,8000-10000元的农户较多,占35%,20000-30000元以上的农户只有6.7%。

第四节 数据的展示

一、统计表

统计整理的结果应该以一定的形式展示出来。统计表和统计图是展示统计数据的两种主要形式。

将经过汇总整理的数据按一定的顺序排列在表格上,这种表格就叫统计表。广义上讲,任何用以反映统计资料的表格都叫统计表。统计表能够系统地组织和有条理地安排大量统计数字资料,使统计资料更为集中醒目、条理分明,便于对照比较,也便于比较分析和积累资料,因而统计表是展示统计数据的重要工具。

(一) 统计表的构成

从形式上看,统计表由总标题、横行标题、纵栏标题和数字资料四个部分构成,见表3-5。总标题位于统计表的正上方,简明扼要地说明统计资料的主要内容、时间和地点。横行标题位于表的第一栏,一般用以列示统计总体的各个组(类)或各单位的名称,也可列示资料的所属时间。纵栏标题位于统计表的第一行,用以说明各栏数字的具体含义。横行标题和纵栏标题共同说明填入表格中统计数字的具体内容。指标数值列于各横行标题与各纵栏标题交叉处。表格中的数值用来说明总体及组成部分的数量特征,是统计表的核心内容。

主词栏 宾词栏

从内容上看,统计表由主词栏和宾词栏构成。主词栏一般列在统计表的第一栏,其它栏为宾词栏。主词栏一般列示总体各单位的名称或总体各组(类)的名称;宾词栏是说明总体各单位或总体各组(类)数量特征的各个统计指标。

在有些情况下,主词栏和宾词栏可以互换,比如,在总体的分组或类别较少而指标名称较多的时候,为使表格的形式简明、美观,可以将统计表的主词宾词互换,把横式表改为竖式表。

(二) 统计表的种类

按用途可以将统计表分为以下几类:

1.调查表。就是在统计调查中用于展示调查内容、搜集原始资料的统计表。第二章介绍的单一表、一览表就是调查表。

2.整理表或汇总表。就是在统计资料的整理中用于表现整理或汇总结果的统计表。频数分布表就是汇总表。

3.分析表。就是用于统计分析的统计表,这类表格通常与整理表结合在一起,成为整理表的延续。后面章节的很多统计表都是分析表。

横行标题

纵栏标题

按照主词分组与否和分组的情况可以将统计表分为以下几类:

1.简单表。就是主词未经过分组的统计表。这类统计表的主词一般是总体各单位的名称或总体指标所属的时间。

2.分组表。就是主词只按一个标志分组而形成的统计表,也称简单分组表。频数分布表即为分组表。

3.复合分组表。就是主词按两个或两个以上标志分组的统计表。这类统计表一般用于统计分析。

按宾词设计的形式不同统计表可以分为:

1.宾词简单排列表。就是宾词不加任何分组、按一定顺序加以排列的统计表。如表3-5。

2.宾词分组平行排列表。就是宾词按一个或多标志分组、但各标志的分组彼此分开,平行排列的统计表,如表3-6。

表3-6 我国各地区社会商品零售总额分类情况

3.宾词分组层叠排列表。就是宾词按两个或两个以上标志分组、且各种分组层叠排列的统计表。如表3-7。

表3-7 我国各地区劳动力分布情况

分,它们是需要统计指标来描述和表现的。宾词分组的结果并不增加统计总体的组成部分,其目的是比较详细地描述总体各组成部分的数量特征。可以说,宾词的分组从属于主词的需要。

(三)设计统计表应注意的问题

统计表是由纵横直线交叉组成的长方形表格,长与宽之间应保持适当的比例,力求简练、明确、适用、美观,在设计时应注意以下一些具体问题:

1.线条的绘制。表的上下两条直线应以较粗的直线绘制,表内的直线应较细。表的左右两端一般不划线,采用“开口式”。

2.合计栏的设置。统计表的各纵列需要合计时,一般在最后一行设计合计行;若各行需要合计时,可将合计列在最后一栏。

3.纵栏的编号。若统计表的栏数很多,可以按顺序标号,并可以用顺序号说明其相互关系。习惯上主词栏和计量单位栏以“甲、乙”为序号,宾词栏以(1)、(2)、(3)……为序号。

4.标题设计。统计表应该有总标题和纵栏标题、横行标题,总标题应简明扼要的表达统计表中资料的时间、空间和主要内容。

5.指标数值。统计表中的数字应填写齐全、数位对齐,各栏数字小数的位数应保持一致。当缺少某项数字时,可用符号“……”表示,不应有数字的地方用符号“—”表示。相邻格内的数字相同,应如实填写,不得以“同上”等字样表示。

6.计量单位。统计表必须注明数字的计量单位。当统计表内的数字只有一种计量单位时,可以把它写在统计表头的右上方;如果各栏数字的计量单位不同,可以将计量单位写在各纵栏标题下方;如果各行数字的计量单位不同,可以在主词栏后增加计量单位栏。

7.注释和资料来源。为保证统计表的科学性并尊重他人的劳动成果,在统计表外的下方,应注明资料的来源;一些必要的说明或注解也应反映在表外的下方。

二、统计图

统计图是展示统计资料的重要形式之一。统计图的特点是直观形象、简明生动、通俗易懂,能使人获得深刻的印象。在绘制统计图时,一定要根据资料选择最合适的图形,使之能准确明了地反映统计资料。统计图必须有简要的标题、计量单位,有时还应有图例和主要的统计数字和其它必要的说明。

常用的统计图有:直方图(柱形图)、圆形图、折线图。

(一)直方图

直方图又称为柱形图,常用来反映总体的分布、比较数值的大小。反映总体分布时,图形的横轴表示各组名称,纵轴表示各组的频数或频率。图3-15是根据表3-4绘制的频数分布图。比较数值大小时,可以是同一总体不同时间指标数值的比较,也可以是不同总体指标数值的比较,横轴代表时间或各总体的名称,纵轴代表指标数值。

图3-15 直方图(柱形图)

(二)圆形图(饼图)

圆形图主要用来反映总体的内部构成。圆形图以整个圆形的面积代表一个统计总体,以圆内各扇形面积的大小反映总体的各个组成部分,形象地反映总体各部分所占分额。图3-16是根据表3-3绘制的圆形图。

图3-16 圆形图(饼图)

(三)折线图

折线图又称为曲线图,通常用来反映事物发展变化的规律或趋势、总体的分布,也可用以反映事物之间的相互联系。反映事物发展变化的规律或趋势时,图形的横轴代表时间,纵轴表示指标数值;反映总体的分布时,横轴代表各组的名称,纵轴代表各组的频数或频率;反映事物之间的相互联系时,横轴代表某一事物的数量,纵轴代表另一事物的数量。图3-17是根据我国1986-2000年居民消费价格指数资料绘制的折线图。

图3-17 折线图(曲线图)

此外,散点图也是常用的一种统计图,主要用来反映现象之间的依存关系,也用于反映事物随着时间的推移而呈现的变化趋势或规律。相关分析和时间序列分析中将运用散点图。

用计算机Excel 绘制统计图十分方便,下面举例说明。

【例3-5】以表3-5农户按纯收入分组的资料为例,说明绘制直方图的具体步骤。

第1步:将表3-5资料输入Excel,见图3-18。

图3-18 输入绘制直方图的分组资料

第2步:单击【图表向导】图标、【柱形图】,在【子图标类型】中选择一种图形,比如第一种,见图3-19。

图3-19 图表类型的选择

第3步:单击【下一步】,在【数据区域】中引用统计数据,本例为A1:B8,见图3-20。

图3-20 在“数据区域”中引用分组资料

第4步:点击【下一步】,分别填写【图表标题】、【分类(X)轴】、【数值(Y)轴】的相关

内容,见图3-21。

图3-21 填写统计图的标题、纵轴和横轴的含义

第5步:单击【下一步】、【完成】,得到绘制的直方图,见图3-22。在此基础上进行个性化

的修饰,就可以得到一幅理想的直方图。

其它图形的绘制步骤与此相似。

图3-22 Excel输出的直方图

思考与练习

1.为什么要对原始数据进行整理?

2.数据整理包括哪些具体内容?

3.数据的预处理包括哪些内容?

4.原始数据的完整性审核包含哪些内容?

5.原始数据的准确性审核包含哪些内容?进行准确性审核一般采用哪些方法?

6.什么是统计分组?统计分组有什么作用?

7.什么是单项式分组、等距式分组、异组距式分组?它们分别在什么条件下运用?

8.什么是频数分布?它包含哪两个要素?

9.统计表从结构上和内容上看由哪些部分构成?

10.在设计统计表时应注意哪些具体问题?

11.直方图、圆形图和折线图分别用于反映现象哪些方面的特征?

12.某高校对随机抽取的60位股民进行了股票投资收益的调查,备选答案有:A. 盈利 B.

亏损 C.不盈不亏。得到以下调查结果:

C C A A B B C B B C B C

B A B A B

C C B B C B B

B B

C B B C C A A B B B

C C B B C A A C C C B B

B C A A C C C B B B A B

要求:

(1)指出上面的数据属于什么类型。

(2)编制60位股民的投资收益频数分布,并做简要分析。

(3)绘制频数分布的直方图。

13.假定48家公司某年的净利润(万元)如下:

1700 8300 500 690 720 230 -280 -300

790 1280 4500 3200 18 -7200 10250 4200

5900 500 700 -500 3200 7800 15000 560

420 380 900 100 300 60 -4000 9000

5900 450 620 3200 6700 -6000 200 400

460 130 7450 980 1590 360 6400 730

要求:

(1)将以上数据按升序排列,并根据排序结果指出利润最大的三个数值。

(2)筛选出利润额在5000万元以上的企业和亏损的企业。

(3)编制组距式频数分布表并绘制折线图。

(4)根据统计整理的结果,对48家公司净利润的分布情况做一简要的说明。

14.某超市为了了解顾客对服务质量的满意程度,随机抽取了前来购物的80名顾客进行问

卷调查,其中一个问题是:“您认为本超市的服务质量如何?请在下面的备选答案中选择一个:A.好 B.较好 C.一般 D.差 E.较差”,根据顾客的回答得到的原始资料如下:

B E

C C A

D

E C

D A C B C D C B

A D

B

C C A B D

B A

C

D

E A E D

C B C E

D B C C

D A C B C

E B D

B E

C C A A E B

B A

C

D

E D C C

A D

B

C C C B C

C B C E

D B C D 要求:

(1)根据以上资料,编制频数分布。

(2)计算频率和累计频率。根据累计频率,说明对服务质量评价在“一般”以上水平的顾客比率是多少。

(3)根据频数分布,对该超市的服务质量做出评价。

15.已知某地1990年-1999年的生产总值资料如下(按当年价格计算:万元):

根据以上资料,要求:

(1)分别绘制该地生产总值和第一、二、三产业生产总值的折线图。

(2)绘制1990年和1999年地区生产总值的圆形图,并简要说明两年生产总值结构的差别。

第三章 统计资料整理

第三章统计资料整理 通过统计调查所取得的资料只能反映总体各单位的具体情况,是分散的、零碎的、个别的,要说明事物的总体情况,揭示总体的一般情况,还需对这些资料进行加工整理,才能对总体做出概括性的说明。 1、统计资料整理的一般问题 (1) 统计整理的概念、作用、重要性 统计整理是根据统计研究的目的和要求,对统计调查所得的原始资料进行科学的分类、汇总,或对已经初步加工的资料进行再加工,使之成为系统化、条理化的综合分析,以反映现象总体特征的工作过程。 统计整理是整个统计工作的中间环节,统计整理是统计调查的继续,又是统计分析的基础,具有承前启后的作用。统计调查所搜集到的资料只有经过科学的审核、分类、汇总等整理工作,才能实现由个体到总体、由现象到本质、由感性到理性的转变。 (2) 统计整理的程序 1、制定整理方案 2、数据审核 就是对搜集到的资料进行全面审核,主要检查数据的完整性(是否遗漏)和准确性(是否可靠),如果发现问题,及时纠正,以保证搜集的资料准确无误,这是统计工作十分重要的环节,必须认真对待。 3、划类分组 根据研究目的和统计分析的需要,对原始资料进行分组分类。 例如:研究性别构成可以按性别分组;研究不同职业的工资水平可以按照职业分组,又可以按照某一组距进一步细分。 4、综合汇总 即在分组的基础上,将各项资料进行汇总,得出反映各组和总体的总量指标。 例如:女性总人口数、男性总人口数、总人口数;金融业人均工资、会计类人均工资、教师类人均工资、公务员人均工资、农民工人均工资等。(注意:前者总量指标,后者为平均指标) 5、制表制图 将整理出来的统计结果用统计表或统计图的形式反映出来,表述统计资料的内容 6、积累保管

统计基础知识第三章统计整理习题及答案

第三章统计整理 一、单项选择题 1.统计分组对总体而言是(B )(2012年1月) A.将总体区分为性质相同的若干部分 B.将总体区分为性质不同的若干部分 C.将总体单位区分为性质相同的若干部分 D.将总体单位区分为性质不相同的若干部分 2.统计表中的主词是指( A )(2011年10月) A.所要说明的对象 B.说明总体的统计指标 C.横行标题 D.纵列标题 3.某课题需要搜集资料,课题组成员从《统计年鉴》摘取有关资料,这种资料是( D ) (2011年1月) A.原始资料 B.第一手资料 C.初级资料 D.次级资料 4.按照分组标志性质的不同,统计分组可分为按品质标志分组和( A ) (2011年1月) A.按数量标志分组 B.平行分组 C.交叉分组 D.复杂分组 5.对于不等距数列,在制作直方图时,应计算出( B ) (2010年10) A.次数分布 B.次数密度 C.各组次数 D.各组组距 6.U型分布的特征是( B )(2010年1) A.两头小,中间大 B.中间小,两头大 C.左边大,右边小 D.左边小,右边大 7.在次数分布中,频率是指( D )(2010年1) A.各组的次数之比 B.各组的次数之差 C.各组的次数之和 D.各组次数与总次数之比 8.对企业职工按技术等级分组,这样的分组属于( C ) (2009年10) A.简单分组 B.复合分组 C.按品质标志分组 D.并列分组 9.按某一标志分组的结果表现为( C )(2009年1月) A.组内差异性,组间同质性 B.组内同质性,组间差异性 C.组内同质性,组间同质性 D.组内差异性,组间差异性 10.某连续变量数列,其第一组为开口组,上限为500,已知第二组的组中值为540,则第一组的组中值为( D )(2008年10月) A.480 B.420 C.450 D.460 11.反J型分布的特征是( D ) (2011年1月) A.两头小,中间大 B.中间大,两头小

第3章数据统计与分析【教案】

第3 章数据统计与分析 第2节数据处理与统计-查找、排序、筛选与分类汇总教材分析 数据处理与统计是江苏省教材《初中信息技术(上册)》第3单元第2节的内容。从教学内容来看,前面已经完成了公式、函数的教学。本节课所要教授内容为本小节的最后一部分,即数据的查找、排序、筛选与分类汇总。这部分内容是对原始数据的加工、处理与分析。因此,应该立足于学生的实际经验,从他们现实生活中碰到的问题出发,构建相应的问题触发学生的思考,设计有效的练习训练学生的操作。 学情分析 本节课是WPS表格的第2课时。经过前面几节课的学习,学生已经初步掌握WPS表格软件的基本操作,感受到了WPS表格软件在数据运算上的巨大优势,为本节课的学习打下了良好的基础。结合本节课学习内容,教师应联系生活实际,寻找贴近学生生活的素材,让学生能够学以致用,充分激发学生的学习积极性。 教学目标 1、知识与技能: (1)感知查找的作用,掌握查找的基本方法。 (2)感知排序的作用,了解排序的一般过程,掌握排序的基本方法。 (3)感知筛选的作用,掌握单字段自动筛选的基本方法。 (4)感知分类汇总的作用,了解分类汇总的三要素,知道分类汇总操作的一般过程,掌握分类汇总的基本方法,知道分类汇总的注意项。 2、过程与方法: 通过情境的创设,利用不同的问题让学生去思考找出问题答案的方法,寻找能够解决问题的wps表格操作,感知查找、排序、筛选与分类汇总的作用。 3、情感态度价值观: 通过用wps表格操作技能去解决实际问题,找出问题答案的过程,体验成功的乐趣。 4、行为与创新: 通过问题驱动,在学生寻求答案的过程中产生一种学习的内驱力。

教学重点与难点: 教学重点:查找、排序、筛选和分类汇总的基本操作 教学难点:1、关键字的选择 2、能够依据需求正确分析分类汇总的三要素,并正确实施分类汇总。教学过程:

第三章 统计资料的整理

第三章统计资料的整理 内容提要:通过本章的学习,要求明确统计资料整理的概念,了解统计整理的步骤;能够对不同的社会经济现象进行适当的统计分组;运用分配数列对原始数据进行系统整理;掌握统计表的具体编配方法。 第一节统计整理的意义和内容 一、统计整理的意义 统计调查之后,就是统计整理。我们在统计调查阶段搜集得到大量的原始资料,这些资料是分散、零乱、不系统、不规范的,只能反映统计总体每个具体单位的特征,不能反映总体的综合数量特征。统计认识客观现象的目的不在于认识个体的状况,而在于通过个体来认识总体。因此,我们需要将调查资料进一步整理成系统化、条理化、规范化、科学化,得出能反映客观现象总体特征的综合资料。 1、什么是统计整理? 所谓统计整理,简单说是对调查资料进行加工处理的过程。完整说就是根据统计研究的目的和任务,将统计调查阶段所收集到的分散的、零乱的、不系统、不规范的大量原始资料,用科学的方法进行加工处理,把它们转化为总体资料,使之系统化、条理化、科学化、规范化,成为能够反映事物总体特征的综合资料的过程。 它一般包括狭义的统计整理和广义的统计整理。狭义的统计整理也称为初级整理,仅指对统计调查所取得的原始统计资料的整理;而广义的统计整理也称为次级整理除了对原始调查资料的整理外,还包括对某些已经加工过的综合(或历史)资料的整理。 2、统计整理的作用 统计整理是统计工作的第三个阶段,是从统计调查到统计分析的中间环节,是统计调查工作的继续和统计分析的前提。统计调查所取得的原始资料,只有通过统计整理之后,才可能得出对总体数量特征的认识。统计活动既是一种从个体的实际表现到总体的综合表现的认识过程。同时也是从对现象的感性认识到对现象的规律性认识的过程。统计调查虽然已经收集到大量的原始资料,但从这些反映个体的零散的资料只能得出不全面的感性认识,只有通过统计整理,才能提供全面系统的资料,使我们对现象的感性认识深化到理性认识。所以,统计整理是统计认识过程中的一个重要阶段,是统计分析的基础。 二、统计整理的步骤 统计整理是一项细致而周密的工作,必须有组织、有计划的进行。统计整理由于手工整理、电子计算机整理的技术条件不同,具体步骤有差异,但其基本步骤是一致的,主要有: 1、设计统计整理方案 统计整理方案包括两个方面的内容: (1)按照统计设计确定的统计指标和统计指标体系以及我们将要介绍的统计分组体系具体地设计到统计整理表(过录表)和统计综合表(提供表)中,并详细规定整理、综合的方法。 (2)根据统计调查所取得的原始资料的多少和统计整理表、综合表的要求,

第三章 空间数据采集与处理练习资料

一、单选题 1、对于离散空间最佳的内插方法 是: A.整体内插法 B.局部内插法 C.移动拟合法 D.邻近元法 2、下列能进行地图数字化的设备 是: A.打印机 B.手扶跟踪数字化仪 C.主 机 D.硬盘 3、有关数据处理的叙述错误的 是: A.数据处理是实现空间数据有序化的必要过程 B.数据处理是检验数据质量的关键环节 C.数据处理是实现数据共享的关键步骤 D.数据处理是对地图数字化前的预处理 4、邻近元法 是: A.离散空间数据内插的方法 B.连续空间内插的方法 C.生成DEM的一种方法 D.生成DTM的一种方法 5、一般用于模拟大范围内变化的内插技术是: A.邻近元法 B.整体拟合技术 C.局部拟合技术 D.移动拟合法 6、在地理数据采集中,手工方式主要是用于录入: A.属性数据 B.地图数据 C.影象数 据 D.DTM数据

7、要保证GIS中数据的现势性必须实时进行: A.数据编辑 B.数据变换 C.数据更 新 D.数据匹配 8、下列属于地图投影变换方法的 是: A.正解变换 B.平移变换 C.空间变 换 D.旋转变换 9、以信息损失为代价换取空间数据容量的压缩方法是: A.压缩软件 B.消冗处理 C.特征点筛选 法 D.压缩编码技术 10、表达现实世界空间变化的三个基本要素是。 A. 空间位置、专题特征、时间 B. 空间位置、专题特征、属性 C. 空间特点、变化趋势、属性 D. 空间特点、变化趋势、时间 11、以下哪种不属于数据采集的方式: A. 手工方式 B.扫描方式 C.投影方 式 D.数据通讯方式 12、以下不属于地图投影变换方法的是: A. 正解变换 B.平移变换 C.数值变 换 D.反解变换 13、以下不属于按照空间数据元数据描述对象分类的是: A. 实体元数据 B.属性元数据 C.数据层元数据 D. 应用层元数据 14、以下按照空间数据元数据的作用分类的是: A. 实体元数据 B.属性元数据 C. 说明元数据 D. 分类元数据 15、以下不属于遥感数据误差的是: A. 数字化误差 B.数据预处理误差 C. 数据转换误差 D. 人工判读误差

第三章 统计整理

第三章统计整理 一、填空题 1.统计表的结构从内容上看包括【】和【】两部分。 2.统计整理的关键在于【】。 3.分配数列按分组标志特征的不同,可分为【】数列和【】数列两种形式。 4.在组距数列中,各组上限与下限之间的中点数值称为【】。 5.某连续变量数列其末组为开口组,下限为500,又知其相邻组组中值为480, 则末组组中值为【】,如果该数列为等距数列(5个组),则首组组中值为【】。 二、单项选择题 1.按照国民收入水平分组是() A、品质标志分组 B、复合标志分组 C、数量标志分组 D、混合标志分组 2.按某一标志分组的结果表现为() A、组内同质性,组间差异性 B、组内同质性,组间同质性 C、组内差异性,组间同质性 D、组内差异性,组间差异性 3.某连续变量数列,其首组为开口组,上限为100,若其相邻组的组中值为130.,则首组的组中值为( ) A、60 B、70 C、80 D、90 4.在组距分组时,对于连续型变量,相邻两组的组限() A、必须是重叠的 B、必须是间断的 C、必须取小数 D、必须取整数 5.企业按资产总额分组() A、只能使用单项式分组 B、只能使用组距式分组 C、只能进行复合分组 D、无法进行分组 三、多项选择题: 1.选择分组标志应遵循的原则是() A 、根据研究的目的和任务来选择 B 、选择具有现实意义的标志 C 、能反映现象的本质特征 D 、最好选择数量标志 2.从统计分组的含义来看,它意味着() A、对总体而言是“合” B、对总体而言是“分” C、对个体而言是“合” D、对个体而言是“分” 3.等距分组中() A、各组组距是相等的 B、各组组距绝大部分是等距的 C、标志值的变动在各组之间都是相等的 D、标志值的变动在各组之间不一定相等 4.在组距数列中,组中值是() A、上限和下限之间的中点数值 B、用来代表各组标志值的平均水平 C、在开口式分组中,可以参照相邻组的组距来确定 D、组距的一半 5.统计表从表式上看,包括() A、总标题 B、横行标题 C、纵栏标题 D、数字资料 E、主词 F、宾词

第三章社会统计资料的整理

第三章社会统计资料的整理 原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。 第一节统计分组的原则与标准 统计分组的标志分为数量标志和品质标志两大类。按国际惯例,无论采用何种标志进行统计分组,都应遵循以下一般原则:(1)分组应使各类别构成之和等于总体;(2)分组设计应能反映统计总体的分布规律性。 在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。频数分布数列是统计分组工作的产物。显然,按品质标志进行分组,我们可以得到品质数列;按数量标志进行分组,我们可以得到变量数列。 统计分组的关键在于选择分组标志和划分各组界限。一般来讲,按品质标志来分组,其差别比较明确,区分也较容易。按数量标志来分组则不同,对于划分各组界限,变量数列有较大的任意性。如果划分不当,不仅容易混淆各组的差别,也可能无法反映变量的分布特征。在统计整理和统计分析中,广泛应用变量数列,借以观察某一数量标志的变动及其分布状况。因此,如何编制变量数列是我们重点需要掌握的。 第二节统计表 统计调查搜集来的资料往往是没有次序的原始资料,使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。变量数列是统计表的一种常用形式。 1.统计表的格式、内容与种类 统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。统计表的主要功用是汇总和积累统计资料,以简捷和有条理的方式表示统计资料的特征,从而使统计资料易于查对、比较、分析和记忆。 统计表通常有一定格式:总标题、横行标题(表侧)、纵栏标题(表头)、统计数值(表身)。统计表从内容上看,是由主词和宾词两部分构成的。主词是统计表所要说明的对象,它可以是总体各单位的名称、总体的各个组或总体单位的全部。宾词是用来说明主词的标志和标志值(或指标名称和指标数值)。主词通常列于表的左瑞,宾词通常列于表的上端。但有时为了编排合理和阅读方便,也可以互换位置,将主词置于表的上端,将宾词置于表的左瑞。

第三章 调查数据的描述分析资料讲解

第三章调查数据的 描述分析

第三章调查数据的描述分析 对整理后的调查数据进行统计分析,首先是认识数据的特征。由于指标是描述总体数量特征的具体表现,故调查数据特征的认识表现为指标的设计与计算。设计什么样的指标取决于所要认识的数据特征。本章讨论的数据特征主要有三个方面,即数据间的数量关系特征、数据分布的集中趋势特征和离中趋势特征,相应地,设计的指标有三类,分别为相对指标、平均指标和变异程度指标。这些指标的计算和运用构成了本章的主要内容。 第一节相对指标分析 一、相对指标的概念与作用 将两个有联系的数据值进行对比形成的相对数,称为相对指标,它反映着事物内部或事物间的数量关系特征。例如:将实际完成的数值与计划任务数值对比,可反映计划执行的进度和完成的程度;将不同时间上的同类数据值对比,可反映现象变化的快慢程度,等等。 相对指标通过对比不同数据值,将现象总体数量上的绝对差异抽象化,从而使那些由于规模不同,条件不同,无法直接对比的现象找到可比较的基础,化不可比为可比。从这个意义上讲,相对指标在统计分析中的运用主要表现在比较分析中。 多数相对指标采用无名数如系数、倍数、成数、百分数、千分数等表示;但也有相对指标采用名数表示,如流动资金周转率指标用“次”表示。 二、常用相对指标及其计算方法 (一)反映数据结构特征的相对指标 仅供学习与交流,如有侵权请联系网站删除谢谢44

仅供学习与交流,如有侵权请联系网站删除 谢谢45 1.结构相对指标 结构相对指标,是总体的部分数值与总体全部数值的比值,需在数据值分组的基础上计算,通常又称为比重,习惯用百分数表示。其计算公式为: %100?= 总体的全部数值 总体的各组数值 结构相对指标 【例3.1】某一项城市住房问题的研究中,调查数据值统计整理如表3-1所示: 表3-1 甲城市家庭对住房状况的评价 在调查数据的分析中,结构相对指标除了能够反映总体内部的结构状态特征,揭示事物的性质外,还可用来说明总体中各个部分对总体的影响程度,即可以用来寻找主要影响因素。 2.比例相对指标 比例相对指标,是同一总体内某一部分数值与另一部分数值的比值,也是在数据分组的基础上计算。如果说结构相对指标反映的是部分与整体的数量关系,那么,比例相对指标反映的则是部分与部分间的数量关系。比例相对指标的计算公式为: 总体中另一部分数值 总体中某一部分数值 比例相对指标=

第 3章 统计整理练习题与答案

第 3章统计整理练习题与答案

第 3章统计整理 一单项选择 1、统计整理的主要对象是( B ) A、次级资料 B、原始资料 C、分析资料 D、技术参考资料 2、统计分组时根据统计研究的目的和任务,按照一个或几个分组标志( B ) A、将总体分成性质相同的若干部分 B、将总体分成性质不同的若干部分将总体分成数量相同的若干部分 D、将总体分成数量不同的若干部分 3、进行统计分组的关键是( B )。 A.划分各组组限 B.正确选择分组标志 C.确定各组组距 D.计算各组组中值 4、按某一标志分组的结果表现为( B )。 A.组内差异性,组间同质性 B.组内同质性,组间差异性 C.组内同质性,组间同质性 D.组内差异性,组间差异性 5、划分离散变量的组限时,相邻两组的组限( C )。 A.必须是间断的 B.必须是重叠的 C.既可以是间断的,也可以是重叠的 D.应当是相近的 6、某连续变量的分组中,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组的组中值为( C )。 A.120 B.215 C.230 D.185 7、在全距一定的情况下,组距的大小与组数的多少成( B ) A、正比 B、反比 C、无比例关系 D、有时成正比有时成反比 8、简单分组与复合分组的区别在于( D ) A、总体的复杂程度不同 B、组数多少不同 C、选择分组标志的性质不同 D、选择的分组标志的数量不同 9、等距分组适合于( B ) A、一切变量 B、变量变动比较均匀的情况 C、呈急剧升降变动的变量 D、按一定比率变动的变量 10. 某连续变量分为5组:第一组为40~50,第二组为50~60,第三组为60~ 70,第四组为70~80,第五组为80以上。依习惯上规定 ( D ) A.50在第一组,70在第四组 B. 60在第二组,80在第五组 C.70在第四组,80在第五组 D. 80在第四组,50在第二组 11.在分配数列中,频数是指( C ) A.各组单位数与总体单位数之比 B.各组分布次数的比率 C.各组单位数 D.总体单位数 12、累计次数或累计频率中的“向上累计”是指( D ) A、将各组变量值由小到大依次相加 B、将各组次数或频率由小到大依次相加 C、将各组次数或频率从变量值最低的一组向最高的一组依次相加 D、将各组次数或频率从变量值最高的一组向最低的一组依次相加 13、主词按时间顺序排列的统计表称为( B ) A、简单表 B、分组表 C、复合表 D、调查表 14、变量数列是( A ) A、按数量标志分组的数列 B、按品质标志分组的数列 C、按数量标志或品质标志分组的数列 D、按数量指标分组的数列

统计学答案第3章

二、选择题 1 落在某一特定类别或组中的数据个数称为()。 A.频数 B.频率 C.频数分布表 D.累积频数 2 一个样本或总体中各个部分的数据与全部数据之比称为()。 A.频数 B.频率 C.比例 D.比率 3 样本或总体中各不同类别数值之间的比值称为()。 A.频数 B.频率 C.比例 D.比率 4 将比例乘以100得到的数值称为()。 A.频率 B.百分数 C.比例 D.比率

5 下面的哪一个图形最适合于描述结构性问题()。 A.条形图 B.饼图 C.雷达图 D.直方图 6 下面的哪一个图形适合于比较研究两个或多个样本或总体的结构性问题()。 A.环形图 B.饼图 C.直方图 D.茎叶图 7 将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组,这样的分组方法称为()。 A.单变量值分组 B.组距分组 C.等距分组 D.连续分组 8 组中值是()。 A.一个组的上限与下限之差 B.一个组的上限与下限之间的中点值 C.一个组的最小值 D.一个组的最大值

9 下面的图形中最适合描述一组数据分布的图形是()。 A.条形图 B.箱线图 C.直方图 D.饼图 10 对于大批量的数据,最适合描述其分布的图形是()。 A.条形图 B.茎叶图 C.直方图 D.饼图 11 对于小批量的数据,最适合描述其分布的图形是()。 A.条形图 B.茎叶图 C.直方图 D.饼图 12 对于时间序列数据,用于描述其变化趋势的图形通常是()。 A.条形图 B.直方图 C.箱线图 D.线图 13 为描述身高与体重之间是否有某种关系,适合采用的图形是()。 A.条形图 B.对比条形图 C.散点图 D.箱线图

统计学-第三章-统计整理

第三章统计整理 (一)填空题 1、统计整理是统计工作的第三阶段。在这一阶段,通过对原始资料进行科学的加工,可以得出反映事物总体特征的资料。 2、统计整理在统计分析中起着承前启后的作用,它既是统计调查的必然继续,又是统计分析的基础和前提条件。 3、统计分组实质上是在统计总体内部进行的一种定性分类。 4、对原始资料审核的重点是真实性。 5、区分现象质的差别是统计分组的根本作用。 6、标志是统计分组的依据,是划分组别的标准。 7、根据分组标志的特征不同,统计总体可以按品质分组,也可以按数量分组。 8、对所研究的总体按两个或两个以上的标志结合进行的分组,称为复合分组。 9、次数分布数列根据分组标志特征的不同,可以分为品质分布数列和数量分布数列两种。 10、变量数列是单项变量分组、组距式分组所形成的次数分布数列。 11、按品质标志分组的结果,形成品质分布数列。 12、组限是组距变量数列中表示各组数量界限的变量值,其中下限是指最小值的变量值,上限是指最大值的变量值。 13、组距变量数列的组距大小与组数的多少成反比。与全距的大小成正比。 14、组距变量数列的分布可以用次数分布曲线图表示。 15、划分连续变量的组限时,相邻组的组限必须重叠;划分离散型变量的组限时,相邻组的组限可以重叠,也可以不重叠。 16、统计资料的整理方法主要有统计分组和统计汇总两种。 17、钟形分布、U形分布和J形分布是次数分布的三种主要类型。 18、统计分组体系有品质标志分组和数量标志分组两种。 19、统计表按主词是否分组和分组的程度可分为简单表、简单分组表和复合分组表三种。 20、统计表从内容结构上看,是由主词和宾词两部分构成。 (二)单项选择题(在每小题备选答案中,选出一个正确答案) 1、统计分组的结果表现为( A ) A. 组内同质性,组间差异性 B. 组内差异性,组间同质性 C. 组内同质性,组间同质性 D. 组内差异性,组间差异性 2、统计分组的依据是( A ) A、标志 B、指标 C、标志值 D、变量值 3、下面属于按品质标志分组的有( C ) A. 企业按职工人数分组 B. 企业按工业总产值分组 C. 企业按经济类型分组 D. 企业按资金占用额分组 4、统计分组的关键在于( A ) A、正确选择分组标志 B、正确划分各组界限 C、正确确定组数和组限 D、正确选择分布数列种类 5、下面属于按数量标志分组的有( B ) A. 工人按政治面貌分组 B. 工人按年龄分组 C. 工人按工种分组 D. 工人按民族分组 6、在全距一定的情况下,组距的大小与组数的多少成(B) A、正比 B、反比 C、无比例关系 D、有时成正比有时成反比

第三章统计数据的整理

第三章统计数据的整理 通过统计调查,我们得到许多原始数据,但这些数据是反映总体单位特征的、分散的、不系统的,为此必须对数据进行整理,使之由“个别”上升到“一般”,成为既便于储存,又便于传递的反映总体特征的资料。统计数据的整理是统计分析的前提,关系到整个统计工作的质量,因此,必须十分重视统计数据的整理。统计数据整理的主要内容有:数据预处理、数据的分组(类)、汇总、整理后的数据显示。 第一节数据预处理 一、数据的审核 在分类汇总之前,必须对原始数据进行认真的审核。审核的内容是数据的完整性和准确性。所谓完整性审核,一是审核各调查单位的调查表或调查问卷是否汇集齐全,比如,已对500个学生分别发放了调查问卷,要审核是否全部回收,如果回收不全要及时催收;若无法催收,要清点已回收的数量;若回收的数量不能满足要求,必须进行补充调查。其次,要审核各份调查表或调查问卷的项目是否填写齐全。若填写不全要补充完整;若一些缺失的重要项目无法补充填写,视为无效调查表或调查问卷对其剔除。 所谓准确性审核,就是审核各调查项目的填写内容是否准确。数据的准确性审核主要采用逻辑检查和计算检查。逻辑检查就是根据项目之间存在的内在联系,从逻辑上或常识上判断其合理性,以确定其正确与否。计算检查就是根据有些项目之间数量上的依存关系,通过简单的计算,检查数据有无错误。 对于二手数据,应该弄清楚数据的来源、数据的口径、数据的时效性以及有关的背景材料,以便确定这些数据是否符合自己的需要,是否需要重新加工整理。 二、数据的录入 在对数据审核基础上,应该将调查所得的原始数据录入计算机形成数据文件,以便进行分组与汇总。用计算机Excel录入数据的文件格式为:第一列为各总体单位(或调查单位)的名称或编号,以后各列分别为调查所得的各变量的具体数据。应该注意的是,必须标示每列变量的名称——标志。 【例3-1】用单一表对重庆市5个企业2006年的销售收入等进行了调查,得到如下资料(单位:万元),将其录入到计算机Excel表格中。 企业名称销售收入利税资产负债 红星公司1050 5 152 142 嘉林公司3600 19 420 290 红光公司3750 40 670 370 白云公司400 5 54 35 渝乐公司380 3 60 33 录入后的文件格式如图3-1。

第三章统计数据的整理

第三章统计数据的整理 一、填空题 1、综合平均 2、简单分组复合分组 3、统计分组的关键在于分组标志的选择 4、人口按性别民族职业分组属于按品质标志分组人口按年龄,工资分组属于按数量标志分组 5、统计复合分组表:是指主词按两个或两个以上标志进行层叠分组的统计表 6、可量性综合性 7、简单分组复合分组 8、百分数或倍数复名数 9、调查单位报告单位 10 、总体单位总量总体标志总量 二、简答题 1、统计资料整理的一般程序:编制整理纲要、统计资料的审核、统计资料的分类汇总、编制统计表。 2、统计分组有何作用:区分事物的性质,反映总体的内部结构,描述统计变量的分布状况研究现象之间的依存关系。 3、统计分组:根据统计研究的目的和被研究现象的本质特征,将统计总体按照一定的标志划分为若干性质不同的部分或组。 4、数量指标是用绝对数形式表现的,用来反映总体规模大小、数量多少的统计指标,其数值大小一般随总体范围的大小而增减。质量指标是说明总体内部数量关系和总体单位水平的统计指标,其数值大小不随总体范围的大小而增减。 5、比例相对指标有反映总体结构的作用,与结构相对指标有密切联系。所不同的是二者对比方法的不同,说明问题的点不同,比例相对指标反映的比例关系是一种结构性比例,一般侧重有一个经验数据。(2)强度相对指标也反映一种比例关系,相对比例相对指标而言,它所反映的是一种依存性比例而非结构性比例,不存在经验数据。

6、编制数量指标指数和质量指标指数应遵循的一般原则是:数量指标指数要使用基期的质量指标作为同度量因素,而质量指标指数要使用报告期的数量指标作为同度量因素,称之为“数基质报”原则。 三、计算题 1、 某公司日商品销售额分组 绘制直方图如下: 2、(1)线图如下:

第3章数据分布特征的统计描述习题

1 第三章 数据分布特征的统计描述 思考与练习 一、选择题 1.有n 辆汽车在同一距离的公路上行驶的速度资料,确定汽车平均每小时行驶速度的平均数公式是:( C ) A . n x ∑B .∑∑f xf C .∑x n 1D .∑∑x m m 2.权数对加权算术平均数的影响,取决于(B ) A. 权数所在组标志值的大小; B. 权数的大小; C. 各组单位数的多少; D. 总体单位数的多少 3.是非标志不存在变异时,意味着:(B ,C ) A. 各标志值遇到同样的成数; B. 所有单位都只具有某种属性 C. 所计算的方差为0; D. 所计算的方差为0.25 4.能够综合反映总体各个单位标志值的差异,对总体标志变异程度作全面客观评定的指标有(A ,C ) A.方差 B.算术平均数 C.标准差 D.全距 二、判断题 1.甲乙两地,汽车去程时速20公里,回程时速30公里,其平均速度为25公里。 [答]错。本题应采用调和平均法计算平均速度。 2.权数起作用的前提是各组的变量必须互有差异。 [答]对。 3.变量同减某个数再同除于另一数然后求其方差,其方差等于原方差乘于除数的平方。 [答]对。 4.与平均数相比,中位数比较不受极端值的影响。 [答]对。 三、计算题 1.甲乙两企业生产三种产品的单位成本和总成本资料如下表,试比较哪个企业的平均成本高,并分析其原因。 [解] 甲企业的平均成本210030001500660019.4118210030001500340 152030 ++= ==++

乙企业的平均成本 3255150015006255 18.2895 325515001500342 152030 ++ === ++ 由上面的计算得知,甲企业的平均成本高于乙企业。 因为乙企业单位成本低的A产品生产的数量多,占总成本一半以上,即成本低的产品相对权数大,而甲企业生产单位成本低的A产品数量少,仅占总成本的31.8%(=2100/6600)。由于权数的作用,乙企业的平均成本低于甲企业。 2.甲、乙两市场农产品价格及成交量资料如下表,试比较哪个市场的平均价格高,并分析其原因。 [解] 甲市场的平均价格 1.2 2.8 1.5 5.5 1.375 1.2 2.8 1.54 1.2 1.4 1.5 ++ === ++ 乙市场的平均价格 1.22 1.41 1.51 5.3 1.325 44 ?+?+? === 由上面的计算得知,甲市场农产品的平均价格高高于乙市场。 因为价格低的甲产品在甲市场成交额少,仅占21.8%(=1.2/5.5);而在乙市场的成交额大,占45.3%(=2.4/5.3),由于权数的作用,甲市场的平均价格高于乙市场。 3.某企业工人平均月工资为1440元,月收入少于1280元的占一半,试估计众数,并对该企业工人工资的分布情况做一简要说明。 [解] 由题中可知,企业工人月工资的中位数=1280 所以众数≈1440-3×(1440-1280)=960 所以众数<中位数<平均数,则该企业的月工资分布为右(正)偏,说明该企业工人的月工资分布中出现极大值,即出现有人拿到高额的工资,导致月工资分布呈右偏。 4.某城市对3000户居民户均月消费支出进行调查,得到下表资料。

第三章、统计数据的简单描述

第三章、统计数据的简单描述 一、单项选择题(在每小题的四个备选答案中,选出一个正确答案) 1. 在总量指标中,综合性最强的统计指标是()。 A. 实物指标 B. 价值指标 C. 劳动量指标 D. 标准实物量指标 2.“某年中国人均收入是美国人均收入的1/3”,这一指标是()。 A. 平均指标 B.比例相对指标 C.比较相对指标 D.强度相对指标 3. 我国国有工业企业产值占全部工业产值的比重,这一指标是()。 A. 结构相对指标 B. 比例相对指标 C. 比较相对指标 D. 动态相对指标 E. 强度相对指标 4. 我国1999年的税收收入是20年前的5倍,这一指标是()。 A. 结构相对指标 B. 比例相对指标 C. 比较相对指标 D. 动态相对指标 E. 强度相对指标 5. 某厂1996年完成产值2000万元,1997年计划增长10%,实际完成2310万元,超额完成计划()。 A. 5.5% B. 5% C. 115.5% D. 15.5% 6. 将比较的基数确定为10,计算出来的相对数是()。 A. 系数 B. 成数 C. 百分数 D. 千分数 E. 倍数 7. 以一个企业为总体,该企业报告期职工人数200人,全年工资总额2500万元,则()。 A.企业职工人数是总体标志总量,工资总额是总体单位总量 B.企业职工人数是总体单位总量,工资总额也是总体单位总量 C.企业职工人数是总体标志总量,工资总额也是总体标志总量 D.企业职工人数是总体单位总量,工资总额是总体标志总量 8. 在相对指标中,用有名数形式表现的统计指标是()。 A. 结构相对指标 B. 比例相对指标 C. 比较相对指标 D. 动态相对指标 E. 强度相对指标 9.在总量指标中,指标数值与时间长短直接相关的是() A. 时期指标 B. 时点指标 C. 平均指标 D. 相对指标 10. 某地区2008年年平均人数为1000万人,商业零售企业4000个,则商业网点密度指标为()

第三章 统计数据的描述习题

一、单项选择题 反映社会经济现象发展总规模、总水平的综合指标是()。 A、质量指标 B、总量指标 C、相对指标 D、平均指标 总量指标按反映时间状况的不同,可分为()。 A、数量指标和质量指标 B、时期指标和时点指标 C、总体单位总量和总体标志总量 D、实物指标和价值指标 由反映总体各单位数量特征的标志值汇总得出的指标是()。 A、总体单位总量 B、总体标志总量 C、质量指标 D、相对指标 反映不同总体中同类指标对比的相对指标是()。 A、结构相对指标 B、比较相对指标 C、强度相对指标 D、计划完成程度相对指标 计算结构相对指标时,总体各部分数值与总体数值对比求得的比重之和()。 A.小于100% B.大于100% C.等于100% D.小于或大于100% 下列相对数中,属于不同时期对比的指标有()。 A、结构相对数 B、动态相对数 C、比较相对数 D、强度相对数 7、权数对算术平均数的影响作用,实质上取决于()。 A.作为权数的各组单位数占总体单位数比重的大小 B.各组标志值占总体标志总量比重的大小 C.标志值本身的大小 D.标志值数量的多少 8、对于不同水平的总体不能直接用标准差比较其标志变动度,这时需分别计算各自的()来比较。 A.标准差系数 B.平均差 C.全距 D.均方差 9、某企业2003年完成产值2000万元,2004年计划增长10%,实际完成2310万元,计划完成程度相对数为()。 A、105.5% B、105% C、115.5% D、15.5% 10、在什么条件下,简单算术平均数和加权算术平均数计算结果相同()。 A、权数不等 B、权数相等 C、变量值相同 D、变量值不同

统计学原理第三章统计资料整理习题答案

第三章统计资料整理 一. 判断题部分 1: 对统计资料进行分组的目的就就是为了区分各组单位之间质的不同。( ×) 2: 统计分组的关键问题就是确定组距与组数。( ×) 3: 组中值就是根据各组上限与下限计算的平均值,所以它代表了每一组的平均分配次数。( ×) 3: 分配数列的实质就是把总体单位总量按照总体所分的组进行分配。( ∨) 4: 次数分配数列中的次数,也称为频数。频数的大小反映了它所对应的标志值在总体中所起的作用程度。( ∨) 5: 某企业职工按文化程度分组形成的分配数列就是一个单项式分配数列。( ×) 6: 连续型变量与离散型变量在进行组距式分组时,均可采用相邻组组距重叠的方法确定组限。( ∨) 7: 对资料进行组距式分组,就是假定变量值在各组内部的分布就是均匀的,所以这种分组会使资料的真实性受到损害。( ∨) 8: 任何一个分布都必须满足:各组的频率大于零,各组的频数总与等于1 或100%。( ×) 9: 按数量标志分组形成的分配数列与按品质标志分组形成的分配数列,都可称为次数分布。( ∨ ) 10:按数量标志分组的目的,就就是要区分各组在数量上的差异。( ×) 11:统计分组以后,掩盖了各组内部各单位的差异,而突出了各组之间单位的差异。( ∨) 12:分组以后,各组的频数越大,则组的标志值对于全体标志水平所起的作用

也越大;而各组的频率越大,则组的标志值对全体标志水平所起的作用越小。( ×) 二.单项选择题部分 1: 统计整理的关键在( B )。 A、对调查资料进行审核 B、对调查资料进行统计分组 C、对调查资料进行汇总 D、编制统计表 2: 在组距分组时,对于连续型变量,相邻两组的组限( A )。 A、必须就是重叠的 B、必须就是间断的 C、可以就是重叠的,也可以就是间断的 D、必须取整数 3: 下列分组中属于按品质标志分组的就是( B )。 A、学生按考试分数分组 B、产品按品种分组 C、企业按计划完成程度分组 D、家庭按年收入分组 4: 有一个学生考试成绩为70分,在统计分组中,这个变量值应归入( B )。 A、60---70分这一组 B、70---80分这一组 C、60—70或70—80两组都可以 D、作为上限的那一组 5: 某主管局将下属企业先按轻、重工业分类,再按企业规模分组,这样的分组属于( B )。 A、简单分组 B、复合分组 C、分析分组 D、结构分组 6: 简单分组与复合分组的区别在于( B )。 A、选择的分组标志的性质不同 B、选择的分组标志多少不同

社会统计学 第三章 社会统计资料的整理daan

第三章社会统计资料的整理 第一节统计分组的原则与标准 “穷举”与“互斥”·频数(或次数)分布数列·品质数列(定类和定序)与变量(定距)数列 第二节统计表 统计表的格式、内容与种类·统计表的制作规则 第三节变量数列的编制 离散变量数列与连续变量数列·单项数列与组距数列·组距和组数的确定·等距分组与异距分组·开口组与闭口组·频数密度与标准组距频数·累计频数第四节统计图 频数分布曲线(直方图、折线图、曲线图)·累计频数分布曲线·洛仑兹曲线与基尼系数 一、填空 1.统计表从内容上看,是由()和宾词两部分构成的。 2.主词是统计表要说明的();宾词是用来说明主词的()。 3.变量数列有两个构成要素()和()。 4.基尼系数为(),表示收入绝对不平均;基尼系数为(),表示收入绝对平均。 5.统计表通常有一定格式,统计表各部位的名称分别是()、横行标题、纵栏标题、()。 6.实际收入分配情况则由洛仑兹曲线表示,一般表现为一条下凹的弧线,下凹程度愈大,收入分配(),反之,则收入分配()。 7.对于连续变量,恰是某一组限的数据应按照()的原则归入相应的组别。 8.统计表按主词的分组情况,可分为简单表、简单分组表和()。 9.统计分组的关键在于()和划分各组界限。 二、单项选择题 1.统计表的数字部分中符号“……”代表的含义是()。 A.某项数字不存在B.缺少某项数字 C.某项数字较大D.提醒注意核计 2.某城市男性青年27岁结婚的人最多,该城市男性青年结婚年龄为26.2岁,则该城

市男性青年结婚的年龄分布为()。 A.正偏B.负偏 C.对称D.不能作出结论 3.上限与下限之差是()。 A.组限B.组距 C.组中值D.极差 4.累计频数分布曲线一般都呈()。 A.钟型曲线B.U 型曲线 C.J 型曲线D.逻辑斯蒂曲线 三、多项选择题 1.累计频数分布曲线()。 A.只有持续增长或持续减少两种形状 B.呈对称的钟型 C.一般呈S状 D.斜率为零处对应于空组 E.曲线最高处对应于含有最多单位的间距 2.如果某连续变量的数值分布很不均匀,且有极端值出现,则数列应编制()。 A.开口组B.闭口组C.等距数列 D.异距数列E.单项式数列 3.统计表从格式上看,可以分为()等部分。 A.总标题B.主词C.宾词 D.横行、纵栏标题E.指标数值 四、判断题 1.对于直方图,如果矩形的总面积为1,各矩形的面积必定等于各组的相对频数。 ()2.洛仑兹曲线一般表现出为一条下凹的曲线,下凹的程度愈大,收入分配愈平均。 ()3.将收集到得的数据分组,组数越多,丧失的信息越多。()4.离散变量既可编制单项式变量数列,也可编制组距式变量数列。() 五、名词解释 1.统计分组 2.统计表 3.洛仑兹曲线 4.基尼系数 六、应用题 1.指出下表格各部分的名称

第三章 统计整理习题(1)

第三章统计整理习题(1)

第三章统计整理习题(一) 一、单选题 1.统计分组的关键在于确定()。 A.组中值B.组距C.组数D.分组标志和分组界限 2.按照反映事物属性差异的品质标志进行分组称为按品质标志分组。下述分组中属于这一类的是()。 A.人口按年龄分组B.在校学生按性别分组 C.职工按工资水平分组D.企业按职工人数规模分组 3.按数量标志分组的关键是确定()。 A.变量值的大小B.组数C.组中值D.组距 4.对某校学生先按年级分组,在此基础上再按年龄分组,这种分组方法是()。 A.简单分组B.复合分组C.再分组D.平行分组 5.全国总人口按年龄分为5组,这种分组方法属于()。 A.简单分组B.复合分组C.按品质标志分组D.以二都不对 6.组距数列中的上限一般是指()。 A.本组变量的最大值B.本组变量的最小值 C.总体内变量的最大值D.总体内变量的最小值 7.等距数列和异距数列是组距数列的两种形式,其中等距数列是指()。A.各组次数相等的数列B.各组次数不等的数列 C.各组组距相等的数列D.各组组距不等的数列 8.某企业职工月工资收入最高者为4260元,最低者为2700元,据此分为六个组,形成闭口式等距数列,则组距应为()。 A.7108 .B260 C.1560 D.3480 9.在组距数列中,对各组的上限与下限进行简单平均,得到的是()。A.组中值B.组平均数C.组距D.组数 10.在分组时,如遇到某单位的标志值刚好等于相邻两组上下限数值时,一般是()。 A.将此标志值单一组B.将此值归入作为上限的那一组 C.将此值归入作为下限的那一组D.将此值归人作为上限的组或下限的组均可 11.企业按资产总额分组()。 A.只能使用单项式分组B.只能使用组距式分组 C.可以单项式分组,也可以组距式分组D.无法分组 12.某连续变量数列,其末组为开Vl组,下限为200,又知其邻组的组中值为170,则末组组中值为()。 A.2608 B.215 C.230 D.285

相关文档
最新文档