第三章 统计数据的整理 课程实验
统计实验报告数据整理(3篇)

第1篇一、实验背景随着社会的不断发展,数据已成为决策的重要依据。
在统计学领域,数据整理是数据分析和研究的基础。
为了提高数据整理的效率和准确性,本实验旨在探究一种有效的数据整理方法,并对实验结果进行分析。
二、实验目的1. 探索一种适用于各类数据的数据整理方法;2. 提高数据整理的效率和准确性;3. 分析实验结果,为实际应用提供参考。
三、实验方法1. 数据来源:收集某地区居民收入、消费、教育等方面的数据,共1000条记录;2. 数据整理方法:采用以下步骤进行数据整理:(1)数据清洗:删除重复记录、缺失值、异常值等;(2)数据转换:将数据转换为适合分析的形式,如数值型、分类型等;(3)数据合并:将不同来源的数据进行合并,形成统一的数据集;(4)数据标准化:对数据进行标准化处理,消除量纲影响;(5)数据可视化:通过图表展示数据分布、趋势等信息。
四、实验结果与分析1. 数据清洗在数据清洗阶段,共删除重复记录10条,缺失值20条,异常值5条。
经过清洗,有效数据量提升至965条。
2. 数据转换将居民收入、消费、教育等数据转换为数值型,以便后续分析。
其中,收入数据取对数处理,消费数据取平方根处理。
3. 数据合并将不同来源的数据进行合并,形成统一的数据集。
合并后,数据集包含965条记录。
4. 数据标准化对数据进行标准化处理,消除量纲影响。
采用Z-score标准化方法,将各变量均值调整为0,标准差调整为1。
5. 数据可视化通过图表展示数据分布、趋势等信息。
(1)居民收入分布根据标准化后的收入数据,绘制直方图。
结果显示,居民收入分布呈偏态分布,大部分居民收入集中在中等水平。
(2)消费趋势根据标准化后的消费数据,绘制折线图。
结果显示,消费趋势呈现逐年上升趋势,且增长速度较快。
(3)教育水平分布根据教育水平分类,绘制饼图。
结果显示,受教育程度较高的人群占比相对较小,受教育程度较低的人群占比较大。
五、实验结论1. 实验结果表明,所采用的数据整理方法适用于各类数据,能够提高数据整理的效率和准确性;2. 数据清洗、数据转换、数据合并、数据标准化等步骤在数据整理过程中至关重要;3. 数据可视化有助于直观地展示数据分布、趋势等信息,为后续分析提供有力支持。
统计学教案(第3章统计数据的整理与显示)

组距式分组要确定并考虑组距、组数、组限、组中值等问题。组距式分组 的步骤是: (一)确定组距与组数 组距与组数互为消长,在全距一定的情况下,若组数很多,则必然组距较 小,反之,若组数少,则必然组距较大。在分组时,应避免组距过大或过小, 因为当组距过大以至组数过少时,则可能将一些性质不同的单位归并到同一 组,不能充分显示总体的特征;当组距过小以至组数过多时,则可能把性质相 同或相近的单位分散到不同的组, 也不能很好地显示总体的特征。 比如对学生 按考试成绩分为 0-60 分、60-100 分,显然分组过少,不能充分揭示学生考试
解:第 1 步:顺次点击【销售收入】单元格、 【数据】菜单、 【筛选】和【自动筛选】命 令,见图 3-2。
2
图 3-2
Excel 自动筛选命令
第 2 步:顺次点击【销售收入】标志的下拉箭头、 【自定义】 , 见图 3-3。
图 3-3
选择“自定义”命令
第 3 步:点击对话框中的下拉箭头,选择“大于或等于” ,并在其后的空格中输入 3000, 见图 3-4。单击【确定】 ,即可得到图 3-5 所示的结果。
统计学
授课题目 第 3 章统计数据的整理与显 示 授课方式 教学目的: 过本章的学习,要求明确统计整理的意义、内容和步骤;掌握统计分组的涵义及作用、正确选 择分组标志的原则及分组方法;掌握分配数列的概念、种类、编制方法;熟悉统计表的结构及设计 要求。 教学重点及难点提示: 重点为统计分组的概念、作用;正确选择分组标志的原则、方法;分配数列的编制。 难点为分组标志的选择和次数分布的特征。 案例导入:我国人口老龄化趋势不可逆转 第一节 数据整理的意义和程序 一、数据整理的意义 通过统计调查, 我们得到许多原始数据, 但这些数据是反映总体单位特征 的、 分散的、 不系统的, 为此必须对数据进行整理, 使之由 “个别” 上升到 “一 多媒体教学 般”,成为既便于储存,又便于传递的反映总体特征的资料。统计数据的整理 案例教学 是统计分析的前提,关系到整个统计工作的质量,因此,必须十分重视统计数 据的整理。 二、数据整理的程序 统计数据整理的主要内容有:数据预处理、数据的分组(类) 、汇总、整 理后的数据显示。 第二节 一、数据的审核 在分类汇总之前, 必须对原始数据进行认真的审核。 审核的内容是数据的 完整性和准确性。 所谓完整性审核, 一是审核各调查单位的调查表或调查问卷 是否汇集齐全,比如,已对 500 个学生分别发放了调查问卷,要审核是否全部 回收,如果回收不全要及时催收;若无法催收,要清点已回收的数量;若回收 的数量不能满足要求,必须进行补充调查。其次,要审核各份调查表或调查问 卷的项目是否填写齐全。 若填写不全要补充完整; 若一些缺失的重要项目无法 补充填写,视为无效调查表或调查问卷对其剔除。 所谓准确性审核, 就是审核各调查项目的填写内容是否准确。 数据的准确 性审核主要采用逻辑检查和计算检查。 逻辑检查就是根据项目之间存在的内在
实验3 统计整理 统计图表制作备课讲稿

实验3统计整理统计图表制作实验3 统计整理--统计图、表的SPSS创建与制作3.1实验目的学会运用SPSS统计软件,用调查资料进行整理,用统计图和表显示整理结果。
3.2相关知识(略)3.3实验内容3.3.1用spss进行统计资料分组。
3.3.2利用SPSS 创建常用的统计图形。
3.3.3利用SPSS制作统计表格,显示分组结果。
3.3.4 撰写实验分析报告。
3.4实验要求3.4.1准备实验数据:1.某集团所属20家公司基本资料。
2.某市2993个住户居民住房情况调查资料。
3.搜集财管专业2009级1-4班的“概率”成绩。
4.某企业139名职工基本工资情况表。
3.4.2编制数列:1.将20家公司的数据编制成品质数列。
2.将某市2993个住户居民住房情况数据按常住人口数编制单项数列。
3.编制组距数列。
即将财管专业学生概率成绩整理成组数为5、组距为10的等距数列,计算频数及累计频数,编制频数分布统计表和累计频数分布统计表。
3.4.3绘制茎叶图、直方图和线形图等。
3.4.4利用SPSS制作统计表。
3.4.5根据绘制的统计图表及计算的指标,对频数分布特征作出简要分析。
3.5实验步骤3.5.1准备实验数据:1.某集团所属20家公司基本资料,见表3-1所示。
表3-1 某集团所属20家公司的基本情况表2.某市2993个住户居民住房情况调查资料,由于数据过多,此处略。
3.财管专业2009级1-4班的“概率”成绩,见表3-2所示。
表3-2 财管专业1-4班概率成绩表表3-3 某企业139名职工基本工资情况表19 梁鸿A部门男职员高工800 600 7020 刘尚武A部门男职员高工800 600 7021 朱强A部门男职员高工850 600 10022 丁小飞A部门女职员技师700 400 5023 孙宝彦A部门男职员技术员650 300 3024 张港A部门男职员技师700 400 5025 郑柏青A部门女职员工程师800 450 7026 王秀明A部门男职员技术员650 300 3027 贺东A部门男职员高工800 600 7028 裴少华A部门男职员技术员700 300 5029 张群义A部门男职员工程师800 450 7030 张亚英A部门男职员工程师800 450 7031 张武A部门男职员工程师800 450 7032 林桂琴A部门女职员技师700 400 5033 张增建A部门男职员工程师800 450 7034 陈玉林A部门男职员工程师700 450 5035 吴正玉A部门男职员工程师700 450 5036 张鹏A部门男职员工程师700 450 5037 吴绪武A部门男职员技师700 400 5038 姜鄂卫A部门男职员高工850 600 10039 胡冰A部门男职员工程师850 450 10040 朱明明A部门女职员工程师850 450 7041 谈应霞A部门男职员工程师800 450 7042 符智㑇A部门男职员工程师800 450 7043 孙连进A部门女职员工程师800 450 7044 王永锋A部门男职员工程师850 450 10045 周小红B部门女职员技术员700 300 5046 钟洪成B部门男副经理技术员700 300 30047 钟延B部门男副经理技术员700 300 30048 汪勇B部门男副经理工程师800 450 30049 陈文坤B部门男经理高工900 600 50050 刘宇B部门男副经理工程师800 450 30051 李少杰B部门男职员技术员700 300 5052 邹明鹏B部门男职员技术员650 300 3053 张同亮B部门男职员技师700 400 5054 张苑昌B部门男职员工程师700 450 5055 曾良富B部门男职员高工800 600 7056 冯开明B部门女职员工程师800 450 7057 张其森B部门男职员工程师800 450 7058 张良B部门男职员技术员700 300 5059 张雪平B部门男职员技术员700 300 5060 杨浩B部门男职员高工800 600 7061 刘彦B部门女职员技师700 400 5062 李文辉B部门女职员工程师800 450 7063 李开银B部门男职员技师700 400 5064 赵荣珍B部门女职员工程师800 450 7065 张大贞B部门男职员技师700 400 5066 李河光B部门男副经理工程师850 450 30067 张伟B部门男职员技术员700 300 5068 陈德辉B部门男职员技术员700 300 5069 周立新B部门男职员技术员700 300 5070 罗敏B部门女职员技师700 400 5071 陈静B部门男职员技师700 400 5072 周建兵B部门男职员技术员700 300 5073 汪荣忠B部门男职员高工800 600 7074 黄勇B部门男职员技师700 400 5075 夏存银B部门男职员技师700 400 5076 袁宏兰B部门男职员工程师800 450 7077 周金明B部门男职员技术员700 300 5078 王子国B部门男职员技术员700 300 5079 陈明良B部门女职员工程师700 450 5080 金则林B部门男职员技术员700 300 5081 赵甜甜B部门女职员工程师850 450 7082 朱庆明B部门女职员技师800 400 7083 张其祝B部门男职员工程师700 450 5084 蔡学民B部门男职员技师800 400 7085 贺页龙B部门男职员技术员700 300 5086 陈金山B部门男职员工程师700 450 5087 梁永红C部门男职员技术员700 300 5088 徐梅东C部门男职员技术员700 300 5089 和会明C部门女副经理技师700 400 30090 程松泉C部门男副经理技术员700 300 30091 黄康大C部门男职员技师700 400 5092 廖芳园C部门男职员技师700 400 5093 杨旭C部门男职员技术员650 300 3094 钟远盛C部门男职员技术员700 300 5095 刘红姣C部门男职员工程师800 450 7096 冶永伟C部门男职员技术员700 300 5097 陈金保C部门男职员技术员700 300 5098 黄妃玉C部门男职员高工900 600 10099 张冬能C部门男职员技师700 400 50 100 林秀英C部门男职员技术员700 300 50 101 朱小娟C部门女职员技师700 400 50 102 黄权统C部门男经理工程师800 450 500 103 周川南C部门男职员技术员700 300 50 104 王权英C部门男职员技师700 400 50 105 范绍天C部门男副经理工程师800 450 300 106 窦伟明C部门男职员工程师800 450 70 107 罗勇C部门男职员高工800 600 70 108 罗章C部门男职员工程师700 450 50 109 周伟C部门男职员工程师700 450 50 110 刘开斌C部门男职员技术员700 300 50 111 张胜珍C部门男职员工程师800 450 70 112 张洪芳C部门男职员技师700 400 50 113 胡老行C部门男职员技术员700 300 50 114 徐定荣C部门男职员技术员700 300 503.5.2 编制分布数列1.编制品质数列定类数据和定序数据统称为品质数据。
第三章 统计数据的整理

2.组数、 2.组数、组距确定的斯特杰斯经验公式 组数
N n
15-24 5
25-44 6
45-89 7
90-179 8
180-359 9
360-719 10
适用条件: 适用条件:
1.近似正态分布 1.近似正态分布 2.现象特性适合等距分组 2.现象特性适合等距分组
组
限
组限:指每组两端数值。分为上限和下限。 组限:指每组两端数值。分为上限和下限。 上限:每组的终点数值(最大值)。 上限:每组的终点数值(最大值)。 下限:每组的起点数值(最小值)。 下限:每组的起点数值(最小值)。 组限的形式:与变量的特点有关, 组限的形式:与变量的特点有关,重合式和不重合式
四、统计分组方法
(一)按标志的性质分组 按品质标志分组 按数量标志分组
单项式分组: 单项式分组:离散型变量在变量值变动范围不 大时,可以将一个变量值作为一组 大时, 组距式分组
离散型变量取值范围大、 离散型变量取值范围大、项数又多时 连续型变量
组距式分组的组数、组距、 组距式分组的组数、组距、 组限和组中值
2、不重合式 指前一组的上限与后一组的下限, 指前一组的上限与后一组的下限,两值紧密相连 而不相重复。 而不相重复。 一般用于离散型变量。 一般用于离散型变量。 组距=下组下限-本组下限=本组上限- 组距=下组下限-本组下限=本组上限-前组上限 人口普查时,按照家庭人口数分组: 例:人口普查时,按照家庭人口数分组:1-2,34,5-6,7和7以上
变量是离散变量 变量的不同取值个数较少
【例】己知某车间有24名工人,他们的日产量(件) 名工人, 己知某车间有 名工人 他们的日产量( 分别是:20,23,20,24,23,21,22,25,26,20, 分别是: , , , , , , , , , , 21,21,22,22,23,22,22,24,25,21,22,21, , , , , , , , , , , , , 24,23.要求根据以上资料编制变量数列。 要求根据以上资料编制变量数列。 , 要求根据以上资料编制变量数列
第三章统计数据的整理与展示

编制结果
组中值: 5-(10-5)/2=S2T.A5T
根据“上限不包括在内”原则,所以在
5的销~1数0售之值额间值,有(不:百应5.万0该5把元.81)06包.0括组6在.4内中6.,8值这7.里0 商店数
7.4 8.3 8.5 9.5
5以下
2.5
4
5~10 10~15 15~20
172.5.5组25中+值(:211006-25)/2=27.5 17.5 13
储蓄存款
品
活期
质 标 志
定期 财政性存款
复合 分组
分 组
活期 定期
STAT
例2 :企业职工按工龄分组
5年以下
5~10年
10~15年
数量标志分组
15~20年
20年以上
统计分组的程序与原则
选择分 组标志
确定分 组体系
总体单 位归类
科学性: 组间差异 大,组内 差异小。
完备性和互斥性: 每个单位均能且 只能归到某个组 中。
2. 时效性审核 – 应尽可能使用最新的统计数据
3. 确认是否必要做进一步的加工整理
数据的筛选
STAT
1. 对审核过程中发现的错误应尽可能予以纠正 2. 当发现数据中的错误不能予以纠正,或者有些
数据不符合调查的要求而又无法弥补时,需要 对数据进行筛选 3. 数据筛选的内容包括:
▪ 将某些不符合要求的数据或有明显错误的数
志作为分组标志 • 要结合现象所处的具体历史条件或经济条
件来选择分组标志
例 1 : 为了了解某地区银行存款的构成,可以选 用存款性质、期限两个标志分别进行分组
STAT
按存款性质分组 企业存款 储蓄存款 财政性存款
第三章统计数据的整理与显示

统计整理方案 1、 确定汇总的统计指标和
综合表; 2、 确定分组方法; 3、 确定汇总资料的形式; 4、 确定资料的审查内容和
审查方法。
第三章 统计数据整理与显示
§2 统计分组 一、统计分组意义和作用 1、概念:它是根据统计研究的需要,将
统计总体按照一定的标志分成若干 个不同的组别。 对总体而言是“分”,对个体而言是“合”。 2、统计分组的原则
第三章 统计数据的整理 与显示
➢ 数量分组的方法 ➢ 分配数列的编制
§1 统计数据整理
一、统计整理的意义和内容 统计整理在统计工作中处于中间阶段,
起着承前启后的作用。通过数据整理,可 以使混乱、缺乏条理性的资料变成有条理 性、在某种程度上能够说明总体特征的有 用的资料。
它是根据统计研究的任务,对调查阶 段所搜集到的大量的原始资料进行加工汇 总,使其系统化、条理化、科学化,以反 映总体综合特征的资料的工作过程。
试将工人分成5组
其基本步骤为: 第一步:将原始资料按数值大小依次排列。 全距(Range)=最大变量值—最小变量值。
=576-432=144
第二步:确定变量的类型和分组方法(单 变量分组或组距分组)。
第三步:确定组数和组距(interval)。当 组数确定后,组距可计算得到: 组距=全距/组数
原则: 应将总体单位分别的特点显示出来 要考虑到原始资料的集中程度 要考虑到所研究对象的实际情况,考
例:重庆市按GDP计算的三次产业结构(%)
1980年
GDP
100
第一产业 38.4
第二产业 44.6
第三产业 17
1990年 100 33.4 39.7 26.9
2000年 100 17.8 41.4 40.8
第三章统计数据的整理

22 21 21 20 19 21 22 23 21 19 20 20 19 22 21 21 21 20 19 23 22 20 22 22 23 19 19 20 21 22
上述数据是我们通过对某班学生进行普查得到原始资料,这些数 据零散而且杂乱无章,无法揭示研究对象的分布特征和规律性。如何 表示这些数字就会使其清晰呢?
上一页 返回
一、统计分组的概念
统计分组就是根据统计研究任务的要求和现象总体的特点,将统计 总体按照某一标志划分为若干性质不同而又有联系的几个部分。例如, 将某班学生按照性别、年龄、籍贯、民族等分组。统计分组应达到的要 求是同一组内的单位性质相同,不同组所包括的单位性质相异。例如, 将我国国民经济各部门按三次产业分类,划分为第一产业—农业;第二产 业—工业和建筑业;第三产业—除上述第一、第二产业以外的其他产业。
上一页 下一页 返回
例如,将某地区的企业按规模分组,而反映企业规模的标志有很多, 如职工人数、产品产量、企业产值、企业生产能力、固定资产产值等。选 择哪一个作为分组标志,需要结合企业所处的具体条件确定。对于劳动密 集型企业,宜采用职工人数作为分组标志来反映企业生产规模的大小;对 于技术密集型企业,宜采用企业生产能力或固定资产价值作为分组标志。 2.正确确定各组的界限
在第二章中介绍了统计调查,即如何设计调查方案,选择何种调 查方法去获得资料,而获得的原始资料仅仅能够说明各个单位的具体 情况,是比较零散的,想要把它变成有效的信息,必须对其进行加工 整理。本章就是要学习如何整理统计数据资料。
下一页 返回
【本章重点】 统计分组的方法;分配数列的编制;统计表和统计图的制作。 引子:如何清晰表示这些数字呢? 经过统计调查收集到数据以后,接下来的工作就是对这些数据资
第三章 统计数据的整理.

四、统计分组的关键内容
1、分组标志的选择
分组标志选择的原则 (1)要符合统计研究的目的和要求 (2)要选择最能说明事物本质特征的标志 (3)要考虑到现象所处的具体历史条件
2、各组界限的确定
即根据分组标志划定各相邻组 之间的性质界限和数量界限。
五、统计分组的方法
(一)、按品质标志分组的方法 (分组标志确定后,分组界限便成为分组的重要问题) (1)、组限是自然形成的或比较明显的。例如, 人口按性别、文化程度、党派分组等。 (2)、由于存在属性之间的过渡形式,使分组界 限难以确定。这种比较复杂的属性分组,国家有关 部门都制定有标准的分类目录,分组时可以依据分 类目录来确定组限。
6学时
六、教学内容
第一节 第二节 第三节 第四节 第五节
统计数据整理概述 统计分组 分配数列 统计汇总 数据的显示 (统计表和统计图)
第一节
统计数据整理概述
一、统计整理的意义
(一)、统计整理: 就是对搜集得到的初始数据进行审核、分组、汇 总,使之条理化、系统化,变成能反映总体特征的综 合数据的工作过程。 对已整理过的资料(包括历史资料)进行再加工也 属于统计整理。 计算机使用条件下,整理工作大大简化
第三章 统计数据的整理和显示
教学目的要求 本章重点 本章难点 教学方法 教学时数
90 80 70 60 50 40 30 20 10 0 东部 西部 北部
第一季度 第二季度 第三季度 第四季度
一、教学目的和要求:
1.明确统计数据整理的概念和重要意义; 2.熟悉整理的内容; 3.掌握分组的概念、特点和原则,能熟练进行分 组,熟悉分组的作用,了解分组的种类; 4.掌握分配数列的概念及其构成,熟悉变量数列 的编制方法; 5.掌握统计表的含义及其构成,熟悉统计表的编 制,了解频数分布的类型及常用的统计图的绘 制。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 统计数据的整理
第一节 统计数据的审核 第二节 统计分组 第三节 次数分布 第四节 统计表 第五节 课程实验
第一节 统计数据的审核
在对统计数据进行整理时,首先要进行审核, 以保证数据质量,为进一步统计分析打下基础。
对于通过直接调查取得的原始数据,应主要从 完整性和准确性两个方面去审核。 完整性审核主要是检查应调查的个体单位是否 有遗漏,所有的调查项目或指标是否填写齐全等 。 审核数据准确性的方法主要有逻辑检查和计算 检查。
数量次数分布就是按数量变量分组所形成的次数 分布。它也有两个构成要素:一是以数量变量作 为各组的名称,二是各组的单位数。例如表3-5。 表 3- 5 某班组工人看管机器台数的情况 工人数(人) 比 率(%)
看管机器数(台)
1 2 3
合 计
3 8 5
16
20.00 53.30 26.70
100.00
日生产量(公斤) 人 数(人)
80—90 90—100 100—110 110—120 120—130
合 计
7 9 19 10 5
50
14 18 38 20 10
100
在组距次数分布中,各组组距相同的次数分 布称为等距次数分布。各组组距不同的次数分布 称为异距次数分布。 等距次数分布一般在现象性质差异变动比较 均衡的条件下使用。 优点: 易于掌握次数分布的特性。 各组次数可以直接比较。 等距的情况下,确定组数、组距的公式: 组数= 全距/组距 组距=全距/组数
对于离散变量,相邻组的组限一般要间断。如 表3-9中“100~199”一组的上限199和“200~299” 一组的下限200并不需要重合,只需互相衔接。 表 3- 9 按工人人数划分的工业企业分布情况 工 业 企 业 数(个) 80 120 60 20 5
工 人 数(人) 100以下 100~199 200~299 300~399 400以上
异距次数分布一般在现象性质差异的变动非 均衡的条件下使用。 优点: 能准确地描述偏态分布; 能将性质相同的总体单位归为一组。 采用异距次数分布应当注意的是:由于各组 组距不同,各组次数直接比较没有意义。通常需 计算次数密度(次数/组距)。
(三)确定组限和组中值 组限就是各组间的数量界限。 对于连续变量来说,由于变量的数值是连续不 断的,相邻两值之间可取无限数值,因此,相邻组 的组限必须重合。如表3-8中,第一组80~90,80为 下限,90为上限。 按习惯规定,各组包括下限数值,但不包括上 限数值,统计中叫做“上限不在内”原则。
(一)区分不同事物的性质 区分事物不同的性质是统计分组的根本作用。 例如,研究人口时,可以从性别、年龄、民族、 文化程度等方面来区分人口的不同性质。 25%
33%
42% 分组后
分组前
(二)反映事物的内部构成及其变化规律性 通过分组区分了事物的不同性质,可以研究 现象的各部分构成,进而识别事物的主要部分与 共性特征,以说明事物发展变化的规律。
第一节 统计数据的审核
通过其他渠道取得的第二手数据,除了对其完整 性和准确性进行审核外,还应着重审核数据的适 用性和时效性。
第一节 统计数据的审核
对审核过程中发现的错误应尽可能予以纠正。调 查结束后,当数据中发现的错误不能予以纠正, 或者有些数据不符合调查的要求而又无法弥补时 ,就需要对数据进行筛选。数据筛选包括两方面 内容:一是将某些不符合要求的数据或有明显错 误的数据予以剔除;二是将符合某种特定条件的 数据筛选出来。数据的筛选在统计调查中是十分 重要的。
这些数据杂乱无章,难以看出其数量特征及 其分布的规律性,需编制次数分布。
(一)编制序列和计数 按一定顺序排列的数值称为序列,即把数值从小到大 (从大到小)的顺序排列。编制单项次数分布表3-7。
表3-7 某企业月工人生产量分布表
人数 (人) 2 2 2 1 1 1 1 1 1 2 1 50
零件数(件) 人数(人) 零件数(件) 人数(人) 零件数(件)
组距Байду номын сангаас
10 10 10 10 10
组中值
85 95 105 115 125
据表3-9计算各组组距和组中值,如表3-11。 表3-11 工人数(人) 100以下 100—199 200—299 300—399 400以上
开口组
按工人人数分组 组距 100 100 100 100 100 组中值 50 150 250 350 450
81 82 83 84 85 86 89 91 92 93 96 合 计 1 1 1 1 1 1 1 2 1 1 2 - 97 98 101 102 103 104 105 106 107 108 109 - 2 1 1 1 2 2 3 4 2 2 2 - 110 111 112 113 114 115 119 122 124 125 128 -
表3-6 某地区2 009年城镇居民可支配收入情况
每人每月可支配收入(元) 500 以下 500 -700 700 -900 900 -1100 1100 -1300 1300 -1500 1500 -1700 1700 -2100 2100 以上 合 计 百 分 比(%) 2.55 14.82 24.45 22.00 17.36 9.64 4.91 2.36 1.91 100.00
表 3- 2
施肥量 0 (斤) 小麦亩产 量(斤) 140
小麦施肥量与亩产量之间的关系
10 210 20 30 40 50 60 70
280
350
420
490
651
500
三、统计分组的原则与分组变量
(一)统计分组的原则 一是要有周延性,即不遗漏,每一单位都有所 归属。 二是要有互斥性,即不重复,每一单位只能归 属于某一组而不能归属于另一组。 (二)统计分组的变量 分组变量就是将总体分为各个性质不同的标准 或根据。
(四)简单分组和复合分组 1.简单分组 对总体只按一个变量分组称为简单分组。 2.复合分组 对总体按两个或两个以上变量层叠起来进行分组 称为复合分组。即先按一个变量分组,然后再按另 一个变量将已经分好的各个组进一步划分为若干组。 3.交叉分组 对总体按两个变量交叉进行分组称为交叉分组, 它也是一种复合分组。如表3-3所示。
第二节 统计分组
一、统计分组的概念 统计分组就是根据统计研究的需要,将统计 总体按照一定的标志区分为若干个组成部分的一 种统计方法。 统计分组同时具有两个方面的含义:对总体 而言是“分”,即将总体区分为性质相异的若干 部分;对总体单位而言,是“合”,即将性质相 同的总体单位组合起来。
二、统计分组的作用
表3-3
2009年三个地区按城乡分组的文盲率
地 区
甲地区 乙地区 丙地区 合计
城镇文盲率(%)
3.38 3.29 4.07 —
乡村文盲率(%)
6.39 5.84 6.20 —
第三节 次数分布
一、次数分布的概念 在统计分组的基础上,将组中的所有单位按 组归类整理,形成总体中各个单位在各组间的分 布,就叫做次数分布。 分布在各组的个体单位数叫次数,又称频数。 各组次数与总次数之比称比率,又称频率。 将各组组别与次数依次编排而成的数列就叫 做次数分布数列,简称分布数列。 次数分布分为质量次数分布和变量次数分布。
第三章
统计数据的整理
学习目的
本章主要掌握: 重点掌握统计分组的基本理论和方法,次数分布 的编制,以及统计表、统计图的基本绘制方法。 结合微机操作,掌握统计整理方法。 重点: 次数分布的编制
统计实例
近几年来,随着人们物质文化水平的提高,旅游在人们 日常消费中所占的比例日渐上升。旅行社怎么对大量的游 客和潜在游客进行统计分析,以赚取更多的收益?游客们 对国内外的哪些景点比较热衷?对不同年龄层次,不同消 费水平的游客应该怎样进行分析?游客的出行方式有哪些 ?哪种出行方式的频率使用最高? 国内不同地区,不同城市的人均收入水平,人均消费水平 是不同的;各个阶层的消费方式也不一样;东部沿海省市 和西部内陆城市差距如何?如果按照收入阶层划分,怎样 分组才更加科学,怎样分组才更能体现收入的真实水平? 沃尔玛等大型连锁商店的消费者购物清单显示的信息有用 吗?这些商品信息和潜在的有用的顾客信息如何得到?
二、次数分布的种类 次数分布分为属性次数分布和数量次数分布。 属性次数分布就是按属性变量分组所形成的次数 分布。它有两个构成要素:一是以属性变量表现 为各组的名称,二是各组的次数。如表3-4。 表3-4 2009年我国人口按性别分组的情况 性 别 男 女 合 计 人 数(万人) 68652 64822 133474 占总人口比重(%) 51.43 48.57 100.0
根据分组变量的特征不同,总体可按属性变 量分组,也可按数量变量分组。 (1)按属性变量分组 按属性变量分组就是以属性变量作为分组变 量,并在属性变量的变异范围内划分各组界限, 将总体分为若干组。 (2)按数量变量分组 按数量变量分组就是以数量变量作为分组变 量,并在数量变量的变异范围内划分各组界限, 将总体分为若干组。
缺下限的开口组组中值=本组上限-邻组组 距 / 2 缺上限的开口组组中值=本组下限+邻 组组距 / 2
三、次数分布的表示方法 (一)表示法 表示法就是用表格来反映次数分布。表示法 的形式有两种:一是次数分布表,二是累积次数 分布表。次数可用绝对数或相对数。 需要各组的累计次数时,可编制累计次数分 布表,如表3-12。 计算累计次数的方法: 向上累计是从变量值最小一组的次数起逐项累计, 每组累计次数表示小于该组上限值的次数共有多 少。 向下累计是从变量值最大一组累计的次数共有多 少。
三、变量次数分布的编制方法 步骤:编制序列和计数、确定组数和组距、确定组 限和组中值。 例如,对某工厂某月50名工人生产量(公斤)情况 进行调查,得到下列初级数据: