第十一章描述性统计量

合集下载

第十一章专题数据分析方法——描述性统计市场调研描述

数量标志的描述方法（1）
表3 某年某工地100名工人的月工资情况工人数（人） 10 35 20 20 15 100
厦门理工学院文化传播系蔡清毅 14
按工资水平分组（元） 500以下 500—600 600—700 700—800 800以上合计
2018/12/10
数量标志的描述方法（1）
注意几个问题：第一工资水平是连续变量要用重叠组限
2018/12/10
厦门理工学院文化传播系蔡清毅
4
区分不同的测量水平
区分原则：定类数据没有大小之分；定序数据
有大小之分，差值有意义；定距数据有大小之分，差值有意义，但其比值无意义；定比数据比值有意义。定比定距数据可以向前化成定序或者定类数据，但是将损失一定信息；反之，不能将定序定类数据化成定距定比数据。
第二组限的确定，即分组界限的确定
第三组距大小的确定
全距第四组数的确定，组数＝组距
2018/12/10
厦门理工学院文化传播系蔡清毅
15
数量标志的描述方法（1）
（3）不等组距变量数列如在生命统计中，人口死亡率将人口按年龄分组
1岁以下 1—1.9岁 2—2.9岁组距为1 5—9.9岁 10—14.9岁组距为5 15—19.9岁 20—29.9岁 30—39.9岁 40—49.9岁组距为10
3—3.9岁
4—4.9岁
50—59.9岁
60—64.9岁 …… 组距为5
2018/12/10
厦门理工学院文化传播系蔡清毅
16
数量标志的描述方法（2）
某校20名学生的身高分布表
身高 <156 156～162 162～168 168～174 174～180 >=180 累计

统计学中的描述性统计分析方法

统计学中的描述性统计分析方法统计学是一门研究数据收集、整理、分析和解读的学科，它可以帮助我们更好地理解和解释数据。

描述性统计是统计学中的一个重要分支，旨在总结和揭示数据的基本特征。

在本文中，我们将介绍统计学中常用的描述性统计分析方法。

一、数据收集与整理描述性统计分析的第一步是数据收集，通过合适的调查问卷、实验或观察，我们可以获取所需的数据。

在数据收集完成后，我们需要对数据进行整理和准备，以便后续的分析。

二、测量指标在描述性统计中，我们常用各种测量指标来描绘数据的中心趋势、离散程度以及数据之间的关联性。

1. 中心趋势测量中心趋势测量用来反映数据集中的一个“典型值”。

（1）平均数（Mean）：平均数是数据集中所有观测值的总和除以观测值的数量。

它可以用来衡量数据的总体情况。

（2）中位数（Median）：中位数是将数据集按大小顺序排列后的中间值。

它可以忽略异常值的影响，更好地反映数据的中心位置。

（3）众数（Mode）：众数是数据集中出现频率最高的值。

它在描述分类数据时特别有用。

2. 离散程度测量离散程度测量用来反映数据集的分散程度。

（1）标准差（Standard Deviation）：标准差是数据集各个观测值与平均数之间的偏离度的平均值。

它反映了数据的总体分散程度。

（2）方差（Variance）：方差是各个观测值与平均数之间偏离度的平方的平均值。

它是标准差的平方。

（3）极差（Range）：极差是数据集中最大值与最小值之间的差值。

它可以用来衡量数据的全局范围。

三、数据可视化数据可视化是描述性统计分析中非常重要的一部分。

通过图表和图形的方式展示数据，可以使数据的特征更加直观地呈现出来。

1. 条形图（Bar Chart）：条形图用于对比不同类别或组之间的数据差异。

2. 折线图（Line Chart）：折线图可以展示变量随时间的变化趋势。

3. 饼图（Pie Chart）：饼图适用于展示分类数据的比例关系。

4. 散点图（Scatterplot）：散点图可以直观地显示两个变量之间的关系。

第十一章统计分析和调查报告

• 2、定序变量 • 3、定距或定比变量
第十三章撰写研究报告
• 研究研究报告及其类型 • 研究报告是反映社会调查成果的一种书面报告，它以文字、图表等形式将调查研究的过程、方法和结果表现出来。其目的是告诉有关读者，对于所研究的问题是如何进行调查的，取得了哪些结果，这些结果对于认识和解决这一问题有哪些理论意义和实际意义等等
其它故事与发表情况
• 另外两种形式的故事叫做批判的故事（吸引读者对社会问题的注意和重视）和形式的故事（理论的表述）。 • 民族志写作惯例发生了变化。今天，被发表的现实主义的故事越来越少，而印象主义或坦白的故事则相对越来越多。 • 没有完美的理论，也没有完美的报告。
• 导言部分 • 普通调查报告的第一部分称作导言，它的主要任务是向读者简要地介绍整个调查的有关背景。其中，最主要的内容包括调查的目的、调查的内容、调查的对象、调查的时间、地点、调查的方法等等。导言的具体写法有下列几种常见的方式。 • (1)直述式 • 即开门见山,平铺直述,直接把调查的目的,内容,对象,范围等一一写出.例如: • 为了全面了解老年人的生活状况，加强老年人的社会保障工作，沈阳师范大学社会学系于2003年2月至4月，在辽宁省沈阳市调查了300位老年人的家庭与生活情况。下面是这次调查的方法及主要结果。 • (2)悬念式。 • 即先描述某种社会现象和社会问题，然后对这种社会现象和问题产生的原因、它的影响等等提出一系列疑问，最后介绍调查的基本情况.例如: • 老年人丧偶是生活中十分普遍的现象，而老年人再婚，则是近年来出现在我国社会中的一种新的社会现象。据有关部门统计，本市1980年再婚老年夫妇为68对，1984年为116对，1988年为302对；1991年为： 495对；1994年为623对。促使老年人再婚比例提高的原因是什么?；社会舆论对老年人再婚的评价如何?老年人再婚给他们的家庭及其生活带来了哪些变化?；为了弄清这些问题，沈阳师范大学社会学系于今年3—5月，对沈阳市180对再婚老年夫妇进行了调查。

第十一章定量数据的表示方法

22
•
•
骗人的“平均数”
•
萨姆：萨姆：对，对，对！你是对的，平均工资是每周你是对的， 300元可你还是蒙骗了我。 300元。可你还是蒙骗了我。吉斯莫；我不同意！你实在是不明白。吉斯莫；我不同意！你实在是不明白。我已经把工资列了个表，并告诉了你，工资的中位数是200元资列了个表，并告诉了你，工资的中位数是200元 200 可这不是平均工资，而是中等工资。，可这不是平均工资，而是中等工资。萨姆：每周100元又是怎么回事呢？萨姆：每周100元又是怎么回事呢？ 100元又是怎么回事呢吉斯莫：那称为众数，是大多数人挣的工资。吉斯莫：那称为众数，是大多数人挣的工资。吉斯莫：老弟，你的问题是出在你不懂平均数、吉斯莫：老弟，你的问题是出在你不懂平均数、中位数和众数之间的区别。位数和众数之间的区别。萨姆：萨姆：好，现在我可懂了。我……我辞职！现在我可懂了。 ……我辞职！我辞职
24
•
中位数将总体中的各个个体数值按照大小顺序排列，将总体中的各个个体数值按照大小顺序排列，居于中间位置的数值，便是中位数。中间位置的数值，便是中位数。
•
中位数
25
中位数 1.是一种集中趋势或平均指标 1.是一种集中趋势或平均指标 2.位于中间位置的数值 2.位于中间位置的数值 • 如果数据为奇数项，中位数是中间位置的数值如果数据为奇数项，如果数据为偶数项，如果数据为偶数项，中位数是中间位置两个数值的平均数是一种位置平均数
频数分布作用：作用：有助于明确未回答者的多少，有助于明确未回答者的多少，同时也能显示不合格答案的多少；合格答案的多少；可以检验奇异值和极端值；可以检验奇异值和极端值；根据频数分布可以划出各种统计图形。根据频数分布可以划出各种统计图形。

社会研究方法(第四版)第十一章

.87 5.02
a 71.87 176 8212 . Y 8212 . .87 X
有了这一回归方程后，我们就可以由预测变量的值经回归方程计算出标准变量的预测值。如另一名大学生的身高为170厘米，则其体重的预测值为65.78公斤。
资料审核的方法主要有两种，即逻辑审核与计算审核。逻辑审核，即核查资料的内容是否合乎逻辑和常识，项目之间有无互相矛盾之处，与其他有关资料进行对照是否有明显出入等等。计算审核，是针对数字资料进行的审查。要检查计算有无错误。度量单位有没有错，前后数字之间有无相互矛盾之处等等。
二、资料的转换
2 定序层次：中位值（中位数）（单选）
其意义为按大小顺序排列，处在一群数据中央位置的数值。（1）原始资料，求中位值例如：有9个人，他们的月工资分别如下： 47，42，50，51，92，112，71，83，108 首先作排列处理，从小到大排列 42，47，50，51，71，83，92，108，112 其次求中央位置 Md的位置=（N+1）÷2=（9+1）÷2=5 最后求中位置Md=71
二、单变量推论统计
区间估计以样本统计量的抽样分布为理论依据，按一定概率要求，由样本统计量的值来估计总体参数的值所在的范围，叫做总体参数的区间估计。区间估计的实质就是在一定的可信度（置信度）下，用样本统计值的某个范围来估价总体的参数值。范围的大小反映的是这种估计的精确性问题，而可信度高低反映的是这种估计的可靠性或和握性问题。
a b
两个变量（预测变量X与标准变量Y）间的回归分析，是只有一个自变量的线性回归，也叫一元线性回归。其回归方程为：
Y a bX
其中a,b、对一对特定数据来说是常数：

第十一章国民经济统计基础知识《统计学》PPT课件

10 - 14
统计学
STATISTICS
二、国民经济行业分类行业分类是国民经济的基本分类，是构成三次产业划分和其它一些国民经济分类的基础。在世界各国，国民经济行业分类往往以“国家标准“的形式公布实施。随着国民经济的不断发展，一些新的行业出现，旧的行业消亡，我国国民经济行业分类也作过多次修订。现行的行业分类标准将国民经济分为20个门类，各门类下又进一步划分98个大类。
10 - 7
统计学
STATISTICS
（2）国民经济总量统计国民经济总量统计是对一定时期内国民经济运行总成果的统计核算，是对一国国民经济的基本规模和水平的核算。国内生产总值核算是其中的重要内容。（3）国民经济过程统计国民经济过程统计从数量方面反映国民经济运行的结果是如何产生的？财政政策、金融货币政策、价格问题等是如何影响国民经济运行结果的。。
10 - 2
统计学
STATISTICS
（一）全面系统反映国民经济运行状况国民经济是一个非常复杂的运行系统，不同部门，不同环节之间存在着复杂的经济联系，准确地了解这个系统难度很大。需要借助一种行之有效的工具，国民经济核算就是这样一种工具。它通过系列科学的核算原则和方法把描述国民经济各个方面的基本指标有机地组织起来，将国民经济运行过程清晰地展现出来。它既反映了国民经济运行的过程和全貌，又反映了国民经济的主要比例和平衡关系。美国经济学家萨谬尔森指出：“国内生产总值是20世纪最伟大的发明之一。与太空中的卫星能够描述整个大陆的天气情况非常相似，国内生产总值能够提供经济状况的完整图像，它能够帮助总统、国会和联邦储备委员会判断经济是在萎缩还是在膨胀，是需要刺激还是需要控制，是处于严重衰退还是处于通涨威胁之中。没有像国内生产总值这样的总量指标，政策制定者就会陷入杂乱无章的数字海洋而不知所措。国内生产总值和有关数据就像灯塔一样，帮助政策制定者引导经济向着主要的经济目标发展。”

描述性统计分析方法

描述性统计分析方法描述性统计分析是指对收集到的样本数据进行整理、分析和总结的过程。

它旨在通过使用统计指标和图表来描述数据的特征和分布，以便更好地理解数据，发现其中的规律和趋势。

在进行描述性统计分析时，常用的方法包括中心趋势测度、离散程度测度、分布形态描述和相关性分析等。

一、中心趋势测度中心趋势测度是用来表示数据集中趋向于某个中心的位置。

常用的中心趋势测度包括均值、中位数和众数等。

1. 均值：均值是以所有数据的数值和除以数据个数的统计量，用来表示平均水平。

均值对异常值敏感，容易受到极端值的影响。

2. 中位数：中位数是将数据按照顺序排列后，位于中间位置的数值。

中位数不会受到极端值的影响，更能反映数据的普遍情况。

3. 众数：众数是一组数据中出现频率最高的数值，可用于描述具有离散分布的数据。

二、离散程度测度离散程度测度是用来表示数据集合中数据分散程度的方法。

常用的离散程度测度有范围、方差和标准差等。

1. 范围：范围是最大值和最小值的差值，可用来衡量数据的整体变化幅度。

范围对异常值敏感，易受到极端值的影响。

2. 方差：方差是各数据与均值差的平方和的平均数，用来描述数据的平均离散程度。

方差较大时，表示数据的离散程度较高。

3. 标准差：标准差是方差的平方根，用于度量数据相对于均值的离散程度。

标准差较大时，表明数据分散程度大。

三、分布形态描述分布形态描述是对数据分布形态特征进行描述的方法。

常用的分布形态描述包括偏度和峰度等。

1. 偏度：偏度描述了数据分布曲线相对于均值偏离的大小和方向。

偏度为正表示数据分布朝右偏，为负表示数据分布朝左偏，为0表示数据均匀分布。

2. 峰度：峰度描述了数据分布曲线的陡峭程度，反映了数据分布的尖峰与平顶程度。

峰度大于0表示数据分布曲线相对于正态分布更陡峭，小于0表示数据分布曲线相对于正态分布更平顶。

四、相关性分析相关性分析用来研究两个变量之间的相关关系。

常用的相关性分析方法有协方差和相关系数。

第11章描述统计

3 样本与总体
人们从总体中抽取样本的目的是根据样本数据对总体的数字特征和分布规律进行推断、估计和检验。 ●自然，由样本推断和估计总体很难做到完全精确和可靠。但是必须采取措施获得比较精确和具有一定可靠性的推断。其措施涉及两方面的问题：即抽取样本的方法和统计推断的方法。 ● 当样本的抽取满足下列两个条件时，样本将能很好地反映总体的统计规律性：（1）样本容量n足够大。样本容量越大，推断的结论越准确，可靠性越高；（2）采用随机抽样，即总体中每个个体被抽到的机会均等，即使一个个体被抽取后，总体的成分不变。换句话说，每个样品的抽取都是一次独立、重复试验。 ● 至于应采用的统计推断方法将在以后各章讨论
8
1 随机抽样
定义：是指从总体抽取样品时，使每个个体被抽到的机定义会均等以使所抽取的样本数据能够很好地代表总体的抽样方法。方法：鉴于实际情况产品的大小、形状、存取状态等方方法面的差异及条件限制，常用的随机抽样方法为：（1）简单随机抽样法：（单纯随机抽样） ① 抽签法（或掷骰子法） ② 随机数表法（2）分层随机抽样（3）系统随机抽样（4）多级随机抽样
n A = 150 × n B = 60 nC = 15
1600
= 75
11
系统随机抽样法（系统随机抽样法（间隔随机抽样）间隔随机抽样）
●
●
定义：当批中产品可以按某个次序排列时，给批中定义 N N 每个产品编号1～N，以 n 整数部分 n 为抽样间隔，用简单随机抽样法在1至 N 之间 n 随机抽取的一个整数作为第一个单位产品 N 号码，每隔 − 1个产品抽取一个，直到抽出 n n个样本为止例：某工序每天生产200件产品，规定巡检员在一天中抽取n=10的样本进行检查，试用系统随机抽样确定抽取的样本号码 N = 20 ，第一个样品号码用抽签法确定为13，解： n 则被抽取的样品号码为13、33、53、…、193

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中位数的作用：
不受极端数值的影响，在总体标志值差异很大时，具有较强的代表性。
中位数的确定
（未分组资料）
【例A】某售货小组5个人，某天的销售额按从小到大的顺序排列为440元、480元、520元、 600元、750元，则中位数的位次为：
N 1 5 1 3 2 2
即第3个单位的标志值就是中位数 M e 520元
式中：组的次数；为 fi i X 为算术平均数; 为第 m 组数； X i 为第i组的标志值或组中值。
【例】某企业某日工人的日产量资料如下：
日产量（件）工人人数（人）
X
10 11 12 13 14 合计
f
70 100 380 150 100 800
计算该企业该日全部工人的平均日产量。
解：
X
中位数的确定
（未分组资料）
【例B】若上述售货小组为6个人，某天的销售额按从小到大的顺序排列为440元、480元、 520元、600元、750元、760元，则中位数的位次为
N 1 6 1 3.5 2 2
中位数应为第3和第4个单位标志值的算术平均数，即
520 600 Me 560 元 2
X 1 X 2 X N X N
X
i 1
N
i
N
式中：为总体单位总数； X 为算术平均数; N X i 为第i 个单位的标志值。
算术平均数的计算方法
【例】某售货小组5个人，某天的销售额
分别为520元、600元、480元、 750元、440元，则
520 600 480 750 440 5 2790 558元 5
身高
人数
（CM）（人） 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83
身高人数
众数的确定方法
某年级83名女生身高资料
（CM）（人） 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4
总体标志总量基本形式：平均数总体单位总数
例：
工资总额平均工资职工人数总成本平均成本总产量
算术
算术平均数的计算
数据集 xi ( x1 , x2 , xN 1 , xN )
算术平均数= 总体标志总量总体单位总数
x
数据个数 N
简单算术平均数
x x N
算术平均数的计算方法 A. 简单算术平均数 ——适用于总体资料未经分组整理、尚为原始资料的情况
未分组数据
平均每人日销售额为：
X X N
算术平均数的计算方法
分组数据
按考试成绩分组（分） 60以下 60～70 70～80 80～90 90以上合计组中值 55 65 75 85 95 学生人数（人） 3 8 8 9 7 35 组中值×人数 165 520 600 765 665 2715
X
i 1 m i 1
m
i
fi
i
f
10 70 14 100 70 100
9710 12.1375 (件） 800
若上述资料为组距数列，则应取各组的组说中值作为该组的代表值用于计算；此时求明得的算术平均数只是其真值的近似值。
位置平均数将总体各单位标志值按大小顺序排中位数列后，指处于数列中间位置的标志 (Median) 值，用 M e表示中位数把标志值数列分为两个部分,一部分标志值小于或等于它,另一部分标志值大于或等于它.
合计
800
—
计算该企业该日全部工人日产量的中位数。
位置平均数
众数
指总体中出现次数最多的变量值，用 M 0 表示,它不受极端数值的影响，用来说明总体中大多数单位所达到的一般水平。
众数（mode）：出现次数最多即出现频率最高的变量值。
152 156 159 160 160 161 162 163 165 165 166 168 170 171 154 156 159 160 160 161 162 163 165 165 167 168 170 172 154 156 160 160 161 161 162 163 165 166 167 168 170 172 155 157 160 160 161 162 162 164 165 166 167 168 170 172 155 158 160 160 161 162 162 164 165 166 168 168 170 174 156 158 160 160 161 162 163 164 165 166 168 169 171 （CM）（人） 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4
平均成绩为：
X 77.57
2715 35
算术平均数的计算方法 B. 加权算术平均数 ——适用于总体资料经过分组整理形成变量数列的情况
X 1 f1 X 2 f 2 X m f m X f1 f 2 f m
X
i 1 m i 1
m
i
fi
i
f
中位数的确定（单值数列）
800 1 400 . 5 【例C】某企业某日工人的日产量资料如下： 2 日产量（件）工人人数（人）向上累计次数 f X （人） 10 70 70 11 100 170 M e 12 380 550 13 150 700 14 100 800
中位数的位次：
身高
人数
（CM）（人） 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83
身高人数
众数、中位数和均值的应用场合众数、中位数和均值都是对数据集中趋势的测度， 1、均值由全部数据计算，包含了全部数据的信息，具有良好的数学性质，当数据接近对称分布时，具有较好的代表性；但对于偏态分布，其代表性较差。 2、中位数是一组数据中间位置上的代表值，不受数据极端值的影响，对于偏态分布的数据，其代表性要比均值好。 3、众数是一组数据分布的峰值，是一种位置的代表，当数据的分布具有明显的集中趋势时，尤其对于偏态分布，众数的代表性比均值好。 4、对接近正态的分布数据，常用均值描述数据的集中趋势；对偏态分布，常用众数或中位数描述数据的集中趋势。 5、均值只适用于定距或定比尺度的数据；定序尺度数据可用中位数或众数进行描述，而对定类尺度数据，只能用众数进行描述。
11.1 集中趋势的测度
指总体中各单位的次数分布从两边向集中趋势中间集中的趋势，用平均指标来反映。数值平均数
算术平均数调和平均数几何平均数
又称平均数，是反映社会经济现象总体各单位某一数量标志在一定时间、地点和条件下所达到的一般水平的综合指标。
平众数
算术平均数

第十一章 描述性统计量

第十一章专题数据分析方法——描述性统计市场调研描述

统计学中的描述性统计分析方法

第十一章 统计分析和调查报告

第十一章 定量数据的表示方法