第四章数据特征的描述统计资料
统计学 第4章 综合指标和数据分布特征的描述

G 0.95 0.92 0.90 0.85 0.80
5
0.5349 88.24%
5
例2 加权几何平均数
投资银行某笔投资的年利率是按复利计算的,25年的 年利率分配是:有1年为3%,有4年为5%,有8年为8%, 有10年为10%,有2年为15%,求平均年利率。 年本利率(%) X 年数 f
三、调和平均数 (一)基本公式
例4-1-7:某蔬菜批发市场三种蔬菜的日成交 数据如表,计算三种蔬菜该日的平均批发价格
某日三种蔬菜的批发成交数据 蔬菜 名称
批发价格 (元)
成交额(元) 成交量(公斤)
xi
1.20 0.50 0.80 —
mi
18000 12500 6400 36900
Fi
甲 乙 丙 合计
平均完成计划程度
m 1,100 110% 1 1,000 m X
2.由相对数计算平均数时加权平均数法的应用:
例
某公司有四个工厂,已知其计划完成程度(%)及计划产值资料如下: 工厂 计划完成程度(%) X 90 100 计划产值 (万元) F 100 200
甲 乙
丙
丁 合计
平均完成计划程度
5000-6000
6000以上
200
180
解: 众数组为第四组
1 d M 0 = XL+ 1 2
= 4000 +
950 320 1000 (950 320) (950 200)
•加权算术平均数: •证明:
(X X ) f
0
Xf f Xf Xf 0 ( X X ) f Xf X f Xf f
统计学第4章数据特征的描述

极差计算简单,但容易受到极端值的影响,不能全面 反映数据的离散程度。
四分位差
定义
四分位差是第三四分位数与第 一四分位数之差,用于反映中
间50%数据的离散程度。
计算方法
四分位差 = 第三四分位数 第一四分位数
优缺点
四分位差能够避免极端值的影 响,更稳健地反映数据的离散
程度,但计算相对复杂。
方差与标准差
统计学第4章数据特征 的描述
https://
REPORTING
• 数据特征描述概述 • 集中趋势的度量 • 离散程度的度量 • 偏态与峰态的度量 • 数据特征描述在统计分析中的应用 • 数据特征描述的注意事项
目录
PART 01
数据特征描述概述
REPORTING
WENKU DESIGN
数据特征描述在推断性统计中的应用
参数估计 假设检验 方差分析 相关与回归分析
基于样本数据特征,对总体参数进行估计,如点估计和区间估 计。
通过比较样本数据与理论分布或两组样本数据之间的差异,对 总体分布或总体参数进行假设检验。
研究不同因素对总体变异的影响程度,通过比较不同组间的差 异,分析因素对总体变异的贡献。
定义
方差是每个数据与全体数据平均数之方根,用于衡量数据的波动大小。
计算方法
方差 = Σ(xi - x̄)² / n,标准差 = √方差
优缺点
方差和标准差能够全面反映数据的离散程度,且计算相对简单,但容易受到极端值的影响。同时,方差 和标准差都是基于均值的度量,对于非对称分布的数据可能不够准确。
适用范围
适用于数值型数据,且数据之间可能 存在极端异常值的情况。
特点
中位数不受极端值影响,对于存在极 端异常值的数据集,中位数能够更好 地反映数据的集中趋势。
第四章 定性数据的统计描述

第四章定性数据的统计描述前面一直在讲定量资料定性数据也叫计数资料,变量的观测值是定性的,表现为互不相容的类别或属性。
“数一数”“无单位”,包括“二分类”“多分类”,如定性数据的统计描述用什么指标?例:甲、乙两学院流感,甲学院流感发病60人甲学生2000人乙学院流感发病30人乙学生1000人甲学院流感发病率=乙学院流感发病率=∴60 30是绝对数(调查或实验研究中清点计数资料所得的数据叫),绝对数可以反映基本信息,但定性数据不能用绝对数直接比较,要用相对数才能描述定性数据的特征。
例:国家钢材产量世界第一,棉花产量世界第二,但人均拥有量?内蒙古牛羊产量全国第一,但人均占有量全国占第17位,最多河南、山东SARS非典,北京今天新增病例10例,内蒙古新增2例,是否北京严重?错,要比相对数,北京人口,内蒙人口,看率P28例:某病A法治疗100人,75人有效;B法治疗150人,100人有效相对数:是两个有关的绝对数之比,也可以是两个有关联统计指标之比。
相对数的性质取决于其分子、分母的意义,不同类型的相对数具有不同的性质常用相对数指标有率、构成比、相对比一率(强度相对数)表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比,说明某现象出现的强度或频率,所以又叫强度相对数(甲乙两学院哪个更严重?发病率高?)。
通常以百分率、千分率万分率十万分率等表示。
如医学上常用的率:患病率、发病率、感染率、病死率、治愈率、出生率、死亡率等。
通常总体率用表示,样本率用P表示注意:率在更多情况下是一个有时间概念的指标,用于说明在一段时间内某现象发生的强度或频率。
如:××年(2010年)某病发病率,死亡率等。
例4-1二构成比(结构相对数)表示某事物内部各组成部分在整体中所占的比重,常以百分数表示。
全体中各构成比之和应为100%例:全班同学有100人,其中女同学占60%,男同学占40%,60%、40%就是构成比(也就是过去说的百分比)例4-2构成比之和为100%,某一构成部分的增减会影响其他构成部分相应的减少或增加(而率不影响)构成比不能用来描述疾病致死的严重程度,与率不同。
统计习题——第四章-数据特征的度量知识分享

统计习题——第四章-数据特征的度量第四章数据特征的度量练习题:1.某城市土地面积和人口资料如下表所示:要求:根据上述资料计算出所有可能计算的相对指标,并指出分别属于哪一种相对指标。
答:可以计算结构相对指标、比例相对指标、比较相对指标、强度相对指标、动态相对指标。
2.某企业2007年产值计划比2006年增加8%,实际比2006年增加10%,试问该企业的产值计划完成程度相对指标是多少?若该企业2007年单位产品成本计划比2006年的699元降低12元,实际单位产品成本为672元,该企业单位产品成本的计划完成程度是多少?解:3.某车间工人操作机床台数的资料如下表所示,试计算该车间工人平均操作机床台数。
解:=510%+660%+730%=6.2fx x f=⋅⨯⨯⨯∑∑(台)4.某集团公司所属的20家企业资金利润资料如下表所示,试计算该集团20家企业的平均利润率。
解:5.某公司三个企业利润计划及执行情况如下表所示:要求:分别根据上面的两个表计算该公司的利润平均计划完成程度相对指标,并比较两种方法有什么不同。
解:(1)(2)6.某投资银行的年利率按复利计算,10年的年利率分别是:第1年3%,第2-4年4%,第5-8年5%,第9-10年6%。
试计算平均年利率是多少? 解:设10年的平均本利率为Gx ,则7.某企业2007年12月份职工工资资料如下表所示:试计算职工平均工资、工资的中位数和众数,并根据三者的关系说明工资分布的特征。
解:平均工资: 中位数: 中位数的位置:192022kii f==∑=460众数:x Me Mo >>因为,所以工资分布呈右偏分布,即多于一半的职工工资低于平均工资。
8.某农作物的两种不同品种在生产条件基本相同的五个地块上试种,结果如下表所示:试计算这两种不同品种的农作物哪一个具有较大的稳定性,值得推广。
解:因为甲品种的变异系数小于乙品种的变异系数,所以甲品种具有较大的稳定性。
统计学-数据分布特征

2
描述集中趋势的统计
一、平均数
平均数:
集中趋势的测度值之一
最常用的测度值
一组数据的均衡点所在 易受极端值的影响
用于数值型数据,不能用于品质型数据
4
一、平均数
5
平均数的计算公式
6
二、中位数和分位数
(一)中位数 集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响
14
15
例:某城市居民关注广告类型的频数分布
16
例:甲城市家庭对住房状况评价的分布频数
17
四、各度量值的比较
18
四、各度量值的比较
19
四、各度量值的比较
20
各度量值适用的数据类型
21
4.2离散程度的度量
22
4.2离散程度的度量
离散程度 数据分布的另一个重要特征 离中趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离 中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
50
51
一、偏态及其测度
52
二、峰态及其测度
53
例:
54
55
56
57
用Excel计算描述统计量
58
用Excel计算描述统计量 72页习题2
59
60
61
62
63
作业1:
64
65
作业2:
66
答案:
67
68
对某一个值在一组数据中相对位置的度量 可用于判断一组数据是否有离群点 用于对变量的标准化处理
40
标准分数的性质
41
例:
《医学统计学》统计描述 (1)

2500 2500 2500 420
500 500 500
甲 乙丙
例4-9,etc
1.极差(Range) (全距)
符号:R 意义:反映全部变量值的
R X max X min
变动范围。
580
优点:简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点:1. 只利用了两个 极端值
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量
人数
12~
2
15~
9
18~
14
21~
23
24~
19
27~
14
30~
11
33~
9
36~
7
39~
4
42~45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值 (0,负数?)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
XG
lg1
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~4.9”。
统计学原理第4章:数据特征的描述

第四章 数据特征的描述
某公司400名职工平均工资计算表 单位:元
按月工资 组中值 职工
分组
x
人数
f
x f
比重(%)
f
f
①
②
③ ④=②×③ ⑤=③÷ 400
1100以下 1000
60
60000
15
1100-1300 1200 100 120000
25
1300-1500 1400 140 196000
35
分组
职工 人数
f
x f
①
1100以下 1100-1300 1300-1500 1500-1700 1700以上
②
1000 1200 1400 1600 1800
③ ④=②×③
60
60000
100 120000
140 196000
60
96000
40
72000
人数为权数
x x f f
544000 400
算术平均数、调和平均数、中位数、众数、几何平均数
3. 各种平均数的Excel操作
24/77
1. 集中趋势的含义
第四章 数据特征的描述
集中趋势是一组数据向其中心值靠
拢的倾向和程度
测度集中趋势就是寻找数据一般水
平的代表值或中心值
中心值 即:平均水平
▲
25/77
2. 集中趋势的度量方法
第四章 数据特征的描述
第四章 数据特征的描述
《统计学原理》(第3版)
第四章 数据特征的描述
学习目标
第一节 总量与相对量的测度 第二节 集中趋势的测度 第三节 离散程度的测度
2/77
第一节 总量与相对量的测度
社会统计学(第4章 数据的统计量描述)

三、离散性描述指标的比较
全距(四分位数) 全距(四分位数)
粗略、快捷,不稳定, 粗略、快捷,不稳定,不能用于有样本推论总体 用于定序、定距、 用于定序、定距、定比变量
标准差(方差) 标准差(方差)
精准、相对稳定, 精准、相对稳定,可以用于由样本推论总体 用于定距、 用于定距、定比变量
全距与标准差的关系
SS Σ(X − X ) 2 S = = N N
2
方差可以描述数值偏离平均值的程度。 方差可以描述数值偏离平均值的程度。 平方处理解决了绝对值的问题。 平方处理解决了绝对值的问题。 平方处理后对偏离均值的程度更加敏感。 平方处理后对偏离均值的程度更加敏感。
二、离散性的描述指标
4.标准差: 4.标准差:将方差开平方得到的数值 标准差
二、离散性的描述指标
5.分析下列4 5.分析下列4组数据的离散性 分析下列 6]、 a[6 6 6 6 6 6 6]、b[5 5 6 6 6 7 7 ] 9]、 c[3 3 4 6 8 9 9]、d[3 3 3 6 9 9 9 ]
全距=? 全距=? 四分位数=? 四分位数=? 平均离均差= 平均离均差=? 方差=? 方差=? 标准差=? 标准差=?
三、集中性描述指标的比较
1.描述不同测量等级的变量 1.描述不同测量等级的变量
定类、定序、定距、 众 数:定类、定序、定距、定比变量的描述 中位数:定序、定距、 中位数:定序、定距、定比变量的描述 平均数:定距、 平均数:定距、定比变量的描述
三、集中性描述指标的比较
2.数据的分布形状 2.数据的分布形状 中心重合
第二节 集中性的描述指标
一、数据分布的集中性 二、集中性的描述指标 三、集中性描述指标的比较
一、数据分布的集中性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3)单击Statistics按钮,在 Statistics框中选择Sum、 Mean、Median项作为要输出的统计量;
4)单击Title按钮,在Title框中输入“少儿身高分 层报告”,单击Continue返回;单击OK
2020/10/11
10
2020/10/11
11
(2)输出结果及分析
表4-2
2020/10/11
2
描述性统计分析是统计分析的第一步,做好这第一步是 下面进行正确统计推断的先决条件。SPSS的许多模块均可 完成描述性分析,但专门为该目的而设计的几个模块则集中 在Descriptive Statistics菜单中,包括:
✓ Frequencies:频数分析过程,特色是产生频数表(主 要针对分类变量)
✓ Descriptives:数据描述过程,进行一般性的统计描述 (主要针对数值型变量)
✓ Explore:数据探察过程,用于对数据概况不清时的探索 性分析
✓ Crosstabs:多维频数分布交叉表分析(列联表分析)
✓ Ratio statistics:比率分析
2020/10/11
3
主要内容
• 第一节 报告分析(Report) • 第二节 描述性统计分析 • 第三节 比率分析 • 第四节 Means过程 • 第五节 多选项分析
2020/10/11
4
第一节 报告分析(Report)
• 1、OLAP 在线分析处理过程 • 2、Case Summaries 个案汇总分析过程 • 3、报告摘要分析过程
➢Report Summaries in Rows
行形式摘要报告
➢Report Summaries in Columns
列形式摘要报告
Mean 均值
Standard Deviation 标准差
Percent of Total Sum 占总和的
百分比
Percent of Total N 占观察量总
数的百分比
Median 中位数
Grouping Median 分组中位数
Std.Error of Mean 均值标准误
Minimum 最小值
Ⅱ、个案汇总分析
按Analyze—Reports—Case Summaries 顺序单击打开Case Summaries 对话框。
2020/10/11
13
Summarize Cases 对话框
可在参数框中输 入数值,该数值表 示分析过程只对前 几个个案进行
带有缺省值的个 案不被显示
在列出个案的同 时,显示个案的序 号
性别: Total
身高
Sum 4003.5
Mean 133.450
Median 133.750
表4-3是分层报告,输出了总和、均值和中位数。
2020/10/11
12
2 、个案汇总分析过程
Ⅰ、主要功能 计算指定变量的分组统计量,分组变量 可能是一个,也可以有多个。如是多个, 则将所有水平进行交叉分组。每个组中, 变量值可以显示或不显示。
第四章 数据特征的描述统计分析
2020/10/11
1
SPSS的主要分析工具——Analyze菜单
• 报告--Reports • 描述性统计分析--Descriptive Statistics菜单 • 表格--Tables • 均值间的比较--Compare Means菜单 • 一般线性模型――General Linear Model菜单 • 相关分析――Correlate菜单 • 多元线性回归与曲线拟合―― Regression菜单 • 对数线性模型——Loglinear菜单 • 聚类分析与判别分析——Classify菜单 • 因子分析与对应分析——Data Reduction菜单 • 信度分析与多维尺度分析——Scale菜单 • 非参数检验――Nonparametric Tests菜单 • 时间序列分析--Time series
个案处理摘要
身高 * 性别
Case Processing Summary
Included
N
Percent
30
100.0%
Cases
Excluded
N
Percent
0.0%Total NhomakorabeaN
Percent
30
100.0%
表4-2说明个案的一些基本情况,包括总个数、 有效值个数和缺省值个数。
表4-3
少儿身高分层报告
15
(1)操作步骤
1)打开数据文件“04-1少儿身高.sav”
2)打开Case Summaries对话框,将height 选入 Variables框中,作为汇总分析的变量, 将sex和grade选入Grouping Variables框中作 为分组变量。
7
输入统 计量的 标题
输入注解, 这些注解将 显示在统计 量输出栏的 下面
标题对话框
04-1 下面举例说明
2020/10/11
8
表4-1
30名少儿身高数据
2020/10/11
9
(1)操作步骤:
1)按Analyze—Reports—OLAP Cubes顺序单击打 开OLAP Cubes对话框
2)打开数据文件“少儿身高.sav”,将height变量 选入Summary Variable框中,将sex变量作为分组 变量选入Grouping Variable 框中;
Maximum 最大值
Range 极差
First 首值
Last 尾值
Variance 方差
Skewness 偏度
Std.Error of Skewness 偏度的
标准误
Kurtosis 峰度
Std.Error of Kurtosis 峰度的标
准误
Harmonic Mean 调和平均数
2020/1G0/1e1ometric Mean 几何平均数
待分析变量:数值 型或字符型变量。
见下图
分组变量:可选 择一个或多个
2020/10/11
14
Options 对话框
输入标题
输入脚注
在输出结果中显示各分组统计量的标题 在分析过程中剔除带有缺失值的个案 键入一个字符以便在输出结果中标记缺失值
Ⅲ、例题分析:
对表4-1资料(数据文件为“04-1少儿身
2020/10/11高.sav”)进行个案汇总分析。
2020/10/11
5
1、OLAP(在线分析处理过程)
按Analyze—Reports—OLAP Cubes顺序单击打开 如下对话框:
分层变 量框: 进入此 框变量 为数值 型或字 符型变 量 2020/10/11
摘要变 量框: 进入此 框变量 为数值 型变量
6
可选择的统计量:
Sum 总和
Number of Cases 个案数目