第二章数值型变量的统计描述
数值变量资料的统计描述知识介绍

包括均值、中位数、众数、标准差、变异系数等统计量,用于描述数值变量的 集中趋势和离散趋势。
图形描述
直方图
通过直方图可以直观地展示数值变量取值的分布情况,包括 频数和频率。
箱线图
通过箱线图可以展示数值变量的最小值、下四分位数、中位 数、上四分位数和最大值,以及异常值的情况。
文字描述
众数
总结词
众数是数据中出现次数最多的数值。
详细描述
众数是一组数据中出现次数最多的数值。在统计学中,众数用于描述数据的分布特征,特别是当数据 中出现多个众数时,说明数据存在多个峰值,此时数据的分布可能是多峰的。众数在市场调研、人口 统计等领域有广泛应用。
03
数值变量的离散程度描述
方差
方差是衡量数值变量离散程度的 重要指标,它表示各个数值与平 均数的偏差的平方的平均值。
回归分析
01
回归分析
通过建立一个或多个自变量与因 变量之间的数学模型,来描述变 量之间的因果关系。
Байду номын сангаас
02
回归分析的种类
03
回归分析的应用
线性回归、多项式回归、逻辑回 归等。
预测、解释和调控因变量的变化 趋势。
协方差分析
协方差分析
用于比较两组数值变量的总体均 值是否存在显著差异,同时考虑 变量的共同变异。
正态分布
总结词
正态分布是最常见的连续型概率分布, 其特征是钟形曲线,对称轴为均值所在 直线。
VS
详细描述
正态分布适用于许多自然现象的概率分布 ,如人的身高、考试分数等。其概率密度 函数曲线呈钟形,对称轴为均值所在直线 ,即曲线关于均值所在直线对称。在正态 分布中,约68%的数据落在均值的1个标 准差范围内,约95%的数据落在均值的2 个标准差范围内。
数值变量资料的统计描述

第一章数值变量资料的统计描述统计描述(statistical description)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征,以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。
统计指标(statistical index)是表示数据分布特征的一个或一组数值,是统计分析的基本依据.第一节频数分布的概念与应用对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。
因为很多参数分析方法都要求样本数据来自某种已知分布的总体,否则,就应对数据实施合适的数据转换,或者采用非参数分析方法。
对频数表及频数图进行分析是描述性统计学分析的基本内容,也是表达或探索数据分布特征的基本手段.一、频数分布1.频数分布(frequency distribution)的概念频数(frequency)是相同观察值或观察结果出现的次数;分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。
频数分布即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,它是了解数据分布形态特征与规律的基础.2.频数分布的特征(1)集中趋势(central tendency):指一组变量值的集中倾向或中心位置.(2)离散趋势(tendency of dispersion):指一组变量值的分散倾向。
3.频数分布的类型⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。
又可分为正态分布(normal distribution)和非正态分布(non-normal distribution).⑵偏态分布:是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为两类:①正偏态:亦称右偏态,特点是峰偏左,此时均数与众数之差为正值,长尾向右侧(即观察值较大一端)伸延;②负偏态:亦称左偏态,特点为峰偏右,此时均数与众数之差为负值,长尾向左侧(即观察值较小一端)伸延。
教育与心理统计学 第二章 常用统计参数考研笔记-精品

第二章常用统计参数第二章常用统计参数用参数来描述一组变量的分布特征,便于我们对数据分布状况进行更好的代表性的描述,也有利于我们更好地了解数据的特点。
常见的统计参数包括三类:集中量数、差异量数、地位量数(相对量数X相关量数。
描述统计的指标通常有五类。
第一类集中量数:用于表示数据的集中趋势,是评定一组数据是否有代表性的综合指标,比如平均数、中数、众数等。
概述[不背]第二类差异量数:用于表示数据的离散趋势,是说明一组数据分散程度的指标,比如方差、标准差、差异系数等。
第三类地位量数:是反映个体观测数据在团体中所处位置的量数,比如百分位数、百分等级和标准分数等。
第四类相关量数:用于表示数据间的相互关系,是说明数据间关联程度的指标,比如积差相关、肯德尔和谐系数、①相关等。
第五类:是反映数据的分布形状,比如偏态量和峰度等(不作介绍I第一节集中量数(一)集中量数的定义(种类、作用)[湖南12名]描述数据集中趋势的统计量数称为集中量数。
集中量数能反映大量数据向某一点集中的情况。
常用的集中量数包括算术平均数、加权平均数、几何平均数、中数、众数等等,它们的作用都是用于度量次数分布的集中趋势。
(二)算术平均数(平均数、均数)(一级)简述算术平均数的定义和优缺点。
(1)平均数的含义算术平均数可简称为平均数或均数,符号可记为M。
算术平均数即数据总和除以数据个数,即所有观察值的总和与总频数之比。
只有在为了与其他几种集中.数洞区别时,如几何平均数、调和平均数、加权平均数,才全称为算术平均数。
如果平均数是由变量计算的,就用相应的变量表示,如又匕算术平均数是用以度量连续变量次数分布集中趋势及位置的最常用的集中量数,在一组数据中如果没有极端值, 平均数就是集中趋势中最有代表性的数字指标,是真值的最佳估计值。
(2)平均数的优缺点简述算术平均数的使用特点[含优缺点]算术平均数优点①反应灵敏。
观测数据中任1可一个数值或大或小的变化,甚至细微的变化,在计算平均数时,都能反映出来。
统计学第二章计量资料的统计描述

02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
计量资料的统计描述讲义

• 平均数反映同类现象的一般水平,是总体内 各单位参差不齐的标志值的代表值,也是对 变量分布集中趋势的测定。
常用的平均数有均数、几何均数、中 位数、众数等。
(一)均数(mean,average)
算术平均数(arithmetic mean),或称为 算术均数,简称为均数,是最重要的平 均数。
由频数表可看出频数分布的两个重要特
征:集中趋势(central tendency)和离 散程度(dispersion)。例如本例,身高有
高有矮,但中等身高居多,此为集中趋 势;由中等身高到较矮或较高的频数分 布逐渐减少,反映了离散程度。
对于数值变量资料,可从集中趋势 和离散程度两个侧面去分析其规律 性。
以例2.1说明其编制方法。
1.求全距(range)
2.定组段和组距: 3.列出频数表
二 频数表的特征
•三、频数表的用途
例2.1 某地1998年抽样调查了100名18岁男大 学生的身高(cm)资料如下,试编制频数表 。
某地1998年100名18岁男大学生的身高(cm)
173.6 165.8 168.7 173.6 173.7 177.8 180.3 173.1 173.0 172.6 173.6 175.3 178.4 181.5 170.5 176.4 170.8 171.8 180.7 170.7 173.8 164.4 170.0 175.0 177.7 171.4 162.9 179.0 174.9 178.3 174.5 174.3 170.4 173.2 174.5 173.7 173.4 173.9 172.9 177.9 168.3 175.0 172.1 166.9 172.7 172.2 168.0 172.7 172.3 175.2 171.9 168.6 167.6 169.1 166.8 172.0 168.4 166.2 172.8 166.1 173.5 168.6 172.4 175.7 178.8 169.1 175.5 170.8 171.7 164.6 171.2 177.1 170.7 173.6 167.2 170.7 174.7 171.8 167.3 174.8 168.5 178.7 177.3 165.9 174.0 170.2 169.5 172.1 178.2 170.9 171.3 176.1 169.7 177.9 171.1 179.3 183.5 168.5 175.5 175.9
数值变量资料的统计分析(2).

标准正态分布
原因是σ是一个固定值,而S是随样本而变动 16
t 分布的由来
• 英国统计学家W.S.Gosset于1908年以“Student”笔名发 表论文,证明在正态总体中抽样,( X ) ( s n ) 服 从 自由度 = n 1的t分布,即 ~ t 分布, = n 1 • • 又称Student t分布(Student’s t-distribution)。t分布是 总体均数的区间估计和假设检验的理论基础。
合计
100
100.0
(直方图)
8
理论上可以证明:若从正态总体 N( , 2 ) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数 X 也服从正态分布,即 X 的总体均 数仍为,样本均数的标准差为 / n 。
抽样分布
9
抽样分布示意图
样本均数的抽样分布具有以下特点
各样本均数未必等于总体均数;
u ( X ) / X
1.96 X / X 1.96
1.96 X X 1.96 X
故总体均数μ的95%可信区间为
X 1.96
x
) ( X 1.96 x ) ( X 2.58 x
三、总体平均值的可信区间估计
总体平均值可信区间(confidence interval,CI)
样本平均值 X 为统计量,总体平均值μ 为参数; 参数估计——用样本统计量 估计总体参数。 参数估计的方法: 1.点(值)估计(point estimation) :如用样本平均值估计 总体平均值。方法简单,但未考虑抽样误差。 2.用区间估计(interval estimation):按一定的可信度 估计未知总体平均值所在的范围。统计学上习惯用95%(99 %)可信区间表示总体平均值μ 有95% (99%)的可能性在某 一范围内。
医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
第二章 数值变量资料的统计描述

频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中, 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 成频数分布直方图,则更清楚。 直方图是以x 本例为体重) 为横坐标 , 直方图是以 x( 本例为体重 ) 为横坐标, 频 数或百分数为纵坐标, 数或百分数为纵坐标,用矩形面积大小表示 频数多少。 频数多少。
某地150名12岁男童体重频数分布图 名 岁男童体重频数分布图 某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重(kg)
频数分布的类型
偏态分布指集中位置偏向一侧, 偏态分布指集中位置偏向一侧 , 频数分布 不对称。 不对称。 一些以儿童为主的传染病, 一些以儿童为主的传染病 , 患者的年龄分 布 , 集中位置偏于年龄小的一侧, 频数尾 集中位置偏于年龄小的一侧 , 部向右侧延伸, 称为正偏态 ( 部向右侧延伸 , 称为正偏态( 峰 ) 分布 , 分布, 如图
一、频数分布表(frequency table)的编制 频数分布表( table)
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一:分析资料
分析资料:计算有关指标,反映数据的综合特 征, 阐明事物内在联系和规律 (1)统计描述(descriptive statistics):指用统计
指标、统计表、统计图等方法,对资料的数量特 征及其分布规律进行测定和描述 。
(2)统计推断(inferential statistics):指如何根
n 2 n 1 2
2
求:中位数
第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:1、2、 1、 2
(2)频数表法:
适用于样本例数较大的资料(百分位数法)
步骤: ①从小到大计算累计频数和累计频数; ②确定中位数和百分位数所在组段;
③计算中位数M和百分位数PX
i Px= L n x % f L fx
考考你: BUN组段(1)
BUN组段(2)
2.00~2.40 2.40~2.80 2.80~3.20 3.20~3.60
BUN组段(3)
2.00~ 2.40~ 2.80~ 3.20~3.60
2.00~2.30
2.40~2.70 2.80~3.10 3.20~3.50
4、列表划记(数频数):统计各组段内的
例2-3
二、几何均数(geometric mean)
意义:可用于反映一组经对数转换后呈
对称分布的变量值在数量上的平均水平。
应用:倍数关系或对数转换后呈对称分布,
尤其是对数正态分布
符号:
G(样本)
(1)直接计算 法
G
n
X1X 2 X n
lg X lg X 1 lg X 2 lg X n 1 G lg ( ) lg ( ) n n
意义:用于反映一组呈对称性分布的变
量值在数量上的平均水平或者说是集中 位置的特征值。
应用:对称性分布,尤其是正态分布
符号: 总体, 样本X
23
1.直接计算法
X1 X 2 X n X n
X
n
例2-2 用直接法计算例2-1某医院随机抽查
的138名成年女子的红细胞数的均数。
20
f
可疑值
可疑值
第二节 集中趋势的描述
描述计量资料分布特征的指标 集中趋势指标 离散趋势指标
平均数
R、Q、S、CV
一、常用平均数(average):
1、算术均数(简称均数,mean)
2、几何均数(geometric mean)(简记为G) 3、中位数(median 简记M)
一、算术均数(mean),简称均数
i M=P50= L fx n fL 2
P17:(2-9) (2-10)
L=Px或M所在组段的下限
i=Px或M所在组段的组距 fx=Px或M所在组段的频数
f
L
=小于L各组段的累计频数
(二)百分位数(Px) : 1.定义:百分位数是一种位置指标,用 Px来表示。
将一组观察值从小到大按顺序排列,一个百分位数Px 将全部变量值分为两部分,在Px 处若无相同变量值, 则在不包含Px 的全部变量值中有x%的变量值小于它, (100一X)%变量值大于它。当 X% =50%时, Px 即对
4.61
4.55 4.57 4.56 3.96 4.27 4.26
4.26
4.25 4.26 4.26 3.27 3.61 4.36
5.28
5.11 4.92 3.89
4.21
4.20 4.23 4.21
4.42
4.36 4.47 4.36
4.36
4.54 3.60 3.42
3.66
3.72 5.23 5.01
以图2-1为例
2. 频数分布的类型
(1)对称(正态)分布
(2)偏态分布
正偏态:集中位置偏向数值小的一侧; 负偏态:集中位置偏向数值大的一侧
正偏态
负偏态
(麻疹年龄分布)
(肺癌年龄分布)
3. 便于发现某些特大和特小的可疑值
组 段 (1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合 计 频数 (2) 1 0 0 0 17 20 17 12 9 0 0 8 84
指标的意义及应用。
第一节 频数分布
一、 频数分布表(Frequency Distribution table):
当变量值个数较多时,对各变量值出现的
频数和频率列表,即为频数分布表(简称频数
表)。
频数:相同变量值的个数。
频数分布:变量在取值范围内各组段的分布情况。
(一) 离散型计量变量的频率分布
离散型计量资料(discrete data):
体重(kg)
三、频数表和频数图的用途
(一)揭示资料的分布特征和类型
1、分布特征
集中趋势
特征
2、分布类型
对称分布
类型
离散趋势
偏态分布
(二)便于发现特大或特小的可疑值(离群值) (三)便于进一步计算指标和统计分析。 (四)用于正态性判定。
1、分布特征
(1)集中趋势:频数向中央部分集中。 (2)离散趋势:从中央部分到两侧频 数分布逐渐减少。
1.90309 2.20412
6.40824
13.32163 4.40824
适用于相同观察值较多。
例2-5
G 适用的资料
(1)对数正态分布资料 (2)等比级数资料(呈倍数关系的资料) (如:血清抗体滴度资料) (3)其他对数正态分布资料
(如:一些细菌计数资料)
应用几何均数注意事项:
(1)同一资料求得的G<
(2)观察值不能有0;
x
(3)观察值不能同时有正、负值;
三、中位数(M)和百分位数(Px)
(一) 中位数(M):
1. 定义:中位数是指将一组观察值从小到大(或 由大到小)按顺序排列 ,位次居中的观察值(即居中心 位置的数值) 。
在全部观察值中,大于和小于中位数的观察值的 个数相等。 因中位数其特点是不易受异常值的影响, 故用于描述明显偏态分布、或两端无确定数值 数据的平均水平。
i Px= L n x % f L fx
i M=P50= L fx n fL 2
L=Px或M所在组段的下限 i=Px或M所在组段的组距
f
fx=Px或M所在组段的频数
L
例2-10
=小于L各组段的累计频数
例2-10 ….,试计算潜伏期的中位数
连续型计量资料频数表的编制步骤
1、求全距(极差) (range,R)
R=最大值-最小值=5.46-3.07=2.39(×1012/L)
2、确定组段数和组距。
组段数:习惯上分5~8组(n<50) 8~15组(n≥50) 本例为138例,拟取组段数为12。 组距(i)=2.39/12=0.199 ,将取整i=0.2。
24
(2)频数表法(加权法,大样本资料)
f1 X 1 f 2 X 2 f 3 X 3 f k X k X f1 f 2 f 3 f k
本组下限+下组下限 X 2
f :各组段的频数 k:频数表的组段个数
fX f
(组中值)
加权法计算表
组段
110112-
4.02
3.97 4.02 4.01
4.31
4.28 4.32 4.29
4.83
4.76 4.68 3.68
3.59
3.21 4.76 4.71
3.97
4.04 3.69 4.13
3.96
4.56 4.61 4.574.49ຫໍສະໝຸດ 4.25 4.26 4.26
4.03
5.46
4.16
3.64
4.16
3.76
4.02
3.97 4.01 3.98 4.02 4.01 4.03
4.32
4.28 4.30 4.29 4.33 4.29 4.34
3.72
3.64 4.19 3.67 3.76 3.67 4.69
4.76
4.66 4.75 4.69 4.81 3.39 3.62
4.16
4.04 4.14 4.12 4.17 4.12 4.18
1
例2-4
(2)频数表法(加权法)
不是组中值
G lg
1
f lg X ( ) f
适用于相同观察值较多或频数表资料。
不需计算组中值
抗体滴度 1:20 人数f 2 滴度倒数X 20 lgX 1.30103 f*logx 2.60206
1:40
1:80 1:160
4
7 2
40
80 160
1.60206
3.96
3.77 4.63 4.56 4.66 4.61 4.98
4.23
4.20 3.91 3.79 4.28 4.26 4.24
4.42
4.36 4.41 3.89 3.83 3.96 3.83
3.59
3.07 3.52 4.21 4.20 4.23 4.20
5.12
4.89 5.03 4.95 5.24 3.76 3.71