数值变量的统计描述[1]

合集下载

数值变量资料的统计分析.

可信度即指估计的准确度，是我们预先给定的概率，符号为，常取95％或99％。
1、大样本（如n>100）数据总体均数的可信区间
移项后: 总体均数的95%可信区间：
缩写为：或：
例9.14(P167):
该地健康成年女性血红蛋白值总体均数有95％的可能落在117.48—120.12g/L之间。
2、小样本数据总体均数的可信区间
（一）极差（range）
极差又称全距，即一组观察值中最大值与最小值之差，用R表示。
适用范围：可用于所有资料的离散趋势描述，但较粗略。
（二）四分位数间距(quartile interval)
四分位数间距是上四分位数（即）与下四分位数（即）之差，其间包括了全部观察值中间的一半，用表示。
适用范围：可用于所有资料的离散趋势描述，但主要用于偏态分布资料。
例9.6(P160) 此150名某型食物中毒患者的四分位数间距是19.47天。
（三）方差和标准差
方差（variance）是每一观察值的离均差平方和的平均值。总体方差用表示，样本方差用表示。
标准差（standard deviation）即方差的平方根。总体标准差用表示，样本标准差用表示。
第三节参数估计和假设检验
一.均数的抽样误差与标准误
抽样研究的目的总是通过对样本的观察，用样本的水平推断其总体的水平。
由抽样而造成的样本指标与总体指标的差异，或各样本指标之间的差异，就称为抽样误差 ( sampling error)。
抽样研究时，抽样误差是不可避免的，只能估计其大小。
（2）均数对应的位置曲线最高，且以均数为中心左右对
称；
（3）正态分布曲线的位置和形状取决于两个参数

第二章数值型变量的统计描述

1
例：某公司五名职员的薪水分别是： 10，100，1000，10000，100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一：分析资料
分析资料：计算有关指标，反映数据的综合特征，阐明事物内在联系和规律（1）统计描述(descriptive statistics)：指用统计
指标、统计表、统计图等方法，对资料的数量特征及其分布规律进行测定和描述。
（2）统计推断(inferential statistics)：指如何根
n 2 n 1 2
2
求:中位数
第1组数：1、4、 3、 2、 3 第2组数： 3、 2、1、 3 第3组数：1、2、 1、 2
（2）频数表法：
适用于样本例数较大的资料（百分位数法）
步骤： ①从小到大计算累计频数和累计频数； ②确定中位数和百分位数所在组段；
③计算中位数M和百分位数PX
i Px＝ L n x % f L fx
考考你： BUN组段(1)
BUN组段(2)
2.00～2.40 2.40～2.80 2.80～3.20 3.20～3.60
BUN组段(3)
2.00～ 2.40～ 2.80～ 3.20～3.60
2.00～2.30
2.40～2.70 2.80～3.10 3.20～3.50
4、列表划记（数频数）：统计各组段内的
例2-3
二、几何均数（geometric mean）

数值变量资料的统计描述（论文资料）

数值变量资料的统计描述11．表示血清学滴度资料平均水平最常计算 BA算术均数 B几何均数 C中位数 D全距 E率12．某计量资料的分布性质未明，要计算集中趋势指标，宜选择 CA XB GC MD SE CV13．各观察值均加（或减）同一数后：BA均数不变，标准差改变 B均数改变，标准差不变C两者均不变 D两者均改变 E以上均不对14．某厂发生食物中毒，9名患者潜伏期分别为：16、2、6、3、30、2、lO、2、24+(小时)，问该食物中毒的平均潜伏期为多少小时？ CA 5B 5．5C 6D lOE 1215．比较12岁男孩和18岁男子身高变异程度大小，宜采用的指标是：DA全距 B标准差 C方差 D变异系数 E极差16．下列哪个公式可用于估计医学95％正常值范围 AA X±1.96SB X±1.96SXC μ±1.96SXD μ±t0.05,υSXE X±2.58S17．标准差越大的意义，下列认识中错误的是 BA观察个体之间变异越大 B观察个体之间变异越小C样本的抽样误差可能越大 D样本对总体的代表性可能越差E以上均不对18．正态分布是以 EA t值为中心的频数分布B 参数为中心的频数分布C 变量为中心的频数分布D 观察例数为中心的频数分布 E均数为中心的频数分布19．确定正常人的某项指标的正常范围时，调查对象是 BA从未患过病的人 B排除影响研究指标的疾病和因素的人C只患过轻微疾病，但不影响被研究指标的人D排除了患过某病或接触过某因素的人 E以上都不是20．均数与标准差之间的关系是 EA标准差越大，均数代表性越大 B标准差越小，均数代表性越小C均数越大，标准差越小 D均数越大，标准差越大E标准差越小，均数代表性越大11、常用平均数如下，除了：EA、均数B、几何均数C、中位数D、众数E、全距12、变异指标如下，除了：EA、全距B、标准差C、变异系数D、四分位数间距E、中位数13、某数值变量资料的分布性质未明，要计算集中趋势指标，下列适宜的指标是：CA、XB、GC、MD、SE、CV14、各观察值均加（或减）同一数后：BA、均数不变，标准差改变B、均数改变，标准差不变C、两者均不变D、两者均改变E、以上均不对15、某厂发生食物中毒，9名患者潜伏期分别为：16、2、6、3、30、2、lO、2、24+(小时)，问该食物中毒的平均潜伏期为多少小时：CA、5B、5.5C、6D、lOE、1216、比较12岁男孩和18岁男子身高变异程度大小，宜采用的指标是：DA、全距B、标准差C、方差D、变异系数E、极差17、表示血清学滴度资料平均水平最常计算: BA、算术均数B、几何均数C、中位数D、全距E、率18、标准差越大的意义，下列认识中错误的是：BA、观察个体之间变异越大B、观察个体之间变异越小C、样本的抽样误差可能越大D、样本对总体的代表性可能越差E、以上均不对19、均数与标准差适用于：AA、正态分布的资料B、偏态分布C、正偏态分布D、负偏态分布E、不对称分布20、正态分布是以：EA.t值为中心的频数分布B.参数为中心的频数分布C.变量为中心的频数分布D.观察例数为中心的频数分布E.均数为中心的频数分布1.标准正态分布曲线的特征是：BA． =0 =0 B． =0 =1 C． =1 =0D． =0 =不确定 E． =1 =不确定2.描述计量资料的主要统计指标是：AA.平均数B.相对数C.t值D.标准误E.概率3、一群7岁男孩身高标准差为5cm，体重标准差为3kg，则二者变异程度比较：DA、身高变异大于体重B、身高变异小于体重C、身高变异等于体重D、无法比较E、身高变异不等于体重4、随机抽取某市12名男孩，测得其体重均值为3.2公斤，标准差为0.5公斤，则总体均数95%可信区间的公式是：CA、3.2±t0.05.11 ×0.5B、3.2 ±t0.05.12 ×0.5/C、3.2 ±t0.05.11 ×0.5/D、3.2±1.96×0.5/E、3.2 ±2.58×0.5/5. 某组资料共5例, X2=190, X=30, 则均数和标准差分别是 DA.6 和 1.29B.6.33 和 2.5C.38 和 6.78D.6 和 1.58 E 6和2.56．以下指标中那一项可用来描述计量资料离散程度。

数值变量资料的统计描述知识介绍

描述性统计量表格
包括均值、中位数、众数、标准差、变异系数等统计量，用于描述数值变量的集中趋势和离散趋势。
图形描述
直方图
通过直方图可以直观地展示数值变量取值的分布情况，包括频数和频率。
箱线图
通过箱线图可以展示数值变量的最小值、下四分位数、中位数、上四分位数和最大值，以及异常值的情况。
文字描述
众数
总结词
众数是数据中出现次数最多的数值。
详细描述
众数是一组数据中出现次数最多的数值。在统计学中，众数用于描述数据的分布特征，特别是当数据中出现多个众数时，说明数据存在多个峰值，此时数据的分布可能是多峰的。众数在市场调研、人口统计等领域有广泛应用。
03
数值变量的离散程度描述
方差
方差是衡量数值变量离散程度的重要指标，它表示各个数值与平均数的偏差的平方的平均值。
回归分析
01
回归分析
通过建立一个或多个自变量与因变量之间的数学模型，来描述变量之间的因果关系。
Байду номын сангаас
02
回归分析的种类
03
回归分析的应用
线性回归、多项式回归、逻辑回归等。
预测、解释和调控因变量的变化趋势。
协方差分析
协方差分析
用于比较两组数值变量的总体均值是否存在显著差异，同时考虑变量的共同变异。
正态分布
总结词
正态分布是最常见的连续型概率分布，其特征是钟形曲线，对称轴为均值所在直线。
VS
详细描述
正态分布适用于许多自然现象的概率分布，如人的身高、考试分数等。其概率密度函数曲线呈钟形，对称轴为均值所在直线，即曲线关于均值所在直线对称。在正态分布中，约68%的数据落在均值的1个标准差范围内，约95%的数据落在均值的2 个标准差范围内。

数值变量资料的统计描述

第一章数值变量资料的统计描述统计描述(statistical description）即利用原始数据，选择适宜的统计指标及统计图表，简明准确地探察数据的分布类型和数量特征，以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。

统计指标（statistical index)是表示数据分布特征的一个或一组数值，是统计分析的基本依据.第一节频数分布的概念与应用对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。

因为很多参数分析方法都要求样本数据来自某种已知分布的总体，否则，就应对数据实施合适的数据转换，或者采用非参数分析方法。

对频数表及频数图进行分析是描述性统计学分析的基本内容，也是表达或探索数据分布特征的基本手段.一、频数分布1．频数分布（frequency distribution）的概念频数（frequency）是相同观察值或观察结果出现的次数；分布（distribution）指随着随机变量取值的变化，其相应的概率变化的规律性。

频数分布即观察值(变量值)按大小分组，各个组段内观察值个数（频数）的分布,它是了解数据分布形态特征与规律的基础.2．频数分布的特征(1)集中趋势(central tendency):指一组变量值的集中倾向或中心位置.（2）离散趋势(tendency of dispersion）：指一组变量值的分散倾向。

3．频数分布的类型⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。

又可分为正态分布（normal distribution)和非正态分布(non-normal distribution）.⑵偏态分布：是集中位置偏倚、两侧频数的分布不对称的频数分布，可分为两类：①正偏态:亦称右偏态，特点是峰偏左，此时均数与众数之差为正值，长尾向右侧（即观察值较大一端）伸延；②负偏态：亦称左偏态，特点为峰偏右，此时均数与众数之差为负值，长尾向左侧（即观察值较小一端）伸延。

数值变量资料的统计描述

频数，f 组中值，X
2
76
4
78
11
80
13
82
22
84
19
86
15
88
9
90
4
92
1
94
100
fX 152 312 880 1066 1848 1634 1320 810 368 94 8484
fX2 11552 24336 70400 87412 155232 140524 116160 72900 33856 8836 721208
190 302
S甲
5 1.58(毫米 / 小时) 5 1
乙组：n=5，X=2+4+6+8+10=30
X2= 22+42+62+82+102 =220
220 302
S乙
5 3.16(毫米/ 小时) 5 1
某地100名2岁健康男童身高标准差计算
身高组段 75~ 77~ 79~ 81~ 83~ 85~ 87~ 89~ 91~ 93~95 合计
89~
9
90
810
91~
4
92
93~95
1
94
合计
100（ ∑ f）
368 94
8484（∑fX）
X 2 76 4 78 1180 194 84.8(cm) 100
均数的应用：
适用于对称分布资料，因为这时均数位于分布的中心，最能反映分布的集中趋势。
对于正态分布资料，均数更有其重要作用。
频数分布
直方图
频数表的用途
• 揭示资料的分布特征和分布类型; 频数分布的两个重要特征：

2-数值变量与分类变量的统计描述分析

实习二统计描述第164～180页实习二统计描述医学统计资料类型¾数值变量资料：又称为计量资料。

变量值是定量的，有单位的，表示为数值的大小。

¾无序分类资料：又称为计数资料。

变量值是定性的，没有单位，表示为相互独立的类别。

¾有序分类资料：又称为等级资料。

变量值是定性的，没有单位，各类别具有程度上的差异。

注：不同类型的资料，统计方法不同；各种类型的资料之间是可以相互转化的。

一、数值变量资料的统计描述统计描述包括两个方面：集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述（一）数值变量资料的频数表频数表（frequency table）：当变量值或者观测值较多时，将变量值分为适当的组段，统计各组段中相应的频数（或者人数），以描述数值变量资料的分布特征和分布类型。

一、数值变量资料的统计描述（一）数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势（central tendency）：频数最多的组段代表了中心位置（平均水平），从两侧到中心，频数分布是逐渐增加的。

离散趋势（tendency of dispersion）：从中心到两侧，频数分布是逐渐减少的。

反映了数据的离散程度或者变异程度。

一、数值变量资料的统计描述（一）数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布：集中位置居中，左右两侧频数基本对称。

常见近似正态分布。

偏态分布：集中位置偏向一侧，频数分布不对称。

正偏态分布：集中位置偏向数值小的一侧或者左侧，有较长的右尾部。

负偏态分布：集中位置偏向数值大的一侧或者右侧，有较长的左尾部。

一、数值变量资料的统计描述（二）数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布（二）数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述（三）集中趋势指标描述1.算数均数（均数mean ）适用于正态分布或者近似正态分布总体均数：µ；样本均数：一、数值变量资料的统计描述一、数值变量资料的统计描述（三）集中趋势指标描述2.几何均数（geometric mean，G）适用于一种特殊的偏态分布资料：等比资料（常见于抗体滴度）。

第二章数值变量资料的统计描述

频数分布的类型
频数分布分为对称分布和偏态分布两种类型。频数分布分为对称分布和偏态分布两种类型。对称分布是指集中位置在正中，对称分布是指集中位置在正中，左右两侧频数分布大体对称，如上表所示。数分布大体对称，如上表所示。若将其绘制成频数分布直方图，则更清楚。成频数分布直方图，则更清楚。直方图是以x 本例为体重）为横坐标，直方图是以 x（本例为体重）为横坐标，频数或百分数为纵坐标，数或百分数为纵坐标，用矩形面积大小表示频数多少。频数多少。
某地150名12岁男童体重频数分布图名岁男童体重频数分布图某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重（kg）
频数分布的类型
偏态分布指集中位置偏向一侧，偏态分布指集中位置偏向一侧，频数分布不对称。不对称。一些以儿童为主的传染病，一些以儿童为主的传染病，患者的年龄分布，集中位置偏于年龄小的一侧，频数尾集中位置偏于年龄小的一侧，部向右侧延伸，称为正偏态（部向右侧延伸，称为正偏态（峰）分布，分布，如图
一、频数分布表（frequency table）的编制频数分布表（ table）
某地儿研所测得该地150名12岁健康男童体重某地儿研所测得该地150名12岁健康男童体重 kg）原始数据如下，试编制频数表。（kg）原始数据如下，试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数值变量的统计描述[1]
【教学内容】
一、频数表与频数分布图
（Frequency table/ Frequency distribution
fig二ure、) 集中趋势的统计描述
（Description of central tendency)
三、离散趋势的统计描述
（Description of tendency of dispersion)
频数分布表（frequency distribution table）：
将各数值变量的值及其相应的频数列表，
简称频数表。频率是表示频数出现机率的指
标，可用百分数或小数表示，频率的和为
100%或1。
.
频数表作用：
简化数据，方便阅读，显示数据的分布规律
（二）连续型变量频数表的编制方法：
步骤：
▪列表划记
答： (5*5+3*8+2*10)/10=6.9 总钱数/总斤数
举例3：食堂买菜例子举例4：评委打分和观众打分
(X -X ) = 0
X ( )
(X -X )2< (X-a)2
统计图
变异系数CV
统计表
统计推断
总体估计：即参数估计，包括点值估计和区间估计假设检验： t-test u-test x2-test
–例2.1 某市 100名8岁男童的身高资料（cm ）
目的：描述该组8岁男童身高的分布规律。
问题1.该组男童平均身高多少？
集中趋势
问题2.身高范围？最高多少？最低多少离散趋势
65. 5
63. 0
67. 0
58. 0
62. 0
71. 0
59. 5
72. 0
62. 0
55. 0
76. 5
61. 0
75. 0
56. 0
73. 0
69. 0
53. 5
65. 060. 0 Nhomakorabea69. 0
65. 0
66. 0
（一）基本概念：
频数( frequency )：指在一个抽样资料中，某变量值出现的次数。
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
4. 样本含量足够大时，以频率作为概率的估计值
。5.作为陈述资料的形式。
二、数值变量资料的集中趋势指标
集中趋势:用于描述一组计量资料的集中位置，说明这种变量值大小的平均水平，常用平均数（average）表示。
注意:1.同质的事物或现象才能求平均数２.应根据资料分布状态选用适当的均数。
包括
算术均数
单峰对称分布
几何均数
对数正态分布
中位数、百分位
偏态分布
数
（一）算术平均数（arithmetic mean）
X = 168.7 + 178.4 + + 169.7 = 171.7 ( cm )
10
举例: 用加权法计算某市8岁男童身高平均数(表3.1
–
组第中 1组①值段计?:算x各1组=段下的限组+2中上值限xi、=f1x1i和6 +2Σ1fx19 =117.5
【教学要求】
➢ 了解频数分布表的编制方法及应用 ➢ 掌握数值变量资料的集中趋势、离
散趋势常用统计描述指标，及各自的应用。
统计分析内容
算术均数
集中趋势
几何均数
G
统计学定量资料
指标
离散趋势
极差 R
百分位数 PX
中位数
四M 分位数间距
统计描述
Q
方差
定性资料：率、构成比、相标对准比差等S2
▪写组段
▪定组距
求全距
⒈ 求全距(Range,简记R ):是一组资料中最大值（Xmax）与最小值（Xmin）之差，亦称极差。
全距（ R）= Xmax - Xmin =143.3 – 116.2 = 27.1（cm）
2. 定组距：将全距分为若干段，称为组段。组与组之间的距离，称为组距；用小写i 表示。
原则:（1）“组段”数一般为10-15个；
（2）“组距”一般为R/10取整；（3）为计算方便根据组距采取取整数方法
本例题：组距（i）=全距/ 预分组段= 27.1 /10=2.71≈3（cm）
3.写组段：即将全距分为若干段的过程。原则:（1）第一组段要包括Xmin，最末组段包括 Xmax ；
2.揭示频数的分布类型
对称分布
频数分布
正偏
偏态分布
负偏
集中部位在中部，两端渐少，左右两侧的
基本对称，为对称（正态）分布。
集中部位偏于较小值一侧(左侧)，较大值方向渐减少，为
正偏态分布。
集中部位偏于较大值一侧(右侧)，较小值方向渐减少，
为负偏态分布。
频数
3.便于发现某些特大或特小的可疑值。
（2）每组段均用下限值加 “~ ”表示，最终组段同时注明上下限。
注意：各组段不能重叠，每一组段均为半开半闭区间。
4. 列表划记：根据预定的组段和组距，用划记的方法整理原始资料。
频数
频数分布图（frequency distribution figure）：
根据频数分布表，以变量值为横坐标，频数为纵坐标，绘制的直方图。
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
（三）频数表的用途：
1.揭示频数的分布特征
频数
集中趋势
分布特征
（central tendency)
离散趋势
（tendency of
身高(cm)
dispersion)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势与离散趋势结合能全面反映频数的分布特
64. 0
71. 5
70. 0
68. 0
74. 0
68. 0
68. 0
56. 5
68. 0
66. 5
64. 0
65. 0
68. 0
60. 0
58. 0
70. 5
64. 5
70. 0
71. 5
68. 0
68. 0
70. 0
65. 0
74. 3
57. 0
68. 0
73. 0
68. 0
65. 0
60. 0
② 用加权法计算该组身高值的均值
X = fX = 13055.0 = 130 .05 (cm )
n
100
总身高/总人数
数据加权的意义
➢ 加权用于表示某数据值在整个数据资料中的权重 • 举例1：12=1*101+2 • 举例2：杂拌糖例子
设软糖5元/斤，硬糖8元/斤，酒心糖10/斤，问 5斤软糖 3斤硬糖， 2斤酒心糖，应卖多少钱一斤
？
问题3.身高主要集中在哪个范
频数表
围问? 题4. 用表/图表示身高分布？
频数分布图
一、数值变量资料的频数表与频数分布图
–例2.1 某市 100名8岁男童的身高资料（cm ）
例2-1 某妇产科医生观察1402名临产母亲的体重（ kg)资料
76. 0
63. 0
61. 0
60. 0
65. 0
66. 0

数值变量的统计描述[1]

数值变量资料的统计分析.

第二章数值型变量的统计描述

数值变量资料的统计描述（论文资料）

数值变量资料的统计描述知识介绍

数值变量资料的统计描述

数值变量资料的统计描述

2-数值变量与分类变量的统计描述分析

第二章 数值变量资料的统计描述

第二章数值变量资料的统计描述