计量资料的统计描述

计量资料的统计描述
计量资料的统计描述

第二节 计量资料的统计描述

数值变量的统计描述主要是分成两步:一是正态分布性检验,二是统计描述指标的计算。根据资料是否正态,选择的指标不一样,如资料呈正态性分布则选用算术均数和标准差,如资料呈非正态分布则用中位数和四分位间距进行描述。统计指标计算的具体命令有三个:Frequencies:可以产生详细的频数表,还可以按要求给出某百分位点的数值;Descriptive:适用于正态分布资料;Explore:功能最强大,直接给出四分位间距和可信区间。

一、原始资料的统计描述

例16.2 某地某年测量了100名正常成年男子血清总胆固醇(mol/L)含量,数据见表16.4,请进行统计描述。

表16.4 某地某年100名成年男子血清总胆固醇(mol/L)含量

3.37

4.79

5.10 4.77 5.32 4.50 5.10 4.70 4.44 5.16

4.37 6.25

5.55 4.56 3.35 4.08 4.63 3.61 4.97 4.17

5.77 5.09 4.38 5.18 4.79 5.15 4.79 5.30 4.77 4.40

4.89

5.86 3.40 3.38 4.55 5.15 4.24 4.32 5.85 3.24

5.85 3.04 3.89

6.16 4.58 5.72 4.87 5.17 4.61 4.12

4.43 4.31 6.14 4.88 2.70 4.60 6.55 4.76 4.48 6.51

5.18 3.91 5.39 4.52 4.47 3.64 4.09 5.96

6.14 4.69

6.36 4.60 5.09 4.47 3.56 4.23 4.34 5.18 5.69 4.25 6.30 3.95 4.03 5.38 5.21

7.22 4.31 4.71 5.21 3.97 5.12 4.55 4.90 3.05 5.20 4.74 5.54 3.93 3.50 6.38

1.建立数据文件 取变量CHO,定义为数值型,宽度为8,2位小数。录入数据,如图16.2所示。

图16.2 数据文件

2.正态性分布检验 操作如下:

(1)Analyze==>Nonparametic test==>1-sample K-S,弹出窗口,如图16.3。

(2)Test variable list框:选入变量(CHO);

(3)Test distribution复选框组:选中normal复选框单击OK钮,结果输出表16.5。

表16.5“Kolmogorov-Smirnov Z”是正态分布的统计量为0.791,P=0.560,可以认为该资料呈正态分布。

图16.3 正态性检验对话框

表16.5 One-Sample Kolmogorov-Smirnov Test

血清总胆固醇(mol/L) N 100 Normal Parameters a Mean 4.7762

Std.

Deviation

.87016

Most Extreme Differences Absolute .079 Positive .079 Negative -.046

Kolmogorov-Smirnov Z .791

Asymp. Sig. (2-tailed) .560

a. Test distribution is Normal.

3.统计描述 在“Analyze”中选择“Descriptive Statistics”,点击“Descriptive”,得到对话框,如图16.4所示,选变量HOC进入“Variable(s)”。

图16.4 “Descriptive”对话框

点击“Options”,弹出Options对话框。

选项说明:均数(Mean)、总和(Sum);

Dispersion复选框组:用于定义描述离散趋

势的一组指标:标准差(Std.deviation)、方差

(Variance)、全距 (Range)、最小值(Minimum)、

最大值(Maximum)、标准误(S.E.mean)。

Distribution复选框组 用于定义描述分布特

征的两个指标:偏度系数(Skewness)和峰度系数。

最后是显示顺序。

点击“Continue”回到图,点击“OK”,结果

如下表所示。

图16.5 “Descriptive:Options”对话框

表16.6 Descriptive Statistics

N Minimum Maximum Mean Std. Deviation 血清总胆固醇

(mol/L)

100 2.707.22 4.7762.87016 Valid N (listwise) 100

二、频数表的统计分析

例16.3 某地199名居民食物中毒,患者的潜伏期见表16.7,选择适当的指标进行描述。

表16.7 199名食物中毒患者的潜伏期

潜伏期(小时)

(1)人数f (2)

0~ 30

12~71

24~ 49

36~28

48~14

60~ 6

72~84

1

合计 199

1.建立数据文件 定义变量:time(潜伏期),f(人数)。录入数据,如图16.6所示。

2.频数加权选择Data→weight case,点击

weight case by,把变量f选入,如图16.7所示。

3.正态性分布检验 操作如下:

(1)Analyze==>Nonparametic test==>

1-sample K-S,弹出窗口,如图16.8所示;

(2)Test variable list框:选入变量(time);

(3)Test distribution复选框组:选中normal

复选框单击OK钮,结果输出入表

图16.6 数据文件

图16.7 “weight case”对话框

图16.8 正态性检验对话框

表16.8“Kolmogorov-Smirnov Z”是正态分布的统计量为3.137,P<0.001,可以认为该资料呈正态分布。

表16.8 One-Sample Kolmogorov-Smirnov Test

潜伏期N 199 Normal Parameters a Mean 26.80

Std. Deviation 15.513

Most Extreme Differences Absolute .222 Positive .222 Negative -.134

Kolmogorov-Smirnov Z 3.137

Asymp. Sig. (2-tailed) .000

a. Test distribution is Normal.

4.统计描述

(1)在“Analyze”中选择“Descriptive Statistics”,点击“Frequencies”,得到对话框,如图16.9所示,选变量time进入“Variable(s)”。Frequencies对话框的界

面如下所示:

图16.9 Frequencies对话框

选项说明:【Display frequency tables复选框】确定是否在结果中输出频数表。

(2)“Statistics”单击后弹出Statistics对话框如图16.10。

Percentile Values复选框组 定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5。

Central tendency复选框组 用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。

Dispersion复选框组 用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。

Distribution复选框组 用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数。

Values are group midpoints复选框 当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。

图16.10 “Frequencies:Statistics”对话框

由于例16.3的数据为近似正态分布,故选择“Quartiles”、“median”,然后返回图16.9。

(3)【Charts钮】弹出Charts对话框,用于设定所做的统计图。Chart type单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histograms),其中直方图还可以选择是否加上正态曲线(With normal curve)。Chart Values 单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。

图16.11 “Frequencies:charts”对话框

选择“Histograms”,并激活“With normal curve”,,然后返回图16.9,点击“OK”。结果如表16.9和图16.12。

表16.9 Statistics

潜伏期

N Valid 199

Missing 0

Median 18.00

Percentiles 25 18.00

50 18.00

75 30.00

表16.9显示中位数为18.00,私分位间距为30-18=12.00。

图16.12 潜伏期的直方图

从图16.12可见,资料呈偏态分布。

三、按是否高血压病人对例1的变量“腰围”进行统计描述

1.正态性分布检验

(1)选择 “Data”,下拉菜单点击“Split File”,激活“Compare groups”,把变量patient选入“Groups Based on”;点击“OK”回到主界面。

图16.13 “Split File”对话框

(2)选择 “Analyze”,下拉菜单点击“Nonparametric Tests”,选择“1-Sample K-S”,(图16.14)。把变量腰围选入“Test Variable List”,默认“Test Distribution”的“Normal”;点击“OK”结果如表所示。

图16.14 正态性检验对话框

(3)再回到“Split File”对话框,激活“Analyze all cases,do not create groups”。

表16.10根据P值的大小,可以认为健康人和病人的腰围都呈正态分布。

表16.10 One-Sample Kolmogorov-Smirnov Test

高血压腰围(cm) 健康人N 62 Normal Parameters a Mean 73.463

Std. Deviation 9.7265

Most Extreme Differences Absolute .083 Positive .083 Negative -.046

Kolmogorov-Smirnov Z .657

Asymp. Sig. (2-tailed) .780 病人N 52 Normal Parameters a Mean 81.265

Std. Deviation 10.0270

Most Extreme Differences Absolute .066 Positive .064 Negative -.066

Kolmogorov-Smirnov Z .479

Asymp. Sig. (2-tailed) .976

a. Test distribution is Normal.

2.统计描述

(1)在“Analyze”中选择“Descriptive Statistics”,点击“Explore”,得到对话框,如图16.15所示,选变量waist进入“Dependent list”, 变量patient进入“Factor list”。Explore对话框的界面如下所示:

图16.15 “Explore”对话框

界面说明:

“Display”:用于选择输出结果中是否包含统计描述、统计图或两者均包括。

“Dependent List框”:用于选入需要分析的变量。

“Factor List框”:选入分组变量。

“Label cases by”:选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。

(2)“Statistics”:弹出Statistics对话框,如图16.16所示。有如下选项:

Descriptives复选框:输出均数、均数可信区间、5%修正均数、中位数、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的

标准误。

M-estimators复选框:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。

Outliers复选框:输出五个最大值与五个最小值。

Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。

图 16.16 “Explore:Statistics”对话框

(3)“Plot”有如下选项:

Boxplots单选框组:确定箱式图的绘

制方式,可以是按组别分组绘制(Factor

levels together),也可以不分组一起绘

制(Depentends together),或者不绘制

(None)。

Descriptive复选框组:可以选择绘

制茎叶图(Stem-and-leaf)和直方图

(Histogram)。

Normality plots with test复选框:

绘制正态分布图并进行变量是否符合正

态分布的检验。

Spread vs. Level with Levene Test

单选框组:当选择了分组变量时,绘制

spread-versus-level图,设置绘图时变

量的转换方式,并进行组间方差齐性检验。

图16.17 “Explore:Plot”对话框

本例选择默认返回图16.15,点

击“OK”,得结果如表16.11。

表16.11 Descriptives

高血压Statistic Std. Error 腰围(cm) 健康人Mean 73.463 1.2353

95% Confidence Interval for Mean Lower Bound 70.993 Upper Bound 75.933

5% Trimmed Mean 73.242

Median 72.550

Variance 94.606

Std. Deviation 9.7265

Minimum 52.0

Maximum 98.0

Range 46.0

Interquartile Range 13.7

Skewness .349 .304

Kurtosis -.233 .599病人Mean 81.265 1.3905

95% Confidence Interval for Mean Lower Bound 78.474 Upper Bound 84.057

5% Trimmed Mean 81.246

Median 82.150

Variance 100.540

Std. Deviation 10.0270

Minimum 61.9

Maximum 107.0

Range 45.1

Interquartile Range 14.6

Skewness -.054 .330

Kurtosis -.296 .650

由于资料呈正态分布,健康人的腰围为73.463±9.7265cm,病人为81.265±10.0270cm。

习题-计量资料统计描述

计量资料统计描述----习题 1、中位数是表示变量值()的指标。 A.平均水平 B.变化范围 C.频数分布 D.相互间差别大小 E.变异程度 2、血清学滴度资料最常计算()来表示平均水平。 A.算术均数 B.中位数 C.几何均数 D.全距 E.百分位数 3、最小组段无下限或最大组段无上限的频数分布资料宜用() A.算术均数 B.中位数 C.几何均数 D.全距 E.标准差 4、原始数据同减去一个不等于零的常数后,()。 A. x 不变,S 变 B. x 变,S 不变 C. x 和S 都不变 D. x 和S 都变 E.以上均不对 5、变异系数CV()。 A.表示X 的绝对离散度 B.表示X 的相对离散度 C.表示x的绝对离散度 D.表示x的相对离散度 E.以上均不对 6、描述一组偏态分布资料的变异度,以()指标较好。 A.全距 B.标准差 C.变异系数 D.四分位数间距 E.均数 7、用均数和标准差可以全面描述()资料的特征。 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.分布不知 E.对数正态分布 8、比较身高和体重两组数据变异度大小宜采用() A.变异系数 B.标准差 C.四分位数间距 D.全距 E.方差 9、偏态分布宜用()描述其分布的集中趋势 A.算术均数 B.标准差 C.中位数 D.众数 E.百分位数 10、各观察值同乘以一个不等于0 的常数后,()不变。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 E.变异系数 11、()分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 E.以上均不对 12、随机抽查某地成年女子身高,算得均数x =160cm,标准差S=5cm,则可计算变异系数CV=------- 5 160 C.(160/5)cm D.(5/160)cm ×160 13、变异系数CV 的数值()。 A.一定大于1 B.一定小于1 C.可大于1,也可小于1 D.一定比标准差小 E.不能判定 14、列数8、-3、5、0、4、-1 的中位数是()。 、关于标准差,哪项是错误的()。 A.反映全部观察值的离散程度 B.度量了一组数据偏离平均数的大小 C.反映了均数代表性的好坏 D.不会小于算术均数 E.适用于对称分布资料 16、5 人的血清滴度为<1:20、1:40、1:80、1:160、1:320 描述平均滴度,用哪种指标较好()。 A.平均数 B.几何均数 C.算术均数 D.中位数 E.众数

@2017.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A 、描述平均水平(中心位置): 均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度: 标准差、四分位数间距、 变异系数、方差、全距 (一)均数mean 和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median )M 和百分位数(percentile ) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 12n X X X X X n n +++== ∑L

用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n 为奇数时-- n 为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) =第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 ) (天1552 19===+X X M 88451 22221415214.5() M X X X X ?? ==== ???+如果只调查了前八位中学生,则: +(+)(+)天

百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数f x :所在组段频数 注:有的教材X= r ; L f ∑=C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 2565~ 15 34 P 25在此 68~ 25 59 71~ 26 85∑f 75 L 7574~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内;

计量资料描述

计量资料的统计描述 描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。 计量资料常用的统计描述指标和方法主要有: 1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。 2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。 SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程: Frequencies过程:产生频数表;按要求给出某百分位数。对计量资料、计数资料和等级资料的描述都适用 Descriptives过程:进行一般性的统计描述,用于服从正态分布的资 料,计算产生均数、标准差等; Explore过程:用于对数据概况不清时的探索性分析;

Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。 本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。Crosstabs过程在X2检验实习讲述。 Frequencies过程 案例: 某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。 4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05 一、建立数据文件 1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。 (2)输入数据:

医学统计学第3版,02计量资料的统计描述试题

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

计量资料汇总统计描述

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

统计学计量的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A、描述平均水平(中心位置): 均数X、中位数和百分位数、几何均数G、众数(mode) B、描述数据的分散程度: 标准差、四分位数间距、变异系数、方差、全距 (一)均数mean和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median)M和百分位数(percentile) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n为奇数时-- n为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数

值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) = 第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数 注:有的教材X= r ; L f =C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 25 65~ 15 34 P 25在此 68~ 25 59 71~ 26 85 ∑f 75 L 75 74~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合 计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内; P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90 P 75=74+3x[(130x75%-85)/19]=74.66

计量资料汇总统计描述

第二章计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range)。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

第一单元-计量资料的统计描述Word版

第一单元计量资料的统计描述 【习题】 分析计算题 1.1 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素锌(Zn)的含量(μg/g),资料如下: 4087105113121127133142152168215 5488105113121127134143153173220 6192106113122127135143153176 7494107114124128136143155177 7794107116124128137145156180 8095109117124128138147156182 8196109119125130138147163183 8297111119125130138149163186 83102112120126131140151166188 85105112120126132141151168195 (1) 编制频数表并绘制直方图,简述频数分布类型和频数分布特征。 (2) 计算适当的集中趋势指标和离散程度指标。 1.2 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素铜(Cu)的含量(μg/g),资料如表1,求男性脑卒中患者头发中微量元素铜的平均含量。 表1 102名男性脑卒中患者头发中微量元素铜(Cu)的含量/(μg·g-1)频数表 头发中铜的对数值频数f 0.350 0~ 1 0.450 0~ 2 0.550 0~ 4 0.650 0~ 3 0.750 0~18 0.850 0~36

0.950 0~22 1.050 0~ 6 1.150 0~ 3 1.250 0~ 3 1.350 0~1.450 0 4 合计102 1.3 某年某地一次伤寒暴发潜伏期的分布情况如表2,计算该年伤寒暴发的平均潜伏期。 表2 某年某地一次伤寒暴发潜伏期频数表 潜伏期/d发病人数f 3~3 5~24 7~20 9~17 11~14 13~7 15~6 17~2 19~1 21~232 合计96 1.4 测得566名成年男子的心率及血压情况如表3,试比较这些指标的离散程度。 表3 566名成年男子的心率及血压 指标X S 心率/(次·min-1)77.3012.83 收缩压/kPa17.17 1.74

实验一计量资料频数表的整理与统计描述

实验一计量资料频数表的整理与统计描述 一、测得12人的血红蛋白含量(g/L)121,118,130,120,122,118,116,124, 127,129,125,132。请计算其均数,几何均数,中位数,标准差,极差,变异系数。 二、某地101例30~49岁健康男子血清总胆固醇值(mmol/L)测定结果如下: 4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05 1、编制频数分布表并绘制直方图,简述其分布特征。 2、选择适当的集中趋势指标、离散趋势指标并计算。 三、某市1974年为了解该地居民发汞(μmol/kg)的基础水平,为汞污染的环境监测积累资料,调查了留住该市一年以上,无明显肝、肾疾病,无汞接触史地238 2、计算均数X、几何均数G和中位数M,何者较大?为什么?何者用于说明本 资料的集中位置较适合? 3、选用何种指标描述其离散程度较好?请计算。 四、 和半对数线图,并说明两种图形的不同意义。 五、思考题及名词解释 1、描述计量资料集中趋势的指标有哪些?它们有何异同? 2、描述计量资料离散趋势的指标有哪些?它们有何异同? 3、说明频数分布表的用途。 4、变异系数的用途是什么?

.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据 描述计量资料的常用指标 一 A 、 描述平均水平(中心位置): 均数X 、中位数和百分位数、几何均数 G 、众数(mode ) B 、 描述数据的分散程度: 标准差、四分位数间距、变异系数、方差、全距 (一)均数 mea n 和标准差 1.(算术)均数X 均数是描述一组计量资料平均水平 或集中趋势的指标。 直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料 2.中位数(median ) M 和百分位数(percentile ) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个 中间值的平均值。 应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: sta ndard deviati on X ! X 2 L X n

n 为奇数时-- M x (= n 为偶数时-- M X 9 1 X 5 15(天) 2 如果只调查了前八位中学生,贝y : M X 8+ X 8 2 (X 4+ X )2 (14+15)/2 14.5(天) ?+ 1 * 2 2 B.百分位数 是将N 个观察值从小到大依次排列,再分成 100等份,对应于 X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距 (quartile range / =第25百分位数(P25)?第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包 含了全部观察值的一半。 1 — X 门 X 门 2 (2) (2 1) 9 人数据:12, 13, 14, 14, 15, 15, 15, 17, 19 天

计量资料的统计描述

第二节 计量资料的统计描述 数值变量的统计描述主要是分成两步:一是正态分布性检验,二是统计描述指标的计算。根据资料是否正态,选择的指标不一样,如资料呈正态性分布则选用算术均数和标准差,如资料呈非正态分布则用中位数和四分位间距进行描述。统计指标计算的具体命令有三个:Frequencies:可以产生详细的频数表,还可以按要求给出某百分位点的数值;Descriptive:适用于正态分布资料;Explore:功能最强大,直接给出四分位间距和可信区间。 一、原始资料的统计描述 例16.2 某地某年测量了100名正常成年男子血清总胆固醇(mol/L)含量,数据见表16.4,请进行统计描述。 表16.4 某地某年100名成年男子血清总胆固醇(mol/L)含量 3.37 4.79 5.10 4.77 5.32 4.50 5.10 4.70 4.44 5.16 4.37 6.25 5.55 4.56 3.35 4.08 4.63 3.61 4.97 4.17 5.77 5.09 4.38 5.18 4.79 5.15 4.79 5.30 4.77 4.40 4.89 5.86 3.40 3.38 4.55 5.15 4.24 4.32 5.85 3.24 5.85 3.04 3.89 6.16 4.58 5.72 4.87 5.17 4.61 4.12 4.43 4.31 6.14 4.88 2.70 4.60 6.55 4.76 4.48 6.51 5.18 3.91 5.39 4.52 4.47 3.64 4.09 5.96 6.14 4.69 6.36 4.60 5.09 4.47 3.56 4.23 4.34 5.18 5.69 4.25 6.30 3.95 4.03 5.38 5.21 7.22 4.31 4.71 5.21 3.97 5.12 4.55 4.90 3.05 5.20 4.74 5.54 3.93 3.50 6.38 1.建立数据文件 取变量CHO,定义为数值型,宽度为8,2位小数。录入数据,如图16.2所示。 图16.2 数据文件 2.正态性分布检验 操作如下: (1)Analyze==>Nonparametic test==>1-sample K-S,弹出窗口,如图16.3。 (2)Test variable list框:选入变量(CHO); (3)Test distribution复选框组:选中normal复选框单击OK钮,结果输出表16.5。 表16.5“Kolmogorov-Smirnov Z”是正态分布的统计量为0.791,P=0.560,可以认为该资料呈正态分布。