8_1多组独立定量资料的统计分析(一)

合集下载

定量资料的统计描述解析

定量资料的统计描述
第一节频数分布表与频数分布图
统计描述是统计分析的最基本内容,也是统计分析的重要一部分.在统计学中经常用统计指标和统计图表来揭示和反映原始资料的数量特征和信息.
频数分布表
➢ 用于反映各变量(观察单位的某种特征)值及其相应频数之间关系的一类表格,我们称之为频数表.这里频数指对一种变量在多个观察单位中进行多次观察,其中某一变量值重复出现的次数.
数表法两种。
(1)直接法当观察例数 n 不大时，此法常用。
先将观察值按大小顺序排列，选用下列公式
求 M。
当 n 为奇数时
为偶数时
M=
X
n 2
X
n 1 2
2
例某病患者 8 人的潜伏期（天）分别为 2，3，3，4，7，8， 10，18，求它们的中位数。
本例 n=8 为偶数，将 8 人潜伏期从小到大排列，用公式算得
➢ 不同的资料类型编制频数表难易程度不同,其中计数资料和等级资料比较简单,而计量资料相对较繁杂些.
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料无须编制频数表,但对于大样本含量的资料, 编制频数表有利于进一步的统计分析、且频数表本身也具有统计描述的作用.
编制频数表的步骤
一般 8－ 15 之间
3、方差(variance) 离均差平方和的算术平均数，即为方差。总体方差用
符号σ2(σ读seigama)表示，样本方差用S2表示。计算公式分别为：
N
xi 2
2 i1
N
n
xi
X
2
S 2 i1
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示，

卫生统计学题库（6版）

第一章绪论（一）A1型：1.下面的变量中，属于分类变量的是_____。

A.脉搏脉搏B.血型血型C.肺活量肺活量D.红细胞计数红细胞计数E.血压血压2.下面的变量中，属于定量变量的是_____。

A.性别性别 B.体重体重 C.血型血型 D.职业职业 E.民族民族3.某人记录了50名病名病人体重的测定结果：小于50kg 的13人，介于50kg 和70kg 间的20人，大于70kg 的17人，此种资料属于_____。

A.定量资料定量资料B.分类资料分类资料C.有序资料有序资料D.二分类资料二分类资料E.名义变量资料名义变量资料4.上述资料可以进一步转换为_____。

A.定量资料定量资料B.分类资料分类资料C.有序资料有序资料D.二分类资料二分类资料E.名义变量资料名义变量资料5.若要通过样本作统计推断，样本应是_____。

A.总体中典型的一部分总体中典型的一部分B.总体中任一部分总体中任一部分C.总体中随机抽取的一部分总体中随机抽取的一部分D.总体中选取的有意义的一部分E.总体中信息明确的一部分总体中信息明确的一部分6.统计量_____。

A.是统计总体数据得到的量是统计总体数据得到的量 B.反映总体统计特征的量反映总体统计特征的量C.是根据总体中的全部数据计算出的统计指标D.是用参数估计出来的是用参数估计出来的E.是由样本数据计算出的统计指标7.因果关系_____。

A.就是变量间数量上的联系就是变量间数量上的联系 B.可以用统计方法证明可以用统计方法证明 C.必定表现为数量间的联系必定表现为数量间的联系D.可以通过单独考察两个变量间关系得出E.可以通过变量间数量上的联系来证明（二）A2型：1.教材中提及美国人1954年实施了旨在评价索尔克（Salk ）疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。

有180万儿童参与，约有1/4参与者得到了随机化。

这180万儿童是_____。

A.目标总体目标总体B.研究总体研究总体C.1份样本份样本D.1份随机样本份随机样本E.180万份样本万份样本2.上述试验最终肯定了索尔克疫苗的效果。

第十一章定量资料分析

（3）定距层次：算术平均数
通常称平均数，又称均数或均值。英文为Mean，故以M表示。如果是由变量X计算得来的就记为X （读X杠），现在一般都以 X 表示样本的平均数，以U 表示总体的平均数。
算术平均数就是各个变量值相加求和再除以变量的总次数。
x
X=
X 1 X 2 X n N
按照处理方式不同集中统量可分为几类，两最常见的集中趋势有算术平均值、众数和中位数三种。用得最多的是平均数。 1 定类层次：众值（众数) 其意义为，在众多数值中，出现次数最多的一个数值。（1）原始资料，求众值例如：2，3，5，5，5，6，6，7，8 出现次数最多的是5，其M0=5
区间 75-79 70-74 65-69 60-64 55-59 50-54 组中值 77 72 67 62 57 52 频数 1 3 5 10 4 2
表中频数最大的为10，对应的区间是60-64，其组中值是62，所以众值=62。如果在一个次数中出现两个邻近的次数较多者，众数是二次数多的组中值的平均值
资料审核的方法主要有两种，即逻辑审核与计算审核。逻辑审核，即核查资料的内容是否合乎逻辑和常识，项目之间有无互相矛盾之处，与其他有关资料进行对照是否有明显出入等等。计算审核，是针对数字资料进行的审查。要检查计算有无错误。度量单位有没有错，前后数字之间有无相互矛盾之处等等。
离散程度表示一组数值的差异情况，测量的是分配的离中趋势。反映数据对于集中趋势的偏离程度的量称为离散程度统计量。常见的离散量数统计量有全距,标准差, 异众比率,和四分位差。
全距（R）
全距也叫极差,它是一组数据中,最大值与最小值之差. 它是表示数据分布离散程度最简单的方式，即一组数据中最大数与最小数差，故称两极差。

第八章多组独立定量资料的统计分析

第八章多组独立定量资料的统计分析本章应用的Stata 命令为：例8-1 为研究茶多酚保健饮料对急性缺氧的影响，某研究者将60只小白鼠随机分为低、中、高三个剂量组和一个对照组，每组15只小白鼠。

对照组给予蒸馏水0.25ml 灌胃，低、中、高剂量组分别给予2.0g ∕kg 、4.0g ∕kg 、8.0g ∕kg 的饮料溶于0.2～0.3ml 蒸馏水后灌胃。

每天一次，40天后，对小白鼠进行耐缺氧存活时间试验，结果如表8-1。

试比较不同剂量的茶多酚保健饮料对延长小白鼠的平均耐缺氧存活时间有无差别。

表8-1 各组小白鼠耐缺氧时间组别耐缺氧时间ij Y （min ）对照组（1=i ）20.79 22.91 27.21 19.34 17.85 23.79 22.60 18.53 23.23 20.14 26.71 19.36 17.22 24.13 15.85 低剂量组（2=i ） 22.22 24.74 21.53 19.66 25.89 29.10 18.93 18.64 26.39 25.49 20.43 22.69 29.67 20.36 22.74 中剂量组（3=i ） 28.56 28.67 25.28 30.38 23.13 23.47 28.88 29.62 24.82 34.64 22.29 29.22 25.63 35.12 32.32 高剂量组（4=i）31.93 37.94 39.76 27.94 29.65 34.23 32.63 29.1339.62 36.15 28.85 24.07 29.29 35.24 36.130H ：四个总体均数相等1H ：四个总体均数不等或不全相等05.0=αStata 命令为：结果为：检验统计量F ＝26.09，p<0.0001。

按α＝0.05水平，拒绝H 0，接受H 1，可认为不同剂量的茶多酚保健饮料对延长小白鼠的平均耐缺氧存活时间有影响。

多组定量资料的比较案例辨析及参考答案

第7章多组定量资料的比较案例辨析及参考答案案例7-1某医院妇产科测定几种卵巢功能异常患者血清中促黄体素的含量(U/L)，结果如下：卵巢发育不良 42.50 38.31 35.76 33.60 31.38丘脑性闭经 6.71 3.32 4.59 1.67 10.51 2.96 11.82 3.86•8.26 2.63 2.20 垂体性闭经 4.50 2.75 11.14 5.98 1.90 5.43 11.05 22.03研究者运用t检验进行两两比较，共比较了3次。

结论是卵巢发育不良者血清中促黄体素的含量高于丘脑性闭经和垂体性闭经者。

这样做是否妥当？为什么？正确的做法是什么？案例辨析原作者用3次检验处理此定量资料是不妥当的，因为这样做割裂了原先的整体设计，对资料的利用率较低，对误差的估计不够合理，检验统计量的自由度较小，结论的可信度降低。

正确做法这是从三个子总体内完全随机抽取受试对象的单因素3水平设计定量资料的假设检验问题，应选用与此设计对应的统计分析方法。

若定量资料满足参数检验的三个前提条件（即独立性、正态性和方差齐性），应选用单因素3水平设计定量资料方差分析；若定量资料不满足参数检验的三个前提条件，可选用Kruskal-Wallis秩和检验。

假定3组定量资料满足独立性要求，对3组定量资料用检验分别进行正态性检验，得：卵巢发育不良组为=0.979，=0.930；丘脑性闭经组为=0.874，=0.087；垂体性闭经组为=0.844， =0.083。

因3组正态性检验结果均有 0.05，说明3组定量资料满足正态性要求。

再对3组定量资料进行方差齐性检验（采用Levene检验），得：=1.416，=0.265。

说明3组定量资料满足方差齐性的要求。

因该定量资料满足方差分析的前提条件，故建议采用单因素3水平设计定量资料方差分析处理。

经方差分析，＝74.64，＜0.001；进而经Bonferroni检验，卵巢发育不良组高于丘脑性闭经组（＜0.001）,卵巢发育不良组高于垂体性闭经组(＜0.001）,而丘脑性闭经组与垂体性闭经组之间的差异无统计学意义（=0.234）；虽然结论与原作者的相同（巧合），但原作者的处理过程不妥。

定量资料的统计分析

1=男 2=女按实际年龄填写大于99岁的填99
第十一讲：定量资料的统计分析
1.3 数据录入
数据录入的方式：一种是直接从问卷上将编好码的数据输入计算机；另一种是先将问卷上编好码的数据转录到专门的登录表上，然后再从登录表上将数据输入计算机。数据登录表（见教材276页）数据录入的软件有很多，且大多可以相互转换。如POXFRO，EXCEL，SPSS。我们介绍直接用SPSS录入。
第十一讲：定量资料的统计分析
定量资料的分析
1、资料的整理与录入 2、单变量统计分析 3、双变量统计分析 4、多变量统计分析

第十一讲：定量资料的统计分析
1、资料的整理与录入
1.1 资料的审核 1.2 资料的编码 1.3 数据录入 1.4 数据清理

第十一讲：定量资料的统计分析
栏码的分配指定每个问题的编码值在整个数据文件中所处的位置。（预编码和事后编码）栏码的指定方法是从问卷的第一个项目或问题开始，先根据每一个项目或问题答案数码的位数，来确定该项目或问题所占有的宽度，再根据前后顺序来确定其在整个数据排列中所处的位置，这样从头依次往后排列。

第十一讲：定量资料的统计分析

第十一讲：定量资料的统计分析
建立新变量
Compute命令 Recode命令

第十一讲：定量资料的统计分析
数据文件的整理
排序（sort;rank）置换（transpose）拆分（spit）与合并（merge）分类与汇总（aggregate）加权（weight case）选择分析变量（select case）

第十一讲：定量资料的统计分析
1.3 数据录入

医学统计学-定量资料的统计分析 PPT课件

从资料提供的信息来看，样本均数150与总体均数132并不相等，其原因可有以下两个方面： 1. 样本对应的总体均数等于132，差别仅仅是由于抽样误差所致； 2. 除抽样误差外，病人与正常人存在本质上的差异。两种情况只有一个是正确的，且二者必居其一，需要我们作出推断。一般来说，抽样误差比本质上的差别要小，且抽样误差是有规律的。究竟是哪种原因导致与间的差别，可以通过假设检验作出判断。其步骤如下。
t
X 0 s n

150 132 16.5 25
5.4545
（4）确定概率P（与统计量t值对应的概率）：根据第（3）步算得现有样本与已知总体的标准t离差为 5.4545。该信息是否支持零假设H0 ? 需要通过查表确定P值，即在H0成立的前提下，获得现有这么大的标准t离差以及更大离差 | t | ≥5.4545的可能性。即 P=P（| t | ≥5.4545）按 =25-1=24，查t界值表得t0.05,24=2.064，故P＜0.05。
第五节定量资料的统计分析
—— t 检验
假设检验的方法通常是以选定检验统计量而命名的，例如本节的 t 检验就是用特定公式计算 t 统计量而命名
一、样本均数与总体均数的比较
此处的总体均数是指：已知的理论值或经大量观察所得到的稳定值，记作μ0。在此，样本均数与总体均数比较的目的是推断样本所代表的未知总体μ与已知的总体均数μ0是否有差别。例4-5-1 测得25例某病女性患者的血红蛋白（Hb），其均数为150（g/L），标准差为 16.5（g/L）。而该地正常成年女性的Hb均数为132（g/L）。问该病女性患者的Hb含量是否与当地正常女性Hb含量不同？
（1）建立假设： H0：＝ 0 =132，病人与正常人的平均血红蛋白含量相等； H1：≠ 0≠ 132，病人与正常人的平均血红蛋白含量不等。

第九章_资料的统计分析(单变量)

作
用
统计分析的特点：（1）统计分析要以定性分析为基础；（2）统计分析方法必须和其他分析结合运用；统计分析有一套专门的方法和技术。
单变量统计分析统计分析
多变量统计分析
一、单变量统计分析（单个问题的表格化分
析）
由一种变量的全部分数或观察值组成的
一组或一批数据称为一个分布。单变量数据的描述统计就是对其分布情况进行说明。单变量描述统计包括集中量数分析、离散量数分析。
②组距分组资料(组中值法) 首先通过直接观察找出最高的频数,然后根据最高的频数找到它所对应的组；最后求出该组的组中值即为众数.
表 4. 某企业百名职工收入分布
收入(元) 100-199 200-299 300-399 400-499 500-599 合计职工数(人) 10 10 40 20 20 100 组中值 150 250 350 450 550 Xf 1 500 2 500 14 000 9 000 11 000 38 000
2.集中趋势分析
集中趋势分析指的是用一个典型值或代
表值来反映一组数据的一般水平，或者说反映这组数据向这个典型值集中的情况。

最常见的集中量数有算术平均数,(简称平均数,也称为均值),众数和中位数三种.
2.集中趋势分析
（1）平均数(mean)
平均数是使用得最多的集中量数.平均数是指总体各单位数值之和除以总体单位数目所得之商统计分析中习惯以X来表示.其计算公式如下 ∑X X= n
练习：调查100名学生的成绩得到资料如下，求平均成绩表3 100名学生的成绩分布成绩组中值人数

41－60 61－80 81－100 合计
20 50 30 100

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

i
2
2
ss组内
i
( x x ) (n 1)s
2 i i i i
2 i
10
总的变异 SS 总
SS (X X )
2
组间变异 SS 组间组内变异 SS 组内
=
n (X
i
i
X)
2
+
2 ( X X ) ij i
自由度 v 总＝N-1 v 组间＝k-1
lg(x)+1 枯水期
0.24
0.54 0.5 0.34 0.4 0.76 0.3 0.2
1.99
0.99 1.22 1.17 1.96 0.71 1.25 1.23
0.380211
0.732394 0.69897 0.531479 0.60206 0.880814 0.477121 0.30103
多组独立定量资料的方差分析
1
例8-1P109－实验性研究例8-2P110－观察性研究
2
三个总体均数之间的比较。可否在三组之间两两做t检验？
3
两两t检验的误用
m组样本，有时需进行k(k-1)/2次比较各次比较均正确地不拒绝H0的概率为 k ( k 1) / 2 (1 )
) / (n1 1)
18
1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0
f( F)
F 分布曲线
1 1, 2 5
1 5, 2 5
1 10, 2 10
1 2 3 4
19
F
接受域
拒绝域
0.10
拒绝域
2
0.10
2
20
假设检验步骤
1 建立假设，确定检验水准
28
残差:
ij yij yi.
5 Residuals -10 -5
1
残差图:
0
10
2 g
3
4
29
stata命令
正态性：
1. 每一组服从正态分布 swilk x if group==1 2. 残差服从正态分布 anova x group predict e,residual swilk e
H0：四个总体均数全相等
H1：四个总体均数不全相等 α ＝0.05
21
2 计算统计量F
F
MS 组间 MS 组内
=26.087
22
3 借助统计量F的分布，确定样本情况是否是小概率事件，作出统计结论。
接受域
拒绝域
23
样本F值为26.087>界值，所以样本情况是小概率事件P<0.05，据此样本能拒绝H0，接受H1。认为四组的总体均数不全相等。
17
(n1 1) S
2
2 1
~ 2 (n1 1) ~ 2 (n2 1)
( (n1 1) S12
2
2 (n2 1) S 2
2
2
2 ( 1 ) / 1 S 1 F 2 2 2 (n2 1) S2 ( 2 ) / 2 S2 ( ) / (n2 1) 2
α = 0.05的临界值 3.84 7.81 12.59
6
9 12 ¿ ¨· ½ Ö µ
15
18
16
F分布: 如果随机变量X1 和X2分别服从于自由度和和的卡方分布 ,并且相互独立 ,则比值服从自由度 F分布 2
1 2 1 2
(1 ) / 1 X1 / 1 F 2 ( 2 ) / 2 X 2 / 2
5
6
变异分解
总变异＝组间变异+组内变异变异来源：
• 随机误差E • 处理因素的作用T
7
组间变异来源：E＋T 组内变异来源：E
组间变异 E T 统计量＝＝组内变异 E
1 处理变异 T E T F ＝ 1 误差 E E 1 当T＝0 当T 0

x1 , x2 ,...xm和x 不在同当H0为非真时，一位置上，因此大多数情况下，SS组间会比较大。
13
由于，与各组的均数大小无关，所以SS组内与H0是否为真无关。可以证明： SS 组间 / v组间 H0为真， F ～F (m 1, N m)
SS 组内 / v组内
24
当组数k等于2时，方差分析的F检验仍成立，可以证明：t2=F，且自由度为v 的t分布变量的平方等于分子自由度为 1、分母自由度为v的F分布变量。请对照Biblioteka 分布界值表和F分布界值表。25
方差分析的假设检验是双侧检验，但是F值查表是单侧的。因为H0不成立时，无论总体均数如何不等，F值只可能增大，不可能减小。
k ( k 1) / 2 1 (1 ) 犯I类错误的概率为
如m=3,则进行3次比较,如 0.05,各次比较均不拒绝H0的概率为0.857,实际 0.143 而不是0.05,实际犯I类错误的概率比0.05 要大
4
四组之间的两两t检验作三次t检验，犯一类错误的概率增大到1-（0.954）=0.185 五组之间的两两t检验作十次t检验，犯一类错误的概率增大到1-（0.9510）= 0.40。
30
方差齐性命令和方差分析命令
oneway x group -Bartlett's test robvar x,by(group)
31
数据变换
改善资料的正态性和方差齐性对数变换 X ln X
适用于对数正态资料;标准差和均数成比例
32
生化耗氧量丰水期枯水期丰水期
SS组内＝ (ni 1) Si
2
故可以借助F分布作多个均数差别的检验
14
卡方分布: 如果随机变量Z服从于标准正态分布,则其平方将服从自由度为1的卡方分布.
1

1
2
(x )
i 1 i
n i 1
n
2
~ (n)
2

2
2 2 ( x x ) ~ (n 1) i
v 组内＝N-k v 组内
v 总＝
v 组间＋
11
MS组间＝SS组间/ν组间 MS组内＝SS组内/ ν组内
MS组间 1 H 0成立时 F ＝ MS组内 1 H1成立时
12
SS组间＝ ni ( xi x )

2
当H0为真时， xi , x 均在 1 2 m 附近：所以大多数情况下 xi x 很小，所以 SS组间一般比较小。
26
方差分析的应用条件
正态性方差齐性独立性
27
方差齐性检验
H0:各总体方差相等 H1:各总体方差不全相等 Bartlett检验-normal(Gaussian) distribution Levene检验-robvar 注意：t检验和方差分析对方差齐性的要求并不因为样本量增大而降低对方差齐性的要求。
b.各组百分数的极差相差悬殊时
36
平方根反正弦变换
百分比资料
a.表达成百分数的资料总体百分数较小(小于 30%)或较大(大于70%)时的小样本，偏离正态较为明显，变换后呈或接近正态分布，方差齐性和具有可加性。 b.各组百分数的极差相差悬殊时
37
Box-Cox:一蔟正态性变换,达到相对最佳近似正态分布
1.298853
0.995635 1.08636 1.068186 1.292256 0.851258 1.09691 1.089905
合计
均数方差
3.28
0.41 0.0339
10.52
1.315 1.1978
4.60407
0.57551 0.03698
8.77938
1.09742 0.02150
Y 1 , 0 Y 1 ln(Y ), 0

38
谢谢！
39
15
0.5 0.4 0.3
2 1 f ( 2 ) 2 ( / 2 ) 2

( / 2 1 )
e

2
/2
· ×ß Ý
× Ô Ó É ¶ È £ ½ 1
0.2 0.1 0.0 0 3
× Ô Ó É ¶ È £ ½ 2 × Ô Ó É ¶ È £ ½ 3 × Ô Ó É ¶ È £ ½ 6
b.方差不齐，尤其是方差与均数之间呈正比关系，均数大方差也大，均数小方差也小。
婴幼儿各年龄组身高情况
年龄组 1～2 月 5～6 月 3～3.5 岁
人数 100 120 300
均数 56.3 66.5 96.1
标准差 2.1 3.2 5.1
35
3. 平方根反正弦变换
y=arcsin
x
a.表达成百分数的资料总体百分数较小(小于30%) 或较大(大于70%)时的小样本，偏离正态较为明显，变换后呈或接近正态分布，方差齐性和具有可加性。
8
方差分析法的基本思想
xij i eij i eij eij xij i
i i xij ( i ) ( xij i )
x
xi
9
SS总＝ ( xij x )
ss组间 ni ( xi x )
F=1.1978/0.0399=5.835 p<0.05 丰水期 Std/mean=0.45 枯水期 Std/mean=0.34
33
平方根变换 X X
方差和均数成比例如poisson分布
1 p sin p
34
放射性物质在单位时间内放射出质点数的分布
一定人群中某种患病率很低的非传染性疾病数。