十三定性资料统计推断
统计学考研备考宝典统计方法与统计推断重点概念解析

统计学考研备考宝典统计方法与统计推断重点概念解析统计学是研究收集、处理和分析数据的一门学科,它广泛应用于各个领域的研究和决策过程中。
对于考研学生来说,统计学是一个必考科目,备考过程中需要掌握一定的统计方法和统计推断的概念。
本文将对统计学考研备考中的重点概念进行解析,帮助考生更好地理解和掌握相关知识。
一、统计方法1. 描述统计方法描述统计方法是通过对数据进行总结、分类和展示来描述和分析数据的方法。
常用的描述统计方法包括频数分布、平均数、中位数、众数、方差、标准差等。
其中,频数分布可将数据按照某个特征进行分类,并统计各个分类的频数;平均数是指所有数据的总和除以数据个数,反映了数据的平均水平;中位数是指将数据按照大小顺序排列后,处于中间位置的数值;众数是指出现频率最高的数值;方差和标准差用于度量数据的离散程度。
2. 探索性数据分析探索性数据分析是一种通过可视化手段和统计分析方法,对数据进行初步探索和分析的方法。
通过绘制直方图、散点图、箱线图等图形,可以直观地发现数据的分布、异常值等特征。
同时,通过计算相关系数、协方差矩阵等统计量,可以了解数据之间的关系和相关性。
3. 参数估计参数估计是利用样本数据对总体参数进行估计的方法。
常用的参数估计方法包括点估计和区间估计。
点估计是指利用样本数据得出总体参数的一个具体数值;而区间估计是指利用样本数据得出总体参数的一个范围。
4. 假设检验假设检验是通过对样本数据进行分析,判断总体参数是否具有某种设定的特征或假设。
常用的假设检验方法包括单样本、双样本和相关样本的假设检验。
在进行假设检验时,需要设置显著性水平,通常设置为0.05,用以判断是否拒绝原假设。
二、统计推断重点概念解析1. 总体与样本在统计学中,总体是指研究对象的全体,而样本是从总体中抽取的一部分数据。
通过对样本的研究和分析,可以推断出总体的特征和参数。
2. 统计量统计量是用来描述样本的特征和参数的量。
常用的统计量包括样本均值、样本方差、样本标准差等。
第8章 定性资料的比较思考与练习参考答案

第8章定性资料的比较思考与练习参考答案一、最佳选择题1. 定性资料的统计推断常用( D )。
A. t检验B. 正态检验C. F检验D. 2χ检验E. t′检验χ检验自由度为(A)。
2. 两组二分类资料发生率比较,样本总例数100,则2A. 1B. 4C. 95D. 99E. 100χ检验中,2χ<1,05.02χ,可以认为(B)。
3. 四格表2A. 两总体率不同B. 不能认为两总体率不同C. 两样本率不同D. 不能认为两样本率不同E. 以上都不对4.等级资料比较宜采用(E)。
A. t检验B. 2χ检验C. F检验D. 正态检验E. 秩和检验5. 为比较治疗某病的新疗法与常规方法,试验者将100名患者按性别、年龄等情况配成对子,分别接受两疗法治疗。
观察得到有28对患者同时有效,5对患者同时无效,11对患者新药有效常规治疗无效。
欲比较两种疗法的有效率是否相同,应选择的统计分析方法为(D)。
χ检验 B. 独立的两组二分类资料比较校正2χ检验A. 独立的两组二分类资料比较2χ检验 D.配对的两组二分类资料比较校正2χ检验C. 配对的两组二分类资料比较2E. Fisher确切概率法二、思考题χ检验适用的数据类型。
1. 简述2答:提示:卡方检验是应用较广的一种定性资料的假设检验方法,常用于检验两个或多个样本率(或构成比)之间有无差别。
2. 两组二分类资料的设计类型有几类?其相应的检验方法是什么?)m n A n()m n A n()nm n nA m n A (n m n /n)m (n /n m n A A n/nm n /n)m n (A T )T (A χRi Cj ji ijRi Cj ji ij j i ij Ri Cj ji ij Ri Cj ji j i j i ij ij R i Cj j i j i ij R i Cj ijij ij 11222112112211211221121122-=+-=+-=+-=-=-=∑∑∑∑∑∑∑∑∑∑∑∑============答:提示:两组二分类资料的设计类型主要有2类,即完全随机设计和配对设计。
统计推断的基本概念

统计推断的基本概念统计推断是指通过对样本数据进行统计分析,从而对总体参数或总体分布进行推断的方法。
在实际应用中,由于无法获得总体的全部数据,只能通过采集样本数据来代表总体,因此统计推断成为研究和预测总体特征的一种重要手段。
统计推断的基本框架统计推断可分为参数估计和假设检验两个主要部分。
参数估计参数估计是指通过样本数据来估计总体未知参数的方法。
以平均数为例,若要估计总体的平均数,则可以通过抽取样本,并以样本均值作为总体平均数的估计值。
参数估计可分为点估计和区间估计两种方法。
点估计点估计是指通过样本数据得到一个具体的数值来估计总体参数。
常用的点估计方法有最大似然估计和矩估计。
最大似然估计是利用已知样本的概率分布函数,选择使得观测概率最大化的参数值作为估计值。
矩估计是利用样本矩以及总体矩与样本矩之间的关系来求解参数的估计值。
区间估计区间估计是指通过样本数据得到一个区间范围,以达到对总体参数一个范围的推测。
常用的区间估计方法有置信区间和预测区间。
置信区间是指给定一个置信水平,在这个置信水平下,总体参数真值落入某个区间内的概率。
预测区间是指在给定一个置信水平下,观测一个新值会落入某个区间内的概率。
假设检验假设检验是指在给定一个假设条件下,利用样本数据对该假设进行推断与判断的方法。
常用的假设检验方法有参数检验和非参数检验。
参数检验参数检验是指假设总体服从某个特定分布或具有某些特定参数条件,然后通过对样本数据进行处理和比较,判断这个假设是否成立。
常见的参数检验方法有Z检验、t检验、F检验等。
非参数检验非参数检验则不依赖于总体分布类型或者特定的参数条件,而是通过采取某些统计量作为判据,对假设进行判断。
常见的非参数检验方法有Wilcoxon秩和检验、Mann-Whitney U检验、Kruskal-Wallis H 检验等。
统计推断的应用领域统计推断广泛应用于各个领域,以下列举几个典型领域作为例子:医学领域在医学领域中,统计推断被广泛应用于随机对照试验、生物等效性试验和药物安全性评价等研究中。
常用医学科研中的统计学方法(三)

1、已知治疗某病的新方法的疗效不会低于常规方法。
为确定新疗法可否取代常规方法,试验者将两疗法进行平行观察后,应选择() *• A.单侧检验• B.双侧检验• C.卡方检验• D.t检验2、两组资料,回归系数b大的一组() *• A.相关系数r也大• B.相关系数r较小• C.两变量关系密切• D.两组相关系数大小关系尚不能确定3、定性资料的统计推断常用() *• A.t检验• B.正态检验• C.F检验• D.卡方检验4、在简单线性回归分析中,得到回归系数为-0.30,经检验有统计学意义,说明() *• A.Y增加一个单位,X平均减少30%• B.X增加一个单位,Y平均减少30%• C..X增加一个单位,Y平均减少0.30个单位• D.Y增加一个单位,X平均减少0.30个单位5、为比较治疗某病的新疗法与常规方法,试验者将100名患者按性别、年龄等情况配成对子,分别接受两疗法治疗。
观察得到有28对患者同时有效,5对患者同时无效,11对患者新药有效常规治疗无效。
欲比较两种疗法的有效率是否相同,应选择的统计分析方法为() *• A.独立的两组二分类资料比较检验• B.独立的两组二分类资料比较校正检验• C.配对的两组二分类资料比较检验• D.配对的两组二分类资料比较校正检验6、在简单线性回归分析中,SXY(又称剩余标准差)反应() *• A.应变量Y的变异度• B.自变量X的变异度• C.扣除X影响后Y的变异度• D.扣除Y的影响后X的变异度7、四格表的自由度() *• A.不一定等于1• B.一定等于1• C.等于行×列数• D.样本含量减18、用两种方法检验已确诊的乳腺癌患者120名,甲法检出率为60%,乙法检出率为50%,甲乙两法一致检出率为35%,则整理成四格表后表中的d(两法均未检出者)为() *• A.30• B.18• C.24• D.489、四格表资料当时,应采用Fisher确切概率法直接计算概率() *• A.T≥5• B.n≥40• C.n<40或T<1• D.1≤T<510、当四格表的周边合计不变时,如果格子的实际频数有所变化,则其理论频数() *• A.增大• B.减小• C.不变• D.不确定11、对多个样本率的卡方检验,拒绝H0时,结论为() *• A.各个总体率都不相同• B.各个总体率不全相同• C.各个样本率都不相同• D.各个样本率不全相同12、R*C表的卡方检验的自由度为() *• A.R-1• B.C-1• C.R*C-1• D.(R-1)(C-1)13、两组二分类资料发生率比较,样本总例数100,则卡方检验自由度为() *• A.1• B.4• C.95• D.9914、最小二乘估计方法的本质要求是() *• A.各点到直线的垂直距离和最小• B.各点到x轴的纵向距离的平方和最小• C.各点到直线的垂直距离的平方和最小• D.各点到直线的纵向距离的平方和最小15、对于n=300的3个样本率做卡方检验时,其自由度为() *• A.299• B.297• C.1• D.216、四格表资料,且n>40,有一个理论频数小于5大于1.此数据宜作何种假设检验() *• A.可以作校正的卡方检验• B.不能作卡方检验• C.作卡方检验,不必校正• D.以上都不对。
13定性资料的统计推断

2011-1-4
22/78
资料类型: 资料类型:定性资料 设计类型:单样本率的比较, 设计类型:单样本率的比较,目的是推断 样本所代表的总体率π 与已知的总体率π 样本所代表的总体率 π 与已知的总体率 π0 是否相等。 是否相等。 分析方法:率的 检验 分析方法:率的u检验
2011-1-4
23/78
一、要有严密的抽样研究设计 这是假设检验的前提。 这是假设检验的前提 。 样本必须是从 同质总体中随机抽取的; 同质总体中随机抽取的 ; 要保证组间的均 衡性和资料的可比性, 衡性和资料的可比性 , 即除对比的主要因 如用新药和用安慰剂) 素 ( 如用新药和用安慰剂 ) 外 , 其它可能影 响结果的因素(如年龄,性别,病程, 响结果的因素( 如年龄,性别,病程,病情 轻重等)在对比组间应尽可能相同或相近。 轻重等)在对比组间应尽可能相同或相近。
计算公式为: 计算公式为:
u= p −π0
π0 (1−π0 ) / n
p −π0 −1/ 2n
=
p −π0
σp
σp =
π (1−π )
n
u=
π0 (1−π0 ) / n
=
p −π0 −1/ 2n
σp
式中, 为样本率 为样本率, 为已知的总体率, 式中 , p为样本率 , π0 为已知的总体率 , σp 为 计算的标准误, 为校正数, 由总体率 π0 计算的标准误 , 1/2n为校正数 , n 为校正数 很大时可以省略。 很大时可以省略。
)
D P 值和α值都不可以由研究者事先设定 E P 值的大小与α值的大小无关
2011-1-4
9/78
简答题
1. 假设检验的基本原理是什么? 假设检验的基本原理是什么? 2. 什么是一类错误?什么是二类错误?二者之间有 什么是一类错误?什么是二类错误? 什么关系? 什么关系? 3. 什么是概率?什么是小概率事件?怎样理解假设 什么是概率?什么是小概率事件? 检验中“小概率不可能原理” 检验中“小概率不可能原理”? 4. 假设检验中,如何确定单、双侧? 假设检验中,如何确定单、双侧? 5. 假设检验的注意事项是什么? 假设检验的注意事项是什么? 6. P 与α有什么区别和联系? 有什么区别和联系? 有什么区别和联系
统计推断的内容概要

区间下限 = x - t (a/2, df)
s n
t (0.025,9) = 2.262 =
-
(
)=
New
区间上限 =
x + t (a/2, df)
s n
=
+
(
)=
范例--续
设备3所制造部件的平均值是否在目标范围之内?
5.397
高度 (英寸)
5.396 5.395
置信区间上限值 = 5.3955英寸
置信区间随样本容量的 增加而减小。
造部件的平均高度不在目标范围内
。
New
……使用不同的a值来计算置信区间
置信区间量化了数据的不定性。
样本大小对置信区间的影响
让我们取20个以上的样本(总数 n = 30),看一看对 95%的置信区间有何影响。
假设平均值和标准差保持不变:x = 5.3947 和 s = 0.00116 。
置信区间下限值 = x - t (a/2, df)
20
2.09
30
2.05
100
1.98
1000
1.96
用所给出的有关部件的数据代入以上公式…
New
置信区间
计算利用设备3所生产的传输设备平均高度的置信区间
使用a=0.05(95%的置信区间)
x = 5.3947
-s = 0.00116 n = 10
df = n - 1 = 9
t(a/2,df)取自t表格。
Calc > Random data > Normal
由1000个组成的样本保存在“数据 ”变量.
Calc > Random data > Sample from columns…
定性资料的比较思考与练习参考答案
第8章定性资料的比较思考与练习参考答案一、最佳选择题1. 定性资料的统计推断常用( D )。
A.检验B. 正态检验C.检验D.检验E. t′检验2. 两组二分类资料发生率比较,样本总例数100,则检验自由度为(A)。
A. 1B. 4C. 95D. 99E. 1003. 四格表检验中, <,可以认为(B)。
A. 两总体率不同B. 不能认为两总体率不同C. 两样本率不同D. 不能认为两样本率不同E. 以上都不对4.等级资料比较宜采用(E)。
A.检验B.检验C.检验D. 正态检验E. 秩和检验5. 为比较治疗某病的新疗法与常规方法,试验者将100名患者按性别、年龄等情况配成对子,分别接受两疗法治疗。
观察得到有28对患者同时有效,5对患者同时无效,11对患者新药有效常规治疗无效。
欲比较两种疗法的有效率是否相同,应选择的统计分析方法为(D)。
A. 独立的两组二分类资料比较检验B. 独立的两组二分类资料比较校正检验C. 配对的两组二分类资料比较检验D.配对的两组二分类资料比较校正检验E. Fisher确切概率法二、思考题1. 简述检验适用的数据类型。
答:提示:卡方检验是应用较广的一种定性资料的假设检验方法,常用于检验两个或多个样本率(或构成比)之间有无差别。
2. 两组二分类资料的设计类型有几类?其相应的检验方法是什么?答:提示:两组二分类资料的设计类型主要有2类,即完全随机设计和配对设计。
完全随机设计和配对设计资料在假设检验方法上均采用卡方检验。
完全随机设计资料应用公式(8-1)或(8-4),配对设计资料应用公式(8-7)或(8-8)。
3. 什么资料适合用秩和检验进行检验?简述秩和检验步骤。
答:提示:进行有序资料的比较时宜采用秩和检验。
秩和检验步骤为:①建立假设,并确定检验水准;②根据不同的设计类型对资料进行编秩并计算秩和;③根据计算的秩和直接查表或计算相应的统计量再查表,确定值下结论。
进行有序资料的比较时宜采用秩和检验。
定性资料的统计描述
25
三、相对比
相对比是互不包含的两个有联系指标之比。 对比的两个指标可以性质相同,也可以性质 不同。 公式为:相对比型指标=A指标 / B指标
注意:在计算相对比中,甲、乙两个指标可 以是绝对数,也可以是相对数或平均数,可 以有不同的量纲,但是互不包含。
27
例: 某年某医院出生婴儿中,男性婴儿为 370人, 女性婴儿为358人,则出生婴儿的 性别比为多少? 性别比为:370 / 358 ×100﹪=103﹪ 说明该医院年每出生100名女婴儿,就有103 名男婴儿出生。
30
2.相对危险度(relative risk,RR)表示在两种相同 条件下某疾病发生的概率之比。即暴露组发病率 与非暴露组发病率的比值。 某地某年男性吸烟和非吸烟的冠心病死亡资料 分组 死亡人数 观察人年数 死亡率 (1/10万人年) 43248 10673 240.5 112.4
吸烟组 104 非吸烟组 12
36
某医院某年住院病人中胃癌患者占5%,则() A 5%是强度指标 B 5%是频率指标 C 5%是相对比指标 D 5%说明胃癌在住院病人 中的比重
37
2.使用相对数时分母不宜过小 某药物 甲治疗100人,50人有效,有效 率为50﹪。药物乙治疗5人,3人有效, 我们能否说乙药有效率为60 ﹪?能否说 乙药比甲药治疗效果好。
9
分娩方式 顺产 助产 顺产 顺产 顺产 剖宫产 顺产 剖宫产 顺产 顺产
妊娠结局 足月 足月 足月 早产 足月 足月 死产 足月 足月 足月
按年龄(2岁一组)与职业整理
年龄 18 20 22 24 26 28 30 32 34 36 38 40 合计 工人 2 9 28 50 50 34 11 14 4 2 3 0 207 管理人员 0 2 7 34 43 35 14 2 2 1 1 0 141 农民 0 6 10 28 25 10 11 3 5 1 1 2 102 商业服务 0 10 24 52 45 34 22 14 3 4 0 0 208
定性资料的统计推断PPT学习教案
第17页/共51页
8.2 配对设计四格表资料的检验
适用于:配对设计、定性资 料(两分类)、以比较两种 处理的效果是否相同为目的。
注意比较:其与配对设计定
量资料的t检验的区别及联
系。
第18页/共51页
一、基本思想
表8.4 配对设计四格表资料比较的一般形式
甲方法
卡方检验中,采用似然法计算统计量 的公式 为:
ln
k
2 L
2
Ai
i 1
Ai Ti
第33页/共51页
二、似然比检验--方法步骤
例 8.8
接种疫苗 腮腺炎疫苗 麻风腮疫苗
合计
表8.9 两种疫苗的阳转率比较表
阳转(A/T) 未阳转(A/T)
合计
35/30.33
7/11.67
42
17/21.67
13/8.33
第2页/共51页
2检验的应用
k组(k≥2)总体率之间差别有无统计 学意义
k组(k≥2)总体构成比之间差别有无 统计学意义
两分类变量间有无相关关系 频数分布的拟合优度检验
第3页/共51页
主要内容 8.1 成组设计四格表资料的检验
8.2 配对设计四格表资料的检验 8.3 成组设计行乘列表的检验 8.4 似然比检验和确切概率法 8.5 检验的多重比较
第29页/共51页
这是三个独立样本频率分布的比较,R=3, C=4,称为3×4列联表。检验步骤如下。
1. 建立检验假设,确定检验水准 H0 :三个少数民族的血型分布构成比相同 H1 :三个少数民族的血型分布构成比不相同 =0.05。 2. 计算检验统计量 按式(8.9)计算得
第30页/共51页
统计推断的基本概念
统计推断的基本概念统计推断是统计学的一个重要分支,它通过对样本数据进行分析和推断,进而对总体进行估计和假设检验。
统计推断可以帮助我们从有限的样本数据中,得出关于总体特征的合理。
本文将介绍统计推断的基本概念,让读者对统计推断有一个初步的了解。
总体和样本在讨论统计推断之前,首先需要了解两个基本概念:总体和样本。
总体是指我们感兴趣的研究对象的全体,而样本则是从总体中抽取出来的一部分观测数据。
通过对样本的分析,我们可以对总体进行推断。
参数和统计量参数是用来描述总体特征的数值,比如总体的平均值、标准差等。
在统计推断中,我们通常无法直接观测到总体参数,而是通过样本数据来估计总体参数。
样本统计量是用来描述样本特征的数值,比如样本的平均值、标准差等。
通过样本统计量,我们可以对总体参数进行估计。
抽样误差由于样本数据只代表了总体的一部分,因此样本统计量和总体参数之间存在差异,这种差异称为抽样误差。
抽样误差是统计推断中的一个重要概念,它代表了样本统计量与总体参数之间的随机波动。
置信区间在统计推断中,我们通常对总体参数进行估计,并希望给出一个估计的精度范围。
置信区间可以帮助我们解决这个问题。
置信区间是对总体参数取值范围的一个估计区间,它基于样本数据计算得出,并给出了一个置信水平的概念。
例如,常见的置信水平为95%,表示我们有95%的把握相信真实的总体参数落在置信区间内。
假设检验在统计推断中,我们经常需要对总体参数的假设进行检验,以判断某种观察结果是否具有统计显著性。
假设检验包括原假设和备择假设两种假设,通过计算样本数据得到的统计量与期望值之间的差异,我们可以进行假设检验,并得出拒绝或接受原假设的。
统计推断作为统计学的重要分支,为我们理解和研究现实世界提供了有力的工具和方法。
通过对总体和样本的概念的理解,我们可以进行参数和统计量的估计,并通过置信区间和假设检验来推断总体特征。
统计推断的基本概念为我们进行科学研究和决策提供了一定的指导,让我们能够更加客观地对待数据和统计结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
练习:某药物治疗100例患者,有90例有效,试估 计总体有效率。 (p - uα/2 Sp, p + uα/2 Sp) = (0.9-1.96×0.03,0.9+1.96×0.03)=(0.8412, 0.9588) 即总体有效率的95%可信区间为84.12%~95.88%。
总体率的可信区间 2、样本量较小时,查表。
常用的比例指标
1. 率: 速率(rate):与时间有关,如某年某病发病率、死亡率。 比率(proportion):与时间无关,如某病治愈率。 2. 比:
构成比(constituent ratio):部分与全部之比 相对比(relative ratio):两指标之比 3. 动态数列:
定基比:各时间的指标分别与基数(某个时间的指标)作对比 环比:以相邻的后一个时间的指标与前一个时间的指标作对比 增长量:分为累积增长量、逐年增长量
表1
联合治疗 单纯治疗
合 计
96 (a+c.) 35 (b+d.)
131(n=a+b+c+d)
73.3
第一步:建立检验假设
H0:两总体存活率相等,即1=2;
H1:两总体存活率不等,即12。
表1
两种疗法的乳腺癌患者按H0成立计算的理论频数 ( Theoretical frequency ) 生存 39(34.44) 39 死亡 合计 47 84 131 存活率(%) 83.0 73.3 73.3 67.9 73.3
9
10 11 12 13
男
女 男 女 男
167
186 182 159 167
离异
离异 分居 分居 分居
14
女
182
分居
分类变量的整理(2)
14名成人的原始数据
编号
1 2 3 4 5 6 7 8
性别
男 女 男 女 男 女 男 女
身高
175 167 187 176 167 178 174 170
婚姻状况
单身 单身 单身 已婚 已婚 已婚 已婚 已婚
不同性别的婚姻状况 性别 婚姻状况 男 女
单身 已婚 离异 分居
2 2 1 2
1 3 1 2
9
10 11 12 13
男
女 男 女 男
167
186 182 159 167
离异
离异 分居 分居 分居
14
女
182
分居
常用的比例指标
绝对数: 资料整理后各组的例数 相对数: 两个绝对数之比中得到的一种数值
表1
疗法
两种疗法治疗乳腺癌患者存活情况 (行合计与列合计均固定) 生存 死亡 合计 47 84 96 35 131
联合治疗 单纯治疗
合 计
2 ( A T ) 2 , ( R 1)( C 1) T
2 2 2 2 ( 39 34 . 44 ) ( 8 12 . 56 ) ( 57 61 . 56 ) ( 27 22 . 44 ) 2 34.44 12.56 61.56 22.44 3.52
下结论:
2
2 0.05,1
尚不能认为两种疗法的存活率是不相同的。
基本思想概括
若H0成立,则四个格子的实际频数 A与 理论频数 T 之差异纯系抽样误差所致 ,
故一般不会很大,2值也就不会很大;在 一次随机试验中,出现大的 2 值的概率 P 是很小的。
因此,若根据实际样本资料求得一个很
分布
2
Z1 , Z 2 ,..., Z 互相独立,均服从 N ( 0,1) , 2 则 Z12 Z 2 ... Z2的分布称自由度为 的
2 分布(chi-square distribution),记为 (2 ) 或 2 ( ) ,或简记为 2 .
* 图形:单峰,正偏峰;
连续性校正(Continuity correction)公式
当四格表资料理论频数较小时,需要对其进行 校正,称为连续性校正 , 又称 Yates 校正( Yates’ correction)。 当n≥40,1≤T<5时,用连续性校正公式。校正 公式为
c2
( A T 0 .5 ) 2 T
一、
2 检验的基本思想
表2 四格表(fourfold table)资料的基本形式 发生数 a c a+c 未发生数 b d b+d 合计 a+b c+d n=a+b+c+d
处理组 甲 乙 合计
一、
疗法
2 检验的基本思想
两种疗法治疗乳腺癌患者存活率比较
生存 39 (a) 57(c) 死亡 8(b) 27 (d) 合计 47 (a+b) 84 (c+d) 存活率(%) 83.0 67.9
率的估计
率的标准误
率
总体率: ;样本率:p
p
sp
率的标准误
(1 )
n p (1 p ) n
标准误的计算
例 观察某医院产妇 106 人,其中行剖腹产者 62 人, 剖腹产率为 58.5%,试估计剖腹产率的标准误。 解:已知 n=106,p=0.585,其标准误为:
p (1 p ) n 0 . 585 (1 0 . 585 ) 0 . 048 4 . 8 % 106
2分布规律
自由度一定时,P值越小, 2值越大。 =1时, P=0.05, 2 =3.84 P=0.01, 2 =6.63 当P 值一定时,自由度越大, 2越大。 P=0.05时, =1, 2 =3.84 =2, 2 =5.99 当自由度取1时, u2= 2
0.3
0.2
v ( 2 1 )( 2 1 ) 1
各种情形下,理论与实际偏离的总和即为 卡方值(chi-square value),它服从自由度 为ν的卡方分布。
3.52
2
1
2 2 0.05,1
3.84; P 0.05 3.84; P 0.05, 不拒绝 H 0
Sp
总体率的可信区间
1、样本量足够大,总体率适中 (满 足np和n(1-p)均大于5)时,样本率 近似正态分布。其可信区间为
(p - uα/2 Sp, p + uα /2 Sp)
试估计 p=0.585,Sp =0.048 的总体率双侧 95%可信区间。 解: u0.05/2=1.96, (p - uα /2 Sp, p + uα /2 Sp) = (0.585-1.96×0.048,0.585+1.96×0.048)=(0.491,0.679) 即总体率的 95%可信区间为 49.1%~67.9%。 注意:如果计算获得的可信区间下限小于 0%,上限大于 100%, 则将下限直接定为 0%,上限直接定为 100%。
,(也适合其它行 列表资料)
2 c
( ad bc n / 2 ) 2 n ( a b )( c d )( a c )( b d )
(只适合四格表资料 )
Trick: Calculate the smallest T, then If the smallest T≥5, no need of correction. Otherwise, Continuity correction is needed.
下结论:
2 0.05,1
尚不能认为两种疗法的存活率是不相同的。
练习
某医师研究洛赛克治疗消化性溃疡的 疗效,以泰胃美作对照,其观察结果见表3。 表3
药物 泰胃美 洛赛克 合计
两种药物治疗溃疡病的疗效
无效数 例数 有效数 有效率( 例数 %) 60 24 60 6 30 36 54 90 60.0 60 90.0 60 120
分类变量的整理(1)
14名成人的原始数据
编号
1 2 3 4 5 6 7 8
性别
男 女 男 女 男 女 男 女
身高
175 167 187 176 167 178 174 170
婚姻状况
单身 单身 单身 已婚 已婚 已婚 已婚 已婚
14名成人的婚姻状况
婚姻状况
频数
单身
3
已婚
离异 分居 合计
5
2 4 14
(行合计)(列合计) nR nC = 总计 n
χ2检验的基本公式
(A T ) T
2 2
上述基本公式由现代统计学的创始人之 一,英国人Karl Pearson(1857-1936)于 1900年提出,因此软件上常称这种检验为 Pearson 2检验(Chi-square test)。
由于四格表资料为双边固定形式,即假设行合计 与列合计均固定,所以四格表的自由度ν=1
以υ= 1查 χ2界值表
判断结果 按 α 水准,将P 与α 比较,作出判断。
四格表χ2检验
四格表专用公式
为了不计算理论频数T, 可由基本公式推导出,直接由 各格子的实际频数(a、b、c、d)计算卡方值的公式:
2 ( A T ) 2 基本公式: T 四格表专用公式
( ad bc ) n ( a b)( c d )( a c )(b d )
疗法
联合治疗 单纯治疗
合 计
57 27 57(61.56) 27(22.44) 96 35
?
8(12.56) 8
T a 47 73.3% 34.44 T c 84 73.3% 61.56
一般地,
理论频数
T b 47 26.7% 12..56 T d 84 26.7% 22.44
TRC
n R nC n
T最小