第六章分类资料的统计推断

合集下载

统计学第六章抽样推断

尖山一委…
尖山二委
居民一组
居民二
组
…
第六章抽样推断
某外国公司在##进行微波炉市场调查：
STAT
在商场的大门口
在微波炉柜台前
在市区街道旁边
在某个住宅小区
时间表抽样框
第六章抽样推断
连续出产的产品总体可以编制抽样框：均STAT 匀的出产时间、可以预见到的产品总量.
连续到加油站加油的汽车总体无法编制抽样框：时间不定、总量也无法确定.
抽样估计的特点
第六章抽样推断
按随机原则抽取样本单位
目的是推断总体的数量特征
抽样推断的结果具有一定的可靠程度, 抽样误差可以事先计算并控制
抽样估计的应用
第六章抽样推断
不可能进行全面调查时不必要进行全面调查时来不及进行全面调查时对全面调查资料进行补充修正时
抽样调查研究
Sampling Study
P N nN N NN n
共n个
⒉ 不重复抽样的可能样本数目：
C N n N N 1 N n 1
第六章抽样推断
第六章抽样推断
STAT
★§1.1 抽样方案的设计 ★§1.2 简单随机抽样的抽样误差的测定
§1.3 简单随机抽样的抽样估计
第六章抽样推断
§1.2 简单随机抽样的抽样误差的测定 STAT
n1 1{i n1E(xiX)2nn(E xX)2} 由E(于 xX)2D (x)D (i1 nxi)n 1 2i n1D (xi)n2
E(sn21)n11{n2nn2}
2
⒋ 样本成数：
pn1,qn0 1p nn
⒌ 样本单位是非标志的标准差：
第六章抽样推断

《医学统计学》教学大纲(医学检验)

《医学统计学》课程教学大纲（Medical Statistics）一、课程基本信息课程编号：14232080课程类别：专业必修课适用专业：医学检验技术学分：理论教学学分：2学分，实验学分：0.5学分总学时：40学时（其中讲授学时：24学时；实验(上机)学时：16学时）先修课程：医学基础课程后续课程：医学检验、预防医学选用教材：李康主编：医学统计学(第6版)[M].北京：人民卫生出版社，2013必读书目：[1]方积乾主编.医学统计学(第7版)[M].北京：人民卫生出版社，2013[2]袁兆康.医学统计学[M].北京：人民军医出版社.2013[3]张文彤主编.SPSS统计分析基础教程(第2版)[M].北京：高等教育出版社，2011选读书目：[1] 颜虹, 医学统计学[M]. 北京：人民卫生出版社，2005[2] 康晓平，实用卫生统计学 [M].北京：北京大学医学出版社，2002[3] Belinda Barton，Medical Statistics: A Guide to SPSS, Data Analysis and Critical Appraisal [M].美国：WILEY Blackwell，2014二、课程教学目标通过本门课程的学习，要使学生学会人群健康研究的统计学方法，学会数值变量和分类变量资料的分析，配对资料的分析，直线相关和直线回归，非参数统计方法，病例随访资料分析。

其目的使大家具备新的推理思维，结合专业问题合理设计试验，科学获取资料，提高科研素质。

本课程教学的主要方法有理论讲授、课堂讨论、实验实习、课堂演算、统计软件SPSS上机等。

通过实验实习，使学生加深对理论的理解。

三、课程教学内容与教学要求1．绪论教学要求：掌握：同质与变异，总体、个体和样本，变量的分类，统计量与参数，抽样误差，频率与概率等基本概念。

理解：统计工作的基本步骤，医学统计学的主要内容。

了解：学习统计学的目的和要求。

《国民经济统计学概论》_第六章_抽样推断

总体未分组： 2 （X X )2 N
总体分组： 2 （X X )2 F F
总体成数的方差为 P(1 - P)
2.统计量，又称样本指标，反映样本特征的统计指标
（1）样本平均数（ x ），样本各单位数量标志值的平均数
未分组： x x
n
分组： x xf f
（2）样本成数（p）是指样本中具有某一相同标志表现的单
要有四个：
（1）总体平均数（ X ）
总体各单位数量标志值的平均数
X
总体未分组情况下：X N
总体分组情况下：
XF
X
F
（2）总体成数（P）
是指总体中具有某一相同标志表现的单位数占全部总体单位数的比重
多为交替指标
总体中具有相同标志表现的单位数用N1 表示
P N1 N
（3）总体方差和标准差总体方差（σ2）
特点： 1.抽样方式组织简便，便于实施 2.在已知总体某些有关信息的情况下，
采用等距抽样能保证样本单位在总体中均匀的分布，从而提高了样本对总体的代表性，有利于降低抽样误差。
无关标志排队有关标志排队
（三）类型抽样首先把总体按某一标志分成若干个类型
组，使各组组内标志值比较接近，然后分别在各组内按随机原则抽取样本单位。特点：在于把分组法和随机抽样原则结合起来。
i2ni
n
抽样成数的平均误差：
重置抽样：
p
P(1 P) n
不重置抽样：
第四节抽样的组织形式及抽样方案设计
一、抽样的组织形式（一）简单随机抽样从总体全部单位中直接按随机原则抽取
样本单位，使每个总体单位都有同等机会被抽中
最基本形式
（1）直接抽选法直接从调查对象中随机抽选。

方差分析I单向分类资料

合计平均
X1. X1. X 2. X 2. X i. X i.
Xk. Xk. X .. X
平方和与自由度旳计算
k ni
总平方和：SST
i1 j1
X ij X
2
k i 1
ni j 1
X ij 2
X
2 ..
N
校正项(correction
factor)：CF
X
2 ..
N
k
组间平方和 : SSA＝
8
II 10.8 11.6 12.3 12.7 13.5 13.5 14.8
7
III 9.3 10.3 11.1 11.7 11.7 12.0 12.3 12.4 13.6 9
IV 9.5 10.3 10.5 10.5 10.5 10.9 11.0 11.5
8
32
–零假设：1= 2= 3= 4
sum 119.80
单向分类资料旳数据构造
组别 • 观察值
A1 A2
X 11 X 12 X X 21 X 22 X
1 2
j j
X X
1n1 2 n２
Ai X i1 X i2 X ij X ini
Ak X i.XXik总1jn i1X总和n1Xik平2：ijj ni1均XX ..：＝ijXXikkj1＝ XN1i.XXkn.k.
组间（处理） 85.8563
3
28.6188 16.855
Treatment
**
组内（误差） 47.5408
28
1.6979
error
总变异
133.3972 31
total F F (3,28) 否定H0 ,
F0.01(3,28) 4.57

两分类资料的统计描述与推断

详细描述
频数分布表包括两列，一列表示类别，另一列表示该类别出现的频数。通过频数分布表，可以直观地了解各类别的数量分布情况，为后续的统计分析提供基础数据。
比例与百分比
总结词
比例和百分比是用来描述两分类资料中各类别的相对大小。
详细描述
比例是各类别的数量与总数量的比值，而百分比则是比例乘以100。通过比例和百分比，可以了解各类别的相对大小，进一步分析各类别的权重和影响。
详细描述
在两分类资料中，中位数通常用于描述某一类别的中间状态或中心趋势。例如，在一组关于消费者年龄的数据中，中位数可以表示消费者的平均年龄或年龄分布的中心趋势。
算术平均数
总结词
算术平均数是所有数值的和除以数值的个数。
VS
详细描述
在两分类资料中，算术平均数可以用于描述某一类别的平均水平或中心趋势。例如，在一组关于消费者购买力的数据中，算术平均数可以表示消费者的平均购买力水平。
概率与概率分布
概率
描述随机事件发生的可能性大小。
概率分布
描述随机变量取值可能性的分布情况。
随机抽样与抽样分布
随机抽样
从总体中按照随机原则抽取一部分观察单位进行研究。
抽样分布
由样本数据推导出的统计量值的分布。
统计量与参数
统计量
基于样本数据计算出的量值，用于描述样本数据的特征。
参数
描述总体特性的量值，通常通过总体数据计算得出。
03
CHAPTER
两分类资料的离散程度描述
异众比率
异众比率
异众比率是用于描述分类数据中非众数频数的相对重要性。其计算公式为异众比率=非众数频数/总频数。异众比率越大，说明非众数频数所占比重越大，数据的离散程度越大。

经济应用统计学-第六章抽样推断

非参数检验优缺点总结
• 易于理解和实现：非参数检验方法通常基于直观和易于理解的思想，计算和实现相对简单。
非参数检验优缺点总结
检验效能较低
与参数检验方法相比，非参数检验方法的检验效能通常较低，即当原假设为真时，非参数检验方法更容易犯第二类错误（接受原假设）。
对数据信息的利用不充分
非参数检验方法通常只利用数据的部分信息（如排序信息），而忽略了数据的其他有用信息（如数值大小），因此可能无法充分利用数据信息。
两配对样本非参数检验
包括Wilcoxon 符号秩次检验、McNemar 检验等方法，用于比较同一总体内两个配对样本的差异是否显著。
两独立样本非参数检验
包括Mann-Whitney U 检验、Kruskal-Wallis H 检验等方法，用于比较两个独立样本所来自的总体的分布位置或分布形状是否存在差异。
考虑样本量大小
在选择置信水平时，应充分考虑样本量的大小。当样本量较小时，应选择较低的置信水平以避免过大的估计误差；当样本量较大时，可以选择较高的置信水平以获得更精确的估计结果。
参考相关文献或行业标准
在选择置信水平时，可以参考相关领域的文献或行业标准，了解通常采用的置信水平及其依据。这有助于确保研究结果的可比性和可靠性。
04
假设检验原理与步骤
假设检验基本概念阐述
原假设与备择假设
原假设通常是研究者想要推翻的假设，而备择假设则是研究者希望证实的假设。
检验统计量与拒绝域
检验统计量是根据样本数据计算出的用于检验原假设的统计量，而拒绝域则是根据显著性水平和检验统计量的分布确定的，当检验统计量落入拒绝域时，我们拒绝原假设。
单侧检验
当研究者对备择假设的方向有明确预期时，即备择假设只可能大于或小于原假设时，应选择单侧检验。例如，在比较两种药物疗效的研究中，如果研究者预期新药疗效优于旧药，则应选择单侧检验。

分类资料的推断与x2检验统计学课件

主要用于检验分类变量之间是否存在关系。
3
联系
两者都是用于检验变量之间关系的统计方法，但所针对的变量类型不同，一个是连续变量，一个是分类变量。
X2检验与回归分析的比较
回归分析
主要用于研究一个或多个自变量对因变量的影响，并估计自变量对因变量的预测值
。
X2检验
主要用于检验分类变量之间的关系，不涉及预测值的估
分类资料的常见类型
总结词
分类资料的常见类型包括计数资料、等级资料和属性资料等。
详细描述
计数资料是指对某一事件或现象发生的次数进行计数的数据类型，例如某地区的人口数量、某时间段内交通事故发生的次数等。等级资料是指将观察对象按照某种属性或特征进行等级划分的数据类型，例如按照病情严重程度将病人分为轻症、中症和重症等。属性资料是指对个体或单位按照某种属性或特征进行分类的数据类型，例如性别、婚姻状况、血型等。
数据整理
对数据进行整理，确保数据符合X2检验的要求。
实际案例分析：拟合优度检验
建立期望频数
根据理论分布，建立期望频数。
计算实际频数和期望频数
统计实际频数和期望频数，并计算X2值。
判断显著性
根据X2值和自由度，判断显著性水平。
结论推断
根据显著性水平，得出结论并解释结果。
04
X2检验的优缺点与注意事项
贝叶斯推断
贝叶斯推断是一种基于概率的统计方法，它能够将先验信息与样本数据相结合，进行更准确的推断。近年来，贝叶斯方法在分类资料推断中得到了广泛应用，如贝叶斯分类器、高斯过程回归等。
集成学习方法
集成学习是一种通过结合多个学习器来提高预测性能的方法。在分类资料推断中，集成学习方法如 bagging、boosting等被广泛应用于提高模型的稳定性和预测精度。

第六章统计推断 2

p p1 p
22
2013-8-18
第五章抽样推断
2.2 点估计
样本方差
符号公式
2 x
S 2 x
2
x x
n
x x
n1
2
反映样本的作用离散程度
2013-8-18 第五章抽样推断
推断总体
23
2.2 点估计
总体参数的点估计：
缺点：优点：原则：总体参数估计值就取统
1. 精确性—适当的极限误差范围；
2. 可靠性—估计结果正确的概率。
参数估计—点估计和区间估计。
2013-8-18 第五章抽样推断 16
2.2 点估计
点估计就是根据总体参数与样本统计量之间的内在联系，直接以样本统计量作为相应总体参数的估计值，点估计又称为定值估计。常用的点估计量有：
ˆ Xx
1.4 统计推断的误差
2. 抽样平均（标准）误差：
抽样平均误差是抽样平均数的标准差，
它反映样本平数（样本成数）与总体
平均数（总体成数）之间的平均差异程
度。
x
2013-8-18
X
n
p
P 1 P n
10
第五章抽样推断
1.4 统计推断的误差
总体标准差σ(X)和成数P的确定：
t
x X x X ~ t 2 n 1 分布 Sx n

t
2013-8-18
X : x ，x
第五章抽样推断

40
2.3 区间估计
【例 5-4】从某校学生中随机抽取25人，调查到他们平均每天
参加体育锻炼的时间为25分钟，

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1不满足正态近似条件，所以采用直接计算概率法。

H0：加维生素C的治愈率与不加相同，即π=π0=0.6
H1：加维生素C的治愈率高于不加维生素C，即π>π0
α=0.05
P(X≤8)=1-P(X≥9)=1-P(X=9)-P(X=10)=1-C109*0.69*0.41-C1010*0.610*0.40= 0.9536>0.05 不拒绝H0，差别无统计学意义，可以认为加维生素C的治愈率与不加相同。

2满足正态近似条件，采用正态近似法。

H0：经健康教育后的高血压患病率与以前相同，即π=π0=0.6
H1：经健康教育后的高血压患病率比以前降低，即π<π0
单侧α=0.05
u==4.9453536
u>u0.05,单侧=1.64
p<0.05，拒绝H0，接受H1，差别有统计学意义，可以认为经健康教育后的高血压患病率与以前有差别。

3①建立检验假设和确定检验水准
H0：男女大学生HBV感染对其心理影响相同，即π1 =π2
H1：男女大学生HBV感染对其心理影响不同，即π1≠π2
检验水准α=0.05
②计算检验统计量
χ2=（ad-bd）2*n/(a+b)(c+d)(a+c)(b+d)
=(250*213-246*320)/(250+320)(246+213)(250+246)(320+213)=9.651
ν=1
③确定p值
查χ2届值表，得p<0.05
④统计推断
按α=0.05水准，拒绝H O，接受H1，差别有统计学意义，可以认为HBV感染对不同性别的大学生在心理行为方面的影响不同。

4①建立检验假设和确定检验水准
H0：两组的治愈率相等，即π1 =π2
H1：两组的治愈率不等，即π1≠π2
检验水准α=0.05
P (i) = 0.280>0.05 ③统计推断
按α=0.05水准，不拒绝H 0，差别无统计学意义，尚不能认为两组治愈率有差别。

5①建立检验假设和确定检验水准
H 0：治疗三种类型病人的有效率相同，即π1 =π2 =π3 H 1：治疗三种类型病人的有效率不等或不全相等。

检验水准α=0.05 ②计算检验统计量 ()∑
∑⎪⎪⎭
⎫ ⎝⎛-=-=i
C R i
i i n n A n T T A 122
2
χ = 286*（712
+ 272
+1042
+ 422
+ 242
+182
-1）=3.6389
199*98 87*98 199*146 87*146 199*42 87*42 ③确定p 值
查χ2
界值表，得p>0.05 ④统计推断
按α=0.05水准，不拒绝H 0，拒绝H 1，差别无统计学意义，尚不能认为治疗三种类型病
人的有效率有差别。

6①建立检验假设和确定检验水准
H 0：该三种人群有相同的血型分布，即π1 =π2 =π3 H 1：该三种人群的血型分布不等或不全相等。

检验水准α=0.05 ②计算检验统计量 ()∑
∑⎪⎪⎭
⎫ ⎝⎛-=-=i
C R i
i i n n A n T T A 122
2
χ ＝ 9312*（6792
+1342
+ …… +4352
- 1）= 71.180
3720*1883 788*1883 546*6522 ③ 确定p 值
查χ2
界值表，得p<0.05 ④统计推断
按α=0.05水准，拒绝H 0，接受H 1，差别有统计学意义，可以认为三种人群的血型分布
不等或不全相等。

7①建立检验假设和确定检验水准
H 0：两种检验方法的结果相同，即总体B=C H 1：两种检验方法的结果不同，即总体B ≠C 检验水准α=0.05 ②计算检验统计量 ()c
b c b +--=
2
2
1χ＝1.1364
③ 确定p 值查χ2
界值表，得p>0.05 ④统计推断
按α=0.05水准，不拒绝H 0，差别无统计学意义，尚不能认为两种免疫学方法的阳性率
有差别。