卫生学 10.分类变量资料的统计推断
预防医学(二)第十七章 分类变量资料的统计 分析

第二节 分类变量资料的统计推断
• 一、率的抽样误差与标准误 • 由随机抽样造成的样本率和总体率的差异,以及各样本率 之间的差异称为率的抽样误差。 • 率的抽样误差可用率的标准误来表示 • 率的标准误的计算
• σp为率的标准率,π为总体率,n为样本含量
第二节 分类变量资料的统计推断
• 二、总体率的可信区间估计 • 方法:查表法、正态近似法 • 1.查表法 • 当样本含量较小(如n≤50),特别是p接近于0或1时,可根 据样本含量n和阳性数x,查相关统计学教材“百分率的可信区间” 表,求得总体率可信区间。
第三节 卡方检验(X2检验)
• 一、四格表资料的X2检验 • 2.假设检验步骤 • (1)建立检验假设,确定检验水准 • H0:π1=π2,即试验组与对照组的总体有效率相等。 • H1:π1≠π2,即试验组与对照组的总体有效率不等 • α=0.05(双侧检验) • (2)计算检验统计量
• A为实际频数 • T为理论频数
第三节 卡方检验(X2检验)
• 三、行✖列表资料的X2检验 • 例:某医院用3种方案治疗急性无黄疸型病毒性肝炎 254例, 观察结果见下表,问3种疗法的有效率是否不等。
• 检验假设具体步骤: • H0:3种治疗方案的有效率相等
第三节 卡方检验(X2检验)
• 三、行✖列表资料的X2检验 • 检验假设具体步骤: • H1:3种治疗方案的有效率不全等,α=0.05
第二节 分类变量资料的统计推断
• 四、率的u检验 • 2.计算检验统计量 • (2)两样本率比较的u检验
• 其中P1和P2为两样本率,Sp1-p2为两样本率之差的标准误, P含c量为两样本合并率,Pc=(X1+X2)/(n1+n2),n1和n2分别为两样本
第三节 分类变量资料的统计分析-统计推断

σp =
π (1 − π )
n
如果总体率π未知,用样本率 估计 如果总体率 未知,用样本率p估计 未知
sp =
p(1− p) n
19:46
率的标准误的计算
例 观察某医院产妇 106 人, 其中行剖腹产者 62 人, 剖腹产率为 58.5%,试估计剖腹产率的标准误。 ,试估计剖腹产率的标准误。 解: 已知 n=106,p=0.585,其标准误为: , ,其标准误为:
19:46
小 结
1.样本率也有抽样误差,率的抽样误差的大小用σp或Sp .样本率也有抽样误差,率的抽样误差的大小用 来衡量。 来衡量。 2.率的分布服从二项分布。当n足够大,π和1-π均不太小 .率的分布服从二项分布。 足够大, 和 均不太小 足够大 ,有nπ≥5和n(1-π)≥5时,近似正态分布。 和 ( ) 时 近似正态分布。 3. 总体率的可信区间是用样本率估计总体率的可能范围 . 分布近似正态分布时, 。当p分布近似正态分布时,可用正态近似法估计率的可信区 分布近似正态分布时 间。 4. 根据正态近似原理 , 可进行样本率与总体率以及两样 . 根据正态近似原理, 本率比较的u检验。 本率比较的 检验。 检验
19:46
T11= (a+b)×pc= (a+b)×[(a+c.)/ n]=R1C1/n =21.3 = × × T12 = (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =R1C2/n =182.7 × × T21 = (c+d)×pc= (c+d)×[(a+c)/ n] =R2C1/n =6.7 × × T22 = (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =R2C2/n =57.3 × × 行 row)合 ×列 column)合 ( 计 ( 计 nRnC T= = n 总 数 例
卫生统计学试题及答案

卫生统计学试题及答案【篇一:卫生统计学考试试题及答案(附解释)】xt>1.用某地6~16岁学生近视情况的调查资料制作统计图,以反映患者的年龄分布,可用图形种类为______.a.普通线图b.半对数线图c.直方图d.直条图e.复式直条图【答案】c(6——16岁为连续变量,得到的是连续变量的频数分布)直方图(适用于数值变量,连续性资料的频数表变量)直条图(适用于彼此独立的资料)2.为了反映某地区五年期间鼻咽癌死亡病例的年龄分布,可采用______.a.直方图b.普通线图c.半对数线图d.直条图e.复式直条图(一个检测指标,两个分组变量)【答案】e? 3.为了反映某地区2000~1974年男性肺癌年龄别死亡率的变化情况,可采用______.a.直方图b.普通线图(适用于随时间变化的连续性资料,用线段的升降表示某事物在时间上的发展变化趋势)c.半对数线图(适用于随时间变化的连续性资料,尤其比较数值相差悬殊的多组资料时采用,线段的升降用来表示某事物的发展速度)d.直条图e.复式直条图【答案】e4.调查某疫苗在儿童中接种后的预防效果,在某地全部1000名易感儿童中进行接种,经一定时间后从中随机抽取300名儿童做效果测定,得阳性人数228名。
若要研究该疫苗在该地儿童中的接种效果,则______.a.该研究的样本是1000名易感儿童b.该研究的样本是228名阳性儿童c.该研究的总体是300名易感儿童d.该研究的总体是1000名易感儿童e.该研究的总体是228名阳性儿童【答案】d5.若要通过样本作统计推断,样本应是__________.a.总体中典型的一部分b.总体中任一部分c.总体中随机抽取的一部分d.总体中选取的有意义的一部分e.总体中信息明确的一部分【答案】c6.下面关于均数的正确的说法是______.a.当样本含量增大时,均数也增大b.均数总大于中位数c.均数总大于标准差d.均数是所有观察值的平均值e.均数是最大和最小值的平均值【答案】d7.某地易感儿童注射乙肝疫苗后,从中随机抽取100名儿童测量其乙肝表面抗体滴度水平,欲描述其平均水平,宜采用______.a.均数b.几何均数c.中位数d.方差e.四分位数间距【答案】b几何均数(geometric mean)是用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,在医学研究中常适用于免疫学的指标。
医学统计学

医学统计学要求:章节出题量医学统计方法概述10数值变量资料的统计描述10数值变量资料的统计推断13分类变量资料的统计描述与推断13统计表与统计图 4合计50卫生统计1随机抽样的要点或实质是:A 每隔一定距离抽取一个个体B 对随机抽中的群体中的机会相同C 总体中每一个体被抽中的机会相同D 先把调查对象分类,再在各类对象中随机抽样E 以上都不是2、以舒张压>90mmHg为高血压,现调查1000人,其中10人为高血压,990人为非高血压,此资料为:A 数值变量资料B 二项分类资料C多项分类资料D有序分类变量资料E以上都不是3、根据研究分析的需要:A 数值变量资料可转化为分类变量资料B 分类变量资料可转化为数值变量资料C 有序分类变量资料可转化为数值变量资料D 三者都对E 以上都不对4 、实验设计的三个基本要素是:A受试对象、实验效应、观察指标B 随机化、重复、设置对照C齐同对比、均衡性、随机化D处理因素、受试对象、实验效应E 以上都不是5、实验设计的三大原则是:A受试对象、实验效应、观察指标B 对照原则、随机化原则、重复原则C齐同对比、均衡性、随机化D处理因素、受试对象、实验效应E 以上都不是6、完成良好的实验设计,不但能减少人力、物力,提高实验效率,还能有助于减少:A.系统误差B.随机误差C.抽样误差D.责任事故E 以上都不是7、用两种不同成分的培养基(分别为701批与702批)分别培养鼠疫杆菌,重复试验单元数为5个,将48小时内各试验单元上生长的活菌数记录如下:701批:48 84 90 123 171 702批:90 116 124 225 84那么该资料的类型为:A.二项分类变量资料B.数值变量资料C.多项分类变量资料D.有序分类变量资料E 以上都不是8、某医院用某种新疗法治疗某病患者41人,治疗结果见表2-3。
表2-3 某种新疗法治疗某病患者的疗效治疗结果治愈显效好转恶化死亡治疗人数8 23 6 3 1 该资料的类型为:A. 二项分类变量资料B.数值变量资料C.多项分类变量资料D.有序分类变量资料E 以上都不是9、反映实验效应的指标应具备以下条件:A.关联性B.客观性C.灵敏性D.以上都是E 以上都不是10、随机误差的性质是:A.可以消除B.不可以消除C.不可以消除但可控制D以上都是E 以上都不是11、标准差常用于衡量:A 样本与总体的差异B 两总体间差异C 两样本间差异D 个体差异大小E、以上匀不是12、已知100名2岁儿童,身高X=80cm,S=4cm,现有一个两岁儿童身高86cm,依据范围判断该儿童为正常:A x±1.96SB x±2.58 S xC x±1.96 S xD x±1.64SE、以上均不是13、有8名传染病病人,其潜伏期分别为2,2,3,4,7,5,17,8天,则平均潜伏期为:A 5.5 天B 5 天C 4.5天D 6天E、以上均不是14、S大表示各变量值A 平均水平高B 抽样误差大C 变量间相差水平大D 各变量相接近E、以上均不是15、血清学滴度资料一般应计算:A. xB. MC. GD. P XE. 以上均不是16、中位数适用于下列资料:A 偏态分布的资料B 有极大或极小值的资料C 分布不明的资料D 以上都是E.以上均不是17、要比较两个单位不同资料的变异大小,可选用_____变异指标A 四分位数间距B 极差C标准差D变异系数E. 以上都不是18、几何均数可适用于:A 资料中有正有负的资料B 资料中有0的资料C 资料中全部为正或全部为负的资料D 任何资料E. 以上都不是19、变异系数的数值:A.一定大于1B.一定小于1C.一定比标准差小D.一定比标准差大E.以上全不对20、医学中确定参考值范围时应注意:A.正态分布资料不能用均数标准差法B.正态分布资料不能用百分位数法C.偏态分布资料不能用均数标准差法D.偏态分布资料不能用百分位数法E.随意选择21、来自同一总体的两个样本中小的那个样本均数估计总体均数更可靠:A SBxC S2D CVE.以上全不对22、可信区间说明:A 个体变量的分布范围B 总体均数所在的范围C 标准差的可信程度D 平均数的可信程度E.以上全不对23、在假设检验中,P值的含义是:A 因抽样误差造成数据间差异至少大于如此程度的概率B H0正确的概率C H1正确的概率D 两组数据存在差异的概率E. 以上全不对24、用t检验比较两均数的差异时,t 越大,P越小,愈说明:A 两均数差别大B 样本含量大C 有理由认为两总体均数不同D 有理由认为两样本均数不同E.以上全不对25、某医生治疗黑热病贫血病人17例,测量了每例治疗前后血红蛋白的含量,欲了解治疗前后有无差别应选用A 两样本的t检验B χ2检验C u检验D 配对t检验E.以上全不对26、在t检验中,若05=α,当t<t(0.05,v)时,可认为:< bdsfid="233" p=""></t(0.05,v)时,可认为:<>A 两样本均数不同B 两总体均数不同C 两样本均数相同D 两总体均数相同E.以上全不对27、两个t检验资料,一个t>t0.05一个t>t0.01,可认为A 后者两样本均数相差比前者大B 前者两样本均数相差比后者大C 后者更有理由认为两总体均数不同D 后者更有理由认为两总体均数相同E.以上全不对28、某医师给一批高血压病人服用某降压药,观察服药前后的降压效果,其假设检验的公式为:A sxxtμ-=Bxxstx2121--=Cs ddt=D 以上都是E.以上全不对29、用样本推断总体均数的95%可信区间时,其上下限为:A x±2.58s xB x±t(0.05,ν)s xC x±1.96sD x±t(0.05,ν)sE.以上全不对30、统计推断的内容:A 参数估计B 假设检验C t 检验D 以上都不是 E. A 和B 都是31、抽样误差存在的原因是: A 抽样B 总体中存在个体差异C 样本含量太小D .A 和B 都是 E. 以上都不是32、缩小抽样误差的方法有: A 扩大样本含量 B 保证同总体同质C 以上都是D 以上都不是 E. 减少样本含量 33、x 与s x 的关系为: A x 越大,s x 越小 B x 越大,s x 越大 Cs x 越大,x 代表性越大D s x越小,x 推断μ的可靠性越大E.以上都是34、四个样本作比较,201.02χχ>,则认为:A 各总体率不同或不全相同B 各总体率均不相同C 各样本率不同或不全相同D 各样本率均不相同 E.以上都是35、哪种情况的资料,必须采用四格表的直接计算概率法:A n >40 而且 1<t<5< bdsfid="302" p=""></t<5<>B . n >40 而且 T>5C . n<40 或 T<1 D. N>40 而且 T>1 E. 以上都不是36、四组人群每组均有A 、AB 、B 、O 型四种血型的人数各若干,要比较四组人群血型情况有无差别,则作: A . t 检验B.χ2检验C. u 检验 D .方差分析 E. 以上全对37、哪种情况,宜采用四格表的校正公式:A . n >40 而且 1<t40 而且 T>5</tC .n<40 或 T<1D .N>40 而且 T<1 E.以上全对38、计算麻疹疫苗接种后血清检查阳转率,分母为:A 麻疹易感人数 B 麻疹患儿人数 C 麻疹疫苗接种人数D 麻疹疫苗接种后的阳转人数 E.以上全不对39、已知男性的钩虫感染率高于女性,现欲比较甲乙两地的钩虫感染率,但甲乡的人口女多于男,乙乡的人口男多于女,适当的比较方法为:A 不具可比性,不能比较B 两个率比较的χ2检验 C 对性别标准化后再比较 D 以上都不对 E 以上都对40、四格表周边合计数不变时,实际频数如有改变,理论频数:A 增大B 减少C 不变D 不知道E 以上都对41、χ2检验中自由度的计算公式是: A 行数×列数 B n-1 C n-kD (行数-1)×(列数-1)E 以上都对42、四格表中,当a =30,b =60,c =40,d =50时,最小理论频数等于: A 18011070? B 1809090?C 1809070?D 18090110?E 以上都对43、配对四格表作2检验时的检验假设为: A B=C B A=C C B=D D A=B E 以上都对44、行×列表中,χ2检验其适用的条件为:A 允许1/5以下的格子理论频数小于5B 允许1/5以上格子的理论频数小于5C 允许1/5格子的理论频数大于1小于5D 以上都对E 以上都不对45、配对四格表χ2检验中应用校正公式的条件为:A b+c ≥40 B b+c<40 C n ≥40D n<40E 以上都对46、要了解某地区鲜血人员的血型分布情况,应选用______指标描述 A 率 B 相对比 C 构成比 D 中位数 E 以上都对47、比较甲、乙、丙、丁四个单位的发病率可选用:A 线图B 直方图C 圆图D 直条图E 以上都对48、比较工厂外伤患病率用,比较甲乙两地各年份的肝炎发病率用A 直方图B 构成条图C 线图D 直条图E 以上都对49、比较某地10年间结核与白喉两病死亡率的下降速度,宜绘制:A 直方图B 直条图C 普通线图D 半对数线图E 以上都对50、在统计图中,图号与标题的位置:A.应在上方B.应在下方C.可在任意位置D.应在左侧E 以上都对答案:1C 2B 3D 4D 5B 6C 7B 8D 9D 10C 11D 12A 13C 14C 15C 16D 17D 18E 19E 20C 21B 22B 23A 24C 25D 26D 27C 28C 29B 30E 31D 32C 33D 34A 35C 36B 37A 38C 39C 40C 41D 42C 43A 44C 45B 46C 47D 48D C 49D 50B。
医学统计方法—分类变量资料的统计分析

常用类型: ➢率(rate) ➢构成比(constituent ratio) ➢相对比(relative ratio),等
概念:又称频率指标或强度指标,是指某一现象在一定条件 下实际发生的例数与可能发生该现象的总例数之比,用以说 明某现象发生的频率或强度。
2
91 1 4.90
bc
9 1
(3)确定P值:
查
x
2界
值表,来自得x 2 0.05,1
3.84
x2 0.01,1
6.63。
现 x2 =4.90,x2> x20.05, 故 P<0.05 (4) 做出推断结论:
按α=0.05水准,拒绝H0 ,接受H1,差异有统计学 意义,可以认为两种培养方法的效果不同, A培养基 效果优于B培养基。
计算相对数时应有足够的样本含量; 资料分析时不能以构成比代替率; 资料的对比应注意其可比性; 样本率(或构成比)的比较应考虑抽样误差。
表 某年某医院两种疗法治疗某传染病各型的治愈率(%)
病型
新疗法
传统疗法
治疗例数 治愈例数 治愈率 治疗例数 治愈例数 治愈率
普通型 350
重型
150
217
药物 甲药 乙药 合计
表1 两药物疗效的比较
有效
无效
合计
65 (57.4) 17(24.6)
82
40 (47.6) 28 (20.4)
68
105
45
150
表内蓝体数字为实际頻数,括号里数字为 理论頻数,是假设两药物疗效无差别算得
若假设H0:π1=π2成立,四个格子的实际频数 A 与理论 频数 T 相差不应该很大,即统计量x2值不应该很大。如 果x2值很大,则反过来推断A 与T 相差太大,超出了抽样 误差允许的范围,从而怀疑H0的正确性,继而拒绝H0, 接受其对立假设 H1,即π1≠π2 。
卫生统计学考研试题名词解释总结

卫生统计学考研试题名词解释总结1、typical survey:典型调查,典型调查就是在调查对象中有意识的选择若干具有典型意义或者代表的单位进行非全面调查。
2、箱式图(box plot):用于多组数据的直观比较分析。
一般选用5个描述统计量(最小值、P25、中位数、P75、最大值)来绘制。
3、二项分布(binorminal distribution):若一个随机变量X,它的可能取值是0,1,…,n,而且相应的取值概率为称此随机变量X服从n,π为参数的二项分布。
4、morbidity statistics:疾病统计,是居民健康统计的重要内容之一,它的任务是研究疾病在人群中发生、发展及其流行的规律,为病因学研究、疾病防治和评价疾病防治效果提供科学依据。
5、life expectancy:期望寿命,是指x岁尚存者预期平均尚能存活的年数,它是评价居民健康状况的主要指标。
6、life table:寿命表,又称为生命表,是根据特定人群的年龄组死亡率编制出来的一种统计表。
由于它是根据各年龄组死亡率计算出来的,因此,各项指标不受人口年龄构成的影响,不同人群的寿命表指杯具有良好的可比性。
7、预测(forecast):这是回归方程的重要应用方面。
所谓预测就是把预测因子(自变量X)代入回归方程,对预报量(应变量Y)进行估计,其波动范围可以按照个体Y值容许区间方法计算。
8、standard deviation:标准差,常用来描述数据离散趋势的统计指标,其能反映均数代表性的好坏,以及变量值与均数的平均离散程度。
9、cluster sampling:整群抽样,首先将总体按照某种与研究目的无关的分布特征(如地区范围、不同的团体、病历、格子等)划分为若干个“群”组,每个群包括若干观察单位;然后根据需要随机抽取其中部分“群”,并调查被抽中的各”群”中的全部观察单位。
这种抽样方法称为整群抽样。
10、precision:精密度,是指重复观察时,观察值与其均数的接近程度,其差值属于随机误差11、正交设计(orthogonal design):当实验涉及的因素在三个或三个以上,且因素间可能存在交互作用时,可用正交试验设计。
卫生统计学试题3含答案

《医学统计方法》试题三:1.两样本均数比较,经t检验,差异有显著性时,P越小,说明:CA.两样本均数差异越大B.两总体均数差异越大C.越有理由认为两总体均数不同D.越有理由认为两样本均数不同E•样本均数与总体均数不同2.某自然保护区狮子的平均密度为每平方公里100只,随机抽查其中一平方公里范围内狮子的数量,假设进行100次这样的抽查,其中的95次所得数据应在以下那个范围内。
(B 为加减,为什么?)BA •5-195B •-119.6C •90-110D •95-105E •-125.83.抽样研究中,S为定值,假设逐渐增大样本含量,则样本:AA .标准误减小B .标准误增大C.标准误不改变D.标准误的变化与样本含量无关E.以上都对4.以下关于统计表的要求,表达错误的选项是:EA.标题位于表的上方中央B.不宜有竖线及斜线C.备注不必列入表内D.线条要求三线式或四线式E.无数字时可以不填5.在统计学中,参数的含义是:DA •变量B.参与研究的数目C.研究样本的统计指标D•总体的统计指标E.与统计研究有关的变量6 .某次研究进行随机抽样,测量得到该市120名健康成年男子的血红蛋白数,则本次研究总体为:CA.所有成年男子B .该市所有成年男子C .该市所有健康成年男子D •120名该市成年男子E •120名该市健康成年男子7.医学统计的研究内容是EA.研究样本B.研究个体C.研究变量之间的相关关系D•研究总体E •研究资料或信息的收集.整理和分析8.总体应该由DA.研究对象组成B.研究变量组成C.研究目的而定D.同质个体组成E.个体组成9.在统计学中,参数的含义是DA .变量B.参与研究的数目C.研究样本的统计指标D•总体的统计指标E.与统计研究有关的变量10.调查某单位科研人员论文发表的情况,统计每人每年的论文发表数应属于AA .计数资料B .计量资料C .总体D .个体E・样本11.统计学中的小概率事件,下面说法正确的选项是:BA.反复多次观察,绝对不发生的事件B.在一次观察中,可以认为不会发生的事件C.发生概率小于的事件D.发生概率小于的事件E.发生概率小于的事件12、统计上所说的样本是指:DA、按照研究者要求抽取总体中有意义的部分B、随意抽取总体中任意部分C、有意识的抽取总体中有典型部分D、按照随机原则抽取总体中有代表性部分E、总体中的每一个个体13、以舒张压为高血压,测量1000人,结果有990名非高血压患者,有10名高血压患者,该资料属〔〕资料。
医学统计学分类变量资料的统计推断

率的标准误的意义
▪ 率的标准误小,说明抽样误差较小,表示 样本率与总体率越接近;
▪ 率的标准误大,说明抽样误差较大,表示 样本率与总体率相距较远。
▪ 有研究者在某地采用随机整群抽样法获得 642名青少年,调查其留守情况,得出留守 率为16.98%,求其留守率的标准误。
▪ 已知n=642,p=0.1698,则
单侧α= 0.05
本例,n=304,p=0.316,π0=0.2,则有
u=5.06>1.645,p<0.05,则拒绝H0,接受H1,老年 胃溃疡患者出血率高于一般胃溃疡患者。
案例
▪ 某地调查了50岁以上吸烟者200人中患慢 性支气管炎者41人,患病率为20.5%;不 吸烟者162人中患慢性支气管炎者15人, 患病率为9.3%。
案例
▪ 2003年,某学校欲了解大学生乙肝表面抗原 携带情况以评价防控措施,随机抽取1000名 大学生,做乙肝表面抗原检查,查得乙肝表 面抗原阳性者52人,乙肝表面抗原阳性率为 5.2%,欲用此率推断该校大学生乙肝表面抗 原总体阳性率。
例
▪ 某校大学生乙肝表面抗原总体阳性率的 95%的可信区间:
分类变量资料的 统计推断
二项分布
▪ 考虑一系列彼此独立的随机试验,每次试 验只有两个可能发生的结果,且每种结果 发生的可能性是一定的,即发生和不发生 的概率分别是:和1- ,那么这n次试验 中发生或者不发生的次数服从二项分布。 (没有“排列”的意义,而体现了“组合” 的意义)
只有两个可能发生的结果
▪ 问题
➢ 据以上资料能否下结论说吸烟者慢性支气管炎 患病率高于不吸烟者?
➢ 用什么方法对两个率进行比较?
吸烟组和不吸烟组慢性支气管炎患病率比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
查表法
p1.96sp
总体率99%的可信区间为:
正态近似法
p2.58sp
p1.96sp
例 试估计例10-6中结核菌素试验阳性 率的95%和99%的置信区间。 已知阳性率0. 3847,标准误为0.0116
( 0 .3 8 4 7 1 .9 6 0 .0 1 1 6 ) , ( 0 .3 8 4 7 1 .9 6 0 .0 1 1 6 ) 0 .3 6 2 0 ~ 0 .4 0 7 4
pc(1
pc)(n11
1 n2
)
0.08540.1486
0.0046
0.1258(10.1258)82107 145185
查t界值表中υ为∝对应的界值得, P< 0.01,按α=0.05水准,拒绝H0,接受H1, 可认为该人群HBV感染率有性别差异。
第三节 x2 检 验
卡方检验(Chi-square test )主要用于分 类资料的统计分析,研究的变量是分类变量, 而观察值以频数表示。
P (X) n!
X(1)(nX)
X !(nX)!
• 例10-5 已知①π=0.3,n=5; ②π=0.3, n=10; ③π=0.3,n=15; ④ π=0.5,n=10 。求阳性事件的概率并作概率分布图。
P (0 ) 5 ! 0 .3 0(1 0 .3 )(5 0 ) 0 .1 6 8 1 0 !(5 0 )!
卫生学 10.分 类变量资料的
统计推断
内容
• 率的抽样分布 • 率的抽样误差与标准误 • 总体率的置信区间估计 • 两个率比较的U检验 • X2检验
要求
掌握: •U检验适用条件 •x2检验的用途、四格表资料(配对资料)的x2检验应 用条件 •行×列表资料的x2检验及其注意事项; 熟悉: •U检验计算方法 •x2检验计算方法 了解: •率的抽样分布、x2分布
P (1 ) 5 ! 0 .3 1(1 0 .3 )(5 1 )0 .3 6 0 2 1 !(5 1 )!
P(2)=0.3087 P(3)=0.1323 P(4)=0.0283 P(5)=0.0024
• 二项分布的形状取决于π和n的大小,高 峰在m=np处。当p接近0.5时,图形是对 称的;p离0.5愈远,对称性愈差,但随着 n的增大,分布趋于对称。当n→∞时, 只要p不太靠近0或1,特别是当nP和n(1 -P)都大于5时,二项分布近似于正态分 布。
该方法可用于推断两个及多个总体率(或构 成比)之间有无差别、分类资料的关联度分 析以及频数分布的拟合优度检验等。
一 、x2 检验的基本思想 (chi-square test for fourfold data)
四格表x2检验的基本结构
发生数
未发生数
合计
A组
a
b
a+b
B组
c
d
c+d
合计
a+c
b+d
n
问该院直肠癌患者围术期并发症发生率与一般情况 有无差异。
H0:π= π0 H1:π≠ π0 α=0.05
P=0.26
u p0
0.300.26
1.713
0(10) 0.3(10.3)
n
385
查t界值表中υ为∝对应的界值,得P> 0.05,按α=0.05水准,不拒绝H0,尚不 能认为该院认为该院直肠癌患者围术期 并发症发生率与一般情况不同
率的抽样分布特征:
1、为离散型分布 2、π为0.5时,呈对称分布 3、当n不断增大时,二项分布逐渐逼近正
态分布 • 当nP和n(1-P)都大于5时,二项分布近
似于正态分布。
二、率的抽样误差和总体率的估计
一、率的抽样误差和标准误(sampling error and standard error of rate)
无差H异0:。π1= π2 H1:π1≠ π2 α=0.05
本例:n1=8207,X1=701,P1=0.0854 n2=14585,X2=2167,P2=0.1486
p cX n 1 1 n X 228 7 2 0 0 1 7 1 2 4 1 5 6 8 7 50 .1 2 5 8
u
p1 p2
X2检验的基本思想
例10-9 某医生欲比较甲、乙两种药物对动脉 粥样硬化的疗效,甲药治疗71例,有 效52例,乙药治疗42例,有效39例。 问两种药物的有效率是否有差别?
一、率的抽样分布
• 在医学领域中,有一些随机事件是只具有两种 互斥结果的离散型随机事件,称为二项分类变 量(dichotomous variable),如对病人治疗结 果的有效与无效,某种化验结果的阳性与阴性 ,接触某传染源的感染与未感染等。二项分布 (binomial distribution)就是对这类只具有两 种互斥结果的离散型随机事件的规律性进行描 述的一种概率分布。
二、两样本率的比较
1、正态近似法
n足够大,p或1-p均不太小(np和n(1-p)均 大于5)。
up1p2
p1p2
Sp1p2
pc(1pc)(n11n12)
pc
X1 n1
X2 n2
例10-8
为了解某地小学生蛔虫感染率的城乡差异,抽样调查 了该地小学生,其中城镇小学生8207人,粪检蛔虫卵 阳性数701人,蛔虫感染率为8.54%,乡村小学生 14585人,粪检蛔虫卵阳性数2167人,蛔虫感染率为 14.86%,试比较该地小学生蛔虫感染率城乡之间有
( 0 .3 8 4 7 2 .5 8 0 .0 1 1 6 ) , ( 0 .3 8 4 7 2 .5 8 0 .0 1 1 6 ) 0 .3 5 4 8 ~ 0 .4 1 4 6
四、两率比较的u检验
一、样本率与总体率的比较
u p0 p0
p
0(10)
n
例10-7 一般情况下,直肠癌围术期并发症发生率 为30%,现某医院手术治疗了385例直肠癌患者, 围术期出现并发症有100例,并发症发生率为26%,
p
(1)
n
sp
p(1 p) n
例
结核菌素试验阳性率,检测1773人结核菌 属阳性者682人,阳性率为38.47%,试计算标准 误。
p (1 p ) 0 .3 8 4 7 (1 0 .3 8 4 7 )
sp
n
0 .0 1 1 6 1 7 7 3
适用于小样本资料
三、总体率的估ran和计t足( 分 间en)(够(n布 表1≤-大pe参5)s,0均pt数)i或,大mπ1于查a置-pt5均i二信)o不n项区太of小(np