无序分类资料的统计推断

合集下载

《中医统计学》习题及答案

《中医统计学》习题及答案

《中医统计学》练习题第一部分绪论一、最佳选择题1.抽样研究是一种科学、高效的方法,目的是研究( B )A.样本B.总体C.抽样误差D.概率2.由样本推断总体,样本应该是( D )A.总体中的典型部分B.总体中有意义的部分C.总体中有价值的部分D.总体中有代表性的部分3.统计上所说的系统误差、过失误差、测量误差和抽样误差四种误差,在实际工作中( C )A.四种误差都不可避免B.过失误差和测量误差不可避免C.测量误差和抽样误差不可避免D.系统误差和抽样误差不可避免4.统计描述是指( C )A.比较指标的差别有无显著性B.估计参数C.用统计指标描述事物的特征D.判断无效假设是否成立5.统计推断是指( D )A.从总体推断样本特征B.从总体推断总体特征C.从样本推断样本特征D.从样本推断总体特征6.对某样品进行测量时,由于仪器事先未校正,造成测量结果普遍偏高,这种误差属于( A )A.系统误差B.随机测量误差C.抽样误差D.过失误差7.随机抽样的目的是( D )A.消除系统误差B.消除测量误差C.消除抽样误差D.减小样本偏性8.对某地200名16岁中学生口腔检查,发现患龋齿的人数为54人,该资料属于( B )A.数值变量资料B.无序分类变量资料C.有序分类变量资料D.三个都不是9.数值变量资料是( C )A.用仪器测量出来的资料B.按观察单位的类别,清点各类观察单位数的资料C.用定量方法测定观察单位某个变量的大小的资料D.按观察单位的等级,清点各等级观察单位数的资料10.无序分类变量资料是( B )A.用仪器测量出来的资料B.按观察单位的类别,清点各类观察单位数的资料C.用定量方法测定观察单位某个变量的大小的资料D.按观察单位的等级,清点各等级观察单位数的资料11.有序分类变量资料是( D )A.用仪器测量出来的资料B.按观察单位的类别,清点各类观察单位数的资料C.用定量方法测定观察单位某个变量的大小的资料D.按观察单位的等级,清点各等级观察单位数的资料12.下列哪种不属于数值变量资料( C )A.红细胞数B.血钙浓度C.阳性人数D.脉搏13.下列哪种属于有序分类变量资料( A )A.治疗痊愈、有效、无效人数B.各血型人数C.白细胞分类百分比D.贫血和不贫血人数二、判断题1.统计工作的主要内容是对资料进行统计分析。

医学统计学-名词解释-精心整理(带英文)(7)

医学统计学-名词解释-精心整理(带英文)(7)

1.总体(p o p u l a t i o n):根据研究目的确定的同质观察单位的全体。

2.样本(s a mp l e):3.抽样(s a mp l i n g):从总体中抽取部分观察样本的过程。

4.计量资料(m e a s u r e m e n t d a t a):又称定量资料或数值变量。

观测每个观察单位某项指标大小而获得的资料。

变量值是定量的。

一般有度量单位,可分为连续型或离散型。

5.计数资料(e n u m e r a t i o n d a t a):又称定性资料或无序分类变量资料,名义变量资料。

观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。

变量值是定性的,表现为互不兼容的属性或类别:●二分类:药物疗效:治愈未治愈;●多分类:人群血型分布,AB OA B互不兼容。

6.等级资料(r a n k e d d a t a):半定量资料或有序分类变量资料。

变量值具有半定量性质,表现为等级大小或属性程度。

7.同质(H o m o g e n e i t y):医学研究对象具有的某种共性。

8.变异(V a r i a t i o n):同质研究对象变量值之间的差异。

9.总体(P o p u l a t i o n):根据研究目的确定的所有同质的观察单位某项观测值的全体称为总体。

10.样本(S a m p l e):来自于总体的部分观察单位的观测值称为样本。

11.参数(P a r a m e t e r):由总体中全部观测值所计算出的反映总体特征的统计指标。

12.统计量(S t a t i s t i c):由样本观测值所计算出的反映样本特征的统计指标。

13.变量(V a r i a b l e):指观察单位的某项特征。

它能表现观察单位的变异性。

14.概率(P r o b a b i l i t y):是随机事件发生可能性大小,用P表示,其取值为[0,1]。

15.频率(F r e q u e n c y):在相同的条件下,独立地重复做n次试验,随机事件A出现m次,则比值m/n为随机事件A出现的频率。

SPSS 无序分类变量的统计推断 卡方检验

SPSS 无序分类变量的统计推断 卡方检验

5.分层卡方检验 6.SPSS 软件部分
6.1.‘统计量’子对话框界面说明
打开方式:点击工具栏‘分析’->‘描述’-》 ‘交叉表’ ,点击选项‘统计 量’ 。项。
‘卡方’复选框:进行卡方检验。
‘Kappa’复选框:计算 Kappa 值,即内部一致性系数。原假设 H0 是无一 致性;Kappa≥0.75 表明两者一致性较好,介于 0.4 至 0.75 表明一致性一般,小 于 0.4 表明两者一致性较差。 ‘风险’复选框:计算 OR 值(比数比)和 RR 值(相对危险度) ,这些指 标用于反映交叉表的行、列变量之间的关联强度。 ‘McNemar’复选框:进行 McNemar 检验,即常用的配对卡方检验。 ‘Cochran’s and Mantel-Haenszel 统计量’复选框:为两个二分类变量进 行分层卡方检验,即层间的独立性检验和同质性(齐性)检验,同时可进行分层 因素的调整。
4.一致性检验与配对卡方检验
你得首先理解配对设计,这里略。
4.1.Kappa 一致性检验
Pearson 卡方检验并不适用于配对设计的数据, 它无法明确说明结果的一致 程度。 更准确地说, Pearson 卡方只能告诉用户两种测量结果之间是否存在关联, 但不能判断其是否具有一致性。
4.2.配对卡方检验
3.1.相对危险度
RR 值是一个概率的壁纸,是指实验组人群反应阳性概率与对照组人群反应 阳性概率的壁纸。RR=1,表明实验因子与反应阳性无关联。
3.2.优势比
OR 值是一个比值的比,是反应阳性人群中实验因素有无的比例与反应阴性 人群中实验因素有无的比例之比。OR=1,表明实验因素与反应阳性无关联。 由于优势比是两个比值的比值,因此它不太好解释,而解释相对危险度则要 容易得多, 因此在大多数情况下人们希望能够按照相对危险度的含义来解释优势 比。 当所关注的事件发生概率比较小时(<0.1), 优势比可作为相对危险度的近似。

常见的几种统计方法分解

常见的几种统计方法分解

2检验的适用资料
两组样本率的比较;
多组样本率的比较;
两组或多组构成比的比较;
配对设计下两分类资料检验。
一、四格表资料的检验

四格表资料的检验主要用于两个样本 率(或构成比)的假设检验,一般制 成表 6-2 的计算格式(以阳性和阴性 为例)。
表6-2
四格表资料检验计算表
组 别 甲 组
阳性数
阴性数
(二)收集资料

(二)资料要求 1.完整:观察单位及观察项目完整。 观察单位:最基本的获取数据的单元。可以是一 个体,亦可以是一个单位、家庭、地区,一批样品, 一个采样点。 2.准确:即真实、可靠。真实是统计学的灵魂。 3.及时:即时限性。如人口普查规定调查开始日期 和截止日期。
(三)整理资料
整理资料即原始数据的条理化、 系统化的过程。所采取的手段→合 理化分组,目的→实现专业目标。 质分组:按事物的属性或性质分组 →分类变量; 量分组:按数据的大小→数值变量。
伪造统计数据违反科学道德
1976年New Science 杂志关于科研舞弊 行为的调查
(1)74%的调查表反映有不正当修改数据 的情况 (2)17%拼凑实验结果 (3)7%凭空捏造数据 (4)2%故意曲解结果
二、统计工作的基本步骤
设计 收集资料 整理资料 分析资料

(一)设计
1.专业设计:选题、建立假说、确定 研究对象 设类型、
60 年代到 80年代,国外医学杂志调查表明: 20%~72%的论文有 统计错误。 1984 年对《中华医学杂志》、《中华内科杂志》、《中华外科 杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查 结果为: 相对数误用占 11.2%,抽样方法误用占 15.9%,统计图表误用占 11.7% 1996年对4586篇论文统计(中华医学会系列杂志占 6.9%),数 据分析方法误用达55.7%。 2001年《中华预防医学杂志》:中华医学会系列杂志误用约54% (1995)。

第三节 分类变量资料的统计分析-统计推断

第三节 分类变量资料的统计分析-统计推断

σp =
π (1 − π )
n
如果总体率π未知,用样本率 估计 如果总体率 未知,用样本率p估计 未知
sp =
p(1− p) n
19:46
率的标准误的计算
例 观察某医院产妇 106 人, 其中行剖腹产者 62 人, 剖腹产率为 58.5%,试估计剖腹产率的标准误。 ,试估计剖腹产率的标准误。 解: 已知 n=106,p=0.585,其标准误为: , ,其标准误为:
19:46
小 结
1.样本率也有抽样误差,率的抽样误差的大小用σp或Sp .样本率也有抽样误差,率的抽样误差的大小用 来衡量。 来衡量。 2.率的分布服从二项分布。当n足够大,π和1-π均不太小 .率的分布服从二项分布。 足够大, 和 均不太小 足够大 ,有nπ≥5和n(1-π)≥5时,近似正态分布。 和 ( ) 时 近似正态分布。 3. 总体率的可信区间是用样本率估计总体率的可能范围 . 分布近似正态分布时, 。当p分布近似正态分布时,可用正态近似法估计率的可信区 分布近似正态分布时 间。 4. 根据正态近似原理 , 可进行样本率与总体率以及两样 . 根据正态近似原理, 本率比较的u检验。 本率比较的 检验。 检验
19:46
T11= (a+b)×pc= (a+b)×[(a+c.)/ n]=R1C1/n =21.3 = × × T12 = (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =R1C2/n =182.7 × × T21 = (c+d)×pc= (c+d)×[(a+c)/ n] =R2C1/n =6.7 × × T22 = (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =R2C2/n =57.3 × × 行 row)合 ×列 column)合 ( 计 ( 计 nRnC T= = n 总 数 例

实验三 分类资料的统计描述与统计推断

实验三  分类资料的统计描述与统计推断

实验三分类资料的统计描述与统计推断一、下表为一抽样研究资料,试:(1)填补空白处数据;(2)根据最后三栏结果作简要分析。

(3)试估计该地死亡率、0~恶性肿瘤死亡率的置信区间。

某地各年龄组恶性肿瘤死亡情况出高血压病人775人,试估计该市中年男性高血压患病率的95%置信区间。

三、一般而言,对某疾病采用常规治疗,其治愈率约为45%。

现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。

问新治疗方法是否比常规疗法的效果好?四、一般人群先天性心脏病的发病率为千分之八,某研究者为探讨母亲吸烟是否会增大其小孩的先天性心脏病的发病危险,对一群20~25岁有吸烟嗜好的孕妇进行了生育观察,在她们生育的120名小孩中,经筛查有4人患了先天性心脏病。

请作统计分析。

五、某院康复科用共鸣火花治疗癔症患者56例,有效者42例;心理辅导法治疗癔症患者40例,有效者21例。

问两种疗法治疗癔症的有效率有无差别?六、用兰芩口服液治疗慢性咽炎患者34例,有效者31例;用银黄口服液治疗慢性咽炎患者26例,有效者18例。

问两药治疗慢性咽炎的有效率有无差别?七、用甲乙两种方法检查已确诊的乳腺癌患者120名。

甲法的检出率为60%,乙法的检出率为50%,甲乙两法一致的检出率为35%,问甲、乙两法的检出率有无差别?八、某研究者将腰椎间盘突出症患者1184例,随机分为三组,分别用快速牵引法、物理疗法和骶裂孔药物注射法治疗,结果如下表。

问三种疗法的有效率有无不同?三种疗法治疗腰椎间盘突出有效率的比较疗法有效无效合计快速牵引法444 30 474物理疗法323 91 414骶裂孔药物注射法222 74 296合计989 195 1184九、思考题:1、常用的相对数有哪些?应用相对数时应注意的事项?2、率的标准误与率的抽样误差3、简述二项分布、Poisson分布和正态分布的区别与联系。

4、总体率的区间估计方法5、2x卡方检验的用途与基本思想6、行⨯列表资料2x检验的注意事项7、普通四格表资料2x检验的应用条件及其表格、检验公式、步骤等8、配对四格表资料2x检验的应用条件及其表格、检验公式、步骤等χ检验有何异同?9、两样本率比较的z检验与210、对于四格表资料,如何正确选用检验方法?11、资料的对比应注意其可比性,可比性指的是什么?试举两例说明。

统计软件spss操作3_常用假设检验与相关分析

统计软件spss操作3_常用假设检验与相关分析


例:
二、连续变量的统计推断:t-检验

例: 以张文彤《SPSS统计分析基础教程》261页 案例数据做配对检验。(文件:配对样本t检 验(治疗前后舒张压拘束比较:张文彤261页 案例).sps)
二、连续变量的统计推断:t-检验

结果解读: 输出结果中”均值“”标准差“”标准误“和” 可信区间“等都是针对配对差值的统计量。由 结果可见,差值均值为10,相应的 P=0.027>0.025,故可以认为该药物对血压治 疗有影响。由于治疗前-治疗后的差值均值为 正,故可推断是使得病人血压下降。

例5:在轿车拥有率案例中,控制城市影响条 件下,更准确研究收入与轿车拥有率的关系。
三、无序分类变量的统计推断:卡方检验

五)分层卡方检验 (控制某些分类因素) 操作: “分析”—“描述统计”—“交叉表” (“层”框中选入城市变量S0) (“统计量”选中“风险”、 “Cochran‟s…”)
三、无序分类变量的统计推断:卡方检验



功能:比较两个总体样本的均值是否相等。实际功 能可以理解为判断是一个总体的样本还是两个总体 的样本,又称为成组设计两样本均数比较。(通常 数据中有一个变量显示分组情况) 也有前面说的两种情况,SPSS只做一种。 操作:“分析”—“比较均值”—“独立样本 t 检验”

例:
比较“均值比较”数据中男女生“自信心”的均值 是否有差异。(即,是同属于一个总体还是分属两 个不同总体)
用p-p图检验CCSS的年龄S3是否符合正态分布。
“分析”—“描述统计”—“p-p图”
一、分布类型检验

三)用p-p图直观数据分布形状 例3:
用茎叶图比较index和S3分布形状。

分类资料的统计描述

分类资料的统计描述
某市1977~1979年肺癌死亡率,城区为19.39/10万,郊区 为9.99/10万,求城区与郊区的肺癌死亡比。
结果:城区肺癌死亡率为郊区的194.1%或1.94倍
三、应用相对数时的注意事项 1.计算相对数时,分母不宜过少
如:用某药治疗某病患者,5例中有3例治愈,计算治愈率为 3/5×100%=60.0%,如果有4例治愈,则其治愈率为80%。显然,这个结果 是不稳定的。 在分母例数很少的情况下,个别的偶然因素会导致结果的变化,只有分 母例数较大时,计算的相对数才比较稳定。在例数较少时,通常直接用绝对 数表示。如果要用相对数表示,则需列出其总体率的臵信区间。 又如:某医生用组织埋藏法治疗了2例视网膜炎患者,1例有效, 即报道有效率为50%。这显然是不可靠的,不能正确反映事实真相。
例: 某地2003-2005年不同性别新生儿数见下表,
试计算该地不同年份新生儿性别比。
表 表11-5 3-5 年 份 2003 2004 2005 某地 2003-2005 年新生儿性别比 新生儿数 90919 109671 125513 男性 48636 58908 66814 女性 42283 50763 58699 性别比
3.关于“死亡率”与“病死率”
这是 2 个不同含义的指标, 在进行人群研究时, 它们的 分子可能相同, 但分母不同。死亡率的分母是同期人口数, 是观察人群中某病的死亡频率, 反映了观察人口因某病的死 亡水平, 是一个人口学指标, 一般以 10 万分率表示; 而病 死率的分母是患某病的患者总数, 是某病患者中因该病而死
下面各率中那个率最能反映疾病对人群的威胁程度
发病率 n年生存率 生存率
患病率
治愈率 有效率 死亡率 病死率
?
感染率
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

85
28.75 15.29
36
129
165
21.82
23 57 13 72
ab cd
[ 案例分析 ]
✓ 资料类型:四格表资料(定性资料) ✓ 设计类型:两样本率的比较,目的是推
断两样本所来自的总体率是否相等,即 π1= π2 。 ✓ 分析方法:两样本率比较χ2检验
一、χ2检验的基本思想
1、 实际频数(actual frequency)。 2、 两个样本率不相同的原因有两种可能:
步骤: 建立假设,确定检验水准
计算检验统计量
P≤α
确定p值 作推断结论
P>α
拒绝H0,接受H1
不拒绝H0
公式 实际频数
理论频数
2 (AT)2(T5)
T
校正 2 公 (A 式 T T 0.5 )2(T5 )
根据某地区的血型普查结果可知,该地区 人群中血型为O 的占30%,血型为A 的占 25%,血型为B 的占35%,血型为AB 的 占10%。研究者在邻近该地区的一个山区 人群中进行一个血型的流行病调查,在该 山区人群中随机抽样调查了200 人,检测 这些对象的血型,问该山区人群与这个地 区人群的血型分布是否一致?
一种是抽样误差所致;另一种是总体率确 有所不同。 3、 通过假设检验对两种原因进行判断:为 了判别这两种情况,先作出“无效假设”, 即假设这两个率相同,差别仅是抽样误差 所致。
性别 男生 女生 合计
表 1 某山区小学男生和女生的肺吸虫感染率
感染人数
未感染人数
合计
感染率(%)
23(17.45) 57(62.55)
1
.057
1
.036
.040
.028
1
.037
N of Valid Cases
165
a. Comput ed only for a 2x2 t able
例1 在某山区小学随机抽取男生80人,其 中肺吸虫感染23人;随机抽取女生85人, 其中肺吸虫感染13人。问该山区小学男生 和女生的肺吸虫感染率有无差别?
性别 男生 女生 合计
表 1 某山区小学男生和女生的肺吸虫感染率
感染人数
未感染人数
合计
感染率(%)
23(17.45) 57(62.55)
80
13(18.55) 72(66.45)
Likelihoo d Ratio
4.411
Fisher's Exact Test
Lin e ar-b y-Lin e ar Associat ion
4.348
Asymp. Sig. Exact Sig. Exact Sig.
df
(2 -sided) (2 -sided) (1 -sided)
1
.036
适用条件;配对四格表检验的基本公式及各公 式的适用条件;掌握四格表的确切概率法的适 用条件。
一、χ2分布(chi-square distribution)
χ2分布是一种连续型随机变量的概率分布 如果Z服从标准正态分布,那么Z2服从自由
度为1的χ2分布 设有k个相互独立的标准正态分布随机变量
Z1,Z2,……Zν ,Z12+Z22 + ……+ Zν 2服 从自由度为ν的χ2分布
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
f(2)2(1/2)22(/21)e2/2
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18
卡方值
二、拟和优度检验
概念:根据样本的频率分布检验其 总体分布是否等于某给定的理论分 布或检验一个因素多项分类的实际 观察数与某理论频数是否有差别。
无序分类资料的统计分析
【教学内容】
第一节 χ2 分布和拟合优度检验 第二节 四格表资料的χ2检验
第三节 行×列表资料的χ2检验
【教学目的和要求】
✓ ①了解四格表的概念及四格表中4个基本数据的 含义;了解配对四格表的概念以及配对四格表 与一般四格表在设计上的不同。
✓ ②熟悉χ2检验的基本思想。 ✓ ③掌握四格表资料χ2检验的基本公式及各公式的
对例1用四格表专用公式计算。
式中a,b,c,d分别为四格表的四个实际数,总 例数n= a+b+c+d。
表 2 某山区小学男生和女生的肺吸虫感染率
性别
感染人数
未感染人数
合计
男生 女生
23(a) 13(c)
57(b) 72(d)
80(a+b) 85(c+d)
合计
36(a+c)
129(b+d)
165(n)
80
13(18.55) 72(66.45)
85
28.75 15.29
36
129
165
21.82
23 57 13 72
ab cd
图2 x2分布的临界值示意图
二、四格表资料的χ2检验的基本步骤
H0: π1=π2 H1: π1≠π2 α=0.05
n=165>40,最小理论值为T11=(80×36)/165=17.45>5
根据专用公式求χ2值
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
(23 72 5713)2 165 80 85 36129
4.37
结果与基本公式相同
[ 电脑实验 ]
例1 数 据 录 入
SPSS运算过程
此步骤的目的是 对频数进行加权
SPSS运算过程
SPSS结果输出
1.建立检验假设,确定检验水准
H0 :该山区人群与这个地区人群的血型分布是一致的 H1 :该山区人群与这个地区人群的血型分布不一致 α=0.05
2.求出H0为真时各组的理论频数
3.计算χ2统计量及自由度 ν=4-1=3
表8 Χ2界值表(部分)
第二节 四格表资料的χ2检验
[ 典型案例 ]
2 (AT)2 T
(2317 .45 )2(5762 .55 )2(1318 .55 )2(7266 .45 )2
17 .45
62 .55
18 .55
66 .45
4.38
表10 Χ2界值表(部分)
υ=1,查附表10,χ2界值表得:P<0.05。按 α=0.05水准拒绝H0,接受H1,可认为该山区 小学男生和女生的肺吸虫感染率不等,男生 高于女生。
性 别 * 感 染 状 况 Crosst abu lat io n
Co unt
性别 1 2
T otal
感 染状 况
1
2
23
57
13
Байду номын сангаас
72
36
12 9
T otal 80 85
16 5
Ch i-Sq uare Tests
V alu e Pearson Chi-Square 4.374b Cont inuity Correcation 3.621
相关文档
最新文档