9-定性资料的统计分析2-PPT文档资料
合集下载
第五讲 定性资料的统计分析

表1 两种检验方法结果比较
常规培养法 荧光抗体法
+ 160 5 165
26 48 74
合计 186 53 239
+ 合计
2. 某地调查了1995-1998四个年度中小学女生的贫血状 某地调查了 四个年度中小学女生的贫血状 见下表,问各年度间学生贫血率有无差别 况,见下表 问各年度间学生贫血率有无差别 见下表 问各年度间学生贫血率有无差别?
连续性校正公式: 连续性校正公式:
χ =∑
2 c
2
( A−T − 0.5) T
n 2 2
2
(| ad - bc | - ) n χc = (a +b)(c+ d )(a + c)(b+ d )
行×列表资料卡方检验
可用于检验多个样本率或构成比以推断多个总 可用于检验多个样本率或构成比以推断多个总 多个样本率 体率或构成比是否相等。 体率或构成比是否相等。
2
行×列表资料的 χ 检验
2
四格表资料卡方检验
进行比较, 一定是两组进行比较,实验结果是两个对 立的结果。 四格表资料表格
_____________________________________ + 合计 _____________________________________ a b a+b 第一组 c d c+d _____________________________ a+b b+d a+b+c+d 合计 ______________________________________ 第二组
表2 某地各年度学生贫血检出率的比较(%) 某地各年度学生贫血检出率的比较 贫血人数 279 271 367 784 1701 正常人数 4702 2089 2161 4199 13151
常规培养法 荧光抗体法
+ 160 5 165
26 48 74
合计 186 53 239
+ 合计
2. 某地调查了1995-1998四个年度中小学女生的贫血状 某地调查了 四个年度中小学女生的贫血状 见下表,问各年度间学生贫血率有无差别 况,见下表 问各年度间学生贫血率有无差别 见下表 问各年度间学生贫血率有无差别?
连续性校正公式: 连续性校正公式:
χ =∑
2 c
2
( A−T − 0.5) T
n 2 2
2
(| ad - bc | - ) n χc = (a +b)(c+ d )(a + c)(b+ d )
行×列表资料卡方检验
可用于检验多个样本率或构成比以推断多个总 可用于检验多个样本率或构成比以推断多个总 多个样本率 体率或构成比是否相等。 体率或构成比是否相等。
2
行×列表资料的 χ 检验
2
四格表资料卡方检验
进行比较, 一定是两组进行比较,实验结果是两个对 立的结果。 四格表资料表格
_____________________________________ + 合计 _____________________________________ a b a+b 第一组 c d c+d _____________________________ a+b b+d a+b+c+d 合计 ______________________________________ 第二组
表2 某地各年度学生贫血检出率的比较(%) 某地各年度学生贫血检出率的比较 贫血人数 279 271 367 784 1701 正常人数 4702 2089 2161 4199 13151
定性资料分析和定量资料分析

离散趋势分析(dispersion tendency analysis):用一个特别的数值来反映一组 数据相互之间的离散程度。
中文系 78 79 80 81 82 平均分80 数学系 65 72 80 88 95 平均分80 英语系35 78 89 98 100 平均分80
2
S (xi X )
4、阐释模式(elaboration model):所关心 的是两个变量之间的关系,是一种通过引 进并控制第三变量,来进一步了解和探讨 原来两变量之间关系性质的统计分析方法。 三种类型:因果分析、阐明分析、条件分 析。
复相关分析(multiple correlation analysis):以一个统计值来简化多个自变 量与一个因变量之间关系的统计分析方法。
第九章 定量资料分析和定性资 料分析
一、定量资料
1.资料审核(data auditing):研究者对所收 集的原始资料/问卷进行初步的审阅、校对, 剔除乱填、空白和严重缺答的废卷,使得 原始资料具有较好的准确性、完整性和真 实性。
两方面的内容:一是检查出问卷资料中的 问题,二是重新向被调查者核实。
A3你的文化程度:小学 √ 初中 高中 大学 1
3、单变量统计分析:
a.描述统计:帮助简化资料的方法,包括集 中趋势分析和离散趋势分析
集中趋势分析(central tendency analysis): 用一个典型值或代表值来反映一பைடு நூலகம்数据的 一般水平,或者说反映这组数据向这个典
型X 值 集n中x 的情况X。平均xff数:nxf
定量资料分析方法与定性资料分析方法的 区别:1.分析程序与技术的标准化程度不同; 2.资料分析的开始点不同,后者贯穿研究的 过程,前者是一个特定阶段;3.与社会理论 的关系上不同,前者多用于检验理论或假 设,后者多用于建构理论;4.分析的方式和 所用的工具不同。
9-定性资料的统计分析(1)

二、配对四格表的确切概率法
在配对四格表资料中,当b+c≤20时,因配 对四格表2检验近似程度较差,易导致分析 的偏性。此时,同样需要用确切概率法来 计算。 方法与四格表确切概率法有区别,利用二 项分布原理。
例、用两种检验方法对某食品作沙门氏菌 检验,结果如下表,试用配对四格表的确 切概率法比较两种方法的阳性结果是否有 差别。
0 .0 0 2 0 5 6
0 .0 0 0 0 7 1
本例|A-T|等于1.9655。
H 0: 大 脑 两 半 球 恶 性 肿 瘤 所 占 比 例 相 等 ; H 1: 大 脑 两 半 球 恶 性 肿 瘤 所 占 比 例 不 等 。 = 0 .0 5
计 算 大 于 等 于 现 有 差 别 的 所 有 组 合 的 概 率 P:
长期来,对理论频数太小有三种处理办法:
1、最好增加样本例数以增大理论频数; 2、删去上述理论频数太小的行或列; 3、将太小理论频数所在行或列的实际频数与性 质相近的邻行或邻列的频数合并,使重新计算 的理论频数增大。
一般认为,后两种方法可能会损失信息, 也会损害样本的随机性,故不作为常规方 法。
部位 左半球 右半球 合计 良性 1 3 ( 1 1 .0 3 4 5 ) 7 ( 8 .9 6 5 5 ) 20 恶性 3 ( 4 .9 6 5 5 ) 6 ( 4 .0 3 4 5 ) 9 合计 16 13 29 恶 性 肿 瘤 占 百 分 比 (% ) 1 8 .7 5 4 6 .1 5
每个格子的|A-T|均等于1.9655
X
n1
n2
双 侧 u 0 .0 1 = 2 .5 8 , u > u 0 .0 1 , P < 0 .0 1 , 故 按 = 0 .0 5 水 准 拒 绝 H 0 , 接 受 H 1, 差 异 有 统 计 学 意 义 , 可 认 为 工 艺 改 革前后车间空气中粉尘浓度有差别,改革后粉尘浓度降低。
第十二章 定性资料分析

“革命时期乡村社会动员” 概念
• 土改前的土地分配状况
• 皇权不下县、乡约制、区乡制、权力下沉、工作组 、 积极分子、组织的纯化、乡村内部组织的健全、乡村 与国家间权力联系渠道的健全
• 恶的苦、救苦、差异的制造、分类体系、凝视与认同、 时间叙事、苦和分类的延伸 • 等等等等。 • 通过上述概念或主题,把收集到的资料进行分类
• 例证是研究者自己选择的,读者并不掌 握研究者拥有的全部例证,因此例证是 否有力是个问题。。 • 有时候一些例证,可以成为不同于研究 者得出其他不同解释的基础。
第三节 定性资料的整理
一、整理笔记不建立档案
• • 整理笔记的内容
– 将资料分类、建档、编码。
通常先将笔记输入计算机,再整理
– 完全按照笔记本上的内容和文字录入
– 收集或整理资料中,随时记,特别是记下有价值的想法,真 正做到“备忘的记录”; – 反复比较写好的备忘录; – 为每个概念或主题做专门的备忘录; – 在做专门备忘录的同时,注意思考它和其他概念或主题间的 相似性、差异性及因果性; – 与资料记录分开写,资料记录是证据,备忘录服务于提炼概 念和建构理论的目的。
治话语能够塑造农民的政治认同,权力组织联系结构则是将农
民新的政治认知转化为行动且行动具有持续性的结构性支持因 素。
• 2.说明事件的顺序,或一种社会过程的阶段 性特征。 如社会动员的过程: 分地(物质刺激)、诉苦(政治认同)、 权力网络建设(组织保证) • 3.定性分析要做到经验事实和明确的概念或 理论相联系。
三、推断因果联系的问题
• 定量研究中,调查对象较多,定量资料能够呈现变量间的 关系 • 实地研究只研究一个具体的个案,得到的资料难用于推断 变量间的关系,而倾向于提出某种可能关系并进行解释。
医学统计学定性资料的统计分析-χ2检验

29 41
48.28 39.02
H0:1=2; H1:12; =0.05。 本例a格的理论频数最小,T11=1216/41=4.68<5, n>40,故考虑用校正公式计算2 值。
2 C
( 2 15 1014 41/ 2) 12 2916 25
2
41
2 2.36 0.05,1 3.84
(二)2检验的基本思想
例4-6-1 据临床研究,一般的胃溃疡病患者有25%会出现胃出 血症状。某医院观察了300例65岁的胃溃疡病患者,其中有99例 发生胃出血,占33.0%,问老年患者是否较一般患者易出血? 表中基本数据是a,b,c,d,其余数 据都是从这四个基本数据推算出 表4-6-1 131例胃癌患者治疗后5年存活率的比较 来的,这种资料称为四格表资料。 存活率(%) 存活数 死亡数 合计治疗数
(即多个率或构成比的比较)
上述两个样本率比较的资料,其基本数据只 有2行2列,称为2 ×2表或四格表资料。当基 本数据超过2行或2列的资料,就称为行×列 表或 R × C表资料。行×列表资料的2检验 主要用于多个样本率或多个构成比之间的比 较。
2 值的计算可按前述基本公式( 2 =∑(A-
2
计算统计量Z :
z
0.33 0.25
0.25 (1 0.25) / 300
3.20
. 确定P 值和判断结果:
Z0.01=2.326,得P<0.01,按=0.05水 准拒绝H0,接受H1。 认为老年胃溃疡病患者的胃出血率大于 20%,即老年患者较一般患者易出血.
(二)两样本率的比较
3.确定P 和判断结果:=(2-1)×(2-1)= 1;查2界 值表,20.05=3.84, 所以P>0.05,按=0.05水准不拒绝H0,差别无统计 学意义。故尚不能认为单纯手术疗法与联合疗法对胃 癌患者治疗效果有差别。
定性资料的统计描述

同年内死亡人数 粗死亡率= 1000 0 00 当年平均人口数 1年
强度型指标(近似)
同年<1周岁死亡人数 婴儿死亡率= 1000 0 00 当年活产儿总数
频率型指标近似
同年孕产妇死亡数 孕产妇死亡率= 10万/10万 当年活产儿总数
相对比型指标
统计图表
人口统计指标
例:某医生治疗了4例支气管哮喘病患者, 其中3例有效,即报告有效率为75。
请问该说法是否正确?
某医院统计1985-1990年儿科住院病人疾病种类分 布情况见表:
表 某医院儿科住院病人疾病种类分布情况 疾病种类 先天性心脏病 病人数 250 % 23.8
风湿性心脏病
其它
750
2. 人时资料的描述—强度
流行病学随访研究中,不同个体被观察的时间长度各 不相同,常用人时总和表示被观察的人和时间的总和。 “强度”是流行病学、统计学术语。 ——单位时间内(如年、月、日等)某事件发 生的频率。
某事件发生的个体数 强度型指标 K ( 可能发生某事件的个体 数 时间)
强度型指标通常是指一段时间内的平均概率。如人 时发病率的分子是新发生的事件数,分母是人时 数(观察人数乘以时间)的总和,多用于大人群 长时间随访的资料。
常用的相对数指标大致有三种类型:
频率(relative frequency or proportion)
强度(intensity or rate) 相对比(relative ratio)
主要内容
1. 分类资料的描述—频率和频率分布
2. 人时资料的描述—强度
3. 复合指标—相对比 4. 相对数应用中需注意的问题
新发病例数 人时发病率 观察的人时总数 新发病例数 (折合的观察人数 ( )单 位 时 间 的 个 数 ) 院的院内感染调查中,5031名病 人共观察了127859人日(例均25.4日),其中 有596人在医院发生感染,请计算院内感染率。
资料分析方法
与理论关系
操作代表经验事实的数字,检验带有变量建构的抽象假设
通过将经验证据与抽象概念融合在一起,建立新概念理论,不检验假设,只是说明或描述证据,表明某个理论的可靠性。
与生活距离
通过统计、假设与变量来实现,假设社会生活可以用数字来测量,统计定律操作数字,显示社会生活的某些特征。
资料多是以文字形式来呈现,通常不精确、甚至是基于特定情境,而且可能还包含一种以上的意义。
“过去,很少有定性研究者会解释他们是如何分析资料的。事实上,对定性研究常见的批评正是没有清楚说明资料分析的方式、无法接受公开检验。定性资料分析已经逐渐成为一种更为明确、讲求逐步进程的系统化方法。不过,目前仍没有哪一种定性资料分析程序被普遍地接受”(纽曼2008:557)。
资料的审核
资料审核是指对所收集到的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。(风笑天2009:287)
主轴编码
01
研究者一步步地组织想法或主题,并确定出分析时关键概念的主轴。
04
研究者从一组已被组织过的初步编码或初始概念入手。
02
研究者比较重视已经过初步编码的主题,而非资料本身。
03
“在主线编码时,研究者询问有关原因与结果、条件与互动、策略与过程的问题,并且搜寻那些彼此离得较近的类别或概念。。他提出的问题类似于:已有的概念能否再被分成次级维度或次级类别?能否将某些紧密相关饿概念结合成一个更为一般性的概念呢?能否以一种先后顺序(例如,A,然后B,然后C)或以它们的物理位置(例如,它们发生在哪儿)或是以他们与某个主题的关系而加以分门别类呢?”(纽曼2008:565)。
1
2
3
4
5
一 定量资料的整理和录入
操作代表经验事实的数字,检验带有变量建构的抽象假设
通过将经验证据与抽象概念融合在一起,建立新概念理论,不检验假设,只是说明或描述证据,表明某个理论的可靠性。
与生活距离
通过统计、假设与变量来实现,假设社会生活可以用数字来测量,统计定律操作数字,显示社会生活的某些特征。
资料多是以文字形式来呈现,通常不精确、甚至是基于特定情境,而且可能还包含一种以上的意义。
“过去,很少有定性研究者会解释他们是如何分析资料的。事实上,对定性研究常见的批评正是没有清楚说明资料分析的方式、无法接受公开检验。定性资料分析已经逐渐成为一种更为明确、讲求逐步进程的系统化方法。不过,目前仍没有哪一种定性资料分析程序被普遍地接受”(纽曼2008:557)。
资料的审核
资料审核是指对所收集到的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。(风笑天2009:287)
主轴编码
01
研究者一步步地组织想法或主题,并确定出分析时关键概念的主轴。
04
研究者从一组已被组织过的初步编码或初始概念入手。
02
研究者比较重视已经过初步编码的主题,而非资料本身。
03
“在主线编码时,研究者询问有关原因与结果、条件与互动、策略与过程的问题,并且搜寻那些彼此离得较近的类别或概念。。他提出的问题类似于:已有的概念能否再被分成次级维度或次级类别?能否将某些紧密相关饿概念结合成一个更为一般性的概念呢?能否以一种先后顺序(例如,A,然后B,然后C)或以它们的物理位置(例如,它们发生在哪儿)或是以他们与某个主题的关系而加以分门别类呢?”(纽曼2008:565)。
1
2
3
4
5
一 定量资料的整理和录入
卫生统计学第7版 方积乾主编 课件第三章 定性资料的统计描述
为年龄别生育率;Lx为女性寿命表中各年龄组平均存活率。
NRR>1,表明未来人口将增加,NRR<1,表明未来人 口将减少。
2018/3/7 24
9.婴儿死亡率(infant mortality rate , IMR)
同年 1周岁死亡人数 IMR 1000/ 1000 同年活产儿总数
活产的世界卫生组织(WHO)定义为:新生儿分娩 后有呼吸、心跳、脐动脉搏动等生命现象者称为活产。婴
个月内某病发生84人,月发病率=84/10000×3=28/万
2018/3/7
7
三、相对比
相对比( relative ratio )简称为比( ratio ),是 A , B 两个有关指标之比,说明A是B的若干倍或百分之几,通常 用倍数或分数表示。计算公式为
A 比 (或× 100%) B
两个比较指标可以性质相同,也可以性质不同。如相 对危险度(RR)、变异系数(CV)等;A、B两个指标 可以是绝对数、相对数或平均数等。
分为时点人口数和平均人
时点人口数:7月1日零时人口数。
平均人口数:相邻两年年末人口数的平均值。常用于 计算出生率、死亡率、发病率等指标的分母。
2.人口构成及其统计指标 (1)人口金字塔(population pyramid) 人口金字塔是以图形的方式表达人口的性别和年龄构成。
2018/3/7
13
2018/3/7
儿死亡率被公认为是反映居民健康水平、社会经济及卫生
服务水平,特别是妇幼卫生服务质量的敏感指标。它不受 人口构成的影响,不同的国家和地区可直接进行比较。同
时婴儿死亡率是编制寿命表的重要指标,直接影响到预期
寿命的高低。
2018/3/7 25
现代统计分析方法与应用课件 第三章 定性数据的 检验
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
4
收集分类数据的目的是为了分析在各个类中数据 的分布。例如,我们为了估计消费者中喜欢三种 牙膏中每一种的比例,则统计购买这三种品牌牙 膏的顾客购买每一种的人数。在这里仅仅是根据 牙膏的种类来分类,我们称之为一维分类或一向 分类。而顾客的投资倾向与职业的关系中,分类 是按投资倾向和职业两个方向进行分类,我们称 之为二向分类或列联表。在本节,我们先分析一 向分类。下面通过例子来介绍一向分类数据的分 析。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
6
多项分布是二项分布的推广,可以看成是多项试 验得到的分布。多项试验有如下一些性质: 1.多项试验由n个相同的试验所组成。 2.每个试验的结果落在k组的某一组中。
4.试验是独立的。
2019/1/30
中国人民大学六西格玛质量管理研究中心
第 3章
2 定性数据的 检验
2 §3.1 多项分布与 检验
§3.2 列联表分析 §3.3 一致性检验 §3.4 拟合优度检验
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
1
第 3章
2 定性数据的 检验
• 随着市场经济在中国的深入发展,信息调 查产业日益火暴。在市场调查及社会、经 济和管理等领域的热点问题研究中,经常 会碰到不可计量的定性指标变量。如顾客 对某种商品的包装喜好、观众对电视节目 的喜好、产品的合格与不合格等,这些变 量因受多方面影响而呈现出多样性。
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束