8 第十一章 无序分类变量描述与推断
教育学第十一章 教育研究方法 PPT课件

2、选择研究对象
选取的研究对象必须是有典型代表意义 在研究总体抽取样本进行研究 样本要有合理的容量 尽可能采取随机抽样
3、分析研究变量
1.自变量,也称刺激变量,是由研究者主动操纵 而变化的变量,是能独立地变化并引起因变量变 化的条件、因素或条件的组合。
2.因变量,也称反应变量,是由自变量的变化引起 被试行为或者有关因素、特征的相应反应的变量。它 是研究中需要观察的指标,具有一定的可测性。
第三步,对史料的分析研究。要用历史唯物主义观点对史料 进行分析探讨,以深入考察教育演进的内在成因和机理,弄清 不同时期 具体发展的“所以然”和“为什么”,从而发现和揭 示教育演变的规律。
返回
(一)比较研究法的概念
教育科学的比较研究是对某类教育现象在不同 时期、不同地点、不同情况下的不同表现进行分 析,以揭示教育的普遍规律及其特殊表现,从而 得出符合客观事实的结论。比较研究的实质在于 从事物的相互联系和差异的比较中观察事物、认 识事物,从而探索规律。比较研究作为一种思维 方法,贯穿在教育研究的全过程。
(二)教育科研的特点:
1、富有创造性 2、应用性 3、综合性 4、整体性
二、教育科研的类型
基于目的分类
基础研究 应用研究
基于方法分类
定性研究 定量研究
基础研究的主要目的在于发展和完善理论,寻
基 础 研 究
求新的事实,阐明新的理论或重新评价原有的 理论,它回答的是“为什么”的问题,与建立 教育科学的一般原理有关。基础研究的指向具 有普遍性,它可以为现有的科学体系增添新的 东西。
的内在效度和外在效度。
2.实验的实施阶段
3.实验结果的总结评价阶段
返回
(一)历史研究发的概念
历史研究方法是借助于对相关社会历史 过程的史料进行分析、破译和整理,以 认识研究对象的过去,研究现在和预测 未来的一种研究方法。这种方法的实质 在于探究研究对象本身的发展过程和人 类认识该事物的历史发展过程。教育的 历史研究方法,是以历史研究法来研究 教育科学,是通过搜集某种教育现象发 生、发展和演变的历史事实,加以系统 客观的分析研究,从而揭示其发展规律 的一种研究方法。
SPSS 无序分类变量的统计推断 卡方检验

5.分层卡方检验 6.SPSS 软件部分
6.1.‘统计量’子对话框界面说明
打开方式:点击工具栏‘分析’->‘描述’-》 ‘交叉表’ ,点击选项‘统计 量’ 。项。
‘卡方’复选框:进行卡方检验。
‘Kappa’复选框:计算 Kappa 值,即内部一致性系数。原假设 H0 是无一 致性;Kappa≥0.75 表明两者一致性较好,介于 0.4 至 0.75 表明一致性一般,小 于 0.4 表明两者一致性较差。 ‘风险’复选框:计算 OR 值(比数比)和 RR 值(相对危险度) ,这些指 标用于反映交叉表的行、列变量之间的关联强度。 ‘McNemar’复选框:进行 McNemar 检验,即常用的配对卡方检验。 ‘Cochran’s and Mantel-Haenszel 统计量’复选框:为两个二分类变量进 行分层卡方检验,即层间的独立性检验和同质性(齐性)检验,同时可进行分层 因素的调整。
4.一致性检验与配对卡方检验
你得首先理解配对设计,这里略。
4.1.Kappa 一致性检验
Pearson 卡方检验并不适用于配对设计的数据, 它无法明确说明结果的一致 程度。 更准确地说, Pearson 卡方只能告诉用户两种测量结果之间是否存在关联, 但不能判断其是否具有一致性。
4.2.配对卡方检验
3.1.相对危险度
RR 值是一个概率的壁纸,是指实验组人群反应阳性概率与对照组人群反应 阳性概率的壁纸。RR=1,表明实验因子与反应阳性无关联。
3.2.优势比
OR 值是一个比值的比,是反应阳性人群中实验因素有无的比例与反应阴性 人群中实验因素有无的比例之比。OR=1,表明实验因素与反应阳性无关联。 由于优势比是两个比值的比值,因此它不太好解释,而解释相对危险度则要 容易得多, 因此在大多数情况下人们希望能够按照相对危险度的含义来解释优势 比。 当所关注的事件发生概率比较小时(<0.1), 优势比可作为相对危险度的近似。
分类变量的分析

分类变量的分析一.分类变量分类变量有有序变量、无序变量和二分类,其中有序和无序都是多分类举例说明,有序变量:高血压1期、II期、III期属于有序变量同时也属于等级资料,无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,男性、女性;死亡、存活属于二分类变量。
在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验。
在多元回归时,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量(虚拟变量),例如职业工人、农民、教师。
你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。
那么在无序变量就意味着工人增加一个等级,这是不可能的。
因为这样得变量各等级之间不存在1、2、3得数学关系。
在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法。
在无序变量中,我们必须引用哑变量(虚拟变量)来实现logistic回归。
在运用logistics回归分析之前我们必须先要理解虚拟变量。
二.下面的重点就是关于虚拟变量的讲解。
1.虚拟变量的含义虚拟变量是用以反映质的属性的一个人工变量,取值为0 或1,通常记为D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。
(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1)如1 男性D =0 女性但是,虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。
例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。
虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。
例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。
分类变量的分析

分类变量的分析一.分类变量分类变量有有序变量、无序变量和二分类,其中有序和无序都是多分类举例说明,有序变量:高血压1期、II期、III期属于有序变量同时也属于等级资料,无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,男性、女性;死亡、存活属于二分类变量。
在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验。
在多元回归时,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量(虚拟变量),例如职业工人、农民、教师。
你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。
那么在无序变量就意味着工人增加一个等级,这是不可能的。
因为这样得变量各等级之间不存在1、2、3得数学关系。
在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法。
在无序变量中,我们必须引用哑变量(虚拟变量)来实现logistic回归。
在运用logistics回归分析之前我们必须先要理解虚拟变量。
二.下面的重点就是关于虚拟变量的讲解。
1.虚拟变量的含义虚拟变量是用以反映质的属性的一个人工变量,取值为0 或1,通常记为D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。
(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1)如1 男性D =0 女性但是,虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。
例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。
虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。
例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。
医学统计学第七讲分类变量统计描述

平均发展速度和平均增长速度
➢平均发展速度是各环比发展速度的几何 平均数,说明某事物在一个较长时期中 逐期(如逐年)平均发展的程度。
➢平均增长速度是各环比增长速度的平均 数,说明某事物在一个较长时期中逐期 平均增长的程度。
其计算公式为
平 均 发 展 速 度 nan/a0
9.5 12 28
5.2
6
58 10.8 合计 536 100.0
7
66 12.3
第二节 相对数应用注意事项
3、相对数作相互比较时应注意其可比性。 (1)研究对象是否同质;研究方法是否 统一;观察时间是否一致;客观环境和影 响因素是否相当;等等。 (2)当比较两组或两组以上的总率(平 均率)时,要考虑各率的内部构成是否相 同,否则要经过标准化,才能得出正确结 论。
• 在计数资料分析中有时要考虑资料的时间特性。
• 分子和分母都是时点ຫໍສະໝຸດ 料:高血压患病率= (检出高血压病人数÷受检查人数)×100%
• 分子和分母都是时期资料:
痢疾病死率= (某年痢疾死亡数÷该年痢疾发病数)×1000‰
• 分子是时期资料而分母是时点 资料:
– 时间段为年的,称为年率;时间是一个月的, 称月率。凡是年率都不须注明。不是年率的必 须注明是周率、月率、季率。
第三节 率的标准化法
一、率的标准化概念: 把两个或两个以上内部构成不同的总
率统一到同一水平(或标准水平),使之 具有可比性,然后再进行比较的方法即率 的标准化法。
由标准化法计算的率称标准化率(或 调整率),简称标化率。
率的标准化的意义:便于合理比较。
第三节 率的标准化法
二、选择标准的原则: 1.尽可能选择有代表性的、内部构成相
社会研究方法(第四版)第十一章

a 71.87 176 8212 . Y 8212 . .87 X
有了这一回归方程后,我们就可以由预测变量的值 经回归方程计算出标准变量的预测值。如另一名大学生 的身高为170厘米,则其体重的预测值为65.78公斤。
资料审核的方法主要有两种,即逻辑审核与 计算审核。 逻辑审核,即核查资料的内容是否合乎逻辑 和常识,项目之间有无互相矛盾之处,与其 他有关资料进行对照是否有明显出入等等。 计算审核,是针对数字资料进行的审查。要 检查计算有无错误。度量单位有没有错,前 后数字之间有无相互矛盾之处等等。
二、资料的转换
2 定序层次:中位值(中位数)(单选)
其意义为按大小顺序排列,处在一群数据中央位置的数值。 (1)原始资料,求中位值 例如:有9个人,他们的月工资分别如下: 47,42,50,51,92,112,71,83,108 首先作排列处理,从小到大排列 42,47,50,51,71,83,92,108,112 其次求中央位置 Md的位置=(N+1)÷2=(9+1)÷2=5 最后求中位置Md=71
二、单变量推论统计
区间估计 以样本统计量的抽样分布为理论依据,按一 定概率要求,由样本统计量的值来估计总体 参数的值所在的范围,叫做总体参数的区间 估计。 区间估计的实质就是在一定的可信度(置信 度)下,用样本统计值的某个范围来估价总 体的参数值 。范围的大小反映的是这种估计 的精确性问题,而可信度高低反映的是这种 估计的可靠性或和握性问题。
a b
两个变量(预测变量X与标准变量Y)间的回 归分析,是只有一个自变量的线性回归,也叫 一元线性回归。其回归方程为:
Y a bX
其中a,b、对一对特定数据来说是常数:
两分类资料的统计描述与推断

频数分布表包括两列,一列表示类别, 另一列表示该类别出现的频数。通过 频数分布表,可以直观地了解各类别 的数量分布情况,为后续的统计分析 提供基础数据。
比例与百分比
总结词
比例和百分比是用来描述两分类资料中各类别的相对大小。
详细描述
比例是各类别的数量与总数量的比值,而百分比则是比例乘以100。通过比例和 百分比,可以了解各类别的相对大小,进一步分析各类别的权重和影响。
详细描述
在两分类资料中,中位数通常用于描述某一类别的中间状态或中心趋势。例如,在一组 关于消费者年龄的数据中,中位数可以表示消费者的平均年龄或年龄分布的中心趋势。
算术平均数
总结词
算术平均数是所有数值的和除以数值的 个数。
VS
详细描述
在两分类资料中,算术平均数可以用于描 述某一类别的平均水平或中心趋势。例如 ,在一组关于消费者购买力的数据中,算 术平均数可以表示消费者的平均购买力水 平。
概率与概率分布
概率
描述随机事件发生的可能性大小。
概率分布
描述随机变量取值可能性的分布情况。
随机抽样与抽样分布
随机抽样
从总体中按照随机原则抽取一部分观察单位进行研究 。
抽样分布
由样本数据推导出的统计量值的分布。
统计量与参数
统计量
基于样本数据计算出的量值,用于描 述样本数据的特征。
参数
描述总体特性的量值,通常通过总体 数据计算得出。
03
CHAPTER
两分类资料的离散程度描述
异众比率
异众比率
异众比率是用于描述分类数据中非众数频数 的相对重要性。其计算公式为异众比率=非 众数频数/总频数。异众比率越大,说明非 众数频数所占比重越大,数据的离散程度越 大。
《卫生统计学》课后思考题答案

《卫生统计学》思考题参考答案第一章绪论1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的?答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。
2、统计工作可分为那几个步骤?答:设计、收集资料、整理资料、分析资料四个步骤。
3、举例说明小概率事件的含义。
答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。
第二章调查研究设计1、调查研究有何特点?答:(1)不能人为施加干预措施(2)不能随机分组(3)很难控制干扰因素(4)一般不能下因果结论2、四种常用的抽样方法各有什么特点?答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。
(2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小;缺点是在某些情况下会出现偏性或周期性变化。
(3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计;缺点是事先要进行分层,操作麻烦。
(4)整群抽样:优点是易于组织和操作大规模抽样调查;缺点是抽样误差大。
3、调查设计包括那些基本内容?答:(1)明确调查目的和指标(2)确定调查对象和观察单位(3)选择调查方法和技术(4)估计样本大小(5)编制调查表(6)评价问卷的信度和效度(7)制定资料的收集计划(8)指定资料的整理与分析计划(9)制定调查的组织措施4、调查表中包含那几种项目?答:(1)分析项目直接整理计算的必须的内容;(2)备查项目保证分析项目填写得完整和准确的内容;(3)其他项目大型调查表的前言和表底附注。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
率的标准误
(standard error of rate)
样本率的标准差叫做率的标准误,以
p
(1 )
n
表示。它是描述率的抽样误差
大小的指标,反映含量相同的样本率的离散
趋势或变异程度。σp越大,说明样本率p的 波动范围越大或率的抽样误差越大。实际应
用中, π常属未知,无法计算σp,故常以
sp
动态数列的分析指标
一、绝对增长量 1、累计增长量:固定某年为基数,各年与之相减; 2、逐年增长量:以前一年为基数,相邻的后一年与 之相减。
二、发展速度和增长速度 1、定基比:固定某年为基数,各年与之相比; 2、环比:以前一年为基数,相邻的后一年与之相比。 增长速度=发展速度-1(或100%)。
三、平均发展速度和平均增长速度 1、平均发展速度(环比发展速度的几何均数)= n√an / a0 。 2、平均增长速度=平均发展速度-1(或100%)。
实际发生的例数与可能发生该现象的 总数之比,用以说明某现象发生的强 度或频率,故又称频率指标。根据不 同需要选用适当的比例基数。
某现象实际发生的例数
率=
× 比例基数
可能发生某现象的总数
率的特点
1、真正的率:分子是分母的一部分,其数值在0到1之间 变动,它们是概率的估计值,符合二项分布,可以计 算可信区间和进行差别的假设检验;
在某一时点(或某短时期内),平均每 百(或千、万、十万等)受检查人数中 发现正患病的人数,常用于估计某病对 居民危害的严重程度。其与发病率的主 要区别在于它是从时点断面来观察疾病 的频率。
正患疾病的病例数
患病率=
× 比例基数
受检查人数
死亡率
(death rate,mortality rate)
死亡率是反映一个地区居民死亡水平
pc
S p1 p2
X1 X2 n1 n2
n1
pc (1 pc
p1 n2 p2
)(
1 n1
n1 n2
1 n2
)
样本率与总体率比较的计算公式
《正态近似法》使用条件:
np 和n(1- p)均大于5时
计算公式:
p
u
0
p
p 0
(1 )
0
0
n
两个样本率的比较计算公式
《正态近似法》使用条件:
n1p1 和n1(1- p1)与 n2p2 和n2(1- p2)均 >5
计算公式:
u p1 p2
p1 p2
发病率
(incidence rate)
发病率是衡量疾病发生的频率指标,
指在一定时期(年度、季度、月份等)内 平均每百(或千、万等)人口中,某病发 生的新病例数,常用于研究疾病发生的因 果和评价预防措施的效果。
某期新发病例数
发病率=
×比例基数
同期平均人口数
患病率
(prevalence rate)
患病率又称现患率或流行率,是指
总体率的区间估计
1、查表法:百分率的可信区间
n≤50,p很小或很大,按二项分布原理,表中 x值只列出x≤n/2部分,当x>n/2时,以n-x查表,
然后100减去查表得数值即为所求可信区间。
2、正态近似法: p u S p
np和n(1-p)>5,p的抽样分布逼近正态分布。
3、注意:如果计算获得的可信区间下限小于0%, 上限大于100%,则将下限直接定为0%,上限直接 定为100%。
计算标准化率的步骤
1、根据现有数据的条件选用直接 法或间接法
2、选定标准:标准组应有代表 性、稳定、数据量较大的人群
3、应用公式计算 4、必要时,做标准化率假设检验
计算标准化率的标准选择
1、选用较稳定的、有代表性的、来自较大 人群的、最好是全国标准年龄组别人口 数(或年龄构成)或年龄组别死亡率作 为需要比较的各组资料的共同标准;
3、分子可以重复计算的率:计算发病率,若以开始时的 暴露人数为分母,每个人在这一段时间内只能是一个 新病例,其为真正的率。如若每个人在一段时间内可 以是多个新病例,虽然分子是分母的一部分,但进行 了重复计算,不服从二项分布,亦不能计算可信区间 和进行差别的假设检验。
率与构成比的比较
率
构成比
概念 发生的频率或 各组成部分所占的
的指标,指在一年内平均每千人口中的
死亡人数。总死亡率又称粗死亡率 (crude death rate),其大小受当地 人口、年龄、性别等因素的影响,故需 标化后才能进行比较。
某年死亡人数
死亡率=
×1000‰
同期平均人口数
病死率
(fatality rate)
病死率是衡量疾病预后的指标,
指平均每百(或千、万等)名病人中死 亡人数,即指某病患者中因该病死
第四节 两个率差别的统计意义
(u检验)
率的假设检验
(hypothesis test of rate)
判断样本率p与总体率π之 间或样本率与样本率之间的差别 在统计上有无显著性意义,即判 断这种差别是来自于抽样误差还 是本质上存在的方法称为率的假 设检验。常用率的假设检验方法 有:u检验、 χ2检验等。
(2) 关系指标:指两个有关的、但非同类事物 的数量的比,如医护人员数与医院年平均病 床开出数之比。
(3) 计划完成指标:说明计划完成的程度,常 用实际数达到计划数的百分之几或几倍表示, 如某社区居民健康档案建档完成情况。
动态数列
(dynamic series)
动态数列是指一系列按时间顺 序排列起来的统计指标(包括绝对 数、相对数及平均数等)。它说明 事物在时间上的变化或发展趋势。 按时间特点可以分为时点动态数列 和时期动态数列;按基数特点可以 分为定基比和环比。
总体率π的95%可信区间:p±1.96Sp 总体率π的99%可信区间:p±2.58Sp
2、小样本——查表法(参照有关书籍) 适用条件: n较小,如n≤50,特别是p接近0或1 方法:根据样本阳性数x及样本例数n,直接查二项分布参数 π的 可信区间表
(三)用率的标准误进行两个率差别的假设检验——u检验
相对数:是两个有关联的数值或指 标之比。常用的相对数有率、构 成比和相对比。
构成比
(percentage)
构成比是表示事物内部各构成部
分分别占总体的比重或分布,通常以
100为比例基数,故又称百分比,用 以说明事物内部的构成。
事物内部某构成部分个体数
构成比=
×100%
事物内部各构成部分个体数总和
构成比的特点
2、把被比较的两组(或几组)资料中,各 年龄组人口数加在一起组成一个新的人 口构成作为共同标准;
3、在相互比较的两组(或几组)资料中, 任选其中一组的年龄组别人口数或年龄 组别死亡率作为共同标准。
直接标化法
适用条件和计算公式:
已知被标化组各小组的死亡率,
已知标准组年龄别人口数时:
p N i pi
无序分类变量资料的描述方法:
1、统计指标(相对数指标) ⑴、构成比 ⑵、率 ⑶、相对比 ⑷、动态数列
2、统计表、统计图
第一节 常用相对指标的 种类及其定义
绝对数和相对数
绝对数:调查或实验研究中清点分 类变量资料得到的数据。它是研 究客观事物或现象本质的基本信 息,但不便于相互比较和寻找事 物间的联系。
强度
比重
强调点 随机发生事件
资料获得 特点
较难 不一定
各部分的构成 容易
合计为100%
相对比
(relative ratio)
相对比是两个有关的数据 或指标之比,表示两者的相对 水平。样本相对比表示为R= 甲/乙。习惯上当甲>乙时用 倍数表示,当甲<乙时用百分 数表示。
常用的相对比指标
(1) 对比指标:指两个同类事物某种指标(绝对 数、两个率或其他同类指标)的比,如人口 普查的男女性别比。
N
已知标准组年龄别人口构成比时:
p
(
Ni N
) pi
间接标化法
适用条件:已知被标化组人群 年龄别人口数、总死亡数,以及标 准组的年龄别死亡率。
计算公式:
p P • r P • SMR
ni Pi
标准化时应注意的问题
1、比较两个(或多个)总率或总均数时,要求内 部构成相同,若内部构成明显不同,需作标准 化处理,以使对比组之间具有可比性;
1、分子是分母的一部分,其数值在0到 1之间变动,它们是概率的估计值, 符合二项分布,可以计算可信区间和 进行差别的假设检验;
2、事物内部各组成部分的构成比之和 为100%或1;
3、事物内部某一组成部分的构成比发 生了变动,其它组成部分的构成比也 必然发生相应的变动。
率(rate)
率是表示某现象在一定条件下,
第二节 率的标准化法
标准化率
(standardized rate)
标准化率简称标化率,又称调整率 (adjusted rate)是由于客观的和已知 的影响因素,如年龄、性别、工龄等, 可以影响率的大小。若比较两个或多个 总率时,这些因素应齐同一致。如果这 些因素不一致,应对率进行标准化,即 选取某个标准组,作为影响因素的标准 人口或标准人口构成,把被比较的率按 标准组的人口数或人口构成进行调整, 算得的率称为标准化率。
p(1 n
p)
作为σp 的估计值。
率标准误的应用
(一)说明率的抽样误差大小及样本率的可靠性,表示为p±Sp。 (二)率的标准误结合样本率p推断总体率π的可信区间
1、大样本——正态近似法
适用条件:n足够大,且p和(1-p)均不太小,如np或
n(1-p)均≥5,样本率p的抽样分布近似服从正态分布。 方法:
2、比较两个(或多个)标准化率,应选用同一个 标准,选用的标准不同,算得的标准化率也不 同,因此,标准化率只反映对比资料间的相对 水平,不能反映某现象发生的实际水平;