第四章 整群抽样.
第4章整群抽样

1 p nM 1 n ai pi n i 1 i 1
n
1 并令: A N
A
i 1
N
i
1 n a ai n i 1
定理4.2.2 在整群抽样中,若群的大小相等, 且对群进行简单随机抽样,则:
yij , i 1, 2,, n; j 1, 2,, M
总体第i个群的指标总值(简称群和):
Yi Yij , i 1, 2,, N
j 1 M
样本第i个群的指标总值(简称群和):
yi yij , i 1, 2,, n
j 1 M
总体第i个群的指标均值(简称群均值):
记:
总体第i个群中具有某特征的次级单元数: Ai , i 1, 2,, N 样本第i个群中具有某特征的次级单元数: ai , i 1, 2,, n
总体第i个群中具有某特征的次级单元所占比例: Ai Pi , i 1, 2,, N Mi
样本第i个群中具有某特征的次级单元所占比例: ai pi , i 1, 2,, n mi
书上P118例4-1
例 某厂近两年来积压了某种零件100箱,每箱20 只。最近有用户要货,急需估计100箱中有多少报 废零件,以尽快安排生产及时供应用户。现随机抽 取5箱,对箱中的零件全部检查,结果如下表。 (1)对零件的废品率作点估计,并估计其标准差; (2)对100箱中的废品数作点估计,并估计其标准 差。
m0 mi 样本中的次级单元数:
i 1 N
n
1 总体的平均群大小: M N
第4章__抽样调查

4.1.3抽样误差的确定
❖1)抽样误差的概念
❖2)影响抽样平均误差的因素
1、全及总体标志变异程度 2、样本容量 3、抽样组织方式 4、抽样方法
❖3)降低调查误差的途径
1、提高样本的代表性
2、注重样本量的控制
3、提高抽样设计的效率 4、重视抽样方案的审评
5、努力降低调查员的误差 6、努力调查被调查者的误差
❖ (4)如果这一地区街对面从第一号开始都没有住户,在第一号对面的街区转 一圈,并遵循右手法则。(即按顺时针方向在街区转一圈。)试着沿路线每 隔两户访问一户。
❖ (5)在起始门牌号对面邻近的街区绕过一圈后,如果你没有完成所需的访问, 就按顺时针方向到下一个街区访问。
❖ (6)如果第三个街区的住户数不够完成你的任务,就再做几个街区直到要求 的户数完成为止;这些区要按顺时针方向绕原有的街区来找。
❖5)简单随机抽样方式的优缺点
随机抽样方式的优点
方法简单直观,当总体名单完整时,可直接从中随机抽取样本。由于 抽取概率相同,计算抽样误差及对总体指标加以推断比较方便。
随机抽样方式的缺点
尽管简单随机抽样在理论上是最符合随机原则的,但是在实际应用中 有一定的局限性。第一,采用简单随机抽样,一般需对总体各单位加以 编码,而实际市场调查活动中所需调查总体往往是十分庞大的,单位非 常多,逐一编码几乎是不可能的;第二,对于某些事物无法使用简单随 机抽样,如对连续不断产生的大量产品进行质量检验,就不能对全部产 品进行编号抽样;第三,当总体的标志变异程度较大时,简单随机抽样 的代表性就不如经过分组后再抽样的代表性高;第四,由于抽出样本单 位较为分散,所以调查人力、物力、费用消耗较大。
2)抽样调查的特征
❖(1)抽取样本的客观性 ❖(2)抽样调查可以比较准确地推断总体
社会学第四章 主要研究方法和抽样技术

一、问卷调查法
问卷调查法(survey)是社会学研究用于收集资料 最常用的方法之一,问卷调查法的基本步骤包括:确定调 查总体、选择抽样方案、设计调查问卷、实施调查、汇总 和录入数据、分析数据,等等。 第一步是识别和确定调查总体。所谓总体,就是所要 研究的对象的全体或所有个体。明确调查总体一是为了掌 握研究对象的总体情况,而是为了确定抽样框架。 第二步是根据抽样总体的特征以及具体研究要求,选 择和确定抽样方案。 第三步,确定选取样本的方案之后,就需要着手设计 调查问卷。问卷作为一种测量工具,在设计过程中,需要 考虑其信度和效度。
深度访谈也是田野调查中获得信息和资料的重要途径 。从访谈对象看,访谈可以划分为个别访谈(individual interview)和群组访谈(focus group)。个别访谈就是访 谈对象是单个个体,而群组访谈就是将若干访谈对象集中 起来同时进行访谈。 从访谈内容组织来看,有可以分为结构访谈和无结 构访谈。结构访谈是一种标准化访谈形式,要求在访谈 程序、访谈内容、提问方式等方面尽可能标准化,减少 主观因素影响。无结构访谈没有事先设计好的程序和内 容,而是围绕访谈主体进行比较自由、深入和细致的交 谈。
四、历史比较法
为了探讨社会现象的发展历史轨迹和变迁规律,社会 学常常采用历史比较和跨文化比较的方法。历史比较法的 资料来源主要有两种:一是政府文献资料,包括政府和机 构文件档案材料、统计资料和其他保存下来的历史资料; 二是民间历史资料,包括民间流传下来的地方史志资料, 以及民间口述史资料。 在历史比较法中,较常用的分析历史资料的方法有: 类比分析法和理想型分析法。类别分析法是指在分类的基 础上对某类现象或事件在不同阶段的表现和特征进行对比 ,并由此类推出现象产生的原因和变化规律。理想型分析 法是韦伯创立。理想类型是一种分析概念或逻辑工具,是 经过高度抽象出来的、反应事务本质特征的分类概念:如 “资本主义精神”、“科层制”等。
第四章整群抽样

1 (M 1)c
上面结果意味着:按同样的样本量(以次级单元计) 整群抽样的方差约为简单随机抽样的方差的 1 (M 1)c 倍。换句话说,为了获得同样的精度,整群抽样的样本 量必须是简单随机抽样的样本量的 1 (M 1)c 倍。
20
第21页/共49页
群内相关系数
NM
2
(Yij Y )(Yik Y )
• Def.1 一般地说,如果总体中所有较小的基本单元可 以以某种形式组成数量较少但规模较大的单元;或反 过来说,每个“大”单元都由若干“小”单元组成, 称这些 “大”单元为初级(抽样)单元(primary sampling unit),“小”单元为次级(抽样)单元 (secondary sampling unit).
Deff = (所考虑抽样设计估计量的方差)/(相同样 本量下简单随机抽样估计量的方差)
18
第19页/共49页
设计效应值愈大,表明它的效率愈低。若deff>1,表明
所考虑的抽样设计的效率不如简单随机抽样;若deff<1,
表明该抽样设计的效率比简单随机抽样高。
在整群抽样中,我们在前面已经指出:如何划分群以
27
第28页/共49页
(3) 若 令为简单随机抽样的样本量 则
nsrs
即可达到整群抽样96户样本量相同的估计精度
Mn nsrs deff
812 20(户) 4.7
28
第29页/共49页
群规模不相等的整群抽样
一、等概抽样,简单估计 二、等概抽样,加权估计 三、等概抽样,比率估计 四、例子
29
8 230,205,187,176,212,253,189,240 211.50 27.48
9 274,208,195,307,264,258,210,309 253.13 44.52
[高等教育]现代社会调查 第四章 抽样
![[高等教育]现代社会调查 第四章 抽样](https://img.taocdn.com/s3/m/659306be6bec0975f465e2f8.png)
3.分层抽样
——又称类型抽样,它是先将总体中的所有单位按某种特征或标 志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后 再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取 一个子样本,最后,将这些子样本合起来构成总体的样本。 操作方法:
将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地
特点 简单随机抽样 一阶段抽样 系统抽样
分层抽样
整群抽样 多阶段抽样 多段抽样 PPS抽样
样本一次直接从 总体中抽出
样本分多阶段从 总体中抽出
17
1.简单随机抽样
——是概率抽样的最基本形式,它是按等概率原则直 接从含有N个元素的总体中随机抽取n个元素组成样本 (N>n)。
常用方法:直接抽样法、抽签法、随机数表法
25
当抽样间距(K=N/n)不是整数时:
循环等距抽样法 A+K A A+2K
A+3K
A+4K
A+(n-1)K
调整直线等距抽样 如:N=2580, n=300, 则K=8.6
……
调整:在1-86之间选择整数的随机起点,如27;将小数 点调回,得到非整数的随机起点2.7,由此得到号码:2.7, 11.3, 19.9, 28.5,……。将小数点后面的部分略去,就是迁 中单位的号码:2, 11, 19, 28, …… 26
抽5个区
抽4个区 抽3个区
抽12所学校
抽10所学校 抽10所学校
每所学校抽20名教师
每所学校抽30名教师 每所学校抽40名教师
方案8
方案9
根据抽取对象的具体方式的不同,把抽样分为概率抽 样和非概率抽样。
6
抽样的类型
第4章-等概率整群抽样和多阶段抽样

4.1.1 定义
整群抽样(cluster sampling)是将总体 划分为若干群,然后以群(cluster)为抽 样单元,从总体中随机抽取一部分群,对 被选群内的所有单元进行调查的一种抽样 技术。
2024/7/17
3
例
欲估计某高校大学生拥有手机数量,大学共有40000 名学生,10000个宿舍(每个宿舍4名学生)。
V (ˆ) E1 E2 (ˆ)2 E1 V2 (ˆ ) E1E2 (ˆ)2 V1 E2 (ˆ) E1 V2 (ˆ )
4.3.3 等概率两阶段抽样的符号说明
表4-5
4.3.4 初级单元(PSU)规模相等的 两阶段抽样
定理4.5 对于初级单元规模相等的两阶段抽样 ,如果两个阶段都是简单随机抽样,且对每个 初级单元,第二阶抽样是相互独立进行的,则 对总体均值 Y 的无偏估计为:
定理 4.1:y 是 Y 的无偏估计,即
Ey Y
定理 4.2: y 的方差为:
V ( y) 1 f n
1N N 1 i1
Yi Y
2
1 f nM
Sb2
定理 4.3:V ( y) 的样本估计为:
v( y) 1 f nM
sb2
Yˆ NMy V (Yˆ) V (NMy) N 2M 2V ( y) v(Yˆ) N 2M 2v( y)
(NM 1)(M 1)S 2
用简单随机抽样方法抽取n个群,每个群内的M个
单元全部进入样本,则等群抽样均值估计量 y 的方
差可用群内相关系数近似表示
N
2
V (y)
1 V(y) 1 f
Yi Y
i 1
M2
nM 2 N 1
1 f n
(NM 1) M 2 (N 1)
流行病学试题 4.第四章、现况研究

第四章现况研究名词解释1.现况研究2.抽样调查3.单纯随机抽样4.系统抽样5.分层抽样6.整群抽样7.多级抽样8.随机误差9.偏倚10.敏感问题11.普查12.选择偏倚13.信息偏倚14.预调查15.无应答偏倚16.选择性偏倚17.幸存者偏倚18.回忆偏倚19.报告偏倚20.暴露单选题1.某地一项有关高血压的横断面研究表明:男性45~55岁组有高血压者占13%,女性占15%。
从而得出结论,该年龄组男性患高血压的危险性较女性小。
该结论A.正确B.不正确,因没区分发病率和患病率C.不正确,因为未用率作性别间比较D.不正确,因为没有考虑到可能存在的队列的影响E.不正确,因为无对照组2.下列哪种情况,某种疾病的患病率与发病率之比值将增大?A.病死率高B.该病病程长C.该病病程短D.暴露时间长E.多次暴露3.在流行病学现场调查中,为组织方便和节约费用,选择哪一种抽样方法更合适?A.单纯随机抽样B.分层抽样C.系统抽样D.整群抽样E.多级抽样4.在现况研究过程中,按抽样方案抽中的调查对象没有找到,而随意以其他人代替,从而破坏了调查对象同质性的偏倚属于A.选择性偏倚B.幸存者偏倚C.回忆偏倚D.测量偏倚E.混杂偏倚5.综合描述疾病“三间分布”,最经典的流行病学方法是A.出生队列研究B.横断面研究C.移民流行病学D.血清流行病学E.遗传流行病学6.欲调查某地人群HBsAg携带情况,可采用A.个例调查B.前瞻性调查C.抽样调查D.爆发调查E.回顾性调查7.流行病学中的偏倚是指A.抽样误差B.系统误差C.随机误差D.逻辑误差E.数据误差8.下列哪项指标最适合描述妇女激素替代疗法后十年内患乳腺癌的可能性?A.患病率B.危险度C.病死率D.发病率E.十年生存率9.普查妇女乳腺癌时测量乳腺结节的频率指标应选用A.发病率B.发病专率C.罹患率D.时点患病率E.期间患病率10.关于普查的目的,以下哪一项不正确A.早期发现病例B.检验病因C.了解疾病的分布D.为病因研究提供线索E.普及医学知识11.普查妇女乳腺癌时测量疾病的频率指标应选用A.发病率B.发病专率C.罹患率D.时点患病率E.期间患病率12.临床医生进行社区诊断时最常使用的流行病学调查方法是A.个案调查B.典型调查C.现况调查D.问卷调查E.爆发调查13.欲了解某病在某地区的危害状况,进行现况调查时宜选用A.普查B.抽样调查C.典型病例调查D.住院病例调查E.个案调查14.根据现况调查资料可计算出A.发病率B.患病率C.死亡率D.治愈率E.病死率15.欲调查某地HBsAg携带情况,可采用A.个例调查B.前瞻性调查C.抽样调查D.爆发调查E.回顾性调查16.下列哪种情况适用于抽样调查?A.为发现某病全部病例并提供治疗B.为早期发现癌症患者以降低其死亡率C.欲调查的人群人数很少D.欲知道某地一定时间内某病的患病情况E.要了解各种疾病的常年发病情况17.某乡5000户约2万人口,欲抽其1/5人口进行某病调查,随机抽取1户开始后,即每隔5户抽取1户,抽到的户,其每个成员均进行调查。
流行病学:第四章 描述性研究(第八版)

3.样本含量
(1)影响因素
总体患病率高低 π:越低样本量越大 精确高低(容许误差d):调查值和实际值的
区别,容许误差越小,精确度越高,样本量越大 显著性水平(α): α通常取0.01或0.05,
越小样本量越大
(2) 样本含量计算公式
计量资料(均数) n=Z2α S2/d2 (α=0.05时, Zα= 1.96,S为总体标准差估计值,d为容
选择性偏倚:没有遵循随机化原则调查研究对象 ,影响代表性。
幸存者偏倚:现况调查对象为存活者,对调查期 间因某病死亡者信息获取存在缺陷,影响调查结 果。
调查对象引起的偏倚 报告偏倚/说谎偏倚/回忆偏倚
调查员偏倚 调查偏倚
测量偏倚 检测方法或仪器的测量误差
(1)样本选取必须随机化 (2)应答率一般应高于80% (3)进行预调查 (4)统一培训调查员 (5)调查或检查方法标准化且前后一
现况调查 (横断面调查)
生态学研究
四、现况调查
(一)概念
调查方法:普 查或抽样调查
现况调查(prevalence survey)是指在特定
时间在特定人群中收集某种疾病(或健康状况)
及有关变量的资料,描述该疾病(或健康状况)
的分布及其与相关因素的关系。
常用指标:患病率
横断面研究cross-sectional study
许误差)
计数资料(率) n=Z2αPQ/d2
(P为总体患病率估计,Q=1-P)
注:参照单纯随机抽样样本公式
4.抽样调查流程
患病率等 相关指标
总体
计算样本量, 确定抽样比
有代表性的 样本
了解构成情况,是否需
要进行分级?分层?是 否适用整群抽样?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018/10/11
2
【例1】对某校的学生思想或身体情况进行调查: 某校学生 学生宿舍 宿舍学生 估计某居民区现有的电话拥有率 【例2】 全体居民 若干幢楼 居民 【例3】 某地小学生的视力状况进行调查 某地小学生
2018/10/11
某所小学
小学生
3
整群抽样是由一阶抽样向多阶段抽样过渡的桥 梁。此章介绍的是单阶段整群抽样。 注: 多阶段抽样与多阶段整群抽样的不同。
2018/10/11 8
Hale Waihona Puke 6.整群抽样有特殊的用途。 有些现象的研究,如果直接调查作为基本单元的个体, 很难说明问题,必须以一定范围所包括的基本单元为群体, 进行整群抽样,才能满足调查的目的。 例1: 人口普查后的复查、要想估计出普查的差错率,只有 通过对一定地理区域(如省,市,县,街道等)内的人口群体作 全面调查才行。类似地诸如人口出生率、流动率等调查都 需要采用整群抽样。 例2: 对某地人口性别比例的调查,以家庭作为群比直接抽 取个人进行估计精度要高,因为家庭的结构基本相似。 7.整群抽样要求分群后各群所含次级单元数目应该确知, 否则会给抽样推断带来不便。
(二)特点 1. 抽样框编制得以简化。 在大规模抽样调查中,常常没有或很难编 制出包括总体所有次级单元在内的抽样框,而 整群抽样则不需要编制庞大的抽样框。 因此,在缺少基本单元名单,但群有现成的 名单或明显的空间界限时使用此方法很方便。
2018/10/11 4
【例】某市有100所小学共50,000名学生,要从中抽2000名学 生显然是困难的,而若以小学为单位抽取若干小学,再对抽 中的学校的全体学生进行调查就简化了. 【例】调查农村居民住户,不必列出农村所有居民住户的抽 样框,可以利用现成的行政区域,如县、乡、村,将农村 划分为若干群,这给抽样设计方案带来很大方便。
2018/10/11
14
群间相似
群间差异较大
2018/10/11
15
三. 群的规模
即组成群的单元的数量。 整群抽样中,如何有效地对群的大小进 行计量,直接关系到抽样估计效率的高低。 研究表明,对群的大小的最优计量尺度是各 群在所研究标志上的标志总量大小。但在实 际工作中,它是未知的。因此通常选择与所 研究标志高度线性相关的另一辅助标志作为 计量尺度。
2018/10/11
12
分群的原则:
划分群时应使群内方差尽可能大,群间方差 尽可能小。(注意:这一点与分层抽样中 总体内层的划分有着极大的差别) 这意味着每个群均具有足够的代表性。如 果划分的群相互之间颇多相似之处,那么 少量群的抽取足以提供良好的精度。
2018/10/11
13
分析: 整群抽样对于群而言是非全面调查,对于被抽中群 内基本单元而言则是全面调查,是“先部分,后全体” 的抽样组织形式,与分层抽样正好相反。根据方差 分析原理,当总体划分为群后,总体方差可以分解 为群间方差和群内方差两部分。这两部分是此消 彼长的关系。由于整群抽样是对入选群中的所有 单元都进行调查,因此影响整群抽样误差的主要是 群间方差。为了提高整群抽样估计的精度,划分群 时应使群内方差尽可能大,群间方差尽可能小。
9
2018/10/11
缺点:
整群抽样由于调查单位只能集中在若干群上,而 不能均匀分布在总体的各个部分,因此,它的精 度比起简单随机抽样来要低一些。 例如,在一个有500个村庄、100000个农户的县, 抽取1%的农户就是1000户,而抽1%的村庄则只 有5个村庄,也许抽到的5个村庄农户多于1000, 但由于样本单位只集中在5个村庄,显然不如在全 县范围内简单随机抽取1000户分布均匀,代表性 一般要差一些,抽样误差较大。
2018/10/11
6
例如,在进行农村居民户收入情况调查时,在一 个县抽千分之五的村庄,对其所有居民户进行调 查,明显地比从全县直接抽千分之五的农户进行 调查,更便于组织,节省人力、旅途往返时间及 费用。
2018/10/11
7
3.整群抽样的随机性体现在群与群间不
重叠,也无遗漏,总体任何一个基本单元 都必须且只能归于某一群,群的抽选按概率 确定。 4.如果把每一个群看作一个单位,则整群 抽样可以被理解为是一种特殊的简单随机 抽样。理解这一点对给出整群抽样的估计 量的方差有帮助. 5.整群抽样也是多阶段抽样的前提和基 础。
第四章 整群抽样
4.1 4.2
4.3
引言 群规模相等时的估计 总体比例的估计
2018/10/11
1
第一节 引言
一.整群抽样的定义与特点 (一)定义 整群抽样(cluster sampling)或集团 抽样,是将总体划分为若干群,然后以群为 抽样单元,从总体中随机抽取一部分群, 对中选群中的所有基本单元进行调查的一 种抽样技术。
2. 实施调查便利,节省费用。 即使具备总体基本单元的名单,能直接抽取, 但总体基本单元在空间上的分布面很广,那么选定 调查单位后的调查工作却可能相当大。如果是实 地观测调查费用则很高,并需要较长的时间。
2018/10/11 5
对于整群抽样,由于样本单元的分布相对较集中, 在样本单元数相同的条件下,整群抽样与简单随 机抽样相比,虽然样本的代表性较差,但调查组 织实施过程更加便利,同时还可以大大地节省调 查费用。因此,实际工作中,在权衡费用和精度 之后,有时宁可适当增加一些样本单元数,也采 用整群抽样方法。
2018/10/11 16
注: 整群抽样与分层抽样的的比较
二者在分组(层或群)的条件、调查的方
式、分组(层或群)的目的、分组(层或 群)的原则、总体方差的分解等方面都存 在着较为明显的差别。
2018/10/11
17
群的规模大,估计的精度差但费用省;群的 规模小,估计的精度高但费用增大。
通常我们面临的总体会有自然的初级单元, 例如各所中学它们互相之间关于学生的体质很 相似,但在一个学校里每个学生之间有一定的 差异。 倘若需要我们自行划分群,一般还要考虑 到组织管理上的方便、精度上的要求以及费用 的多少等因素。
2018/10/11
10
当然,由于整群抽样省时省力,每个单元
的平均调查费用较少,我们可以通过多抽 几个群,适当增大样本量的方法弥补估计 精度的损失。
2018/10/11
11
二. 群的划分 1.根据行政或地域形成的群体; 如:村庄、城镇、一片森林等 2.调查人员人为确定的;
对可控制规模的群,群规模不宜过大