第10章抽样设计

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3
总体
总体是市场研究项目的目标明确规定的整个集合。市场研究人员必须非常精确地对研究项目的总体进行
定义,因为总体定义错误对于一项调查可能是毁灭性的。
4
例如,有一家叫做 “德米尼克虫害控制”
的公司,它的产品是针对家中的蟑郎、蚂蚁、蜘蛛等昆虫的杀虫剂。
5
模糊的定义
可能使用我们的服务的每一个人
在概率抽样中，总体的每个成员有一个已
知的、非零的机会被选入样本中，总体的每个成员选入样本的机会可以不等，但是每个成员有一个已知的选入概率，这个概率由用于选择样本元素的具体程序来确定。
39
对于非概率抽样，没有办法估计任何总体元素被
选入样本的概率，即总体的每个成员被选入样本的概率是未知的。这无法保证样本是总体的代表。
12
抽样框误差主要来自两方面:
①总体一部分成员不在抽样框内 ②抽样框内一部分成员不属于目标总体。
13
抽样框误差的评估
①判断列入抽样框中的成员与总体的差异程度—— 抽样框中属于总体成员的数量占抽样框全部成员数量的百分比称为关联率。
关联率=抽样框中属于总体成员的数量/抽样框全部成员数量
14
28
在实际中有三种替代方法：舍弃、过多抽样、再抽样。
29
“舍弃”替代
舍弃替代在系统抽样中经常使用。假定我们已使用电话目录作为抽样框,你是访问者,要求你对每 100人电话访问一次。在你第一个电话中,这个人拒绝参与调查。如果应用舍弃替代法,你的职责是赶紧拨打该人之后的电话号码。如果这个人也拒绝参与，再找下一个名字，如此直到你找到一个合作的受访者。
15
②估计总体中哪些成员未列入抽样框中。
在全部10000户南磨房家庭中，有500户的电话号码没有被
列入到抽样框（10500个电话号码表），但是这500户家庭在全部南磨房乡1万户家庭中所占的比例很小 (500/10000=0.05),我们判断对于整个抽样影响不大。
16
选择抽样框的标准
（1）关联率较高（2）未列入抽样框中的总体成员对抽样结果影响不大。
32
再抽样
再抽样是在初始样本抽取后利用抽样框抽取更多名字
的程序。由于反应率低于期望值,因此需要抽取更多有希望的受访者，直到达到所需样本容量。当然,必须制定规则保证出现于原始样本中的有希望的受访者不被包括在再抽样中。
33
（5）样本有效性检验
样本有效性检验有多种形式,例如可以将样本的人
35
（6）必要时再抽样
当样本有效性检验失败时,意味着它不能充分代表总体。
此时可以可以执行再抽样,选择更多的受访者加入样本直至达到一个令人满意的有效化水平。
36
10.2 抽样技术
10.2.1 概率抽样
10.2.2 非概率抽样
37
抽样技术可以归为两大类别：概率抽样和
非概率抽样。
38
41
10.2.1 概率抽样
（1）简单随机抽样
（2）系统抽样（3）整群抽样
（4）分层抽样
42
（1）简单随机抽样
在简单随机抽样中,对于总体的所有成员,选入样本的
概率是已知的和相等的。这个抽样技术可以下式表达：选择的概率＝样本容量/总体容量
简单随机抽样的例子包括“抽签法”和随机数表法。
19
抽样的好处
容量不超过2000的样本就可以令人满意
地代表容量无限大的总体。
20
10.1.3 开发样本计划的程序
（1）定义总体（2）识别抽样框（3）设计样本计划(方法、容量) （4）抽取样本,收集数据（5）样本有效性检验（6）必要时再抽样
21
（1）定义总体
总体必须明确化——将目标总体的模糊描述转换成相
研究人员需事先确定具体抽样方法或抽样方法的组合。
没有一个适用于所有情况的“最佳”抽样方法。
26
抽样方法在整个抽样过程中应当保持一致，这一点对于调查的成功是至关重要的。
27
（4）抽取样本,收集数据
本步骤分为两个阶段：首先应选择组成样本的元素;其次,从这个元素中获取信息。简单地说,调研员需要选择一个人然后询问他一些问题。在这个步骤中，必须注意“替代”问题：即在访问中不是每个人都愿意回答，某些被选入样本的人不愿回答或证明不适合回答某些问题，因此必须找出一个替代的人接受访问。
53
系统抽样的缺点：如果在元素列表中存在自然的周期
性，系统抽样可能产生严重误差。
7
普查
普查被定义为对整个总体的报告
8
抽样误差
抽样误差是在调查中因使用的样本而发生的任何误差。
抽样误差由两个因素引起:①样本选择的方法;②样本
容量。 ③被研究总体各标志值的差异程度
9
抽样框和抽样框误差
抽样框是包含总体（部分）成员的一个列表。注意：抽样框可能还会包含非总体成员，总体的一部
某个成员在随机开始点之后,选择每第4 （N）个元素作为一个样本
48
系统抽样要求研究人员决定一个“跳跃区间”,将列表
中名字的个数除以样本容量得到跳跃区间。在跳跃区间的基础上选择样本。跳跃区间以下列公式简单求得: 跳跃区间＝总体容量/样本容量
49
假设一个由20个元素组成的总体,将从这个总体中选择
51
抽取系统样本比选择同容量的简单随机样本容易得多。
对于系统样本调查者只需进入随机数表一次。对于简单随机样本比较麻烦的元素重复的问题,在系统抽样中不存在。所有的元素由随机开始点的选择而惟一确定。
52
系统抽样比简单随机抽样更具代表性
例如，要调查居民的购房意向，调研人员采用系统抽样方法进行抽样。按照居民的收入水平从低到高排序，然后确定跳跃区间并选择样本。这样的抽样方式可以保证高、中、低收入的居民都能够进入到样本中，从而使得样本更具代表性。若采用简单抽样法，则样本不一定能充分代表高、中、低收入者。
容量为5的样本,将这些元素标为1到20。
50
对于20个总体元素和5个样本容量,跳跃区间为20/5=4,
意味着在随机开始点之后,选择每第4个元素取一个样本。这个随机开始点,必须是介于1和4之间的某个数字, 由随机数表确定。这样如果随机开始点是1,第 1,5,9,13和17项将组成样本;如果它是2,则第 2,6,10,14和18项将组成样本,如此等等。
11
例如,如果市场研究的总体是全部注册会计师,则可以
注册会计师协会的成员目录作为抽样框。这是一个比较完美的抽样框。例如，要调查工大全部MBA同学购买新能源汽车的意愿，则全部MBA同学的名单录就是一个完美的抽样框。但是，在实际调研中，往往很难得到这样完美的抽样框。此时就产生了抽样框误差问题。
47
从20个单位的总体中抽取容量为5的一个样本——系统抽样 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20
跳跃区间=总体容量/样本容量=20/5=4（N）确定随机起始点——介于第1和4（N）个总体成员之间的
第10章抽样设计
10.1 样本设计概述
10.2 抽样技术 10.3 样本容量
1
10.1 样本设计概述
10.1.1 样本和抽样
10.1.2 抽样的原因 10.1.3 开发样本计划的程序
2
10.1.1 样本和抽样
总体
样本和样本单位普查抽样误差抽样框和抽样框误差
当具体的人口统计学特征或其他特征,这些特征能将目标总体与其他总体区分开来。人口统计学特征——年龄范围、收入范围、受教育程度等等。
22
（2）识别抽样框
在一些研究中,可以得到以不同种类的目录形式存在的
候选列表。在其他情况下,可从第三方专业公司购得一些商业目录
23
大多数列表存在抽样框误差,或者一些总体成员未列入
43
简单随机抽样的优点
①简单随机抽样能得到总体特征（均值、方差）的无偏估计值。 ②简单随机抽样方法保证总体的每个成员都有一个已知和相等的可能性被选入样本,因此得到的样本不管容量是多大,都将是总体的一个有效代表。
44
简单随机抽样的缺点
简单随机抽样要求总体元素的完整列表，即要求总体每个成员的身份是已知的。
精确的定义
由负有控制虫害责任的“德米尼克虫害控制”提供服务的大城市地区的家庭的户主"
6
样本和样本单位
样本是总体的一个子集，它应具有对总体的代表性。抽样时必须使样本具有代表性，这是评价样本有效性
的最基本的标准。样本单位是组成样本的基本单位。如,在德米尼克虫害控制公司的例子中,样本单位是家庭。
46
（2）系统抽样
系统抽样是替代简单随机抽样的最普遍的抽样技术之
一。它比简单随机抽样更为流行, 应用更为容易,能在比简单随机抽样更短的时间内完成。而且,在许多例子中,系统抽样有生成一个与简单随机抽样在质量上几乎完全相同的样本的潜在可能。与简单随机抽样一样,使用系统抽样,必须获得总体的列表。
某些总体符合这个要求。例如,如果该项研究是在
《财富》杂志的全美最大的500家公司名录中执行。该名录已经存在,非常容易选择这些公司的一个简单随机样本。。
45
而对于许多其他感兴趣的总体(例如,居住在一个特定
城市中的所有家庭),全部元素的列表很难得到,市场研究人员因此经常转向其他的抽样方案
30
然后你继续100的跳跃区间,使用第一个拒绝者的名字
作为跳跃点，进行下一次电话访问（从下一个100人的名录中选择一个进行电话访问）。
31
过多抽样
过多抽样是一个可选择的的替代法。它是调研者对关
联率、无无反应率和不可用反应的认识的结果。例如,如果对于邮寄调查问卷的反应率通常在20%左右, 那么为了获取200个受访者的最终样本,就应将1000个潜在受访者抽取入邮寄样本。
分成员可能不在抽样框中。
总体 A ——工大220名 MBA学生
抽样框 B——230名学生名单，其中包含工大200名MBA学生在内，另有30名学生是北京其它高校的MBA
10
例如，要调查南磨房乡老百姓的牛奶消费情况，我们
以南磨房乡全部家庭的电话号码作为抽样框，就会产生抽样框误差。因为，一部分家庭将住房出租给非南磨房乡的人住，这部分家庭的牛奶消费状况就难以通过电话访问获得；同时，有少部分家庭没有装电话，因此无法通过电话访问。
17
在市场调查中，选择抽样框的原则是——以合理的成
本寻求误差最小的抽样框。
18
10.1.2 抽样的原因
（1）对于即使是中等容量的总体的普查,其成本也非常昂贵,并且耗时很长。（2）在某些情况下,普查是不可行的。例如,市场研究人员想要调查某汽车生产商的用户对其汽车产品的售后服务满意度（用户数量多）。
列表,或者列表列入了一些非总体成员。
24
（3）设计样本计划(方法、容量)
在对总体的精确定义和理解了抽样框的限制条件后,研
究人员进入了样本设计阶段,开始考虑不同数据收集方法的成本。
25
也就是说,研究人员开始综合考虑样本设计、数据收集
成本和样本容量。
对统计精确性的追求与效率及经济的要求是互相矛盾。
百度文库
例如电话访问南磨房乡老百姓购买牛奶的状况，假设每个家庭只有一个电话号码。假设南磨房乡全部家庭有1万户，现在得到一个抽样框——含有10500户家庭的电话号码表，其中有 9500个电话号码是属于南磨房乡家庭的。关联率=抽样框中属于总体成员的数量/抽样框全部成员数量 =9500/10500=0.90 因此关联率比较高。
非概率抽样依赖于样本选择过程中的个人判断，
而不是依赖于选择样本成员的程序。这些判断即使可以得到关于总体特征的的良好估计，也没有办法客观判定样本是否充分。
40
只有当元素以已知的概率选入时，研究人员才能评估
样本结果的精确性。
因此，概率抽样可以估计抽样误差的程度，通常被认
为是更好的办法。
口统计轮廓与已知的档案如人口普查资料进行比较。对于配额样本的有效性检验,研究者必须使用另外的人口统计特性来建立配额系统。
34
样本有效性检验的实质是向客户做出保
证,这个样本是决策者希望对其做出决策的总体的具有代表性的样本。尽管不是所有研究者都执行样本有效性检验,然而对总体的人口统计轮廓存在预先了解时,还是推荐执行。

第10章 抽样设计

第10章抽样设计