抽样估计与样本量确定(市场调查)

合集下载

抽样样本量的确定_图文

除了估计值的精度以外，调查实际操作的限制条件也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本整个调查持续的时间有多长调查需要多少访员能招聘到的访员有多少
1．给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的，就会产生抽样误差。精度是由抽样方差来测量的。随着样本容量的增加，调查估计值的精度也会不断提高。
表3: 显示了不同规模的总体在P=0.5时，使用简单随机抽样，且以误差界限为0.05、置信度为95%的标准估计P 所需的样本容量
总体规模 50 100 500
1,000 5,000 10,000 100,000 1,000,000 10,000,000
所需的样本量 44 80 222 286 370 385 398 400 400
抽样方差的几种计量方法
标准误差误差界限变异系数
抽样调查中样本容量的确定，也经常会使用一种或多种这样的计量方法来对精度进行说明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响非抽样误差的大小与样本容量的大小却没有很大的关系确定样本容量，就不必将这些误差作为影响因素加以考虑为确保调查结果的准确性，应该消除非抽样误差，至少应尽可能使之最小化
对于小规模总体，通常必须调查较大比例的样本，以取得所期望的精度。因此，实际操作中，对小规模总体经常采用普查而不是抽样调查。
6．样本设计和估计量
计算样本容量时，通常假定采用的抽样方式为简单随机抽样(SRS)。所以，如果样本容量计算公式假定为简单随机抽样。
分层抽样得到的估计值通常比相同规模的简单随机抽样更精确，或者至少一样精确。整群抽样得到的估计值，其精度通常低于使用同一估计量进行估计时的简单随机抽样的估计值的精度

第10章抽样估计与样本量确定

19
10.4 参数估计

参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。根据中心极限定理等推断理论所阐明的抽样分布与总体分布之间的关系，由样本统计量的具体值（估计值）估计总体参数。点估计区间估计

20

点估计

用样本的估计量直接作为总体参数的估计量。存在抽样误差。在点估计的基础上，对总体参数的区间或范围进行估计(样本统计量加减抽样误差)，点估计值落在该区间范围内的概率为置信度或置信系数或置信水平。
26
举例P227
已知：n 36,1 95%, 2 0.025,1 2 0.975. 根据样本计算得： x 39.5, s 2 60.37.
2 查 2分布表得知： , 12 2 n 1 20.6120 . 2 n 1 53.1604
课后思考与训练题 P237-238 第4、5、7题

28
10.5 样本量的确定

样本量的确定问题，首先涉及对总体参数估计值的精度要求，同时也涉及与各种运作限制（如可获得的预算、资源和时间）之间的平衡问题。抽样调查估计值的精度是对抽样误差大小的度量。因此确定样本量是为控制抽样误差，而不是非抽样误差。
该银行信用卡年龄方差 2在95%置信度下的置信区间为： 53.1604 20.6120 即， 39.75 2 102.51
36 -1 60.37 2 36 -1 60.37
结论是：在95%的置信度下，信用卡用户年龄标准差为 6.3 ~ 10.1岁.
27
练习题

12
10.3 抽样分布与抽样误差

总体分布：总体各单位的观测值所形成的频数分布。样本分布：一个样本中各个观测值形成的频数分布。抽样分布：样本统计量的抽样分布是一种理论分布，是指在重复抽取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布。

第五章抽样：样本容量的确定(市场调研-北京大学,胡健颖)

9
第五章抽样：样本容量的确定
3）均值或比例的标准误差（standard error），或抽样平均误差，公式为：均值比例
x

n
P
P(1 P) n
2014-2-6
北京大学光华管理学院胡健颖
10
第五章抽样：样本容量的确定
4) 通常总体标准差 σ 是未知的，在这种情况下，可以通过下面的公式从样本中估计总体的标准差：均值比例
思考题： ① 迪斯尼世界的调查表明，有 60%的老顾客喜欢玩滑行铁道。若要求误差不超过 2%，置信度为 90% （Z 值查参考书 552 页），求所需的样本容量。 ② 客户要求置信度为 99%，允许抽样误差为 2%，按此计算出需要样本容量为 500，调查费用是 20，000 美元，但他只有 17，000 美元的预算，问有没有其他方案可供选择？ ③ 在具有什么条件下，进行调查前就可以将样本容量确定下来？
在确定估计比例所需的样本容量时有一个优势：如果缺乏估计 P 的依据，可以对 P 值做最糟糕的假设。给定 Z 值和 E 值，P 值为多大时要求的样本容量最大呢？当 P=0.05 时， “P(1-P)”有极大值 0.25 存在。
2014-2-6
北京大学光华管理学院胡健颖
30
第五章抽样：样本容量的确定
2014-2-6
北京大学光华管理学院胡健颖
25
第五章抽样：样本容量的确定
表 5-1 1000 个样本平均数的概率分析：最近 30 天内吃快餐的平均次数次数分组 2.6-3.5 3.6-4.5 4.6-5.5 5.6-6.5 6.6-7.5 7.6-8.5 8.6-9.5 9.6-10.5 10.6-11.5

抽样数量的确定

抽样数量的确定探索性研究，样本量一般较小，而描述性研究，就需要较大的样本；收集有关许多变量的数据，样本量就要大一些；如果需要采用多元统计方法对数据进行复杂的高级分析，样本量就应当更大；如果需要特别详细的分析，如做许多分类等，也需要大样本。

针对子样本分析比只限于对总样本分析，所需样本量要大得多；总体指标的差异化越大，需要的样本量就越高；调研的精度越高，样本量越大。

简单随机抽样设计，设计效应等于1；分层抽样设计，设计效应一般小于等于1；整群或多阶抽样设计，设计效应一般大于等于1。

在实际中，在确定样本量时，不考虑时间和费用这两个极为重要的因素是不可思议的。

最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。

最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。

有关样本量的经验估计：如果是大型城市、省市一级的地区性研究，样本数在500-1000之间可能比较适合；而对于中小城市，样本量在200-300之间可能比较适合；如果是多省市或者全国性的研究，则样本量可能在1000-3000之间比较适合。

对于分组研究的每组样本量应该不少于50个。

通过试验设计所作的研究，可以采用较小的样本量。

如产品试用（留置）调查，在经费有限的情况下，可以将每组的样本量降低至30个左右，最好每组在50以上，每组超过100个可能是一种资源浪费。

样本量的计算公式：1）对于简单随机抽样，给定均值估计的精度（100％回答）简单随机抽样下，通常使用误差限和估计量的标准差来确定所需的样本量。

其中，为置信区间的值，为估计量的标准差，e为调查误差，N为总体大小。

2) 对于简单随机抽样，给定比例估计的精度（100%回答率）于是公式（1）变为：若在以往调查中可得总体比例的一个较好估计，那么直接将它代入上面的公式就可以得到所需的样本量；否则可以用，因为这时总体的方差最大。

则公式简化成市场调研中常采用该公式来确定最低样本量。

市场调研样本容量的确定

怡丰城市场调研样本容量的确定在参数区间估计的讨论中，估计值和总体的参数之间存在着一定的差异，这种差异是由样本的随机性产生的。

在样本容量不变的情况下，若要增加估计的可靠度，置信区间就会扩大，估计的精度就降低了。

若要在不降低可靠性的前提下，增加估计的精确度，就只有扩大样本容量。

当然，增大样本容量要受到人力、物力和时间等条件的限制，所以需要在满足一定精确度的条件下，尽可能恰当地确定样本容量。

一、影响样本容量的因素（一）总体的变异程度(总体方差)在其它条件相同的情况下，有较大方差的总体，样本的容量应该大一些，反之则应该小一些。

例如：在正态总体均值的估计中，抽样平均误差为它反映了样本均值相对于总体均值的离散程度。

所以，当总体方差较大时，样本的容量也相应要大，这样才会使较小，以保证估计的精确度。

（二）允许误差的大小允许误差指允许的抽样误差，记为，例如，样本均值与总体均值之间的允许误差可以表示为，允许误差以绝对值的形式表现了抽样误差的可能范围，所以又称为误差。

允许误差说明了估计的精度，所以，在其他条件不变的情况下，如果要求估计的精度高，允许误差就小，那么样本容量就要大一些；如要求的精确度不高，允许误差可以大些，则样本容量可以小一些。

（三）概率保证度1－α的大小概率保证度说明了估计的可靠程度。

所以，在其他条件不变的情况下，如果要求较高的可靠度，就要增大样本容量；反之，可以相应减少样本容量。

（四）抽样方法不同在相同的条件下，重复抽样的抽样平均误差比不重复抽样的抽样平均误差大，所需要的样本容量也就不同。

重复抽样需要更大的样本容量，而不重复抽样的样本容量则可小一些。

二、样本容量的计算在计算样本容量时，必须知道总体的方差，而在实际抽样调查前，往往总体的方差是未知的。

在实际操作时，可以用过去的资料，若过去曾有若干个方差，应该选择最大的，以保证抽样估计的精确度；也可以进行一次小规模的调查，用调查所得的样本方差来替代总体的方差。

抽样样本量的确定

对于简单随机抽样设计，设计效果 = 1 对于分层抽样设计，设计效果 1 对于整群抽样设计，设计效果 1
SSI
精品
第33页
7．回答率
所有的调查都会遇到无回答的困扰即：由于某些原因，不能获得被抽中样本单位的信息
当一个被调查单位的所有或几乎所有的数据都缺失时，我们就称之为完全无回答（或称单位无回答）
培训访员，等等），这样做可能更有效率
SSI
精品
第21页
4．总体的变异程度
调查总体中，我们所研究的项目或指标，对于不同的个人、住户或企业，得到的估计结果可能会有很大的不同。虽然我们不能控制这种变异性，但它的大小却影响到了给定精度水平下，研究项目所必需的样本容量。
SSI
精品
第22页
我们来看假设有一个首次开展的调查，试图估计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标，设置两个可能的值：满意或者不满意。
❖ 整群抽样得到的估计值，其精度通常低于使用同一估计量进行估计时的简单随机抽样的估计值的精度
SSI
精品
第32页
设计效果因子
一般来说，当样本容量的计算公式假定为简单随机抽样SRS，但使用的是更复杂的选样方式时，达到既定精度所需的样本容量应
该乘以设计效果因子。
设计效果=对于同样规模的样本容量，给定样本设计下估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。
其中，总体方差S2是最不容易得到的，通常需要根据过去对类似总体所做的研究作近似计算。
SSI
精品
第39页
求比例样本容量的确定
下面用一个例子，说明估计比例问题时样本容量的确定过程。
在这一例子中，所需的精度是根据误差界限确定的，所研究的指标取两个值，即P和1-P。在这种情况下，对于大总体，且估计量服从正态分布时， P的总体方差为：

如何确定抽样方法与样本量

如何确定抽样方法与样本量在设计一个抽样调查时，我们通常需要做的工作是：定义总体及抽样单元、确定或构置抽样杠、选择样本量的大小、制定实施细节并实施。

在这本小册子中我们着重介绍一下定量研究的抽样和样本量这两个技术环节。

最基本的定量研究的抽样方法分为两类，一类为非概率抽样，一类为概率抽样。

一．非概率抽样非概率抽样是不能计算抽样误差的，因为它是靠调研者个人的判断来进行的抽样。

它包括偶遇抽样或者方便抽样、判断抽样、配额抽样、雪球抽样等。

偶遇抽样（方便抽样）常见的未经许可的街头随方或拦截式访问、邮寄式调查、杂志内问卷调查等都属于偶遇抽样的方式。

偶遇抽样是所有抽样技术中花费最小的（包括经费和时间）。

抽样单元是可以接近的、容易测量的、并且是合作的。

但尽管有许多优点，这种形式的抽样还是有严重的局限性。

许多可能的选择偏差都会存在，如被调查者的自我选择、抽样的主观性偏差等。

这种抽样不能代表总体的推断总体。

因此，当我们在进行街头访问或邮寄调查时，一定要谨慎对待调查结果。

判断抽样判思抽亲是基于调研者对总体的了解和经验，从总体中抽选“有代表性的”“曲型的”单位作为样本，例如从全体企业作为样本，来考察全体企业的经营状况。

如果判断准，这种方法有呆取得具有较好代表性的样本，但这种方法受主观因素影响较大。

配额抽样配额抽样是根据总体的结构特征来给调查员分派定额，以取得一个与总体结构特征大体相似的样本，例如根据人口的性别、年龄构成来给调查员规定不同性别、年龄的调查人数。

配额保证了在这些特征上样本的组成与总体的组成是一致的。

一旦配额分配好了，选择样本元素的自由度就很大了。

唯一的要求闵是所选取的元素要适合所控制的特性。

这种抽样方法的目的是使样本对总体具有更好的代表性，但仍不一定能保证样本就是有代表性的。

如果与问题相关联的某个特征是十分困难的。

另外，用这种方法进行选择严格控制调查员和调查过度程的条件下，可使配额抽样获得与某些概率抽样非常接近的结果。

市场调查与分析抽样技术

市场调查与分析抽样技术
什么是分层抽样和分层随机抽总体均值或总量的估计—估计
市场调查与分析抽样技术
对总体均值或总量的估计—无偏性
市场调查与分析抽样技术
对总体均值或总量的估计—方差
市场调查与分析抽样技术
对总体均值或总量的估计—方差估计
市场调查与分析抽样技术
对总体比例的估计—无偏性
市场调查与分析抽样技术
对总体比例的估计—方差
市场调查与分析抽样技术
对总体比例的估计—方差估计
市场调查与分析抽样技术
分层抽样与简单随机抽样比较
市场调查与分析抽样技术
市场调查与分析抽样技术
若
市场调查与分析抽样技术
如果不考虑近似的因素
市场调查与分析抽样技术
各层样本量的分配
求出所需样本的平均含量？是P的无偏估计
市场调查与分析抽样技术
分层抽样
分层抽样是对所要认识的总体，利用已知总体有关调查指标的信息，先依据某种标准把总体划分若干层，然后在每一层中随机抽出一部分样本单位构成样本的一种抽样方法。
分层抽样的特点和适用场合: ❖可以得到层的数据 ❖便于组织，方便实施管理 ❖样本更具代表性 ❖提高精度
最优分配—总体比例时的情形
比例分配—分配
市场调查与分析抽样技术
比例分配—自加权样本
市场调查与分析抽样技术
比例分配—方差及估计
市场调查与分析抽样技术
比例分配—估计总体比例时的情形
市场调查与分析抽样技术
最优分配—分配
市场调查与分析抽样技术
市场调查与分析抽样技术
最优分配—Neyman分配
市场调查与分析抽样技术
市场调查与分析抽样技术
Polize-Simmons校正方法

《市场调查与预测》课程教学大纲

《市场调查与预测》课程教学大纲课程名称：市场调查与预测课程代码：1739041课程类型：专业核心课学分：3.5 总学时：64 理论学时：48 实践学时：16先修课程：市场营销学适用专业:市场营销一、课程性质、目的和任务本课程是市场营销专业的专业核心课。

通过本课程的学习，应使学生比较全面系统地掌握市场调研的基础理论和基本方法，在市场营销活动中经常应用的调查、测量方法，同时具备分析基础数据和撰写调查报告的能力。

培养学生严谨的市场调查研究的态度和职业素质。

二、教学基本要求1．知识、能力、素质的基本要求本课程是市场营销专业课程，通过对市场调查的基本概念、调查内容、调查方法技巧、调查过程特点及其每一阶段的具体操作（包括调查方案企划设计、调查抽样、调查实施、调查资料整理设计分析、调查报告书撰写）等方面知识技能的讲解分析与实践训练使学生能够理解掌握现代市场调查的专业知识与专业操作技能技巧，并能比较熟练且规范地开展各种类型的市场调查。

2．教学模式基本要求本课程在学科体系上属于市场营销的一个分支，但其内容又与多种学科相融合，涉及《市场营销学》、《心理学》、《统计学》等多学科的知识，所以，在本课程的教学过程中，应注意其学科特点与学习方法，重点系统论述市场调研与预测的基本理论、方法和技术。

3．考核方法基本要求成绩评定包括平时考查、期中考试和期末考试3种形式。

平时考查成绩占总成绩的20%，期中考试占总成绩的20%，期末考试成绩占总成绩的60%。

其中平时过程性考查主要课堂出勤10分；课后作业、课堂讨论、课内实践等综合评定10分。

平时考核要求作业最少8次，少一次作业扣2分，作业完成质量不高每次扣1分，扣完10分为止；旷课一次扣2分，迟到一次扣1分，扣完10分为止。

三、教学内容及要求第1篇市场调查设计总论第1章市场调研职能1.教学内容1.1 市场调研及其基本分类 1.2 市场调研的功能与价值1.3 市场调研的局限 1.4 市场调研的历史与现状2．教学要求了解市场、市场信息的概念；了解市场调研的历史与现状；理解市场调研的功能与价值；掌握市场调研的含义及基本分类。

在市场研究中样本量的确定

在市场研究中，常常有客户和研究者询问：“要掌握市场总体情况，到底需要多少样本量？”，或者说“我要求调查精度达到95%，需要多少样本量？”。

对此，我往往感到难以回答，因为要解决这个问题，需要考虑的因素是多方面的：研究的对象，研究的主要目的，抽样方法，调查经费…。

本文将根据自己的经验，探讨在市场研究中确定调查所需样本量的一些基本方法，相信这些方法对于其他的社会调查研究也有一定的借鉴意义。

确定样本量的基本公式在简单随机抽样的条件下，我们在统计教材中可以很容易找到确定调查样本量的公式（1）：其中：n：代表所需要样本量Z：置信水平的Z统计量，如95%置信水平的Z统计量为1.96，99%的Z为2.68。

S：总体的标准差;d ：置信区间的1/2，在实际应用中就是容许误差，或者调查误差。

对于比例型变量，确定样本量的公式为（2）:其中：n ：所需样本量Z：置信水平的z统计量，如95%置信水平的Z统计量为1.96,99%的为2.68p：目标总体的比例期望值d：置信区间的半宽关于调查精度通常我们所说的调查精度可能有两种表述方法：绝对误差数与相对误差数。

如对某市的居民进行收入调查，要求调查的人均收入误差上下不超过50元，这是绝对数表示法，这个绝对误差也就是公式(1)中置信区间半宽d。

而相对误差则是绝对误差与样本平均值的比值。

例如我们可能要求调查收入与真实情况的误差不超过1%。

假定调查城市的真实人均收入为10000元，则相对误差的绝对数是100元。

公式的应用方法对于公式的应用，一些参数是我们可以事先确定的：Z值取决于置信水平，通常我们可以考虑95%的置信水平，那么Z=1.96；或者99%，Z=2.68。

然后可以确定容许误差d（或者说精度），即我们可以根据实际情况指定置信区间的半宽度d。

因此，公式应用的关键是如何确定总体的标准差S。

如果我们可以估计出总体的方差（标准差），那么我们可以根据公式计算出样本量：例如：要了解该城市的居民收入，假定我们知道该市居民收入的标准差为1500，要求的调查误差不超过100元，则在95%的置信水平下，所需的样本量为：即需要调查的样本量为864个。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

調查分析預測
MRAF
第10章抽样估计与样本量确定
1
調查分析預測
开篇案例
“百脑汇”调研中的样本计划问题
MRAF
• ―百脑汇”在中国华北几个省市经营连锁电脑超市，它希望获得更多关于其现有客户特点方面的信息。接受调研委托的李文博士指派班上的王洪同学为样本计划小组的负责人。 • 通过与“百脑汇”的市场部经理乔兰的初次会谈，王洪了解到调研的一个主要目的是分别按人口和心理因素来估计 “百脑汇”的客户构成和比例。此外，确认总体估计值不超过实际值的±5．0％，可靠度为95％。 • 为了达到这些要求，王洪和他的小组正努力寻找计算所需样本容量的方法。
[例10．5] 计算过程
步骤 1：设计权数是入样概率的倒数，设计权数计算如下： wd＝N/n=780/100=7.8 步骤 2：利用设计权数，计算得到调查估计值，如表10-4所示。估计公司男女性职员各有429名和351名，且吸烟比例不同。假定调查完成后，得到如下辅助信息：该公司实际共有360名男性职员和420名女性职员。如何利用这个辅助信息呢？步骤 3：对样本分层，计算事后分层权数用于估计。事后分层权数W pst是事后层的辅助变量总和除以该层回答单元的数量。 N 男性 360 w 6.55 其中，男性的事后分层权数为： pst ,男性 n r，男性 55 女性的事后分层权数为：w pst ,女性
表10-5 利用辅助信息对抽样调查估计值的调整
事后分层估计值吸烟人数总人数吸烟者比例
男性 164 360 0.455
女性 47 420 0.111
总计 211 780 0.271 12
在抽样后利用辅助信息计算分层权数用于估计，估计值如表10-5。
調查分析預測
MRAF
10．3 抽样分布与抽样误差
3
調查分析預測
MRAF
10．2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元数，它是由抽样设计所决定的，通常以wd表示。确定设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如入样概率是1/10，那么每个入选样本代表总体中的10 个单元，此时设计权数即为10。 – 不同样本单元的设计权数可能不同，这取决于抽样设计。因此，加权估计应区分等概率抽样的加权和不等概率抽样的加权。
步骤1：计算设计权数。入样概率p为：P=n/N=25/100=1/4 故，每个样本单元的设计权数为4。步骤2：计算无回答调整因子。由于在n＝25人中只有nr=20人提供了所需的信息，最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元，计算无回答调整因子为： n / nr = 25/20 = 1.25 步骤3：计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积：
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计，该比值可用原样本的单元数与给出回答的单元数的比值来表示。 • 无回答权数调整应区分两种不同情况：
– 等概率抽样 – 不等概率抽样
8
調查分析預測
MRAF
对无回答的权数调整(SRS)
表10-2 公交系统调查的分层数据层城市农村总体大小 N1＝1000 N2＝100 样本量 n1＝200 n2＝50 回答者数量 nr,1＝150 nr,2＝40
• [例10．4] 对于一项公共交通系统调查，总体由1100人组成，并按城乡分为两个层。分层及样本数据如表10-2所示。那么，回答者的权数是多少？
中心极限定理，概括为：
设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本，当n足够大(n 30)时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
16
調查分析預測
MRAF
样本比例的抽样分布
• 样本比例的抽样分布，是在重复抽取容量为n的样本时，由样本比例的所有可能取值形成的相对频数分布。 • 比较样本比例的分布与总体分布，得出如下结论：
2
調查分析預測
MRAF
10．1 引言
• 估计就是根据从样本中收集的信息对总体未知量进行推断的过程。 • 抽样估计涉及的重要问题：
– 一个样本单元的设计权数问题。 – 抽样估计，包括总体总量、均值和比例以及抽样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和内容。同时，样本量的确定与样本估计值的精度密不可分。
• 抽样调查的目的是要对总体做出推断。 • 了解统计推断的理论基础，首先注意区分三种不同性质的分布：
– 总体分布 – 样本分布 – 抽样分布
• 同时，特别注意总体分布与抽样分布的关系。
13
調查分析預測
MRAF
三种不同性质的分布
• 总体分布：总体各单位的观察值所形成的频数分布，总体分布通常是未知的。 • 样本分布：一个样本中各个观察值所形成的频数分布就叫做。当样本容量n逐渐增大时，样本分布逐渐接近总体的分布。 • 抽样分布：样本统计量的抽样分布，是指在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。 • 抽样分布提供了样本统计量长远而稳定的信息，是进行推断的理论基础。
步骤1：各层的设计权数为：城市层 wd,1＝N1/n1==5 农村层 wd,2＝N2/n2==2 步骤2：调整以弥补无回答。各层的无回答调整因子计算如下：城市层：n1 / nr,1==200/150==1.33 农村层：n2 / nr,2==50/40==1.25 步骤3：无回答的调整权数等于设计权数与无回答调整因子的乘积：
– 当样本容量足够大时，样本比例的抽样分布近似地服从正态分布，样本比例的数学期望等于总体比例，即E(p)=π；在重复抽样条件下，样本比例的方差为总体方差的1/n，即
样本比例的方差：
Sp
2
(1 )
n
样本比例 S 的标准误： p
(1 )
n
• 样本比例的中心极限定理
– 设从比例为π、方差为 2的一个任意总体中随机抽取容量为n的样本，当n足够大(n 30)时，样本比例的抽样分布近似服从比例为π、方差为(1-)/n的正态分布。
調查分析與預測 MRAF
从总体分布到抽样分布
[例10．6] 设一个总体，含有4个元素(个体) ，即总体单位数 N =4。4个个体分别为x1=1，x2=2，x3=3，x4=4。可以计算总体均值、方差及其分布。
总体均值

x
i 1
N
P(x)
i
N
N
1 2 3 4 2.5 4
i
0.3 0.2 0.1
MRAF
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况：
– 考虑无回答的情况，然后对权数做出调整； – 考虑来自其他渠道的、更具权威性的某些辅助信息，将它们合并到权数中。
7
調查分析預測
MRAF
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而，如果发现忽略单元无回答是不适当的，则应该对权数进行调整。即，
表10-6 各种分布的均值、比例和标准差的符号表示
分布类型
均值
比例
标准差
总体分布样本分布
抽样分布

X

x
P
P
SX
S
SP
14
調查分析預測
MRAF
样本均值的抽样分布
• 样本均值的抽样分布，是指在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布。 • [例10．6]设一个总体，含有4个元素，即总体单位数N =4。4个个体分别为 x1=1, x2=2, x3=3, x4=4。则总体分布如图10-1。 • 现在从总体中有放回地抽取n＝2的简单随机样本，则样本均值的抽样分布如图10-2。
城市层：
农村层：
w nr,1 w d,1
w nr,2
n1 5 1.33 6.67 n r,1 n w d,2 2 2 1.25 2.5 n r,2
10
調查分析預測
MRAF
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢？
– 首先，使调查的估计值与已知总体总值相匹配。例如，使用最新的人口普查数据来调整估计值，以确保这些估计值(如年龄、性别分布等)的一致性。 – 二是为了提高估计值的精度。将辅助信息与抽样设计相结合，将有助于提高估计的精度。
N 女性 n r，女性 420 9.33 45
回答者数量
男性
女性
总计
吸烟人数
总人数调查的估计值
25
55 男性
5
45 女性
30
100 (nr) 总计
表10-4 根据某公司吸烟习惯抽样计算的估计值
吸烟人数
总人数吸烟者的比例
195
429 0.455
39
351 0.111
234
780 0.30
4
பைடு நூலகம்查分析預測
MRAF
等概率抽样的加权
• 当每个单元都有相同的入样概率时，所有样本单元的设计权数都相同，这种抽样就是自加权设计。
– SRS抽样和SYS抽样都属于自加权设计，比例分层抽样也是自加权设计。 – 另外， PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计，如果无需对权数调整，则在计算比例、均值等估计量时可将其忽略，对总值估计也仅需将样本总值乘上某个倍数。