利用总体变异系数特征预先确定调查所需样本量的方法

利用总体变异系数特征预先确定调查所需样本量的方法
利用总体变异系数特征预先确定调查所需样本量的方法

抽样调查样本量确定

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

如何确定抽样统计的最小样本量

如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格) 在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为 ?a方支持率为%; ?b方支持率为%; ?c方支持率为%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况); 最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采 样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为 1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=,置信度为90%时,=,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样为y 相对抽样误差h = E / y C= σ / y 以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 置信度相对抽样误差(假设:C=

样本量的确定

样本量的确定 北京广播学院新闻传播学院 调查统计研究所 二零零一年五月 沈浩 本讲主要内容 如何计算简单随机抽样的样本量确定 如何实现分层抽样中各层样本单位数的分配样本容量的确定 样本量=费用+精度 (函数) 确定样本容量,需要处理好预定的精度与现有经费,同时也要考虑资源和时间等限 制条件,最终的样本量确定是在上述因素之间的权衡关系。分层抽样分配样本的标准 总的样本容量事先确定 估计值要求达到的精度预先给定 影响调查样本容量的因素 调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小

样本设计和所使用的估计量 无回答率 客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少 除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因 素。 11>(给定精度水平下样本容量的确定样本容量的大小与调查估计值所要求的精度紧密相关 数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。标准误差 误差界限 变异系数 抽样方差的几种计量方法 抽样调查中样本容量的确定,也经常会使用一种或多种这样的计量方法来对精度进 行说明。 非抽样误差 非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑

变异系数、偏度、峰度的认识及应用

变异系数、偏度、峰度的认识及应用

变异系数、偏度、峰度的认识及应用、变异系数 1名词解释: 变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数 不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均 数的比值(相对值)来比较。简单来说就是:在表示离散程度上,标准 差并不是全能的,当度量单位或平均数不同时,只能用变异系数了,它 也是表示离散程度,是标准差与平均数的比值称为变异系数,记为 C- V。变异系数可以消除单位和(或)平均数不同对两个或多个资 料变异程度比较的影响。 2、计算公式 变异系数C.V =(标准偏差S D-平均值MN )X 1 00% 3、应用: 例题:已知某良种猪场长白成年母猪平均体重为190 k g,标准差为1 0.5kg而大约克成年母猪平均体重为1 96kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。 此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用 变异系数来比较其变异程度的大小。

由于,长白成年母猪体重的变异系数:C.V = 10.5 / 190兴1 00% 大约克成年母猪体重的变异系数:C.V = 8.5 / 1 9 6兴1 00% 4.34% 所以,长白成年母猪体重的变异程度大于大约克成年母猪。 二、偏度 1、名词解释: 偏度以bs表示,X i是样本测定值,是样本n次测定值的平均值。表征概率分布密度曲线相对于平均值不对称程度的特征数。 2、偏度与与正态分布的关系: 正态分布的偏度为0,两侧尾部长度对称。b s<0称分布具有负偏离, 也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs> 0称分布具有正偏离,也称右偏态,此时数 据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长; 而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数> 中位数〉众数,左偏时相反,即众数> 中位数〉平均数。正态分布

变异系数 偏度 峰度

变异系数 偏度 峰度 一.样本的变异系数、偏度、峰度及其各自的作用。. 变异系数,就是标准差系数,也称差异系数、离散系数,它分为总体变异系数和样本变异系数。样本变异系数是衡量样本资料中各观测值变异程度的重要统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和或平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值来比较。样本变异系数定义为标准差与均值的比率:CV=S/x ,其中,CV 代表变异系数,S 代表样本标准差,X 代表样本平均数。 变异系数的最大优点在于它具有直观简洁的形式,容易由样本直接得到估计值。变异系数可以消除单位和或平均数不同对两个或多个资料变异程度比较的影响。 偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。对于n 个样本值的偏度,计算方法:3 i 3)Skewness=(1)(2)n x x n n sd ---∑(偏度以sk 表示,i x 是样本观测值,x 是样本n 次观测值的平均值。正态分布的偏度为0,两侧尾部长度对称。sk<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;sk>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而sk 接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。

POY标准样本

Q/HY 浙江恒逸聚合物有限公司 Q/HY001- 代替Q/HY001- 涤纶预取向丝 Polyester partially oriented yarns .10.10发布 .12.01实施 浙江恒逸聚合物有限公司发布

前言 本标准代替Q/HY001- 《涤纶预取向丝》标准, , 本标准是对Q/HY001- 《涤纶预取向丝》标准的修订, 并以该标准为基础, 同时参照FZ/T54003- 标准,根据我公司的发展和产品结构的调整以及用途, 满足客户使用要求, 对标准作如下修订: —原标准中的线密度由70dtex-600dtex内的复丝修订覆蓋到线密度55.0dtex-888.0dtex范围, 单丝根数小于等于288根, 单丝线密度为0.5dtex-10dtex。 —指标和性能按如下单丝线密度界限分为四挡: 0.5dtex-1.0dtex 、 1.0dtex-2.1dtex 、 2.1dtex-5dtex、 5dtex-10dtex —半自动化生产线或分( 合) 丝饼生产方式的产品, 指标和性能可根据其后道加工要求与用户协商确定。 本标准中所确定的内容如与强制性标准相悖, 应执行强制性标准。 本标准由浙江恒逸聚合物有限公司提出。 本标准由浙江恒逸聚合物有限公司纺丝部负责起草。 本标准由浙江恒逸聚合物有限公司批准。 本标准主要起草人: 向慧贞 本标准代替Q/HY001- 标准。

Q/HY001- 涤纶预取向丝 1 范围 本标准规定了涤纶预取向丝定义,技术要求,试验方法,检验规则,标志、标签,包装、运输、贮存。 本标准适用于总线密度55dtex~777dtex, 单丝线密度0.5dtex~10dtex的园形截面、半消光加弹和牵伸用涤纶预取向丝。 2 规范性引用文件 下列标准所包含的条款经过本标准的引用而成为本标准的条款。凡是注日期的引用文件, 其随后所有修改单( 不包括勘误的内容) 或修订版均不适用于本标准, 然而, 鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本, 凡不注日期的引用文件, 其最新版本适用于本标准 GB/T 1250 极限数值的表示方法和判定方法 GB/T 2828.1 计数抽样检验和序第一部分: 按接收质量限( AQL) 检索的逐批检验抽样计划 GB/T 3291.1 纺织纺织材料性能和试验术语第1部分:纤维和纱线 GB/T 3291.3 纺织纺织材料性能和试验术语第3部分:通用 GB/T 4146 纺织名词术语(化纤部分) GB/T 6502合成纤维长丝取样方法 GB/T 6504 合成纤维长丝含油率试验方法 GB/T 8170 数值修约规则 GB/T 14343 合成纤维长丝线密度试验方法 GB/T 14344 合成纤维长丝拉伸性能试验方法 GB/T 14346 合成纤维长丝电子条干不匀率试验方法 3 本标准采用下列定义。 3.1 单丝线密度

实例教程 手把手教你计算样本量

实例教程:手把手教你计算样本量 作者:张耀文 小玲看了新英格兰医学杂志的一篇文章[1]后,有些地方不明白,于是来找小咖讨论。 小玲:我觉得这个研究做的棒棒哒,但有一点没看明白,就是原文中统计方法部分的样本量计算到底写了个啥: 小咖:你没看明白就对了。这段话确实没有讲明白样本量到底怎么计算来的。你应该去看看这个研究的Protocol和Supplementary Appendix,里面应该会详细写到。因为限于篇幅,有些研究会在正文中省略一些信息。 小玲:那么,哪里能找到这个研究的Protocol和Supplementary Appendix呢? 小咖:来,跟着我操作。首先搜到新英格兰医学杂志的这篇文章,然后点击①PDF下载这篇文章,再点开②Supplementary Material。

下载③Protocol 和④Supplentary Appendix 。 小玲:原来是这样啊,那我赶紧再去读一读这两个文件。 小玲读完后,又来找小咖。 小玲:我找到啦,原来在Protocol 的84-85页有样本量计算的详细介绍。 小咖:很好。你先总结一下大意。 小玲:比较主要结局(体重变化)时,按照P =0.05进行双侧t 检验。对于另一个主要结局(二分类变量)——体重下降5%及以上、10%以上的人数比例,采用双侧卡方检验比较。假设对照组体重下降10%以上的人数比例为10%,利拉鲁肽组的这个比例为14%。当利拉鲁肽组和对照组的样本量分别为2400例、1200例时,可以有超过90%的把握度发现这种差异。 小咖:很好,你get 到了所有的point 。以本研究为例,计算样本量时,需要

如何确定样本量

如何确定样本量 来回答:对于13万的人,做调查,得取多少样本,这个得看你要求的精确度,统计学上有这样的一套公式, https://www.360docs.net/doc/9f10550182.html,/peixun/pei21.HTM 而对于市场调查; 在市场研究中,常常有客户和研究者询问:“要掌握市场总体情况,到底需要多少样本量?”,或者说“我要求调查精度达到95%,需要多少样本量?”。对此,我往往感到难以回答,因为要解决这个问题,需要考虑的因素是多方面的:研究的对象,研究的主要目的,抽样方法,调查经费…。有人说,北京这么大,上千万人口,我们怎么也得做一万人的访问才能代表北京市吧。根据统计学原理,完全不必。只要在500-1000左右就够了。当然前提是,我们要按照科学的方法去抽样。 根据市场调查的经验,市场潜力等涉及量比较严格的调查所需样本量较大,而产品测试,产品定价,广告效果等人们间彼此差异不是特别大或对量的要求不严格的调查所需样本量较小些。 样本量的大小涉及到调研中所要包括的人数或单元数。确定样本量的大小是比较复杂的问题,既要有定性的考虑也要有定量的考虑。 从定性的方面考虑样本量的大小,其考虑因素有:决策的重要性,调研的性质,变量个数,数据分析的性质,同类研究中所用的样本量,发生率,完成率,资源限制等。具体地说,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本;探索性研究,样本量一般较小,而结论性研究如描述性的调查,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些,以减少抽样误差的累积效应;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当较大;如果需要特别详细的分析,如做许多分类等,也需要大样本。针对子样本分析比只限于对总样本分析,所需样本量要大得多。 具体确定样本量还有相应的统计学公式,根据样本量计算公式,我们知道,样本量的大小不取决于总体的多少,而取决于(1) 研究对象的变动程度;(2) 所要求或允许的误差大小;(3) 要求推断的置信程度。也就是说,当所研究的现象越复杂,差异越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。因此,如果不同城市分别进行推断时,"大城市多抽,小城市少抽"这种说法原则上是不对的。在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 总之,在确定抽样方法和样本量的时候,既要考虑调查目的,调查性质,精度要求(抽样误差)等,又要考虑实际操作的可实施性,非抽样误差的控制、经费预算等。专业调查公司在这方面会根据您的情况及调查性质,进行综合权衡,达到一个最优的样本量的选择。 实际研究中的一些经验 根据一些学者的研究,以及远东零点在市场研究中的经验,市场调查中确定样本量通常的做法是: 1、通过对方差的估计,采用公式计算所需样本量,主要做法有: 2、用两步抽样,在调查前先抽取少量的样本,得到标准差S的估计,然后代入公式中,得到下一步抽样所需样本量n; 3、如果有以前类似调查的数据,可以使用以前调查的方差作为总体方差的估计。 4、根据经验,确定样本量,主要方法有: 5、如果以前有人做过类似的研究,初学者可以参照前人的样本。 6、如果是大型城市、省市一级的地区性研究,样本数在500-1000之间可能比较适合;而对于中小城市,样本量在200-300之间可能比较适合;如果是多省市或者全国性的研究,则样本量可能在1000-3000之间比较适合。 7、作为一个常识(主要是为了显著性检验),要进行分组研究的每组样本量应该不少于50个。 8、通过试验设计所作的研究,可以采用较小的样本量。如产品试用(留置)调查,在经费有限的情况下,可以将每组的样本量降低至30个左右,最好每组在50以上。此外,我们在多次的实际研究

抽样调查的样本容量的确定方法

抽样调查的样本容量的确定方法 摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。 关键词:样本容量;抽样调查;抽样误差;极限误差 抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用n表示。确定样本容量是制定抽样调查方案中的一个非常重要的环节。 1.确定样本容量的必要性 1.1样本容量大小影响抽样估计的精确度 抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。调查结果相对于总体真实值的精确度与样本容量直接相关。样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。 1.2样本容量大小影响抽样调查的成本和效益 样本量的设计通常受到研究经费及调查时间的限制。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。 因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。 2.影响必要样本容量的主要因素 影响样本容量的因素是多方面的,在抽样调查总体、调查费用和调查时间既定的情况下,为确定最佳的样本容量,应首先分析影响样本容量的因素。从理论上说,影响样本容量的因素有以下几个方面: 2.1单位标志变异程度 或成数方差P(1-P)的大小来表示。在其他单位标志变异程度一般用方差2

变异系数与相关系数

§1-3 變異係數與相關係數 設某次段考,高三某班的國文成績的算術帄均數與標準差分別為80分、10分; 英文成績的算術帄均數與標準差分別為60分、10分;雖然國文與英文的標準差相等,如果我們得到結論是國文與英文成績的差異程度一樣,顯然不合理。 現在我們比較兩科的標準差與算術帄均數的比值: 國文科:1080 = 18 ,英文科:1060 = 1 6 ,從這兩科的比值來看,我們可以認為 英文成績的差異會比國文成績的差異大。 例子二: 同時測量一張桌子的長度10次,10次長度的算術帄均數為1.72公尺,標準差為0.04公尺,若我們改變單位將公尺改為公分,算術帄均數為172公分,標準差為4公分,若我們比較兩個標準差0.04公尺與4公分,雖然0.04<4,但是若我們得到這兩筆資料的差異程度不同,這就會鬧笑話了!但是我們比較這兩筆 資料標準差與算術帄均數的比值:0.041.72 = 4 172 ,這就可以呈現出這兩筆資料的差異程度相同。 比較兩組或兩組以上的資料之差異時,通常採用一種相對的測度值作為比較的標準。因此無論兩筆資料的單位與取值範圍是否相同,若用算術帄均數為基準,以標準差相對於算術帄均數的比值來比較,就可以比較離散程度,比值愈大表示資料間的差異也愈大。 (1)變異係數(CV)的定義: 變異係數的定義:CV=x S X ×100%,S X 為標準差,x 代表算術帄均數。 CV 的意義是計算標準差相對於算術帄均數的百分比。 百分比越大,代表資料越分散。 [例題1] 某校高三有兩班,甲班學生身高帄均值為168.5公分,標準差為7.2公分; 乙班學生身高帄均值為159.6公分,標準差為4.8公分。試問那一班學生身高較懸殊? [解法]: (CV)甲=7.2 168.5 ?100%=4.27% (CV)乙=4.8 159.6?100%=3.01% ?(CV)甲>(CV)乙 ?甲班學生身高差異較乙班大。

样本量的确定方法.

如对你有帮助,请购买下载打赏,谢谢!样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

变异系数、偏度、峰度的认识及应用

变异系数、偏度、峰度的认识及应用 一、变异系数 1、名词解释: 变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。简单来说就是:在表示离散程度上,标准差并不是全能的,当度量单位或平均数不同时,只能用变异系数了,它也是表示离散程度,是标准差与平均数的比值称为变异系数,记为C〃V。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。 2、计算公式 变异系数C.V =(标准偏差SD÷平均值MN )× 100% 3、应用: 例题:已知某良种猪场长白成年母猪平均体重为190kg,标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。 此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用变异系数来比较其变异程度的大小。

由于,长白成年母猪体重的变异系数:C.V = 10.5 / 190 * 100% = 5.53% 大约克成年母猪体重的变异系数:C.V = 8.5 / 196 * 100% = 4.34% 所以,长白成年母猪体重的变异程度大于大约克成年母猪。 二、偏度 1、名词解释: 偏度以bs表示,xi是样本测定值,是样本n次测定值的平均值。表征概率分布密度曲线相对于平均值不对称程度的特征数。 2、偏度与与正态分布的关系: 正态分布的偏度为0,两侧尾部长度对称。bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。

样本量的确定方法

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

在市场研究中样本量的确定

在市场研究中,常常有客户和研究者询问:“要掌握市场总体情况,到底需要多少样本量?”,或者说“我要求调查精度达到95%,需要多少样本量?”。对此,我往往感到难以回答,因为要解决这个问题,需要考虑的因素是多方面的:研究的对象,研究的主要目的,抽样方法,调查经费…。本文将根据自己的经验,探讨在市场研究中确定调查所需样本量的一些基本方法,相信这些方法对于其他的社会调查研究也有一定的借鉴意义。 确定样本量的基本公式 在简单随机抽样的条件下,我们在统计教材中可以很容易找到确定调查样本量的公式(1): 其中: n:代表所需要样本量 Z:置信水平的Z统计量,如95%置信水平的Z统计量为1.96,99%的Z为2.68。 S:总体的标准差; d :置信区间的1/2,在实际应用中就是容许误差,或者调查误差。 对于比例型变量,确定样本量的公式为(2): 其中: n :所需样本量 Z:置信水平的z统计量,如95%置信水平的Z统计量为1.96,99%的为2.68 p:目标总体的比例期望值 d:置信区间的半宽

关于调查精度 通常我们所说的调查精度可能有两种表述方法:绝对误差数与相对误差数。如对某市的居民进行收入调查,要求调查的人均收入误差上下不超过50元,这是绝对数表示法,这个绝对误差也就是公式(1)中置信区间半宽d。而相对误差则是绝对误差与样本平均值的比值。例如我们可能要求调查收入与真实情况的误差不超过1%。假定调查城市的真实人均收入为10000元,则相对误差的绝对数是100元。 公式的应用方法 对于公式的应用,一些参数是我们可以事先确定的:Z值取决于置信水平,通常我们可以考虑95%的置信水平,那么Z=1.96;或者99%,Z=2.68。然后可以确定容许误差d(或者说精度),即我们可以根据实际情况指定置信区间的半宽度d。因此,公式应用的关键是如何确定总体的标准差S。如果我们可以估计出总体的方差(标准差),那么我们可以根据公式计算出样本量: 例如:要了解该城市的居民收入,假定我们知道该市居民收入的标准差为1500,要求的调查误差不超过100元,则在95%的置信水平下,所需的样本量为: 即需要调查的样本量为864个。 最大样本量 以上公式只是理论上的,在实际调查中确定合理的样本量,必须考虑多方面的因素。 首先,由于人们通常缺乏对标准差的感性认识,因此对标准差的估计往往是最难的。总体的标准差是123,还是765?如果没有一点对样本的先验知识,那么对标准差的估计是不可能的。好在我们通常能对变量的平均值进行估计,如我们通过历史资料估计该地区目前的年人均收入大致为10,000元,那么根据统计学知识,我们引入变异系数的概念: 变异系数V=标准差S/平均值X<= 1 因此,我们知道人均收入的标准差应该小于平均值,就是说标准差应该在10000以下。当然,这对于我们确定样本量还不能起太大的作用。然而如果我们采用相对误差表述的精度,对公式(1)变形,我们有:

如何确定抽样统计的最小样本量

?a方支持率为45.3%; ?b方支持率为30.2%; ?c方支持率为8.5%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);

最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样均值为y 相对抽样误差h = E / y 变异系数C= σ / y

以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 相对抽样误差(假设:C=0.4) π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬 从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

样本量的确定方法

样本量的确定方法 The pony was revised in January 2021

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城

最新样本量的确定知识讲解

样本量的确定 1. 二值分布(估计比例时的样本容量) 这种情况下,表明可能的采样结果只有两种情况,即是与非的问题。比如调查某一批产品的合格率。样本量的确定主要受以下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ;通过置信水平即可查表确定z 。 通常情况下置信水平选择95%。抽样偏差为±5%,不过也不完全一定,抽样偏差的确定还是要考虑实际情况,比如最小的调查估计值p=5%,此时抽样偏差就应该小于5%。 这时,就可以确定样本量: 22 2(1)(1)z p p n z p p e N -=-+ P 值的确定:用以前类似样本得到的结果来近似,如果完全不知道就设p=0.5,因为此时方差最大,可求得一个比较保守的样本容量。 样本容量和在p=0.5时运用简单随机抽样估计p 值得到的抽样偏差e

如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 (1)z p p n e -= 事实上当总体容量很小时,不会采用抽样调查,而是普查了。 2. 正态分布(估计均值时的样本容量) 在这种情况下,表明采样的结果是具有多样性的,并不局限在0、1上。比如对某一城市老年人的患病年龄进行统计。这个时候,样本量同样受如下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。 样本量为: 22 222 z S n z S e N = + S 表明的是总体标准差,这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。 同样,如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 2 z S n e = 理论基础: 根据数理统计知识,样本均值对总体均值可构造如下统计量: x X u σ-,他满足标准正态分 布,查表即可得到某一显著性水平下这个统计量的值,这里面的x σ表示总体均值估计量的标准误差。 在无放回简单随机抽样情况下,总体均值估计量的标准误差表达式: x σ=

变异系数

变异系数 一:定义 变异系数,coefficient of variation;coefficient of variability (CV)。 ①、将标准差作为算数平均数的百分率来表示,以说明样本的分散程度。 ②、样本标准差占其相应平均数的百分数。③、表示一个变量变异程度大小的统计量,为标准差与平均数的比值的百分数。 变异系数有全距系数、平均差系数和标准差系数等。常用的是标准差系数,用CV(Coefficient of Variance)表示。又称离散系数。 1、全距就是极差,是最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。测量的Xi中最大值与最小值的差即极差,极差占平均值的百分数即极差系数极差公式:R=χmax-χmin 极差系数公式m=(R/χ)×100% 2、变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。 变异系数是一种相对变异性的度量,等于标准差除以均值。因为它是一个无量纲数,所以可以用来比较均值显著不同的总体的离散性。可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。 标准变异系数是一组数据的变异指标与其平均指标之比,它是一个相对变异指标。 CV(Coefficient of Variance):标准差与均值的比率。公式表示为:CV=σ/|μ|。

二:应用条件 变异系数的应用条件是:当所对比的两个数列的水平高低不同时,就不能采用全距、平均差或标准差百行对比分析,因为它们都是绝对指标,其数值的大小不仅受各单位标志值差异程度的影响;为了对比分析不同水平的变量数列之间标志值的变异程度,就必须消除水平高低的影响,这时就要计算变异系数。 作用:反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。若两个总体的均值相等,则比较标准差系数与比较标准差是等价的。有时变异系数表达为百分数的形式,即将CV值乘以100%。 三:例题 例如,您是一家牛奶瓶装厂的质量控制检验员,该厂的牛奶有大瓶装和小瓶装两种。您抽取每种产品的样本并观测到小瓶装的平均容量为 1 杯,标准差为0.08 杯,大瓶装的平均容量为 1 加仑(16 杯),标准差为0.4 杯。虽然大瓶加仑装的标准差是小瓶装的标准差的5 倍,但它们的变异系数(COV) 却支持不同的结论: 大瓶装COV = 100 * 0.4 杯/ 16 杯= 2.5 小瓶装COV = 100 * 0.08 杯/ 1 杯=8 小瓶装的变异系数是大瓶装的三倍多。也就是说,虽然大瓶装具有较大的标准差,但小瓶装相对于其均值来说具有更大的变异性。 四:参考文献 1:基于变异系数法的灰色关联模型在水电工程投资方案优选中的应用 2、基于变异系数法的贵州省石漠化驱动力研究

抽样调查样本量的确定_侯志强

新视角 108 经济理论研究 抽样调查样本量的确定 侯志强1,2  吴启富 3 (1.北方工业大学,北京100041;2.中国人民大学统计学院,北京100872;3.首都经济贸易大学统计学院,北京100026)摘要:样本量确定是抽样调查中的一个重要内容。确定样本量需要综合考虑费用与精度。抽样方式也是影响样本量的一个重要因素。简单随机抽样估计总体比例确定样本量需要同时考虑两个精度要求,即估计量方差上限与估计量离散系数上限。分层随机抽样的样本量还受各层样本量分配方式的影响。复杂抽样的样本量需要借助抽样设计效应才能计算。样本量经过调整后才能满足实际调查的需要。关键词:抽样调查;样本量;费用;精度;设计效应 一、引言 抽样调查是按照随机原则从总体中抽取部分个体进行观察并据此对总体参数作出一定可靠程度推断的科学。抽取个体的数量称为样本量。在一定抽样方式下,样本容量越大,估计精度就越高,所需费用也就越大。因此,样本量受费用与精度的双重制约。简单随机抽样样本量的确定是其它抽样方式样本量确定的基础。在简单随机抽样中,经常需要估计几个总体比例,有些总体比例较大,有些则较小,但许多人总是根据估计量方差上限这个唯一的精度要求确定所谓的“保守”样本量,殊不知当所要估计的总体比例很小时,这个“保守”的样本量根本谈不上“保守”。本文试图解决这个问题,并探讨其它抽样方式下样本量的确定问题。 二、简单随机抽样样本量的确定 在简单随机抽样下,若给定费用要求,则可通过费用函数确定样本量。通常的费用函数为 C T =c 0+c 1n (1)其中,C T 表示总费用,c 0表示固定费用,c 1表示调查一个样本单元的平均费用,n 表示样本量。 那么,样本量为 n =C T -c 0c 1 (2) 通过式(2)可以确定样本量的上限,即总费用所允许的最大样本量,记为n U 。 简单随机抽样的样本量还可通过精度确定,通常规定估计量方差的上限。 例如,已知总体方差为 2 ,需估计总体均值X — ,其简单 估计量为样本均值x — ,则在重复抽样条件下,估计量方差为 D (x —)= 2 n (3) 若要求估计量x — 的方差不许超过常数V ,则有 2n ≤V (4)从而样本量满足 n ≥ 2V (5) 通过式(5)可以确定样本量的下限,即精度所允许的最小样本量,记为n L 。 当n L ≤n U 时,样本量可取n L 与n U 之间的任何值; 当n L >n U 时,必需认真权衡费用与精度,若费用更重要,则取n U ;否则,取n L 。若需要估计总体比例P ,则其简单估计量为样本比例p ,在重复抽样条件下,估计量方差为 D (p )=P (1-P ) n (6) 若要求估计量P 的方差不许超过常数V ,则有P (1-P ) n ≤V (7)从而样本量满足 n ≥P (1-P )V (8) 容易知道,P (1-P )在P =0.5时取到最大值0.25,从而可得一个“保守”的样本量 n a =0.25V (9)许多人正是根据式(9)来确定所谓的“保守”样本量,但对于较小的总体比例P ,这个“保守”样本量从估计量离散系数的角度看根本谈不上“保守”。详述如下: 已知估计量p 的离散系数为C V (p )= D (p )P =1-P n P (10)从式(10)可以看出,当n 取“保守”的样本量n a 时,随着总体比例P 从1到0变化,估计量的离散系数C V (p )逐渐增加。不难想象,当P 小到一定程度时,C V (p )将大到不能容忍的程度。 一个自然的修正方法是:除根据估计量的方差上限确定样本量外,再根据估计量的离散系数上限确定样本量,然后取两者中较大者。 设最小的总体比例P =P L ,限定估计量p 的离散系数不许超过常数C 。则根据式(10),可得另一个“保守”的样本量 n b =1-P C 2 P L (11)这样,取这两个“保守”样本量的较大者,即n =m a x (n a ,n b ) (12)

相关文档
最新文档