05 抽样估计

05 抽样估计
05 抽样估计

第五章抽样估计

第一节抽样估计的理论基础

抽样估计的基本内容就是研究如何根据总体的部分数据信息(构造样本指标也称统计量)去估计未知总体指标(也称参数)的理论和方法。

学习步骤:抽样估计的理论基础——大数定律和中心极限定理→掌握抽样分布的有关概念及基本原理→抽样估计的理论和方法。

一、大数定律

大量的独立重复测量值的算术平均值具有稳定性。对于这种稳定性的研究构成了大数定律的基本内容。

两个重要的大数定律:贝努里大数定理、辛钦大数定律

设事件A在一次试验中发生的概率为p,在n次独立重复试验中,事件A发生了m次,那么对任意给定的正数ε,有

其等价形式是

贝努里大数定理说明:事件发生的频率m/n,依概率收敛于事件发生的概率p,这个定理用严格的数学形式表达了频率的稳定性,也就是说,当n很大时,事件发生的频率与概率有较大偏差的可能性很小。因此,当n很大时,可用事件发生的频率m/n近似地代替事件发生的概率p,即p≈m/n,这种方法称为抽样估计,它是数理统计的主要研究课题。

(二)辛钦大数定律

设随机变量X1,X2,…,X n相互独立,服从同一分布,且(E(X k)=μ,k=1,2,…),则对任意正数ε,恒有:

辛钦大数定律为我们用测量数据的算术平均数代替其真值的方法提供了理论依据。假定要测量某一物理量μ,在不变条件下测量n次,得到的结果X1,X2,…,X n是不完全相同的,它们可以看作n个独立随机变量X1,X2,…,X n(它们服从同一分布且数学期望均为μ)。按照辛钦大数定律,当n很大时,我们取n次测量结果的算术平均数作为真值μ的近似值,这时出现较大偏差的可能性很小。一般说来,测定的次数越多,近似程度越好。

二、中心极限定理

当处理大样本问题时,将它作为一个非常重要的工具。

下面介绍两个常用的中心极限定理。

定理1:林德贝格—勒维中心极限定理,也称为独立同分布中心极限定理。

定理2:

德莫佛—拉普拉斯中心极限定理。它表明:二项分布的极限分布是正态分布,因此,当n充分大时,若随机变量X n~B(n,p),则近似地有X n~N(np,np(1-p),于是我们可

以利用正态分布近似地计算二项分布的概率。同时,这个定理还给离散型随机变量与连续型随机变量之间的转换提供了一种有效途径。

【例5—1】在一家保险公司里有10000人参加人寿保险,每人每年交保费12元,假定一年内一个意外死亡的概率为0.006,死亡时其家属可向保险公司索赔1000元,计算:保险公司亏本的概率有多大?保险公司一年利润不低于40000元的概率有多大?

解:以X表示10000个参加保险的人中一年内意外死亡的人数,则X~B(10000,0.006)。因此,

P{1000X>120000}表示保险公司亏本的概率,

P{120000-1000X≥400000}表示保险公司一年的利润不低于40000元的概率,由于n=10000比较大,所以根据定理2得:

(1)P{1000X>120000}=P{X>120}

=P{(X-10000×0.006)/(10000×0.006×0.994)1/2>(120-60)/(59.64)1/2}=1-φ(7.7693)=0

(2)P{120000-1000x≥40000}=P{(X-10000×0.006)/(10000×0.006×0.994)1/2≤(80-60)/(59.64)1/2}=φ(2.5898)=0.9952

第二节抽样方法与抽样分布

一、抽样方法

(一)重复抽样和不重复抽样(识记二者概念。重点)

对于无限总体而言,抽样总是可以认为是重复抽样(即重置抽样或放回抽样),因此,它没有重复抽样和不重复抽样的区别。然而,对于有限总体而言,重复抽样与不重复抽样是不一样的。下面我们只对有限总体的重复抽样和不重复抽样进行分别介绍。

1.重复抽样

首先,我们假设有限总体中所包含的个体数为N,重复抽样可以认为是有限总体条件下的简单随机抽样。其特点是:如果我们做了n次独立试验(也就是抽取n个个体的样本),那么总样本个数(即所能获得的全部样本数)是N n而样本容量为n,每个样本被抽到的概率都为1/N n。

2.不重复抽样

不重复抽样(即不重置抽样或不放回抽样)是指每次从有限总体中随机抽取一个个体,登记结果后不放回原总体,下一个个体继续从总体中余下的个体中随机抽取。其特点是:第一,n个个体的样本是由n次抽取的结果组成。

第二,每次抽取的结果不是独立的。

第三,虽然在同次试验中每个个体被抽中的概率是相同的,但在不同次试验中每个个体被抽中的概率是不相同的。

(二)其他抽样方法

简单随机抽样、类型抽样、等距抽样、整群抽样。

二、抽样分布

(一)抽样分布的概念(识记。重点)

对于给定的总体和抽样方式以及样本容量,样本指标取值的概率分布就称为抽样分布。

【例5—2】对于由6、7、8三个数组成的总体,若给定样本容量为2,并采用有放回的简单随机抽样方式,则样本均值这一统计量共有5个不同的取值,且这5个不同取值出现的概率不同。列出此样本均值的概率分布,如表5—1所示。

表5—1 样本均值的概率分布

样本统计量的精确分布通常也称为正态总体小样本分布;样本统计量的极限分布称为任意总体大样本分布。在使用样本统计量的极限分布时,通常都要求样本容量至少在50以上。

(二)常用的抽样分布

样本均值、样本比例和样本方差(领会)。

1.样本均值的抽样分布

不论所考察总体的概率分布如何,只要样本容量n足够大,其样本均值的概率分布趋近于以总体均值μ为期望,以为标准误差的正态分布,即有:

在实践中,总体的方差ζ2总是未知的,通常需要用其估计量即样本方差S2来代替。由于修正的无偏样本方差是总体方差的无偏估计,所以实际应用

中,通常都用无偏样本方差S2来代替总体方差。

在小样本的情况下,记用s替换ζ后的随机变量为t,对于抽自正态总体的简单随机样本,就有:

2.样本比例的抽样分布

样本比例是总体比例的估计量,只能给出大样本条件下样本比例的抽样分布。

将样本比例作为一个数学期望为0、方差为1的标准正态变量,记此标准化变量为Z,则有:

3.样本方差的抽样分布

主要是在正态分布总体中应用。

第三节点估计

一、总体参数与其估计量

在统计中需要使用一定的方法根据样本数据来推断总体的指标数值,总体指标又称为参数。根据样本来推断总体指标数值就称为抽样估计。它是推断统计学的主要内容之一。

估计量、估计值(识记):用来估计总体指标数值的统计量又称为该总体指标的估计量,该估计量的数值就称为该总体指标的估计值。

总体指标的估计量是一个随机变量,其数值随着所抽取的样本不同而不同,总体指标的估计值就是其估计量在某个给定样本上的取值。

二、构造估计量的方法——矩法估计(领会)

所谓矩法估计,是指用样本矩作为总体同一矩的估计量或者用样本矩的函数作为总体相应矩的函数的估计量。也就是说,若总体指标是所考察的随机变量的某阶矩,则可用样本观测值的同阶矩作为其估计量;若总体指标虽不是所考察随机变量的某阶矩,但却是某些矩的

函数,则也可用样本相应的这些矩来构造成同样的函数作为其估计量。总体指标的估计量通常用代表该总体指标的字母戴一个尖帽表示。

三、判断估计量优劣的标准(领会)

常用的标准主要有一致性、无偏性、有效性、充分性和稳健性等。

(一)一致性

对于总体指标θ,若其估计量的取值随着样本容量的增大越来越接近于总体指标的真值,则该估计量就称为总体指标θ的一致估计量,或称为相合估计量。一致性是对估计量的最基本的要求。

可以证明,由矩法估计所构造出来的估计量都是所要估计的总体指标的一致估计量,

即都具有相合性。如样本均值是总体均值μ的一致估计量,样本比例p是总体比例P的

一致统计量,样本方差S2也是总体方差ζ2的一致估计量。

(二)无偏性

虽然用样本指标去估计总体指标必然存在着估计误差,但是却不应该存在系统性的偏差,即不应该存在一贯偏大或偏小的偏差。因此,有无系统性偏差存在就可以作为判断估计量优劣的又一个标准。

对于总体指标θ若其估计量取值的数学期望等于总体指标θ的真值,即E()=θ,或估计误差(-θ)的数学期望为0,即E(-θ)=0,则该估计量就称为总体指标

θ的无偏估计量。若E(-θ)=B,且B不为0,则就是总体指标θ的有偏估计量,即B为估计偏差。

同样也可以证明,样本均值是总体均值μ的无偏估计量,而常规的样本方差s2并不

是总体方差σ2的无偏估计量。

修正的无偏样本方差的数学期望正好等于被估计的总体方差σ2。

以上结论由【例5—3】验证。

修正的无偏样本方差与常规样本方差相比,只是分母少1。对于小样本来说,常规样本方差和无偏样本方差的值会有一定的差距,估计总体方差时应采用无偏样本方差作为其估计量。而对于大样本来说,常规样本方差和无偏样本方差的值则相差无几,估计总体方差ζ2时,用哪一个作估计量都可以。

(三)有效性

用样本指标来估计总体指标,显然估计误差越小越好,根据这一直观想法可得出判断估计量优劣的第三个标准。

对于任一总体指标θ,若存在两个无偏估计量1和2,其中估计量1的估计误差平均

来说小于估计量2的估计误差,则称估计量1比2有效。

两个无偏估计量比较,方差较小者较为有效。

两个估计量的方差之比:

称为二者的相对效率。若比率ω<1,则称估计量1比2有效。

对于一个总体指标来说,若在其所有无偏估计量中能够找到一个估计量,其方差最小,则该估计量就称为该总体指标的最佳估计量。可以证明,样本均值就是该总体指标均值μ的最佳无偏估计量。

有效性标准是对估计量的方差进行比较,这只能用于无偏估计量的比较判断,而不适用于有偏估计量之间或有偏估计量与无偏估计量之间的比较判断。

为了给出适用于所有估计量之间比较判断的指标,可对有效性标准进行适当的修改,即可将判断估计量是否优良的指标改为估计量的均方误差,在待估总体指标的所有估计量中,均方误差最小的估计量可认为是最好的估计量,该标准可称为均方误差最小标准。

对于两个估计,若两个均为无偏估计量,则其方差最小者也就是均方误差最小者,故方差最小者较好;若其中一个是无偏估计量,另一个是有偏估计量,或者两个均为有偏估计量,则均方误差最小者较好,所以均方误差最小标准也是无偏性标准和有效性标准的综合。

(四)充分性

在进行总体指标的估计时,应充分利用样本资料提供的信息,以免造成浪费。根据这一思想,可给出判断估计量优劣的第四个标准。

对于总体指标θ,若其估计量提取了样本中包含的有关总体指标θ的全部信息,则估计量就称为总体指标θ的充分估计量。

判断样本指标是否为某个总体指标的充分估计量,一般比较麻烦,不过在多数情况下,常用的总体指标的估计量均是充分的。如在正态分布总体下,样本均值是总体均值μ的充分估计量,样本方差s2同样也是总体方差ζ2的充分估计量。

(五)稳健性

在样本数据的采集和整理过程中,难免会发生一些差错,造成样本数据的污染。显然,用来估计总体指标的样本指标抗污染能力的强弱,也是衡量该估计量优劣的一个标准。如果用来估计总体指标θ的样本估计量对样本数据的污染不敏感,也就是说,估计量的数值不受被污染数据的干扰或受其干扰不大,那么该估计量就是总体指标θ的一个稳健统计量。

样本均值的抗污染能力很差,也就是说它不是一个稳健估计量。样本中位数是总体均值的一个稳健估计量。

一般来说,考虑到稳健性,往往会损失一定的有效性,因此,估计量的选择需要根据样本数据的特点在有效性和稳健性二者之间进行折中。例如,在估计总体均值时,考虑到样本均值有效性很高,但稳健性却较低,而样本中位数稳健性很高,但有效性却较低。所以,可以将样本均值和中位数的计算方法综合折中构造一种兼具二者特点的新估计量,这类估计量主要有切尾均值等。所谓切尾均值就是将样本数据按大小顺序排列以后,切掉序列两端的部分数据,只用序列中间的部分数据计算出的均值。实践中常用的一种切尾均值是中均值,即将样本数据排序序列两端各25%的数据切掉,只用中间一半数据计算的均值。

现实中,在人们的主观判断起主要作用的场合,切尾均值的使用十分普遍,如在歌手的唱歌比赛中,对歌手的评分就常采用评委打分的切尾均值。

上述各个标准均是优良的估计量所应该具备的性质。但是,正如我们已经看到的,一个估计量往往很难同时具备所有这些优良性质,这就需要我们根据研究的目的和样本数据的特点性质进行权衡选择或者进行折中选择。

【多选题】下列关于稳健性的说法正确的有()。

A.由矩法估计所构造出来的估计量都是所要估计的总体指标的一致估计量

B.样本均值是总体均值的一个稳健估计量

C.常用的总体指标的估计量均是充分的

D.两个无偏估计量比较,方差较大者较为有效

E.对于小样本来说,估计总体方差时应采用无偏样本方差作为其估计量

『正确答案』ACE

『答案解析』选项B,样本中位数是总体均值的一个稳健估计量,样本均值不是总体均值的一个稳健估计量。选项D,两个无偏估计量比较,方差较小者较为有效。

四、估计量的标准误

样本估计值与总体指标真值之间总是存在着或大或小的抽样估计误差。估计误差愈大,抽样估计的精确程度就愈低。因此,有必要对抽样估计误差及其影响因素加以研究,以便把它控制到一个较小的范围之内,确保抽样估计的精度,减少决策的失误。

(一)标准误的概念(识记)

衡量抽样估计误差不能用抽样误差的直接平均,而应该采用将其平方后再平均的方法,即用样本估计量的方差或标准差。实践中一般均采用样本估计量的标准差作为衡量抽样估计误差的指标。样本估计量的标准差通常称为该估计量的标准误差,简称标准误。设所要估计

的总体指标为θ,其估计量为,则此估计量的标准误就定义为:

【例5—4】在【例5—2】由6、7、8组成的总体中,总体均值为μ=7,总体方差ζ2=2/3。抽取容量为2的简单随机样本,全部9个可能样本的均值已在表5—2的第2列中列出,由此可计算出样本均值无的方差和标准误分别为:

ζ2=D()=E[-E()]2=E(-μ)2=(6-7)2×1/9+(6.5-7)2+(7-7)2×3/9+(7.5-7)2×2/9+(8-7)2×1/9=1/3

意义(领会):标准误是衡量一个估计量抽样估计误差大小的尺度。在抽样估计中,由于待估计的总体指标是未知的,所以,抽样估计误差的具体数值是不可知的,而标准误则给出了抽样估计误差的一般数值,可用于估计实际抽样估计误差的大小。

(二)标准误的计算(领会)

根据定义公式直接计算样本指标的标准误是不可能的。因此,标准误只能通过它与其他指标的关系用间接的方式求出。

1.样本均值的标准误

样本均值是总体均值μ的无偏估计量,所以其标准误可由其方差导出。不过,在不同的抽样方式之下,样本均值的方差是不相同的,因而其标准误也就不相同。

(1)若所得样本是采用有放回简单随机抽样方式抽取

有放回简单随机抽样所得的样本就是由若干个相互独立且与总体被观测变量分布完全相同的随机变量x1,x2,…,x n所组成的一个集合。

样本均值的标准误公式为:

例如,在例5-4中的6、7、8所组成的总体中,已知ζ2=2/3,故对于容量为2的有放回简单随机样本,其样本均值的标准误为:

ζ=(2/3/2)=3/3

可见,用该公式计算的结果与用样本均值标准误定义公式计算结果相同。

(2)若所得样本是采用不放回简单随机抽样方式抽取

则样本的各次抽取不独立,从而使样本观测变量x1,x2,…,x n相互也不独立,前面的观测结果对后面的观测结果有影响,所以,样本均值的方差不能像有放回抽样方式下样本均值的方差那样很容易地导出。不放回抽样下样本均值的方差为:

例如,在上述6、7、8所组成的总体中,有N=3,ζ2=2/3,若采用不放回简单随机抽样方式,则对于容量为n=2的样本来说,其样本均值的标准误为:

ζ=[2/3/2(3-2)/(3-1)]=6/6

实践中,总体容量N一般都很大,为了计算简单,常将不放回抽样下样本均值标准误的计算公式近似地写为:

其中,n/N称为抽样比,表示总体中抽出的个体数占全部个体数的比重。

有放回抽样和不放回抽样各自样本均值的方差的比较:(1)不放回抽样下样本均值的方差公式中比有放回抽样下样本均值的方差公式中多了一个因子(N-n)/(N-1),由于该因子小于1,即(N-n)/(N-1)<1,所以,不放回抽样下样本均值的标准误比放回抽样下样本均值的标准误小。因此,实践中一般只采用不放回抽样的方式抽取样本,而很少采用有放回的抽样方式。

(2)当总体为无限总体时,不放回抽样下样本均值的标准误公式就简化为与有放回抽样下样本均值的标准误公式相同,故因子(N-n)/(N-1)通常称为有限总体校正因子。不过当总体容量N较大而抽样比n/N很小时,有限总体校正因子(N-n)/(N-l)或(1—n/N)通常可忽略不计。因此,实践中一般只使用有放回抽样的公式来计算其标准误。

由样本均值的标准误公式可以看出:要计算出样本均值标准误的数值,必须已知总体方差

ζ2的数值,但实践中,总体方差ζ2一般都是未知,需用其样本方差s2来代替计算,故可得有放回抽样和不放回抽样下样本均值标准误的估计量公式分别为:

有放回抽样:

不有放回抽样:

【例5—5】某工厂收到供货方发来的一批电子元件共1000件,随机抽取了10件进行检验,测得各电子元件的使用寿命分别为1256、1307、1180、1450、1225、1198、1365、1420、1295、1304小时,试估计该批电子元件的平均使用寿命及其标准误。

解:由样本观测数据可计算出样本均值和样本方差分别为:

=(1256+1307+…+1304)/10=13000/10=1300(小时)

所以该批电子元件平均使用寿命的估计值为:

μ==1300(小时)

而样本均值的标准误,若按放回抽样计算,则其估计值为:

若按不放回抽样计算,则其估计值为:

可见,按放回抽样公式计算的标准误与按不放回抽样公式计算的标准误二者相比,数值相差很小,故为了计算简便可只使用有放回抽样的公式。

2.样本比例的标准误

总体比例P,即总体中具有某种特征的个体数与全部个体数的比例,是一个常用的总体指标。由于总体P是两点分布总体的均值,其估计量是样本比例p,所以,估计量样本比例p的标准误公式可仿照上述总体均值估计量即样本均值的标准误公式给出。

在两点分布总体中,所考察随机变量的均值为总体比例μ=P,方差则为ζ2=P(1-P)。将此方差的表达式代入上述样本均值的标准误公式,即可得到作为总体比例估计量的样本比例P的标准误公式:

有放回抽样:

不放回抽样:

样本比例的标准误的估计公式:

有放回抽样:

不放回抽样:

【例5—6】某城市居民家庭大约有20万户,为了解居民家庭生活状况,随机抽取了300户进行调查,其中有75户和上年相比由于物价上涨过快而使生活的绝对水平下降了。试估计该市全部居民家庭中,由于物价上涨而导致生活绝对水平下降的家庭所占的比重及其标准误。

解:由样本资料可计算出样本中生活绝对水平下降的家庭所占比例,即总体比例的估计值为:

n1/n=75/300=25%

有放回抽样:

不放回抽样:

二者计算结果相同,在总体容量较大且抽样比较小的情形下,完全可用有放回抽样的标准误公式代替不放回抽样的标准误公式进行计算。

(三)影响标准误的因素(领会)

估计量的标准误是样本指标用于估计总体指标所产生的抽样估计误差,影响估计量标准误的因素也就是影响抽样估计误差的因素。显然,分析影响估计量标准误的因素,对于改进抽样方法和估计方法,以便控制抽样估计误差,具有十分重要的意义。

影响估计量的标准误数值大小的因素主要有以下三个方面:

(1)总体中各个体之间的差异程度。对于所考察的变量来说,总体中各个体在该变量的取值之间的差异程度越大,即ζ2越大,总体指标估计量的标准误的数值也就越大,抽样估计误差也就越大。反之,若ζ2较小,则估计量的标准误差也就越小。

(2)样本容量的大小。样本容量越大,总体指标估计量的标准误就越小,抽样估计误差也就越小;反之,样本容量越小,抽样估计误差及其标准误也就越大。

(3)抽样的方式与方法。比较不同的抽样方式下各总体指标估计量的标准误的计算公式可以看出:抽取样本的方式与方法也是影响估计量的标准误的重要因素。抽样方式方法不同,总体指标估计量的标准误就会不同,抽样估计误差的大小也就不同。

由总体指标估计量的标准误的意义及上述因素分析可知:要提高抽样估计的精确程度,就必须设法降低抽样误差及其标准误,而要降低抽样误差和标准误,就必须根据其影响因素采取相应的措施。如事先将总体分类以减少总体内部的差异程度,或者采用更好的抽样方式以及增加样本容量等。

第四节区间估计

一、区间估计的概念(识记)

为了给出样本估计值精度的估计(点估计做不到),就需要对未知总体指标进行区间估计。

定义(识记):所谓区间估计,就是在事先给定的概率保证程度下,根据样本估计量的概率分布,确定出可能包含未知总体参数的某个区间,作为对未知总体参数的估计。

记待估计的未知总体指标为θ,样本估计量为,事先给定的概率为1-α,若根据样本估计量的概率分布可计算出一个区间,使得该区间包含未知总体参数θ的概率等于事先给定的概率1-α,即有等式:

成立,则该区间就称为未知总体参数的置信区间,其中分别称为置信下限和置信上限;而概率1-α就称为置信概率或置信度,它表明了使用此区间估计的可靠程度或把握程度,其中α称为该区间估计的风险。在实践中,α常取0.05或0.01。

对于置信区间的含义,可以从两方面来理解。一方面,对于反复多次的抽样来说,每次

抽样都可得到一个样本,都可计算出未知总体参数θ的一个置信区间,在这许多置信区间中,有些包含未知的总体参数θ,而有些则不包含未知总体参数θ,其中包含未知总体参数θ的区间所占比例为1-α,而不包含未知总体参数θ的区间所占比例为α。另

一方面,对某一次抽样来说,只有一个样本,只能计算出未知总体参数θ的一个置信区间

,该区间或者包含未知总体参数θ,或者不包含未知总体参数θ。其中该区间包含θ的可能性也称把握程度或称可靠程度为1-α,而该区间不包含θ的可能性则为α。

区间估计既给出了抽样估计的可靠程度,又给出其精度。其中置信概率是可靠程度的度量,而置信区间的长度则表达了估计的精确程度。置信概率越大,估计的可靠程度越高;置信区间的长度越短,估计的精度则越高。很显然,区间估计的可靠程度和精确程度是相互矛盾的,要提高可靠程度就要增大置信概率,从而就要增加置信区间的长度使估计的精度降低;反之要提高估计的精度就要缩短置信区间的长度,从而就要减小置信概率使估计的可靠程度降低。因此,在实践中,应根据所研究总体的特点在二者之间进行权衡,适当地确定置信概率,即使估计的可靠程度符合要求,又不至于使估计的精度太低。

下面学习常用的总体指标置信区间的计算方法。

二、总体均值的区间估计(领会)

(一)大样本情形下总体均值的区间估计

大样本情形下,样本均值的概率分布可看作是正态分布。概率保证为1-α。

总体均值μ的置信区间为:

用样本均值估计总值均值μ所产生的抽样估计误差,记为:

δ称为抽样估计的极限误差或误差限。

【例5—7】某市为了了解在该市打工的民工生活状况,从中随机抽取了100个民工进行调查,得到样本民工月平均工资为630元,标准差为80元,试在95%的概率保证下,对该市民工的月平均工资进行区间估计。

解:由于n=100,=630元,s=80元,故用样本均值作为总体均值μ的估计量,其标准误的估计值为:

由于该样本是大样本,样本均值的概率分布可看作正态分布,在置信概率1-α=95%的条件下,查标准正态分布概率表得上侧分位数zα/2=z0.025=1.96。由此得估计的误差限为:

故可得出该市农民工月平均工资μ的置信区间为:

(630-15.68)元<μ<(630+15.68)元

即有:

614.32元<μ<645.68元

这表明在95%的概率保证下,可以认为该市农民工的月平均工资在614.32元至645.68元之间。

(二)小样本情形下,正态总体均值的区间估计

只讨论正态总体小样本均值的区间估计。

对于来自正态总体的一个小样本,在给定的置信概率1-α之下,总体均值μ的置信区

间为:

用样本均值估计总值均值μ所产生的抽样估计误差-μ,记为:

【例5—8】在【例5—5】所述某工厂收到供货方发来的一批电子元件的例子中,样本容量n=10,电子元件使用寿命的样本均值=1300小时,样本标准差s=90.42小时,电子元件使用寿命的概率分布可看作正态分布,试在95%的置信概率下,对该批电子元件的平均使用寿命进行区间估计。

解:由于该样本是小样本,故需要使用t分布进行区间估计。在给定置信概率1—α=0.95的条件下,查t分布表得自由度为n-1的t分布上侧分位数tα/2==t0.025=2.26,于是用样本均值估计总体均值的估计误差的误差限为:

该批电子元件平均使用寿命的置信区间为:

(1300-64.62)小时<μ<(1300+64.62)小时

即有:

1235.38小时<μ<1364.62小时

计算结果表明:在95%的可靠程度下,可以认为该批电子元件的平均使用寿命在1235.38小时到1364.62小时之间。

三、总体比例的区间估计(领会)

总体比例P的置信区间为:

用样本比例p估计总体比例P的抽样估计误差限可写为:

【例5—9】在【例5—6】某城市居民家庭生活状况抽样调查中,共随机抽取300户,其中有75户和去年相比由于物价上涨过快而使生活水平下降了,试在95%的概率下对该市居民家庭中由于物价上涨过快而使生活水平下降的家庭所占比例进行区间估计。

解:在该例中,n=300,p=75/300=0.25=25%,在95%的置信概率下,查标准正态分布概率表得zζ/2=1.96。若采用类似于均值置信区间的计算方法,可先计算出用样本比例p 估计总比例P的抽样估计误差的误差限为:

由此得该市由于物价上涨而使生活水平下降的居民家庭所占比例P的置信区间为:25%-4.9%<P<25%+4.9%,即:

20.1%<P<29.9%

四、总体方差的区间估计

总体方差ζ2的置信区间为:

【例5—10】在【例5—5】某工厂收到供货方发来的一批电子元件的例子中,共抽取了10件电子元件进行检验,使用样本的方差为S2=8175.56(小时),试在95%的置信概率下区间估计。对该批电子元件使用寿命的方差和标准差进行

解:电子元件的使用寿命可看作服从正态分布,则(n—1)S2/ζ2服从自由度为(n-1)=9的x2分布。在95%的置信概率下,查x2分布表,得(1-α/2)和α/2的分位数分别为

和,将S2=8175.56和这两个分位数值代入上述正态总体方差置信区间的公式,可得该批电子元件使用寿命的方差的置信区间为:

即有:

3868.56(小时)2<ζ2<27251.87(小时)2

两边开平方,就可得出该批电子元件使用寿命的标准差的置信区间为:

62.20小时<ζ<165.08小时

五、单侧置信区间(识记)

识记:以上所给出的总体指标的置信区间都是既有置信下限又有置信上限,通常称为双侧置信区间。

所谓单侧置信区间,是指根据问题的性质将待估总体指标的上置信限或下置信限指定在其上界或下界值上,并根据给定的置信概率求出另一置信限而得到的置信区间。对于给定的置信率1-α,若有:

或有:

则称区间为总体指标θ的单侧置信区间,其中估计值称为单侧

置信下限,而估计值称为单侧置信上限。

【例5—11】在【例5—6】某城市居民家庭生活状况抽样调查的例子中,共抽取了300户,其中由于物价上涨过快使生活水平下降的家庭所占比重为25%,试在95%的置信概率下求该市居民家庭中生活水平下降的家庭所占比重的单侧置信限。

解:由于样本比例p近似服从正态分布N(P,P(1-P)/n),所以将样本比例p标准化后,就有:

给定置信概率1-α,查正态分布表,可得正态分布α分位数zα,使得:

将这两式左端括号中的不等式变换,可得总体比例P的两个置信区间:

用样本比例p代替总比例P计算总体方差P(1-P)的估计值,可得以下两个置信区间:

将样本值n=300,p=25%及正态分布分位数zα=z0.05=1.645分别代入上面两式,则可得到总体比例P的两个单侧置信区间分别为:

0<P<29.1%

20.9%<P<100%

这表明在95%的可靠程度下,可认为该市生活水平下降的居民家庭所占比重不超过29.1%或不低于20.9%。其中20.9%和29.1%分别为该市居民家庭中生活水平下降的家庭所占比重的单侧置信下限和单侧置信上限。

简单应用:对于给定的样本数据计算总体指标的置信区间。

六、样本容量的确定

样本容量越大,抽样估计误差就越小,而样本容量越小,抽样估计误差就越大。应在确保所需要的估计精度的前提下,尽可能地减少样本容量。

对于有放回的简单随机抽样,如果事先给定在1-α的置信概率之下,用样本均值估计总体均值的抽样估计误差不超过δ,也就是给定总体均值的抽样估计误差限为δ,则有放回简单随机抽样的必需最小样本容量计算公式为:

对于不放回的简单随机抽样,必需最小样本容量的计算公式为:

如果记有放回简单随机抽样的必需最小样本容量为n0,即令

并记不放回简单随机抽样必需最小样本容量为n1,则有:

不放回简单随机抽样必需最小样本容量比有放回简单随机抽样的必需最小样本容量稍小一些。

【例5—12】某广告公司想要调查了解某城市的地方电视台播出的一则广告的收视率,拟对该市的居民家庭进行一次抽样调查。该市的居民家庭大约有100000户,若在95%的置信概率下,要求对收视率估计的误差不超过4%,问需要抽取多少居民家庭进行调查?

解:由于收视率是一个比例,即两点分布的均值,所以,若记总体收视率为P,则总体的方差就为ζ2=P(1—P)。虽然总体收视率P是未知的待估参数,但是由于0<P<1,由此可知:总体方差ζ2必然不会大于0.25,即必然会有ζ2==P(1-P)≤0.5(1-0.5)=0.25,故可以用总体方差的此上限值来计算必需的样本容量值。将置信概率为95%的正态分布分位数值zα/2=1.96和抽样估计误差限δ=0.04以及总体方差ζ2=O.25代入有放回简单随机抽样的必需样本容量计算公式,可得:

如果采用不放回简单随机抽样,则必需的样本容量为:

n1=n0/(1+n0/N)=600/(1+600/100000)=596

这表明,若采用有放回简单随机抽样方式,则需要抽取600个居民家庭,而若采用不放回简单随机抽样方式,则需抽取596个居民家庭。

简单应用:根据抽样估计精度的要注计算需要的样本容量。

本章重点内容:抽样方法与抽样分布的有关概念;点估计的有关概念和方法;区间估计的有关概念和方法。

统计学第五章课后题及答案解析

第五章 练习题 一、单项选择题 1.抽样推断的目的在于() A.对样本进行全面调查B.了解样本的基本情况 C.了解总体的基本情况D.推断总体指标 2.在重复抽样条件下纯随机抽样的平均误差取决于() A.样本单位数B.总体方差 C.抽样比例D.样本单位数和总体方差 3.根据重复抽样的资料,一年级优秀生比重为10%,二年级为20%,若抽样人数相等时,优秀生比重的抽样误差() A.一年级较大B.二年级较大 C.误差相同D.无法判断 4.用重复抽样的抽样平均误差公式计算不重复抽样的抽样平均误差结果将() A.高估误差B.低估误差 C.恰好相等D.高估或低估

5.在其他条件不变的情况下,如果允许误差缩小为原来的1/2,则样本容量() A.扩大到原来的2倍B.扩大到原来的4倍 C.缩小到原来的1/4D.缩小到原来的1/2 6.当总体单位不很多且差异较小时宜采用() A.整群抽样B.纯随机抽样 C.分层抽样D.等距抽样 7.在分层抽样中影响抽样平均误差的方差是() A.层间方差B.层内方差 C.总方差D.允许误差 二、多项选择题 1.抽样推断的特点有() A.建立在随机抽样原则基础上 B.深入研究复杂的专门问题 C.用样本指标来推断总体指标 D.抽样误差可以事先计算 E.抽样误差可以事先控制 2.影响抽样误差的因素有()

A.样本容量的大小 B.是有限总体还是无限总体 C.总体单位的标志变动度 D.抽样方法 E.抽样组织方式 3.抽样方法根据取样的方式不同分为() A.重复抽样 B.等距抽样 C.整群抽样 D.分层抽样 E.不重复抽样 4.抽样推断的优良标准是() A.无偏性 B.同质性 C.一致 性 D.随机性 E.有效性 5.影响必要样本容量的主要因素有() A.总体方差的大小 B.抽样方法 C.抽样组织方式 D.允许误差范围大小 E.要求的概率保证程度 6.参数估计的三项基本要素有() A.估计值 B.极限误差

统计学 第五章 抽样推断课后答案

第五章 抽样推断 一、单项选择题 1 2 3 4 5 6 7 8 9 10 C B A D B D C B A C 11 12 13 14 15 16 17 18 19 20 A D C A D C A C B D 二、多项选择题 1 2 3 4 5 ABCE ABDE BCE ABCE ABDE 6 7 8 9 10 ACE ADE ACD ABE CDE 11 12 13 14 15 BDE CD BC ABCD ABCDE 16 17 18 19 20 AD AC BCE ABDE ACE 三、判断题 1 2 3 4 5 6 7 8 9 10 × × × √ √ × √ √ × × 四、填空题 1、变量 属性 2、正 反 3、重复抽样 不重复抽样 4、抽样总体 样本 5、大于 N n - 1 N n 6、标准差 7、样本 总体 抽样平均误差 抽样平均误差 △x = Z x σ 8、合适的样本估计量 一定的概率保证程度 允许的极限误差范围 9、随机抽样 统计分组 10、增大 增大 降低 11、大数定律 中心极限定理 12、样本容量不小(不小于30个单位) 13、大 0.5

14、缩小 3 3 (即0.5774) 扩大 1.1180 15、估计量(或统计量) 参数 五、简答题(略) 六、计算题 1、已知条件:P = 0.5 ,n = 100 且重复抽样 求:p ≤0.45的概率 解: Z = 1100 ) 5.01(5.05.045.0)1(=-?-= --n P P P p 则F (Z = 1) = 0.6827 所以p ≤0.45的概率为: 2 6827 .01-= 0.15865 2、解 E (x 1) = E (0.5X 1 + 0.3X 2 + 0.2X 3) = 0.5 E (X ) + 0.3 E (X ) + 0.2E (X ) = E (X ) = X E (x 2) = E (0.5X 1 + 0.25X 2 + 0.25X 3) = 0.5 E (X ) + 0.25 E (X ) + 0.25E (X ) = E (X ) = X E (x 3) = E (0.4X 1 + 0.3X 2 + 0.3X 3) = 0.4 E (X ) + 0.3 E (X ) + 0.3E (X ) = E (X ) = X 所以x 1、x 2、x 3都是X 的无偏估计量。 D (x 1) = D (0.5X 1 + 0.3X 2 + 0.2X 3) = 0.25 D (X ) + 0.09 D (X ) + 0.04D (X ) = 0.38 D (x 2) = D (0.5X 1 + 0.25X 2 + 0.25X 3)

统计学习题第五章_抽样与抽样估计答案.doc

第五章抽样与抽样估计复习题 一、填空题 1 、在实际工作中,人们通常把n≥ 30 的样本称为大样本,而把n<30 的样本称为小样本。 2 、在抽样估计中,常见的样本统计量有样本均值、样本比例、样本标准差或样本方差以及它们的函数。 3 、在研究目的一定的条件下,抽样总体是唯一确定的,而样本则有许多个。 4 、在抽样调查中,登记性误差和系统性误差都可以尽量避免,而抽样误差则是不可避免的,但可以计算并加以控制。 5 、在抽样估计中,抽样估计量是指用于估计总体参数的样本指标(统计量),评价估计量优劣的标准有无偏性、有效性和一致性。 二、选择题 单选题: 1 、在其它条件不变的情况下,要使抽样平均误差为原来的1/3 ,则样本单位数必须 ((2)) ( 1)增加到原来的 3 倍(2)增加到原来的9 倍 ( 3)增加到原来的 6 倍(4)也是原来的1/3 2、在总体内部情况复杂,且各单位之间差异程度大,单位数又多的情况下,宜采用 ((3)) ( 1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样 3、某厂产品质量检查,确定按5%的比率抽取,按连续生产时间顺序每20 小时抽 1 小时的全部产进行检验,这种方式是((4)) ( 1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样 4、其它条件一定,抽样推断的把握程度提高,抽样推断的准确性就会((2)) ( 1)提高(2)降低(3)不变(4)不一定降低 5、在城市电话网的100 次通话中,通话持续平均时间为 3 分钟,均方差为分钟,则概 率为时,通话平均持续时间的抽样极限误差为((2)) ( 1)(2)(3)(4) 6、假定11 亿人口大国和100 万人口小国的居民年龄变异程度相同,现在各自用重复 抽样方法抽取本国人口的1%计算平均年龄,则平均年龄抽样平均误差((3))( 1)两者相等(2)前者比后者大(3)前者比后者小(4)不能确定大小 多选题: 1 、降低抽样误差,可以通过下列那些途径((2)(4)(5)) (1)降低总体方差(2)增加样本容量。 (3)减少样本容量(4)改重复抽样为不重复抽样 (5)改简单随机抽样为类型抽样 2 、抽样推断中的抽样误差((1)(5)) (1)是不可避免要产生的 (2)是可以通过改进调查方法来消除的 (3)只有调查后才能计算 (4)即不能减少,也不能消除 (5)其大小是可以控制的 3 、抽样极限误差((1)(2)( 4))

统计学习题第五章_抽样与抽样估计答案

一、填空题 1、在实际工作中,人们通常把 n≥30 的样本称为大样本,而把 n<30 的样本称为小样本。 2、在抽样估计中,常见的样本统计量有样本均值、样本比例、样本标准差或样本方差以及它们的函数。 3、在研究目的一定的条件下,抽样总体是唯一确定的,而样本则有许多个。 4、在抽样调查中,登记性误差和系统性误差都可以尽量避免,而抽样误差则是不可避免的,但可以计算并加以控制。 5、在抽样估计中,抽样估计量是指用于估计总体参数的样本指标(统计量),评价估计量优劣的标准有无偏性、有效性和一致性。 二、选择题 单选题: 1、在其它条件不变的情况下,要使抽样平均误差为原来的1/3,则样本单位数必须 ((2)) (1)增加到原来的3倍(2)增加到原来的9倍 (3)增加到原来的6倍(4)也是原来的1/3 2、在总体内部情况复杂,且各单位之间差异程度大,单位数又多的情况下,宜采用 ((3)) (1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样 3、某厂产品质量检查,确定按5%的比率抽取,按连续生产时间顺序每20小时抽1 小时的全部产进行检验,这种方式是((4)) (1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样 4、其它条件一定,抽样推断的把握程度提高,抽样推断的准确性就会((2)) (1)提高(2)降低(3)不变(4)不一定降低 5、在城市电话网的100次通话中,通话持续平均时间为3分钟,均方差为分钟,则概率为时,通话平均持续时间的抽样极限误差为((2)) (1)(2)(3)(4)

6、假定11亿人口大国和100万人口小国的居民年龄变异程度相同,现在各自用重复抽样方法抽取本国人口的1%计算平均年龄,则平均年龄抽样平均误差((3))(1)两者相等(2)前者比后者大(3)前者比后者小(4)不能确定大小 多选题: 1、降低抽样误差,可以通过下列那些途径((2)(4)(5)) (1)降低总体方差(2)增加样本容量。 (3)减少样本容量(4)改重复抽样为不重复抽样 (5)改简单随机抽样为类型抽样 2、抽样推断中的抽样误差((1)(5)) (1)是不可避免要产生的 (2)是可以通过改进调查方法来消除的 (3)只有调查后才能计算 (4)即不能减少,也不能消除 (5)其大小是可以控制的 3、抽样极限误差((1)(2)(4)) (1)是所有可能的样本指标与总体指标之间的误差范围 (2)也叫允许误差(3)与所做估计的概率保证程度成反比 (4)通常用来表示抽样结果的精确度 4、影响样本容量的因素有((1)(2)(3)(4)(5)) (1)总体方差 (2)所要求的概率保证程度 (3)抽样方法 (4)抽样的组织形式 (5)允许误差法范围的大小 5、不重复抽样的抽样平均误差((2)(4)) (1)总是大于重复抽样的抽样平均误差

第六章抽样调查练习及答案

第六章抽样调查 一、填空题 1.抽选样本单位时要遵守原则,使样本单位被抽中的机会。 2.常用的总体指标 有、、。 3.在抽样估计中,样本指标又称为量,总体指标又称为。 4.全及总体标志变异程度越大,抽样误差就;全及总体标志变异程度越小, 抽样误差。 5.抽样估计的方法 有和两种。 6.整群抽样是对被抽中群内的进 行的抽样组织方式。 7.误差分为和代表性误差;代表性误差分为________和偏差;偏差是 ____________________________,也称为________________。 8.简单随机抽样的成数抽样平均误差计算公式是:重复抽样条件下:; 不重复抽样条件下:。

9.误差范围△,概率度t 和抽样平均误差μ之间的关系表达式为 。 10.抽样调查的组织形式有: 。 二、单项选择题 1.所谓大样本是指样本单位数在( )及以上 A 30个 B 50个 C 80个 D100个 2.抽样指标与总体指标之间抽样误差的可能范围是( ) A 抽样平均误差 B 抽样极限误差 C 区间估计范围 D 置信区间 3.抽样平均误差说明抽样指标与总体指标之间的( ) A 实际误差 B 平均误差 C 实际误差的平方 D 允许误差 4.是非标志方差的计算公式( ) A P(1-P) B P(1-P)2 C )1(P P - D P 2(1-P) 5.总体平均数和样本平均数之间的关系是( ) A 总体平均数是确定值,样本平均数是随机变量 B 总体平均数是随机变量,样本平均数是确定值 C 两者都是随机变量 D 两者都是确定值 6.对入库的一批产品抽检10件,其中有9件合格,可以( )概率保证合格率不低于80%。

抽样调查样本量确定

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

统计第五章练习题

第五章参数估计 (一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内) 1.在抽样推断中,必须遵循( )抽取样本。 ①随意原则②随机原则③可比原则④对等原则 2.抽样调查的主要目的在于( )。 ①计算和控制抽样误差②了解全及总体单位的情况③用样本来推断总体④对调查单位作深入的研究 3.抽样误差是指()。 ①计算过程中产生的误差②调查中产生的登记性误差③调查中产生的系统性误差④随机性的代表性误差 4.在抽样调查中( )。 ①既有登记误差,也有代表性误差②既无登记误差,也无代表性误差 ③只有登记误差,没有代表性误差④没有登记误差,只有代表性误差 5.在抽样调查中,无法避免的误差是( )。 ①登记误差②系统性误差③计算误差④抽样误差 6.能够事先加以计算和控制的误差是( )。 ①抽样误差②登记误差③系统性误差④测量误差 7.抽样平均误差反映了样本指标与总体指标之间的( )。 ①可能误差范围②平均误差程度③实际误差④实际误差的绝对值 8.抽样平均误差的实质是( )。 ①总体标准差②全部样本指标的平均差③全部样本指标的标准差④全部样本指标的标志变异系数 9.在同等条件下,重复抽样与不重复抽样相比较,其抽样平均误差( )。 ①前者小于后者②前者大于后者③两者相等④无法确定哪一个大 10.在其他条件保持不变的情况下,抽样平均误差( )。 ①随着抽样数目的增加而加大②随着抽样数目的增加而减小③随着抽样数目的减少而减小④不会随抽样数目的改变而变动 11.允许误差反映了样本指标与总体指标之间的( )。 ①抽样误差的平均数②抽样误差的标准差③抽样误差的可靠程度④抽样误差的可能范围 12.极限误差与抽样平均误差数值之间的关系为( )。 ①前者一定小于后者②前者一定大于后者③前者一定等于后者④前者既可以大于后者,也可以小于后者 13.所谓小样本一般是指样本单位数()。 ①30个以下②30个以上③100个以下④100个以上 14.样本指标和总体指标( )。 ①前者是个确定值,后者是个随机变量②前者是个随机变量,后者是个确定值③两者均是确定值④两者均是随机变量 15.在区间估计中,有三个基本要素,它们是()。 ①概率度,抽样平均误差、抽样数目②概率度、点估计值、误差范围

第6章 抽样推断

第六章抽样推断 习题 一、单选题 1.抽样调查的目的在于()。 A、了解总体的基本情况 B、用样本指标推断总体指标 C、对样本进行全面调查 D、了解样本基本情况 2.在抽样推断中,必须遵循()抽取样本。 A、随意原则 B、随机原则 C、可比原则 D、对等原则 3.某企业连续性生产,为检查产品质量,在24小时中每隔30分钟取下一分钟的产品进行全部检查,这是()。 A、整群抽样 B、简单随机抽样 C、类型抽样 D、等距抽样 4.置信区间的大小表达了区间估计的()。 A、可靠性 B、准确性 C、显著性 D、及时性 5.为提高类型抽样的效果,应当合理分组,尽可能做到()。 A、缩小组内和组间的差异 B、扩大组内和组间的差异 C、缩小组内差异,扩大组间差异 D、扩大组内差异,缩小组间差异 6.为提高整群抽样的效果,应当合理分群,尽可能使()。 A、群内和群间的差异扩大 B、群内和群间的差异缩小 C、群内差异缩小,群间差异扩大 D、群内差异扩大,群间差异缩小 7.在重复的简单随机抽样中,当概率保证度(置信度)从68.27%提高到95.45%时(其他条件不变),必要的样本容量将会()。 A、增加1倍 B、增加2倍 C、增加3倍 D、减少一半 8.在其他条件不变的情况下,抽样单位数目增加一半,则抽样平均误差()。 A、缩小为原来的81.6% B、缩小为原来的50% C、缩小为原来的25% D、扩大为原来的4倍 9.当置信水平一定时,置信区间的宽度()。 A、随样本量的增大而减小 B、随样本容量的增大而增大 C、与样本量的大小无关 D、与样本量的平方根成正比 10.一个95%的置信区间是指()。 A、总体参数有95%的概率落在这一区间 B、总体参数有5%的概率为落在这一区间内 C、在用同样方法构造的总体参数的多个区间中,有95%的区间包含该总体参数 D、在用同样方法构造的总体参数的多个区间中,有95%的区间不包含该总体参数11.当正态总体的方差未知,且为小样本的条件下,估计总体均值使用的分布为()。

(抽样检验)抽样与参数估计最全版

(抽样检验)抽样与参数估 计

抽样和参数估计 推断统计:利用样本统计量对总体某些性质或数量特征进行推断。 从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。这个调查例子是估计总体参数(某种意见的比例)的壹个过程。 估计(estimation)是统计推断的重要内容之壹。统计推断的另壹个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。 因此本节内容就是由样本数据对总体参数进行估计,即: 学习目标:了解抽样和抽样分布的基本概念 理解抽样分布和总体分布的关系 了解点估计的概念和估计量的优良标准 掌握总体均值、总体比例和总体方差的区间估计 第一节抽样和抽样分布 回顾相关概念:总体、个体和样本 抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进行调查,且根据样本数据所提供的信息来推断总体的数量特征。 总体(Population):调查研究的事物或现象的全体参数 个体(Itemunit):组成总体的每个元素 样本(Sample):从总体中所抽取的部分个体统计量 样本容量(Samplesize):样本中所含个体的数量 壹般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。 壹、抽样方法及抽样分布 1、抽样方法

(1)、概率抽样:根据已知的概率选取样本 ①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机 会(概率)被抽中。 注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重 复抽样和不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。 ②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进行抽样 ③、整群抽样:将壹组被调查者(群)作为壹个抽样单位 ④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者 (2)非概率抽样:不是完全按随机原则选取样本 ①、非随机抽样:由调查人员自由选取被调查者 ②、判断抽样:通过某些条件过滤来选择被调查者 (3)、配额抽样:选择壹群特定数目、满足特定条件的被调查者 2、抽样分布 壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。 某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每壹个样本计算出的该统计量数值的相对频数分布或概率分布。 二、样本均值的抽样分布和中心极限定理 1、样本均值的抽样分布(壹个例子)

样本量的确定

样本量的确定 北京广播学院新闻传播学院 调查统计研究所 二零零一年五月 沈浩 本讲主要内容 如何计算简单随机抽样的样本量确定 如何实现分层抽样中各层样本单位数的分配样本容量的确定 样本量=费用+精度 (函数) 确定样本容量,需要处理好预定的精度与现有经费,同时也要考虑资源和时间等限 制条件,最终的样本量确定是在上述因素之间的权衡关系。分层抽样分配样本的标准 总的样本容量事先确定 估计值要求达到的精度预先给定 影响调查样本容量的因素 调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小

样本设计和所使用的估计量 无回答率 客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少 除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因 素。 11>(给定精度水平下样本容量的确定样本容量的大小与调查估计值所要求的精度紧密相关 数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。标准误差 误差界限 变异系数 抽样方差的几种计量方法 抽样调查中样本容量的确定,也经常会使用一种或多种这样的计量方法来对精度进 行说明。 非抽样误差 非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑

第五章抽样推断习题答

第五章抽样推断习题 一、一、单项选择题: 1、抽样推断的主要目的是(③)。 ①对调查单位作深入研究②计算和控制抽样误差 ③用样本指标来推算总体指标④广泛运用数学方法 2、抽样调查与典型调查的主要区别是(④)。 ①所研究的总体不同②调查对象不同 ③调查对象的代表性不同④调查单位的选取方式不同 3、样本是指(④)。 ①任何一个总体②任何一个被抽中的调查单位 ③抽样单元④由被抽中的调查单位所形成的总体 4、抽样误差是指(③)。 ①在调查过程中由于观察、测量等差错所引起的误差 ②在调查中违反随机原则出现的系统误差 ③随机抽样而产生的代表性误差④人为原因所造成的误差 5、抽样极限误差是(②)。 ①随机误差②抽样估计所允许的误差的上下界限 ③最小抽样误差④最大抽样误差 6、抽样平均误差就是(④)。 ①样本的标准差②总体的标准差 ③随机误差④样本指标的标准差 7、抽样估计的可靠性和精确度(②)。 ①是一致的②是矛盾的 ③成正比④无关系 8、在简单随机重复抽样下,欲使抽样平均误差缩小为原来的三分之一,则样本容量应(①)。 ①增加8倍②增加9倍 ③增加1.25倍④增加2.25倍 9、当有多个参数需要估计时,可以计算出多个样品容量n,为满足共同的要求,必要的样本容量一般应是(②)。 ①最小的n值②最大的n值 ③中间的n值④第一个计算出来的n值 10、抽样时需要遵循随机原则的原因是(③)。

①可以防止一些工作中的失误②能使样本与总体有相同的分布 ③能使样本与总体有相似或相同的分布④可使单位调查费用降低 二、多项选择题: 1、抽样推断的优点(①②③④)。 ①时效性强②更经济③能够控制抽样估计的误差 ④适用范围广⑤无调查误差 2、抽样推断适用于(①②③④⑤)。 ①具有破坏性的场合②用于时效性要求强的场合 ③对于大规模总体和无限总体的场合进行调查 ④用于对全面调查的结果进行核查和修正 ⑤不必要进行全面调查,但又需要知道总体的全面情况时 3、抽样推断中哪些误差是可以避免的(①②④)。 ①调查性误差②因抽样破坏随机原则而造成的系统性偏差 ③抽样误差④因抽样破坏随机原则而造成的方向性偏差 4、区间估计的要素是(①③④)。 ①点估计值②样本的分布③估计的可靠度 ④抽样极限误差⑤总体的分布形式 5、影响必要样本容量的因素主要有(①②③⑤)。 ①总体的标志变异程度②允许误差的大小③重复抽样和不重复抽样 ④样本的差异程度⑤估计的可靠度 三、填空题 1、抽样推断就是根据()的信息去研究总体的特征。 2、样本单位选取方法可分为()和()。 3、对于简单随机抽样,总体中的每个单位被抽中的概率为()。 4、区间估计时,既要考虑极限误差的大小,即估计的()问题,又要考虑估计的()问题。 四、简答题 1、什么是抽样推断?抽样推断有哪几方面的特点? 2、抽样推断与典型调查相比有何不同? 五、计算题 1、为检查某批电子元件的质量,随机抽取1%的产品,将测得结果整理成如下表的形式:

统计学第九章抽样与抽样估计

统计学第九章抽样与抽样估计

第九章抽样与抽样估计 一、单项选择题 1、抽样极限误差是指抽样指标和总体指标之间(D)。 A.抽样误差的平均数B.抽样误差的标准差 C.抽样误差的可靠程度D.抽样误差的最大可能范围 2、样本平均数和总体平均数(B)。解析:样本平均数是以总体平均数为中心,在其范围内变动(P213) A.前者是一个确定值,B.前者是随机变量, 后者是随机变量后者是一个确定值 C.两者都是随机变量D.两者都是确定值 3、某场要对某批产品进行抽样调查,一直以往的产品合格率分别为90%,93%, 95%,要求误差范围小于5%,可靠性为95.45%,则必要样本容量应为(B)。A.144B.105C.76D.109 4、在总体方差不变的条件下,样本单位数增加3倍,则抽样误差(C)。 A.缩小1/2B.为原来的3/√3C.为原来的1/3D.为原来的2/3 5、在其他条件不变的前提下,若要求误差范围缩小1/3,则样本容量(B)。 A.增加9倍B.增加8倍 C.为原来的2.25倍D.增加2.25倍 6、抽样误差是指(C)。解析:这题考的是抽样误差的定义(P213) A.在抽查过程中由于观察、测量等差错所引起的误差 B.在调查中违反随机原则出现的系统误差 C.随机抽样而产生的代表性误差 D.人为原因所造成的误差 7、在一定的抽样平均误差条件下(A)。

A.扩大极限误差范围,可以提高推断的可靠程度 B.扩大极限误差范围,会降低推断的可靠程度 C.缩小极限误差范围,可以提高推断的可靠程度 D.缩小极限误差范围,不改变推断的可靠程度 8、抽样平均误差是(B)。解析:这题考的是抽样平均误差的定义(P214)A.总体的标准差B.样本的标准差 C.抽样指标的标准差D.抽样误差的平均差 9、对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进 行检验,这种抽查方式(D)。 A.简单随机抽样B.类型抽样 C.等距抽样D.整群抽样 10、先将总体各单位按主要标志分组,再从各组中随机抽取一定单位组成样本, 这种抽样形式被称为(C)解析:这题考的是抽样调查的几种不同的方式的定义(P211)。 A.简单随机抽样B.机械抽样 C.分层抽样D.整群抽样 11、事先确定整体范围,并对整体的每隔单位都编号,然后根据《随机数码表》 或抽签的方式来抽取样本的抽样组织形式,被称为(B)。 A.简单随机抽样B.机械抽样 C.分层抽样D.整群抽样 12、在同样条件下,不重复抽样的抽样标准误差于重复抽样的抽样的标准误差 相比,(A)。 A.前着小于后者B.前者大于后者 C.两者相等D.无法判断 13、在重复的简单随机抽样中,当概率保证程度从68.27%提高到95.45%时(其 他条件不变),必要的样本容量将会(C)。

第五章 抽样推断

第五章 抽样推断 练习题: 1.对一种新生产方法进行测试,随机选出9名员工,由他们尝试新方法。结果这9名员工试用新生产方法的平均生产率是每小时60个零件,而样本标准差为每小时8个零件。试在95%的概率保证程度下求这一新生产方法平均生产率的置信区间。 解:]23.65,77.54[23.5609 8 96.1602 =±=? ±=±n z x σ α 注:按照理论本道题为小样本,而且总体方差未知,原则上样本均值服从t 分布,因为本门课程未涉及t 分布的相关理论,所以仍采用正态分布及其临界值或概率度。 2.用抽样方法估计250张单据中有错误的单据数,先抽取50张进行审查,发现其中20张有错误,试以95%的概率保证程度估计有错误单据所占比例的置信区间。 解:%] 15.52%,85.27[%20.696.1%40)250 50 1(50%60%4096.1%40)1()1(%40%10050 20 %1002 1=?±=-??±=--±=?=?= N n n p p z p n n p α置信区间为: 注:因为题目里给了N 数据,因此采用了不重复抽样方法计算抽样平均误差。 3.某医院欲估计门诊医生花在每个病人身上的平均时间。假如要求置信度为95%,允许的误差范围在±2分钟。且依以前的经验,看病时间的标准差为6分钟。试问需要多大的样本。 解:(人) 3557.342 696.1)(2 2222≈=?=?=x Z n σ 4.为考察某地区高中学生身高分布状况,简单随机抽取200人,测得平均身高167厘米,抽样标准差471.=σ厘米,要求:在95.45%的置信度下,给出总体平均身高的置信区间。 解:]167.20,166.80[0.20167200 1.47 21672 =±=? ±=±n z x σ α 5.为了研究中央电视台春节联欢晚会的受欢迎程度,在全国各地随机对1000名成年人进行调查,结果有930人表示喜欢,要求以90%的概率保证程度对晚会受欢迎程度进行区间估计。 解:

统计学教案(第6章抽样推断)

统计学 授课题目第6章抽样推断课次第8-9次 授课方式讲授课时安排第8教学周-第9教学周,共4课时教学目的: 通过本章的学习,要求掌握利用样本统计资料来推断总体数量特征的原理及方法;深刻理解抽样推断的概念及特点;了解抽样误差产生的原因,并对抽样误差、抽样平均误差、抽样极限误差加以区别,掌握抽样平均误差、抽样极限误差的计算;掌握点估计和区间估计的方法;掌握必要样本单位数的确定方法。 教学重点及难点提示: 重点:区间估计 难点:抽样平均误差的计算 案例导入:大学生消费调查:一个月你花多少? 第一节抽样推断概述 一、抽样推断的概念及特点 (一)概念 按随机原则从总体中抽取部分单位,根据这部分单位的信息对总体的数量特征进行科学估计和推断的方法。 包括抽样调查和统计推断 抽样调查:一种非全面调查,按随机原则从总体中抽取部分单位进行调查以获得相 关资料,以推断总体 统计推断:根据抽样调查所获得的信息,对总体的数量特征作出具有一定程度的估 计和推断。 (二)特点 1.按随机原则(等可能性原则)抽取调查单位.随机抽样的目的是为了排除人的主观教法提示:多媒体教学案例教学列举法

影响,使每个样本都有系统的可能性被抽中,使样本对总体具有充分的代表性。随机性原则是保证抽样推断正确性的一个重要前提条件。随机抽样不是随便抽样。 2.根据部分推断总体的数量特征 3.抽样推断的结果具有一定的可靠性和准确性,抽样误差可以事先计算和控制 其他特点有经济性、时效性、准确性、灵活性等 (三)抽样推断的使用 1.不可能进行全面调查时 2.不必要进行全面调查时 3.检查生产过程正常和否 4.对全面调查资料进行补充修正时 二、抽样的几个基本概念 1.样本容量和样本个数 (1)样本容量:样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用n 表示,它表明一个样本中所包含的单位数。一般地,样本单位数大于30个的样本称为大样本,不超过30个的样本称为小样本。 (2)样本个数:又称样本可能数目,它是指从一个总体中可能抽取多少个样本。样本个数的多少和抽样方法有关。 2.总体参数和样本统计量 (1)总体参数:总体分布的数量特征就是总体参数,也是抽样统计推断的对象。常见的总 体参数有:总体的平均数指标,总体成数(比重)指标,总体分布的方差、标准差等等。 (2)样本统计量:和总体参数对应的是样本统计量。 设(12 ,,n X X X )是总体X 容量为n 的样本,若样本函数 T T (12 ,,n X X X ) 中不含任何未知参数,则称T 为一个统计量。 例如

第五章_抽样推断

第五章 抽样推断 一、填空题 2、抽样推断的基础是________,抽样推断中产生的抽样误差不但可以________,而且还能加以________。 9、抽样平均误差就是所有可能的样本的________与________的平均误差。 14、区间估计必须具备三个要素:________、________ 和 ________。 15、如果全及平均数落在区间(550,650)内的概率是95.45%,则抽样平均误差等于________。 18、影响样本容量的主要因素有________、________、________、________ 和 ________。 二、是非题 2、对于无限总体,不能进行全面调查,只能使用抽样推断。( ) 4、变量总体中构成总体的各个单位可以用一定的数量标志加以计量。( ) 6、抽样平均误差越大,样本的代表性越大。( ) 8、不重复简单随机抽样全部样本可能的数目为C n N . ( ) 10、对一个服从正态分布的全及总体进行抽样调查,不论样本容量大小如何,其样本平均数的分布总是趋近正态分布的。( ) 12、点估计是用样本的统计量直接估计和代表总体参数。( ) 16、样本方差S 2 n 与修正样本方差S 2 n-1关系可表示为 S 2 n = n n 1 S 2 n-1 。 ( ) 三、单项选择题 1、 全及总体是惟一确定的,样本总体( ) A 、 也惟一 B 、有无数个 C 、不惟一 D 、有C n N 个 3、 重复简单随机抽样下,抽样平均误差要减少1/3,则样本单位数就要扩大到( ) A 、4倍 B 、2倍 C 、3倍 D 、9倍 5、 满足条件( )时,可以认为抽样成数的概率分布近似正态分布( )。 A 、n<30 np<5 n(1-p)<5 B 、n>30 np<5 n(1-p)>5 C 、n>30 np>5 n(1-p)<5 D 、n>30 np>5 n(1-p)>5 7、计算抽样平均误差时,如有多个标准差的资料,应根据( )计算。 A 、中间一个 B 、平均值 C 、最大一个 D 、最小一个 9、区间估计的置信度是指( ) A 、概率 B 、允许误差的大小 C 、概率保证程度 D 、抽样平均误差的大小 四、多项选择题 3、全面调查和抽样调查中都存在的误差是( ) A 、系统性误差 B 、登记性误差 C 、责任心误差 D 、技术性误差 E 、代表性误差

统计学第五章:抽样推断

第五章:抽样推断 二、单项选择题 1、对总体的数量特征进行抽样估计的前提是抽样必须遵循( B )。 A.大量性 B.随机性 C.可靠性 D.准确性 2、一般认为大样本的样本单位数至少要大于(A )。 A.30 B.50 C.100 D.200 3、抽样平均误差是指( D )。 A.抽中样本的样本指标与总体指标的实际误差 B.抽中样本的样本指标与总体指标的误差范围 C.所有可能样本的抽样误差的算术平均数 D.所有可能样本的样本指标的标准差 4、在其它条件相同的情况下,重复抽样的抽样误差(A)不重复抽样的抽样误差。 A.大于 B.小于 C.总是等于 D.通常小于或等于 5、在其它条件不变的情况下,要使抽样误差减少1/3 ,样本单位数必须增加(D )。 A. 1/3 B. 1.25倍 C. 3倍 D. 9倍 6、从产品生产线上每隔10分钟抽取一件产品进行质量检验。推断全天产品的合格率时,其抽样平均误差常常是按(C )的误差公式近似计算的。 A.简单随机抽样 B.整群抽样 C.等距抽样 D.类型抽样 7、通常使样本单位在总体中分布最不均匀的抽样组织方式是(B )。 A.简单随机抽样 B.整群抽样 C.分层抽样 D.等距抽样 9、抽样平均误差和极限误差的关系是(D) A抽样平均误差大于极限误差B抽样平均误差等于极限误差 C抽样平均误差小于极限误差 D抽样平均误差大于、等于、小于极限误差都可能 10、抽样平均误差的实质是(D) A、总体标准差 B、样本标准差 C、抽样误差的标准差 D、全部可能样本平均数的标准差 三、多项选择题 1、抽样调查与其它非全面调查相区别的主要特点有(ACD )。 A、按随机原则抽取样本单位 B、调查资料时效性强 C、可以计算抽样误差 D、以概率论和数理统计学为理论基础 2、影响抽样平均误差大小的因素有(ABCD )。 A、总体各单位标志值的差异程度 B、抽样数目 C、样本各单位标志值的差异程度 D、抽样组织方式 E、抽样推断的把握程度 3、影响必要的抽样数目的因素有(BCDE )。 A、总体各单位标志值的差异程度 B、样本各单位标志值的差异程度 C、抽样方法和抽样组织方式 D、抽样推断的把握程度 E、允许误差 4、计算抽样平均误差时,由于总体方差是未知的,通常有下列代替方法(ACE )。 A、大样本条件下,用样本方差代替 B、小样本条件下,用样本方差代替 C、用以前同类调查的总体方差代替 D、有多个参考数值时,应取其平均数代替

样本量的确定方法.

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

05 抽样估计

第五章抽样估计 第一节抽样估计的理论基础 抽样估计的基本内容就是研究如何根据总体的部分数据信息(构造样本指标也称统计量)去估计未知总体指标(也称参数)的理论和方法。 学习步骤:抽样估计的理论基础——大数定律和中心极限定理→掌握抽样分布的有关概念及基本原理→抽样估计的理论和方法。 一、大数定律 大量的独立重复测量值的算术平均值具有稳定性。对于这种稳定性的研究构成了大数定律的基本内容。 两个重要的大数定律:贝努里大数定理、辛钦大数定律 设事件A在一次试验中发生的概率为p,在n次独立重复试验中,事件A发生了m次,那么对任意给定的正数ε,有 其等价形式是 贝努里大数定理说明:事件发生的频率m/n,依概率收敛于事件发生的概率p,这个定理用严格的数学形式表达了频率的稳定性,也就是说,当n很大时,事件发生的频率与概率有较大偏差的可能性很小。因此,当n很大时,可用事件发生的频率m/n近似地代替事件发生的概率p,即p≈m/n,这种方法称为抽样估计,它是数理统计的主要研究课题。 (二)辛钦大数定律 设随机变量X1,X2,…,X n相互独立,服从同一分布,且(E(X k)=μ,k=1,2,…),则对任意正数ε,恒有: 辛钦大数定律为我们用测量数据的算术平均数代替其真值的方法提供了理论依据。假定要测量某一物理量μ,在不变条件下测量n次,得到的结果X1,X2,…,X n是不完全相同的,它们可以看作n个独立随机变量X1,X2,…,X n(它们服从同一分布且数学期望均为μ)。按照辛钦大数定律,当n很大时,我们取n次测量结果的算术平均数作为真值μ的近似值,这时出现较大偏差的可能性很小。一般说来,测定的次数越多,近似程度越好。 二、中心极限定理 当处理大样本问题时,将它作为一个非常重要的工具。 下面介绍两个常用的中心极限定理。 定理1:林德贝格—勒维中心极限定理,也称为独立同分布中心极限定理。 定理2: 德莫佛—拉普拉斯中心极限定理。它表明:二项分布的极限分布是正态分布,因此,当n充分大时,若随机变量X n~B(n,p),则近似地有X n~N(np,np(1-p),于是我们可

(标准抽样检验)抽样与参数估计

(标准抽样检验)抽样与 参数估计

抽样与参数估计 推断统计:利用样本统计量对总体某些性质或数量特征进行推断。 从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。这个调查例子是估计总体参数(某种意见的比例)的一个过程。 估计(estimation)是统计推断的重要内容之一。统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。 因此本节内容就是由样本数据对总体参数进行估计,即: 学习目标:了解抽样和抽样分布的基本概念 理解抽样分布与总体分布的关系 了解点估计的概念和估计量的优良标准 掌握总体均值、总体比例和总体方差的区间估计 第一节抽样与抽样分布 回顾相关概念:总体、个体和样本 抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。 总体(Population):调查研究的事物或现象的全体参数 个体(Itemunit):组成总体的每个元素 样本(Sample):从总体中所抽取的部分个体统计量 样本容量(Samplesize):样本中所含个体的数量 一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。 一、抽样方法及抽样分布

1、抽样方法 (1)、概率抽样:根据已知的概率选取样本 ①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机会(概率) 被抽中。 注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重 复抽样与不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。 ②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样 ③、整群抽样:将一组被调查者(群)作为一个抽样单位 ④、等距抽样:在样本框中每隔一定距离抽选一个被调查者 (2)非概率抽样:不是完全按随机原则选取样本 ①、非随机抽样:由调查人员自由选取被调查者 ②、判断抽样:通过某些条件过滤来选择被调查者 (3)、配额抽样:选择一群特定数目、满足特定条件的被调查者 2、抽样分布 一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。 某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本计算出的该统计量数值的相对频数分布或概率分布。 二、样本均值的抽样分布与中心极限定理 1、样本均值的抽样分布(一个例子)

相关文档
最新文档