(抽样检验)抽样与参数估计

(抽样检验)抽样与参数估计
(抽样检验)抽样与参数估计

第四章抽样与参数估计

推断统计:利用样本统计量对总体某些性质或数量特征进行推断。

从数据得到对现实世界的结论的过程就叫做统计推断(statistical inference)。这个调查例子是估计总体参数(某种意见的比例)的一个过程。

估计(estimation) 是统计推断的重要内容之一。统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesis testing) 。

因此本节内容就是由样本数据对总体参数进行估计,即:

学习目标:了解抽样和抽样分布的基本概念

理解抽样分布与总体分布的关系

了解点估计的概念和估计量的优良标准

掌握总体均值、总体比例和总体方差的区间估计

第一节抽样与抽样分布

回顾相关概念:总体、个体和样本

抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。

总体(Population):调查研究的事物或现象的全体参数

个体(Item unit):组成总体的每个元素

样本(Sample):从总体中所抽取的部分个体统计量

样本容量(Sample size):样本中所含个体的数量

一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。

一、抽样方法及抽样分布

1、抽样方法

(1)、概率抽样:根据已知的概率选取样本

①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机

会(概率)被抽中。

注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重

复抽样与不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。

②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样

③、整群抽样:将一组被调查者(群)作为一个抽样单位

④、等距抽样:在样本框中每隔一定距离抽选一个被调查者

(2)非概率抽样:不是完全按随机原则选取样本

①、非随机抽样:由调查人员自由选取被调查者

②、判断抽样:通过某些条件过滤来选择被调查者

(3)、配额抽样:选择一群特定数目、满足特定条件的被调查者

2、抽样分布

一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。

某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本计算出的该统计量数值的相对频数分布或概率分布。

二、样本均值的抽样分布与中心极限定理

1、样本均值的抽样分布(一个例子)

【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X 1=1、X 2=2、X 3=3 、X 4=4 。总体的均值、方差及分布如下 均值和方差

5.21

=∑

=

=N

X N

i i

μ 25.1)

(1

2

=-=

∑=N

X

N

i i

μσ

现从总体中抽取n =2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表

计算出各样本的均值,如下表。并给出样本均值的抽样分布

所有样本均值的均值和方差:

=1n i i x

μ

μ==+++==∑

=5.2160.45.10.11ΛM x n i i x n

i x i x 2

22122=n

M x n i x i x 222122625.016)5.20.4()5.20.1()(σμσ=

=-++-=-=∑

式中:M 为样本数目

比较及结论:1. 样本均值的均值(数学期望)等于总体均值

2. 样本均值的方差等于总体方差的1/n

2、中心极限定理

当总体服从正态分布N ~ (μ,σ2 )时,来自该总体的所有容量为n 的样本的均值

X

也服从正态分布,X 的数学期望为μ,方差为σ2/n 。即x ~N (μ,σ2/n ) 中心极限定理:设从均值为μ,方差为σ2的一个任意总体中抽取容量为n 的样本,当n 充分大时(一般,30≥n 就可以用中心极限定理了),样本均值X 的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。即有: ()

μ=X E 和 n

x δ

δ=

也即有,n

X z δ

μ-= ~()1,0N

其实,样本均值抽样分布的数字特征一方面与总体分布的均值和方差有关,另一方面也与抽样的方法是重复抽样还是不重复抽样有关。无论是重复抽样或不重复抽样,样本均值的数学期望始终等于总体的均值。但在不重复抽样条件下,样本均值的方差需要用修正系

修正重复抽样时均值的方差。当N 很大,而

/5%n N ≤时,其修正系数11

N n

N -→-,可视不重复抽样与重复抽样一致。

图4.1.3 样本均值的抽样分布与总体分布的关系

三、样本比例的抽样分布(Sampling Distribution of p

样本比例的抽样分布是样本比例所有可能值的概率分布。(The sampling distribution of p is the probability distribution of all possible values of the sample proportion p .)

样本比例抽样分布的相关信息,即 p 的期望值、标准差、抽样分布形状等。 主要应用于分类变量:在经济与商务的许多场合,需要用样本比例p 对总体比例P 进行统计推断

根据中心极限定理有:当样本容量增大时(大样本:经验上,当下面两个条件(n·p >=5且n(1-p )>=5)满足时,与p 相关的样本为大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布 1、期望值(Expected value of p ):E (p )=P 2、标准差(Standard deviation of p ):

重复抽样: 不重复抽样:

*四、样本方差的抽样分布

要用样本方差s 2去推断总体的方差σ2,必须知道样本方差的分布。 设总体服从正态分布X~N(μ, σ2 ), X 1,X 2,…,X n 为来自该正态总体的

样本,统计证明比值()

2

21δs n -的抽样分布为自由度是(n-1)的2χ分布,即:

()

()2

2

2

2

1δδs n x

x

i

i

-=

-∑~()12-n χ 2χ分布的性质:

(1)、2χ分布的变量始终为正;

(2)、2χ分布的期望为()()n n E =2χ,方差为()n n D 2)(2=χ。

第二节参数估计的基本方法

一、估计量和估计值

参数是总体的数值特征(A parameter is a numerical characteristic of a population。)

参数估计:就是用样本统计量去估计总体的参数。

估计量(θ?)(estimator)用于估计总体某一参数的样本统计量(随机变量)的名称。

样本均值,样本比例、样本方差等都可以是一个估计量。

估计值(e s t i m a t e):用来估计总体参数时计算出来的估计量的具体数值。

例如: 样本均值就是总体均值μ的一个估计量

如果样本均值?x= 3 ,则 3 就是μ的估计值

二、点估计与判断估计量的优良性准则

(一)、点估计

点估计(Point Estimate)就是用样本估计量的值直接作为总体参数的估计值。

设θ是总体分布中一个要估计的参数。例如,总体分布的均值、方差等。现在从

总体中得到一个随机样本n X X X ,,,21???,如何估计θ?

记估计θ的估计量(统计量)为θ?()n

X X X ,,,21???,简记为θ?

若得到一组样本观察值n x x x ,...,,21,就可以得到θ的估计值:()n

x x x ,...,,?21θ,也记为θ

?。 总体分布参数θ的点估计,就是求出的估计值θ

?。 点估计的方法一般有矩估计发法、极大似然估计法等。

概念要点:

1.从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。

例如: 用样本均值作为总体未知均值的估计值就是一个点估计 2.点估计没有给出估计值接近总体未知参数程度的信息 3.其理论基础是抽样分布 (二)、估计量的优良性准则

要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。作为一个好的估计量,估计量必须具有如下性质:无偏性、有效性、一致性。

1、无偏性(Unbiasedness ):样本估计量的数学期望(均值)等于被估总体参数的真值;

如果θθ=)?(E ,则称θ

?为θ的无偏估计量。 可以证明,总体方差2σ的样本矩估计量2s 是无偏估计量。 2、有效性(Efficiency):好的点估计量应具有较小的方差;

在用估计量θ?来估计总体的某个参数θ时,如果对其它所有对θ的估计量θ~总是

有:

()()

θθ~

?Var Var ≤

那么,这个估计量θ

?就是总体参数θ的有效估计量。 3、一致性(C o n s i s t e n c y ):随着样本容量的增大,估计量越来越接近被估计的总

体参数。

如果n θ?满足:1)?(lim =-∞

→εθθπn

n P ,即: θθ=∞

→n

n ?

lim

则称为n θ?的一致估计量。

可以证明:样本均值、样本比例、样本标准差的点估计是无偏、有效、一致的。

三、抽样误差与区间估计

(一)、抽样误差(Sampling Error )

一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。 有三个相互联系的概念:

1、实际抽样误差:具体样本的估计值θ?与总体参数的实际值θ之间的离差。 )?(θθ

- 2、抽样平均误差:所有可能样本估计值与相应总体参数的平均差异程度。

3、抽样极限误差一定概率下抽样误差的可能范围(也称允许误差):

θ

θθ???≤- 注意:

①、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。 ②、抽样平均误差是所有可能样本值与总体指标值之间的平均离差,它表明抽样估计的准确度;而抽样极限误差是样本指标值与总体指标值的离差绝对值是表明

抽样估计的准确程度的范围。这也就决定了两者存在一定的联系。通常,把抽样极限误差与抽样平均误差相比,从而使单一样本的抽样极限误差标准化,一般称为概率度或相对误差范围,即置信度。

③抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时还需考虑落到这一范围的概率大小。前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系不可分开。这也正是区间估计所关心的主要问题。

(二)、区间估计(Interval Estimate )

在点估计的基础上,给出总体参数估计的一个范围,称为参数的区间估计。 若总体分布含一个未知参数θ,找出了两个依赖于样本n X X X ,,,21???的估计量:

),,,(?),,,(?212211n

n X X X X X X ???≤???θθ 使得

αθθθ-=≤≤1)??(21P

其中,10ππα,显著性水平α一般取0.05或0.01,则称随机区间为的100(1-α)%的置信区间。百分数100(1-α)%被称为置信度或置信水平。 1.根据一个样本的观察值给出总体参数的估计范围

给出总体参数落在这一区间的概率

例如: 总体均值落在50~70之间,置信度为 95% 2、置信水平

①.总体未知参数落在区间内的概率

②.表示为 (1 –a),a 为显著性水平,是总体参数未在区间内的概率

③.常用的显著性水平值有 99%, 95%, 90%,相应的a 为0.01,0.05,0.10。

3、区间估计的要点

①.依据样本指标和抽样误差去推算总体指标时,只是确定了总体指标的估计范围,并没有确定其具体值。这个范围表现为一个上限和一个下限,从而构成一个区间。

②.所得的估计区间表示的只是一个可能范围,而不是绝对的范围。总体指标在这个范围内的可能性为置信概率(α-1)。

③.扩大抽样极限误差可以提高抽样推断的可靠程度,但准确程度会降低;反之,缩小抽样极限误差会降低抽样推断的可靠程度,但准确程度会提高。

第三节 一个总体参数的区间估计

4.3.1总体均值的区间估计

1、区间估计的基本原理

以总体均值的区间估计为例来说明区间估计的基本原理。

在重复抽样或无限总体抽样的情况下,我们知道有μ=)(X E 、n

X σ

σ=

,由此

可以知道样本均值X 落到总体均值μ的两侧各为一个抽样标准差范围内的概率0.687 3;落在两个抽样标准差范围内的概率为0.954 5。而实际上,X 是已知的,

μ而是未知的,也正是我们要估计的。由于X 和μ的距离是对称的,因此如果

有95%的样本均值落在μ的两个标准误差的范围内,则也就是说,约有95%的样本均值所构成的两个标准误差的区间会包括μ。即若有

%95)22(≈+<<-X X X P δμδμ

则有

%95)22()22(≈+<<-=+<<-X X X X X X P X P δμδδμδμ

通俗地说,如果我们抽取100个样本来估计总体的均值,有100个样本均值所构成的100个区间中,约有95个区间包含总体均值。 2、正态总体且方差已知,或非正态总体、方差未知、大样本

当总体服从正态总体且方差已知,或非正态总体、方差未知但大样本时,样本均值的抽样分布为正态分布,有μ=)(X E 、n

X σ

σ=

。即

)1,0(~N n

X z δμ

-=

对显著性水平α,有ααα

-=<<-1)(22

z z z P ,即有:

ασμσαα-=?+<

2

n Z X n Z X P

由此得到总体均值μ在)1(α-置信水平下的置信区间为:

?

??

?

???+?-n Z X n Z X /,/22σσαα (4.3.1) 如果总体方差2δ未知,在大样本条件下,则可以用样本方差2s 代替总体方差2δ,这时总体均值μ在置信水平)1(α-下的置信区间为:

?

??

?

???+?-n s Z X n s Z X /,/22αα (4.3.2) 如果采取不重复抽样,而且插秧比很大时,1

--=N n

N n

X σ

σ,这时总体均值μ在置信水平)1(α-下的置信区间为:

???

? ??--?+--?-1/,1/22N n N n Z X N n N n Z X δδαα (4.3.3) 相应的如果总体方差2δ未知,总体均值μ在置信水平)1(α-下的置信区间可写为:

???

? ??--?+--?-1/,1/22N n N n s Z X N n N n s Z X αα (4.3.4)

【例】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4 mm 。已知总体标准差δ=0.15mm ,试建立该种零件平均长度的置信区间,给定置信水平为0.95。

解:已知X~N(μ,0.152),x =2.14,n=9,1-a = 0.95,Za/2=1.96 根据式(4.3.1),总体均值μ的置信区间为:

)

498.21,302.21(9

15.0*96.14.21,9

15

.0*

96.14.21()

,(2

2

=+-=+-N

Z x n

Z x δ

δ

αα

我们可以以95%的概率保证该种零件的平均长度在21.302~21.498 mm 之间。

3、正态总体、方差未知、大样本

如果总体服从正态分布,则无论样本容量如何,样本均值x 的抽样分布都服从正态分布。但是,如果总体方差2δ未知,而且是小样本的情况下,则需要用样本方差2s 来代替2δ,这时样本均值经过标准化以后的随机变量服从自由度为

)1(-n 的t 分布,即)1(~--=

n t n

s

x t μ

这时需要应用分布来建立总体均值μ的置信区间。

t 分布是类似正态分布的一种对称分布,但它通常比后者平坦和分散。 根据t 分布建立的总体均值μ在置信水平(1-α)下的置信区间为:

n S t x n /)

1(2

-±α

(4.3.5)

(4.3.5)式中2αt 是自由度为)1(-n 时,t 分布中右侧面积为2α时的t 值。 【例】从一个正态总体中抽取一个随机样本, n = 25 ,其均值x = 50 ,标准差 s = 8。建立总体均值μ的95%的置信区间。

解:已知X~N(μ,2δ),x =50, s =8, n=25, 1-a = 0.95,t a/2=2.0639。 由式(4.3.5),可得:

)

3.53,69.46(25

8*0639.250,25

8*0639.250()

,(2

=+-=+-N

s t x n

s t x αα

我们可以95%的概率保证总体均值在46.69~53.30 之间

小结: 表:4.3.1 不同情况下总体均值的区间估计

4.3.2 总体比例的区间估计 1、大样本重复抽样时的估计方法

当样本容量很大时,样本比例p 的抽样分布服从正态分布近似。即 如果5≥?p n 且5)1(≥-?p n , 则))

1(,

(~n

N p πππ-,其中π为总体的比例。

样本比例p 经过标准化后的随机变量服从标准正态分布,即

n

p p E p z p

)1()

(πππ

δ-?-=

-=

则总体比例π在置信水平)1(α-下的置信区间为:

N

Z p )

1(2

ππα-??

±

用上式计算总体比例π的置信区间时,π的值应该是已知的,但实际上却不然,

π的值恰恰是我们要估计的,所以我们用样本的比例p 来代替π,此时计算总体比例π的置信区间可表示为:

n

p p Z p )

1(2

-??

±α (4.3.6) 式中2

αZ 为标准正态分布右侧面积为2α时的Z 值,n

p p Z )

1(2

-??

α是估计总体比例时的边际误差。

总体比例的置信区间有两部分组成:总体比例的点估计值和描述估计量精确度的

±值,这个±值称为边际误差。 2、大样本不重复抽样时的估计方法

在不重复抽样条件下,样本比例p 的方差为:)1

()1(2--?-=

N n

N n p p p δ 此时总体比例π在置信水平)1(α-下的置信区间为: )1

()1(2

---??

±N n

N n p p Z p α (4.3.7)

【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。

解:已知 n=200,p =0.7,n* p =140>5,n*(1-p )=60>5,a= 0.95,Za/2=1.96

根据式(4.3.6),得

)

764.0,636.0()

200

)

7.01(7.096.17.0())1((2

=-??±=-??

±n p p Z p α 所以我们可以以95%的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%~76.4%之间 4.3.3 总体方差的区间估计

设n X X X ,,,21???来自正态总体),(2δμN X ∈的容量为n 的样本,参数δ未知。为了估计2δ,可根据样本方差2s 来确定其在置信水平)1(α-下的置信区间。

从2χ分布表中查得221αχ-和2αχ(

2

)(222α

χχα=>P ;

21)(2

212α

χχα-=>-P )

, 使得下式成立: αχδ

χ

αα-=<-<

-1))1((222

2

2

2

1s n P

即: αχ

δχαα-=-<

<--1))1()1((

2

2

12

2

2

2

2

s n s n P

因此,总体参数2δ在置信水平)1(α-下的置信区间为:

))1(,)1((2

2

122

2

2ααχχ---s n s n (4.3.8) 【例】假定A 品牌25公斤袋装大米的重量服从正态分布。现随机抽取13袋,测得它们的重量分别是:24.0、24.2、24.4、24.6、24.7、24.8、25.0、25.1、25.1、25.2、25.3、25.4、25.6公斤,试以95%的置信水平估计该品牌袋装大米重量的标准差。

解:因为05.0=α,1-n =12,查2χ分布表,得:

404.4221=-αχ和2

αχ=23.337

所以,置信水平为95%的总体方差的置信区间是:

22

2404.412337.2312s s <<δ

由原始数据可计算得到2

s =0.23,代入上式得:

627.0118.02<<δ

所以79.034.0<<δ

所求信区间是:(0.34,0.79)

第四节样本容量的确定

1、确定样本容量的理论依据

样本容量对估计精度有较大的影响,从理论上说,样本容量越大,对总体特征的估计误差越小;但从实践角度看,抽样数目过大,则会增大调查及相关的工作量。因此,样本容量的确定是至关重要的。

一般说来,抽样数目以满足在一定的概率保证下抽样误差不超过给定的允许范围的最小样本容量为界。因此,可根据抽样极限误差与抽样数目的关系来确定抽样数。

说明:确定样本容量时一般要考虑抽样方法的影响,即重复抽样和不重复抽样。

2、总体均值参数估计中抽样数目的确定

为了简单,可直接考虑大样本的情况,这时样本均值x 服从正态分布即

)1,0(~)

(N x x σμ

- 于是在1- a 的置信度下,存在临界值Z a/2 ,使得

2)(/ασμZ x x ≤- 或 )(2x Z x σμα≤-根据抽样极限误差的定义,若

用样本均值估计总体均值的极限误差(边际误差)为x ?,则:

x n Z x Z ?==)/()(22σσαα

故,在该置信度下,如果允许误差为x ?时,可以其为极限误差解出必须的抽样数:

()222

2x Z n ?=σα

由此可知,此抽样数目由总体方差、允许误差以及概率保证程度三者确定。 【例】一家广告公司想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?

解:已知2δ=1800000,a=0.05, Z a/2=1.96,x ?=500应抽取的样本容量为:

()28

65.27500/)1800000()96.1(22222

≈=?=?=x

Z n σα

3、总体比例参数估计中的抽样数目确定

在大样本下,样本比例的分布趋近于如下正态分布)/)1(,(~n P P P N p -,于是:

)1,0(~)1(N n

P P P p --

设在1- a 的置信度下,对应的临界值为Z a/2 ,则易知

n P P Z P p )1(2-≤-α于是,

如果允许误差为p ?,可得最小的抽样数目:

()22

2)1(p P P Z n ?-=α

注:1、如果总体方差或总体比例未知,可用样本方差或样本比例代替。

2、为了保证抽样推断的把握程度,若有多个可供参考的方差数值,应选其中方差最大值来计算。对于比例的方差,比例应取接近50%的样本(Why?)。【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例P的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)

解: 已知p

?=0.05,a=0.05,Z a/2=1.96,当p未知时用最大方差0.25代替.应抽

取的样本容量为:

()

385

)

05

.0(

)5.0

1(

)5.0(

) 96 .1(

)

1(

2

2

2 2

2

-

?

?

=

-

=

p

P

P

Z

n

α

(抽样检验)抽样与参数估计最全版

(抽样检验)抽样与参数估 计

抽样和参数估计 推断统计:利用样本统计量对总体某些性质或数量特征进行推断。 从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。这个调查例子是估计总体参数(某种意见的比例)的壹个过程。 估计(estimation)是统计推断的重要内容之壹。统计推断的另壹个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。 因此本节内容就是由样本数据对总体参数进行估计,即: 学习目标:了解抽样和抽样分布的基本概念 理解抽样分布和总体分布的关系 了解点估计的概念和估计量的优良标准 掌握总体均值、总体比例和总体方差的区间估计 第一节抽样和抽样分布 回顾相关概念:总体、个体和样本 抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进行调查,且根据样本数据所提供的信息来推断总体的数量特征。 总体(Population):调查研究的事物或现象的全体参数 个体(Itemunit):组成总体的每个元素 样本(Sample):从总体中所抽取的部分个体统计量 样本容量(Samplesize):样本中所含个体的数量 壹般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。 壹、抽样方法及抽样分布 1、抽样方法

(1)、概率抽样:根据已知的概率选取样本 ①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机 会(概率)被抽中。 注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重 复抽样和不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。 ②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进行抽样 ③、整群抽样:将壹组被调查者(群)作为壹个抽样单位 ④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者 (2)非概率抽样:不是完全按随机原则选取样本 ①、非随机抽样:由调查人员自由选取被调查者 ②、判断抽样:通过某些条件过滤来选择被调查者 (3)、配额抽样:选择壹群特定数目、满足特定条件的被调查者 2、抽样分布 壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。 某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每壹个样本计算出的该统计量数值的相对频数分布或概率分布。 二、样本均值的抽样分布和中心极限定理 1、样本均值的抽样分布(壹个例子)

(抽样检验)样本均数的抽样误差与置信区间

第三章 样本均数的抽样误差与置信区间 ★ 联系: 3.1 样本均数的分布 ·从同一总体中独立抽取多份样本, 他们的均数常大小不一, 这说明样本均数存在变异。通过电脑实验来认识样本均数的变异规律 一、正态总体样本均数的分布 实验 3.1 从正态分布总体抽样的实验 假定正常男子的红血球计数服从正态分布N(4.6602, 0.57462),随机抽取1000份样本 , 每份含n =5个个体。样本均数依然是一个随机变量, 且 (1) (2) (3) 样本均数的分布很有规律,围绕着总体均数,中间多、两边少, 左右基本对称(对称、正态?); (4) (5) 随着样本量的增大, 表3.1 从N(4.6602, 0.57462)中随机抽样, 样本量为5, 100份独立 12图3.1 从正态分布总体抽样的实验结果 23.7 4.1 4.5 4.9 5.3 5.7 3.7 4.1 4.5 4.9 5.3 5.7 3.7 4.1 4.5 4.9 5.3 5.7(a) (b) (c)

* 由这份样本估计的95%置信区间实际上并未复盖总体均数 表3.2 从N(4.6602, 0.57462)中随机抽取1000 份独立样本, 其均数的频数分布 组段下限(1012 /L) 频数 频率(%) 累积频率(%) 3.60- 1 0.1 0.1 3.80- 5 0.5 0.6 4.00- 32 3.2 3.8 4.20- 117 11.7 1 5.5 4.40- 229 22.9 38.4 4.60- 304 30.4 68.8 4.80- 218 21.8 90.6 5.00- 76 7.6 98.2 5.20- 15 1.5 99.7 5.40- 3 0.3 100.0 合计 1000 100.0 ·理论上可以证明, 从正态分布N(μ, σ2)的总体中随机抽取含量为n 的样本,其样本均数X ~N(μ, σ2 /n)。 ·样本均数的标准差习惯上又称为样本均数的标准误(standard error),简称标准误。值得注意的是如下的普遍规律: 或 ·实际应用中往往总体标准差σ未知, 人们只能用样本标准差S 代替σ,从而获得x σ的估计值x S ,则有 ·为方便计,可称x σ为理论标准误,x S 为样本标准误。 二、非正态总体样本均数的分布 实验3.2 从正偏峰的分布总体抽样的实验 (1) 随着样本量的增大, 样本均数分布的对称性逐渐改善, 样本

(完整版)统计学习题答案第5章参数估计

第5章 参数估计 ●1. 从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。 (1) 样本均值的抽样标准差x σ等于多少? (2) 在95%的置信水平下,允许误差是多少? 解:已知总体标准差σ=5,样本容量n =40,为大样本,样本均值x =25, (1)样本均值的抽样标准差 x σσ5=0.7906 (2)已知置信水平1-α=95%,得 α/2Z =1.96, 于是,允许误差是E = α/2 σ Z 6×0.7906=1.5496。 ●2.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。 (3) 假定总体标准差为15元,求样本均值的抽样标准误差; (4) 在95%的置信水平下,求允许误差; (5) 如果样本均值为120元,求总体均值95%的置信区间。 解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为 x σσ15=2.1429 (2)已知置信水平1-α=95%,得 α/2Z =1.96, 于是,允许误差是E = α/2 σ Z 6×2.1429=4.2000。 (3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =1.96, 这时总体均值的置信区间为 α/2 x Z 0±4.2=124.2115.8 可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。 ●3.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时): 3.3 3.1 6.2 5.8 2.3 4.1 5.4 4.5 3.2 4.4 2.0 5.4 2.6 6.4 1.8 3.5 5.7 2.3 2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5

统计学习题第九章参数估计

第九章参数估计 第一节点估计 点估计的概念·总体参数合理估计的标准(无偏性、一致性、有效性) 第二节区间估计 抽样估计的精确性和可靠性·抽样平均误差与概率度·区间估计的步骤及大样本总体均值的区间估计 第三节其他类型的置信区间 σ未知,小样本总体均值的区间估计·总体成数的区间估计·总体方差的区间估计 第四节抽样平均误差 简单随机抽样的抽样平均误差·分层抽样的抽样平均误差·整群抽样的平均抽样误差·系统抽样的抽样平均误差 第五节样本容量的确定 影响样本容量的因素·抽样条件与样本容量的确定 一、填空 1.参数估计,即由样本的指标数值推断总体的相应的指标数值,它包括点估计和(区间估计)。 2.对总体均值求置信区间的方法是:从(点估计值X)起向两侧展开一定倍数 σ),并估计μ很可能就包含在这个区间之内。 (Z)的抽样平均误差( X 3.假设在某省抽样调查的1600名城镇待业人员中有1024名青年,则待业人员中青年占比重的置信区间为(〔%,% 〕)。 4.在其他条件不变得情况下,如果允许误差缩小为原来的1/2,则样本容量将增加为原来的( 4倍)。 二、单项选择 1.如果统计量的抽样分布的均值恰好等于被估计的参数之值,那么这一估计便可以认为是( C )估计。 A 有效 B 一致 C 无偏 D 精确 2.虽然随机样本和总体之间存在一定的误差,但当样本容量逐渐增加时,统计量越来越接近总体参数,满足这种情况,我们就说该统计量对总体参数是一个( B )的估计量。 A 有效 B 一致 C 无偏 D 精确 3.估计量的( A )指统计量的抽样分布集中在真实参数周围的程度。 A 有效性 B 一致性 C 无偏性 D 精确性 4.用简单随机重复抽样方法抽样,如果要使抽样误差降低50%,则样本容量需要扩大

应用统计学:参数估计习题及答案.(优选)

简答题 1、矩估计的推断思路如何?有何优劣? 2、极大似然估计的推断思路如何?有何优劣? 3、什么是抽样误差?抽样误差的大小受哪些因素影响? 4、简述点估计和区间估计的区别和特点。 5、确定重复抽样必要样本单位数应考虑哪些因素? 计算题 1、对于未知参数的泊松分布和正态分布分别使用矩法和极大似然法进行点估计,并考量估计结果符合什么标准 2、某学校用不重复随机抽样方法选取100名高中学生,占学生总数的10%,学生平均体重为50公斤,标准差为48.36公斤。要求在可靠程度为95%(t=1.96)的条件下,推断该校全部高中学生平均体重的范围是多少? 3、某县拟对该县20000小麦进行简单随机抽样调查,推断平均亩产量。根据过去抽样调查经验,平均亩产量的标准差为100公斤,抽样平均误差为40公斤。现在要求可靠程度为95.45%(t=2)的条件下,这次抽样的亩数应至少为多少? 4、某地区对小麦的单位面积产量进行抽样调查,随机抽选25公

顷,计算得平均每公顷产量9000公斤,每公顷产量的标准差为1200公斤。试估计每公顷产量在8520-9480公斤的概率是多少?(P(t=1)=0.6827, P(t=2)=0.9545, P(t=3)=0.9973) 5、某厂有甲、乙两车间都生产同种电器产品,为调查该厂电器产品的电流强度情况,按产量等比例类型抽样方法抽取样本,资料如下: 试推断: (1)在95.45%(t=2)的概率保证下推断该厂生产的全部该种电器产品的平均电流强度的可能范围 (2)以同样条件推断其合格率的可能范围 (3)比较两车间产品质量 6、采用简单随机重复和不重复抽样的方法在2000件产品中抽查200件,其中合格品190件,要求: (1)计算样本合格品率及其抽样平均误差

(抽样检验)抽样与参数估计

第四章抽样与参数估计 推断统计:利用样本统计量对总体某些性质或数量特征进行推断。 从数据得到对现实世界的结论的过程就叫做统计推断(statistical inference)。这个调查例子是估计总体参数(某种意见的比例)的一个过程。 估计(estimation) 是统计推断的重要内容之一。统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesis testing) 。 因此本节内容就是由样本数据对总体参数进行估计,即: 学习目标:了解抽样和抽样分布的基本概念 理解抽样分布与总体分布的关系 了解点估计的概念和估计量的优良标准 掌握总体均值、总体比例和总体方差的区间估计 第一节抽样与抽样分布 回顾相关概念:总体、个体和样本 抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。 总体(Population):调查研究的事物或现象的全体参数 个体(Item unit):组成总体的每个元素 样本(Sample):从总体中所抽取的部分个体统计量

样本容量(Sample size):样本中所含个体的数量 一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。 一、抽样方法及抽样分布 1、抽样方法 (1)、概率抽样:根据已知的概率选取样本 ①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机 会(概率)被抽中。 注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重 复抽样与不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。 ②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样 ③、整群抽样:将一组被调查者(群)作为一个抽样单位 ④、等距抽样:在样本框中每隔一定距离抽选一个被调查者 (2)非概率抽样:不是完全按随机原则选取样本 ①、非随机抽样:由调查人员自由选取被调查者 ②、判断抽样:通过某些条件过滤来选择被调查者 (3)、配额抽样:选择一群特定数目、满足特定条件的被调查者 2、抽样分布 一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。 某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本计算出的该统计量数值的相对频数分布或概率分布。 二、样本均值的抽样分布与中心极限定理 1、样本均值的抽样分布(一个例子)

统计学 第六章 抽样与参数估计

《统计学》 第六章 抽样与参数估计 1、某市劳动和社会保障局想调查下岗职工中女性所占的比重,随机抽取300个下岗职工,发现其中195个为女性职工。试以95.45%的概率保证程度,估计该市下岗职工中女性比重的区间范围。 解: 已知n=300,概率保证程度95.45%,Z 0.0455/2 =2 P=300195=65% 区间范围P n )1(2 p p -Z ±α=0.65300 ) 65.01(65.02-±=0.65±0.055 该市下岗职工中女性比重的区间范围为59.5%~70.5之间 2、某灯管厂生产10万只日光灯管,现采用简单随机重复抽样方式抽取1‰灯管进行质量检验,测试结果如下表所示: 耐用时间(小时) 灯管数(只) 800以下 10 800-900 15 900-1000 35 1000-1100 25 1100以上 15 合计 100 根据上述资料: (1)试计算抽样总体灯管的平均耐用时间 (2)在99.73%的概率保证程度下,估计10万只灯管平均耐用时间的区间范围。 (3)按质量规定,凡耐用时间不及800小时的灯管为不合格品,试计算抽样总体灯管的合格率,并按95%的概率保证程度下,估计10万只灯管的合格率区间范围。 (4)若上述条件不变,只是抽样极限误差可放宽到40小时,在99.73%的概率保证程度下,作下一次抽样调查,需抽多少只灯管检验? 解: 耐用时间(小时) 灯管数(只)f 组中值x xf f x x 2)(- 800以下 10 750 7500 484000 800-900 15 850 12750 216000 900-1000 35 950 33250 14000 1000-1100 25 1050 26250 160000 1100以上 15 1150 17250 486000

第 5 章 抽样调查及参数估计(练习题)

第五章 抽样调查及参数估计 5.1 抽样与抽样分布 5.2 参数估计的基本方法 5.3 总体均值的区间估计 5.4 总体比例的区间估计 5.5 样本容量的确定 一、简答题 1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计? 2.什么是抽样误差,影响抽样误差的主要因素有哪些? 3.简述概率抽样的五种方式 二、填空题 1.抽样推断是在 随机抽样 的基础上,利用样本资料计算样本指标,并据以推算 总体数量 特征的一种统计分析方法 。 2.从全部总体单位中随机抽选样本单位的方法有两种,即 重复 抽样和 不重复 抽样。 3.常用的抽样组织形式有 简单随机抽样 、 类型抽样 、等距抽样、 整群抽样 等四种。 4.影响抽样误差大小的因素有总体各单位标志值的差异程度、 抽样单位数的多少 、 抽样方法 和抽样调查的组织形式 。 5.总体参数区间估计必须具备估计值、 概率保证程度或概率度 、 抽样极限误差 等三个要素。 6.从总体单位数为N 的总体中抽取容量为n 的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。 7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。 8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。 三、选择题 1.抽样调查需要遵守的基本原则是( B )。 A .准确性原则 B .随机性原则 C .代表性原则 D .可靠性原则 2.抽样调查的主要目的是( A )。 A .用样本指标推断总体指标 B .用总体指标推断样本指标 C .弥补普查资料的不足 D .节约经费开支 3.抽样平均误差反映了样本指标与总体指标之间的( B )。 A .实际误差 B .实际误差的平均数 C .可能的误差范围 D .实际的误差范围 4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D ) 。 A .简单随机抽样 B .类型抽样 C .等距抽样 D .整群抽样 5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。 A .样本单位数越多,抽样误差越大 B .样本单位数越多,抽样误差越小 C .样本单位数与抽样误差无关 D .抽样误差是样本单位数的10% 6.用简单随机重复抽样方法抽取样本单位,如果要使抽样平均误差降低50%,那么样本n n N B N =!()!n N N A N n =-

统计学第九章抽样与抽样估计

第九章抽样与抽样估计 一、单项选择题 1、抽样极限误差是指抽样指标和总体指标之间(D)。 A.抽样误差的平均数B.抽样误差的标准差 C.抽样误差的可靠程度D.抽样误差的最大可能范围 2、样本平均数和总体平均数(B)。解析:样本平均数是以总体平均数为中心,在其范围内变动(P213) A.前者是一个确定值,B.前者是随机变量, 后者是随机变量后者是一个确定值 C.两者都是随机变量D.两者都是确定值 3、某场要对某批产品进行抽样调查,一直以往的产品合格率分别为90%,93%, 95%,要求误差范围小于5%,可靠性为95.45%,则必要样本容量应为(B)。A.144B.105C.76D.109 4、在总体方差不变的条件下,样本单位数增加3倍,则抽样误差(C)。 A.缩小1/2B.为原来的3/√3C.为原来的1/3D.为原来的2/3 5、在其他条件不变的前提下,若要求误差范围缩小1/3,则样本容量(B)。 A.增加9倍B.增加8倍 C.为原来的2.25倍D.增加2.25倍 6、抽样误差是指(C)。解析:这题考的是抽样误差的定义(P213) A.在抽查过程中由于观察、测量等差错所引起的误差 B.在调查中违反随机原则出现的系统误差 C.随机抽样而产生的代表性误差 D.人为原因所造成的误差 7、在一定的抽样平均误差条件下(A)。

A.扩大极限误差范围,可以提高推断的可靠程度 B.扩大极限误差范围,会降低推断的可靠程度 C.缩小极限误差范围,可以提高推断的可靠程度 D.缩小极限误差范围,不改变推断的可靠程度 8、抽样平均误差是(B)。解析:这题考的是抽样平均误差的定义(P214)A.总体的标准差B.样本的标准差 C.抽样指标的标准差D.抽样误差的平均差 9、对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式(D)。 A.简单随机抽样B.类型抽样 C.等距抽样D.整群抽样 10、先将总体各单位按主要标志分组,再从各组中随机抽取一定单位组成样本,这种抽样形式被称为(C)解析:这题考的是抽样调查的几种不同的方式的定义(P211)。 A.简单随机抽样B.机械抽样 C.分层抽样D.整群抽样 11、事先确定整体范围,并对整体的每隔单位都编号,然后根据《随机数码表》 或抽签的方式来抽取样本的抽样组织形式,被称为(B)。 A.简单随机抽样B.机械抽样 C.分层抽样D.整群抽样 12、在同样条件下,不重复抽样的抽样标准误差于重复抽样的抽样的标准误差相 比,(A)。 A.前着小于后者B.前者大于后者 C.两者相等D.无法判断 13、在重复的简单随机抽样中,当概率保证程度从68.27%提高到95.45%时(其 他条件不变),必要的样本容量将会(C)。

抽样误差与区间估计(精)

第四章抽样误差与区间估计 (中大.公卫学院.医学统计与流行病学系.骆福添.020-********) 第一节均数的抽样误差 ·统计推断:用样本的信息去推断总体特征的方法称为统计推断(statistical inference)。 ·抽样误差(sampling error):样本指标与总体指标(参数)的差别要点:由个体变异引起的、不可避免的、有规律性的 ·抽样实验:表4-1,图4-1 表4-1 从总体N(4.83, 0.522)中抽出100个样本(n=10)的 X、S、t值与 的95%的可信区间tCI

tCI ·抽样实验结果提示: (1)样本均数X 以μ为中心呈正态分布 (2)离样本均数X 的散程度为 · 标准误(standard error):度量抽样误差大小的指标(统计量), 其实质是样本指标的变异程度,(联系抽样实验:样本均数的标准差称为样本均数的标准误) 可推导出计算公式为: 此公式几乎不实用,不妨称之为理论标准误 用样本S 代替σ,得样本标准误为: ·标准误意义: (1)标准误小表示样本均数可靠性越大 (2)样本均数结合标准误,对总体作统计推断(后述) 例4-1随机抽取某地200名成年男性的红细胞数均数为4.95× 1012/L ,标准差为0.57×1012/L ,估计其抽样误差。 040.020057 .0===n S S X (1012/L) 所以该样本的抽样误差为0.04×1012/L 。 样本均数 图4-1 100个样本均数的直方图

第二节 均数的抽样误差的分布-t 分布 ·标准化变换:()X X σμ - ·标准化值的分布: (1)已知总体标准差σ时,()X X u σ μ -=,服从标准正态分布 (2)未知总体标准差σ时,)X S X t μ-=,服从t 分布 (3)大样本时,()X S X u μ-≈,近似服从标准正态分布 ·t 分布: ν为自由度(degree of freedom),每个自由度都对应一条分布曲线 ·t 分布的特征: ①以0为中心,左右对称的单峰分布;(外观:…) ②t 分布曲线是一簇曲线,其形态变化与自由度ν的大小有关。自由度ν越小,则t 值越分散,曲线越低平;自由度ν逐渐增大时,t 分布逐渐逼近u 分布(标准正态分布);(参数:+ν) ③当ν趋于∞时,t 分布即为u 分布。(面积:尾巴较大、界值较大) ·t 分布界值表(Page406) 双侧t 0.10(30) = 单侧t 0.05(30) = 1.679 第三节 总体均数的可信区间估计 ·点估计:估计总体参数在某一点上,如μ ?=X ·区间估计·可信度/置信度/把握度:区间估计时,估计正确的概率 约定α=错误概率,则可信度为(1-α) t4_1 常用可信度为95%,99%;往后仅以95%可信度为例 一、σ未知且n 较小:按t 分布的原理用式(4-4)估计可信区间 图4-2不同自由度下t 分布

(抽样检验)第四章抽样理论和参数估计

第四章抽样理论和参数估计 知识引入 1970 年美国首次进行征兵抽签,组织者将19-25岁的适龄青年按年龄分组,使用编号001-366 的等重量塑料球,001代表1月1日出生者,031代表1月31日…,366代表12月31日。然后将所有塑料球放入滚筒中混合抽取号码,每组抽中号码对应生日的青年依次应征,直到人数足够为止。 之后,有记者指出此次抽签产生了严重的偏差,他们注意到,年末生的人似乎倾向于被抽到较前面的征兵顺序。其结果就是一堆12 月份生的人去了越南战场。后来,经过统计学家的分析,发现这种“偏差”确实存在;经过分析终于找到了原因,原来代表生日的号码塑料球是一次按一整个月份装入滚筒中混合的,加上又没有均匀混合;于是1 月份的生日容易在滚筒底下,12 月份的是最后才装进去,容易在上面。 在抽样术语中,经常能够听到“随机抽样”、“随机选择”这样的表述,“随机性”原则其实保证了总体中的每个个体被抽中的概率相等,因而被认为是保证各种抽签、选择过程公平、公正的一个基本手段。上述抽样就没有保证这种随机性。 在本章中,我们还会看到,作为推断的基础,我们直接研究的样本是否“得当”对研究总体十分关键,可以通过一定的抽样设计制定科学、合理、公正的抽样方法。如上述随机性原则可以保证抽样可以使得样本和总体有相同的内部结构,也就是说有最大的可能使总体的某些特征在样本中得以再现。本章在介绍必要的抽样概念和抽样方法基础上,重点介绍抽样分布理论,并对参数估计进行简要介绍。 第一节抽样和常用抽样方法 一、简单随机抽样 抽样(sampling)或取样,在整个研究过程中位于数据收集之前,恰当的抽样设计是保证样本代表性的关键环节,是利用样本对总体进行假设检验或参数估计的基础。抽样涉及到的一些基本概念在绪论中均已介绍。一个合理可行的抽样设计,一方面要求针对调查或实验研究的具体情况选择一种适宜抽样方法;另一方面应该根据调查研究所要求的精确度及经费状况确定样本容量。 一般所说的随机抽样,就是指简单随机抽样,它是最基本的抽样方法,适用范围广,最能体现随机性原则且原理简单。抽取时,总体中每个个体应独立地、等概率地被抽取。常用的实施方法有抽签法和随机数表法。 1、抽签法:是把总体中的每一个个体都编上号并做成签,充分混合后从中随机抽取一部分,这部分签所对应的个体就组成一个样本。 2、随机数表法:所谓随机数表或乱码表,是由一些任意的数毫无规律地排列而的数表。教材附表17即是一万个数字的随机数表。 随机数表的用法

抽样误差及参数估计补充习题

1. 测得某地区100名健康成年男子的血红蛋白值,算得均数为135 g/l ,标准差为7g/l , 如按95% 概率估计该地所有健康成年男子的血红蛋白均数所在的范围 ,宜选用的主要计算公式是:___。 A 、X ±1.96·S B 、X ±1.96S X · C 、X ±2.58S X · D 、 X -1.645·S E 、X +1.645·S 2. 已知某地25岁正常成年男性的平均收缩压为11 3.0mmHg ,从该地随机抽取20名25岁 正常成年男性,测得其平均收缩压为119.0 mmHg 。119.0mmHg 与113.0mmHg 不同,主要原因是__________。 A.样本例数太少 B.抽样误差 C.总体均数不同 D.系统误差 E.样本均数不可比 3. 从上题的同一个地区中再随机抽取20名8岁正常男孩,测得其平均收缩压为90.0 mmHg ,标准差为9.8mmHg 。90.0 mmHg 与113.0mmHg 不同,主要原因是__________。 A.样本例数太少 B.抽样误差 C.总体均数不同 D.系统误差 E.样本均数不可比 4. 用上题的样本,估计该地8岁正常男孩的平均收缩压的95%置信区间为_____。 A. 8.90.11319,2/05.0?±t B 90.0±1.96?9.8 C. 20/8.90.9019,2/05.0?±t D 20/8.996.10.90?± E. 8.90.9019,2/05.0?±t 5. 某地成年男子红细胞数普查结果为:均数为4.8?109,标准差为0.41?109,那么标准差反 映的是: A 抽样误差 B 总体均数不同 C 随机误差 D 个体差异 E 以上均不正确 6. 某地成年男子红细胞普查结果为:均数为4.8?109,标准差为0.41?109,随机抽取10名 男子,测得红细胞均数为4.0?109,标准误0.5?109,那么标准误反映的是: A 抽样误差 B 总体均数不同 C 随机误差 D 个体差异 E 以上均不正确

统计学——参数估计

第8 讲参数估计 本讲的主要内容 8.1 参数估计的一般问题 8.2 一个总体参数的区间估计 8.3 两个总体参数的区间估计 8.4 样本量的确定 学习目标 1.估计量与估计值的概念 2.点估计与区间估计的区别 3.评价估计量优良性的标准 4.一个总体参数的区间估计方法 5.两个总体参数的区间估计方法 6.样本量的确定方法 8.1 参数估计的一般问题 8.1.1 估计量与估计值 估计量与估计值(estimator & estimated value) 1.估计量:用于估计总体参数的随机变量 如样本均值,样本比例, 样本方差等 例如: 样本均值就是总体均值m 的一个估计量 2.参数用θ表示,估计量用表示 3.估计值:估计参数时计算出来的统计量的具体值 如果样本均值?x=80,则80就是m的估计值 8.1.2 点估计与区间估计 点估计 (point estimate) 1.用样本的估计量的某个取值直接作为总体参数的估计值 例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计 2.无法给出估计值接近总体参数程度的信息 ⑴虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值 ⑵一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量 区间估计 (interval estimate) 1.在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到 2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量 比如,某班级平均分数在75~85之间,置信水平是95% 区间估计的图示

参数估计和假设检验

第五章参数估计和假设检验 本章重点 1、抽样误差的概率表述; 2、区间估计的基本原理; 3、小样本下的总体参数估计方法; 4、样本容量的确定方法; 本章难点 1、一般正态分布 标准正态分布; 2、t分布; 3、区间估计的原理; 4、分层抽样、整群抽样中总方差的分解。 统计推断:利用样本统计量对总体某些性质或数量特征进行推断。 两类问题:参数估计和假设检验 基本特点:(1)以随机样本为基础; (2)以分布理论为依据; (3)推断的只是一种可能的结果; (4)是归纳推理和演绎推理的结合。本章主要内容:阐述常用的几种参数估计方法。 第一节参数估计 一、参数估计的基本原理 两种估计方法

点估计 区间估计 1.点估计:以样本指标直接估计总体参数。 点估计优良性评价准则 (1)无偏性。估计量 的数学期望等于总体参数,即 , 该估计量称为无偏估计。 (2)有效性。当 为 的无偏估计时, 方差 越小, 无偏估计越有效。 (3)一致性。对于无限总体,如果对任意 ,有 ,则称 是 的一致估计。 (4)充分性。一个估计量如能完全地包含未知参数信息,即为 充分估计量。 2.点估计的缺点:不能反映估计的误差和精确程度 区间估计:利用样本统计量和抽样分布估计总体参数的可能区间 【例1】CJW 公司是一家专营体育设备和附件的公司,为了监控公司的服务质量, CJW 公司每月都要随即的抽取一个顾客样本进行调查以了解顾客的满意分数。根据以往的调查,满意分数的标准差稳定在20分左右。最近一次对100名顾客的抽样显示,满意分数的样本均值为82分,试建立总体满意分数的区间。 抽样误差 抽样误差:一个无偏估计与其对应的总体参数之差的绝对值。 抽样误差 = (实际未知) 要进行区间估计,关键是将抽样误差E 求解。若 E 已知,则区间可表示为: 区间估计:估计未知参数所在的可能的区间。 区间估计优良性评价要求 θ θ??θ?θθ=?E θ?0> εθ?2)?(θθ-E 0)|?(|=≥-∞ →εθθn n P Lim n θ?θθαθθθ-=1)??(U L P <<[]E x x +-,E

《统计学》名词解释及公式

第1章统计与统计数据 一、学习指导 统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。 概念:统计学,描述统计,推断统计。 统计在工商管理中的应用。 统计的其他应用领域。 概念:分类数据,顺序数据,数值型数据。 不同数据的特点。 概念:观测数据,实验数据。 概念:截面数据,时间序列数据。 统计数据的间接来源。 二手数据的特点。 概念:抽样调查,普查。 数据的间接来源。 数据的收集方法。 调查方案的内容。 概念。抽样误差,非抽样误差。 统计数据的质量。 概念:总体,样本。 概念:参数,统计量。

概念:变量,分类变量,顺序变量,数值 型变量,连续型变量,离散型变量。 二、主要术语 1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 2.描述统计:研究数据收集、处理和描述的统计学分支。 3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 4.分类数据:只能归于某一类别的非数字型数据。 5.顺序数据:只能归于某一有序类别的非数字型数据。 6.数值型数据:按数字尺度测量的观察值。 7.观测数据:通过调查或观测而收集到的数据。 8.实验数据:在实验中控制实验对象而收集到的数据。 9.截面数据:在相同或近似相同的时间点上收集的数据。 10.时间序列数据:在不同时间上收集到的数据。 11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推 断总体特征的数据收集方法。 12.普查:为特定目的而专门组织的全面调查。 13.总体:包含所研究的全部个体(数据)的集合。 14.样本:从总体中抽取的一部分元素的集合。 15.样本容量:也称样本量,是构成样本的元素数目。 16.参数:用来描述总体特征的概括性数字度量。 17.统计量:用来描述样本特征的概括性数字度量。 18.变量:说明现象某种特征的概念。 19.分类变量:说明事物类别的一个名称。 20.顺序变量:说明事物有序类别的一个名称。 21.数值型变量:说明事物数字特征的一个名称。

(标准抽样检验)抽样与参数估计

(标准抽样检验)抽样与 参数估计

抽样与参数估计 推断统计:利用样本统计量对总体某些性质或数量特征进行推断。 从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。这个调查例子是估计总体参数(某种意见的比例)的一个过程。 估计(estimation)是统计推断的重要内容之一。统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。 因此本节内容就是由样本数据对总体参数进行估计,即: 学习目标:了解抽样和抽样分布的基本概念 理解抽样分布与总体分布的关系 了解点估计的概念和估计量的优良标准 掌握总体均值、总体比例和总体方差的区间估计 第一节抽样与抽样分布 回顾相关概念:总体、个体和样本 抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。 总体(Population):调查研究的事物或现象的全体参数 个体(Itemunit):组成总体的每个元素 样本(Sample):从总体中所抽取的部分个体统计量 样本容量(Samplesize):样本中所含个体的数量 一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。 一、抽样方法及抽样分布

1、抽样方法 (1)、概率抽样:根据已知的概率选取样本 ①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机会(概率) 被抽中。 注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重 复抽样与不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。 ②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样 ③、整群抽样:将一组被调查者(群)作为一个抽样单位 ④、等距抽样:在样本框中每隔一定距离抽选一个被调查者 (2)非概率抽样:不是完全按随机原则选取样本 ①、非随机抽样:由调查人员自由选取被调查者 ②、判断抽样:通过某些条件过滤来选择被调查者 (3)、配额抽样:选择一群特定数目、满足特定条件的被调查者 2、抽样分布 一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。 某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本计算出的该统计量数值的相对频数分布或概率分布。 二、样本均值的抽样分布与中心极限定理 1、样本均值的抽样分布(一个例子)

第章统计学参数估计练习题

第7 章参数估计 练习题 一、填空题(共10题,每题2分,共计20分) 1 ?参数估计就是用______ _去估计________ _ 。 2?点估计就是用______________ 的某个取值直接作为总体参数的 ____________ 。 3?区间估计是在____________ 的基础上,给出总体参数估计的一个区间范围,该区间通常 由样本统计量加减 __________ 得到。 4. ____________ 如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为,也成为 ____________ 。 5 ?当样本量给定时,置信区间的宽度随着置信系数的增大而_____________ ;当置信水平固定时,置信区间的宽度随着样本量的增大而 ____________ 。 6. 评价估计量的标准包含无偏性、________ __ 和 _______ __ 。 7. 在参数估计中,总是希望提高估计的可靠程度,但在一定的样本量下,要提高估计的可 靠程度,就会 ____________ 置信区间的宽度;如要缩小置信区间的宽度,又不降低置信程 度,就要 ___________ 样本量。 8. 估计总体均值置信区间时的估计误差受总体标准差、____________ 和___________ 的影响。 9. ___________________________________________________ 估计方差未知的正态总体均值置信区间用公式__________________________________________ ;当样本容量大于等于30时,可以用近似公式 ____________ 。 10. 估计正态总体方差的置信区间时,用___________ 分布,公式为 __________ 。 二、选择题(共10题,每题1分,共计10分) 1 ?根据一个具体的样本求出的总体均值的95%勺置信区间()。 A. 以95%勺概率包含总体均值 B. 有5%勺可能性包含总体均值 C. 一定包含总体均值 D. 要么包含总体均值,要么不包含总体均值 2. 估计量的含义是指()。 A. 用来估计总体参数的统计量的名称

统计学参数估计练习题

第7章参数估计 练习题 一、填空题(共10题,每题2分,共计20分) 1.参数估计就是用_______ __去估计_______ __。 2. 点估计就是用_______ __的某个取值直接作为总体参数的_______ __。3.区间估计是在_______ __的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减_______ __得到。 4. 如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为_______ __,也成为_______ __。 5.当样本量给定时,置信区间的宽度随着置信系数的增大而_______ __;当置信水平固定时,置信区间的宽度随着样本量的增大而_______ __。 6. 评价估计量的标准包含无偏性、_______ __和_______ __。 7. 在参数估计中,总是希望提高估计的可靠程度,但在一定的样本量下,要提高估计的可靠程度,就会_______ __置信区间的宽度;如要缩小置信区间的宽度,又不降低置信程度,就要_______ __样本量。 8. 估计总体均值置信区间时的估计误差受总体标准差、_______ __和_______ __的影响。 9. 估计方差未知的正态总体均值置信区间用公式_______ __;当样本容量大于等于30时,可以用近似公式_______ __。 10. 估计正态总体方差的置信区间时,用_____ __分布,公式为______ __。 二、选择题(共10题,每题1分,共计10分) 1.根据一个具体的样本求出的总体均值的95%的置信区间 ( )。 A.以95%的概率包含总体均值 B.有5%的可能性包含总体均值 C.一定包含总体均值 D. 要么包含总体均值,要么不包含总体均值 2.估计量的含义是指( )。 A. 用来估计总体参数的统计量的名称

统计学题目ch4抽样估计

(一)填空题 1.抽样推断是按照,从总体中抽取样本,然后以样本的观察结果来估计总体的数量特征。 2.抽样调查可以是抽样,也可以是抽样,但作为抽样推断基础的必须是抽样。 3.抽样调查的目的在于认识总体的。 4.抽样推断运用的方法对总体的数量特征进行估计。 5.在抽样推断中,不论是总体参数还是样本统计量,常用的指标 有、和方差。 6.样本成数的方差是。 7.根据取样方式不同,抽样方法有和两种。 8.重复抽样有个可能的样本,而不重复抽样则有个可能的样本。N为总体单位总数,n为样本容量。 9.抽样误差是由于抽样的而产生的误差,这种误差不可避免,但可以。 10.在其他条件不变的情况下,抽样误差与成正比,与成反比。 11.样本平均数的平均数等于。 12.在重复抽样下,抽样平均误差等于总体标准差的。 13.抽样极限误差与抽样平均误差之比称为。 14.总体参数估计的方法有和两种。 15.优良估计的三个标准是、和。 16.样本平均误差实质是样本平均数的。 (二) 单项选择题 1、抽样推断是建立在()基础上的。 A、有意抽样 B、随意抽样 C、随机抽样 D、任意抽样 2、抽样推断的目的是() A、以样本指标推断总体指标 B、取得样本指标 C、以总体指标估计样本指标 D、以样本的某一指标推断另一指标 3、抽样推断运用()的方法对总体的数量特征进行估计。 A、数学分析法 B、比例推断算法 C、概率估计法 D、回归估计法 4、在抽样推断中,可以计算和控制的误差是() A、抽样实际误差 B、抽样标准误差 C、非随机误差 D、系统性误差 5、从总体的N个单位中抽取n个单位构成样本,共有()可能的样本。 A、1个 B、N个 C、n个 D、很多个(但要视抽样方法而定) 6、总体参数是() A、唯一且已知 B、唯一但未知 C、非唯一但可知 D、非唯一且不可知 7、样本统计量是() A、唯一且已知 B、不唯一但可抽样计算而可知 C、不唯一也不可知 D、唯一但不可知

相关文档
最新文档