参数估计基础汇总

参数估计基础汇总
参数估计基础汇总

参数估计基础

抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数

常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验

内容复习

第6章总体均数估计

抽样分布与抽样误差t分布总体均数及总体概率的估计案例讨论

掌握:均数和率抽样误差的概念;均数和率标准误的意义和计算;总体均数和总体率区间估计的意义、计算及其适用条件。

熟悉:总体均数的点估计;t 0.05,(ν)的概念,标准误和标准差的区别;置信区间与医学参考值范围的区别。复习一些概念

参数(parameter)与统计量(statistics)

参数获取的途径对总体进行研究抽样研究

抽样误差(sampling error)

1.抽样误差的概念:由个体变异产生的,随机抽样引起的样本统计量与总体参数间的差异。(抽样误差=总

体参数-样本统计量)

2.抽样误差产生的原因:

3.抽样误差的特点:随机,不可避免,有规律可循。

4.在大量重复抽样的情况下,可以展示其规律性

第一节抽样分布与抽样误差

一、均数的抽样分布与抽样误差

二、频率的抽样分布与抽样误差

(一)样本均数的抽样分布

1.抽样模拟实验

假定总体:某年某地13岁女学生身高值

X~N(155.4,5.3)

随机抽样:n=30,K=100

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。

2.样本均数的抽样分布特点

●各样本均数未必等于总体均数;

●样本均数之间存在差异;

●样本均数的分布规律:围绕着总体均数155.4cm,中间多,两边少,左右基本对称,服从正态分

布;

●样本均数的变异较原变量的变异减小。

3.抽样误差

1) 概念:由于抽样造成的样本统计量与统计量以及样本统计量与总体参数之间的差异叫作抽样误差。

2)

抽样误差产生的基本条件 ● 抽样研究 ● 个体差异

3)表现形式

● 样本统计量与样本统计量之间的差异 ● 样本统计量与总体参数之间的差异

(二) 均数的抽样误差

1.概念:由个体变异产生的,随机抽样引起的样本均数与总体均数间的差异。 (均数的抽样误差=总体均数-样本均数)

2.表现形式:

● 样本均数与总体均数间存在差异 ● 样本均数与样本均数间存在差异

● 均数的抽样误差可表现为样本均数与总体均数的差值 ● 均数的抽样误差也可表现为多个样本均数间的离散程度

如何度量抽样误差的大小?如何揭示抽样分布的规律? 中心极限定理为我们提供解决办法:

3.中心极限定理(central limit theorem)

从均数为μ、标准差为σ的总体中独立随机抽样,当样本含量 n 增加时,样本均数的分布将趋于正态分布,此

分布的均数为μ,标准差为

4.标准误(standard error ,SE)

● 样本统计量的标准差称为标准误,用来衡量抽样误差的大小。

● 样本均数的标准差称为标准误。此标准误与个体变异σ 成正比,与样本含量n 的平方根成反比。

5.均数的标准误 (standard error)

(1)概念:将样本均数的标准差称为均数的标准误, 它是描述均数抽样误差大小的指标 (2)计算:

实际工作中

,一般可用样本标准差s 代替σ

(3)统计学意义

均数的标准误越大,样本均数的分布越分散,样本均数离总体均数就越远,样本均数与总体均数的差别越大,抽样误差越大;抽样误差越大,由样本均数估计总体均数的可靠性越差。反之,亦然。 (4)影响抽样误差大小的因素

● 标准差 ● 样本含量n 实际工作中,可通过适当增加样本含量n来减少均数的标准误,从而降低抽样误差

X σ

3个抽样实验结果图示

2212

.0;5==X S n

1580

.0;10==X S n

0920

.0;30==X S n

6 .总体分布非正态分布时,样本均数的分布规律中心极限定理表明,即使从非正态总体中随机抽样,只

要样本含量足够大,样本均数的分布也趋于正态分布. ● 样本均数的总体均数仍等于μ;

● 样本均数的标准误仍满足均数标准误的计算式; ● 当n较小时,样本均数的分布是偏态的;

当n足够大(n≥50)样本均数的分布近似正态分布

7. 非正态总体样本均数的抽样实验 下图是一个正偏峰的分布,

用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图

影响抽样误差大小的因素有:

⑴样本标准差。S 越大, 也就越大。

⑵样本含量。n 越大,抽样误差越小。

因此如在一定标准差条件下,加大样本含量,可减少抽样误差,以保证的样本均数的代表性和可靠性。 8. 例6-1 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125 g /L ,标准差为

15 g /L 。试估计该样本均数的抽样误差。

= =

= 2.89g/L

二.样本频率的抽样分布与抽样误差

例1. 在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率π=20%),

从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n =35), 计算摸到黑球的百分比(样本频率p i )。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%, 19.8%, 20.2%, 22.5%,······等,将其频数分布列于表6-3。

● 频率的抽样误差:这种样本率样本频率与样本率样本频率之间、样本率样本频率与总体率总体概率之间的差异。

频率的标准误:表示频率的抽样误差的指标

样本频率 的总体均数参数为π,

率的标准误计算公式

公式

例2 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估

计该样本频率的抽样误差。

p = 41.5% = 0.415,n = 776

=

X s

/s

15/n

X

p =p σ=

n

p p n p p S p )

1(1

)

1(-≈

--=

p s =.77%

0.01771==

思考题: ● 什么是抽样误差?决定抽样误差大小的因素有哪些? ● 抽样误差能避免么?抽样误差有规律么? ● 标准误和标准差有何区别与联系? ? 标准误和标准差有何区别与联系

第二节 t分布

一、 t分布的概念

1. t 分布 设从正态分布N (μ,σ2)中随机抽取含量为n 的样本,样本均数和标准差分别为 和s ,设:

则t 值服从自由度为n -1的t 分布(t -distribution)。Gosset 于1908年在《生物统计》杂志上发表该论文时用的是笔名“Student ”,故t 分布又称Student t 分布。

2. t值与t分布

学习t 分布的意义 ● 事实上,任何一个样本统计量均有其分布的特点和规律。统计量的抽样分布规律是进行统计推断的理论基础。

● t 分布是十分有用的,它是总体均数的区间估计和假设检验的理论基础。

从前述实验的13岁女学生身高这个正态总体中分别作样本量为 3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t 变换,并将t 值绘制相应的直方图,可得到t 值分布曲线图

区别 s

X

s

意义 描述原始数据的离散程度, 衡量均数对原始数据的代表性 反映抽样误差的大小,

衡量样本均数估计总体均数的可靠性

计算

直接法、加权法

n

s s X =

与均数的关系 s 越小,X 对样本数据的代表性好 X s 越小,X 估计μ的可靠性大

与n 的关系 n →∞,s →σ n →∞,X s → 0 应用 表示观察值波动的大小 表示抽样误差的大小 用于计算变异系数 用于均数的假设检验 计算标准误

结合样本均数和正态分布的规律,估计参考值范围

结合样本均数和正态分布的规律,估计参

数的可信区间

X n

s X s X t X

μ

μ-=

-=

二、t分布的特征

1.t分布

t值的分布与自由度ν有关(实际是样本含量n不同)。t分布的图形不是一条曲线,而是一簇曲线。

2.t分布的特征

●t分布为一簇单峰分布曲线

●t分布以0为中心,左右对称

●t 分布只有一个特征参数,即为自由度(υ)。t分布与自由度ν有关,自由度越小,t分布的峰越低,而两

侧尾部翘得越高,;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。

3.t 分布曲线下的面积规律

●同标准正态分布一样,统计应用中最关心的是t 分布曲线下的尾部面积(即概率)与横轴t 值间的关

系。

●每一自由度下的t分布曲线都有其自身分布规律

●t界值表(t critical value) 统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不

同自由度ν下的t界值表(附表2)

横标目为自由度(υ=n-1)

纵标目为概率P(即曲线下尾部阴影部分面积)

表中的数字为相应的t界值(t≥0)

单侧概率(one-tailed probability)所对应的t界值记为tα,ν

双侧概率(two-tailed probability )所对应的t界值记为tα/2 ,ν

更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:

单侧:P(t≤-tα,ν)=α和P(t≥tα,ν)=α

双侧:P(t≤-tα/2,ν)+P(t≥tα/2,ν)=α

不同自由度下的t界值表:附表2

查t0 .0 5,16 =1.746(单侧)

P(t≥1.746)=0.05或P(t≤-1.746)=0.05

查t0.05/2 ,16=1.746(双侧)

P(t≥1.746)+P(t≤-1.746)=0.05或P(-1.746

t 分布曲线的两端尾部面积表示在随机抽样中获得的等于及大于某|t |值(界值)的概率,即P 值。

三.t界值表 (t critical value) 1. t 界值表的特点

● 同一自由度下,t 值越大则P 值越小; ● P 值相同时,υ越大,则t 值越小;

● 在相同的t值时,双侧概率为单侧概率的两倍

即t 0.10/2,16 = t 0.05,16 =1.746 υ → ∞时,t 界值为Z界值

2. t 界值表的用途

● 已知υ和P(α),可查到相应的t界值; ● 已知υ和t界值,可确定单侧或双侧概率P ●

进行总体均数估计和均数的假设检验

第三节 总体均数及总体概率的估计 ● 抽样研究:从总体到样本 ●

实际工作:由样本推断总体

● 统计推断(statistical inference)就是根据样本所提供的信息,以一定的概率推断总体的性质。 (一)总体均数估计

参数估计(parameter estimation)的概念 :用样本统计量估计总体参数 方法

● 点估计(point estimation)

● 区间估计(interval estimation)

1、点估计

● 直接用样本统计量作为总体参数的估计值 ● 方法简单,但未考虑抽样误差的大小

在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的。

2、区间估计

按一定的概率或可信度(1-α ),用一个区间估计总体参数所在范围,这个范围称作可信度为1- α的可信区间(confidence interval, CI ),又称置信区间 。这种估计方法称为区间估计。 通常用样本均数和均数的标准误估计总体均数的95%(或99%)置信区间 总体均数置信区间的计算需考虑:

(2) 总体标准差σ是否已知,

(2)样本含量n 的大小 通常有两类方法(1)t 分布法—— 未知 (2)正态近似法—— 已知

未知但n 足够大

σσσ

(二)总体均数的置信区间 1.t 分布法

适用条件:σ未知时,且n 较小(n ≤50)按t 分布原理估计总体均数的置信区间。 计算公式:

例1:为了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿35人,测得其血红蛋白均数为123.7g/L ,标准差为11.9g/L 。试估计该地1岁婴儿的血红蛋白平均浓度。 分析:已知样本标准差s ,样本例数n =35,

不知道总体的信息,选用t 分布法估计总体均数的可信区间。 95%的CI

例2

:某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L ,标准差为1.20mmol/L ,试估计该地正常成人血清胆固醇均数的95%和99%置信区间

例3 随机抽取12名口腔癌患者,检测其发锌含量,得均数为253.05μg/g ,标准差为27.18μg/g ,求发锌含量总体均数95%的可信区间。

本例自由度ν=12-1=11,经查表得t 0.05,11=2.201,则:

即口腔癌患者发锌含量总体均数的95%可信区间为:193.23~321.87(μg/g)。用该区间估计口腔癌患者发锌含量总体均数的可信度为95%。

例 4 某地120名12岁男孩身高均数为142.67cm ,标准差为0.5477cm ,计算该地12岁男孩身高总体均数90%的可信区间。

因n =120>100,故可以用标准正态分布代替t 分布,u 0.10=1.64 即该地12岁男孩平均身高的90%可信区间为:141.77~143.57(cm),可认为该地12岁男孩平均身高在141.77~143.57(cm)之间。

()0.05/295X X t S

±,υ%的置信区间CI:()0.01/299X X t S

±,υ%的置信区间CI:)

/(23.19318.27201.205.25311,05.0g g s t X X μ=?-=?-)

/(87.31218.27201.205.25311,05.0g g s t X X μ=?+=?+)(77.1415477.064.167.14210.0cm s u X X =?-=?-)

(57.1435477.064.167.14210.0cm s u X X

=?+=?+附表2 t 界值表

自由度

ν 概 率,P 单侧

0.25 0.20 0.10 0.05

0.025 0.01 0.005

0.0025 0.001 0.0005

双侧 0.50 0.40 0.20

0.10 0.05 0.02 0.01 0.005 0.002 0.001 1 1.000 1.376 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619 2 0.816 1.061 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599 3 0.765 0.978 1.638

2.353

3.182

4.541

5.841 7.453 10.215 12.924 4 0.741 0.941 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610 5 0.727 0.920 1.476

2.015 2.571

3.365

4.032 4.773

5.893

6.869

6 0.718 0.906 1.440

1.943

2.447

3.143 3.707

4.317

5.208 5.959 7 0.711 0.896 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408 8 0.706 0.889 1.397

1.860

2.306 2.896

3.355 3.833

4.501

5.041 9

0.703 0.883 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781 10 0.700 0.879 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587

11 0.697 0.876 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437 12 0.695 0.873 1.356

1.782

2.179 2.681

3.055 3.428 3.930

4.318 13 0.694 0.870 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221 14

0.692 0.868 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140 15

0.691 0.866 1.341 1.753

2.131 2.602

2.947

3.286 3.733

4.073

2.总体概率的置信区间 根据样本含量 n 和样本频率p 的大小,可以采用查表法和正态近似法计算总体概率的置信区间。 1)、查表法

当样本含量n 较小,比如n ≤ 50,特别是p 很接近0 或100%时,可以通过查相应统计用表,确定

总体概率的置信区间。

例 某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。

解:查概率的置信区间表,在n = 39的横行,X =2的纵列交叉处的数值为1~17 即该手术合并症发生概率的95%置信区间为1% ~ 17%

注意:附表中仅列出X ≤ n /2部分;当X > n /2时,应以n -X 值查表,然后从100中减去查得的数值即为所求

的置信区间。

2)、正态近似法

当n 足够大,且样本频率p 和(1-p )均不太小时,如np 与n (1-p ) 均大于5时,p 的抽样分布接近正态

分布,此时总体概率的置信区间

p ± z α/2S p

例1.用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。

解: 本例n 比较大,且np = 94及n (1-p ) = 26

p ± z α/2

S p = p ± z

= 0.783 ± 1.96? = 0.709 ~ 0.857

即该仪器乳腺癌总体检出率的95%。

作业:在某地随机抽取329人,作血清登革热血凝抑制抗体反应检验,结果29人阳性,问 (1)调查的329人的抗体阳性率是多少? (2)抗体阳性率的抽样误差是多少?

(3)试估计该地人群血清登革热血凝抑制抗体阳性率?

附表2 t 界值表

自由度 ν 概 率,P 单侧 0.25 0.20 0.10 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005

双侧 0.50 0.40 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001 1 1.000 1.376 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619 2 0.816 1.061 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599 3 0.765 0.978

1.638

2.353

3.182

4.541

5.841 7.453 10.215 12.924 4 0.741 0.941

1.533

2.132 2.776

3.747

4.604

5.598 7.173 8.610 5 0.727 0.920 1.476 2.015 2.571 3.365 4.032 4.773 5.893

6.869 100 0.677 0.845 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390 200 0.676 0.843

1.286 1.653 1.972

2.345 2.601 2.839

3.131 3.340 500 0.675 0.842

1.283 1.648 1.965

2.334 2.586 2.820

3.107 3.310 1000 0.675 0.842 1.282 1.646 1.962 2.330 2.581 2.813 3.098 3.300 ∞

0.6745 0.8416 1.2816

1.6449

1.9600

2.3264

2.5758 2.8070

3.0902 3.2905

(三)、应注意的一些问题 ● 置信区间和置信限的关系 ● 准确度与精密度的关系 1.正确理解可信区间的涵义 ● 可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95%的可信度是针对可信区间的构建方法而言的。

以均数的95%可信区间为例,其涵义是:如果重复100次抽样,每100个样本所算得的100个可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。 2.可信区间和可信限的关系

● 可信限:分别指两个点值,分别称为下限值和上限值。 ● 可信区间

● 用公式

表示可信限; 用 表示可信区间。

3.置信区间的解释 :总体均数的95%置信区间:如果从总体中重复抽取100份样本含量相同的独立样本,每份样本可分别计算一个置信区间,那么在100个置信区间中,大约有95个置信区间包括μ(估计正确),只有5个置信区间不包括μ(估计错误)。

或者说对于某一个区间而言,它包含总体均数的可能性为95%,而不包含总体均数的可能性仅为5%。因此在实际应用中,以这种方法估计总体均数犯错误的概率仅为5%。

4.可信区间意义:虽然不能知道某校全体女大学生身高均数的确切数值,全体女大学生身高均数在163.0 -- 164.5cm 之间的可能性是95%,在 162.7 – 164.7cm 之间的可能性是99%。

换句话说,做出校全体女大学生身高均数为163.0 -- 164.5cm 的结论,说对的概率是95%,说错的概率是5%;做出校全体女大学生身高均数为162.7 – 164.7cm 的结论,说对的概率是99%,说错的概率是1%。

5.可信区间的两个要素 ● 准确度 :反映为可信度1-α 的大小 ,即区间包含总体均数的概率大小,越接近1越好 ● 精密度 反映为区间的宽度,区间越窄越好

在可信度确定的情况下,增加样本含量可减小可信区间的宽度

95%可信区间 99%可信区间 公式

区间范围 窄 宽

估计错误的概率 大(0.05) 小(0.01)

6.可信区间与参考值范围的区别

● 可信区间用于估计总体参数,总体参数只有一个 。

● 参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限 。

● 95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95% ● 95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。

X X S t X S t X νν,2/05.0,2/05.0,+-X

X S t X S t X νν,2/01.0,2/01.0,+-

7. 总体均数置信区间与参考值范围的区别

(完整版)统计学习题答案第5章参数估计

第5章 参数估计 ●1. 从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。 (1) 样本均值的抽样标准差x σ等于多少? (2) 在95%的置信水平下,允许误差是多少? 解:已知总体标准差σ=5,样本容量n =40,为大样本,样本均值x =25, (1)样本均值的抽样标准差 x σσ5=0.7906 (2)已知置信水平1-α=95%,得 α/2Z =1.96, 于是,允许误差是E = α/2 σ Z 6×0.7906=1.5496。 ●2.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。 (3) 假定总体标准差为15元,求样本均值的抽样标准误差; (4) 在95%的置信水平下,求允许误差; (5) 如果样本均值为120元,求总体均值95%的置信区间。 解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为 x σσ15=2.1429 (2)已知置信水平1-α=95%,得 α/2Z =1.96, 于是,允许误差是E = α/2 σ Z 6×2.1429=4.2000。 (3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =1.96, 这时总体均值的置信区间为 α/2 x Z 0±4.2=124.2115.8 可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。 ●3.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时): 3.3 3.1 6.2 5.8 2.3 4.1 5.4 4.5 3.2 4.4 2.0 5.4 2.6 6.4 1.8 3.5 5.7 2.3 2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5

第六章参数估计

113 第六章 参数估计 一、 知识点 1. 点估计的基本概念 2. 点估计的常用方法 (1) 矩估计法 ① 基本思想:以样本矩作为相应的总体矩的估计,以样本矩的函数作为相应的总 体矩的同一函数的估计。 (2) 极大似然估计法 设总体X 的分布形式已知,其中),,,(21k θθθθΛ=为未知参数,),,(21n X X X Λ为简单随机样本,相应的),,,(21n x x x Λ为它的一组观测值.极大似然估计法的步骤如下: ① 按总体X 的分布律或概率密度写出似然函数 ∏==n i i n x p x x x L 1 21);();,,,(θθΛ (离散型) ∏==n i i n x f x x x L 1 21);();,,,(θθΛ (连续型) 若有),,,(?21n x x x Λθ使得);,,,(max )?;,,,(2121θθθn n x x x L x x x L ΛΛΘ ∈=,则称这个θ?为参数θ的极大似然估计值。称统计量),,,(?21n X X X Λθ为参数θ的极大似然估计量。 ② 通常似然函数是l θ的可微函数,利用高等数学知识在k θθθ,,,21Λ可能的取值 范围内求出参数的极大似然估计k l x x x n l l ,,2,1),,,,(??21ΛΛ==θθ 将i x 换成i X 得到相应的极大似然估计量 k l X X X n l l ,,2,1),,,,(??21ΛΛ==θθ 注:当);,,,(21θn x x x L Λ不可微时,求似然函数的最大值要从定义出发。 3. 估计量的评选标准 (1) 无偏性:设),,(??21n X X X Λθθ=是参数θ的估计量,如果θθ=)?(E ,则称θ?为θ的无偏估计量。 (2) 有效性:设1?θ,2?θ是θ的两个无偏估计,如果)?()?(21θθD D ≤,则称1?θ较2 ?θ更有效。 4. 区间估计

第六章 从本统计量估计整体参数

第六章从样本统计量估计整体参数 学习要点 第一节点估计 第二节区间估计 第三节总体均数的估计 第四节其他总体参数的估计 本章小结 学习要点 掌握推断统计的内容和前提条件 理解统计估计的原理,掌握统计估计的方法 能够运用总体均数估计的方法解决实际问题 第一节点估计 当总休平均数或比例未知时,我们可以直接把样本平均数或比例用作它的估计值。由于样本统计量为数轴上的一个点,所以称为“点估计值” 。 科学研究不仅需要对事物特征作出一般性的描述,而且更要根据样本提供的信息去推测相应总体的情况,统计内容中的推断统计则是专门研究如何用样本去推断总体的方法。 一、什么是推断统计 一般情况下,样本统计量是不会和相应的总体参数完全相同的,两者多少都会有一定的差距,但是如果用无限多个样本的统计量来估计总体参数,平均估计误差将会等于0。 具有这一特征的统计量就无偏估计值。 例如,用样本平均数估计总体平均数时,总会有些误差,在有些样本中,它可能会大于总体平均数,而在另一些样本中它又可能会小于总体平均数,而且对于不同的样本估计误差的大小也是不同的,但是无限多个样本平均数的平均估计误差为0。换句话说,样本平均数的平均数将会等于总体平均数。 推断统计就是指由样本资料去推测相应总体情况的理论与方法。也就是由部分推全体,

由已知推未知的过程。 推断统计根据推测的性质不同而分为参数估计和假设检验两方面。参数估计(parameter estimation)就是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。假设检验(hypothesis test)的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验(statistical test)。在检验中又根据是否需要依赖于对总体分布形态和总体参数检验的假设而分为参数检验和非参数检验。参数检验法在检验时对总体分布和总体参数 (μ,2 σ)有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的 情况。参数检验法主要有Z检验、t检验、F检验和q检验等,非参数检验(non-parameter test)主要有χ2检验、符号检验法、符号等级检验法、秩和检验、中位数检验等。 二、统计推断的基本问题 没有系统学过统计学的人往往有一种误解,以为只要搜集了数据资料,就可以用统计方法来处理数据。殊不知统计学是建立在概率论基础上的,而概率论是专门研究随机事件的。因此,在做统计推断之前必须考虑你所获得的资料是否能够用统计的方法来分析。通常,进行统计推断时应首先考虑以下三个方面的问题。 一是关于统计推断的基本前提。统计推断的前提是随机抽样。因此当我们利用样本统计量进行总体推断时,首先要了解抽样的方式,即了解样本是如何得来的,是随机抽取的,还是人为抽取的。随机抽样的均等性和独立性,避免了入样个体只来自总体的某一部分,从而也就避免了样本的偏倚性。可以说,样本的抽取直接关系着统计研究结果的科学性。 二是样本的规模与样本的代表性。抽样研究需要有一定的样本规模,而样本要具有代表性也需要有一定的样本规模来保证,以减少抽样误差。一般来说,在其它条件相同的情况下,样本越小,抽样的误差越大;样本越大,抽样的误差就越小。当样本增至包括总体的全部个体(即N n=)时,抽样的误差为0。因此,只要条件允许,尽可能地采用大样本,以增强样本对总体的代表性和可靠性。值得注意的样本规模和样本代表性是建立在随机抽样基础之上的,否则即使样本再大也是无意义的。 三是统计推断的错误要有一定限度。统计推断是在特定的时间、空间和条件下得出的结论,加上抽样误差的影响,在用样本推测总体时总会犯一定的错误。这种错误在统计推断中是不可避免的,也是允许的。不过这种错误要有一定的限度,超过一定限度的错误是不允许的。统计推断中允许犯错误的限度是用小概率事件来表示。 第二节区间估计 一、参数估计的定义 所谓参数估计就是根据样本统计量去估计相应总体的参数。譬如我们可以根据样本均数(X)去估计总体的均数(μ),根据样本方差(2S)去估计总体方差(2 σ),根据样本的相关系数(r)去估计总体相关系数(ρ)等等。

第六章、参数估计解答

第六章、参数估计 四、计算题: 1.解:因为总体X 的概率密度 1 ,0(,)0,x f x θθθ?<

12 222 11 111() n i i n n i i i i X X n X X X X n n μσ===?==?? ? ?=-= -?? ∑∑∑ 而μ及2 σ的矩估计值就是 122111()n i i n i i x x n x x n μσ==?==?? ??=-?? ∑∑ 3.解:因为总体X 的概率分布 (,),0,1,2,! x p x e x x λ λ λ-= = 中只有一个未知参数λ,所以只需考虑总体X 的一阶原点矩 1 .! x x X E X x e x λ λ νλ∞ -===? =∑()() 用样本一阶原点矩11 1 n i i V X n == ∑作为总体一阶原点矩 1 X ν()的估计量,即有 11n i i X n λ== ∑ 由此解得λ的矩估计量 11n i i X X n λ ===∑ , 而λ的矩估计值就是 1 1n i i x x n λ ===∑ 4.解:由于总体X 服从正态分布2 N μσ(,) ,即 2 2()2(),x u f x x σ --=-∞<<+∞ 故似然函数为 2 2 2 2 1 ()21 1() 2(,)i n i i x n i x n L e μσ μσ μσ=-- =- -= ∑=∏

第六章 参数估计基础

第六章参数估计基础习题 一、是非题 1.总体率的区间估计中, 值越大,置信度越低.( ) 2.样本率的标准误越小,抽样误差越大.( ) 3.对同一样本资料来说,总体均数的置信区间宽度通常会小于医学参考值范围的宽度.() 4.置信度由99%下降到95%,置信区间估计的准确度也下降.( ) 5.在t值相同时,双侧概率正好是单侧格率的2倍.( ) 二、选择题 1.均数的标准误反映了( ). A.个体变异程度B.集中趋势的位置 C.指标的分布特征D.样本均数与总体均数的差异 E.频数分布规律 2.用于描述均数的抽样误差大小的指标是( ). A.S B.S C.CV D.R E.S2 3.抽样误差产生的原因是( ). A.观察对象不纯B.非正态分布 C.个体差异D.非分类变量资料E.随机抽样方法错误4.均数95%置信任区间主要用于(). A.估计“正常人群”某指标95%观察值所在范围 B.反映总体均数有95%的可能在某范围内

C.反映某指标的可能取值范围 D.反映某措标的观察值波动范围 E.反映95%的样本均数在此范围内 5.以下关于参数估计的说法正确的是( ). A.区间估计优于点估计B.样本含量越大,置信区间范围越大 C.样本含量越小,参数估计越精确D.对于一个参数可以获得几个估计值E.标准差大小与置信区间范围无关 三、筒答题 1.已知某地正常成年女性的平均空腹血糖值为 4.95mmol/L,标淮差为 1.03 mmol/L,某医疗机构从该地随机抽取40名正常成年女性,测得其平均空腹血糖值为5.17 mmol/L,试指出5.17 mmol/L与4.95 mmol/L不同的原因是什么?应该用什么指标来表示两者间的差别? 2.样本均数的抽样分布有哪些特点? 3.t分布与Z(标准正态分布)分布相比有什么特点?

医学统计学习题参数估计基础

实习六参数估计基础 [实习目的与要求] 1、掌握均数及频率标准误的计算;掌握总体均数95%和99%置信区间的计算及适用条件; 掌握总体概率的95%和99%置信区间的计算及适用条件 2、熟悉t分布的特征。 (一)最佳选择题 1. 表示均数抽样误差大小的统计指标是________。 A. 标准差 B. 方差 C. 均数标准差 D. 变异系数 E. 样本标准误 S表示________。 2. x A. 总体均数 B. 样本均数的标准差 C. 总体均数离散程度 D. 变量x的离散程度 E. 变量x的可靠程度 3. 标准误越大,则表示此次抽样得到的样本频率_________。 A. 系统误差大 B. 可靠程度越大 C. 抽样误差越大 D. 可比性越差 E. 代表性越差 4. 要减小抽样误差,通常的做法是_________。 A. 适当增加样本例数 B. 将个体变异控制在一个范围内 C. 严格挑选观察对象 D. 增加抽样次数 E. 减小系统误差 5. 关于t分布的图形,下述那项是错误的______。 A. 当ν趋于∞时,标准正态分布是t分布的特例 B. 当ν逐渐增大,t分布逐渐逼近标准正态分布 C. ν越小,则t分布的尾部越高 D. t分布是一条以ν为中心左右对称的曲线 E. t分布是一簇曲线,故临界值因自由度的不同而不同 6. 已知某地25岁正常成年男性的平均收缩压为,从该地随机抽取20名25岁正常成年男性,测得其平均收缩压为。与不同,原因是_________。 A. 样本例数太少 B. 抽样误差 C. 总体均数不同 D. 系统误差 E. 个体差异太大 7. 从上题的同一地区中再随机抽取20名8岁男孩,测得其平均收缩压为,标准差为。与不同,原因是________。 A. 样本例数太少 B. 抽样误差 C. 总体均数不同 D. 系统误差 E. 样本均数不可比 8. 用上题的样本,估计该地8岁正常男孩的平均收缩压的95%的置信区间为_______。 A. ±19,2/05.0t? B. ±? C. ±19,2/05.0t?20 D.

第六章参数估计

第六章 参数估计 1.填空题 (1)设总体,),(~p N B X p 未知,是来自总体),,,(21n X X X "X 的样本,则参 数p 的矩估计量是 ;最大似然估计量是 。 (2)设是来自均匀分布),,,(21n X X X ")0)(1,(>+θθθU 总体的一个样本, 则θ的矩估计量是 ;θ的最大似然估计量是 。 2.设总体X 的概率密度为 ???<<=?其它,010),(1 x x x p θθθ 其中θ为未知参数,是从总体),,(1n X X "X 中抽取的一个样本,求θ的矩估计和最大似然估计。 3.设总体X 的分布密度为 +∞<<∞?=?x e x p x ,21);(σσσ ),,,(21n X X X "是来自总体X 的样本,试求σ的矩估计和最大似然估计。 4.设总体X 的分布密度为 0, ,1 )(21221>+∞<<=??θθθθθx e x p x ),,,(21n X X X "为来自总体X 的样本,试求1θ和2θ的矩估计。 5.设总体服从对数正态分布,其分布密度为 0,0 ,2)(ln exp 21 )(22>>???????=σσσπx u x x x p ),,,(21n X X X "是来自总体X 的一个样本,试求参数μ和的最大似然估计。 2σ6.设总体X 的分布密度为 ???<≥=??θθθx x e x p x , 0,)()(),,,(21n X X X "是来自总体X 的一个样本,试求参数θ的最大似然估计。

7.填空题 (1)设总体,是它的一个样本,则当常数 ),(~2σμN X ),,,(21n X X X "=C 时,为的无偏估计。 ∑?=+?1121)(n i i i X X C 2σ(2)设总体)(~λP X ,是它的一个样本,则的一个无偏估计 量为 ),,,(21n X X X "2λ。 8.设和都是参数1?θ2?θθ的两个独立的无偏估计量,且,试求常数2 1?2?θθD D =α和β,使是21??θβθα+θ的无偏估计,且在形如的无偏估计中方差最小。 21??θβθα+9.设总体,是它的一个样本,试求的最大似然估计,是否为的有效估计? ),1(~2σN X ),,,(21n X X X "2 σ2?σ 2?σ2 σ10.设总体X 的分布密度为 ?? ???<0, 是来自X 的样本。 (1) 证明θ的一个最大似然估计量为 ),,,(21n X X X "

医学统计学习题 参数估计基础教学提纲

医学统计学习题参数 估计基础

实习六参数估计基础 [实习目的与要求] 1、掌握均数及频率标准误的计算;掌握总体均数95%和99%置信区间的计算 及适用条件;掌握总体概率的95%和99%置信区间的计算及适用条件 2、熟悉t分布的特征。 (一)最佳选择题 1. 表示均数抽样误差大小的统计指标是________。 A. 标准差 B. 方差 C. 均数标准差 D. 变异系数 E. 样本标准误 2. S表示________。 x A. 总体均数 B. 样本均数的标准差 C. 总体均数离散程度 D. 变量x的离散程度 E. 变量x的可靠程度 3. 标准误越大,则表示此次抽样得到的样本频率_________。 A. 系统误差大 B. 可靠程度越大 C. 抽样误差越大 D. 可比性越差 E. 代表性越差 4. 要减小抽样误差,通常的做法是_________。 A. 适当增加样本例数 B. 将个体变异控制在一个范围内 C. 严格挑选观察对象 D. 增加抽样次数 E. 减小系统误差 5. 关于t分布的图形,下述那项是错误的______。 A. 当ν趋于∞时,标准正态分布是t分布的特例 B. 当ν逐渐增大,t分布逐渐逼近标准正态分布 C. ν越小,则t分布的尾部越高 D. t分布是一条以ν为中心左右对称的曲线 E. t分布是一簇曲线,故临界值因自由度的不同而不同 6. 已知某地25岁正常成年男性的平均收缩压为113.0mmHg,从该地随机抽取20名25岁正常成年男性,测得其平均收缩压为119.0mmHg。113.0mmHg与119.00mmHg不同,原因是_________。 A. 样本例数太少 B. 抽样误差 C. 总体均数不同 D. 系统误差 E. 个体差异太大 7. 从上题的同一地区中再随机抽取20名8岁男孩,测得其平均收缩压为90.0mmHg,标准差为9.8mmHg。90.0mmHg与113.0mmHg不同,原因是 ________。 A. 样本例数太少 B. 抽样误差 C. 总体均数不同 D. 系统误差 E. 样本均数不可比

第五章参数估计作业

区间估计参数说明 1、从变量窗口中认识各个变量的含义 2、在已编辑好的数据中按Analyze――Descriptive Statistics――Explore,在弹出的窗口中, 左边的上部是各个变量名,右边分为三个部分,第一个是因变量窗口,即Dependent框。 第二个是分组变量窗口,即Factor。比如我们将班上的学生体重做分析,即体重为因变量窗口,性别为分组变量窗口。第三个为选择标识变量,当我们要寻找奇异值,即数值相对较大或者较小的值时,需要对数据标上标签,通常为序号。则要使用该变量值标识各观测值。 3、左边的下部,是Display栏,它分为三个选项:both:输出图形以及描述统计量,此为 系统默认。Statistics:只输出描述统计量。Plots:只输出图形。左边的下部也有三个选项,首先看Statistics,弹出的对话框有四个复选框,第一个为Descriptives,选中它即要求输出基本描述统计量。选择此项将输出平均数、中位数、众数、标准误、方差、极值、峰度、偏度等等。在Confidence intervals for mean均值的置信区间。在参数中键入不同的置信区间,可以得到不同的区间范围。常用的有90%、95%、99%。M-estimators为集中趋势的最大似然比的稳健估计,此项不要求掌握。Outliers 要求输出五个最大、最小值。Percentiles 要求输出百分位数。其次是Plots框,它分为三个部分,第一个为Boxplot 选择框,它要求作出各组因变量的并列箱图。第一项是:因变量按因素水平分组,各组因变量生成并列箱图,可以比较不同水平上的分布情况;第二项是:所有因变量生成一个并列箱图,可在同一水平上比较各因变量值的分布。第二个部分是Descriptive,包括茎叶图和直方图两种,我们选择直方图。下面的Normality plots with tests复选项,输出正态概率与离散正态概率图。Spread vs level with levene test 栏是方差齐次检验结果,不要求掌握。Option按钮,展开后有三个选项,分别表示在分析过程中,剔除带有缺失值的观测量(Exclude cases listwies)在分析中剔除中,不仅剔除缺失值还剔除那些与缺失值有成对关系的观测值(Exclude case pairwise)。分组变量中的缺失值将被单独分为一组。输出频数表时也包括缺失值组,但将标定出分组变量的缺失值(Report values)。 Levene检验:检验两个样本的数据是否具有相等方差时,虽然可以采用多种检测方法,但是多数都是基于数据必须服从正态分布这一假设,否则就失去数据检验的意义。Levene检验则较少依赖于正态性的假设,因而,它是等方差性检验的特别有效的方法。 Spread-level(幅度-水平)检验:幅度-水平图,是指框图的高度与各变量的水平或均值之间的关系。 正态性检验: 1、图示法: 偏态图:可以描绘这些点偏离直线的实际偏差,这种偏离直线的偏差则构成了偏态图。如果样本来自正态总体,这些点应该分布在一条过原点的水平线上,且没有任何模式;如果有一个明显的模式,则意味着总体并非正态分布。 正态概率图:对于正态概率图,每个观察值与其来自正态分布中的期望值组成数据点,这些数据点多数应落在一条直线上。 2、显著性水平检验法:

第 5 章 抽样调查及参数估计(练习题)

第五章 抽样调查及参数估计 5.1 抽样与抽样分布 5.2 参数估计的基本方法 5.3 总体均值的区间估计 5.4 总体比例的区间估计 5.5 样本容量的确定 一、简答题 1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计? 2.什么是抽样误差,影响抽样误差的主要因素有哪些? 3.简述概率抽样的五种方式 二、填空题 1.抽样推断是在 随机抽样 的基础上,利用样本资料计算样本指标,并据以推算 总体数量 特征的一种统计分析方法 。 2.从全部总体单位中随机抽选样本单位的方法有两种,即 重复 抽样和 不重复 抽样。 3.常用的抽样组织形式有 简单随机抽样 、 类型抽样 、等距抽样、 整群抽样 等四种。 4.影响抽样误差大小的因素有总体各单位标志值的差异程度、 抽样单位数的多少 、 抽样方法 和抽样调查的组织形式 。 5.总体参数区间估计必须具备估计值、 概率保证程度或概率度 、 抽样极限误差 等三个要素。 6.从总体单位数为N 的总体中抽取容量为n 的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。 7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。 8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。 三、选择题 1.抽样调查需要遵守的基本原则是( B )。 A .准确性原则 B .随机性原则 C .代表性原则 D .可靠性原则 2.抽样调查的主要目的是( A )。 A .用样本指标推断总体指标 B .用总体指标推断样本指标 C .弥补普查资料的不足 D .节约经费开支 3.抽样平均误差反映了样本指标与总体指标之间的( B )。 A .实际误差 B .实际误差的平均数 C .可能的误差范围 D .实际的误差范围 4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D ) 。 A .简单随机抽样 B .类型抽样 C .等距抽样 D .整群抽样 5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。 A .样本单位数越多,抽样误差越大 B .样本单位数越多,抽样误差越小 C .样本单位数与抽样误差无关 D .抽样误差是样本单位数的10% 6.用简单随机重复抽样方法抽取样本单位,如果要使抽样平均误差降低50%,那么样本n n N B N =!()!n N N A N n =-

第五章参数估计和假设检验Stata实现

第五章参数估计和假设检验的Stata实现本章用到的Stata命令有 例5-1 随机抽取某地25名正常成年男子,测得其血红蛋白含量如下: 146 7 125 142 7 128 140 1 7 144 151 117 118 该样本的均数为137.32g/L,标准差为10.63g/L,求该地正常成年男子血红蛋白含量总体均数的95%可信区间。 数据格式为

计算95%可信区间的Stata命令为: 结果为 该地正常成年男子血红蛋白含量总体均数的95%可信区间为(132.93~141.71) 例5-2 某市2005年120名7岁男童的身高X=123.62(cm),标准差s=4.75(cm),计算该市7岁男童总体均数90%的可信区间。 在Stata中有即时命令可以直接计算仅给出均数和标准差时的可信区间。 结果为: 该市7岁男童总体均数90%的可信区间(122.90~124.34)。 例5-3 为研究铅暴露对儿童智商(IQ)的影响,某研究调查了78名铅暴露(其血铅水平≥40 g/100ml)的6岁儿童,测得其平均IQ为88.02,标准差为12.21;同时选择了78名铅非暴露的6岁儿童作为对照,测得其平均IQ为92.89,标准

差为13.34。试估计铅暴露的儿童智商IQ的平均水平与铅非暴露儿童相差多少,并估计两个人群IQ的总体均数之差的95%可信区间。 本题也可以应用Stata的即时命令: 结果: 差值为4.86,差值的可信区间为0.81~8.90。 例5-4 为研究肿瘤标志物癌胚抗原(CEA)对肺癌的灵敏度,随机抽取140例确诊为肺癌患者,用CEA进行检测,结果呈阳性反应者共62人,试估计肺癌人群中CEA的阳性率。 Stata即时命令为 结果为 肺癌人群中CEA的阳性率为44.28%,可信区间为35.90%~52.82%。 例5-5 某医生用A药物治疗幽门螺旋杆菌感染者10人,其中9人转阴,试估计该药物治疗幽门螺旋杆菌感染者人群的转阴率。 Stata即时命令为

第六章 参数估计基础

第六章参数估计基础 一、选择题 (一)A1型 每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。 1、表示均数抽样误差大小的统计指标是() A、标准差 B、方差 C、均数标准误 D、变异系数 E、样本标准误 2、S x 表示() A、总体均数 B、样本标准误 C、总体均数离散程度 D、变量值X的离散程度 E、变量值X的可靠程度 3、标准误越大,则表示此次抽样得到的样本频率() A、系统误差越大 B、可靠程度越高 C、抽样误差越大 D、可比性越差 E、代表性越好 4、要减少抽样误差,通常的做法是() A、适当增加样本例数 B、将个体变异控制在一个范围内 C、严格挑选观察对象 D、增加抽样次数 E、减少系统误差 5、关于t分布的图形,下述哪项是错误 ..的() A、当ν趋于∞时,标准正态分布是t分布的特例 B、当ν逐渐增大,t分布逐渐逼近标准正态分布 C、ν越小,则t分布的尾部越高

D、t分布是一条以0为中心左右对称的曲线 E、t分布是一簇曲线,故临界值因自由度的不同而不同 (二)A2型 每一道题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。 1、已知某地25岁正常成年男性的平均收缩压为113.0mmHg,从该地随机抽取20名25岁正常成年男性,测得其平均收缩压为119.0mmHg。119.0mmHg与113.0mmHg不同的原因是() A、样本例数太少 B、抽样误差 C、总体均数不同 D、系统误差 E、个体差异太大 2、从上述第1题的同一个地区中再抽取20名8名正常男孩,测得其平均收缩压为90.0mmHg,标准差为9.8mmHg。90.0mmHg与113.0mmHg 不同,原因是() A、样本例数太少 B、抽样误差 C、总体均数不同 D、系统误差 E、样本均数不可比 3、用上述第2题的样本,估计该地8岁正常男孩的平均收缩压的95%的置信区间为() A、113.0±t0.05/2,19×9.8 B、90.0±1.96×9.8 C、90.0±t0.05/2,19×9.8/20 D、90.0±1.96×9.8/20 E、90.0±t0.05/2,19×9.8 (三)A3/A4型 以下提供若干案例,每个案例下设若干道题目。请根据题目

医学统计学习题参数估计基础

医学统计学习题参数估计基 础 -CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

实习六参数估计基础 [实习目的与要求] 1、掌握均数及频率标准误的计算;掌握总体均数95%和99%置信区间的计 算及适用条件;掌握总体概率的95%和99%置信区间的计算及适用条件 2、熟悉t分布的特征。 (一)最佳选择题 1. 表示均数抽样误差大小的统计指标是________。 A. 标准差 B. 方差 C. 均数标准差 D. 变异系数 E. 样本标准误 2. S表示________。 x A. 总体均数 B. 样本均数的标准差 C. 总体均数离散程度 D. 变量x的离散程度 E. 变量x的可靠程度 3. 标准误越大,则表示此次抽样得到的样本频率_________。 A. 系统误差大 B. 可靠程度越大 C. 抽样误差越大 D. 可比性越差 E. 代表性越差 4. 要减小抽样误差,通常的做法是_________。 A. 适当增加样本例数 B. 将个体变异控制在一个范围内 C. 严格挑选观察对象 D. 增加抽样次数 E. 减小系统误差 5. 关于t分布的图形,下述那项是错误的______。 A. 当ν趋于∞时,标准正态分布是t分布的特例 B. 当ν逐渐增大,t分布逐渐逼近标准正态分布 C. ν越小,则t分布的尾部越高 D. t分布是一条以ν为中心左右对称的曲线 E. t分布是一簇曲线,故临界值因自由度的不同而不同 6. 已知某地25岁正常成年男性的平均收缩压为,从该地随机抽取20名25岁正常成年男性,测得其平均收缩压为。与不同,原因是_________。 A. 样本例数太少 B. 抽样误差 C. 总体均数不同 D. 系统误差 E. 个体差异太大 7. 从上题的同一地区中再随机抽取20名8岁男孩,测得其平均收缩压为,标准差为。与不同,原因是________。 A. 样本例数太少 B. 抽样误差 C. 总体均数不同 D. 系统误差 E. 样本均数不可比 8. 用上题的样本,估计该地8岁正常男孩的平均收缩压的95%的置信区间为_______。 t? B. ±? A. ± 19 .0 05 ,2/

参数估计基础.

参数估计基础 抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数 常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验 内容复习 第6章总体均数估计 抽样分布与抽样误差t分布总体均数及总体概率的估计案例讨论 掌握:均数和率抽样误差的概念;均数和率标准误的意义和计算;总体均数和总体率区间估计的意义、计算及其适用条件。 熟悉:总体均数的点估计;t 0.05,(ν)的概念,标准误和标准差的区别;置信区间与医学参考值范围的区别。复习一些概念 参数(parameter)与统计量(statistics) 参数获取的途径对总体进行研究抽样研究 抽样误差(sampling error) 1.抽样误差的概念:由个体变异产生的,随机抽样引起的样本统计量与总体参数间的差异。(抽样误差=总 体参数-样本统计量) 2.抽样误差产生的原因: 3.抽样误差的特点:随机,不可避免,有规律可循。 4.在大量重复抽样的情况下,可以展示其规律性 第一节抽样分布与抽样误差 一、均数的抽样分布与抽样误差 二、频率的抽样分布与抽样误差 (一)样本均数的抽样分布 1.抽样模拟实验 假定总体:某年某地13岁女学生身高值 X~N(155.4,5.3) 随机抽样:n=30,K=100

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。 2.样本均数的抽样分布特点 ●各样本均数未必等于总体均数; ●样本均数之间存在差异; ●样本均数的分布规律:围绕着总体均数155.4cm,中间多,两边少,左右基本对称,服从正态分 布; ●样本均数的变异较原变量的变异减小。 3.抽样误差

第六章 估计与假设检验

第六章 参数估计与假设检验 第一节 参数估计 一、参数估计概述 在许多实际问题中,总体被理解为我们所研究的那个统计指标,它在一定范围内取数值,而且是以一定的概率取各种数值的,从而形成一个概率分布,但是这个概率分布往往是未知的。例如为了制定绿色食品的有关规定,我们需要研究蔬菜中残留农药的分布状况,对这个分布我们知之甚少,以致它属于何种类型我们都不清楚。有时我们可以断定分布的类型,例如在农民收入调查中,根据实际经验和理论分析如概率论中的中心极限定理,我们断定收入服从正态分布,但分布中的参数取何值却是未知的。这就导致统计估计问题。统计估计问题专门研究由样本估计总体的未知分布或分布中的未知参数。直接对总体的未知分布进行估计的问题称为非参数估计;当总体分布类型已知,仅需对分布的未知参数进行估计的问题称为参数估计。本节我们研究参数估计问题。本节及以后假定抽样方法为放回简单随机抽样,样本的每个分量都与总体同分布,它们之间相互独立。 二、参数估计的基本方法 (一)估计量与估计值 1.参数估计就是用样本统计量去估计总体参数 2.用来估计总体参数的统计量的名称称为估计量,如样本均值、样本比例、样本方差等都可以是一个估计量。 3.估计量的具体数值称为估计值 (二)点估计与区间估计 参数估计方法有点估计与区间估计两种方法。 1.参数估计的点估计法 (1)设总体X 的分布类型已知,但包含有未知参数θ,从总体中抽取一个简单随机样本12(,,,)n X X X ,欲利用样本提供的信息对总体未知参数θ进行估计。构造一个适当的 统计量 ?T θ=12(,,,)n X X X 作为θ的估计,称?θ为未知参数θ的点估计量(Point estimate )。当有了一个具体的样本 观察值12(,, ,)n x x x 后,将其代入估计量中就得到估计量的一个具体观察值 T 12(,,,)n x x x ,称为参数θ的一个点估计值。今后点估计量和点估计值这两个名词将不 强调它们的区别,通称为点估计,根据上下文不难知道此处的点估计究竟是点估计量还是点 估计值。 通俗地说,用样本估计量的值直接作为总体参数的估计值称为点估计。 常用的点估计量有:X μ∧=p P ∧ =2 2 2() 1 X X s n σ∧-== -∑ 2、估计的评价标准: (1)无偏性: 设?T θ=12(,,,)n X X X 是未知参数θ的一个点估计量,若?θ满足

参数估计的基础

参数估计基础

抽样研究的目的就是要用样本信息来推断相应总体的特征,这一过程称为统计推断。 统计推断包括两方面的内容:参数估计和假设检验

总体 样本抽取部分观察单位统计量参数 统计推断统计推断 statistical inference μ 如:样本均数样本标准差S 样本率P 如:总体均数总体标准差总体率σ πX 内容: 1.参数估计(estimation of parameters)包括:点估计与区间估计 2. 假设检验(test of hypothesis)

误差:泛指测得值与真值之差,样本指标与总体指标之差。误差按其产生的原因与性质分为两大类(系统误差和偶然误差)。 1.系统误差:由于受试对象、研究者、仪器设备、研究方法、非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差。可以避免。

2.随机测量误差:由于多种无法控制的偶然因素引起,对同一样品多次测量数据的不一致。无倾向性,不可避免。只可控制在一定的范围内。 3.抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免。

均数的抽样误差、总体均数的估计、分布t 1、均数的抽样误差和标准误 抽样试验 以110名20岁健康男大学生的身高作为假设的有限总体,其总体均数,标准差。)(73.172cm =μ) (09.4cm =σ每次随机抽取10个人的身高作为一个样本,记录下数据并计算均数、标准差,再放回重新抽样,共重复100次,求得100个样本均数和标准差,其样本均数列入表3.1。

第六章参数估计和假设检验(精)

第六章参数估计和假设检验 教学目的及要求:了解参数的点估计、区间估计的含义,掌握区间估计的几个概念,包括置信水平、置信区间、小概率事件,熟练掌握参数区间估计的计算方法,了解不同抽样组织形式下的参数估计,掌握参数估计中样本量的确定。了解假设检验的原假设和备择假设的含义,假设检验的两类错误,掌握总体均值的检验方法。 本章重点与难点:区间估计的计算与总体均值的假设检验方法。 计划课时:授课6课时;技能训练2课时。 授课特点:案例教学 第一节点估计和区间估计 一、总体参数估计概述 ?1、总体参数估计定义 ?就是以样本统计量来估计总体参数,总体参数是常数,而统计量是随机变量。 ?2、参数估计应满足的两个条件 二、参数的点估计 ?用样本的估计量直接作为总体参数的估计值 例如:用样本均值直接作为总体均值的估计 例如:根据一个抽出的随机样本计算的平均分数为80分,我们就用80分作为全班考试成绩的平均分数的一个估计值,这就是点估计。 再例如,要估计一批产品的合格率,根据抽样结果合格率为96%,将96%直接作为这批产品合格率的估计值,这也是点估计 三、参数的区间估计 (一)参数的区间估计的含义 ?区间估计:计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。

(二)有关区间估计的几个概念 置信水平 1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 2. 表示为 (1 - α% ) α 为是总体参数未在区间内的比例 3. 常用的置信水平值有 99%, 95%, 90% 相应的显著性水平α 为0.01,0.05,0.10 置信区间 1. 由样本统计量所构造的总体参数的估计区间称为置信区间 2. 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 3. 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个 4. 由样本均值的抽样分布可知,在重复抽样或无限总体抽样的情况下,样本均值的数学期望等于总体均值, 5. 样本均值的标准差为 由此可知样本均值落在总体均值μ的两侧各为一个抽样标准差范围内的概率为0。6873 落在总体均值两个抽样标准差范围内的概率为0。9545 落在总体均值三个抽样标准差范围内的概率为0。9973 影响区间宽度的因素 1.总体数据的离散程度,用 σ 来测度 2.样本均值标准差 3.置信水平 (1 - α),影响 z 的大小 评价估计量的标准 x n x σ σ=

参数估计基础

第五章 参数估计基础 【内容精要】 1. 抽样误差的概念及其特点(重点) 从同一总体中反复多次地随机抽取样本含量相同的若干份样本,由于受个体差异和偶然性的影响,样本统计量与总体参数之间可存在差异,这种差异称为抽样误差(sampling error)。从同一总体中随机抽取样本含量相同的若干份样本,所得样本统计量之间也不尽相同,这也是抽样误差的表现。在抽样研究中,抽样误差是不可避免的。反映抽样误差大小的指标是标准误。增加样本含量可以降低抽样误差。 2. 均数的标准误与频率的标准误(重点) 样本均数的标准差称为均数的标准误(standard error of mean ,SEM 或SE),用于反映均数抽样误差的大小。其计算公式为n X σ σ= 。实际应用中,总体标准差σ常常未 知,需要用样本标准差S 来估计,此时,均数标准误的估计值为n S S X = 。 频率的标准误用于反映频率抽样误差的大小,可按公式() n p ππσ-= 1计算。实际 应用中,总体概率π常常未知,需要用样本频率p 来估计,因此,频率标准误的估计值为n p p n p p S p ) 1(1) 1(-≈ --= 。 3. t 分布 当X 服从均数为μ的正态分布时,统计量 X X t S μ-= 服从自由度为1-=n ν的t 分 布。ν不同, t 分布的形态也不同;ν趋于∞时,t 分布趋近标准正态分布。 4. 参数估计方法(重点) 参数估计有两种方法:一种是直接利用样本统计量的值来估计总体参数,称为点估计(point estimation);另一种是区间估计(interval estimation),即按一定的置信度来估计总体参数所在的范围,该范围称为总体参数的置信区间(confidence interval ,CI),最常用的是95%置信区间。由于考虑了抽样误差的大小,区间估计优于点估计。 5. 总体均数及总体概率的区间估计(重点)

相关文档
最新文档