第四章 研参数估计基础

合集下载

参数估计基础

参数估计基础


样本均数的总体标准差
x
资料的总体标准差
n
X ~ N(,x2)
11
正态总体样本均数的分布
❖样本均数的标准差 X ,称为样本均数的标准误 (standard error of mean ,SE),简称均数标 准误 X
❖ 它反映样本均数之间的离散程度,也反映样本均 数抽样误差的大小。
❖误差大小 X ,实质是要估计 X 的分布中的离 散程度特征
72 74 74 73 66 67 80 73 64 75 78 69
70.1 4.4
-2.40
74 80 76 64 66 71 82 78 67 79 56 64 65 4
69 74 64 66 62 75 71 80 83 77 76 71
71.6 7.1
-0.90
75 72 79 74 76 65 80 71 74 75 79 74 73
1
72.8 6.3
76 70 67 63 76 65 78 72 72 78 74 81
0.30
74 61 65 75 67 78 72 70 67 74 74 74 74 2
77 72 69 81 71 60 70 67 78 78 77 64
71.6 5.5
-0.90
73 71 71 67 68 68 67 61 68 66 70 66 71 3
样本量 n=5 n=100
统计量 u t u t
平均值 0.0149031 0.0319309 0.0033231 0.0034704
P2.5 -1.950067 -2.654214 -1.950886 -1.981183
P97.5 1.969157 2.838163 1.971245 2.000407

概率密度函数的估计.

概率密度函数的估计.

∵ P(Xk| μ )=N(μ ,σ2),P(u)=N(μ 0,σ02)
P ( | X i ) a
k 1
1 1 Xk exp{ 2 2
1 N Xk 2 0 2 a' exp{ [ ]} 2 k 1 0
1 N 1 2 1 N 0 a' ' exp{ [( 2 2 ) 2( 2 Xk 2 ) ]} 2 0 k 1 0
三. 参数估计的基本概念
1. 统计量:样本中包含着总体的信息,总希望通过样本 集把有关信息抽取出来。也就是说,针对不同要求构 造出样本的某种函数,该函数称为统计量。 2. 参数空间:在参数估计中,总假设总体概率密度函数 的形式已知,而未知的仅是分布中的参数,将未知参 数记为 ,于是将总体分布未知参数 的全部可容许 值组成的集合称为参数空间,记为 。 3. 点估计、估计量和估计值:点估计问题就是构造一个 统计量d x1, , xN 作为参数 θ 的估计ˆ ,在统计学中 i i 是属于类别 的几个 称 ˆ 为 θ 的估计量。若 x1 , , xN i 样本观察值,代入统计量d就得到对于第i类的ˆ 的具体 数值,该数值就称为 θ 的估计值。



Xk

T
结论:①μ 的估计即为学习样本的算术平均

②估计的协方差矩阵是矩阵 X k X k 的算术 平均(nⅹn阵列, nⅹn个值)

T
二. 贝叶斯估计
极大似然估计是把待估的参数看作固定的未知量, 而贝叶斯估计则是把待估的参数作为具有某种先验 分布的随机变量,通过对第i类学习样本Xi的观察, 通过贝叶斯准则将概率密度分布P(Xi/θ)转化为后 验概率P(θ/Xi) ,进而求使得后验概率分布最大的 参数估计,也称最大后验估计。 估计步骤:

教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品

教育与心理统计学  第四章 抽样理论与参数估计考研笔记-精品

第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。

它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。

分层的原则是层与层之间的变异越大越好,各层内的变异要小。

试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。

分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。

在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。

⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。

一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。

例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。

第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。

(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。

方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。

判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。

当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。

第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。

《卫生统计学》考试重点复习资料

《卫生统计学》考试重点复习资料

卫生统计学Statistics第一章绪论统计学:是一门通过收集、分析、解释、表达数据,目的是求得可靠的结果。

总体:根据研究目的确定的同质(大同小异)的观察单位的全体。

分为目标总体和研究总体。

样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。

样本应具有代表性。

所谓有代表性的样本,是指用随机抽样方法获得的样本。

抽样:从研究总体中抽取少量有代表性的个体。

变量:表现出个体变异性的任何特征或属性。

分定型变量和定量变量。

定型变量:1)分类变量或名义变量:最简单的是二分类变量。

0-1变量也常称为假变量或哑变量。

2)有序变量或等级变量。

定量变量:分离散型变量和连续型变量。

变量只能由高级向低级转化:定量→有序→分类→二值。

常见的三种资料类型1)计量或测量或数值资料,如身高、体重等。

2)计数资料或分类资料,如性别、血型等。

3)等级资料,如尿蛋白含量-、+、++、+++、…第一章定量变量的统计描述此章节x即为样本均数(X拔)1.离散型定量变量的取值是不连续的。

累计频数为该组及前面各组的频数之和。

累计频率表示各组累计频数在总例数中所占的比例。

可用直条图表达。

2.编制频数表的步骤与要点步骤:1确定极差2确定组数3确定各组段的上下限4列表要点(注意事项)1)制表是为了揭示数据的分布特征,故分组不宜过粗或过细。

2)为计算方便,组段下限一般取较整齐的数值3)第一组段应包含最小值,最后一个组段应包含最大值。

3.频率分布表(图)的用途1)描述变量的分布类型2)揭示变量的分布特征3)便于发现某些离群值或极端值4)便于进一步计算统计指标和统计分析。

4.描述平均水平的统计指标算术均数(mean):描述一组数据在数量上的平均水平。

总体均数用μ表示,样本均数用X表示。

适用于服从对称分布变量的平均水平描述,这时均数位于分布的中心,能反应全部观察值的平均水平。

分:直接法和频率表法。

即所有变量值加和除以总数n或所有频数f k乘以组中值X0k后求和再除以总数n。

第四章 参数估计

第四章 参数估计

x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n

参数估计基础

参数估计基础
p =黑球数/50 每次摸出黑球的比例p服从二项分布,表示为:
p ~ B(n,π), 给定n=50, π =0.20. 共抽取100个样本,计算黑球的比例, p1,p2,…,p100.结果见表5-3。
表5-3 从B(n=50 =0.20)抽取的100 个样本频率的频数分布
黑球比例(%) 8.010.012.014.016.018.020.022.024.026.0-
试估计:该样本频率的抽样误差。 已知:p=41.5%,n=776,代入公式(5-4)得到标准误估 计值:
S pp 1 n p 0 .4 1 5 7 1 7 6 0 .4 1 5 0 .0 1 7 7 或 1 .7 7 %
标准误的估计值较小,说明用样本患病率 41.5%估计总体患病率的可靠性较好。
组段(cm) 152.6~
153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~158.6
合计
频数 1
4 3 19 25 23 18 4 1 2 100
频率(%) 1.0
4.0 3.0 19.0 25.0 23.0 18.0 4.0 1.0 2.0 100.0
= 时,t分布就完全等于标准正态分布。 3、标准正态分布有两个固定常数(0,1),t分 布只有一个参数 。
❖ 练习:
❖ 1、ν=10,双侧尾部面积为0.05的t界值是?
❖ 2、ν=100,单侧尾部面积为0.05的t界值是?
❖ 3、ν=∞,双测尾部面积和单侧尾部面积分别 为0.05的界值是?
❖1、t 0.05/2,10=2.228
两侧越分散; ➢ 随着 逐渐增大,t分布逐渐逼近标准正态分布;
当 趋于 时,t分布就完全成为标准正态分布。

统计基础知识学习之参数估计

统计基础知识学习之参数估计

总体总量、总体平均数、总体成数、总 体方差和标准差
总体平均数:是总体所研究标志的平均值, 用 表示。 X 例如:研究某县102个行政村的人均纯收入, 那么该县每个村的纯收入之和除以该县常 住人口数得到的平均数就是总体平均数。
X=
∑x
i =1
i
n
其中:xi为每个村的纯收入,n为该县常住人口数。
总体总量、总体平均数、总体成数、总 体方差和标准差
参数估计
二00八年六月 八年六月
主要内容
总体参数 统计量 估计的理论依据 统计误差 点估计 区间估计
一、参数估计的概念
估计就是根据从样本中收集的信息对总 体未知量进行推断的过程。参数估计就是 根据随机抽样调查得来的样本数据,对未 知的总体水平、结构、规模等数量特征进 行估计,即样本指标估计总体指标。
中心极限定理的意义
只要是服从正态分布,我们就有可能 开展抽样调查。 中心极限定理为点估计和区间估计奠 定了理论基础 。 我们就可以用样本代替总体,用样本 值来推断总体数。
二、统计误差
●统计误差是指统计数据与客观实际数量之
间的差异。 间的差异。
(一)登记误差和代表性误差
1、登记误差 登记误差又称工作误差,是指在调查、整理工作 中,由于各种主观原因引起的误差。 例如:由于指标含义不清、口径不同而造成的误 差;在登记、计算、抄写上有差错造成的误差。
2、样本指标
●样本指标是根据样本各单位标志值计算的综合
指标。 ●常用的样本指标有样本平均数、样本成数、样 本方差和样本标准差。
●样本指标一般用小写字母表示。
x
(三)参数估计的理论基础
●大数定律:
它说明:如果被研究的总体是由大 量的相互独立的随机因素组成,而且 每个因素对总体的影响都相对小,那 么对这些大量因素加以综合平均,因 素的个别影响将相互抵消,而呈现出 其共同作用的影响,使总体具有稳定 的性质。

参数估计教程

参数估计教程

目录参数估计 ________________________________________________________________________________ 3第一节抽样推断的基本概念与原理 ________________________________________________________ 3一、抽样推断的特点和作用 _____________________________________________________________ 3二、重复抽样与不重复抽样 _____________________________________________________________ 4三、抽样误差与抽样平均误差 ___________________________________________________________ 4四、抽样推断的理论基础 _______________________________________________________________ 6五、参数估计的基本步骤 _______________________________________________________________ 7第二节参数估计中的点估计 ______________________________________________________________ 7一、总体参数的点估计 _________________________________________________________________ 7二、点估计量的优良标准 _______________________________________________________________ 7第三节参数估计中的区间估计 ____________________________________________________________ 8一、参数估计的精度与抽样平均误差计算 _________________________________________________ 8二、参数估计的误差范围与概率度 _______________________________________________________11三、总体参数的区间估计 ______________________________________________________________ 12第四节抽样组织方式及其参数估计 _______________________________________________________ 13一、简单随机抽样 ____________________________________________________________________ 13二、分层抽样 ________________________________________________________________________ 14三、机械抽样 ________________________________________________________________________ 16四、整群抽样 ________________________________________________________________________ 16第五节必要样本容量的确定 _____________________________________________________________ 17一、平均数的必要样本容量 ____________________________________________________________ 17二、成数的必要样本容量 ______________________________________________________________ 18三、影响必要样本容量的因素 __________________________________________________________ 19 习题 ___________________________________________________________________ 错误!未定义书签。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

据数理统计的原理,率的标准误用 表示
P
1
n
π :总体率,n:样本例数。
当π未知时,p π(为样本含量足够大,且
p和1-p不太小)
公式为:
SP
P1 P
n
:率的标准误的估计值,p:样本率。
例5-2 某市随机调查了50岁以上的中老年妇 女776人,其中患有骨质疏松症者322人,患病率 为41.5%,试计算该样本频率的抽样误差。
(标准误的理论值)
标准误的大小与σ的大小成正比,与n成反比,而σ 为定值,说明可以通过增加样本例数来减少标准误, 以降低抽样误差。
σ未知,用样本标准差S来估计总体标准差σ。
S X S / n (标准误的估计值)
用 来表示均数抽样误差的大小。
例5-1 2000年某研究所随机调查某地健康 成年男子27人,得到血红蛋白的均数为125g/L, 标准差为15g/L 。试估计该样本均数的抽样误 差。
均数的抽样误差: 由个体变异产生的、由于抽样而造成的样本均
数与样本均数及样本均数与总体均数之间的差异称为 均数的抽样误差。用于表示均数抽样误差的指标叫样 本均数的标准差,也称样本均数的标准误。
抽样实验一:假定从13岁女学生身高总体均数
标准差
的正态总体中进行随机抽样。
❖样本均数的抽样分布特点:
1 各样本均数未必等于总体均数 2 样本均数之间存在差异 3 样本均数的分布很有规律,围绕着总体均数,中 间多,两边少,左右基本对称,也服从正态分布 4 样本均数的变异较之原变量变异大大缩小
N=50
0
- - - - - - - - - - - - - - - - - - - - - - - - 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 1 1 1 1 10
111119988776655443322110....................00112 - - - - - - - - - - 0 0 1 1 2 2 3 3 4 4 5
mm MIDPOINT
mm MIDPOINT
PERCENT 30
n=30
N=30
PERCENT 30
n=50
N=50
0
0
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 40 40 40 40 40 50 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 50 61 72 83 94 05 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0
05050
0 505 0505 05
t3 MIDPOINT
t50 MIDPOINT
二、t 分布的图形和t分布表 t分布曲线特点:
1) t分布曲线是单峰分布,它以0为中心,左 右对称。
2)t分布的形状与样本例数n有关。自由度越小, 则 越大,t 值越分散,曲线的峰部越矮,尾部翘的 越高。
3) 当 n→∞时,则S逼近σ,t分布逼近标准
两倍,即t0.10/2,16 = t0.05,16 =1.746。
第三节 总体均数及总体概率的估计
一、参数估计的概念 统计推断包括参数估计和假设检验。参数估计就是 用样本指标(统计量)来估计总体指标(参数)。
参数估计
点估计(point estimation) 区间估计(interval estimation)
值。 单侧概率 (one-tailed probability):用t,υ表示 双侧概率 (two-tailed probability):用t/2,υ表示
t分布
• 例如, 当 =16,单侧概率P =0.05时,由表中查 得单侧t0.05,16=1.746;而当 =16,双侧概率P
=0.05时,由表中查得双侧t0.05/2,16=2.120。按t分 布的规律,理论上有 单侧:P(t t0.05,16)=0.05 和 P(t t0.05,16) =0.05 双侧:P(t t0.05/2,16)+P(t t0.05/2,16)=0.05
表5-3 总体概率为20%时的随机抽样结果(ni= 35)
黑球比例% 5.0~
8.0~ 11.0~ 14.0~ 17.0~ 20.0~ 22.0~ 25.0~ 28.0~ 31.0~ 34.0~ 40.0~ 合计
样本频数 3
7 5 8 16 22 15 7 7 5 3 2 100
% 3.0
7.0 5.0 8.0 16.0 22.0 15.0 7.0 7.0 5.0 3.0 2.0 100.0
21100...................05050505050505050505..... 5 4 4 3 3 2 2 1 1 0 . . . . . . . . . . .
.....5050505050505050505
05050 . . . . . . . . . . 0 5 0 5 0 5 0 5 0 5 0
第二节 t 分布
一、t分布的概念
在统计应用中,可以把任何一个均数为µ,标准差为
σ的正态分布N(µ,σ2)转变为µ=0,σ=1的标准正态分布,
即将正态变量值X用
Z X来 代 替。
也服从正态分布,
服从标准正态分布N(0,1)
服从ν=n-1的t分布
FREQUENCY 200
N=3
FREQUENCY 200
PERCENT 30
n=5
N=5
n=10 PERCENT
30
N=10
0
0
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 04 04 04 04 04 04 05 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. .. .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 04 15 26 37 48 59 60 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0
mm MIDPOINT
mm MIDPOINT
1)从正态总体N(µ,σ2)中,随机抽取例数为n的多 个样本,样本均数 服从正态分布;即使是从偏态 总体中随机抽样,当n足够大时(如n>50), 也近 似正态分布。
2)从均数为µ,标准差为σ的正态或偏态总体中抽 取例数为n的样本,样本均数的标准差即标准误为 。
正态分布。 t分布不是一条曲线,而是一簇曲线。
f(t) 0.3 0.2 0.1
υ=∞(标准正态分布) υ=5
υ=1
-5
-4
-3
-2
-1
0
1
2
3
4
t分布
统计学家将t分布曲线下的尾部面积(即概率
P)与横轴t值间的关系编制了不同自由度 下的t
界值表(附表2)。
t界值表:横标目为自由度 ,纵标目为概率P。 t临界值:表中数字表示当 和P 确定时,对应的
• t分布
• 总体均数和概率的估计
第一节 抽样分布与抽样误差
用样本信息来推断相应总体的特征,这一过程称为统 计推断。
统计推断包括两方面的内容:参数估计和假设检验 抽样误差:由个体变异产生的、由于抽样而造成的
样本统计量与样本统计量及样本统计量与总体参数之 间的差异称为抽样误差。无倾向性,不可避免。
一、样本均数的抽样分布与抽样误差
2. 区间估计:按预先给定的概率(1-α)估计总体参数的 可能范围,该范围就称为总体参数的1-α置信区间 (confidence interval, CI)。
预先给定的概率(1-α)称为置信度,常取95%或99%。如无 特别说明,一般取双侧95%。
可信区间由两个数值即置信限构成,其中最小值 称为下限,最大值称为上限。严格讲,可信区间不包 括上下限两个端点值。
• 抽样实验二:非正态总体样本均数的抽 样实验(实验5-2)
图5-1(a)是一个正偏峰的分布,
相关文档
最新文档