06参数估计基础

合集下载

复旦大学公共卫生学院期末考题-06参数估计

复旦大学公共卫生学院期末考题-06参数估计

一、选择题1.当样本含量增大时,以下说法正确的是()A. 标准差会变小B. 样均数标准误会变小C. 均数标准误会变大D.标准差会变大E. 以上都不对2.区间X 2.58S的含义是()xA.99%的总体均数在此范围内B.样本均数的99%可信区间C.99%的样本均数在此范围内D.总体均数的99%可信区间E. 以上都不对3.通常可采用以下那种方法来减小抽样误差()A.减小样本标准差B.减小样本量C.扩大样本量 D. 增大样本标准差E.以上都不对4.一项雌激素与子宫内膜癌关系的配对病例对照研究,共63对。

病例组与对照组两组均有雌激素暴露史者27对,两组均无暴露史者4对,病例组有暴露史而对照组无暴露史者29对,其余为对照组有暴露史而病例组无暴露史者。

暴露于雌激素的相对危险度为()A.10.67 B.9.67 C.2.24 D.1.24 E. 以上都不对二、计算分析题1.测得某地10名正常人和10名病毒性肝炎患者血清转铁蛋白(g/L)的含量,结果如下,试估计:①该地正常人和病毒性肝炎患者血清转铁蛋白总体均数的95%可信区间;②该地正常人和病毒性肝炎患者血清转铁蛋白总体均数之差的95%可信区间。

正常人 2.65 2.72 2.85 2.91 2.55 2.76 2.82 2.69 2.64 2.73 病毒性肝炎患者 2.36 2.15 2.52 2.25 2.28 2.31 2.53 2.19 2.34 2.312.为了解阴道分娩与剖腹产产后出血率的高低,某产院抽查了阴道分娩318人,剖腹产169人,资料如下。

试估计该产院阴道分娩与剖腹产产后出血率之差的95%可信区间。

不同生产方式的出血情况生产方式 总例数 出血例数 出血率(%)阴道分娩 318 68 21.38 剖腹产1692414.203.某项关于孕妇孕期风疹病毒感染与新生儿先天性畸形关系的队列研究结果如下。

试估计暴露者的相对危险度并推断总体相对危险度的95%可信区间。

第六章参数估计

第六章参数估计

113第六章 参数估计一、 知识点1. 点估计的基本概念2. 点估计的常用方法(1) 矩估计法① 基本思想:以样本矩作为相应的总体矩的估计,以样本矩的函数作为相应的总体矩的同一函数的估计。

(2) 极大似然估计法设总体X 的分布形式已知,其中),,,(21k θθθθΛ=为未知参数,),,(21n X X X Λ为简单随机样本,相应的),,,(21n x x x Λ为它的一组观测值.极大似然估计法的步骤如下:① 按总体X 的分布律或概率密度写出似然函数∏==ni i n x p x x x L 121);();,,,(θθΛ (离散型)∏==ni i n x f x x x L 121);();,,,(θθΛ (连续型)若有),,,(ˆ21nx x x Λθ使得);,,,(max )ˆ;,,,(2121θθθn n x x x L x x x L ΛΛΘ∈=,则称这个θˆ为参数θ的极大似然估计值。

称统计量),,,(ˆ21nX X X Λθ为参数θ的极大似然估计量。

② 通常似然函数是l θ的可微函数,利用高等数学知识在k θθθ,,,21Λ可能的取值范围内求出参数的极大似然估计k l x x x nl l ,,2,1),,,,(ˆˆ21ΛΛ==θθ 将i x 换成i X 得到相应的极大似然估计量k l X X X nl l ,,2,1),,,,(ˆˆ21ΛΛ==θθ 注:当);,,,(21θn x x x L Λ不可微时,求似然函数的最大值要从定义出发。

3. 估计量的评选标准(1) 无偏性:设),,(ˆˆ21nX X X Λθθ=是参数θ的估计量,如果θθ=)ˆ(E ,则称θˆ为θ的无偏估计量。

(2) 有效性:设1ˆθ,2ˆθ是θ的两个无偏估计,如果)ˆ()ˆ(21θθD D ≤,则称1ˆθ较2ˆθ更有效。

4. 区间估计114 (1) 定义 设总体X 的分布函数族为{}Θ∈θθ),;(x F .对于给定值)10(<<αα,如果有两个统计量),,(ˆˆ111n X X Λθθ=和),,(ˆˆ122n X X Λθθ=,使得{}αθθθ-≥<<1ˆˆ21P 对一切Θ∈θ成立,则称随机区间)ˆ,ˆ(21θθ是θ的双侧α-1置信区间,称α-1为置信度;分别称1ˆθ和2ˆθ为双侧置信下限和双侧置信上限. (2) 单侧置信区间(3) 一个正态总体下未知参数的双侧置信区间(置信度为α-1)二、 习题 1. 选择题(1) 设n X X X ,,,21Λ是来自总体X 的一个样本,则以下统计量①)(211n X X + ②)2(14321n X X X X X n ++++-Λ ③)2332(101121n n X X X X +++-作为总体均值μ的估计量,其中是μ的无偏估计的个数是A.0B.1C.2D.3(2) 设321,,X X X 是来自正态总体)1,(μN 的样本,现有μ的三个无偏估计量321332123211216131ˆ;1254131ˆ;2110351ˆX X X X X X X X X ++=++=++=μμμ其中方差最小的估计量是A.1ˆμB.2ˆμC. 3ˆμD.以上都不是 (3) 设0,1,0,1,1为来自0-1分布总体B(1,p)的样本观察值,则p 的矩估计值为 。

【数理统计基础】06-相关分析和方差分析

【数理统计基础】06-相关分析和方差分析

【数理统计基础】06-相关分析和⽅差分析1. 相关分析1.1 相关系数 在⼀堆变量中,找到并分析它们之间的关系,是复杂环境和模型中的重要任务。

由于线性关系的特殊、常见和简单,数学上往往采⽤线性关系来逼近实际关系。

上篇的线性回归以及概率论中的线性回归,更关注的是线性函数的参数估计。

如果想单纯地度量随机变量的线性关系,直接讨论相关系数即可,请先复习斜⽅差的相关概念。

两个变量之间的线性关系,就是之前学过的协⽅差的概念\text{Cov}(X,Y)。

在得到n个样本(X_i,Y_i)后,容易得到式(1)的⽆偏估计,注意其中降低了⼀个⾃由度,继⽽还可以有式(2)的样本相关系数。

相关系数是线性关系的直接度量,它可以作为相关假设的检验条件,最常⽤的就是当|r|\leqslant C时认为X,Y是不相关的。

\dfrac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})\approx\text{Cov}(X,Y)\tag{1}r=\dfrac{1}{S_XS_Y}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y}),\;\;S_X^2=\sum_{i=1}^n(X_i-\bar{X})^2\tag{2} 为了能找到关于r的枢轴变量,这⾥还是要做⼀些假设,即(X,Y)是⼀个⼆元正态分布。

回顾⼆元正态分布的知识(《初等概率论》第5篇公式(27)),可知X,Y完全符合⼀元线性回归的模型。

为此这⾥暂且取定X_i,⽽把Y_i看成随机变量,并对它们进⾏⼀元回归分析。

⽐较发现系数估计满⾜\alpha_1=r\cdot\dfrac{S_Y}{S_X},在假设\rho=0(即系数a_1=0)的情况下,把这个等式代⼊上篇公式(12)右的枢轴变量,整理后得到式(3)。

由于该结论与X_i的取值⽆关,因此它对于变量X_i也成⽴,它就是我们要找的枢轴变量。

\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t_{n-2}\tag{3}1.2 复相关系数 相关系数度量了两个随机变量之间的线性关系,当系统中的变量很多时,关系也会变得复杂,这时需要引⼊更多的关系分析。

06第六章 整群抽样

06第六章  整群抽样
i 1 i 1 j 1
n
n
M

N M 1 S ( yij Y ) 2 为总体方差; NM 1 i 1 j 1 2
n M 1 s ( yij y ) 2 nM 1 i 1 j 1 2
2 b

为样本方差; 为总体群间方差;

M N 1 N 2 S (Yi Y ) N 1 (Yi Y ) 2 N 1 i 1 i 1
第一节 第二节 第三节 第四节

整群抽样概述 等概率整群抽样的情形 不等概率整群抽样的情形 设计效应和样本容量的确定
第一节 整群抽样概述




一、整群抽样的概念 整群抽样是先将总体各单元划分成若干群(组),然后以 群为单位,从中随机抽取一部分群,对中选群内的所有单 元进行全面调查。确切地说,这种抽样组织形式应称为单 级整群抽样。 如果总体中的单元可以分成多级,则可以对前几级单元采 用多阶抽样(详见下章),而在最后一阶中对该阶抽样单 元所包含的全部个体(最基本单元)进行调查,这种抽样 称作多级整群抽样。本章只讨论单级整群抽样。 设总体被划分为N群,第i群含有Mi个次级单元,全部总 体次级抽样单元数记为M 0,即 M 0 M i 。当诸Mi都相等 时,称为等群;否则,称为不等群。
M n 1 n 2 (Yi y ) (Yi y ) 2 s n 1 i 1 n 1 i 1
2 b
为样本群间方差;

N M 1 S ( yij Yi ) 2 N ( M 1) i 1 j 1 2
为总体平均群内方差; 为样本平均群内方差;



二、分群的原则 尽量扩大群内差异,而缩小群间差异。 三、整群抽样的特点 1.在大规模抽样调查中,常常没有或很难编制出包括总 体所有次级单元在内的抽样框,而整群抽样则不需要编制 庞大的抽样框。 2.在样本单元数相同的条件下,整群抽样与简单随机抽 样相比,样本单元的分布相对较集中,虽然样本的代表性 较差,但调查组织实施过程更加便利,同时还可以大大地 节省调查费用。因此,实际工作中,在权衡费用和精度之 后,有时宁可适当增加一些样本单元数,也采用整群抽样 方法。 3.整群抽样的随机性体现在群与群间不重叠,也无遗漏, 群的抽选按概率确定。

概率论与数理统计实训06讲解

概率论与数理统计实训06讲解

函 数 说 明
二项分布的最大似然估计 返回 水平的参数估计和置信区间 泊松分布的最大似然估计 返回 水平的 参数和置信区间 正态分布的最大似然估计 返回 水平的期望、方差和置信区间 均匀分布的最大似然估计 返回 水平的参数估计和置信区间 指数分布的最大似然估计 返回 水平的参数估计和置信区间
expfit
例 1 产生 100 行2 列服从区间(10, 12)上的均匀分布的随机数, 计算区间端 点“a”和“b”的极大似然估计值, 求出置信度为0.95 的这两个参数的置信 区间.
解 在命令窗口中输入: r = unifrnd(10, 12, 100, 2); [ahat, bhat, aci, bci] = unifit(r)
调 用 形 式
binofit (X, N) [PHAT, PCI] = binofit (X, N, ALPHA) poissfit (X) [LAMBDAHAT, LAMBDACI]= poissfit (X,) normfit (X, ALPHA) [MUHAT, SIGMAHAT, MUCI, SIGMACI] = normfit (X, ALPHA) unifit (X, ALPHA) [AHAT, BHAT, ACI, BCI] = unifit (X, ALPHA) expfit (X) [MUHAT, MUCI] = expfit (X, ALPHA)
基本数学原理:



样本数字特征法 1 用样本均值 x n x 作为总体均值EX的估计值; 用样本方差 S n 1 1 ( x x ) 作为总体方差DX的估计值。 在Matlab中,样本x = [x1, x2,…, xn],则 样本均值:mx = 1/n*sum (x) 样本方差:S2 = 1/(n-1)*sum ((x-mx).^2)

参数估计PPT课件

参数估计PPT课件
如何根据数据选择合适的模型,以及如何进行有效的假设检验是 参数估计面临的重要挑战。
高维数据问题
随着数据维度的增加,参数估计的准确性和稳定性面临更大的挑战 。
异方差性和非线性问题
在实际应用中,数据往往存在异方差性和非线性关系,这增加了参 数估计的难度。
参数估计的发展趋势与未来研究方向
1 2 3
贝叶斯推断
区间估计是一种统计推断方法, 它利用样本信息来估计未知参数 的可能取值范围。
区间估计的性质
区间估计给出的是未知参数的一 个可能取值范围,而不是一个具 体的点估计值。
区间估计的优缺点
优点
区间估计能够给出未知参数的一个可能取值范围,从而为决 策者提供更多的信息,有助于理解参数的不确定性。
缺点
由于区间估计给出的范围较宽,可能会引入较大的误差。此 外,对于某些复杂模型,构造有效的区间估计可能比较困难 。
在贝叶斯估计中,先验分布代表了我们对未知参数的先验知识或信念,而后验分布 则是结合先验信息和样本数据后对未知参数的更新信念。
贝叶斯估计的核心思想是将参数看作随机变量,并利用概率论来描述我们对参数的 认知不确定性。
贝叶斯估计的优缺点
优点
贝叶斯估计能够综合考虑先验信息和样本数据,给出参数的后验分布,从而为决 策提供更全面的信息。此外,贝叶斯估计方法灵活,可以适用于不同类型的数据 和问题。
点估计的优缺点
总结词
点估计的优缺点
详细描述
点估计的优点在于它提供了一个简洁的表示未知参数的方法,并且可以利用各种统计方法进行推断和分析。然而 ,点估计也存在一些缺点,如它可能会受到样本误差的影响,导致估计结果不够准确;另外,当样本容量较小时 ,点估计的效果可能会较差。
点估计的常见方法:矩估计、最小二乘法等

参数估计

参数估计
第三节
参数估计
参数估计就是用样本统计量来推算总体参 数,有点估计和区间估计两种方法。 一、参数估计的理论基础 按正态分布理论对参数进行估计。 正态分布的主要特征有: 1.以总体平均数为中心两侧呈对称分布,即 1.以总体平均数为中心两侧呈对称分布,即 样本平均数大于或小于总体平均数的概率完全相 等,就是说样本平均数的正离差与负离差出现的 可能性完全相等。
2.样本平均数越接近总体平均数,其出现的 2.样本平均数越接近总体平均数,其出现的 可能性越大;反之样本平均数越远离总体平均数, 其出现的可能性越小。这种可能性数学上称为概 率F(t),也就是可靠性。与概率对应的数值称为 ),也就是可靠性。与概率对应的数值称为 概率度,即抽样误差扩大的倍数,用字母t表示。 概率F(t)与概率度t 的对应函数关系如图4-2所 的对应函数关系如图4 示。
30
f x
25 20
( )
15
10
5
0
-4 -3 -2 -1 0 1 2 3 4
x
-3t
x 3 x 2
-2t
x
-1t
0 68.27% 95.45% 99.73% F(t)
X
x + x + 2
1t
2t
x + 3
3t
图4 - 2
正态分布概率图
图4-2显示样本平均数与总体平均数的平均误差不超过1μ的 显示样本平均数与总体平均数的平均误差不超过1 概率为0.6827,不超过2 的概率为0.9545,不超过3 概率为0.6827,不超过2μ的概率为0.9545,不超过3μ的概率为 0.9973。即: 0.9973。即: 当t =1时,F(t) = 0.6827 =1时, 当t =2时,F(t) = 0.9545 =2时, 当t =3时,F(t) = 0.9973 =3时, 概率度t与概率F(t)的对应关系是:概率F(t)越大,则概率 度t值越大,估计的可靠性越高,样本统计量与总体参数之间正 负离差的变动范围也越大。对于t每取一个值,概率保证程度F(t) 有一个唯一确定的值与之对应。因此人们制定正态分布概率表 有一个唯一确定的值与之对应。因此人们制定正态分布概率表 (见书后附页)供大家查找。

第六章参数估计基础

第六章参数估计基础
正态近似法:当n足够大时,且样本频率p不太接近0或1时,p的抽样分布接近正态分布,此时,总体概率的置信区间为p+-Zα/2 * Sp.
1总体分布的形态和样本含量对样本均数的抽样分布会产生何种影响?
从正态分布的总体中随机抽样,样本均数呈正态分布;从非正态分布的总体中随机抽样,样本量n较小时,样本均数的分布仍呈非正态分布,当样本量n足够大时,样本均数的分布近似正态哦分布。
计算:σXbar=σ/√n.在实际应用中,总体标准差σ常常未知,需要用样本标准差S来估计。此时,均数标准误的估计值为SXbar=S/√n.由此式可见,若增加样本含量n可减小样本均数的抽样误差。
主要应用:1估计总体均数的置信区间。 2均数的假设检验。
样本频率的抽样分布和抽样误差:频率的标准误用符号σp表示,它反映了样本频率之间以及样本频率与总体概率之间的离散程度,也反映了样本频率抽样误差的大小。
1.点估计:直接用随机样本的样本均数Xbar作为总体均数μ的估计值或用样本频率p作为总体概率π的估计值的方法称为点估计。这是一种没有考虑抽样误差的简单估计方法。
2.区间估计:用已知样本统计量和标准误确定总体参数所在范围的方法称为区间估计。所估计的总体参数的范围通常称为参数的置信区间,,是一个开区间,这一估计可相信的程度称为置信度或置信水平。若标准差不变,置信度由95%提高到99%,置信区间便由窄变宽,估计的精度下降。
计算:σp=√(π(1-π)/n)。在实际应用中,总体概率π常常未知,需要用样本频率p来估计。因此频率标准误的估计值为Sp=√(p(1-p)/n-1)约等于 √(p(1-p)/n)。由此式可见,增加样本含量n可减小样本频率的抽样误差。
主要应用:1估计总体概率的置信区间 2频率指标的假设检验。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
均数标准误
X
x

n
S Sx n
它反映样本均数之间的离散程度,也反映样本 均数抽样误差的大小。
7
注意区别:
S 和 S X 和 X
8
非正态总体样本均数的分布
在非正态分布总体中抽样
当样本含量较小时,样本均数的分布呈非正态分布;
当样本含量足够大时(n>50),样本均数的分布近似 正态分布。
样本含量n=9
Fraction
x x x
的平均数 =0.9959 的标准差 =0. 3332
的中位数 =0.9574
0 .191269 meanx 2.73185
12
抽样3 抽取1000次样本均数分布
.0704
样本含量n=100
Fraction
x x x
的平均数 =0.9993 的标准差 =0.1001
参数估计基础
estimation of parameter foundation
主讲:张钦凤
tel: 6237702;
qfzhang@
学习要点
掌握抽样分布的特点,如果在正态分布总体中抽样,则样
本均数也服从正态分布。 掌握标准误的计算与用途,标准误与标准差的区别与联系。 掌握t分布的特征,t分布与z分布的区别与联系。 掌握95%置信区间的估计方法,置信区间与参考值范围的
2、来自正态总体的样本均数仍服从正态分布;来自非正态
总体的抽样,样本含量较小,呈偏态分布;样本含量足够大 (n≥50) ,样本均数的分布呈近似正态分布。
26
第二节 t 分 布
Student’s t distribution William Sealy Gosset(1876-1937)出生于英国坎 特伯雷,他在Winchester学习,而后在牛津大学专 攻数学和自然科学。毕业后,他加入了都柏林的一 家酿酒公司Arthur Guinness and Son,并在那儿终 生任职,直到最后成为伦敦一家新的酿酒公司的首 席酿酒师。 Ronald Fisher先生遗传统计学专家,是现代统 计学的奠基人之一,十分敬佩Gosset,并和 Gosset一样对农业试验充满了兴趣,他把Gosset 称作“统计学中的法拉第” 。
从总体均数 为155.4cm,标准差 为5.3cm
的正态分布总体中随机抽样,样本大小为30。 抽样分布实验
4
2 N (155.4,5.3 )抽样得到的1000个样本均数的频数 从正态总体 分布(ni=30)
组段 152.9153.5154.1154.7155.3155.9156.5157.1157.7158.3-158.9
t分布曲线是一簇曲线,z分布曲线是一条曲线。 t分布下面积分布规律:查t分布表。
33
t分布的界值
给定自由度v,t分布曲线的双侧尾部面积为时 对应的t值,记为并称 t / 2,v为t的双侧界值(twotailed probability) 单侧界值 (one-tailed probability):一侧尾 部面积为时对应的t值 t ,v 对称性
够大时,其样本均数的分布近似于正态分布,且 样本均数的均数等于原分布的均数,均数的标准
误为 x n
16
二、样本频率的抽样分布与抽样误差
计数资料中的二项分布资料,描述的指标主要是率。
如: 阳性率、检出率、发病率等。 抽样实验 在黑球比例为20%的总体中抽样,
n=50,重复实验100次,抽样结果:
的中位数 =0.9958
0 .654635 meanx 1.49848
13
14
非正态总体样本均数的分布
从非正态分布总体中随机抽样所得样本均数 X :
在样本含量较小时呈偏态
样本含量较大时接近正态分布
均数 X 始终在总体均数μ附近
均数 X 的标准差 x

n
15
数理统计理论表明,对任意分布,在样本含量足
抽样误差 Sampling error
结果:
各样本均数不一定等于总体均数 样本均数间存在差异 样本均数的分布规律:围绕总体均数上下波动 样本均数的变异:由样本均数的标准差描述。
6
标准误 (standard error of mean ,SE)
样本均数的标准差 ,称为均数的标准误,简称
5
频数 9 34 94 191 255 216 116 63 20 2
频率 0.90 3.40 9.40 19.10 25.50 21.60 11.60 6.30 2.00 0.20
累计频率 0.90 4.30 13.70 32.80 58.30 79.90 91.50 97.80 99.80 100.00
29
t分布
样本含量n=5
样本含量n=100
t统计量的频数图
30
t分布
结果
小样本时,t统计量和U统计量的分布有明显差别 大样本时,t统计量和U统计量的分布非常接近。 t分布实验 频数图 当样本量较大时,统计量t的频数图与标准正态分布曲 线非常接近 样本含量较小时,t统计量的峰值比标准正态分布的峰 值略小,双侧尾部的值则较标准正态分布略大
同样的尾部面积,t分布的界值要大于标准正态分 布的界值
34
t分布的界值
t分布界值示意图,表示阴影的面积
35
表 9-9 t 界值表
双侧: 单侧: 0.10 0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 概率 P 0.05 0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 0.02 0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 0.01 0.005 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 自由度 ν 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 200 500 ∞ 双侧: 单侧: 0.10 0.05 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.685 1.676 1.671 1.667 1.664 1.662 1.660 1.653 1.648 1.645 概率 P 0.05 0.025 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.972 1.965 1.960 0.02 0.01 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.403 2.390 2.381 2.374 2.368 2.364 2.345 2.334 2.326 0.01 0.005 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.601 2.586 2.576

样本含量n相同时,越偏离0.5,样本率的分 布越偏态分布。

总体率=0.5时,任意样本含量的样本率都呈 对称分布。
23
例题6-1 研究50岁以上中老年妇女776人,其中患骨
质疏松322人,计算患病率,估计样本率的抽样误差。
x 322 p 0.415 n 776
Sp
p(1 p) 0.415(1 0.415) 0.0177 n 776
31
t分布
不同自由度下的t分布曲线
v=∞
v=5
v=1
32
t分布与z分布的区别与联系
t分布、z分布曲线均是单峰分布,以0为中心,左右两侧 对称, t分布曲线的中间比标准正态曲线(z分布曲线)低,两侧 翘得比标准正态曲线略高。
t分布曲线随自由度υ而变化,当样本含量越小(严格地 说是自由度υ =n-1越小),t分布与z分布差别越大;当 逐渐增大时,t分布逐渐逼近于z分布,当υ =∞时,t分 布就完全成正态分布 。
2.计算变量值的频数分布范围,如: ( X 1.96S ) 。 3. 可对某一个变量值是否在正常值范 围内作出初步判断。 4.用于计算标准误。
25
小结
1、抽样误差、标准误
x

n
S Sx n
p
(1 )
n
Sp
p(1 p) n
由于个体变异,抽样误差不可避免,但是随着样本含量增 加而减少。 用途:估计参数的置信区间;假设检验
27
第二节 t 分 布

X ~ N ( , 2 ) ,标准正态分布与t统计量
z X
X
X n
实际研究中未知,用样本的标准差S作为的一个近似 值(估计值)代替,得到变换后的统计量并记为
相关文档
最新文档