数理统计第一章

合集下载

概率论与数理统计第一章1.1随机事件

事件的关系与运算
注：(1) 事件的关系与运算可用维恩图形象表之
(2) 事件的和与积的运算可推广到有限个事件或可数无限个事件的情形.
A B A B, (3) 事件的和与积的另一记法：
A B AB.
事件的关系与运算
８. 完备事件组设 A1 , A2 ,, An , 是有限或可数个事件，若其满足：
完
随机事件
在随机试验中，人们除了关心试验的结果本身外，
往往还关心试验的结果是否具备某一指定的可观
察的特征，概率论中将这一可观察的特征称为一个事件，它分三类：
随机事件
1. 随机事件：在试验中可能发生也可能不发生的事件； 2. 必然事件：在每次试验中都必然发生的事件； 3. 不可能事件：在任何一次试验中都不可能发生的事件. 例如，在抛掷一枚骰子的试验中，我们也许会关
A : “点数为奇数”，B : “点数小于5”.
则 A B {1，2，3，4，5}； A B {1，3}；
A - B {5}.
6. 若 A B , 则称事件 A 与 B 是互不相容的(或互斥的).
7. 若 A B S 且 A B ,
事件的关系与运算
由于随机现象的结果事先不能预知，初看似乎毫无规律. 然而人们发现同一随机现象大量重其每种可能的结果出现的频率具有复出现时，
稳定性，从而表明随机现象也有其固有的规律
性. 人们把随机现象在大量重复出现时所表现出的量的规律性称为随机现象的统计规律性.
随机现象的统计规律性
概率论与数理统计是研究随机现象统计规律性的一门学科. 为了对随机现象的统计规律性进行研究，就需对随机现象进行重复观察，我们把对随机现象

医用数理统计方法课件第一章

Ω
B
A
A={2,4} B={1,5,6}
（一）事件的关系和运算
7.互逆关系: 若事件A与事件B互斥，且在任何一次试验中二者必定有一个发生，即A∩ B =Ø且A+B=Ω，则称事件A与事件B互逆（或相互对立）。称事件A为事件的B的对立事件，记为或 A与B没有相同的样本点 A或B的样本点组成样本空间推广:完备事件组
就一次试验而言，试验结果没有规律，但“大数次”地重复这个试验，试验结果又遵循某些规律，这种规律称之为“统计规律”
如掷硬币(下表) 概率论与数理统计就是研究随机现象的统计规律的数学学科
统计规律
05
04
02
03
01
试验者试验次数正面出现次数频率
德摩根 2048 1039 0.5073
第三次数学危机
数学家罗素关于集合论的悖论：设A是以一切自己不属于自己的那种集合为元素构成的集合，即若B B,则B ∈ A; 若B ∈B, 则B A。问：A属于自己吗？若A ∈A，由定义A A 若A A，由定义A ∈ A
罗素悖论的出现引起集合论的矛盾被称为数学上的第三次危机
第三次数学危机：集合论-悖论
1
某人：“我说的这句话是谎话。”
2
这句话是真话还是谎话？理发师：“我只给那些不给自己刮胡子的人刮胡子。”
理发师能否给自己刮胡子？
4
解决方法
公理化
6
有一类特殊的试验，它具有下面两个特征：试验中的所有可能结果（即基本事件）只有有限个，而且是两两互斥的；每个试验结果出现的可能性相同。
蒲丰 4040 2048 0.5069
皮尔逊 12000 6019 0.5016
皮尔逊 24000 12012 0.5005

高等数理统计笔记

高等数理统计笔记高等数理统计笔记第一章：概率论基础1.1 概率的引入1.2 概率的公理化定义1.3 概率的基本性质1.4 条件概率与独立性1.5 全概率公式与贝叶斯公式1.6 随机变量的引入与分布函数1.7 随机变量的分布函数及其性质1.8 随机变量的密度函数及其性质1.9 随机变量的数字特征第二章：多维随机变量及其分布2.1 二维随机变量及其联合分布函数2.2 二维随机变量的联合密度函数及其性质2.3 二维随机变量的条件分布函数及其性质2.4 二维随机变量的条件密度函数及其性质2.5 相互独立的随机变量2.6 随机变量的函数的分布及其性质2.7 两个随机变量的和的分布及其性质第三章：大数定理与中心极限定理3.1 大数定理的概念3.2 切比雪夫不等式3.3 伯努利大数定理3.4 辛钦大数定理3.5 中心极限定理的概念3.6 李雅普诺夫中心极限定理3.7 林德贝格-列维中心极限定理3.8 中心极限定理的应用第四章：参数估计4.1 点估计的概念与性质4.2 最大似然估计法4.3 矩估计法4.4 经验分布函数与分位数的估计4.5 贝叶斯估计第五章：假设检验5.1 总体均值检验的基本知识5.2 单个总体均值的假设检验5.3 单个总体比例的假设检验5.4 两个总体均值的假设检验5.5 两个总体比例的假设检验5.6 方差的假设检验5.7 单个总体分布的非参数检验5.8 两个总体分布的非参数检验第六章：方差分析与回归分析6.1 方差分析的基本概念6.2 单因素方差分析6.3 多因素方差分析6.4 回归分析的概念与简单回归6.5 最小二乘估计法6.6 多元回归分析第七章：统计抽样与抽样分布7.1 抽样调查的概念与方法7.2 抽样分布及其基本性质7.3 样本均值的分布7.4 样本平均数与总体均值的关系7.5 样本方差与总体方差的关系7.6 样本比与总体比的关系第八章：贝叶斯统计推断8.1 贝叶斯定理及其含义8.2 贝叶斯估计量的概念与性质8.3 最大后验概率估计8.4 确定性问题的贝叶斯推断方法第九章：序贯统计与时间序列分析9.1 序贯统计的概念与应用9.2 时间序列的基本概念与应用9.3 平稳序列与非平稳序列的区别9.4 自相关函数与自协方差函数9.5 平稳序列的谱分析9.6 自回归模型与移动平均模型9.7 估计方法与模型诊断第十章：非参数统计方法10.1 非参数统计的基本概念10.2 秩和检验10.3 秩和检验的应用10.4 秩次相关检验10.5 Friedmann检验10.6 克鲁斯卡尔-华里斯检验以上是一份高等数理统计的笔记，涵盖了概率论基础、多维随机变量及其分布、大数定理与中心极限定理、参数估计、假设检验、方差分析与回归分析、统计抽样与抽样分布、贝叶斯推断、序贯统计与时间序列分析、非参数统计方法等内容，共计6000字。

数理统计教程课后重要答案习题

第一章:统计量及其分布19.设母体ξ服从正态分布N(),,2σμξ和2n S 分别为子样均值和子样方差,又设()21,~σμξN n +且与n ξξξ,,,21 独立, 试求统计量111+--+n n S nn ξξ的抽样分布. 解: 因为ξξ-+1n 服从⎪⎭⎫⎝⎛+21,0σn n N 分布. 所以()1,0~121N nn n σξξ+-+ 而()1~222-n nS nχσ且2n S 与ξξ-+1n 独立,, 所以()1~1111--÷+--+n t S n n n n S nnn σξξ分布. 即111+--+n n S nn εε服从()1-n t 分布. 20.(),,,1,,n i i i =ηξ是取自二元正态分布N()ρσσμμ222121,,,的子样,设()∑∑∑===-===n i i i ni n i i n S n n 12111,1,1ξξηηξξξ2,()2121∑=-=n i i n S ηηη和 ()()()()∑∑∑===----=ni i ni ii ni ir 12211ηηξξηηξξ试求统计量()122221--+---n S rS S S ηξηξμμηξ的分布.解: 由于().21μμηξ-=-E ()()=-+=-ηξηξηξ,c o v 2D D D nn nn2122212σσρσσ-+.所以()()n 212221212σρσσσμμηξ-+---服从()1,0N 分布 .()()()()()()()[]211212121222122ηξηξηηξξηηξξ---=----+-=-+∑∑∑∑====i ini i i ni i ni i ni S rS S S ni i ηξ-是正态变量,类似于一维正态变量的情况,可证ηξηξS rS S S 222-+与ηξ-相互独立.()()1~22221222122--+-+n S rS S S n χσρσσσηξηξ, 所以统计量()122221--+---n S rS S S ηξηξμμηξ()()()()1)2(222122212221222121--+-+-+---=n S rS S S n nσρσσσσρσσσμμηξηξηξ服从()1-n t 分布.第二章：估计量1. 设n ξξ,,1 是来自二点分布的一个子样,试求成功概率p 的矩法估计量.解: p E =ξ ξ=∴pˆ 3. 对容量为n 的子样,求密度函数()()⎪⎩⎪⎨⎧<<-=其它,00,2;2ax x a a a x f 中参数a 的矩法估计3. 对容量为n 的子样,求密度函数 ()()⎪⎩⎪⎨⎧<<-=其它,00,2;2ax x a a a x f 中参数a 的矩法估计量. 解: ()322adx x a ax E a=-=⎰ξ 令ξ=3a 得ξ3ˆ=a . 4. 在密度函数 ()()10,1<<+=x x a x f a中参数a 的极大似然估计量是什么? 矩法估计量是什么? 解: (1) ()()()∏∏==+=+=ni i ni nni x x L 111ααααα ()i i x ∀<<1∴()().ln 1ln ln 1⎪⎪⎭⎫⎝⎛⋅++=∏=n i i x n L ααα令()0ln 1ln 1=++=∂∂∑=i ni x nL ααα，得 ∑=--=ni iL xn1ln 1ˆα。

数理统计(第一章)

数理统计学•主讲人: 沈玉波•办公室地址: 校本部，大黑楼B1005•办公室电话: 84708351-8205•E-mail: shenyubo@•大连理工大学概率统计教研室常见的离散型随机变量1.二项分布：()p B ，”分布“11-0=()为参数为自然数，其中10<<p n ().的二项分布，服从参数为则称随机变量p n X 显然，当n=1 时()()n k p p C k X P kn kk n，，， 101)(=-==-()p n B X ，记作~如果随机变量X 的分布律为()∑=--nk kn kknp p C1()[]11=-+=np p4.帕斯卡分布(负二项分布)如果随机变量X 的分布律为()，，21,)1()(11++=-==---r r r k pp C k X P rrk r k ()为常数其中10<<p 则称随机变量X 服从参数为r , p 的帕斯卡分布．)B(r,~p N X 记为：1）独立重复试验，第r 次成功时实验次数的分布律。

则独立同分布，且已知),(~,,,)221p G X X X X i r ),(~21p r NB X X X r +++1. 概念设X 是一个随机变量，x 是任意实数，函数)()(x X P x F ≤=称为X 的分布函数．2. 分布函数的性质1)(0,)1≤≤∈x F R x 1)(lim )(,0)(lim )()2==∞==-∞∞→-∞→x F F x F F x x 分布函数.)(),()0()5是右连续的即x F x F x F =+3) F (x ) 是一个不减的函数．)()(}{)41221x F x F x X x P -=≤<。

数理统计第一章

0123
频数 mi 3 5 3 1
得子样频率表(子样频率数分布)
X
频率 mi n
01 23 1/4 5/12 1/4 1/12
经验分布函数
设子样为 (x1, x2 ,, xn ), 对任意实数
x , 子样值中小于或等于 x 的个数为
m(x) , 则称
Fn (x)
m(x) n
为子样的为经验分布函数.
其概率分布
f (x, p) px (1 p)1x, x 0,1
设有放回地抽取一个容量为n的子样
( X1, X 2 ,, X n )
其子样值为 (x1, x2 ,, xn ) 样本空间为
{(x1, x2,, xn) xi 0,1, i 1,2,,n}
(X1, X 2,, X n ) 的联合分布为 n f总(x1, x2,, xn ) f (xi )
9
合计
组限组中值组频数
38~44 41
1
45~51 48
1
52~58 55
2
59~65 62
5
66~72 69
8
73~79 76
12
80~86 83
12
87~93 90
7
94~99 97
2
x 75.86 50
组总分 41 48 110 310 552 912 996 630 194
3793
96 88 67 38 67 75 83 82 68 85
平均分
x
1 50
50 i 1
xi
3790 /
50
75.8
由于 x(n) x(1) 1 98 38 1 61 取 63
故分 9 组, 每组组距为7, 于是可得

应用数理统计(基于MATLAB实现)第1章数理统计的基本概念

应用数理统计
第1章数理统计的基本概念
数理统计的基本概念
目录 contents
1 总体与样本 2 样本经验分布函数 3 统计量与估计量 4 抽样分布
2024/4/19
PART 1
总体与样本
前言数理统计学是探讨随机现象统计规律性的一门学科,它以概率论为理论基础，研究如何以有效的方式收集、整理和分析随机数据，从而对所研究对象进行统计推断。
2024/4/19
1.2 从样本认识总体的方法 1 频数表
2 直方图
2024/4/19
1.2 从样本认识总体的方法
例3. 由于随机因素的影响，某铅球运动员的铅球出手高度可看成一个随机变量，现有一组出手高度的统计数据（单位：cm）如下：
200
195
210
211
201
205
185
197
183
177
2024/4/19
引例
引例1：研究一批灯泡的寿命分布，需明确该批灯泡中每个灯泡的寿命长短。引例2：研究某一湖泊的深度，需测量湖面上每处到湖底的深度。总体：在数理统计中，我们把研究对象的全体所构成的集合称为总体，而把组成总体的每个元素称为个
体，总体中所包含个体的个数称为总体的容量．
这两张图是大家再熟悉不过的两个成语了：一叶知秋、盲人摸象。
参数
分布的数字特征
某事件的概率等
参数
2024/4/19
PART 3
样本的经验分布函数
3 样本经验分布函数 1 经验分布函数的定义
2024/4/19
3 样本经验分布函数 2 例题例1.2.5
某食品厂生产午餐肉罐头,从生产线上随机抽取5只罐头,称其净重(单位:g)为: 351, 347, 355, 344, 351

01第一章数理统计的基础知识

为推断总体分布及其各种特征，一般方法是按一定规则从总体中抽取若干个体进行观察，称为抽样。
2
第一章数理统计的基础知识
第一节总体与样本
一 . 总体与样本
定义1：研究的对象称为总体，总体往往以某一项数量指标为其特征。实际上总体就是一个随机变量 X 。
为推断总体分布及其各种特征，一般方法是按一定规则从总体中抽取若干个体进行观察，称为抽样。定义2：从总体中抽取的 n 个个体 (X1,X2,…,Xn) 称为样本，实际上样本就是一个 n 维随机变量(或向量)。
简单随机样本： (X1,X2,…,Xn) 是相互独立的随机变量(独立性)；且 Xi ~ X (同分布) 。样本容量 n：样本中所含个体数目，为已知的一个自然数。样本观察值： (X1,X2,…,Xn) = (x1,x2,…,xn)
上例中，若某次抽样得： (X1,X2,X3,X4,X5) = (0,0,1,0,1)
P(Y 15) f ( y)dy
15
10 0 15 20 y y 1 3 7 dy dy 10 100 100 2 8 8
例3：设总体 X ~ b(1，p)。现从中抽取容量为 2 的样本，得到样本 (X1， X2)，求样本的函数 Y = X12 + X22 的概率分布，并求出事件 P(Y < 15) 的概率。
i 1 n
如上例：总体 X ~ b(1,p)，概率分布为：P(X = x) = (1 – p)1 – x p x (x = 0,1) 则样本 (X1,X2,…,Xn) 的联合分布为：
P( X 1 x1 , X n xn ) p x1 (1 p)1 x1 p xn (1 p)1 xn p i1 (1 p)

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第1章抽样调查§1.1 引言数理统计学是数学的一个重要分支.它研究怎样有效地收集、整理和分析带有随机性的数据，以对所考查的问题作出推断或预测，直至为采取一定的决策和行动提供依据和建议.若在以上句子中去掉“带有随机性的”这几个字，那就是统计学的研究范围.统计学就是数据科学（《数理统计学讲义》，高教出版）。

数理统计学是这样一门学科：它使用概率论和数学的方法，研究怎样收集（通过试验和观察）带有随机误差的数据，并在设定的模型下（称为统计模型）之下，对数据进行分析（称为统计分析），以对所研究的问题作出推断（称为统计推断）（《概率论与数理统计》，中科大出版，陈希孺）.由以上关于数理统计学的概念的阐述可以看出数理统计面对的对象就是数据，而数据的“质量”对最终的得出的结论的可靠性有着重大影响.对于普查的数据，数据的有效性、准确性很重要（这类数据的研究不属于数理统计学的范畴）.对于抽查数据，数据的概率性质很重要.本章简要地介绍抽样调查的一些概念和技术以及相关理论.在数理统计学中还有另一种获取数据的方法--试验设计(将在后面介绍).抽样调查是从总体中抽取一小部分个体以获取总体的有关信息.根据研究对象即总体的不同特点需要设计不同的抽样方法以获取高“质量”的数据.抽样技术在很多领域都有应用.抽样技术本质上具有概率性—总体中每个个体都以特定的概率出现在样本中(简称为入样),并且样本的实际构成是随机的. 随机抽样至少有以下的益处:∙ 抽取个体的随机性排除了调查者的偏见，即使是无意识的。

∙ 与完全枚举（即普查）相比，小样本减少很多成本，调查更省时。

∙随机抽样的结论实际上可能比完全枚举更精确。

小样本的数据质量更容易监控，完全枚举需要大量的调查人员去实施，由此可能带来更多业务不精的职员。

∙ 随机抽样技术使得抽样误差估计变得可能。

∙ 在抽样设计时，通常可以确定出满足预设误差水平的样本容量。

以上的讨论中涉及“总体”和“个体”和“样本”三个名词.总体指研究对象的全体.而组成总体的各个成员称为个体.依总体中个体数有限和无限，总体分为有限总体和无限总体.本章讨论的总体都是有限总体.在具体的统计问题中，我们总是关注总体中成员的某项（或多项）数量指标.总体中的N 个成员的数量指标值记为N x ,,x ,x 21.如果将总体中的成员依据某一属性分成r 类，我们可以用数值r ,, 1（或11,0-r ,, ）分别代表各个类别（称为分类数据或属性数据），最常见的是分为二类（比如正品与次品，男性与女性），我们称之为二分变量.例1.1 作为本章的第一个例子，我们利用Herkson(1976)的研究来解释一些思想.总体由393=N 个短期居留医院组成.我们关注于医院一个月内出院人数.令i x 表示1968年1月份第i 个医院的出院人数,那么总体为39321x ,,x ,x .总体均值为6.814,总体标准差为7.589.总体的数值都是知道的,我们可通过频数直方图显示总体数值的分布,见P139图7.1.这里举这个例子是为了教学目的,后面还会用这个例子来说明一些方法和思想.实际中,我们往往是不知道总体的数值,而是希望通过抽样而获得的数据去了解总体的信息,比如估计总体均值等.在统计问题中,我们特别关注的是总体的一些数值特征,或参数. 总体均值（population mean ）∑==Ni ix N 11μ 在分类数据中,各类别的比例.总体总数(population total)∑==Ni i x 1τ总体方差(population variance)∑==N i i 2)-x(N 121μσ在二分情况下,总体方差为p)p -1(.总体标准差(population standard deviation)2σσ=.一般地，总体的特征数（或参数）是未知的，而我们要做的工作就是通过观察到的数据即样本来获取总体参数的信息.样本是指按照一定的抽样方案（或试验方案）从总体中抽取的若干个个体.由于抽取个体的目的是要调查其某项（或多项）数量指标，因此所得的样本表现为抽取的各个个体的数量指标。

记它们的数量指标为n X ,,X 1.我们称n X ,,X 1为样本，抽取的个体数n 称为样本容量. 由于抽样是随机安排的,因此n X ,,X 1是n 个随机变量(或向量).它们的联合分布依赖于总体的分布及抽样方案.抽样观察完成后便得到n 个具体的观察值n x ,,x 1,称n x ,,x 1为样本值, )x ,,(x n 1是)X ,,(X n 1的一次实现.以后样本值简称为样本,因此以后说到样本可以是n 个随机变量,也可以是n 个的观察值,这就是所谓的样本的二重性.在不会引起混淆时都用n x ,,x 1表示样本.§1.2 简单随机抽样最初级的抽样方法是简单随机抽样:每个个体都以相同的概率入样.简单随机抽样有放回的简单随机抽样（也称为有重复简单随机抽样）和不放回的简单随机抽样（也称为无重复简单随机抽样）两种方式.有放回的简单随机抽样所得的样本)X ,,(X n 1的概率特性有(1) 各个i X 具有相同的分布;(2) n X ,,X 1相互独立.不放回的简单随机抽样所得的样本)X ,,(X n 1的概率特性有（1）各个i X 具有相同的分布;（2）n X ,,X 1不相互独立. 任意指定的n 个个体组成样本的概率均为n NC 1。

两种方式下的样本的第一条概率特性相同，这是由“每个个体都以相同的概率入样”的缘故.一般而言，简单随机抽样都是指不放回的随机抽样.这里引入有放回的随机抽样是因为（1）放回的随机抽样的样本的概率性质更为简单；（2）给不放回的随机抽样提供一个比较对象.例如，若总体中N 个个体的数量指标值N x ,,x ,x 21各不相同，那么i X 的概率质量函数为 N ,,,j ,N)x X P(j i 211=== 若总体中N 个个体的数量指标值有相同的，各个体的不同取值记为m 1,ςς ，，且取值j ς的个体数为j n )m ,,,j ( 21=，那么i X 的概率质量函数为 m ,,,j ,N n )X P(jj i 21===ς若总体为二分变量，那么i X ～)p ,(B 1，其中p 总体中取值为1的个体的比例.我们往往关心总体均值、总体总数、总体方差等总体参数的估计，通常用样本均值（sample mean ） ∑==n i i X n X 11 作为总体均值μ的估计.作为总体总数的一个估计，我们考虑X N T =由于样本n X ,,X 1是随机的，所以样本均值X 也是随机的，它的概率分布称为抽样分布.X 的抽样分布决定了X 估计μ的精度，粗略地讲，抽样分布越紧密地集中在μ附近，估计越好.例1.2 为了解释抽样分布的概念,我们再一次考虑393个医院的总体.当然,在实践中,总体是未知的.出于教学的目的,我们考如来自这个总体的样本均值的抽样分布.例如,假如我们想寻找容量为16的样本均值的抽样分布,原则上,我们可以得到所有的16393C 个样本,并计算每个样本的均值.但是这样的样本个数是2810阶,这显然是不可行的.因此我们利用称之为模拟的技术.我们抽取很多个容量同为n 的样本,计算均值,然后绘制其直方图,用以估计抽样分布.图7.2(见P141)显示了样本容量为32,16,8和64的500次模拟结果.值得注意的是该图的三个特征:1. 所有的直方图集中在总体均值6.814上.2. 随着样本容量的增加,直方图发散程度降低.3. 尽管总体直方图(图7.1)关于均值不对称,但图7.2的直方图接近于对称.一般而言,得出X 的精确抽样分布很困难.下面计算X 的期望、方差,以了解该估计量的统计性质,并由此看出该估计的优良性. 首先在简单随机抽样下,i X 的期望、方差分别为 μςςς====∑∑==m j j j mj j j j i n N )(X P )E(X 111 211)(σμς==∑=m j 2j j i -(n N X Var ）以上性质无论放回抽样还是不放回抽样都成立,但对于协方差)X ,X Cov j i （(j i ≠)会不一样,在放回抽样时)X ,X Cov j i （0=;而不放回抽样时,)X ,X Cov j i （12--=N σ,由以上讨论易得性质1.2.1 简单随机抽样下, τμ==)T (E )X E(要注意的是,由于X 是随机的,结论μ=)X (E 可以解释“平均地”μ=X .一般地利用样本构造的统计量θˆ估计总体参数θ时,如果无论θ取何值,总有θθ=)(E ˆ,我们称θˆ为θ的无偏估计.因此X 是μ的无偏估计.但这并不意味着X 会恰好等于μ,X 与μ总会有偏差的,为此还需考验该估计的精度.一般地我们可用均方误差2)ˆˆθθθθ-=(E ),MSE( 来衡量估计的精度.称),MSE(θθˆ为标准误差.易得2)ˆˆˆθθθθθ-+=E ()ar(V ),MSE( θθ-)(E ˆ称为偏差或偏倚.若θˆ为θ的无偏估计,那么 )ar(V ),MSE(θθθˆˆ= 性质1.2.2 在简单随机抽样下,(1) 若放回抽样,则 n )X Var(2σ=, n X σσ= 22σn N )T (Var =,nN T σσ= (2) 若不放回抽样,则)111(2---=N n n )X Var(σ )111(22---=N n n N )T (Var σ, (3)在二分情形下,p )X E(=,n)p -(p )X (Var 1=,(放回抽样时) )1111---=N n (n )p -(p )X (Var ,(不放回抽样时) 可以看出,样本均值的精度与n 和σ有关,两种抽样方式X 的方差相差一个因子1111--=---N n N N n 称它为有限总体校正.比值N n 称为抽样比例,若抽样比例非常小时 111---N n 1≈ 两种抽样方式下样本均值的方差差别不大.例1.3 如果无重复地抽取医院总体，样本容量为32=n ，那么样本均值的标准差为392311327.58911132)(-=---==N n X Var X σσ 0.10096.02.104=⨯= 为了说明0.100=X σ是精度合理的度量，再次审视图7.2b,观测到大部分样本均值在总体均值(814)的2倍标准误差之内,也就是说大部分样本均值在)1014,614(内. 例1.4 在医院总体中,小于1000个出院人数的比例是654.0=p .如果利用样本比例pˆ估计这个总体比例,可得该估计的标准误差为08.096.032346.0654.0111)1(ˆ=⨯⨯=----=N n n p p p σ 总体方差2σ是一个重要的总体参数,也需要通过样本对其作出估计,并且由上面的讨论可看出样本均值作为总体均值的估计时,其精度与总体方差有关,在实现中总体方差未知,我们可由样本对其作出估计,从而对样本均值作为总体均值的估计时的精度作出评估. 下面是一个常用的2σ的估计量 ∑==n i i 2)X -X (n 121ˆσ 性质1.2.3 在简单随机抽样下,(1) 若放回抽样,则 n )n ()E(221ˆσσ-= (2) 若不放回抽样,则 )11ˆ22-N N (n )n ()E(σσ-= 由此可见2ˆσ是2σ的有偏估计,而且总有 22ˆσσ<)E( 也即该估计系统地偏小,为了具有无偏性,我们可对以上估计作如下修正∑==ni i )X -X (-n S 12211,(放回抽样时), 21221111~S N-N )X -X ()N -N (-n S n i i ==∑=,(不放回抽样时), 从无偏性角度,2S (或2~S )优于2ˆσ.但从均方误差准则角度,2σˆ往往优于2S (或2~S ).在实际中人们往往不希望把总体方差估计得偏小,因此总体方差的估计常用2S (或2~S ).我们易得下面结论性质1.2.4 样本均值X 的方差)X (Var 的无偏估计为 n S S 22=,(放回抽样时), )Nn (n S S 2X -=1~2,（不放回抽样时）性质 1.2.5 在二分总体中,p 的估计X p=ˆ的方差)p (Var ˆ的无偏估计为 1ˆ1ˆˆ-n )p -(p S 2p =,(放回抽样时), )N n (-n )p -(p S 2p -=11ˆ1ˆˆ,(不放回抽样时) 如果我们知道了实际的总体方差2σ,那么可用σ来度量p,X ˆ的估计精度;如果总体方差2σ未知(实际中2σ通常未知),那用估计的标准误差替代他们,这是通常的做法.例 1.5 从医院总体中抽取一个样本容量为50的样本,并算得样本均值为5.938=x ,标准差为53.614=s .那么可得样本均值X 的方差的估计为 )1(ˆ22N n n s X-=σ6592= X 的估计标准误差是 19.81ˆ=X σ注意,真正的标准误差是 78392491507.589)(=-==X Var X σ例1.6 令p 为出院人数少于1000人的医院比例,从医院总体中抽取一个样本容量为50的样本,其中有26个医院出院人数少于1000.那么p 的估计值为52.05026ˆ==ppˆ的方差的估计为 0045.0)1()ˆ1(ˆˆ2ˆ=--=Nnn p p p σ pˆ的估计标准误差为 067.0ˆˆ=p σ以上例子说明通过简单随机抽样不仅可以得到未知的总体参数的估计,还可以利用样本数据的估计的标准误差刻画估计的误差水平.总结如下表:前面己经讨论了样本均值X 的期望与方差，在理想情况下，我们想知道X 的抽样分布，这样做就可以告诉我们估计精度的一切特征.然而，在没有总体本身的信息时，我们是不能确定抽样分布的.但由中心极限定理我们可以导出其近似分布----正态分布，这种近似可以用来计算估计误差的概率限.若随机变量序列 ,X ,,X ,X n 21独立同分布，且期望,EX i μ=方差2σ=i VarX ,记∑==ni i n X n X 11,那么中心极限定理知nX n /σμ-依分布收敛于标准正态分布)1,0(N .也即当n 充分大时,n X 近似服从正态分布)/,(2n N σμ.由以上结论可知,若n X ,,X ,X 21是从某总体中按放回的简单随机抽样方法得到的样本,总体均值和方差分别为μ和2σ,那么当样本容量n 充分大时,X 近似服从正态分布)/,(2n N σμ.若n X ,,X ,X 21是从某总体中按不放回的简单随机抽样方法得到的样本,此时情况所有不同,诸i X 并不独立,且让样本容量n 趋于无穷是没有意义的.但是当样本容量n 很大,且相对于N 仍很小时,X 近似服从正态分布),(2N σμ.由以上的近似分布,我们可以近似地计算用X 估计μ时误差小于某常数δ的概率)|δμ<-X P(|, )|δμ<-X P(|12-Φ≈)(Xσδ, 或)|δμ>-X P(|]1[2)(XσδΦ-≈ 例1.7 再次考虑医院总体,容量为64的样本均值的标准差为 5.67392631647.589)(=-==X Var X σ那么样本均值X 近似服从正态分布)5.67,(2μN ,这里814=μ为总体均值.由此可近似地计算出样本均值与总体均值的绝对偏差在100以上的概率)100|>-μX P (|138.0]5.671001[2=Φ-≈)(例1.8 续例1.6 p 的真实值为6540.,p 的估计值为520ˆ.p=,两者差距为134.0|ˆ=-p p|,下面近似计算两者的绝对偏差超过134.0的概率. 由于pˆ近似服从正态分布)064.0,(2p N ,因而 )134.0|ˆ>-p pP(|04.0]064.0134.01[2=Φ-≈)( 我们看到这样的样本非常“不幸”,超过这个误差的发生几率仅是4%.§1.3 比例的估计上一节简单随机抽样奠定了抽样调查的理论基础.在此基础上，这一节和下一节介绍抽样调查的一些高深话题.这一节，我们考虑比例估计，假设观察到总体成员的两个数值x 和y .感兴趣的是比例xy Ni iNi ixy r μμ==∑∑==11 这里∑==Ni i y y N 11μ，∑==N i i x x N 11μ比例在抽样调查中经常出现.例如，如抽取家庭，可以计算下面的比例：如果y 是家庭中年龄为20-30岁的失业男性人数，x 是家庭中年龄为20-30岁的男性人数，那么r 是年龄为20-30岁的男性失业比例. 如果y 是周食品消费支出，x 是家庭成员数，那么r 是人均家庭周食品消费支出.在农业调查中，y 可能是种植小麦亩数，x 是所有的亩数.等等. 下面考虑比例的估计问题，设有样本n ,,,i ),Y ,X i i 21=（，很自然地利用XYR =估计r .我们希望能推导出该估计量的期望E(R)和方差)R (Var 的表达式.但是由于R 是X 和Y 的非线性函数，得出期望E(R)和方差)R (Var 的显出表达式行不通.但可以得到他们近似式，下面不加证明地给出结论.性质1.3.1 在简单随机抽样下，XYR =的近似方差为 )r -r ()R Var(Y X Y X xσσσμ212222+≈)r -r ()-N -n -(nxy y x 2xσσσμ211111222+= 其中 )X (Var X =2σ，)Y (Var Y =2σ，)Y ,X (Cov Y X =σ∑==N i x i x)-x (N 1221μσ，∑==N i y i y )-y (N 1221μσ，∑==N i y i x i xy )-y )(-x (N 11μμσxy σ称为x 和y 的总体协方差.而总体相关系数定义为yx xyσσσρ=以上)R (Var 的近似式又可表示为 )r -r ()-N -n -(n)R (Var y x y x 2xσρσσσμ211111222+≈ 由以上近似结果可以看出，R 的方差取决于多种因素，其中的因素之一是x 与y 的相关性，x 与y 具有强的正相关性时，会减少方差.x μ是影响方差的另一因素，||x μ越小，方差越大，这也好理解，因此||x μ越小，比率XYR =的波动幅度会变大. 性质1.3.2 在简单随机抽样下，XYR =的近似期望为 )-r ()-N -n -(n r E(R)y x x xσρσσμ2211111+≈由以上近似结果可以看出，R 不是r 的无偏估计，其偏差的阶是n /1，所以它对均方误差的贡献是21n /，而方差的阶是n /1，因此对于大样本而言，估计的标准误差主要取决于方差，而偏差可忽略不计. 在大样本下，R 近似服从正态分布.利用近似分布，我们可以构造r 的置信区间.也可以找出这种估计的误差的概率限.为了估计R 的标准误差或者说为了具体地计算出R 的标准误差.还必须估计出x μ，22y x ,σσ以及ρ,r .前三者分别用2x S ,X 和2y S 估计，r 用R 估计.为估计ρ，我们先对总体协方差作如下估计：∑==n i i i xy )Y -)(Y X -X (-n S 111 那么ρ的估计为yx xy S S S =ρˆ因此R 的估计方差为)S S R -S S R (X)-N -n -(n S y x y x Rρˆ21111122222+≈ r 的近似α-1的置信区间为R S U R 2/1α-±.例1.9 假设调查了100个最近购房的居民，得到每个购房者的每月按揭付款额和月总收入。

数理统计第一章

概率论与数理统计 第一章1.1随机事件

医用数理统计方法课件第一章

高等数理统计笔记

数理统计教程课后重要答案习题

数理统计(第一章)

数理统计第一章

应用数理统计(基于MATLAB实现)第1章 数理统计的基本概念

01第一章 数理统计的基础知识

概率论与数理统计第一章1.1随机事件

应用数理统计(基于MATLAB实现)第1章数理统计的基本概念

01第一章数理统计的基础知识