数理统计学:统计量与抽样分布
数理统计基础公式详解样本统计量与抽样分布

数理统计基础公式详解样本统计量与抽样分布数理统计作为一门重要的学科,为我们分析和理解数据提供了基础和方法。
在数理统计中,样本统计量和抽样分布是两个关键概念。
本文将详细解释这些概念,并介绍相关的公式和定理。
一、样本统计量样本统计量是从数据样本中计算得到的数值,用于描述总体的特征。
常用的样本统计量有平均值、方差、标准差、相关系数等。
下面我们将详细介绍这些统计量以及它们的计算公式。
1. 平均值平均值是一组数据的总和除以观测数量,用于衡量数据的集中趋势。
样本平均值的计算公式如下:\[ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]其中,\( \overline{x} \) 表示样本平均值,\( x_i \) 表示第 i 个观测值,n 表示观测数量。
2. 方差方差衡量了一组数据的离散程度,它表示各观测值与平均值之差的平方和的平均值。
样本方差的计算公式如下:\[ S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1} \]其中,\( S^2 \) 表示样本方差,\( x_i \) 表示第 i 个观测值,\( \overline{x} \) 表示样本平均值,n 表示观测数量。
3. 标准差标准差是方差的平方根,用于衡量数据的离散程度。
样本标准差的计算公式如下:\[ S = \sqrt{S^2} \]其中,S 表示样本标准差,\( S^2 \) 表示样本方差。
4. 相关系数相关系数衡量了两个变量之间的线性关系的强弱和方向。
样本相关系数的计算公式如下:\[ r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i -\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \]其中,r 表示样本相关系数,\( x_i \) 和 \( y_i \) 分别表示第 i 个观测值的两个变量,\( \overline{x} \) 和 \( \overline{y} \) 分别表示两个变量的样本平均值,n 表示观测数量。
概率论与数理统计(06)第6章 统计量及其抽样分布

σx =
σ
n
当样本容量足够 大时( 大时(n ≥ 30) , 样本均值的抽样 分布逐渐趋于正 态分布
6 - 11
µx = µ
xቤተ መጻሕፍቲ ባይዱ
x 的分布趋 于正态分布 的过程
6 - 12
6.4 正态总体 6.3.1 χ2分布 6.3.2 t 分布 6.3.3 F 分布
6 - 13
χ2 分布
第六章 样本与统计量
6.1引言 6.1引言
数理统计学: 运用概率论的基础知识,对要研究的随机现象进行 多次观察或试验,研究如何合理地获得数据资料, 建立有效的数学方法,根据所获得的数据资料,对 所关心的问题作出估计与检验。
6-1
§6.2总体与样本 6.2总体与样本
对某一问题的研究对象全体称为总体。 组成总体的某个基本单元,称为个体。 总体可以是具体事物的集合,如一批产品。 也可以是关于事物的度量数据集合,如长度测量。 总体可以包含有限个个体,也可以包含无限个个体。 有限总体在个体相当多的情况下,可以作为无限 总体进行研究。 总体中的个体,应当有共同的可观察的特征。该 特征与研究目的有关。
6 - 16
χ2分布
(图示) 图示)
n=1 n=4 n=10
n=20
6 - 17 不同容量样本的抽样分布
χ2
t 分布
6 - 18
t 分布
1. 高 塞 特 (W.S.Gosset) 于 1908 年 在 一 篇 以 (W. “Student”(学生)为笔名的论文中首次提出 Student”(学生)
X ~ N(µ,σ ) ,则
2
χ2分布
2. 3.
z=
X −µ
Y=z
概率论与数理统计第六章统计量,样本及抽样分布

(2) X 1
~
2 (n1 ),
X2
~
2 (n2 ),
X1,
X
独
2
立
,
则
X 1 X 2 ~ 2 (n1 n2 ).
(3) X ~ 2 (n), E( X ) n, D( X ) 2n,
.
2021/3/11
20
(4). 2分布的分位点
对于给定的正数,0 1,
称满足条件
P
2 2 (n)
k 1
,
X
k 2
,,
X
k n
独立且与X
k同分布,
E
(
X
k i
)
k
k 1,2,,n 再由辛钦大数定律可得上述结论.
再由依概率收敛性质知,可将上述性质推广为
g( A1, A2 ,, Ak ) p g(1,2 ,,k ) 其中g为连续函数.
这就是矩估计法的理论根据.
2021/3/11
18
皮肌炎图片——皮肌炎的症状表现 数理统计
10
3. 总体、样本、样本值的关系
事实上我们抽样后得到的资料都是具体的、确 定的值. 如我们从某班大学生中抽取10人测量身高, 得到10个数,它们是样本取到的值而不是样本. 我 们只能观察到随机变量取的值而见不到随机变量.
2021/3/11
11
总体(理论分布) ?
样本
样本值
统计是从手中已有的资料--样本值,去推断总 体的情况---总体分布F(x)的性质.
2. t分布的密度函数关于t 0对称.当n充分大时, 其图形近似于标准正态分布概率密度的图形,
再由函数的性质有
lim h(t)
n
1 et2 2. 2
《概率论与数理统计》统计量及其分布

但数理统计以概率论为基础,更着重于根据试验得
到的数据来对研究对象的客观规律作出种种合理的估
计和判断.
4
第5章
统计量及其分布
数
描述统计学
理
对随机现象进行观测、试验, 以取得有代表
统
性的观测值.
计
的
推断统计学
分
对已取得的观测值进行整理、分析, 作出推
类
断、决策,从而找出所研究的对象的规律性.
O
5
n 10
10
15
20
x
32
01
抽样分布
2. t 分布
2
X
~
N
(0,1)
,
Y
~
x
(n),且X与Y 独立,则
设随机变量
X
T
Y /n
服从自由度为n的t分布,记为t(n).
性质 密度f(t)是偶函数,且t分布的极限分布是标准正
态分布.
33
01
抽样分布
t分布的密度函数
n 1
n 1
那么如何来利用样本呢?
列表?
画图?
统计量!
样本来自于总体,含有总体性质的信息,但较为分
散. 为了进行统计推断,需要把分散的信息进行整理,
针对不同的研究目的,构造不同的样本函数,这种函
数在统计学中称为统计量.
18
本讲内容
01
总体与个体
02
样本
03
统计量
03
统计量
3.统计量
统计量——不含有未知参数的样本函数
f ( x)
n1
n2
x
概率论与数理统计教案统计量和抽样分布

概率论与数理统计教案-统计量和抽样分布一、教学目标1. 理解统计量的概念,掌握常见统计量的计算方法。
2. 了解抽样分布的定义,掌握正态分布、t分布、卡方分布等常见抽样分布的特点及应用。
3. 学会使用抽样分布进行假设检验和置信区间的估计。
二、教学内容1. 统计量的概念及计算方法统计量的定义样本均值、样本方差、样本标准差等常见统计量2. 抽样分布的定义及特点抽样分布的定义正态分布、t分布、卡方分布等常见抽样分布的特点3. 抽样分布的应用假设检验置信区间的估计三、教学方法1. 讲授法:讲解统计量的概念、计算方法,抽样分布的定义及特点。
2. 案例分析法:通过具体案例,让学生学会使用抽样分布进行假设检验和置信区间的估计。
3. 互动教学法:引导学生参与课堂讨论,提问、解答问题,提高学生的积极性和主动性。
四、教学步骤1. 引入统计量的概念,讲解样本均值、样本方差、样本标准差等常见统计量的计算方法。
2. 讲解抽样分布的定义,介绍正态分布、t分布、卡方分布等常见抽样分布的特点及应用。
3. 通过具体案例,让学生学会使用抽样分布进行假设检验和置信区间的估计。
五、课后作业1. 复习本节课的内容,整理笔记。
2. 完成课后习题,加深对统计量和抽样分布的理解。
3. 选择一个感兴趣的话题,运用抽样分布进行实际问题的分析。
六、教学评估1. 课堂提问:通过提问了解学生对统计量和抽样分布的理解程度。
2. 课后习题:检查学生对课堂内容的掌握情况。
3. 实际案例分析:评估学生运用抽样分布解决实际问题的能力。
七、拓展与延伸1. 引导学生探讨抽样分布在其他领域的应用,如经济学、生物学等。
2. 介绍与抽样分布相关的高级主题,如非参数统计、贝叶斯统计等。
3. 鼓励学生参加相关竞赛、研究项目,提高实践能力。
八、教学资源1. 教材:概率论与数理统计相关教材。
2. 课件:PPT课件,辅助学生理解统计量和抽样分布的概念及应用。
3. 案例资料:提供具体案例,方便学生学会使用抽样分布进行假设检验和置信区间的估计。
第十六讲(数理统计中常用的分布、抽样分布定理)

3 n足够大 时, (n)近似服从• (n,2n) N
2
证
1设
2 (n) X i2
i 1
n
X i ~ N (0,1) i 1,2, , n
X 1 , X 2 , , X n
相互独立,
2 i
则 E ( X i ) 0, D( X i ) 1, E ( X ) 1
•2
P{ X z } 1
-z= z1-
例1 求
z0.05 , z0.025 , z0.005 , z0.95 .
解: P{ X 1.645} 0.05, P{ X 1.96} 0.05, P{ X 2.575} 0.005.
z0.05 1.645 , z0.025 1.96 , z0.005 2.575
0.4 0.3 0.2 0.1
n= 1 n=20
-3
-1
1
2
3
t 分布的图形(红色的是标准正态分布)
t分布的性质: 1. t分布的密度函数关于t 0对称.当n充分大时, 其图形近似于标准正态分布概率密度的图形, 1 t 2 2 再 由函数的性质有 lim f (t ) 2 e . n
~ ( n2 ), U
2
与V 相互
U n1 F V n2
服从自由度为n1及 n2 的F分布,n1称为 第 一自由度,n2称为第二自由度,记作
F~F(n1,n2) . 由定义可见,
1 V n2 ~F(n2,n1) F U n1
若F~F(n1,n2), F的概率密度为
( n1 n2 ) n n1 n21 1 n n 2 n ( n1 ) 2 ( y ) 1 n1 y 2 ( y ) ( 1 ) ( 2 ) 2 2 2 0
三大抽样分布及常用统计量的分布

(n1
1) S12
2
~
2
(n1
1),
(n2
1)S
2 2
2
~
2
(n2
1)
且S12与S22相互独立,由 2分布的性质知
(n1 1)S12
2
(n2 1)S22
2
~ 2 (n1
n2
2)
再由定义3知
T
X
Y Sn
(1
1 n1
1
2
)
~t(n1
n2
n2
- 2)
t 分布的上侧分位点
对于给定的 (0< <1),称满足条件
X
2 i
.
i2
i4
解 (1) 因为Xi~N(0,1),i=1, 2, …, n. 所以
X1-X2 ~N(0, 2),
X
2 3
X
2 4
~
2(2),
X1
X2 2
~
N(0,1),
故
X1 X2
X
2 3
X
2 4
(X1
X
X 2)
2 3
X
2 4
2
~t(2).
2
例1 设总体X~N(0,1), X1,X2,…,Xn为简单
/2
/2
- t/2(n) O t/2(n) t
图5-8
在附表4 (P256)中给出了t分布的临界值表.
例如,当n=15,=0.05时,查t分布表得,
t0.05(15)= 1.753
t0.05/2(15)= 2.131
其中t0.05/2(15)由P{t(15)≥t0.025(15)}=0.025查得.
4.3抽样分布

(3) X与S2相互独立
(4) X ~ t(n 1)
Sn
已知, 2未知
(5) n ( Xi )2 ~ 2 (n)
i1
已知
LOGO
例1 设总体X 服从正态分布N (12, 2 ), 抽取容量为
25的样本,求样本均值X大于12.5的概率.如果(1)已
知 12;(2)未知,但已知样本方差S2 3.6.
n1 n2
服
从
F(n1,
n
)
2
分
布
.
LOGO
4.3.2 正态总体的抽样分布
由于要求具体抽样分布是困难的,有时甚至是不可 能的。正态总体的抽样分布有详尽的研究,本节主要 学习正态总体的抽样分布。
掌握正态分布、 2分布、t分布、F分布的一些结论
对于正态总体抽样分布的学习非常有用. 主要学习单个正态总体的抽样分布以及多个正态总
i1
于是P
10
i1
Xi 2
4
P
1 0.52
10 i1
Xi2
16
查表求02.10(10) 16.由此可得
P
10 i1
Xi
2
4
0.10.
(2) 由题设及定理4.3.2, 9S 2
0.52
10
P i1
(Xi
X )2
1
2.85
P
0.52
10 i1
查表得02.25(9) 11.4,由此可求得
n
n
该定理的证明由正态分布的性质3.1.10可得。
注意:当样本来自非正态总体时,若总体均值为,方差 为 样 本量2(充有分限大且时不,X为近零似)服,从由N中(心, 极)2.限定理可以证明当
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1 总体和样本 1.2 统计量与估计量 1.3 抽样分布 1.4 次序统计量 1.5 充分统计量 1.6 常用的概率分布族
数理统计学 是探讨随机现象统计规律性的一门学科, 它以概率论为理论基础,研究如何以有效的方式收集、 整理和分析受到随机因素影响的数据,从而对所研究对 象的某些特征做出判断。
1.1.2 样本
(2) 抽样, 即从总体抽取若干个个体进行检查或观察,用所 获得的数据对总体进行统计推断。 由于抽样费用低,时间 短,实际使用频繁。本书将在简单随机抽样的基础上研究各 种合理的统计推断方法,这是统计学的基本内容。应该说, 没有抽样就没有统计学
1.1.2 样本
• 从总体中抽出的部分(多数场合是小部分)个体组成的集合 称为样本。
(2)
(n 1)s2
2
~χ2(n-1);
(3) x与s2相互独立。
1.3.2 样本方差的抽样分布
例1.3.3
分别从正态总体N(μ1,σ2)和N(μ2,σ2)中抽取容
量为n1和n2的两个独立样本,其样本方差分别
为
s2 1
和
s2 2
。
(1)证明:对α∈(0,1),
s s s 2 2 (1) 2
Fn(x)依概率收敛于F(x)
1.2.3 样本的经验分布函数及样本矩
定理1.2.1(格里汶科定理)
对任给的自然数n,设x1,x2,…,xn是取自总体分布函数F(x) 的一组样本观察值,Fn(x)为其经验分布函数,记
则有
Dn sup Fn x F x
x
P
lim
n
Dn
0
1
1.2.3 样本的经验分布函数及样本矩
0
Fn x k / n
1
x x1 xk x xk1; k 1, x xn
,n 1
则称Fn(x)为该样本的经验分布函数。
1.2.3 样本的经验分布函数及样本矩
例1.2.5 某食品厂生产午餐肉罐头,从生产线上随机抽取5只罐头,称 其净重(单位:g)为: 351, 347, 355, 344, 351 计算其经验分布函数。
4. 消除样本量的影响 ·样本方差 ·例1.2.2
5. 样本修正方差 ·无偏估计
6. 样本标准差 ·无偏性不具有不变性 ·例1.2.3
1.2.2 估计量
7. 偏差平方和的计算 ·平移不变性
8. 分组样本 ·例1.2.4
1.2.3 样本的经验分布函数及样本矩
1. 经验分布函数
定义1.2.4
设总体X的分布函数为F(x),从中获得的样本观察值为 x1,x2,…,xn。将它们从小到大排序重新编号为x(1),x(2),…,x(n), 又称为有序样本。令
例1.0.1
某地环境保护法规定:倾入河流的废水中某种有毒物质 的平均含量不得超过3ppm(1ppm=10-6)。该地区环保组 织对某厂倾入河流的废水中该有毒物质含量连续进行 20天测定,记录了20个数据(单位:ppm):
x1, x2, …, x20 现要用这20个数据作如下统计推断:
● 该有毒物质含量X的分布是否为正态分布?
例1.1.1 网上购物已在我国很多城市兴起。为了解网上购物情 况,特在某市调查如下三个问题: 1.网上购物居民占全市居民的比例; 2.过去一年内网购居民的购物次数; 3.过去一年内网购居民的购物金额。
1.1.1 总体和分布
例1.1.2
彩色浓度是彩电质量好坏的一个重要指标。20世纪70年代 在美国销售的SONY牌彩电有两个产地:美国和日本,两地的 工厂按照同一设计、同一工艺、同一质量标准进行生产。 其彩色浓度的标准值为m,允许范围是(m-5,m+5),否则为不 合格。在70年代后期,美国消费者购买日产SONY彩电的热 情明显高于购买美产SONY彩电,这是为什么呢?
1.3 抽样分布
定义1.3.1 统计量的概率分布称为抽样分布。
具体可以分为: ①精确(抽样)分布。 ②渐近(抽样)分布。 ③近似(抽样)分布。
1.3.1 样本均值的抽样分布
定理1.3.1 设x1,x2,…,xn是来自某个总体的样本, x为其 样本均值。
(1)若总体分布为N(μ,σ2),则 x 的精确分布为N(μ,σ2/n); (2)若总体分布未知或不是正态分布,但E(x)=μ, Var(x)=σ2
1.1.1 总体和分布
一维总体 二维或多维总体(联合概率分布) 有限总体(抽样调查) 无限总体(本书)
1.1.2 样本
研究总体分布及其特征数有如下两种方法:
(1) 普查, 又称全数检查,即对总体中每个个体都进行检查 或观察。因普查费用高,时间长,不常使用,破坏性检查(如灯 泡寿命试验)更不会使用。只有在少数重要场合才会使用普 查。如我国规定每十年进行一次人口普查,期间九年中每年 进行一次人口抽样调查。
xi x
2
3. 样本标准差: s s2
1.2.2 估计量
在剖析样本方差的构造中讨论这三个统计量的优劣。 1. 样本均值是总体期望的无偏估计 2. 样本偏差 ·自由度:n-1 3. 偏差平方和 ·例1.2.1 ·样本量相等的情况下,偏差平方和大小可以比较出 样本散布的大小。
1.2.2 估计量
● 若是正态分布N(μ,σ2),其参数μ和σ2如何估计?
● 对命题“μ≤3.0”(符合排放标准)作出判断:是或 否。
1.1 总体和样本
1.1.1 总体和分布
在一个统计问题的研究中,我们把研究对象的全体称为 总体,其中每个成员称为个体。
人、物
某个指标(一堆数) 概率分布
某总体抽样
某分布抽样
1.1.1 总体和分布
• 样本中所含的个体称为样品。
• 样本中样品个数称为样本量或样本容量。
• 一切可能观察值的全体X={(x1,x2,…,xn)}称为n维样本空间。
1.1.2 样本
例1.1.3 样本的例子
1. 香港海洋公园的一次性门票为250港币,可以一年内无限 次入场的年票价格为695港币。为检验该票价制度的合理 性,随机抽取1000位年票持有者,记录了他们2009年1—4月 入园游览的次数,见表1.1.2。
m 1 2
y 2
,
y
0
2
卡方分布的期望与方差。
1.3.2 样本方差的抽样分布
多维随机变量的期望与方差。 定理1.3.2 设在两个n维随机向量X=(x1,x2,…,xn)'
与Y=(y1,y2,…,yn)'间有一个线性变换Y=AX,其中 A=(aij)为一个n×n阶方阵,则它们的期望向量和方差 协方差阵之间有如下关系:
则称为θ的无偏估计,否则称为 θ的有偏估计。
当估计将随着样本量n的增加而逐渐趋于其真值θ,这时
若记ˆ ˆn ,则有
lim E ˆ ,
n
则称ˆn 为θ的渐近无偏估计。
1.2.2 估计量
在统计中三个常用统计量是:
1.
样本均值:
x
1 n
n
xi
i 1
2. 样本方差:
s2 1 n
n 1 i1
2. 直方图
1.2 统计量与估计量
1.2.1 统计量
定义1.2.1 不含任何未知参数的样本函数称为统计量
样本均值
1.2.2 估计量
在对总体分布作出假定下,从样本对总体的某些特征作 出一些推理,此种推理都具有统计学的味道,故称为统计推 断。R.A.费希尔把统计推断归为如下三大类:
● 抽样分布(精确的与近似的); ● 参数估计(点估计与区间估计); ● 假设检验(参数检验与非参数检验)。
表1.1.2
游览次数
0
1
2
3
4
5+
人数
545
325
110
15
5
0
这是一个容量为1000的样本。 Nhomakorabea1.1.2 样本
2. 某厂生产的挂面包装上说明“净含量450克”,随机抽取 48包,称得重量如表1.1.3所示。 表1.1.3
449.5 461 457.5 444.7 456.1 454.7 441.5 446.0 454.9 446.2 446.1 456.7 451.4 452.5 452.4 442.0 452.1 452.8 442.9 449.8 458.5 442.7 447.9 450.5 448.3 451.4 449.7 446.6 441.7 455.6 451.3 452.9 457.2 448.4 444.5 443.1 442.3 439.6 446.5 447.2 449.4 441.6 444.7 441.4 457.3 452.4 442.9 445.8
这是一个容量为48的样本。
1.1.2 样本
3. 在某林区,随机抽取340株树木测量其胸径,经整理后得到 如表1.1.4所示的数据。
表1.1.4
胸(c径 度m长) 10~14 14~18 18~22 22~26 26~30 30~34 34~38 38~42 42~46
株数
4
11
34
76
112
66
22
图1.3.1 总体及其四个样本的样本均值
1.3.1 样本均值的抽样分布
例1.3.2 下图给出三个不同总体均值样本的分布,三个总体分别
是:(1)均匀分布;(2)倒三角分布;(3)指数分布。随着样本 量的增加,样本均值 的抽样分布逐渐向正态分布逼近, 它们的均值保持不变,而方差则缩小为原来的1/n。当样 本量为30时,我们看到三个抽样分布都近似于正态分布。 样本量的计算。
10
5
这是一个容量为340的样本。
1.1.2 样本
简单随机抽样,它满足如下两个要求: 1. 随机性:即要求总体中每个个体都有同等的机会被 选到样本中。 2. 独立性:样本中每个个体的选取并不影响其他个体 的选取。