统计量与抽样分布

合集下载

数理统计基础公式详解样本统计量与抽样分布

数理统计基础公式详解样本统计量与抽样分布

数理统计基础公式详解样本统计量与抽样分布数理统计作为一门重要的学科,为我们分析和理解数据提供了基础和方法。

在数理统计中,样本统计量和抽样分布是两个关键概念。

本文将详细解释这些概念,并介绍相关的公式和定理。

一、样本统计量样本统计量是从数据样本中计算得到的数值,用于描述总体的特征。

常用的样本统计量有平均值、方差、标准差、相关系数等。

下面我们将详细介绍这些统计量以及它们的计算公式。

1. 平均值平均值是一组数据的总和除以观测数量,用于衡量数据的集中趋势。

样本平均值的计算公式如下:\[ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]其中,\( \overline{x} \) 表示样本平均值,\( x_i \) 表示第 i 个观测值,n 表示观测数量。

2. 方差方差衡量了一组数据的离散程度,它表示各观测值与平均值之差的平方和的平均值。

样本方差的计算公式如下:\[ S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1} \]其中,\( S^2 \) 表示样本方差,\( x_i \) 表示第 i 个观测值,\( \overline{x} \) 表示样本平均值,n 表示观测数量。

3. 标准差标准差是方差的平方根,用于衡量数据的离散程度。

样本标准差的计算公式如下:\[ S = \sqrt{S^2} \]其中,S 表示样本标准差,\( S^2 \) 表示样本方差。

4. 相关系数相关系数衡量了两个变量之间的线性关系的强弱和方向。

样本相关系数的计算公式如下:\[ r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i -\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \]其中,r 表示样本相关系数,\( x_i \) 和 \( y_i \) 分别表示第 i 个观测值的两个变量,\( \overline{x} \) 和 \( \overline{y} \) 分别表示两个变量的样本平均值,n 表示观测数量。

概率论与数理统计(06)第6章 统计量及其抽样分布

概率论与数理统计(06)第6章  统计量及其抽样分布
一个任意分 布的总体
σx =
σ
n
当样本容量足够 大时( 大时(n ≥ 30) , 样本均值的抽样 分布逐渐趋于正 态分布
6 - 11
µx = µ
xቤተ መጻሕፍቲ ባይዱ
x 的分布趋 于正态分布 的过程
6 - 12
6.4 正态总体 6.3.1 χ2分布 6.3.2 t 分布 6.3.3 F 分布
6 - 13
χ2 分布
第六章 样本与统计量
6.1引言 6.1引言
数理统计学: 运用概率论的基础知识,对要研究的随机现象进行 多次观察或试验,研究如何合理地获得数据资料, 建立有效的数学方法,根据所获得的数据资料,对 所关心的问题作出估计与检验。
6-1
§6.2总体与样本 6.2总体与样本
对某一问题的研究对象全体称为总体。 组成总体的某个基本单元,称为个体。 总体可以是具体事物的集合,如一批产品。 也可以是关于事物的度量数据集合,如长度测量。 总体可以包含有限个个体,也可以包含无限个个体。 有限总体在个体相当多的情况下,可以作为无限 总体进行研究。 总体中的个体,应当有共同的可观察的特征。该 特征与研究目的有关。
6 - 16
χ2分布
(图示) 图示)
n=1 n=4 n=10
n=20
6 - 17 不同容量样本的抽样分布
χ2
t 分布
6 - 18
t 分布
1. 高 塞 特 (W.S.Gosset) 于 1908 年 在 一 篇 以 (W. “Student”(学生)为笔名的论文中首次提出 Student”(学生)
X ~ N(µ,σ ) ,则
2
χ2分布
2. 3.
z=
X −µ
Y=z

第6章-统计量及其抽样分布

第6章-统计量及其抽样分布
2、计算出每个样本的统计量值; 3、将来自不同样本的不同统计量值分组排列,把
对应于每个数值的相对出现频数排成另一列, 由此,全部可能的样本统计量值形成了一个概 率分布,这个分布就是我们想要得到的抽样分 布。
样本均值的抽样分布 与中心极限定理
当总体服从正态分布N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值x也服从正态分布,x 的数
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
样本均值的抽样分布
所有样本均值的均值和1.0 1.5 4.0 16
2.5 m
n
(xi mx )2
s
2 x
i 1
M
M为样本数目
(1.0 2.5)2
(4.0 2.5)2
s2
0.625
16
n
1. 样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的1/n
从检查一部分得知全体。
复习 抽样方法
抽样方式
概率抽样
非概率抽样
简单随机抽样 整群抽样
多阶段抽样
分层抽样 系统抽样
方便抽样 自愿样本 配额抽样
判断抽样 滚雪球抽样
6.2.1 抽样分布 (sampling distribution)
1. 样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有可 能取值形成的相对频数分布
2. 随机变量是 样本统计量
样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行推 断的理论基础,也是抽样推断科学性的重要依据
抽样分布的形成过程 (sampling
distribution)

统计学 统计量及其抽样分布

统计学 统计量及其抽样分布

定义:设随机变量X1,X2,…Xn相互独立,且Xi
服从标准正态分布N(0,1),则它们的平方和 n

X
2 i
服从自由度为n的c2分布。
i 1
c2分布主要适用于拟合优度的检验、独立性检 验以及对总体方差的估计和检验。
卡尔·皮尔逊(Karl Pearson)是英国著名的统 计学家、生物统计学家、 应用数学家,又是名副其 实的历史学家、科学哲学 家、伦理学家、民俗学家 、人类学家、宗教学家、 优生学家、弹性和工程问 题专家、头骨测量学家, 也是精力充沛的社会活动 教育改革家、社会主义 家、律师、自由思想者、 者、妇女解放的鼓吹者、 婚姻和性问题的研究者, 亦是受欢迎的教师、编 辑、文学作品和人物传 记的作者.

(n 1)s 2 ~ c 2 (n 1) 2
6.7.2 两个样本方差比的分布
1. 两 个 总 体 都 为 正 态 分 布 , 即 X1~N(μ1 ,σ12) , X2~N(μ2 ,σ22 )
2. 从两个总体中分别抽取容量为n1和n2的独立样本
3. 两个样本方差比的抽样分布,服从分子自由度为 (n1-1),分母自由度为(n2-1) 的F分布,即
复抽样条件下,共有42=16个样本。所有样本的 结果如下表
所有可能的n = 2 的样本(共16个)
第一个
第二个观察值
观察值
1
2
3
4
1
1,1 1,2 1,3 1,4
2
2,1 2,2 2,3 2,4
3
3,1 3,2 3,3 3,4
4
4,1 4,2 4,3 4,4
计算出各样本的均值,如下表。并给出样 本均值的抽样分布
n
x

概率论与数理统计教案统计量和抽样分布

概率论与数理统计教案统计量和抽样分布

概率论与数理统计教案-统计量和抽样分布一、教学目标1. 理解统计量的概念,掌握常见统计量的计算方法。

2. 了解抽样分布的定义,掌握正态分布、t分布、卡方分布等常见抽样分布的特点及应用。

3. 学会使用抽样分布进行假设检验和置信区间的估计。

二、教学内容1. 统计量的概念及计算方法统计量的定义样本均值、样本方差、样本标准差等常见统计量2. 抽样分布的定义及特点抽样分布的定义正态分布、t分布、卡方分布等常见抽样分布的特点3. 抽样分布的应用假设检验置信区间的估计三、教学方法1. 讲授法:讲解统计量的概念、计算方法,抽样分布的定义及特点。

2. 案例分析法:通过具体案例,让学生学会使用抽样分布进行假设检验和置信区间的估计。

3. 互动教学法:引导学生参与课堂讨论,提问、解答问题,提高学生的积极性和主动性。

四、教学步骤1. 引入统计量的概念,讲解样本均值、样本方差、样本标准差等常见统计量的计算方法。

2. 讲解抽样分布的定义,介绍正态分布、t分布、卡方分布等常见抽样分布的特点及应用。

3. 通过具体案例,让学生学会使用抽样分布进行假设检验和置信区间的估计。

五、课后作业1. 复习本节课的内容,整理笔记。

2. 完成课后习题,加深对统计量和抽样分布的理解。

3. 选择一个感兴趣的话题,运用抽样分布进行实际问题的分析。

六、教学评估1. 课堂提问:通过提问了解学生对统计量和抽样分布的理解程度。

2. 课后习题:检查学生对课堂内容的掌握情况。

3. 实际案例分析:评估学生运用抽样分布解决实际问题的能力。

七、拓展与延伸1. 引导学生探讨抽样分布在其他领域的应用,如经济学、生物学等。

2. 介绍与抽样分布相关的高级主题,如非参数统计、贝叶斯统计等。

3. 鼓励学生参加相关竞赛、研究项目,提高实践能力。

八、教学资源1. 教材:概率论与数理统计相关教材。

2. 课件:PPT课件,辅助学生理解统计量和抽样分布的概念及应用。

3. 案例资料:提供具体案例,方便学生学会使用抽样分布进行假设检验和置信区间的估计。

数理统计学:统计量与抽样分布

数理统计学:统计量与抽样分布
主要内容
1.1 总体和样本 1.2 统计量与估计量 1.3 抽样分布 1.4 次序统计量 1.5 充分统计量 1.6 常用的概率分布族
数理统计学 是探讨随机现象统计规律性的一门学科, 它以概率论为理论基础,研究如何以有效的方式收集、 整理和分析受到随机因素影响的数据,从而对所研究对 象的某些特征做出判断。
1.1.2 样本
(2) 抽样, 即从总体抽取若干个个体进行检查或观察,用所 获得的数据对总体进行统计推断。 由于抽样费用低,时间 短,实际使用频繁。本书将在简单随机抽样的基础上研究各 种合理的统计推断方法,这是统计学的基本内容。应该说, 没有抽样就没有统计学
1.1.2 样本
• 从总体中抽出的部分(多数场合是小部分)个体组成的集合 称为样本。
(2)
(n 1)s2
2
~χ2(n-1);
(3) x与s2相互独立。
1.3.2 样本方差的抽样分布
例1.3.3
分别从正态总体N(μ1,σ2)和N(μ2,σ2)中抽取容
量为n1和n2的两个独立样本,其样本方差分别

s2 1

s2 2

(1)证明:对α∈(0,1),
s s s 2 2 (1) 2
Fn(x)依概率收敛于F(x)
1.2.3 样本的经验分布函数及样本矩
定理1.2.1(格里汶科定理)
对任给的自然数n,设x1,x2,…,xn是取自总体分布函数F(x) 的一组样本观察值,Fn(x)为其经验分布函数,记
则有
Dn sup Fn x F x
x
P
lim
n
Dn
0
1
1.2.3 样本的经验分布函数及样本矩
0
Fn x k / n

统计学 第6章 统计量及其抽样分布

样本均值,样本比例,样本方差等
1. 样本统计量的概率分布,是一种理论分布

2. 随机变量是样本统计量

3. 结果来自容量相同的所有可能样本 4. 提供了样本统计量长远而稳定的信息,是进行 推断的理论基础,也是抽样推断科学性的重要 依据
6 - 8 / 55
统计学
STATISTICS (第五版)
重要统计量
1.样本均值:
n 1 若X ~ N(, 2), X X i, n i 1
1 n 1 则E X EX i ,D X 2 n i 1 n 2.样本方差:
n 1 2 S2 ( X X ) i n 1 i 1
1 1 2 2 DX i 2 n n n i 1
X ~ (n)
2
6 - 13 / 55
统计学
STATISTICS (第五版)
2分布
(图示)
n=1 n=4 n=10
n=20
6 - 14 / 55
不同容量样本的抽样分布
2
统计学
STATISTICS (第五版)
2 分布:
定理:如果随机变量 X1, X 2, , X n 相互独立,且都服从 同一正态分布
6.1.1 6.1.2 6.1.3 6.1.4
6 - 4 / 55
统计学
STATISTICS (第五版)
统计量
(statistic)
1. 设 X1,X2,…,Xn 是从总体 X中抽取的容量为 n的一个样本,如果由此样本构造一个函 数 T(X1,X2,…,Xn) ,不依赖于任何未知参 数,则称函数 T(X1,X2,…,Xn) 是一个统计 量
6 - 2 / 55
统计学
STATISTICS (第五版)

第六章 统计量及其抽样分布


样本均值的抽样分布
样本均值的抽样分布
1. 容量相同的所有可能样本的样本均值的概率分 布
2. 一种理论概率分布 3. 进行推断总体总体均值的理论基础
样本均值的抽样分布
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。 总体的均值、方差及分布如下

第 一
16个样本的均值(x)

第二个观察值
观 察值1 2
3
4
11
1.
20.

52. 0.
5
21
2.
25.

03. 5.
0
23
2.
30.

53. 0.
5
24
3.
35.

04. 5.
0
.3 P (X ) .2 .1 0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
第六章 统计量及其抽样分布
抽样理论依据: 1、大数定律 (1)独立同分布大数定律:证明当N足够大时,平均数据有稳定性,为用样本平 均数估计总体平均数提供了理论依据。 (2)贝努力大数定律:证明当n足够大时,频率具有稳定性,为用频率代替概率 提供了理论依据 2、中心极限定律 (1)独立同分布中心极限定律:设从均值为u、方差为s2(有限)的任意一个总体 中抽取样本量为n的样本,但n充分大时,样本均值X的抽样分布近似服从均值为u, 方差为s2/n的正态分布。 (2)德莫佛-拉普拉斯中心极限定律:证明属性总体的样本数和样本方差,在n足 够大时,同样趋于正态分布。
(central limit theorem)

《概率统计简明教程》第二版(第8章-统计量与抽样分布)统计与统计学、统计量、抽样分布


《概率统计简明教程》第二版
第八章 统计量与抽样分布
三、什么是统计学
◆短期的机遇变异
重复投掷一枚均匀硬币六次,观察每次出现的面: (1)正反正反反正 (2)反反反正正正 (3)正反反反反反
直觉认为结果(1)是随机的,结果(2)和结果 (3)很不随机。 从概率的观点认为结果(1)、(2)、(3)的发 生有相同的概率,因而没有哪一个结果比其他结果更多 一点或少一点随机性。
《概率统计简明教程》第二版
第八章 统计量与抽样分布
◆变异性(Variablity)
统计数据和统计资料具有变异性, 即个体之间有 差异,而对同一个体的多次观察,其结果也会不一样, 并且几乎每一次观察都随着时间的不同而改变,因而变 异性是一个重要的统计观念。 抽样结果的差异是变异性的主要表现 不能仅仅根据一次抽样的结果就断下结论!
《概率统计简明教程》第二版
第八章 统计量与抽样分布
二、总体和样本
1.总体
我们关心的是总体中的个体的某项指标(如人的身高、 灯泡的寿命, 汽车的耗油量…) .
由于每个个体的出现是随机的,所以相应的数量指标 的出现也带有随机性 . 从而可以把这种数量指标看作一 个随机变量X ,因此随机变量X的分布就是该数量指标在 总体中的分布.
《概率统计简明教程》第二版
第八章 统计量与抽样分布
三、什么是统计学
◆长期的规律性
在某地的彩票活动中,七年中有人累计中两次大 奖的机会是: 一半对一半
人们的潜意识常常与理性思考的结果有很大差别, 如不善于统计思考,即使面对十分平常的现象,也会闹 出笑话。
《概率统计简明教程》第二版
第八章 统计量与抽样分布
第八章 统计量与抽样分布
二、总体和样本

三大抽样分布及常用统计量的分布

n1 n2
(n1
1) S12
2

2
(n1
1),
(n2
1)S
2 2
2

2

(n2
1)
且S12与S22相互独立,由 2分布的性质知
(n1 1)S12
2
(n2 1)S22
2
~ 2 (n1
n2
2)
再由定义3知
T
X
Y Sn
(1
1 n1
1
2
)
~t(n1
n2
n2
- 2)
t 分布的上侧分位点
对于给定的 (0< <1),称满足条件
X
2 i
.
i2
i4
解 (1) 因为Xi~N(0,1),i=1, 2, …, n. 所以
X1-X2 ~N(0, 2),
X
2 3
X
2 4
~
2(2),
X1
X2 2
~
N(0,1),

X1 X2
X
2 3
X
2 4
(X1
X
X 2)
2 3
X
2 4
2
~t(2).
2
例1 设总体X~N(0,1), X1,X2,…,Xn为简单
/2
/2
- t/2(n) O t/2(n) t
图5-8
在附表4 (P256)中给出了t分布的临界值表.
例如,当n=15,=0.05时,查t分布表得,
t0.05(15)= 1.753
t0.05/2(15)= 2.131
其中t0.05/2(15)由P{t(15)≥t0.025(15)}=0.025查得.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第1章统计量与抽样分布数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。

数理统计的内容包括:如何收集、整理数据资料;如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断。

后者就是我们所说的统计推断问题。

本书只讲述统计推断的基本内容。

在概率论中,我们所研究的随机变量,它的分布都是假设已知的,在这一前提下去研究它的性质、特点和规律性,例如求出它的数字特征,讨论随机变量函数的分布,介绍常用的各种分布等。

在数理统计中,我们研究的随机变量,它的分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出种种推断的。

1.1 基本概念1.1.1 总体与个体在统计学中,将我们研究的问题所涉及的对象的全体称为总体,而把总体中的每个成员称为个体。

这是一个比较形象的说法。

例如:我们研究一家工厂的某种产品的废品率,这种产品就是我们的总体,而每件产品则是个体。

又如把某市每户居民人数的全体看成总体,一户的人数便是个体。

再如研究电大学生学习“高等数学”的期末考试成绩情况,全体学员的期末考试成绩构成总体,而每个学员的成绩则为个体。

个体与总体就好像集合论中的元素与集合之间的关系。

这里所讲的产品的废品率、居民户的人数、学员的考试成绩,它们的取值都是不同的,即每个个体所取的值是不同的。

在试验中抽取某个个体所观察得到的数值X就是一个随机变量,因而我们用X的分布去描述总体分布情况。

以后我们把总体与随机变量X可能取值的全体所组成的集合等同起来,并把随机变量X的分布称为总体的分布,即总体分布就是设定的表示总体的随机变量X的分布。

总体的分布一般说来是未知的,有时虽已知总体分布的类型(如正态分布),但不知道分布中所含的参数,有时连分布所属的类型也不能肯定。

统计学的任务就是对总体的未知分布进行推断。

1.1.2 总体与样本前面指出,作为统计研究对象的总体的分布一般来说是未知的。

为了获得对总体分布的知识,一般的方法是对总体进行抽样观察。

通常的做法是从它的全部产品中随机地抽取一些样品,在统计学上称为样本。

例1.1.1 研究某地区N个农户的年收入。

在这里,总体即指这N个农户,如果我们从这N个农户中随机地抽出n个农户作为调查对象,那么,n个农户他们年收入的n个数字就是样本。

在上面的例子中,总体是很直观的,是看得见,摸得着的。

但是客观情况并不总是这样。

例1.1.2 用一把尺子去量一个物体的长度,假定n 次测量值为n X X X ,,,21 。

显然,在这个问题中,我们把测量值n X X X ,,,21 看成了样本,但是,总体是什么呢?事实上,这里没有一个现实存在的个体的集合可以作为我们的总体。

可是,我们可以这样考虑,既然n 个测量值n X X X ,,,21 是样本,那么总体就应该理解为一切所有可能的测量值的全体。

这种类型的总体的例子不胜枚举。

例如:为研究某种安眠药的药效,让n 个病人同时服用此药,记录下他们各自服药后的睡眠时间比未服药前延长的小时数n X X X ,,,21 。

这些数字就是样本。

总体就是设想让某个地区或某个国家,甚至全世界所有患失眠症的病人都服用此药,他们所增加的睡眠时间的小时数的全体,就是该问题中的总体。

例1.1.3 在例1.1.1中,若农户年收入以万元计,假定N 户中收入X 为:0.5,0.8,1,1.2,1.5的农户个数分别为n 1,n 2,n 3,n 4,n 5,这里n 1+n 2+n 3+n 4+n 5=N ,则总体X 的分布为离散型分布,其分布律为例1.1.4 在例1.1.2中,假定物体的真正长度为μ (未知)。

一般说来测量值X ,也就是我们的总体,取μ附近值的概率要大一些,而离μ愈远的值被取到的概率就小一些。

如果测量过程没有系统性误差,那么X 取大于μ和小于μ的概率也会相等。

在这样的情况下,人们往往认为X 服从均值为μ的正态分布。

假定其方差为2σ,则2σ反映了测量的精度。

于是,总体X 的分布为N (μ,2σ),记为X ~N (μ,2σ)。

这里有一个问题,即物体长度的测量值总是在它的真正长度μ的附近,它根本不可能取到负值,而随机变量取值在(-∞,+∞)上,那么怎么可以认为测量值服从正态分布呢?要回答这个问题,需要用到正态分布的一条性质。

对于正态变量X ~N (μ,2σ){}%7.9933>+<<-σμσμX P即X 落在区间(σμσμ33+-,)之外的概率不超过003.0,可见这个概率是非常小的。

显然X 落在(σμσμ44+-,)之外的概率也就更小了。

比如,假定物体长度μ=10厘米,测量误差约为0.01厘米,则2σ=0.012,这时,(σμσμ33+-,)=(9.9997,10.0003),于是测量值落在这个区间之外的概率最多只有0.003,可以忽略不计。

可见,用正态分布N (10,0.012)去描述测量值是适当的。

另外,正态分布取值范围是无限区间(-∞,+∞),还可以解决规定测量值取值范围上的困难。

如若不然,我们用一个定义在有限区间(a 和b )的随机变量来描述测量值,那么a 和b 到底取什么值,测量者事先很难确定。

再退一步,即便我们能够确定出a 和b ,却仍很难找出一个定义在(a 和b )上的非均匀分布能够用来恰当地描述测量值,与其这样,还不如我们干脆就把取值区间放大到(-∞,+∞),并采用正态分布去描述测量值,这样既简化了问题又不致引起较大的误差。

如果总体所包含的个体数量是有限的,则称该总体为有限总体,其分布是离散型的,如例1.1.3。

如果总体所包含的个体数量是无限的,则称该总体为无限总体,其分布可以是连续型的,如例1.1.4。

在数理统计中,研究有限总体比较困难,因为它的分布是离散型的,且分布律与总体所含个体数量有关系。

所以,通常在总体所含个体数量比较大时,我们就把它近似地视为无限总体,并且用连续型分布去逼近总体的分布,这样便于做进一步的统计分析。

例如,我们研究某大城市年龄在1到10岁之间儿童的身高。

显然,不管这个城市规模有多大,在这个年龄段的儿童数量总是有限的。

因此,这个总体只能是有限总体。

总体分布也只能是离散型分布。

然而,为了便于处理问题,我们可以把它近似地看成一个无限总体,并且通常用正态分布来逼近这个总体的分布。

当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计。

1.1.3 样本的二重性样本的一个重要性质是它的二重性。

假设n X X X ,,,21 是从总体X 中抽取的样本,在一次具体的观测或试验中,它们是一批测量值,是一些已知的数。

这就是说,样本具有数的属性。

这一点比较容易理解。

但是,另一方面,由于在具体的试验或观测中,受到各种随机因素的影响,在不同的观测中样本取值可能不同。

因此,当脱离开特定的具体试验或观测时,我们并不知道样本n X X X ,,,21 的具体取值到底是多少,因此,可以把它们看成随机变量。

这时,样本就具有随机变量的属性。

样本n X X X ,,,21 既可被看成数又可被看成随机变量,这就是所谓的样本二重性。

这里需要特别强调的是,以后凡是我们离开具体的一次观测或试验来谈及样本n X X X ,,,21 时,它们总是被看成随机变量,关于样本的这个基本的认识对理解后面的内容十分重要。

既然样本n X X X ,,,21 被看作随机变量,自然就需要研究它们的分布。

在前面测量物体长度的例子中,如果我们是在完全相同的条件下,独立地测量了n 次,把这n 次测量结果,即样本记为n X X X ,,,21 ,那么我们完全有理由认为,这些样本相互独立且有相同分布,其分布与总体分布),(2σμN 相同。

推广到一般情况,如果我们在相同条件下对总体X 进行n 次重复的独立观测,那么都可以认为所获得的样本n X X X ,,,21 是独立同分布的变量,这样的样本称为简单随机样本,简称为样本。

在统计文献中,通常把n 称为样本大小,或样本容量,或样本数,而把n X X X ,,,21 称为一组容量为n 的样本或一个样本(这是把n X X X ,,,21 看成一个整体)。

1.2充分统计量与完备统计量1.2.1 样本的联合分布函数为了今后讨论方便,我们约定,以大写英文字母i X 表示随机变量,而以相应的小写英文字母i x 表示它的观察值,并称样本n X X X ,,,21 的一组具体的观察值n x x x ,,,21 为样本值,全体样本值组成的集合称为样本空间Θ。

设总体X 的分布函数为)(x F ,则由前面知识,我们知道样本n X X X ,,,21 的分布函数为∏==ni i n x F x x x F 121)(),,,(并称之为样本的联合分布函数。

假设总体X 具有概率密度函数)(x f , 则由于样本n X X X ,,,21 是相互独立且与X 同分布,于是样本的联合概率密度函数为=),,,(21n x x x g ∏=ni ix f 1)(。

例 1.2.1 假设某大城市居民的收入服从正态分布(N μ,2σ),其概率密度函数为222)(21)(σμσπ--=x e x f , (+∞<<∞-x )现从中随机抽取一组样本n X X X ,,,21 ,因为它们相互独立,且都与总体同分布,即),(~2σμN X i , n i ,,2,1 =。

于是样本n X X X ,,,21 的联合概率密度为=),,,(21n x x x g 2122)(2)2(1σμσπ∑=--ni i x n n e 在数理统计中,总体或者说总体分布是我们研究的目标,而样本是从总体中随机抽取的一部分个体。

通过对这些个体(即样本)进行具体的研究,我们所得到的统计结论以及对这些结论的统计解释,都反映或体现着总体的信息,也就是说,这些信息是对总体而言的。

因此,我们总是着眼于总体,而着手于样本,用样本去推断总体。

这种由已知推断未知,用具体推断抽象的思想,对我们后面的学习和研究是大有裨益的。

1.2.2 统计量在获得了样本之后,下一步我们就要对样本进行统计分析,也就是对样本进行加工、整理,从中提取有用信息。

例如,当我们把一个长度为μ的物体测量了n 次,获得了一组样本n X X X ,,,21 后,往往计算它们的算术平均值∑=n i i n XX 1=,用来作为μ的估计,这X 就是对样本n X X X ,,,21 进行加工处理后得到的一个量,在统计学上称为统计量。

一般,我们把样本的函数称为统计量,它只依赖于样本,而不能包含问题中的任何未知量。

相关文档
最新文档