第四章 正 态 分 布 体育统计学要点

第四章   正 态 分 布   体育统计学要点
第四章   正 态 分 布   体育统计学要点

第四章 正 态 分 布

如果将第二章中的(表2 — 1)中的数据绘制成直方图,把每个方条顶部中点联结起来,就得到一个图形,它称为频数多边形。(图4 — 1)当分组数很多,组距很小时,频数多边形就趋于类似(图4 —

2)所示的平滑的曲线。这种曲线呈现出两侧近似对称的钟形。随机变量的类似这种分布,在自然界是相当普遍的其中最有代表性的是正态分布。下面就来介绍正态分布及其在体育中的几个应用。

图4 — 1 频数多边形图

第一节 正态分布曲线的形式

如果随机变量X 的概率密度函数为

y =π

σ21e 222)(σμ--x (+∞<<∞-x ) (4 — 1)

则称随机变量X 是服从正态分布的由上式绘出的图形叫做正态曲线。(图4 — 2)X 的变动范围在 ∞- 至 +∞ 间。

Y

X

图4 — 2 正态分布曲线

正态分布曲线中有两个参数:均值 μ 及方差 2σ。为了应用方

便,对式(4 — 1)中的随机变量经过一个称为标准化的变换,即令

u 来代替原式中的 σ

μ-x , 寻这时的随机变量u 的概率密度函数成为:

y = π

21e 22

u - (4 — 2) 按照(4 — 2)式绘出的图形,称作标准正态曲线。(图4 — 3)

Y

00.4

0.3

0.2

0.1

-1-2-3123μ

图4 — 3 标准正态分布曲线

第二节正态分布曲线的特征

正态分布曲线有许多特点,它们对实际工作有很大的帮助。它的主要特点有以下几个方面:

一,正态分布的形式是对称的(但对称的分布不一定是正态分布)。在正态分布中均值与中位数相重合。

二,从中央最高点逐渐向两侧降低,降低的速度是先慢后快,以后又再次减慢,最后接近横轴,但终究不能与横轴相交。

三,从中央向两侧逐渐下降,它的方向是先向内弯,达到离均值左右各一个标准差时又改向外弯,是以σ

μ1

±的点为曲线从内弯转向外弯的转折点,即正态曲线中标准差与曲线有固定的关系。

四,因为正态曲线是对称的,在曲线下不仅平均数的两侧面积相等,各相当距离间的面积相等,而且各相当距离间的曲线高度也相等,正态曲线下(与横轴间)的总面积为1. 00。

五,正态曲线可以有不同形式,它们的均值和标准差可以不相同,均值不同表明曲线在横轴上所处位置不同,标准差不同表明曲线的形态不同。标准差小则曲线高、且窄;标准差大则曲线低、且宽。(图4 — 4)由式(4 — 1)和(4 — 2)知,标准正态曲线的μ= 0,σ= 1,即标准正态曲线是关于纵轴对称;它在μ= 0时,有最大值,它近似等于0. 4,如(图4 — 3)所示。

Y

X 0

μσ=0.5

σ=1

σ=2

图4 — 4 三种不同形式的正态分布曲线

第三节 正态分布表

从某市17岁男生中随机抽出205人测量身高,由这个样本计算得到 X = 168. 40厘米,S = 6. 13厘米。假定该市17岁男生身高服从正态分布,试估计身高在16. 40 — 172. 40厘米之间的人数。

求解这类问题的一般方法是:求从正态总体中随机选取一个个体的测量值落在区间(a, b )上的概率。这个概率在标准正态曲线下就是曲线、X 轴、直线X = a 和X — b 所围成的面积。(图4 — 5)当概率P 求得后,要求的人数约等于总人数乘以P 值。 Y

00.1

-1-2-3

123μ0.2

0.4

0.3

a b

图4 — 5 随机变量X在区间(a,b)内取值的概率示意图

表的左边第1 列这横轴上的位置,它是指横轴上某一点与平均值的距离,以标准差为单位来表示,通常记为u,即

u =

σμ

-

x

(4 — 3)

表上边的第1 行为u值的第2位小数。表的主体部分是各u值与均数(u = 0)之间所对应的单侧面积(或概率)。

一、知U值求对应的面积

例 4 —1求u 值为-1 至+2 之间对应的面积。

解:由于标准正态曲线是关于x = u对称的均数处的u值为零,所以u值在-1至0这间对应的面积与它在0 至+1 之间的对应面积相等。查书后附表1得u值在-1至0的对应面积是34. 13%;u 值在0至+2 之间的面积是47. 72%。前者在均值的左边,后者在均值的右边,因此这两块面积之和便是所求面积。(图4 — 6)即:

34. 13% + 47. 72% = 81. 85%

-12=+

81.85%34.13%47.72%

00

-12

图4—6

例 4 —2 本节开始提出的问题,即试估计身高在160. 40 —172. 40厘米之间的人数。

解:首先要求出身高为160. 40厘米和172. 40厘米的u值,按式(4 — 3)有(当u 和σ未知时,可用X和S近似代替):

u 1 = 13

.640.16840.160- = -1. 31 u 2 = 13

.640.16840.172- = 0. 65 查书后附表1 求 u 1、u 2 所对应的面积。u 1 = -1. 31 所对应的面积是40. 49%,u 2 = 0. 65所对应的面积是24. 22%。u 值-1. 31至0. 65所对应的面积为40. 49% + 24. 22% = 64. 71%,见(图4 — 7)所示,

于是身高在 160. 40 — 172. 40厘米之间的人数约为 205×64. 71%

≈133(人)

。 0-1-21

24.22%

40.49%

172.40米0.65-1.31

图4-7 估计身高在160. 40-172. 40厘米间的人数百分数

二、已知面积求对应的U 值

例 4 — 3 试求从 +1σ 向右到什么位置对应的面积为

14. 15%?

解:设从 +1σ 向右到 +k σ 对应的面积为14. 15%。查标准正

态分布表知+1σ对应的面积是34. 13%。 24. 13%+14. 15% = 48. 28%,就是u 值从0 到 +k 之间对应的面积。查书后附表1和K = 2. 11,即从 +1σ 向右到 +2. 11σ 之间对应的面积为14. 15%。(图4 — 8)

从标准正态分布表中,可以找出标准正态曲线下面的分布规律。

在下表中列出的五个分布位置与其对应的概率是统计中电子学用到的,应该熟记。

μ+2.11б

图4 — 8 从+1σ— +2. 11σ对应的面积

表4 — 1 正态曲线下的概率分布

μuσ该范围具有的概率

±

μ1σ68. 26%

±

μ 1. 96σ95. 00%

±

μ2σ95. 44%

±

μ 2. 58σ99. 00%

±

μ3σ99. 73%

±

第四节统计资料的正态性检验

正态分布的理论适用于正态或近似正态分布的资料。对样本要想用正态分布理论进行分析,首先要检验样本是否为正态分布。检验的方法有多种,简单而实用的方法是“概率格纸绘图法”。这种方法使用的概率纸是正态概率纸,它的横轴是普通的刻度,纵轴是按正态分

布的规律刻划的。使用时,先根据样本数据求出累计频率,然后根据累计频率和组限,将其点绘在正态概率纸上,如果样本资料是呈正态分布的则所有点几乎在一条直线上。

例 4 — 4 广州市某中学初中生800米跑的抽样测验成绩的累计频率如下表所示,试检验该资料是否近似正态分布?

组 限 频 数 累计频数 累计频率(%) -'''732 1 1 0. 8 -'''442 6 7 5. 6 -'''152 15 22 17. 6 -'''852 20 42 33. 6 -'''503 27 69 55. 2 -'''213 25 94 75. 2 -'''913 21 115 92. 0 -'''623 6 121 96. 8 -'''333 2 123 98. 4 -'''043 2 125 100. 0

由样本计算得:

X = 2303''' , S = 421''

然后根据每组的下限值和相应的累计频率,将它们分别标在图上。根据点的分布趋势画一直线,观察这些点的分布是否接近一条直线。在画直线时应以靠近中部的点为主,两端的点为辅,因为中部的点的组频数大,所以占比重也大。由(图4 — 9)可见,所有的点几乎都在一条直线上,故该样本资料接近于正态分布。

2′51″2′2′2′3′3′3′3′3′37″44″58″05″12″19″26″33″

图 4—9

当样本资料符合正态分布时,籍助正态概率纸做图,还可以对 μ 和 σ 作出近似地估计。从正态分布理论知道累积频率为50% 的位置应在中点,即接近均数位置。从纵轴50% 的位置画横线与钭线交于a 点,由不得a 点向横轴做垂线交于 μ 点,其值为 8203''' ,即为估计均数,它与计算值 2203''' 仅相差 50''。又知均数减一个标准差位置的面积为34. 13%,故在纵轴上的应是50%-34. 13% = 15. 87%(b 点),以此划横线交于钭线上c 点,向横灿做垂线交于 9052''' 处,此点距均数的长度应为σ,故估计标准差的值为: 91190528203''='''-''' 。计算值为 421'',仅相差 50''。只要图做得准确,这些估计值也还是比较精确的。

第五节可疑数据的舍取

在实际工作中,往往能够发现样本资料中具有个别突出的数值(特大或特小的数值)。按样本数据系列大小顺序来看,发现这些突出的数值和其他数值之间有明显脱节现象。这种现象使人们怀疑这些特别数值是否属于研究的总体,于是把这些数据称为可疑数据。人们把来自非同一总体的极端值,称为异常数据。样本中的异常数据应当及时剔除,否则会影响样本均数和标准差等统计量及计算结果的准确性。如何判断可疑数据是否为异常数据,方法不少,下面介绍适用于正态分布,且数据个数不多时,比较常用而有效的戈罗伯斯(Grubbs)检验法。

设x1,x2……,x n来自正态分布的总体,将它们按大小重新排列,记为x(1)≤x(2)≤…… ≤x(n)。

首先计算出可疑数据的g n值,其公式为:

g n =

s |x

x|-'

(4 — 4)

式中x'表示可疑数据值,若计算得g n值大于(表4 — 2)中的临界值a n,则认为x'是异常数据,应舍弃。若小于临界值,则x'为正常数据,应保留。

表4 — 2 戈罗伯斯检验临界值(a n)表α= 0. 05 n a n n a n n a n n a n n a n

3 1. 15 12 2. 29 21 2. 58 30 2. 96 40 2. 87

4 1. 46 13 2. 33 22 2. 60 31 3. 03 50 2. 96

5 1. 67 14 2. 37 23 2. 62 32 3. 09 60 3. 03

6 1. 82 15 2. 41 24 2. 64 33 3. 14 70 3. 09

7 1. 94 16 2. 44 25 2. 64 34 3. 18 80 3. 14

8 2. 03 17 2. 47 26 2. 75 35 3. 21 90 3. 18

9 2. 11 18 2. 50 27 2. 82 36 3. 23 100 3. 21

10 2. 18 19 2. 53 28 2. 87 37 3. 24 110 3. 23

11 2. 23 20 2. 56 29 2. 92 38 3. 25 120 3. 24

例 4 — 5 为了解一般高中学生跳高水平,由随机样本计算得到统计量如下:

n = 100人x= 1. 31米s = 0. 09米

假定这些学生跳高成绩的分布呈正态分布。其中有一名学生的成绩是1. 65米,这个成绩超出平均水平三个标准差以上,是个可疑数据。试检验它是否为异常数据。

按公式(4 — 4)计算

g n =

s |x

x|-'

=

09

.0

| 31 .1

65

.1|-

≈ 3. 78

查(表4 — 2)n = 100对应的a n值是3. 21,现计算值是3. 78,大于临界值,故1. 65 米是异常数据应舍弃。据了解,该学生是少体校学生,受过专项训练,不属于一般高中学生跳高水平研究的总体。

第六节正态分布理论在体育中的两个应用

一、制定测验标准

制定测验标准是体育教学和训练中的一项重要工作,一般是根据学生原有的基础和不同阶段教学目的与要求,事先规定达到各标准的人数比例,并将这个比例数看作正态分布曲线下的面积,然后利用标准下正态分布表去推算相应标准的具体成绩。

例4 —6 某学校某年级在进行跳高教学之前,从该年级随机抽出一部分学生测验其跳高成绩。现由样本计算得到统计量为:

x = 1. 40 米, S = 0. 10米

学校方面根据学生在跳高上的基础水平和教学的要求,规定就目前状况达到优秀的人数比例为10%,良好的人数比例为20%,有15%的人不能及格,试用统计方法求出以上三个标准的具体成绩。

μσ

σ123-1-2-3σσσσ15%20%

10%

c b a -1.04

0.52 1.281.30米 1.45米 1.53米σσσ

图 4—10 跳高测验标准的确定

计算过程如下:

人数比例 查标准正态分布表的面积 u 值 标准)s u x (?+

10 % (优) 50%-10%=40% 1. 28 1. 40+1. 28×0. 10=1. 53(米)

20 % (良) 50%-10%-20%=20% 0. 52 1. 40+0. 52×0. 10=1. 45(米)

15%(不及格) 50%-15%=35% -1. 40 1. 40-1. 04×0. 10=1. 30(米)

综上所述,优秀标准的成绩是1. 53米;良好标准的成绩是1. 45米;及格标准的成绩是1. 30米。

二、估计达标人数

以上阐述的是已知达标人数比例,求出这一标准的具体成绩,下面是叙述先定出具体的成绩标准,而后要求估计出达到标准的人数百分比。这实际上是已知u 值求对应正态分布曲线下面积的问题。

例 4 — 7 某学校对某年级男生的跳远教学测验成绩作出如下规定:成绩为5. 60米以上者得5分;5. 40米以上者得4分;4. 60米以上者得3分。教师从该年级男生中随机抽出部分学生进行测验,得到 x = 5. 00米,S = 0. 40米,试估计该年级男生得各分值的人数比例。

μσσ1

23-1-2-3σσσσσ4.60米 5.40米5.60米(1.5 )得3分的人数百分数

得4分的人数百分数

得5分的人数百分数

图 4—11 跳远达标人数的估计

计算结果如下:

5分 5.60米以上 (5 60-5.00) / 0.40 =1.5 43.32% 50%-43.32% = 6.7%

4分 5.40米以上 (5.40-5.00) / 0.40 =1.0 34.13% 50%-43.32%-6.7% = 9.2%

3分 4.60米以上 (4.60-5.00) / 0.40 = -1.0 34.13% 34.13%+34.13% = 68.26%

综上所述,该年级男生跳远得5分的人数比例是6. 7%;得4分的人数比例是9. 2%;得3分的人数比例是68. 26%。如果用该年级男生的总人数乘以各人数比例,便可估计达到各标准的人数。

习 题 四

1.什么是正态分布、标准正态分布?正态分布的特点是什么?如何使用正态分布表?

2.在正态分布表中,下列范围包括的面积占总面积的百分之几?

(1)σ±μ1.1;

(2)σ±μ58.2;

(3)σ-μ2.1 — σ+μ4.1间。

3.在正态分布中,已知 σ±μk 间包括的面积是 34 % ,求K 值为若干?

4.某年级有216名学生,随机抽出部分学生测验跳远成绩得到样本统计量为 x = 4. 40米,S = 0. 42米。如规定2. 80米是及格标准,试估计该年级可能有多少人不及格?

5.用正态概率纸检验第二章第七节所列出的31名大学生简单视反应数据资料是否服从正态分布。

6.某地区有一万名初中男生,抽样得到百米赛跑运动成绩的统计量为:x = 541'',S = 50''。

(1)若提出一胩锻炼标准,按现在的情况只能有30%的人达标,

那么这个标准的运动成绩定为多少秒合适?

(2)如果开运动会,按目状况估计能有多少人达到或者突破 31''

的成绩?

(3)希望定出一个水平为“中等”的能够包括6000人的成绩范围。

计算时如果要求以样本平均数为中点,那么这个范围的上下限

的运动成绩各是多少秒?

7.某体重记录资料的样本含量为n = 15,统计量为= 82. 5公斤,S = 0. 5千克。若其中某一数据为89. 4千克,试检验此数据是否为异常数据?

§1.4常用的分布及其分位数(精)

§1.4 常用的分布及其分位数 1. 卡平方分布 卡平方分布、t 分布及F 分布都是由正态分布所导出的分布,它们与正态分布一起,是试验统计中常用的分布。 当X 1、X 2、…、Xn 相互独立且都服从N(0,1)时,Z=∑i i X 2 的 分布称为自由度等于n 的2χ分布,记作Z ~2χ(n),它的分 布密度 p(z )=???????>??? ??Γ--,,00,2212122其他z e x n z n n 式中的??? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ?? ? ??Γ21=π。2χ分布是非对称分布,具有可加性,即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、 X n+m 相互独立且都服从N(0,1),再根据2χ分布的定义以及上述随机变量的相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2. t 分布 若X 与Y 相互独立,且 X ~N(0,1),Y ~2χ(n ),则Z =n Y X 的分布称为自由度等于n 的t 分布,记作Z ~ t (n ),它的分布密度 P(z)=)()(221n n n ΓΓ+2121+-???? ? ?+n n z 。 请注意:t 分布的分布密度也是偶函数,且当n>30时,t

第四章 正 态 分 布 体育统计学要点

第四章 正 态 分 布 如果将第二章中的(表2 — 1)中的数据绘制成直方图,把每个方条顶部中点联结起来,就得到一个图形,它称为频数多边形。(图4 — 1)当分组数很多,组距很小时,频数多边形就趋于类似(图4 — 2)所示的平滑的曲线。这种曲线呈现出两侧近似对称的钟形。随机变量的类似这种分布,在自然界是相当普遍的其中最有代表性的是正态分布。下面就来介绍正态分布及其在体育中的几个应用。 图4 — 1 频数多边形图 第一节 正态分布曲线的形式 如果随机变量X 的概率密度函数为 y =π σ21e 222)(σμ--x (+∞<<∞-x ) (4 — 1)

则称随机变量X 是服从正态分布的由上式绘出的图形叫做正态曲线。(图4 — 2)X 的变动范围在 ∞- 至 +∞ 间。 Y X 0μ 图4 — 2 正态分布曲线 正态分布曲线中有两个参数:均值 μ 及方差 2σ。为了应用方 便,对式(4 — 1)中的随机变量经过一个称为标准化的变换,即令 u 来代替原式中的 σ μ-x , 寻这时的随机变量u 的概率密度函数成为: y = π 21e 22 u - (4 — 2) 按照(4 — 2)式绘出的图形,称作标准正态曲线。(图4 — 3) Y 00.4 0.3 0.2 0.1 -1-2-3123μ

图4 — 3 标准正态分布曲线 第二节正态分布曲线的特征 正态分布曲线有许多特点,它们对实际工作有很大的帮助。它的主要特点有以下几个方面: 一,正态分布的形式是对称的(但对称的分布不一定是正态分布)。在正态分布中均值与中位数相重合。 二,从中央最高点逐渐向两侧降低,降低的速度是先慢后快,以后又再次减慢,最后接近横轴,但终究不能与横轴相交。 三,从中央向两侧逐渐下降,它的方向是先向内弯,达到离均值左右各一个标准差时又改向外弯,是以σ μ1 ±的点为曲线从内弯转向外弯的转折点,即正态曲线中标准差与曲线有固定的关系。 四,因为正态曲线是对称的,在曲线下不仅平均数的两侧面积相等,各相当距离间的面积相等,而且各相当距离间的曲线高度也相等,正态曲线下(与横轴间)的总面积为1. 00。 五,正态曲线可以有不同形式,它们的均值和标准差可以不相同,均值不同表明曲线在横轴上所处位置不同,标准差不同表明曲线的形态不同。标准差小则曲线高、且窄;标准差大则曲线低、且宽。(图4 — 4)由式(4 — 1)和(4 — 2)知,标准正态曲线的μ= 0,σ= 1,即标准正态曲线是关于纵轴对称;它在μ= 0时,有最大值,它近似等于0. 4,如(图4 — 3)所示。

正态概率图(normal probability plot)

正态概率图(normal probability plot) 方法演变:概率图,分位数-分位数图( Q- Q) 概述 正态概率图用于检查一组数据是否服从正态分布。是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。通常,概率图也可以用于确定一组数据是否服从任一已知分布,如二项分布或泊松分布。 适用场合 ·当你采用的工具或方法需要使用服从正态分布的数据时; ·当有50个或更多的数据点,为了获得更好的结果时。 例如: ·确定一个样本图是否适用于该数据; ·当选择作X和R图的样本容量,以确定样本容量是否足够大到样本均值服从正态分布时;·在计算过程能力指数Cp或者Cpk之前; ·在选择一种只对正态分布有效的假设检验之前。 实施步骤 通常,我们只需简单地把数据输入绘图的软件,就会产生需要的图。下面将详述计算过程,这样就可以知道计算机程序是怎么来编译的了,并且我们也可以自己画简单的图。 1将数据从小到大排列,并从1~n标号。 2计算每个值的分位数。i是序号: 分位数=(i-0.5)/n 3找与每个分位数匹配的正态分布值。把分位数记到正态分布概率表下面的表A.1里面。然后在表的左边和顶部找到对应的z值。 4根据散点图中的每对数据值作图:每列数据值对应个z值。数据值对应于y轴,正态分位数z值对应于x轴。将在平面图上得到n个点。 5画一条拟合大多数点的直线。如果数据严格意义上服从正态分布,点将形或一条直线。将点形成的图形与画的直线相比较,判断数据拟合正态分布的好坏。请参阅注意事项中的典型图

形。可以计算相关系数来判断这条直线和点拟合的好坏。 示例 为了便于下面的计算,我们仅采用20个数据。表5. 12中有按次序排好的20个 值,列上标明“过程数据”。 下一步将计算分位数。如第一个值9,计算如下: 分位数=(i-0.5)/n=(1-0.5)/20=0.5/20=0.025 同理,第2个值,计算如下: 分位数=(i-0.5)/n=(2-0.5)/20=1.5/20=0.075 可以按下面的模式去计算:第3个分位数=2.5÷20,第4个分位数=3 5÷20 以此类推直到最后1个分位数=19. 5÷20。 现在可以在正态分布概率表中查找z值。z的前两 个阿拉伯数字在表的最左边一列,最后1个阿拉伯数 字在表的最顶端一行。如第1个分位数=0. 025,它位 于-1.9在行与0.06所在列的交叉处,故z=-1.96。 用相同的方式找到每个分位数。 如果分位数在表的两个值之间,将需要用插值法 进行求解。例如:第4个分位数为0. 175,它位于0.1736 与0.1762之间。0.1736对应的z值为-0.94,0.1762 对应的z值为-0.93,故 这两数的中间值为z=-0.935。 现在,可以用过程数据和相应的z值作图。图表5. 127显示了结果和穿过这些点的直线。注意:在图形的两端,点位于直线的上侧。这属于典型的右偏态数据。图表5.128显示了数据的直方图,可进行比较。 概率图( probability plot) 该方法可以用于检验任何数据的已知分布。这时我们不是在正态分布概率表中查找分位数,而是在感兴趣的已知分布表中查找它们。 分位数-分位数图(quantile-quantile plot) 同理,任意两个数据集都可以通过比较来判断是否服从同一分布。计算每个分布的分位数。一个数据集对应于x轴,另一个对应于y轴。作一条45°的参照线。如果这两个数据集来自同一分布,那么这些点就会靠近这条参照线。 注意事项 ·绘制正态概率图有很多方法。除了这里给定的程序以外,正态分布还可以用概率和百分数来表示。实际的数据可以先进行标准化或者直接标在x轴上。 ·如果此时这些数据形成一条直线,那么该正态分布的均值就是直线在y轴截距,标准差就是直线斜率。 ·对于正态概率图,图表5.129显示了一些常见的变形图形。 短尾分布:如果尾部比正常的短,则点所形成的图形左边朝直线上方弯曲,右边朝直线下方弯曲——如果倾斜向右看,图形呈S型。表明数据比标准正态分布时候更加集中靠近均值。 长尾分布:如果尾部比正常的长,则点所形成的图形左边朝直线下方弯曲,右边朝直线上方弯曲——如果倾斜向右看,图形呈倒S型。表明数据比标准正态分布时候有更多偏离的数据。

百分位数计算公式上课讲义

精品文档 假设你的数据在A列 在B1输入=PERCENTILE(E1:E10,0.1) 得到的是第10百分位数 在B2输入=PERCENTILE(E1:E10,0.9) 得到的是第90百分位数 追问 我想用函数做,如何进行呢? 回答 不知道你的具体含义。在excel里函数与我们平常说的公式是一个概念。 推测你是要使用宏? 追问 我找到了计算百分位数的函数PERCENTILE(array,k),但是不知如何 使用。 回答 你找到的函数不就是我给出答案里的公式吗 假设你的数据在A列A1~A10 , 在B1输入=PERCENTILE(A1:A10,0.1) 得到的是第10百分位数 在B2输入=PERCENTILE(A1:A10,0.9) 得到的是第90百分位数 提问者评价 我明白了,谢谢。 什么是百分位数 统计学术语,如果将一组数据从大到小排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列如,处于p%位置的值称第p百分位数。 中位数是第50百分位数。 第25百分位数又称第一个四分位数(First Quartile),用Q1表示;第50百分位数又称第二个四分位数(Second Quartile),用Q2表示;第75百分位数又称第三个四分位数(Third Quartile),用Q3表示。若求得第p百分位数为小数,可完整为整数。 分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置。百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p 百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数,严格的定义如下。 第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,精品文档

统计学常用分布及其分位数

§1、4 常用得分布及其分位数 1、 卡平方分布 卡平方分布、t 分布及F 分布都就是由正态分布所导出得分布,它们与正态分布一起,就是试验统计中常用得分布。 当X 1、X 2、… 、Xn 相互独立且都服从N(0,1)时,Z=∑i i X 2 得分布称为自由度等于n 得2χ分布,记作Z ~2χ(n),它得分布 密度 p(z )=??? ????>??? ??Γ--,,00,2212122其他z e x n z n n 式中得??? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ?? ? ??Γ21=π。2χ分布就是非对称分布,具有可加性,即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、 X n+m 相互独立且都服从N(0,1),再根据2χ分布得定义以及上述随机变量得相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2、 t 分布 若X 与Y 相互独立,且 X ~N(0,1),Y ~2χ(n ),则Z =n Y X 得分布称为自由度等于n 得t 分布,记作Z ~ t (n ),它得分布密度 P(z)=)()(221n n n ΓΓ+2121+-???? ??+n n z 。 请注意:t 分布得分布密度也就是偶函数,且当n>30时,t

利用Excel的NORMSDIST计算正态分布函数表

利用Excel的NORMSDIST函数建立正态 分布表 董大钧,乔莉 理工大学应用技术学院、信息与控制分院,113122 摘要:利用Excel办公软件特有的NORMSDIST函数可以很准确方便的建立正态分布表、查找某分位数点的正态分布概率值,极大的提高了数理统计的效率。该函数可返回指定平均值和标准偏差的正态分布函数,将其引入到统计及数据分析处理过程中,代替原有的手工查找正态分布表,除具有直观、形象、易用等特点外,更增加了动态功能,极大提高了工作效率及准确性。 关键词:Excel;正态分布;函数;统计 引言 正态分布是应用最广泛的连续概率分布,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,某种产品的力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。在科学研究及数理统计计算过程中,人们往往要通过某本概率统计教材附录中的正态分布表去查找,非常麻烦。若手头有计算机,并安装有Excel软件,就可以利用Excel的NORMSDIST( x )函数进行计算某分位数点的正态分布概率值,或建立一个正态分布表,准确又方便。 1 正态分布及其应用 正态分布(normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为N(μ,σ2 )。则其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟

统计学三大分布及正态分布的关系

统计学三大分布与正态分布的关系 [1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之. 1.三大分布函数[2] 1.12χ分布 2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,) ,则称统计量222 212n =+X X χ++…X 为服从自由度为n 的2χ分布, 记为22~()n χχ. 2χ分布的概率密度函数为 122210(;),2()200n x n x e x n f x n x --?≥??=Γ???? ,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.

卡方分布具有如下基本性质: 性质1:22(()),(())2E n n D n n χχ==; 性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++; 性质3:2 n χ→∞→时,( n )正态分布; 性质4:设)(~2 2n α χχ,对给定的实数),10(<<αα称满足条 件:αχχα χα ==>?+∞ ) (2 22)()}({n dx x f n P 的点)(2 n α χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查 用. 2()n χ分布的上α分位数 1.2t 分布 t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student ”的笔名 首次发表的,这个分布在数理统计中也占有重要的位置. 定义:设2 ~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n = 服从自由度为n 的t 分布,记为~()T t n .

第四章正态分布体育统计学

第四章 正 态 分 布 如果将第二章中的(表 2 — 1)中的数据绘制成直方图,把每个方条顶部中点联结起来,就得到一个图形,它称为频数多边形。(图4 — 1)当分组数很多,组距很小时,频数多边形就趋于类似(图4 — 2)所示的平滑的曲线。这种曲线呈现出两侧近似对称的钟形。随机变量的类似这种分布,在自然界是相当普遍的其中最有代表性的是正态分布。下面就来介绍正态分布及其在体育中的几个应用。 1 2 3 4 5 6 7 8 9 10 x 图4 — 1 频数多边形图 第一节 正态分布曲线的形式 如果随机变量X 的概率密度函数为 y =π σ21e 222)(σμ--x (+∞<<∞-x ) (4 — 1)

则称随机变量X 是服从正态分布的由上式绘出的图形叫做正态曲线。(图4 — 2)X 的变动范围在 ∞- 至 +∞ 间。 Y X 0μ 图4 — 2 正态分布曲线 正态分布曲线中有两个参数:均值 μ 及方差 2σ。为了应用方便,对式(4 — 1)中的随机变量经过一个称为标准化的变换,即令 u 来代替原式中的 σ μ-x , 寻这时的随机变量u 的概率密度函数成为: y = π 21e 22u - (4 — 2) 按照(4 — 2)式绘出的图形,称作标准正态曲线。(图4 — 3) Y 00.4 0.3 0.2 0.1 -1-2-3123μ

图4 — 3 标准正态分布曲线 第二节正态分布曲线的特征 正态分布曲线有许多特点,它们对实际工作有很大的帮助。它的主要特点有以下几个方面: 一,正态分布的形式是对称的(但对称的分布不一定是正态分布)。在正态分布中均值与中位数相重合。 二,从中央最高点逐渐向两侧降低,降低的速度是先慢后快,以后又再次减慢,最后接近横轴,但终究不能与横轴相交。 三,从中央向两侧逐渐下降,它的方向是先向内弯,达到离均值左右各一个标准差时又改向外弯,是以σ μ1 ±的点为曲线从内弯转向外弯的转折点,即正态曲线中标准差与曲线有固定的关系。 四,因为正态曲线是对称的,在曲线下不仅平均数的两侧面积相等,各相当距离间的面积相等,而且各相当距离间的曲线高度也相等,正态曲线下(与横轴间)的总面积为1. 00。 五,正态曲线可以有不同形式,它们的均值和标准差可以不相同,均值不同表明曲线在横轴上所处位置不同,标准差不同表明曲线的形态不同。标准差小则曲线高、且窄;标准差大则曲线低、且宽。(图4 — 4)由式(4 — 1)和(4 — 2)知,标准正态曲线的μ = 0,σ = 1,即标准正态曲线是关于纵轴对称;它在μ = 0时,有最大值,它近似等于0. 4,如(图4 — 3)所示。

(完整word版)统计学三大分布与正态分布的关系

统计学三大分布与正态分布的关系[1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之. 1. 三大分布函数[2] 1.12χ分布 2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅 (Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,) ,则称统计量222 212n =+X X χ++…X 为服从自由度为n 的2χ 分布,记为22~()n χχ. 2χ分布的概率密度函数为 122210(;),2()200n x n x e x n f x n x --?≥??=Γ???? ,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.

卡方分布具有如下基本性质: 性质1:22(()),(())2E n n D n n χχ==; 性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++; 性质3:2 n χ→∞→时,( n )正态分布; 性质4:设)(~2 2n α χχ,对给定的实数),10(<<αα称满足条件: αχχαχα==>? +∞ ) (2 22 )()}({n dx x f n P 的点)(2 n α χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查用. 2()n χ分布的上α分位数 1.2t 分布 t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置. 定义:设2 ~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n = 服从自由度为n 的t 分布,记为~()T t n . t 分布的密度函数为

标准正态分布分位数表

正态分布的概念在统计学中非常普遍,标准正态分布表在与正态分布有关的计算中经常使用。如果你知道一个值的标准得分,即z 得分,你可以很方便地在标准正态分布表中找到与标准得分对应的概率值。任何数值,只要符合正态分布规律,都可以用标准正态分布表来查询其出现概率。使用时,第一步是计算标准值的标准值,然后将标准值四舍五入到小数点后的第二位,第二步是在标准正态分布表的左侧找到小数点后的第一位直到标准值,然后在相应标准值的小数点后的第二位找到正态分布。 正态分布,也称为“正态分布”,是一个非常重要的概率分布。它在数学、物理学、工程学以及统计学的许多方面都有很大的影响,它最初是由a. de moivre 在二项分布的渐近公式中得到的。在研究测量误差时,从另一个角度导出了c。f。高斯。拉普拉斯和高斯研究了它的性质,正常曲线呈钟形,两端低,中间高,对称。因为它的曲线是钟形的,所以人们通常称之为钟形曲线,如果随机变量x 服从一个带有数学期望和方差2的正态分布,则称为n (,2)。概率密度函数为正态分布的期望值决定了它的位置,其标准差决定了分布的振幅。当= 0和= 1时,正态分布是标准正态分布。 正态分布的概念最早是由德国数学家和天文学家莫伊弗尔在1733年提出的,但由于德国数学家高斯率先将其应用于天文学家的研究,它也被称为正态分布分布。高斯的作品对后世有很大的影响。他同时给

正态分布命名为“正态分布”,后人因此将最小二乘法的发明权归于他。而今天的德国10马克钞票上印有高斯头像,密度曲线呈正态分布。这传达了一个观点: 在高斯的所有科学贡献中,对人类文明影响最大的就是这个。在这个发现的开始,也许人们只能从简单化的理论来评价它的优越性,它的全部影响是不能完全看到的。这是在20世纪小样本理论得到充分发展之后。拉普拉斯很快了解到高斯的工作,并立即将其与他发现的中心极限定理联系起来。 基于这个原因,他在一篇即将发表的文章(1810年出版)中增加了一篇补充文章,指出如果按照他的中心极限定理,这个误差可以被看作是多个量的叠加,那么这个误差应该有正态分布。这是历史上第一次提到所谓的“元错误理论”——错误是由各种原因产生的大量元错误叠加而形成的。后来,在1837年,g ·哈根在一篇论文中正式提出了这个理论。事实上,他提出的形式有相当大的局限性: 哈根把错误想象成大量独立的同分布的“元错误”的总和,每个元错误取两个值,其概率是1/2。根据de mofo 的中心极限定理,由此可以立即得出结论,误差服从正态分布(大约)。 拉普拉斯的这一观点对于正常的误差理论给出了更加自然、合理和令人信服的解释,具有重要的意义。由于高斯的论述有一点圆论元的味道: 由于算术平均数很好,导出误差必须服从正态分布,另一方面,由后一个结论推导出算术平均数和最小二乘估计的优越性,因此必须

统计学常用分布及其分位数知识讲解

统计学常用分布及其 分位数

收集于网络,如有侵权请联系管理员删除 §1.4 常用的分布及其分位数 1. 卡平方分布 卡平方分布、t 分布及F 分布都是由正态分布所导出的 分布,它们与正态分布一起,是试验统计中常用的分 布。 当X 1、X 2、…、Xn 相互独立且都服从N(0,1)时, Z=∑i i X 2 的分布称为自由度等于n 的2χ分布,记作Z ~ 2χ (n),它的分布密度 p(z )=???????>??? ??Γ--,,00,2212122其他z e x n z n n 式中的?? ? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ??? ??Γ21=π。2χ分布是非对称分布,具有可加性, 即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、X n+m 相互 独立且都服从N(0,1),再根据2χ分布的定义以及上述随机变量的相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2. t 分布 若X 与Y 相互独立,且 X ~N(0,1),Y ~2χ(n ),则Z =n Y X 的分布称为自由度 等于n 的t 分布,记作Z ~ t (n ),它的分布密度

收集于网络,如有侵权请联系管理员删除 P(z)=)()(221n n n ΓΓ+2121+-???? ? ?+n n z 。 请注意:t 分布的分布密度也是偶函数,且当n>30 时,t 分布与标准正态分布N(0,1)的密度曲线几乎重叠为一。这时, t 分布的分布函数值查N(0,1)的分布函数值表便可以得到。 3. F 分布 若X 与Y 相互独立,且X ~2χ(n ),Y ~ 2χ(m ), 则Z=m Y n X 的分布称为第一自由度等于n 、第二自由度等于m 的F 分布,记作Z ~F (n , m ),它的分布密度 p(z)=?????????>++-??? ??Γ??? ??Γ??? ??+Γ?。其他,00,2)(1222222z m n z n m n z m n m n m m n n 请注意:F 分布也是非对称分布,它的分布密度与自由度的次序有关,当Z ~F (n , m )时, Z 1~F (m ,n )。 4. t 分布与F 分布的关系 若X ~t(n ),则Y=X 2~F(1,n )。 证:X ~t(n ),X 的分布密度 p(x )=??? ??Γ?? ? ??+Γ221n n n π2121+-???? ??+n n x 。 Y=X 2的分布函数F Y (y ) =P{Y0时,F Y (y ) =P{-y

第四章正态分布体育统计学.docx

第四章正态分布 如果将第二章中的(表 2 — 1)中的数据绘制成直方图,把每个方条顶部中点联结起来,就得到一个图形,它称为频数多边形。(图 4 — 1)当分组数很多,组距很小时,频数多边形就趋于类似(图 4 — 2)所示的平滑的曲线。这种曲线呈现出两侧近似对称的钟形。随机 变量的类似这种分布,在自然界是相当普遍的其中最有代表性的是 正态分布。下面就来介绍正态分布及其在体育中的几个应用。 f 10 9 8 7 6 5 4 3 2 1 x 图4 — 1 频数多边形图 第一节正态分布曲线的形式 如果随机变量X 的概率密度函数为 y =12e( x22)2(x)(4 — 1)

则称随机变量 X 是服从正态分布的由上式绘出的图形叫做正态曲线。(图 4 — 2)X 的变动范围在至+间。 Y μX 图 4 — 2正态分布曲线 正态分布曲线中有两个参数:均值及方差 2 。为了应用方便,对式( 4 — 1)中的随机变量经过一个称为标准化的变换,即令 u 来代替原式中的x ,寻这时的随机变量u 的概率密度函数成 为: 2 y =12 e u2(4 — 2) 按照( 4 — 2)式绘出的图形,称作标准正态曲线。(图 4 — 3) Y 0.4 0.3 0.2 0.1 μ

图 4 — 3 标准正态分布曲线 第二节正态分布曲线的特征 正态分布曲线有许多特点,它们对实际工作有很大的帮助。它的主要特点有以下几个方面: 一,正态分布的形式是对称的(但对称的分布不一定是正态分布)。在正态分布中均值与中位数相重合。 二,从中央最高点逐渐向两侧降低,降低的速度是先慢后快,以 后又再次减慢,最后接近横轴,但终究不能与横轴相交。 三,从中央向两侧逐渐下降,它的方向是先向内弯,达到离均值 左右各一个标准差时又改向外弯,是以1的点为曲线从内弯转 向外弯的转折点,即正态曲线中标准差与曲线有固定的关系。 四,因为正态曲线是对称的,在曲线下不仅平均数的两侧面积相等,各相当距离间的面积相等,而且各相当距离间的曲线高度也相等,正态曲线下(与横轴间)的总面积为 1. 00。 五,正态曲线可以有不同形式,它们的均值和标准差可以不相同,均值不同表明曲线在横轴上所处位置不同,标准差不同表明曲线的形 态不同。标准差小则曲线高、且窄;标准差大则曲线低、且宽。(图4 — 4)由式(4 — 1)和(4 — 2)知,标准正态曲线的= 0,= 1,即标准正态曲线是关于纵轴对称;它在= 0 时,有最大值, 它近似等于 0. 4,如(图 4 — 3)所示。

常用分布概率计算的Excel应用

上机实习常用分布概率计算的Excel应用利用Excel中的统计函数工具,可以计算二项分布、泊松分布、正态分布等常用概率分布的概率值、累积(分布)概率等。这里我们主要介绍如何用Excel来计算二项分布的概率值与累积概率,其他常用分布的概率计算等处理与此类似。 §3.1 二项分布的概率计算 一、二项分布的(累积)概率值计算 用Excel来计算二项分布的概率值P n(k)、累积概率F n(k),需要用BINOMDIST函数,其格式为: BINOMDIST (number_s,trials, probability_s, cumulative) 其中 number_s:试验成功的次数k; trials:独立试验的总次数n; probability_s:一次试验中成功的概率p; cumulative:为一逻辑值,若取0或FALSE时,计算概率值P n(k);若取1 或TRUE时,则计算累积概率F n(k),。 即对二项分布B(n,p)的概率值P n(k)和累积概率F n(k),有 P n(k)=BINOMDIST(k,n,p,0);F n(k)= BINOMDIST(k,n,p,1) 现结合下列机床维修问题的概率计算来稀疏现象(小概率事件)发生次数说明计算二项分布概率的具体步骤。 例3.1某车间有各自独立运行的机床若干台,设每台机床发生故障的概率为0.01,每台机床的故障需要一名维修工来排除,试求在下列两种情形下机床发生故障而得不到及时维修的概率: (1)一人负责15台机床的维修; (2)3人共同负责80台机床的维修。 原解:(1)依题意,维修人员是否能及时维修机床,取决于同一时刻发生故障的机床数。 设X表示15台机床中同一时刻发生故障的台数,则X服从n=15,p=0.01的二项分布: X~B(15,0.01), 而 P(X= k)= C15k(0.01)k(0.99)15-k,k = 0, 1, …, 15 故所求概率为 P(X≥2)=1-P(X≤1)=1-P(X=0)-P(X=1) =1-(0.99)15-15×0.01×(0.99)14 =1-0.8600-0.1303=0.0097 (2)当3人共同负责80台机床的维修时,设Y表示80台机床中同一时刻发生故障的台数,则Y服从n=80、p=0.01的二项分布,即 Y~B(80,0.01) 此时因为 n=80≥30, p=0.01≤0.2 所以可以利用泊松近似公式:当n很大,p较小时(一般只要n≥30,p≤0.2时),对任一确定的k,有(其中 =np)

统计学常用分布及其分位数完整版

统计学常用分布及其分 位数 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

§ 常用的分布及其分位数 1. 卡平方分布 卡平方分布、t 分布及F 分布都是由正态分布所导出的 分布,它们与正态分布一起,是试验统计中常用的分布。 当X 1、X 2、…、Xn 相互独立且都服从N(0,1)时, Z=∑i i X 2 的分布称为自由度等于n 的2χ分布,记作Z ~ 2χ(n),它的分布密度 p(z )=??? ????>??? ??Γ--,,00,2212122其他z e x n z n n 式中的?? ? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ??? ??Γ21=π。2χ分布是非对称分布,具有可加性, 即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、X n+m 相互 独立且都服从N(0,1),再根据2χ分布的定义以及上述随机变量的相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2. t 分布 若X 与Y 相互独立,且 X ~N(0,1),Y ~2χ(n ),则Z =n Y X 的分布称为自由度等于n 的t 分布,记作Z ~ t (n ),它的分布密度 P(z)=)()(221n n n ΓΓ+2121+-???? ? ?+n n z 。 请注意:t 分布的分布密度也是偶函数,且当n>30 时,t 分布与标准正态分布N(0,1)的密度曲线几乎重叠为一。这时, t 分布的分布函数值查N(0,1)的分布函数值表便可以得到。

统计学常用分布及其分位数

统计学常用分布及其分 位数 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

§ 常用的分布及其分位数 1. 卡平方分布 卡平方分布、t 分布及F 分布都是由正态分布所导出的 分布,它们与正态分布一起,是试验统计中常用的分布。 当X 1、X 2、…、Xn 相互独立且都服从N(0,1)时, Z=∑i i X 2 的分布称为自由度等于n 的2χ分布,记作Z ~ 2χ(n),它的分布密度 p(z )=???????>??? ??Γ--,,00,2212122其他z e x n z n n 式中的??? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ??? ??Γ21=π。2χ分布是非对称分布,具有可加性, 即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、X n+m 相互 独立且都服从N(0,1),再根据2χ分布的定义以及上述随机变量的相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2. t 分布 若X 与Y 相互独立,且

等于n 的t 分布,记作Z ~ t (n ),它的分布密度 P(z)= )()(221n n n ΓΓ+2121+-???? ??+n n z 。 请注意:t 分布的分布密度也是偶函数,且当n>30 时,t 分布与标准正态分布N(0,1)的密度曲线几乎重叠为一。这时, t 分布的分布函数值查N(0,1)的分布函数值表便可以得到。 3. F 分布 若X 与Y 相互独立,且X ~2χ(n ),Y ~ 2χ(m ), 则Z=m Y n X 的分布称为第一自由度等于n 、第二自由度等于m 的F 分布,记作Z ~F (n , m ),它的分布密度 p(z)=?????????>++-??? ??Γ??? ??Γ??? ??+Γ?。其他,00,2)(1222222z m n z n m n z m n m n m m n n 请注意:F 分布也是非对称分布,它的分布密度与自由度的次序有关,当Z ~F (n , m )时, Z 1~F (m ,n )。 4. t 分布与F 分布的关系 若X ~t(n ),则Y=X 2~F(1,n )。 证:X ~t(n ),X 的分布密度 p(x )=??? ??Γ?? ? ??+Γ221n n n π2121+-???? ??+n n x 。 Y=X 2的分布函数F Y (y ) =P{Y

统计学常用分布及其分位数

z2 n § 1.4 常用的分布及其分位数 1. 卡平方分布 卡平方分布、t 分布及F 分布都是由正态分布所导出的分 丫? 2 (n ), Z ? 2 (m ),贝U Y+Z ? 2 (n+m )。 证明:先令X 1、X 2、…、X n 、X n +1、X n+2、…、X n+m 相互独 立且都服从N(0,1),再根据 2 分布的定义以及上述随机变量 的相互独立性,令 即可得到 Y+Z ?2 (n +m )。 2. t 分布若X 与丫相互独立,且 X ?N(0,1), 丫?2 (n ),贝V Z = x 丫的分布称为自由度 / n 布,它们与正态分布一起,是试验统计中常用的分布。 当X 1、X 2、…、Xn 相互独立且都服从 N(0,1)时,Z= 分布称为自由度等于 n 布密度 P (z )= 1 n 22 的 n 2 X X i 2 的 i 2 分布,记作Z ?2 (n),它的分 z 2 式中的 n u 2 n 2 0, 1 u e d u , 称为Gamma 函数,且 1 =1 , 1 -=n 2 2 分布是非对称分布,具有可加性,即当 丫与Z ? 7 m 2 n X + ? ? ? + 2 2 n X + di 2 n X z= 2 n X + ? Y+Z= X 2+x 2+…+x n +X 2 i +x 2 2 +…+x 2 等于n 的t 分布,记作 Z ?t (n ),它的分布密度 1

请注意:t 分布的分布密度也是偶函数,且当 n>30时,t 分布与标准正态分布 N(0,1)的密度曲线几乎重叠为一。 这时, t 分布的分布函数值查 N(0,1)的分布函数值表便可以得到。 3. F 分布 若X 与丫相互 独立,且 X ?2 (n ), 丫?2 (m ), 则Z= X Y 的分布称为第一自由度等于 n 、第二自由度等于 n / m m 的F 分布,记作Z ?F (n , m ),它的分布密度 n z2 请注意:F 分布也是非对称分布,它的分布密度与自由度 1 的次序有关,当 Z ?F (n ,m )时,Z ?F (m ,n )。 4. t 分布与F 分布的关系 2 若 X ?t(n ),则 Y=X ?F(1,n )o n 1 证:X ?t(n ), X 的分布密度 p(x )=——2 1 — n n nn - Y =X 2 的分布函数 F Y (y )=P{Y< y }=P{X 2 v y }。 当 y o 时,F Y (y)=o , P Y (y )=o ; 当 y >0 时,F Y (y ) =P{- y vXv y } P(z)= z 0 其 2 (m n z) 2 0,

统计学常用分布及分位数

§1、4 常用得分布及其分位数 1、卡平方分布 卡平方分布、t分布及F分布都就是由正态分布所导出得分布,它们与正态分布一起,就是试验统计中常用得分布。 当X1、X2、…、Xn相互独立且都服从N(0,1)时,Z=得分布称为自由度等于n得分布,记作Z~(n),它得分布密度p(z)= 式中得=,称为Gamma函数,且=1,=。分布就是非对称分布,具有可加性,即当Y与Z相互独立,且Y~(n),Z~(m),则Y+Z~(n+m)。 证明:先令X1、X2、…、X n、X n+1、X n+2、…、Xn+m 相互独立且都服从N(0,1),再根据分布得定义以及上述随机变量得相互独立性,令 Y=X+X+…+X,Z=X+X+…+X, Y+Z= X+X+…+X+X+X+…+X, 即可得到Y+Z~(n+m)。 2、t分布若X与Y相互独立,且 X~N(0,1),Y~(n),则Z =得分布称为自由度等于n得t分布,记作Z ~ t (n),它得分布密度 P(z)= 。 请注意:t分布得分布密度也就是偶函数,且当n>30时,t分布与标准正态分布N(0,1)得密度曲线几乎重叠为一。

这时, t分布得分布函数值查N(0,1)得分布函数值表便可以得到。 3、F分布若X与Y相互独立,且X~(n),Y~(m),则Z=得分布称为第一自由度等于n、第二自由度等于m 得F分布,记作Z~F (n, m),它得分布密度 p(z)= 请注意:F分布也就是非对称分布,它得分布密度与自由度得次序有关,当Z~F (n,m)时,~F (m ,n)。 4、t分布与F分布得关系 若X~t(n),则Y=X~F(1,n). 证:X~t(n),X得分布密度p(x)= 。 Y=X得分布函数F(y) =P{Y

利用Excel的NORMSDIST计算正态分布函数表

利用Excel的NORMSDIST 函数建立正态 分布表 董大钧,乔莉 理工大学应用技术学院、信息与控制分院,113122 摘要:利用Excel办公软件特有的NORMSDIST函数可以很准确方便的建立正态分布表、查找某分位数点的正态分布概率值,极大的提高了数理统计的效率。该函数可返回指定平均值和标准偏差的正态分布函数,将其引入到统计及数据分析处理过程中,代替原有的手工查找正态分布表,除具有直观、形象、易用等特点外,更增加了动态功能,极大提高了工作效率及准确性。 关键词:Excel;正态分布;函数;统计 引言 正态分布是应用最广泛的连续概率分布,生产与科学实验中很多随机变量的概率分布都 可以近似地用正态分布来描述。例如,在生产条件不变的情况下,某种产品的力、抗压强度、 口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个 量具有正态分布。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。 在科学研究及数理统计计算过程中,人们往往要通过某本概率统计教材附录中的正态分布表 去查找,非常麻烦。若手头有计算机,并安装有Excel软件,就可以利用Excel的NORMSDISTX )函数进行计算某分位数点的正态分布概率值,或建立一个正态分布表,准确又方便。 1正态分布及其应用 正态分布(normal distribution )又名高斯分布(Gaussian distribution),是一个在数学、 物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为卩、标准方差为 /的高斯分布,记为N(卩,/ )。则其概率密度函数为正态分布的期望值□决定了其位置,其标准差b决定了分布的幅度。因其曲线呈钟

相关文档
最新文档