统计学 三大分布-经典案例全集
合集下载
统计学三大分布的应用

统计学三大分布的应用
统计学三大分布是指正态分布、t分布和卡方分布。
这些分布在统计学中应用广泛,下面将分别介绍其应用。
正态分布是自然界中最常见的分布之一,常用于描述连续性变量。
例如,身高、体重、智商等连续性变量都可以用正态分布来描述。
在假设检验、置信区间估计和回归分析等统计学方法中,正态分布也是一个非常重要的理论基础。
t分布是由威廉·塞德威克·高斯特(W.S.Gosset)于1908年提
出的,用来解决小样本量的问题。
t分布的形状与正态分布非常接近,但是在样本量较小的情况下,t分布的尾部更宽一些,因此在小样本量的情况下,使用t分布进行假设检验和置信区间估计更为合适。
卡方分布是概率论中一个重要的分布,通常应用于描述计数数据。
例如,在卡方检验中,卡方分布常常用来处理分类数据,如调查中统计“喜欢”或“不喜欢”某种产品或服务的人数。
卡方分布也常用于多项式回归和逻辑回归等模型中。
综上所述,正态分布、t分布和卡方分布在统计学中应用非常广泛,是统计学的重要组成部分。
对于从事统计学研究或相关领域的人员来说,深入理解和熟练运用这些分布是非常重要的。
- 1 -。
三大抽样分布课件

在方差分析中,t分布用于检验 各个组之间的均值是否存在显著
差异。
04
CATALOGUE
卡方分布
卡方分布的定义
定义
卡方分布是一种连续概率分布,描述 了随机变量的取值与自由度的平方之 间的比例关系。
公式
若随机变量X符合卡方分布,则X的概 率密度函数为f(x)=x^(n/2-1)e^(x/2)/2^(n/2)Γ(n/2),其中n为自由度 ,Γ为伽玛函数。
正态分布
正态分布的定义
01
正态分布是一种连续概率分布, 其概率密度函数呈钟形,对称轴 为均值所在直线,形状由标准差 决定。
02
正态分布是自然界中最常见的分 布形态,许多随机变量都服从或 近似服从正态分布。
正态分布的性质
01
02
03
集中性
正态分布曲线以均值为中 心,两侧分布对称。
均匀性
正态分布曲线是关于标准 差对称的,形状由标准差 决定。
t分布
t分布的定义
定义
t分布(也称为学生t分布)是一种 连续概率分布,其形状由自由度 参数决定。
描述
当数据来自正态分布的总体,且样 本量较小(通常n<30)时,t分布 近似于正态分布。
公式
t分布的密度函数和分布函数可以用 一系列复杂的数学公式来描述。
t分布的性质
形状
峰度
随着自由度的增加,t分布的形状逐渐 接近正态分布。
t分布的峰度大于正态分布的峰度,且 随着自由度的增加而减小。
偏度
t分布通常是偏态的,其偏度随着自由 度的增加而减小。
t分布在统计学中的应用
假设检验
在样本量较小时,t分布在假设 检验中常用作正态分布的替代,
用于检验统计假设。
差异。
04
CATALOGUE
卡方分布
卡方分布的定义
定义
卡方分布是一种连续概率分布,描述 了随机变量的取值与自由度的平方之 间的比例关系。
公式
若随机变量X符合卡方分布,则X的概 率密度函数为f(x)=x^(n/2-1)e^(x/2)/2^(n/2)Γ(n/2),其中n为自由度 ,Γ为伽玛函数。
正态分布
正态分布的定义
01
正态分布是一种连续概率分布, 其概率密度函数呈钟形,对称轴 为均值所在直线,形状由标准差 决定。
02
正态分布是自然界中最常见的分 布形态,许多随机变量都服从或 近似服从正态分布。
正态分布的性质
01
02
03
集中性
正态分布曲线以均值为中 心,两侧分布对称。
均匀性
正态分布曲线是关于标准 差对称的,形状由标准差 决定。
t分布
t分布的定义
定义
t分布(也称为学生t分布)是一种 连续概率分布,其形状由自由度 参数决定。
描述
当数据来自正态分布的总体,且样 本量较小(通常n<30)时,t分布 近似于正态分布。
公式
t分布的密度函数和分布函数可以用 一系列复杂的数学公式来描述。
t分布的性质
形状
峰度
随着自由度的增加,t分布的形状逐渐 接近正态分布。
t分布的峰度大于正态分布的峰度,且 随着自由度的增加而减小。
偏度
t分布通常是偏态的,其偏度随着自由 度的增加而减小。
t分布在统计学中的应用
假设检验
在样本量较小时,t分布在假设 检验中常用作正态分布的替代,
用于检验统计假设。
三大统计分布

, x0 x0
,
(6-17)
图6.4是四组不同参数下该密度函数的图像.
1.0
n1 20, n2 10 n1 5, n2 10 n1 5, n2 5 n1 1, n2 5
0.8
0.6
0.4
0.2
0.0 0 1 2 3 4 5
x
图 6.4
F 分布的概率密度函数
另外,由定义6.3,立即有以下结论: 1 若F ~ F (n1 , n2 ) ,则 F ~ F (n , n ) . 1 这个结论可用于计算分布 F ~ F (n2 , n1 )的 -上侧 分位数 F (n1 , n2 ) . 具体地说,我们有 1 F (n1 , n2 ) . (6-18) F1a (n2 , n1 ) 事实上,由 F ~ F (n1 , n2 )、 1 ~ F (n2 , n1 ) 以及上 F 侧分位数的定义可推出
2 - 分布也称为皮尔逊 2 -分布. 这是数理统计中
一个十分重要的概率分布. 根据独立随机变量和的密度公式(3-27)和数学 2 (n)-分布的概率密度函 归纳法,可以证明: 1 x e , x0 数为(详见[5]) f ( x ) 2 Γ( ) ,(6-9) 0 , x 0 其中Γ( x)是Γ -函数,定义见第四章附录2. 图 6.1是 2 -变量的概率密度函数(6-9)在几种不 同参数下的图像.
f n ( x)
N(0,1) n = 10 n=5 n=2 n=1
0.30.2Fra bibliotek0.10 -3
-2
-1
0
1
2
x
3
图 6.3
t-分布的概率密度函数
(2)(数字特征)若 Tn ~ t (n) , n 2 ,则
概率论与数理统计 7.2 数理统计中的三大分布

数理统计
7.2 数理统计中的三大抽样分布
在数理统计中,以标准正态变量为基石而构 造的三个著名统计量有着广泛的应用,这是因为 这三个统计量不仅有明确背景,而且其抽样分布 的密度函数有明显的数学表达式,它们被称为统 计中的“ 三大抽样分布 ” 。
1. 2 分布
数理统计
2分布是由正态分布派生出来的一种分布.
t1 (n) t (n)
o t (n)
x
t分布的上分位点t (n)可查表
求得,例t0.025(15) 2.1315.
当n 45时,对于常用的的值,可用正态近似 t (n) z
例3:X ~ t(15)
(1)求 0.01的上侧分位数; (2) P( X ) 0.05,求 ; (3)P( X ) 0.95 ,求 .
记为 t ~ t(n). t分布概率密度函数为:
f (t)
[(n 1)
2]
(1
t
2
)
n1 2
,
t
(n 2) n n
t 分布的图像
y N (0,1) 数理统计
t(n)
t分布的性质: 1. 设t ~ t(n),则E(t) 0, D(t) n (n 2) (n 2)
2. t分布的密度函数关于t 0对称.当n充分大时, 其图形近似于标准正态分布概率密度的图形,
F分布的上分位点的性质:
F1 (n1, n2 )
1 F (n2 , n1 )
F分布的上分位点可查表求得.例,
F0.95 (12,9)
1 F0.05 (9,12)
1 2.80
0.357
例4. F ~ F (24,15),求 1,2 使 P(F 2 ) 0.025 P(F 1) 0.025
7.2 数理统计中的三大抽样分布
在数理统计中,以标准正态变量为基石而构 造的三个著名统计量有着广泛的应用,这是因为 这三个统计量不仅有明确背景,而且其抽样分布 的密度函数有明显的数学表达式,它们被称为统 计中的“ 三大抽样分布 ” 。
1. 2 分布
数理统计
2分布是由正态分布派生出来的一种分布.
t1 (n) t (n)
o t (n)
x
t分布的上分位点t (n)可查表
求得,例t0.025(15) 2.1315.
当n 45时,对于常用的的值,可用正态近似 t (n) z
例3:X ~ t(15)
(1)求 0.01的上侧分位数; (2) P( X ) 0.05,求 ; (3)P( X ) 0.95 ,求 .
记为 t ~ t(n). t分布概率密度函数为:
f (t)
[(n 1)
2]
(1
t
2
)
n1 2
,
t
(n 2) n n
t 分布的图像
y N (0,1) 数理统计
t(n)
t分布的性质: 1. 设t ~ t(n),则E(t) 0, D(t) n (n 2) (n 2)
2. t分布的密度函数关于t 0对称.当n充分大时, 其图形近似于标准正态分布概率密度的图形,
F分布的上分位点的性质:
F1 (n1, n2 )
1 F (n2 , n1 )
F分布的上分位点可查表求得.例,
F0.95 (12,9)
1 F0.05 (9,12)
1 2.80
0.357
例4. F ~ F (24,15),求 1,2 使 P(F 2 ) 0.025 P(F 1) 0.025
统计学 三种常用分布

以其中二只死亡的概率是多少为例,则3只 白鼠中2只死亡的概率为上述概率之和
引出
P=3×π2(1-π)= C32? 2 (1? ? )
?? ?? ?? P( X ? k) ? Cnk k (1 ?
)n?k
?
?n?
? ?
k
? ?
k (1 ?
)n?k ?
n!
k!(n ? k)!
k (1 ?
)n?k
Bernoulli试验的三个条件
?注意:单双侧
正态分布法
百分位数法
双侧
单侧
双侧
单侧
%
下限 上限
下限 上限
90 x ? 1.64 x ? 1.28s x ? 1.28 s P5~P95
P10
P90
95 x ? 196s x ? 1.64s x ? 1.64s P2.5~P9.75 P5
P95
99 x ? 2.58s x ? 2.33s x ? 2.33s P0.5~P99.5 P1
x 第一只白鼠 第二只白鼠 第三只白鼠 发生的概率
0 存活 1 死亡
存活
存活 存活 死亡
存活 存活 存活
P=(1-π)3 P=π(1-π)2 P=π(1-π)2
存活
存活
死亡
P=π(1-π)2
2 死亡 死亡 存活
3 死亡
死亡 存活 死亡 死亡
存活 死亡 死亡 死亡
P=π2(1-π) P=π2(1-π) P=π2(1-π) π3
? 每一次试验结果,只能是两个互斥的结果之一 (成功与失败)
? 每次试验成功的概率不变 ? 各次试验相互独立
如果服从以上三个条件,那么n次试验中, 成功次数X服从二项分布。记为X~B(n,? )
三大抽样分布及常用统计量的分布

随(1机) 样XX本132,试XX2问42 下; 列(2统) 计n量n各1XX服i21从; 什(么3)分(n3布?n1)Xi31i2
X
2 i
.
i2
i4
n
续解 (2) 因为X1~N(0,1),
X
2 i
~
2(n
1)
故
i2
n 1X1
n
n
X1
~t(n-1).
X
2 i
X
2 i
(n 1)
i2
i2
例1 设总体X~N(0,1), X1,X2,…,Xn为简单
项是独立的.所以(4.1)式的自由度是n-1.
定理3: 设(X1,X2,…,Xn)为来自正态总体
X~N( , 2)的样本,则
(1) 样本均值 X与样n本方差S 2相互独立;
(2)
(n 1)S 2
2
(Xi
i 1
2
X)2
~
2(n 1)
(4.1)
与以下补充性质的结论比较:
性质 设(X1,X2,…,Xn)为取自正态总体
f(x)
其中f(x)是 2-分布的概率密度. O
图5-5 2(n) x
显然,在自由度n取定以后,2(n)的值只与有关.
例如,当n=21,=0.05时,由附表3(P254)可查得,
02.05(21) 32.67 即 P 2(21) 32.67 0.05.
二、t分布
定义3 设随机变量X~N(0,1),Y~ 2(n) ,
(4.1)
(4.1)式的自n 由度为什么是n-1?
从表面上看, (Xi X)2是n个正态随机变量 Xi X 的平方和,
但实际上它们不i是1 独立的,它们之间有一种线性约束关系:
统计学 三大分布-经典案例全集

结论:当n<<N(n<=0.05N)超几何分布→二项分布
0.6
0.5
0.4
0.3
0.2
0.1
0
1
2
3
4
0.5
0.45
0.4
0.35
0.3
超几何分布 0.25 二项分布 0.2
0.15
0.1
0.05
0
1
2
3
4
超几何分布 二项分布
10=3次+7正,任取3件, 有放回 无放回
100=30次+70正,任取3件, 有放回 无放回
例220 某商店根据过去的销售记录知道某种商品每月的 销售量可以用参数为10的泊松分布来描述 为了以95%以 上的概率保证不脱销 问商店在月底应存多少件该种商品(设 只在月底进货)?大卖场的顾客数n很大,买商品概率P很少/多
解 设该商店每月销售该 商品的件数为X 月底存货为a 则当Xa时就不会脱销 据题 意 要求a使得
泊松分布
0.06
二项正态
0.04
二项泊松分离
0.02
二项正态重合
0
1 4 7 10 13 16 19 22 25 28 31
二项分布→泊松分布/正态分布 n=100,p=0.2,np=20
0.12
0.1
N=2000产品
次品NA=400
0.08 二项分布
0.06
泊松分布
二项正态 0.04
二项泊松分离
理论基础
数据:N=总体个数,N1=总体中A的个数, n=样本个数,k=样本中A的个数;
逼近关系:
N件产品,其中N1件次品 n<=0.05NN件产品,次品率N1/N
概率论中三个重要分布 ppt课件

三个重要分布
χ2分布 t分布 F分布
PPT课件
1
χ2分布
PPT课件
2
χ2分布的定义
设X为正态分布总体的随机变量,其平均数及
方差分别为μ和σ2,即X~N(μ,σ2), 为X来自该
总体的n个样本值x1, x2, …, xn的样本平均数,则 样本统计量
n
(xi X )2
i 1
PPT课件
15
t分布的α分为点
对于给定的α(0<α<1),称满足条件
P{t t (n)}
的点tα(n)为t分布上的α分为点 由t分布概率密度函数的对称性有
t1 (n) t (n)
PPT课件
16
t分布α分为点的求法
t分布α分为点的求法:
对于n≤45的α分为点可查表求得; 当n充分大(n>45)时,近似地有
χ2分布的期望为:E(χ2(n))=n,方差为: D(χ2(n))=2n
χV2~分χ2布(n具2),有则可U加+性V~。χ若2(nU1~+χn22()n1),
PPT课件
6
χ2分布的α分为点
对于给定的α(0<α<1) ,称满足条件
P( 2 (n) 2 (n))
的点2 (n)为χ2(n)分布的α分为点
知时,以样本方差s2替代,则
X
s
t
~
t(n
1)
n
是自由度为n-1的t分配,记为t(n-1)
PPT课件
11
t分布的概率密度
t(n-1)的概率密度函数为
f (t)
Γ(n) 2
(1
t2
χ2分布 t分布 F分布
PPT课件
1
χ2分布
PPT课件
2
χ2分布的定义
设X为正态分布总体的随机变量,其平均数及
方差分别为μ和σ2,即X~N(μ,σ2), 为X来自该
总体的n个样本值x1, x2, …, xn的样本平均数,则 样本统计量
n
(xi X )2
i 1
PPT课件
15
t分布的α分为点
对于给定的α(0<α<1),称满足条件
P{t t (n)}
的点tα(n)为t分布上的α分为点 由t分布概率密度函数的对称性有
t1 (n) t (n)
PPT课件
16
t分布α分为点的求法
t分布α分为点的求法:
对于n≤45的α分为点可查表求得; 当n充分大(n>45)时,近似地有
χ2分布的期望为:E(χ2(n))=n,方差为: D(χ2(n))=2n
χV2~分χ2布(n具2),有则可U加+性V~。χ若2(nU1~+χn22()n1),
PPT课件
6
χ2分布的α分为点
对于给定的α(0<α<1) ,称满足条件
P( 2 (n) 2 (n))
的点2 (n)为χ2(n)分布的α分为点
知时,以样本方差s2替代,则
X
s
t
~
t(n
1)
n
是自由度为n-1的t分配,记为t(n-1)
PPT课件
11
t分布的概率密度
t(n-1)的概率密度函数为
f (t)
Γ(n) 2
(1
t2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§2.3 常用的离散型分布: . 常用的离散型分布: 超几何分布→二项分布→泊松分布/正态分布 超几何分布→二项分布→泊松分布 正态分布 *六、超几何分布
* √四、二项分布
* √七、泊松(Poisson)分布 一、退化分布 二、两点分布 三、离散均匀分布
注解:凡是带有×可以不讲,√都是重点,*都是难点
离散分布之一:超几何分布 二项分布 离散分布之一:超几何分布vs二项分布
1,超几何分布:基本意义/期望方差 与二项 ,超几何分布:基本意义 期望方差 期望方差/与二项 分布的关系 2,二项分布:基本意义 期望方差 与超几何 期望方差/与超几何 ,二项分布:基本意义/期望方差 分布的关系 有放回抽样模型=重复抽样模型 重复抽样模型=二项分布 有放回抽样模型 重复抽样模型 二项分布 B(n,P),EXCEL:BINOMDIST(k,n,P,逻辑值 逻辑值) 逻辑值 不放回抽样模型=不重复抽样 不重复抽样=超几何分布 不放回抽样模型 不重复抽样 超几何分布 H(n,N1,N), EXCEL:HYPGEOMDIST(k,n,N1,N)
k N1
n 0 C N 1C N 2 n CN
Cn0P0qn , Cn1P1qn-1, Cn2P2qn-2 … CnkPkqn-k… CnnPnq0
λ λ λ λ λ λ0e−λ/0!, λ1e −λ /1!,λ2e −λ /2 … λke−λ/k! … λne−λ/n! ,
超几何分布→二项分布→泊松分布/ 超几何分布→二项分布→泊松分布/正态分布
伦敦上空的鹰究竟是有目的的轰炸行为还是随机的行为? 伦敦上空的鹰究竟是有目的的轰炸行为还是随机的行为? 二次世界大战期间, 二次世界大战期间,德军飞机对英伦三岛进行了无数次的轰炸 空袭行动,为了了解英军情报是否泄密,英国密码是否被破译, 空袭行动,为了了解英军情报是否泄密,英国密码是否被破译, 英国情报机构对英国各被轰炸地区进行一项统计调查, 英国情报机构对英国各被轰炸地区进行一项统计调查,他们对 伦敦划分成586区,统计每个地区实际被轰炸次数如下: 每个地区实际被轰炸次数如下: 伦敦划分成 区 统计每个地区实际被轰炸次数如下 X= 0 1 2 3 4 5 6 7… 7 1 0 0… 频数 229 221 93 35 EX=0.93次=λ=nP但是德军空袭次数n未知,理论被炸区数 但是德军空袭次数n 次 λ=nP但是德军空袭次数 未知, P(λ P(λ)=231.2 215 100 31 7.2 1.34 0.2 0.02 结论:德军的空袭对任何地区发生的概率均等, 结论:德军的空袭对任何地区发生的概率均等,且每次空袭袭 击任何地区的概率都是P 试验属于n 击任何地区的概率都是P,试验属于n重独立试验 类似案例:公司销售数据概率分布的获得, 类似案例:公司销售数据概率分布的获得,如eg2.20 2,….,10, 12,…, k,…mean=EX= mean=EX=λ X= 0, 1, 2, .,10, 11, 12, , k, mean=EX=λ 频率f=f Pk…实际概率 实际概率f 频率f=f0 f1 f2 … f10 f11 f12… Pk 实际概率f P(X)= P0 P1 P2 … P10 P11 P12… Pk…理论概率P Pk 理论概率P 理论概率 |fi-Pi|<a(阈值 then概率分布为P(X),否则, 阈值) 概率分布为P(X) If Σ|fi-Pi|<a(阈值) then概率分布为P(X),否则,非P(X)
销售数据
实际销售数据概率
销售累计概率=不脱销率 销售累计概率= 4.53999E4.53999E-05 0.000453999 0.002269996 0.007566655 0.018916637 0.037833275 0.063055458 0.090079226 0.112599032 0.125110036 0.125110036 0.113736396 0.09478033 0.072907946 0.052077104 0.03471807 0.021698794 0.012763996 4.53999E4.53999E-05 0.000499399 0.002769396 0.010336051 0.029252688 0.067085963 0.130141421 0.220220647 0.332819679 0.457929714 0.58303975 0.696776146 0.791556476 0.864464423 0.916541527 0.951259597 0.97295839 0.985722386
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
图示:实际销售数据概率/不脱销率的变化规律
销售数据概率 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 3 5 7 9 11 13 15 17 19 21 销售数据概率
销售累计概率=不脱销率 1.2 1 0.8 0.6 0.4 0.2 0 1 3 5 7 9 11 13 15 17 19 21 销售累计概率=不 脱销率
0.2 0.15 0.1 0.05
5
10
15
20
一、超几何分布→二项分布:案例分析 案例: 产品 产品, 任取3 案例:10产品,3-7+;100件,30-70+,任取 ; 件 任取 无放回: 1 2 3 无放回:X= 0 P(X=)=C73/C103 C31C72/C103 C32C71/C103 C33/C103 0.2917 0.525 0.175 0.0083 C703/C1003,C301C702/C1003,C302C701/C1003,C303/C1003 0.339 0.448 0.188 0.025 有放回=C 有放回 300.73 C310.310.72 C320.320.71 C330.33 0.343 0.441 0.189 0.027 显然: 显然:当N→+∞,H(n,N1,N2,N)→b(n,P) →+∞,H(n,N1,N2,N)→b(n,P) 图形分析: 产品总量N越大,n/N越小 则越接近! 越小, 图形分析:1,产品总量N越大,n/N越小,则越接近! 得到正态模型! 2,两者图形向两边延伸 ,得到正态模型!
结论: 超几何分布→ 结论:当n<<N(n<=0.05N)超几何分布→二项分布 超几何分布
0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4
0.5 0.45 0.4 0.35 0.3 超几何分布 0.25 二项分布 0.2 0.15 0.1 0.05 0 1 2 3 4
超几何分布 二项分布
案例: 案例:二项分布适用范围
1.所有卖场销售数据:每天进场人数n不详,每天购买概率 所有卖场销售数据:每天进场人数 不详 不详, 所有卖场销售数据 P未知,但是每天销售数据 已知,如何求解销售数据的 未知, 已知, 未知 但是每天销售数据nP已知 概率分布? 概率分布? 好又多家乐福沃尔马/苏宁国美 苏宁国美/DELL/本田 万科 本田/万科 好又多家乐福沃尔马 苏宁国美 本田 2.电子商务销售数据:已知点击人数 购买率 ,购买人数 电子商务销售数据: 购买率P, 电子商务销售数据 已知点击人数n,购买率 np,求解分布 阿里巴巴 当当购物 阿里巴巴/当当购物 ,求解分布-阿里巴巴 3.网络邮箱 网络硬盘使用率:点击使用藤讯人数n,邮箱或 网络邮箱/网络硬盘使用率:点击使用藤讯人数 邮箱或 网络邮箱 网络硬盘使用率 硬盘使用率P,使用人数nP, 硬盘使用率 ,使用人数 , 藤讯QQ/网易 网易/163/Hotmail/MSN/yahoo…. 藤讯 网易 4.饭店 酒店食物定购:真功夫 麦当劳 肯德基 饭店/酒店食物定购 麦当劳/肯德基 饭店 酒店食物定购:真功夫/麦当劳 5.自己开店:花店 电脑城 自己开店: 电脑城/……如何进货销售曲线 自己开店 花店/电脑城 如何进货销售曲线 注解:案例1+5属于 属于n,p未知,案例 未知, 属于n,p已知 注解:案例 属于 未知 案例2+3+4属于 属于 已知
10=3次+7正,任取3件, 有放回 无放回
100=30次+70正,任取3件, 有放回 无放回
理论基础 数据: 总体个数, 总体中A的个数 数据:N=总体个数,N1=总体中 的个数, 总体个数 总体中 的个数, n=样本个数,k=样本中 的个数; 样本中A的个数 =样本个数, 样本中 的个数; 逼近关系: 逼近关系:
*√本节重点难点:超几何分布的极限分布是二项分布,二 项分布的极限分布是 Poisson 分布
课件分布规律与上课指南: 课件分布规律与上课指南: 1.离散分布之一:超几何与二项 离散分布之一: 离散分布之一 2.离散分布之二:二项与泊松 离散分布之二: 离散分布之二 小结:超几何转二项, 小结:超几何转二项,二项转泊松正态 3.离散分布之三:四大分布数字特征 离散分布之三: 离散分布之三 4.附录 附录 注意1:附录三有各种分布的EXCEL求解公式 注意 :附录三有各种分布的 求解公式 注意2:上课可以先将几个不重要的分布, 注意 :上课可以先将几个不重要的分布,在附录 1-退化 两点 退化/两点 均匀分布先简介30分钟 退化 两点/0-1/均匀分布先简介 分钟,再 均匀分布先简介 分钟, 用90分钟讲解四大分布及其关系 分钟讲解四大分布及其关系
N件产品,其中N1件次品 不放回抽n,其中次品k件 超几何分布 n<=0.05N N件产品,次品率N1/N n<<N 放回抽n,其中次品k件
二项分布
Ex.案例:已知一麻袋种子,(共有 万颗,其中 万颗 案例:已知一麻袋种子, 共有 万颗,其中90万颗 共有100万颗 万颗) 案例 发育正常90%,今从其中任取 粒,求播种后 恰有 粒 恰有8粒 发育正常 ,今从其中任取10粒 求播种后(1)恰有 (2)至少有 粒发芽的概率?(3)取1万颗,>8000发芽概率 至少有8粒发芽的概率? 取 万颗, 发芽概率 至少有 粒发芽的概率 万颗
* √四、二项分布
* √七、泊松(Poisson)分布 一、退化分布 二、两点分布 三、离散均匀分布
注解:凡是带有×可以不讲,√都是重点,*都是难点
离散分布之一:超几何分布 二项分布 离散分布之一:超几何分布vs二项分布
1,超几何分布:基本意义/期望方差 与二项 ,超几何分布:基本意义 期望方差 期望方差/与二项 分布的关系 2,二项分布:基本意义 期望方差 与超几何 期望方差/与超几何 ,二项分布:基本意义/期望方差 分布的关系 有放回抽样模型=重复抽样模型 重复抽样模型=二项分布 有放回抽样模型 重复抽样模型 二项分布 B(n,P),EXCEL:BINOMDIST(k,n,P,逻辑值 逻辑值) 逻辑值 不放回抽样模型=不重复抽样 不重复抽样=超几何分布 不放回抽样模型 不重复抽样 超几何分布 H(n,N1,N), EXCEL:HYPGEOMDIST(k,n,N1,N)
k N1
n 0 C N 1C N 2 n CN
Cn0P0qn , Cn1P1qn-1, Cn2P2qn-2 … CnkPkqn-k… CnnPnq0
λ λ λ λ λ λ0e−λ/0!, λ1e −λ /1!,λ2e −λ /2 … λke−λ/k! … λne−λ/n! ,
超几何分布→二项分布→泊松分布/ 超几何分布→二项分布→泊松分布/正态分布
伦敦上空的鹰究竟是有目的的轰炸行为还是随机的行为? 伦敦上空的鹰究竟是有目的的轰炸行为还是随机的行为? 二次世界大战期间, 二次世界大战期间,德军飞机对英伦三岛进行了无数次的轰炸 空袭行动,为了了解英军情报是否泄密,英国密码是否被破译, 空袭行动,为了了解英军情报是否泄密,英国密码是否被破译, 英国情报机构对英国各被轰炸地区进行一项统计调查, 英国情报机构对英国各被轰炸地区进行一项统计调查,他们对 伦敦划分成586区,统计每个地区实际被轰炸次数如下: 每个地区实际被轰炸次数如下: 伦敦划分成 区 统计每个地区实际被轰炸次数如下 X= 0 1 2 3 4 5 6 7… 7 1 0 0… 频数 229 221 93 35 EX=0.93次=λ=nP但是德军空袭次数n未知,理论被炸区数 但是德军空袭次数n 次 λ=nP但是德军空袭次数 未知, P(λ P(λ)=231.2 215 100 31 7.2 1.34 0.2 0.02 结论:德军的空袭对任何地区发生的概率均等, 结论:德军的空袭对任何地区发生的概率均等,且每次空袭袭 击任何地区的概率都是P 试验属于n 击任何地区的概率都是P,试验属于n重独立试验 类似案例:公司销售数据概率分布的获得, 类似案例:公司销售数据概率分布的获得,如eg2.20 2,….,10, 12,…, k,…mean=EX= mean=EX=λ X= 0, 1, 2, .,10, 11, 12, , k, mean=EX=λ 频率f=f Pk…实际概率 实际概率f 频率f=f0 f1 f2 … f10 f11 f12… Pk 实际概率f P(X)= P0 P1 P2 … P10 P11 P12… Pk…理论概率P Pk 理论概率P 理论概率 |fi-Pi|<a(阈值 then概率分布为P(X),否则, 阈值) 概率分布为P(X) If Σ|fi-Pi|<a(阈值) then概率分布为P(X),否则,非P(X)
销售数据
实际销售数据概率
销售累计概率=不脱销率 销售累计概率= 4.53999E4.53999E-05 0.000453999 0.002269996 0.007566655 0.018916637 0.037833275 0.063055458 0.090079226 0.112599032 0.125110036 0.125110036 0.113736396 0.09478033 0.072907946 0.052077104 0.03471807 0.021698794 0.012763996 4.53999E4.53999E-05 0.000499399 0.002769396 0.010336051 0.029252688 0.067085963 0.130141421 0.220220647 0.332819679 0.457929714 0.58303975 0.696776146 0.791556476 0.864464423 0.916541527 0.951259597 0.97295839 0.985722386
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
图示:实际销售数据概率/不脱销率的变化规律
销售数据概率 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 3 5 7 9 11 13 15 17 19 21 销售数据概率
销售累计概率=不脱销率 1.2 1 0.8 0.6 0.4 0.2 0 1 3 5 7 9 11 13 15 17 19 21 销售累计概率=不 脱销率
0.2 0.15 0.1 0.05
5
10
15
20
一、超几何分布→二项分布:案例分析 案例: 产品 产品, 任取3 案例:10产品,3-7+;100件,30-70+,任取 ; 件 任取 无放回: 1 2 3 无放回:X= 0 P(X=)=C73/C103 C31C72/C103 C32C71/C103 C33/C103 0.2917 0.525 0.175 0.0083 C703/C1003,C301C702/C1003,C302C701/C1003,C303/C1003 0.339 0.448 0.188 0.025 有放回=C 有放回 300.73 C310.310.72 C320.320.71 C330.33 0.343 0.441 0.189 0.027 显然: 显然:当N→+∞,H(n,N1,N2,N)→b(n,P) →+∞,H(n,N1,N2,N)→b(n,P) 图形分析: 产品总量N越大,n/N越小 则越接近! 越小, 图形分析:1,产品总量N越大,n/N越小,则越接近! 得到正态模型! 2,两者图形向两边延伸 ,得到正态模型!
结论: 超几何分布→ 结论:当n<<N(n<=0.05N)超几何分布→二项分布 超几何分布
0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4
0.5 0.45 0.4 0.35 0.3 超几何分布 0.25 二项分布 0.2 0.15 0.1 0.05 0 1 2 3 4
超几何分布 二项分布
案例: 案例:二项分布适用范围
1.所有卖场销售数据:每天进场人数n不详,每天购买概率 所有卖场销售数据:每天进场人数 不详 不详, 所有卖场销售数据 P未知,但是每天销售数据 已知,如何求解销售数据的 未知, 已知, 未知 但是每天销售数据nP已知 概率分布? 概率分布? 好又多家乐福沃尔马/苏宁国美 苏宁国美/DELL/本田 万科 本田/万科 好又多家乐福沃尔马 苏宁国美 本田 2.电子商务销售数据:已知点击人数 购买率 ,购买人数 电子商务销售数据: 购买率P, 电子商务销售数据 已知点击人数n,购买率 np,求解分布 阿里巴巴 当当购物 阿里巴巴/当当购物 ,求解分布-阿里巴巴 3.网络邮箱 网络硬盘使用率:点击使用藤讯人数n,邮箱或 网络邮箱/网络硬盘使用率:点击使用藤讯人数 邮箱或 网络邮箱 网络硬盘使用率 硬盘使用率P,使用人数nP, 硬盘使用率 ,使用人数 , 藤讯QQ/网易 网易/163/Hotmail/MSN/yahoo…. 藤讯 网易 4.饭店 酒店食物定购:真功夫 麦当劳 肯德基 饭店/酒店食物定购 麦当劳/肯德基 饭店 酒店食物定购:真功夫/麦当劳 5.自己开店:花店 电脑城 自己开店: 电脑城/……如何进货销售曲线 自己开店 花店/电脑城 如何进货销售曲线 注解:案例1+5属于 属于n,p未知,案例 未知, 属于n,p已知 注解:案例 属于 未知 案例2+3+4属于 属于 已知
10=3次+7正,任取3件, 有放回 无放回
100=30次+70正,任取3件, 有放回 无放回
理论基础 数据: 总体个数, 总体中A的个数 数据:N=总体个数,N1=总体中 的个数, 总体个数 总体中 的个数, n=样本个数,k=样本中 的个数; 样本中A的个数 =样本个数, 样本中 的个数; 逼近关系: 逼近关系:
*√本节重点难点:超几何分布的极限分布是二项分布,二 项分布的极限分布是 Poisson 分布
课件分布规律与上课指南: 课件分布规律与上课指南: 1.离散分布之一:超几何与二项 离散分布之一: 离散分布之一 2.离散分布之二:二项与泊松 离散分布之二: 离散分布之二 小结:超几何转二项, 小结:超几何转二项,二项转泊松正态 3.离散分布之三:四大分布数字特征 离散分布之三: 离散分布之三 4.附录 附录 注意1:附录三有各种分布的EXCEL求解公式 注意 :附录三有各种分布的 求解公式 注意2:上课可以先将几个不重要的分布, 注意 :上课可以先将几个不重要的分布,在附录 1-退化 两点 退化/两点 均匀分布先简介30分钟 退化 两点/0-1/均匀分布先简介 分钟,再 均匀分布先简介 分钟, 用90分钟讲解四大分布及其关系 分钟讲解四大分布及其关系
N件产品,其中N1件次品 不放回抽n,其中次品k件 超几何分布 n<=0.05N N件产品,次品率N1/N n<<N 放回抽n,其中次品k件
二项分布
Ex.案例:已知一麻袋种子,(共有 万颗,其中 万颗 案例:已知一麻袋种子, 共有 万颗,其中90万颗 共有100万颗 万颗) 案例 发育正常90%,今从其中任取 粒,求播种后 恰有 粒 恰有8粒 发育正常 ,今从其中任取10粒 求播种后(1)恰有 (2)至少有 粒发芽的概率?(3)取1万颗,>8000发芽概率 至少有8粒发芽的概率? 取 万颗, 发芽概率 至少有 粒发芽的概率 万颗