经验分布函数与直方图

合集下载

经验分布函数

经验分布函数

(1)均匀分布U(a,b) 1)unifrnd (a,b)产生一个[a,b] 均匀分布的随机数
2)unifrnd (a,b,m, n)产生m行n列的均匀分布随机数矩阵 当只知道一个随机变量取值在(a,b)内,但不 知道(也没理由假设)它在何处取值的概率大,在 何处取值的概率小,就只好用U(a,b)来模拟它。
f分布的逆累积分布函数 伽玛分布的逆累积分布函数 几何分布的逆累积分布函数 超几何分布的逆累积分布函数 正态分布的逆累积分布函数 泊松分布的逆累积分布函数
X=tinv(p,v) X=Unidnv(p,N) X=unifinv(p,A,B)
学生氏t分布的逆累积分布函数 离散均匀分布的逆累积分布函数 连续均匀分布的逆累积分布函数
(2)方差未知(检验法)




方差未知时,采用检验法,MATLAB函数为 h=ttest(x,m ,alpha,tail) 各参数意义同上,同样ttest函数也有几个常见 用法: [h,p]=ttest(参数) [h,p,ci]=ttest(参数)

(3)泊松分布 参数估计命令为 [lambdahat,lambdaci]=poissfit(x,alpha) 返回参数的估计值和置信区间. (4)均匀分布(已知,未知) 参数估计命令为 [ahat,bhat,aci,bci]=unifit(x,alpha) 返回值分别为参数的估计值和置信区间. (5)指数分布 参数估计命令为 [lambdahat, lambdaci]=expfit(x,alpha)
解:输入a1=a';b=a1(:); %将矩阵变成数列 [p1,p2,p1ci,p2ci]= normfit (b) 或者: a1=a';b=a1(:); 均值、标准差的极 [p,pci]=mle('norm',b) 输出:[p1,p2,p1ci,p2ci]= normfit (b) 大似然估计分别 为:600和195.6436 p1 =600 p2 =196.6292 均值95%的置信区 p1ci = 560.9845 间为:(561.6536, 639.0155 638.3464); p2ci =172.6418 标准差95%的置信 228.4192 区间为:(170.6834, 或phat =600.0000 195.6436 220.6038); pic = 561.6536 170.6834 638.3464 220.6038

1.3 顺序统计量

1.3  顺序统计量
求 F ( u, v ) .对于任意 u, v ,有
PX (1) u, X ( n ) v Pu X 1 v,, u X n v Pu X 1 v Pu X n v [ F ( v ) F ( u)]n , 若u v, 0 , 若u v ; F ( u, v ) PX (1 ) u, X ( n ) v PX ( n ) v PX (1 ) u, X ( n ) v [ F (v )]n [ F (v ) F ( u )]n , 若u v, n , 若 u v. [ F (v )]
1.3 顺序统计量
§1.3
顺序统计量、经验分布函数和直方图
一、顺序统计量 另一类常见的统计量是顺序统计量. 定义 1 设 X 1 , X 2 ,, X n 是取自总体 X 的样本, X ( i ) 称为 该样本的第 i 个顺序统计量,它的取值是将样本观测值由小 到大排列后得到的第 i 个观测值。x(1) x( 2 ) x( n ) ,X ( i ) 的值是 x ( i ) 。其中 X (1) minX 1 , X 2 ,, X n 称为该样本的最小顺 序统计量,称 X ( n ) maxX 1 , X 2 ,, X n 为该样本的最大顺序统 计量。 我们知道, 在一个样本中, X 1 , X 2 ,, X n 是独立同分布的, 而次序统计量 X (1) , X ( 2) ,, X ( n) 则既不独立,分布也不相同, 看下例。
假设总体 X 在区间[0,2]上服从均匀分布; Fn ( x )
是总体 X 的经验分布函数, 基于来自 X 的容量为 n 的简单随 机样本,求 Fn ( x ) 的概率分布,数学期望和方差. 解 总体 X 的分布函数为

应用数理统计课件(配庄楚强版教材)第二章

应用数理统计课件(配庄楚强版教材)第二章

(ξ1,ξ2,..,ξn), 则(ξ1,ξ2,…,ξn)的联合分布函
数为: F ( x1 , x2 ,L , xn )
= P { ξ1 < x1 , ξ 2 < x2 , ..., ξ n < xn }
= P { ξ1 < x1}P{ ξ 2 < x2 } ⋅ ... ⋅ P{ ξ n < xn }
(2)χ2 分布(Chi-square distribution)
χ 2 ~χ 2 (n)
{ } p分位点:χ p2 (n ) 满足P
χ
2
<
χ
2 p
(n)
=p
p53(9 347)表 4
χ
2 0.95
(9
)
=
16.91(9
p540)
表p 4 χ2 分布分位数表
n
p
8
9
0 .90 13.362 14.684
又如:α = 0.1,uα = u0.1 = ? (表中没有)
u0.1 = −u1−0.1 = −u0.9 = −1.282
对称性(symmetricy):
0.1
uα = −u1−α
α = 0.1
u0.1
u1− 0.1
习题或附表中α通常是指分位点之外的概率(面积)
单侧分位点:α放在分位点u1−α的一侧 双侧分位点: α分割放在正负对称的
2 +L +
)
m
1
9
二. t 分布 (t distribution)
Definition: 若ξ~N(0,1), η~χ2(n)且相互独立,
则有
t=
ξ η
~ t (n )

描述性统计分析与探索性统计分析

描述性统计分析与探索性统计分析

第一章 描述性统计我们把对某一个问题的研究对象的全体称为总体,总体就是一个具有确定分布的随机变量.我们统计分析的目的是通过从总体中抽得的样本,对总体分布进行推断,要想较准确的推断出总体的分布,首先要对样本的分布状况有一个基本的了解,这一章就是介绍用以描述样本分布状况的一些常用统计分析方法,这些方法既直观又简单,而且也很实用.1.1频数分析与图形表示一、总体X 为只取少数个值的离散型随机变量 例1.1.1考察一枚骰子是否均匀,设计实验如下: 独立地掷这枚骰子42次,所得点数纪录如下:3 24 15 1 5 3 4 3 56 4 2 5 3 1 3 4 1 4 3 1 6 3 3 1 2 4 2 6 3 4 6 6 1 6 2 4 5 2 6 X 为掷一枚均匀的骰子一次所得的点数二、当总体X 取较多离散值或X 为连续取值时设x x x n ,,21是总体X 的一组样本观测值,具体做法如下:1求出x )1(和x n )(,取a 略小于x )1(,b 略大于x n )(;2将区间[a ,b]分成m 个小区间(m <n ),小区间长度可以不等,分点分别为a =t t t m <<< 10=b注意:使每个小区间中都要有一定量的观测值,且观测值不在分点上。

划分区间个数的确定:区间过少:分布信息混杂,丢失信息. 区间过多:出现很多空区间.区间划分个数m 依赖于样本总数n ,理论上有如下两个公式可参考: Moore(1986) : m ≈C n 5/2,C = 1~3; Sturges(1928) : m ≈1+3.322(lg n );3用n j 表示落在小区间(t j 1-,t j ]中观测值的个数(频数)并计算频率f j =nn j (j=1,2,…,m );4在直角坐标系x-o-y 的x 轴上标出t t t m ,,,10 ,分别以(t j 1-,t j ]为底边,以n j 为高作矩形,即得频数条形图。

概率统计习题 5.2

概率统计习题 5.2

习题与解答5.21. 以下是某工厂通过抽样调查得到的10名工人一周内生产的产品数 149 156 160 138 149 153 153 169 156 156 试由这批数据构造经验分布函数并作图. 解 此样本容量为10,经排序可得有序样本:(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)138,149,153,156,160,169x x x x x x x x x x ==========其经验分布函数及其图形分别如下()01380.11490.31530.51560.81600.91691n x F <⎧⎪≤<⎪⎪≤<⎪=≤<⎨⎪≤<⎪≤<⎪⎪≥⎩,x ,, 138x ,, 149x ,, 153x ,, 156x ,, 160x ,, x 169.2. 下表是经过整理后得到的分组样本:试写出此分组样本的经验分布函数. 解 样本的经验分布函数为()037.50.1547.50.3557.50.7567.50.977.51n x x F <⎧⎪≤<⎪⎪≤<=⎨≤<⎪⎪≤<⎪≥⎩,,, 37.5x ,, 47.5x ,, 57.5x ,, 67.5x ,, x 77.5.3.假若某地区30名2000年某专业毕业生实习满后的月薪数据如下: 909 1086 1120 999 1320 1091 1071 1081 1130 1336 967 1572 825 914 992 1232 950 775 1203 1025 1096 808 1224 1044 871 1164 971 950 866 738 (1)构造该批数据的频率分布表(分6组); (2)画出直方图.解 此处数据最大观测值为1572,最小观测值为738,故组距近似为1572736140,6d -== 确定每组区间端点为 ,此处可取 ,于是分组区间为(](](](](](]735.875875101510151155115512951295143514351575.,,,,,,,,,, 其频数频率分布表如下:其直方图如图5.2.4.某公司对其250名职工上班所需时间进行了调查,下面是其不完整的频率分布表:(1)试将频率分布表补充完整;(2)该公司上班所需时间在半小时以内有多少人?解(1)由于频率和为1,故空缺的频率为1-0.1-0.24-0.18-0.14=0.34. (2)该公司上班所需的时间在半小时以内的人所占频率为0.1+0.24+0.34=0.68,该公司有职工250人,故该公司上班所需时间在半⨯=人.小时以内的人有2500.681705. 40种刊物的月发行量如下(单位:百册):(1)建立该批数据的频数分布表,取组距为1700百册;5954 5022 14667 6582 6870 1840 2662 45081208 3852 618 3008 1268 1978 7963 20483077 993 353 14263 1714 11127 6926 2047 714 5923 6006 14267 1697 13876 4001 2280 1223 12579 13588 7315 4538 13304 1615 8612 (2)画出直方图.解 此处数据最大观测值为14667,最小观测值为353,由于组距为1700,故组数为146673538.421700K -≥=,所以分9组.接下来确定每组区间端点,要求03539170014667aa <+⨯>,此处可取0300a =,于是可列出其频数频率分布表.其直方图为6.对下列数据构造茎叶图452 425 447 377 341 369 412 399400 382 366 425 399 398 423 384418 392 372 418 374 385 439 408409 428 430 413 405 381 403 469381 443 441 433 399 379 386 387解取百位数与十位数组成茎,个位数为叶,这组数据的茎叶图如下:34 13536 6 937 2 4 7 938 1 1 2 4 5 6 739 2 8 9 9 940 0 3 5 8 941 2 3 8 842 3 5 5 843 0 3 944 1 3 745 246 97. 根据调查,某集团公司的中层管理人员的年薪数据如下(单位:千元):40.6 39.6 37.8 36.2 38.838.6 39.6 40.0 34.7 41.7 38.9 37.9 37.0 35.1 36.7 37.1 37.7 39.2 36.9 39.3 试画出茎叶图.解 取整数部分为茎,小数部分为叶,这组数据的茎叶图如下: 34 7 35 1 36 2 7 9 37 0 1 7 8 9 38 3 6 8 9 39 2 6 6 40 0 6 41 78. 设总体X 的分布函数为()F x ,经验分布函数为()n F x ,试证()()()()()11.n n E x F x Var x F x F x nF F ⎡⎤⎡⎤==-⎡⎤⎣⎦⎣⎦⎣⎦, 证 设1,...,n x x 是取自总体分布函数为()F x 的样本,则经验分布函数为()()()110/12,..., 1.1.k nn x x x k n x x x k n x F +⎧<⎪⎪=≤<=-⎨⎪>=⎪⎩()(k ),当,当,,,当x 若令{}12,...,i x x i i n y I ≤==,,,则1,...,n y y 是独立同分布的随机变量,且 ()()()()()21111()E y P x x F x E y P x x F x =≤==≤=,, 于是()()()()2()[[1].]i Var F x F x F x Fx y =-=-又()n x F 可写为()n x F =11ni i n y =∑,故有()()()()()()1111,()1.n n E x EF x Var x Var F x F x nn y y F F ⎡⎤⎡⎤====-⎡⎤⎣⎦⎣⎦⎣⎦。

概率统计建模讲义(重要分布举例卡方检验)

概率统计建模讲义(重要分布举例卡方检验)

数理统计例举王晓谦wxqmath@南京师范大学主要内容随机变量及其分布经验分布函数和频率直方图参数估计假设检验相关分析与回归分析简介MATLAB例题例1能量供应问题(二项分布)例2 放射性(泊松)例3正态分布例4指数分布例5 多元随机变量例6经验分布函数例7超市问题(指数分布)例8区间估计例9 拟合检验1例10拟合检验2 例11概率纸检验法例12道德(独立性检验)例13肠癌例14J 效应随机变量及其分布例1、能量供应问题(二项分布)假定有10n =个工人间歇性地使用电力,估计所需要的总负荷。

首先我们要知道,或者是假定,每个工人彼此独立工作,而每一时刻每个工人都以相同的概率p 需要一个单位的电力。

那么,同时使用电力的人数就是一个随机变量,它服从所谓的二项分布。

用X 表示这个随机变量,记做(,)X B n p ,且有()(1),k k n k n P X k C p p -==-0,1,,k n =这是非常重要的一类概率分布。

其中E(X)=np , D(X)=np(1-p)。

其次,要根据经验来估计出,p 值是多少?例如,一个工人在一个小时里有12分钟在使用电力,那么应该有120.260p ==。

最后,利用公式我们求出随机变量X 的概率分布表如下:为直观计,我们给出如下概率分布图:目录 Back Next可以看出,{6}1{6}0.000864P X P X >=-≤=,也就是说,如果供应6个单位的电力,则超负荷工作的概率只有0.000864,即每11147200.000864≈≈分钟小时中,才可能有一分钟电力不够用。

还可以算出,八个或八个以上工人同时使用电力的概率就更小了,比上面概率的111还要小。

问题:二项分布是一个重要的用来计数的分布。

什么样的随机变量会服从二项分布?进行n次独立观测,在每次观测中所关心的事件出现的概率都是p,那么在这n次观测中事件A出现的总次数是一个服从二项分布B(n,p)。

数据的分布.ppt

数据的分布.ppt

4
(5)Weibull分布
f
(x)


1


x
c 1
exp
x
c
,

0,
x
x0
(1.17)
EX (1 1), DX 2 {( 2 1) (1 1)}2
c
c
c
背景:由瑞典物理学家Wallodi Weibull于1939年引
100
C 80
u
m
u
l
a t
60
i
v
e
P e 40 r c e n t
20
0
60
65
70
75
80
85
x
Normal Curve:
Mu=73.66, Sigma=3.9401
2020/1/12
图1.6 n=100 蛋白含量的经验分布函数Fn (x)及拟合 F(x)
11
(3)作正态分布QQ图
85

80
密度
f (x)
1
2
exp
(x )2 2 2

EX , DX 2
(2)对数正态分布
(1.13)

f
(x)


1
2 (x


)
. exp


(log(x ) 2 2


)2
,

0,
x
(1.14)
x0
背景:如一变量可看成许多独立因子之和,近似正 态分布.如股票投资长益可看成每天收益率的乘积.
s 3.94 61.5

D分布函数与概率密度函数的近似解

D分布函数与概率密度函数的近似解

1) Fn x 是单调非减跳跃函数(阶梯函数) 2) Fn x 在点 x xk 处有间断, 在每个间断点的跃度 1 为 , k 1,2,,n n
*
Fn ( x ) 0, 3) 0 Fn ( x ) 1 xlim
x
lim Fn ( x ) 1
2) 数频数 观测值落在各组的频数分别为
m1 ,2 , ,ml
频率为
ml m1 m2 , , , n n n
3) 作图 以各组为底边,以相应组的频率除以组距为高, 建立个 l 小矩形,即得总体的直方图 如图6-2 直方图中每一矩形的面积等于相应组的频率
y
f x
o
m2 m1 n a0 n a a
0,
Fn x
* x x1
* x* x x k k 1 k 1, 2, ,n 1
k , n
1,
x x* n
称 Fn x 是总体 X 的经验分布函数 其图如6-1
y
1
k n 1 n
x x
* 1
* 2
o
x
* k
x
* k 1
x
* n
x
图 6-1
由图6-1容易看出
第六章 第二节 分布函数与概率密度函数的 近似解
一、分布函数的近似解—经验分布
二、概率密度函数的近似解—直方图
一、分布函数的近似解—经验分布
设 X 1, X 2, X n 是来自总体 X 的样本, x2, xn x1,
是样本的一个观测值, 设这n个数值按由小到大的
* * x2, x* ,定义: 顺序排列后为 x1 n ,对 x R
显然满足一般分布函数的三个性质 随着 n 的增大,Fn ( x ) 越来越接近 X 的分布函数 F( x )
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档