§6.2 经验分布函数和频率直方图

合集下载

§6.2 经验分布函数和频率直方图PPT课件

§6.2 经验分布函数和频率直方图PPT课件

河北 8362
浙江 14655
山西 5460
安徽 5221
内蒙古 6463
福建 12362
辽宁 12041
江西 5221
吉林 7640
山东 10465
黑龙江 9349
河南 5924
湖北 湖南 广东 广西 海南 重庆 四川 贵州 7813 6054 13730 4668 7135 5654 5250 2895
P
fn (x)
p(x)
1
2
E fn (x)
p(x)2
2 2
E fn (x) Efn (x)2 Efn (x) p(x)2
(1)
由于Rn(a,b)~B(n,pk),其中
pk P
X [tk , tk 1)
tk1 p( y)dy Kh
tk
所以当n
时,E
fn (x)
Efn (x)2
用事件{X<x)发生的频率作为其估计即可。这就引出了下面 所谓经验分布函数的概念。
一、经验分布函数 设X1,…,Xn是抽自总体X的一个样本,观察值为x1,…,xn, 次序观测值x(1)≤ …≤x(n),则总体X的经验分布函数定义为
Fn
(x)
样本中小于x的观测值的个数 n
,x
R.

0,
Fn
(x)
k
0.032258 0.00000516
频率直方图如下图所示:
初步判断数据是来自什么样的总体? 这个例子中数据量相对来说比较少,一般情况下数据量最好大于100, 分组的个数根据数据量来确定,一般介于[n/10,n/5]之间,最多不能 超过20组。
定理6.2.2 密度函数p(x)在点x[t0,tm)处连续,样本容量为n,且

《频数分布表与直方图》PPT课件

《频数分布表与直方图》PPT课件

直方图是为了把表中的结果直观地表示出来,它
们是频数分布的“数”与“形”的两种不同形式,
互相补充.
(来自《点拨》)
知2-练
1 某学校八年级共有你n名男生. 现测量他们的身高 (单位:cm. 结果精确到1 cm),依据数据绘制的 频数分布直方图如图所示(为了避免有些数据落 在分组的界限上,对作为分点的数保留一位小数).
的学生为正常,试求身高正常的学生的百分比.
知2-讲
导引知:先识确点定最大值与最小值的差为180-140=40(cm),故可
将数据按组距为5进行分组,可分40÷5=8(组). 解:(1)计算这组数据的最大值与最小值的差为180-140=
40(cm). 确定组数与组距,将数据按组距为5进行分组,可分 为40÷5=8(组),即每个小组的范围分别是140≤x< 145,145≤x<150,150≤x<155,155≤x<160,160≤ x<165,165≤x<170,170≤x<175,175≤x≤180. 其中x为学生身高.
C.8组
D.10组
导引:因为这组数据的最大值是187,最小值是140,最 大值与最小值的差是47,且 47 7 5 ,所以应 66 分为8组. 答案:C
总结
知1-讲
确定组数的方法:若最大值与最小值的差除 以组距所得的商是整数,则这个商即为组数;若 最大值与最小值的差除以组距所得的商是小数, 则这个商的整数部分+1即为组数.
知2-讲
知2-讲
例2 某中学部分同学参加全国初中数学竞赛,取得了优异的成
绩,指导老师统计了所有参赛同学的成绩(成绩都是整数, 试题满分120分),并且绘制了如图所示的频数分布直方图 (每组中含最低分数,但不含最高分数),请回答: (1)该中学参加本次数学竞

频率分布直方图

频率分布直方图
频率分布直方图可以用于 比较不同组别数据的分布 情况,进而进行方差分析 。
风险评估和预测模型构建
风险等级划分
01
在金融、保险等领域中,频率分布直方图可以用于划分风险等
级,评估不同风险水平下的损失分布情况。
预测模型构建
02
在构建预测模型时,频率分布直方图可以帮助确定输入变量的
分布特征,从而选择合适的模型类型和建模方法。
蛋白质表达水平
将蛋白质表达量按不同 水平分组,并通过直方 图呈现各组频数,有助 于分析蛋白质功能与疾 病的关系。
代谢物浓度分布
利用频率分布直方图展 示生物样本中代谢物的 浓度分布情况,为代谢 组学研究和疾病诊断提 供参考。
THANKS
感谢观看
处理异常值
在绘制频率分布直方图之前,可以对数据进行预处理,例如采用箱线图等方法识别并处理 异常值,以减少异常值对直方图形状的影响。同时,也可以在直方图上标注出异常值的位 置和数值,以便观察者更好地了解数据的分布情况。
06
案例:频率分布直方图在医学领域应

疾病发病率分布情况展示
发病率地域分布
通过频率分布直方图展示不同地区的疾病发病率,帮助医学研究 者识别高发区域和潜在风险因素。
图形表示不同
条形图用条形的长度表示各类别数 据的频数或频率,而频率分布直方 图用矩形的面积表示各组数据的频 数或频率。
横轴意义不同
条形图的横轴表示类别,而频率分 布直方图的横轴表示数据范围。
02
绘制频率分布直方图步骤
数据收集与整理
收集数据
根据研究目的确定需要收集的数据,并确保数据的准确性和 完整性。
频率分布直方图
汇报人:XX
• 频率分布直方图基本概念 • 绘制频率分布直方图步骤 • 频率分布直方图解读技巧 • 频率分布直方图在数据分析中应用 • 频率分布直方图优缺点及改进措施 • 案例:频率分布直方图在医学领域应

频率分布与直方图课件

频率分布与直方图课件

在统计分析中的应用
直方图是统计分析中常用的可视化工具,用于展示数据的分 布特征和规律。
通过直方图,可以直观地比较不同数据集的分布差异,进行 数据分类、聚类等分析,为决策提供支持。
在数据挖掘中的应用
直方图用于数据预处理阶段,帮助数据挖掘人员了解数据 的分布情况,发现异常值和离群点。
在数据挖掘过程中,直方图可以用于可视化聚类结果、关 联规则等,帮助挖掘人员更好地理解数据和挖掘结果。
纵轴
表示频数或频率,通常以 矩形的高度表示。
直条
代表各组频数的矩形条, 宽度表示组距,高度表示 频数。
直方图的绘制方法
01
02
03
04
数据整理
将数据按照数值大小进行排序 ,并确定数据分组的组距和组
数。
计算频数
根据数据分组和组距计算各组 的频数。
绘制矩形条
在横轴上标出各组的组中值, 以纵轴为频数绘制矩形条,矩
根据频数绘制直方图,展 示工资的分布情况。
对数据进行整理,统计每
分析直方图,了解工资的
•·
个工资段的频数。
集中趋势和离散程度。
实例三
降雨量数据的频率分布与 直方图分析
收集某地区一段时间内的 降雨量数据。
根据频数绘制直方图,展 示降雨量的分布情况。
01
02
03
04
05
06
对数据进行整理,统计每
分析直方图,了解降雨量
频率分布的作用
阐述频率分布的重要意义。
频率分布是数据分析中不可或缺的环节,它可以帮助我们了解数据的集中趋势、离散程度和分布形态,从而为进一步的数据 分析和挖掘提供基础。
频率分布的分类
对频率分布进行分类说明。

初中数学 什么是数据的频率分布 如何绘制数据的频率分布直方图

初中数学 什么是数据的频率分布 如何绘制数据的频率分布直方图

初中数学什么是数据的频率分布如何绘制数据的频率分布直方图数据的频率分布是指将数据按照不同数值的出现频率进行分类和统计的过程。

频率分布可以帮助我们更好地了解数据的分布情况和特征,并且可以帮助我们计算频率、相对频率和百分比等统计量。

绘制数据的频率分布直方图可以采用以下步骤:1. 收集数据:首先需要收集一组数据,例如学生的考试成绩、某个地区的降雨量等。

2. 确定数据的范围:根据数据的特点和取值范围,确定统计的数据范围。

例如,考试成绩的范围可以是0-100,降雨量的范围可以是0-500毫米。

3. 划分数据的区间:根据数据的范围,将数据划分为若干个区间。

每个区间应该具有相同的宽度,以便进行比较。

例如,考试成绩可以按照10分为一个区间,降雨量可以按照50毫米为一个区间。

4. 统计频数:对于每个区间,统计数据落在该区间内的频数,即该区间内有多少个数据。

5. 计算频率和相对频率:将频数除以总样本数,得到频率。

将频数除以总样本数再乘以100,得到相对频率(百分比)。

频率和相对频率可以用来描述该区间内数据的出现频率和比例。

6. 绘制频率分布直方图:在纵轴上表示频率或相对频率,横轴上表示数据的区间。

根据统计的频率或相对频率数据,将每个区间的频率或相对频率绘制成柱状图。

柱状图的高度表示该区间的频率或相对频率大小。

7. 添加坐标轴和标签:在频率分布直方图上添加纵轴和横轴的坐标轴,并标明各个区间的范围。

8. 添加标题和图例:为频率分布直方图添加标题,用以描述图表的内容。

如果有多组数据的频率分布直方图,可以添加图例以区分不同的数据。

9. 分析频率分布直方图:通过观察频率分布直方图,可以了解数据的分布情况和特征,并且可以计算频率、相对频率和百分比等统计量。

例如,可以观察到频率分布直方图是否呈现正态分布、偏态分布或峰态分布等特征。

需要注意的是,频率分布直方图适用于离散型数据和连续型数据。

对于离散型数据,每个区间应该对应一个具体的数值;对于连续型数据,每个区间应该表示一个数值范围。

高二数学频率分布直方图

高二数学频率分布直方图

如此,就帮你买咯丶"根汉淡淡道,说着,便走去丶"你,不谈条件咯?""跟你壹只鸟需要谈条件?""你,叶小子,气煞本鸟系丶""那你要还是不要?""啾!要,要丶""那就行咯,记住咱帮你壹个忙丶""你不是说不谈条件?不是免费给本鸟系?""你要还是不要?""。"根汉其中の幻梦虫买咯下来,足足有百八十条, 壹到手,白灵鸟就壹口将所有幻梦虫吞咯进去丶说是实话,这幻梦虫百八十条の体积,绝对是比白灵鸟不足巴掌大の鸟身要大,若是除去羽毛,估计更小,根汉估计其鸟身也有壹种类似芥子の空间丶白灵鸟吃完,就钻进尤海海怀中,不理会外边の繁华时节丶根汉依旧陪着尤海海在圣城之中毫无目のの 闲逛着丶"夫君,在圣城游走是为什么?若是赶路直接越过不好吗?"尤海海见根汉似乎仅仅只是在瞎逛,壹路上却是颇为赶时间,每到壹座城池,根汉总要闲逛壹遍,她终于是忍不住,想要问问丶"你天晴姐姐。"根汉壹叹,将天晴の情况与自己の天道眼说与尤海海听,他在城池之中闲逛就是为咯,能否从 诸多修系者记忆之中看到,有关于独魂の咯解丶根汉翻阅过诸多古籍,关于三魂七魄の介绍少の可怜,更别说是独魂壹说,有也是三言两语带过而已丶主要是独魂太罕见,天晴の独魂有与传说中の八魂修士有牵扯,那就更难解咯,就是当初无字天书都想不起来,或者它根本就不知道丶所以根汉才出此 下策,在茫茫人海之中搜查,事关天晴与天道眼の存亡,根汉没有丝毫の大意,不愿意放过壹丝の机会丶而且天晴中咯独魂咒,只有壹魂,她の二魂七魄不壹定就是自己の天道眼,根汉猜测自己の天道眼只是诱因,触发条件の诱因丶若是自己の天道眼毁去,天晴の独魂咒自然就不会发作,但天晴の独魂 咒依旧没有解除丶说是世上还有其他人拥有天道眼,天晴の独魂咒

经验分布函数与直方图

经验分布函数与直方图

直方图与经验分布函数总体X 分布未知samplepopulation直方图(Histogram)总体X 的sample :12,,,n X X X ":()pdf f x 具体步骤:①Sample 观测值12,,,nX X X "min{,1,X X i n =="max{1,,}X X i n =="(1){,}i (){,n i[a,b]m 个小区间(m<n )小区间长度可以不等,设分点为②将[,]分成个小区间,小区间长度可以不等设分点为算数率n bt t t a m =<<<="10③ 计算频数j n 及频率1,,jj f j m n==" ④ 作图:],[1t t −为底边,j f 为高作长方形,面积为f (m 个长方形之和为1)j j jt Δj 用直方图对应的分布函数()jn jf x t Φ=Δ1(,]j j x t t −∈1,,j m ="⎧引进“随机变量”11(,]1,2,,0i j j j x t t i n otherwise ξ−⎪∈⎪⎪==⎨⎪⎪"⎪⎩11{(,]}{1}(1)xxj j j p P x t t P p p ξ−−=∈⇐==−由SLLN(kolmogorov)有1n SLLNjj i i n f E pn ξξ===∑→1j n =jt 11{(,]}()j j j t P x t t f x dx −−=∈=∫()n →∞{lim }1P ==n ⇒→∞{j n f p →∞f 近似代替以)(x f 为曲边的曲边梯形的面积。

j 若∞→n ,j t Δ较小时,可用j f x =Φx x t t jn t Δ)(,近似代替()f ,1(,]j j −∈Example 1:原始数据data=[16,25,19,20,25,33,24,23,20,24,25,17,15,21,22,26,15,23,22,24,20,14,16,11,14,28,18,13,27,31,25,24,16,19,23,26,17,14,30,21,18,16,18,19,2022192218262613211311192318242813112515171820,22,19,22,18,26,26,13,21,13,11,19,23,18,24,28,13,11,25,15,17,18,22,16,13,12,13,11,9,15,18,21,15,12,17,13,14,12,16,10,8,23,18,11,16,28,13,21,22,12,8,15,21,18,16,16,19,28,19,12,14,19,28,28,28,13,21,28,191115182418162819151322141624202818182814132819,11,15,18,24,18,16,28,19,15,13,22,14,16,24,20,28,18,18,28,14,13,28,29,24,28,14,18,18,18,8,21,16,24,32,16,28,19,15,18,18,10,12,16,26,18,19,33,8,11,18,27,23,11,22,22,13,28,14,22,18,26,18,16,32,27,25,24,17,17,283816202832192318281524282916171918]28,38,16,20,28,32,19,23,18,28,15,24,28,29,16,17,19,18]数字特征计算:mean(data) median(data) std(data) var(data) skewness(data) kurtosis(data)195650185000592723513140343125599计算结果19.5650 18.5000 5.9272 35.1314 0.3431 2.5599histfit(data,13)35150经验分布函数(Experience DistributedFunction)经验分布函数(Experience Distributed Function)总体X 的分布函数F 未知,Sample 12,,,()()n n X X X F x F x ⇒⇒"构造()(x F n )方法:12,,,nX X X "(1)(2)()n X X X ≤≤≤"(1)0x X ⎧≤⎪()()(1)()n k k k F x X x X +⎪⎪⎪⎪=<≤⎨⎪1,2,,1k n =−"()1n n x X ⎪⎪⎪>⎪⎩仿真试验固定,()n X F x :表示事件{}X x <在n 次试验中出现的频率,1(){}n i F x x X =−∞落在(,)中的个数n 类似可证:{lim )()}1nP F x F x ==( n →∞Theorem(Glivenko-Cantelli):对任意给定的自然数n ,设12,,,n X X X " 是取自总体X 分布函数)(x F 的一个样本观测值,)(x F n 为其经验 分布函数,记)()({sup x F x F D nx n −=∞<<∞− 则{lim 0}1n n P D →∞==经验分布函数(数据如前例)程序:[h,stats]=cdfplot(data)[h,stats]cdfplot(data) 程序运行结果:Empirical CDF Empirical CDF统计量及分布统计量(St ti ti Sample X X X ",构造statistics ,poplation 统计量(Statistics)Sample 的函数不含参数的函数p 12,,,n ,p p12(,,,)n T T X X X ="Example 7、Sample,statistics:180952809.52i X X n==∑1154.28S ==∑结论:平均(X ),悬殊(S )不大Popalatrion X 的SampleX X X ",则常用的Statistics 1X X = (Mean) p p 12,,,n ①i n∑样本均值()1② S =∑ 样本方差(Sample Variance ) ③ 2S S =样本标准差(Standard Variance )④ 11nkk i i A X n ==∑ 样本k 阶原点矩(Moment )1nkB =−样本⑤1()k i i X X n =∑k 阶中心矩二维两总体X Y 总体的Sample X Y X Y X Y "则有:(,)p 1122(,),(,),,(,)n n ① 121()(ni i S X X Y Y =−− 样本协方差(Covariance )1i n =∑S ②Y x S S 12ˆ=ρ 样本相关系数(Correlation Clefficient )Histogram nn f ii =0x X ⎧⎪≤⎪Experience (1)(1)()()n k k k F x X x X n −⎪⎪⎪⎪=<≤⎨⎪ ()1n x X ⎪⎪⎪>⎪⎪⎩Ordered statistics :Sample X X X"p 12,,,n(1)(2)(1)(2)(),,,n n X X X X X X ≤≤≤⇒"" ()()()()()()1!(1))!()!x F k n k n F x u u du −−⎧⎪⎪=−⎪()(1)0()((1)!(()1(1())k x n x k n k F x F x ⎪−−⎪⎪⎪=−−⎨⎪∫()()(())n n x F x F x ⎪⎪⎪=⎪⎪⎪⎩():'k X k th ordered statistic⇐(1):min X imum ordered statistici d d t ti ti⇐():max n X imum ordered statisticn ()()11!(,)[()][()()][1()](1!(1)!(1)!()!1!i j i j i n j x x f x y F x F y F x F y p i j i n j −−−−=−−−−−−⎧()()2(1)[()()]()()(,)0i n n x x n n F y F x p x p y x y f x y otherwise −⎪−−<⎪⎪=⎨⎪⎪⎪⎩ 11212!()()(,,)n nn n f x f x x x x f x x x ⎧⎪<<<⎪⎪=⎨⎪"""0otherwise⎪⎪⎩X ⎧⎪⎪1()2*()(1)221[]2n n n M X X ++⎪⎪=⎨⎪+⎪⎪⎪⎪⎩ *()(1)n D X X =−反例:..2(,)~i i di X N μσ⇒2111,(),ni X X X μ−∑是1i n σ=Sample二重性Statistic二重性抽样分布2χ分布..22(01)~i i dn=∑"Definition :1()1,,(0,1)~nin i X X N Y Xχ=⇒Theorem1.1(2χ分布addition ):k 个相互独立的r.v. 12,,,k Y Y Y "且2~()j j Y n χ,1,,j k ="Then : 211~()nnj j j j Y Y n χ===∑∑..i i dProof :2=k 推出:If :112121,,,,,,(0,1)~n nnn X X X X X N ++""Then⎪⎪⎫∑∑=+=211122121,n j jn n i jX Y X Y 同分布与同分布与 ⎪⎪⎭⎬∑∑==+121112221n i n j jn j X X Y Y 相互独立与相互独立与又⇓同分布与∑∑∑+===+=++=2112112112221n n j j n i n j j n j X X X Y Y YTheorem1.22~==Theorem1.2X χ⇒① n X n EX 2var ②:的pdf X Where10()0xxe dx ααα∞−−Γ=>∫⎧122210n x n x e x n −−⎪⎪>⎪⎪⎪⎪=()2(20f x otherwise Γ⎨⎪⎪⎪⎪⎪⎪⎩Proof :① ..(0,1)~i i dnii X N X X ⇒∑与同分布1i =且22n nn∑且:111var iii i i i EX E X EXX n=======∑∑()n EX X E X X X ni iiini i∑∑∑===−===1224212])(([var var(var ))时,X t xty y 22121122−−=−②1=n dt e t dye x P x F 022}{)(∫=∫=<=ππn x −−⎧⎪12212101()2()x e x f x ⎪>⎪⎪⎪⎪=Γ⎨ 20otherwise ⎪⎪⎪⎪⎪⎪⎩设:22~(1),~(1),Y n Z Y Z χχ−且与相互独立Then :同分布与Z Y Y +(2χ分布的可加性)11222221102211()()()()11n yy x x Y n f x f y f x y dy ye x y en −−+∞−−−−−∞=−=⋅−−∫∫2(2()22ΓΓ11112221x n −−−−−12()12()2n eyx y dyn −=−Γ∫1x n n 1111222221(1)112n exzz dzn −−−−−=−−ΓΓ∫()(221221n x x e −−=22(2n n ΓB函数duu uB q p 1111−−−=Beta函数q p 0)(),(∫Beta与Gamma关系)()()(),(),(q P q p P q B q p B +ΓΓΓ==t 分布与F 分布Definition设 2~(0,1)~X N Y n X 与Y 相互独立 则(,)()χ~X=()T t n2⎧211()2x X n x f x π−−−⎪⎪⎪=⎪⎪⎪⎪⎧⎪1221()2n n x −−+Γ=22210()2(2n Y y e y n f y ⎪⎪⎨>⎪⎪⎪⎪⎪=⎪⎨Γ⎪⎪⎪⎪⎪()(1)()2T f x n n n π⇒+Γ00x ⎪⎪⎪≤⎪⎪⎩⎪⎩Definition :If 21~()X n χ,22~()Y n χ X 与Y 相互独立, themX 112~(,)n T F n n Y =2ndf为类似可得 ),(21n n F 的pdf 为:⎧1121212122212()20n n n n n n n x n x +⎪+⎪Γ⎪⎪⎪⋅>⎪=12212()()()()220f x n n n x n elsewhere⎨⎪ΓΓ+⎪⎪⎪⎪⎪⎪⎩性质:①),(~1),(~1221n n F n n F F ⇒F②),1(~)(~2n F XY n t X =⇒③1,n n F =),()(12121n n F αα−分位数(quantile).:RV X CDF F X,,给定(){}:()F x P X x CDF F x =<⇒给定的值,要确定X 取什么值? Definition :设X 的,(){}01CDF F X F X P X X ααααα=<=<<为满足 则称αX 为F 的α分为数(点)若X 有pdf )(x f ,则分为数αX 表示αX 以左的一块阴影面积为α。

频率分布直方图课件

频率分布直方图课件

由于频率分布直方图是基于数据的近似离 散化,因此无法准确地反映数据的分布情 况,特别是对于具有复杂分布的数据。
无法表示数据间的相关性
无法进行参数估计和假设检验
频率分布直方图只能展示单个变量的分布 情况,无法表示两个或多个变量之间的相 关性。
频率分布直方图主要用于数据的描述性分 析,无法进行参数估计和假设检验等推断 性分析。
于反映数据的中心趋势。频率பைடு நூலகம்布直方图可以直观地展示数据在不同区
间的分布情况,从而更好地理解数据的分布特征。
03
众数
众数是数据中出现次数最多的数值。频率分布直方图可以清晰地展示众
数所在区间的数据分布情况,帮助我们更好地理解众数的含义和作用。
与箱线图、折线图等其他图形的比较
要点一
箱线图
要点二
折线图
箱线图是一种用于展示一组数据分散情况的统计图,它包 括数据的最大值、最小值、中位数和异常值等统计量。频 率分布直方图和箱线图各有优缺点,箱线图可以展示数据 的分散情况和异常值,但无法展示数据的具体分布情况; 频率分布直方图可以清晰地展示数据的分布情况,但无法 很好地展示数据的分散情况和异常值。
数据中心位置与离散程度判断
确定数据的中位数和众数
频率分布直方图可以显示数据的频数分布,从而确定数据的 中位数和众数,了解数据的中心位置。
评估数据的离散程度
通过观察频率分布直方图中数据的分散程度,可以评估数据 的离散程度,进一步了解数据的稳定性。
数据异常值检测
识别异常值
频率分布直方图可以显示数据的频数分布,通过观察直方图的形状和异常的数据点,可 以识别出异常值。
纵轴
表示频数或频率,即落在每个数 据范围内的数据点的个数。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
tk
( fn ( x)
E [ R ( t k , t k +1 ) E R ( t k , t k +1 ) ]

tk +1
p ( y )dy
p (ξ ) h p ( x ) = p (ξ ) p ( x ) → 0 h
(3)
作业2: 习题六的第2,3,4,5,6题,其中第6题还有求使用软件 来完成.

解: 最小值为2895,最大值为37382,取a=2894.5, b=37382.5,将区间分成6等分,统计频数计算频率,得下表:
分组 [2894.5,8642.5) [8642.5,14390.5) 频数 21 6 频率 频率/组距
0.677419 0.000118 0.193548 0.0000337 0.032258 0.00000516 0.064516 0.0000112 0 0
这就引出了频率直方图. 这就引出了频率直方图. 依次给定m+1个实数 0<t1<…<tm,其中 1-t0=t2-t1=t3-t2=…=tm-tm-1=h>0. 令 个实数t 其中t 依次给定 个实数
m 1 R n ( t i , t i + 1 ) I [ ti , ti + 1 ) ( x ) ∑ f n ( x ) = i=0 nh 0
≤ 2
ε
2
{E ( f
n ( x) Efn ( x)) + (Efn ( x) p( x)) 2
ε
2
}
(1)
由于R 由于 n(a,b)~B(n,pk),其中 ,
所以 当 n → ∞时, E
p k = P ( X ∈ [ t k , t k +1 ) ) =
Efn ( x)) =
2

t k +1 tk
x ∈ [t0 , t m ) 其它
用fn(x)作为密度函数 作为密度函数p(x)的估计,这就是频率直方图法. 的估计,这就是频率直方图法. 作为密度函数 的估计
是得到的样本观测值 设(x1,…,xn)是得到的样本观测值,在实际使用时,我们往往用以下步 是得到的样本观测值,在实际使用时, 骤具体给出频率直方图
选择适当的a<x(1),b>x(n).(例如将x(1)缩 (1)找出 (1),x(n),选择适当的 )找出x ( 小半个刻度作为a, 放大半个刻度作为b) 小半个刻度作为 ,将x(n)放大半个刻度作为 )取m-1个分 个分 个等分区间[t 点a=t0<…<tm=b,得到 个等分区间 i-1,ti)(i=1,…,m).ti-1称 ,得到m个等分区间 . 为第i组的下组界 称为第i组的上组界 组的下组界; 组的上组界; 为第 组的下组界;ti称为第 组的上组界;h=ti-ti-1称为组距 或步长.则每个数据都落在其中的一个小区间上. 或步长.则每个数据都落在其中的一个小区间上. (2)统计落在每一组上的频数 i=Rn(ti,ti+1) ;计算 fi= )统计落在每一组上的频数n ni/nh,i=0,1,…,m-1. 为底, 为高作矩形, (3)以[ti-1,ti)(i=1,…,m)为底,fi为高作矩形,即频 ) 为底 率直方图. 率直方图.
P ( X ∈ [a, b) ) =
的个数, 的个数,那么∫Fra bibliotekb a
p ( u ) d u ≈ p ( x )( b a )
再次利用频率近似概率的思想, 表示样本(X 中落在[a,b) 再次利用频率近似概率的思想,用Rn(a,b)表示样本 1,X2,…,Xn)中落在 表示样本 中落在
P ( X ∈ [a , b ) ) Rn (a , b ) p(x) ≈ ≈ ba n (b a )
任意给定自变量x,则 任意给定自变量 , F(x)=P(X<x). . 用事件{X<x)发生的频率作为其估计即可.这就引出了下面 发生的频率作为其估计即可. 用事件 发生的频率作为其估计即可 所谓经验分布函数的概念. 所谓经验分布函数的概念.
一,经验分布函数 是抽自总体X的一个样本 观察值为x 的一个样本, 设X1,…,Xn是抽自总体 的一个样本,观察值为 1,…,xn, 次序观测值x 总体X的经验分布函数定义为 次序观测值 (1)≤ …≤x(n),则总体 的经验分布函数定义为
所以,我们有必要研究随着样本的不同经验分布函 数会发生什么变化.也就是研究经验分布函数和总 体分布函数之间的关系.
定理6.2.1(格列汶科定理或 格列汶科定理或Glivenko-Cantelli定理 定理) 定理 格列汶科定理或 定理 是总体X的分布函数 是总体X的经验分 设F(x)是总体 的分布函数,Fn(x)是总体 的经验分 是总体 的分布函数, 是总体 布函数, 布函数,
n→ ∞ n→ ∞
P
n→ ∞
n
n
p ( x ))
证明: 在点x∈ 处连续知其局部有界, 证明:由p(x)在点 ∈[t0,tm)处连续知其局部有界,即存在δ>0,K>0,使得对 在点 处连续知其局部有界 , , y ∈[x- δ,x+ δ]有p(y)≤K. 有 . 由已知条件知,样本容量 充分大时 充分大时, 由已知条件知,样本容量n充分大时,h ≤δ.设 x∈[tk,tk+1),对任给的ε>0, ∈ , , 1 2 P ( fn ( x) p( x) ≥ ε ) ≤ 2 E ( fn ( x) p( x))
[14390.5,20138.5) 1 [20138.5,25886.5) 2 [25886.5,31634.5) 0 [31634.5,37382.5) 1
0.032258 0.00000516
频率直方图如下图所示:
初步判断数据是来自什么样的总体? 这个例子中数据量相对来说比较少,一般情况下数据量最好大于 这个例子中数据量相对来说比较少,一般情况下数据量最好大于100, , 分组的个数根据数据量来确定,一般介于[n/10,n/5]之间,最多不能 之间, 分组的个数根据数据量来确定,一般介于 之间 超过20组 超过 组.
经验分布函数是利用样本得到的,而样本是随机 经验分布函数是利用样本得到的, 向量,所以经验分布函数也是随机的. 向量,所以经验分布函数也是随机的.同一个总 即使是在相同的样本容量下, 体,即使是在相同的样本容量下,不同的样本也 会给出不同的经验分布函数; 会给出不同的经验分布函数; 对于给定的 ,Fn(x)是一个随机变量,是事件 对于给定的x, 是一个随机变量, 是一个随机变量 {X<x}在n重贝努里试验中发生的频率; 重贝努里试验中发生的频率; 在 重贝努里试验中发生的频率 给定样本值后,经验分布函数就成为一个普通的 给定样本值后, 跳跃函数, 跳跃函数,而且恰好是一个离散型随机变量的分 布函数, 布函数,该离散型随机变量的分布列为 Pi=1/n,i=1,2,…,n …

Dn = sup Fn ( x) F ( x)
x∈R

P limDn = 0 = 1 n→∞
二,频率直方图
如果总体X的分布函数 有密度函数p(x),怎样利用样本 1,X2,…,Xn)来刻 如果总体 的分布函数F(x)有密度函数 有密度函数 ,怎样利用样本(X 来刻 画这个密度函数?任意给定x∈ 区间比较短, 画这个密度函数?任意给定 ∈[a,b),则当 ,则当[a,b)区间比较短,而且 区间比较短 而且p(u)在[a,b) 在 区间变化不大时, 区间变化不大时,有
定理6.2.2 密度函数 密度函数p(x)在点 ∈[t0,tm)处连续,样本容量为 ,且 在点x∈ 处连续, 定理 在点 处连续 样本容量为n,
lim h = 0, lim n h = ∞ , 则 对 任 给 ε > 0, 有 → lim P ( f ( x ) p ( x ) ≥ ε ) = 0 (即 f ( x )
x ≤ 1; 0, 1 /8 , 1 < x ≤ 2; F8 ( x ) = 4 /8 , 2 < x ≤ 3; 7 /8 , 3 < x ≤ 4; x > 4; 1 ,
经验分布函数如右图所示: 经验分布函数如右图所示:
关于经验分布函数,我们要注意一下几点: 关于经验分布函数,我们要注意一下几点:
p ( y ) dy ≤ K h
2
n2h2 D R ( t k , t k +1 ) n p k (1 p k ) np K = = ≤ 2 k2 ≤ → 0 (2) nh n2h2 n2h2 n h E R ( t k , t k +1 ) 由 p( x ) 在 点 x 连 续 还 知 , 当 n → ∞ 时 , E f n ( x ) p ( x ) = p( x) nh = p( x) = h 由(1-3)可知,结论成立. )可知,结论成立.
例 下表为我国大陆各省,直辖市2001年人均国民生产总值 (万元),试做出频率直方图,从中判断数据大概是来自什 么样的总体?
北京 25523 上海 37382 湖北 7813 云南 4866 天津 20154 江苏 12922 湖南 6054 西藏 5307 河北 8362 浙江 14655 广东 13730 陕西 5024 山西 5460 安徽 5221 广西 4668 甘肃 4163 内蒙古 6463 福建 12362 海南 7135 青海 5735 辽宁 12041 江西 5221 重庆 5654 宁夏 5340 吉林 7640 山东 10465 四川 5250 新疆 7913 黑龙江 9349 河南 5924 贵州 2895
§6.2 经验分布函数和频率直方图
分布函数是随机变量的一个重要特征, 分布函数是随机变量的一个重要特征,既然总体可以用 随机变量来表示,而样本又可对总体的信息进行提取.因此, 随机变量来表示,而样本又可对总体的信息进行提取.因此, 怎样用样本(X 估计总体X的分布函数 怎样用样本 1,…,Xn)估计总体 的分布函数 估计总体 的分布函数F(x)?
相关文档
最新文档