北交大-统计学-探索性数据分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

)
应该在平面直线y=x上.
i 由 , F ( x( i ) ) ,即概率对概率所组成 的图形称为 P − P图。 n
应该在平面直线y=x上.
−1 i 由 ,即分位点对分位点所 构成的图形称为 Q − Q图。 , x F (i ) n
Fn ( x )是经验分布函数,如果 总体服从 F ( x ),则
Fn ( x )
a .s.
F ( x)
所以点
(F ( x
n
i F x ), ( ) = , ( ) F x (i ) (i ) (i ) n
( 3) lim P {Fn ( x ) − F ( x ) < ε} = 1 ∀ε > 0 依概率收敛
n→ ∞
(4) Fn ( x )以概率1一致收敛于它的理论分 布函数 F ( x )
P lim sup | Fn ( x ) − F ( x ) |= 0 = 1 n→ ∞ x (格里纹科定理)
Байду номын сангаас
例:下面有一组数据共30个 89 79 57 46 1 24 71 5 6 9 10 15 16 19 22 31 40 41 52 55 60 61 65 69 70 75 85 91 92 94 画出茎叶图如下:
茎 |叶 0 |1 5 6 9 1 |0 5 6 9 2|24 3|1 4|016 5|257 6|0159 7|0159 8|59 9|124
一、经验分布函数
v n ( x )表示随机事件 { X ≤ x }在n次独立重复观测中 出现的次数
v n ( x ) ~ B( n, F ( x )).
经验频数
经验分布函数:
vn ( x ) Fn ( x ) = n
把样本值 x1 , x 2 , , x n按值从小到大排序
x( 1 ) ≤ x( 2 ) ≤ ≤ x( n )
例2 随机观察总体,得 ξ 10个数据如下: 3.2,,,,,,,,, 2.5 − 4 2.5 0 3 2 2.5 4 求样本分布函数F 10 (x )
2
解:将数据由小到大排列为
-4<0<2=2<2.5=2.5=2.5<3<3.2<4
0 1 10 210 4 10 F (x) = 其样本分布函数为: 10 7 10 8 10 9 10 1
vi n
p1 p2 p3 p4
P
pi
n→∞
v3 n
v1 n
v2 n
v4 n
连续型:
设总体 X为连续型随机变量,密 度f ( x )为未知的
b−a 对任一有限区间[a , b],等分成 m 个子区间,其长度为 m
a = a0 < a1 < < a m −1 < a m = b
v i 表示n次重复独立观测得样本 X 1 , X 2 , , X n中落在 区间(a i , a i +1 ]中的个数
四、箱线图
设X (1) , , X ( n )是有序样本, 样本p分位数 m p定义为
X ([ np +1]) mp = 1 X ( np ) + X ( np +1) 2 np不是整数
[
]
np是整数
m0.25 称为第一四分位点,记 为Q1; m0.5 称为中位点,记为 Q2; m0.75 称为第三四分位点,记 为Q3 .
称f n ( x )在区间[a , b )的图形为[a , b )上的频率直方图, 简称为直方图。
小区间个数:
m ≈ 1.87( n − 1)
fn ( x) ≈ f ( x)
2 5
三、茎叶图
直方图只关心数据落在每一个小区间中的频率, 并没有考虑数据具体取值的情况,失去了原始资料 的信息。 茎叶图(Stem-and-Leaf display)又称“枝叶图”, 由统计学家约翰托奇( Arthur Bowley)设计,它的 思路是将数组中的数按位数进行比较,将数的大小 基本不变或变化不大的位作为一个主干(茎),将 变化大的位的数作为分枝(叶),列在主干的后面, 这样就可以清楚地看到每个主干后面的几个数,每个 数具体是多少。
注:茎+叶=实际的数值
如第二行1 |0 5 6 9代表10, 15,16,19这四个数。
茎叶图是一个与直方图相类似的特殊工具,但又与 直方图不同,茎叶图保留原始资料的信息。将茎叶图 茎和叶逆时针方向旋转90度,实际上就是一个直方图, 可以从中统计出次数,计算出各数据段的频率或百分比。 用茎叶图表示数据有两个优点:一是从统计图上没 有原始数据信息的损失,所有数据信息都可以从茎叶 图中得到;二是茎叶图中的数据可以随时记录,随时 添加,方便记录与表示。 茎叶图只便于表示个位之前相差不大的数据,而且 茎叶图只方便记录两组的数据,两个以上的数据虽然 能够记录,但是没有表示两个记录那么直观、清晰。
四分位数间距:
IQR = Q3 − Q1
若数据小于 Q1 − 1.5 IQR或大于 Q3 + 1.5 IQR,则认为 它是疑似异常值。
xmax
Q3 Q2 Q1
xmin
其中xmin , xmax是数据落在 Q1 − 1.5 IQR到Q3 + 1.5 IQR之间的最小值和最大值 。
箱线图的作用: (1)识别数据的异常值; (2)判断数据的偏态和尾重。
探索性数据分析
应用数据分析的整个操作步骤大体可以划分成两大 阶段:探索阶段和实证阶段。分析者先对数据作探索 性数据分析,而后才能有把握地选择结构分量或随机 分量的模型。 探索性数据分析分离出数据的模式和特点,并能够 揭示出数据对于常见模型的偏离。探索性方法既要灵 活适应数据的结构,也要灵活的反应出后续分析步骤 的模式。 本节中简单的介绍几种探索性数据分析的方法。

0 k Fn ( x ) = n 1
x < x( 1 ) x ( k ) ≤ x < x( k + 1 ) x( n ) ≤ x k = 1,2, , n − 1
经验分布函数的性质:
(1) 是分布函数
v ( x) = F ( x) ( 2) 随机变量(样本函数 ) : E[v n ( x )] = n ⋅ F ( x ) E n n
当x < −4 当− 4 ≤ x < 0 当0 ≤ x < 2 当2 ≤ x < 2.5 当2.5 ≤ x < 3 当3 ≤ x < 3.2 当3.2 ≤ x < 4 当x ≥ 4
二、直方图
离散型:
设总体 X为离散型随机变量,分 布列为 P ( X = a i ) = pi
令v i 表示事件{ X = a i }在n次重复独立观测中出现 的次数
vi n
P
P {a i < X ≤ a i + 1 } = ∫
a i +1
ai
f ( x )dx
当m , n充分大时,
定义函数:
vi b−a ≈ f (ai ) ⋅ m n
vi m 当a i ≤ x < a i +1时,有 f n ( x ) = ⋅ ,i = 0,1, , m − 1, n b−a
五、Q − Q 图和P − P 图
Fn ( x )是经验分布函数,如果 总体服从 F ( x ),则
Fn ( x )
a .s.
F ( x)
所以点
−1 i −1 i −1 i x( i ) , F n = Fn n , F n
相关文档
最新文档