次序统计量

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
28, 29, 30, 32, 35, 65;
则样本中位数为:
而样本均值为:
x
1 2
[
x(3)
x(4) ]
31;
x
1 6
6 i1
xi
36.5;
15
样本均值x 大于样本值 6 个数中的 5 个数,这 是因为样本值 65 比其它值大许多,可见样本均值 对异常值或极端值较敏感,而样本中位数则不受异 常值影响,所以有时候估计总体均值用样本中位数 比用样本均值效果更好。
(3). 大多数情况下,数据基本上落在“均值±2个 标准差”的区间内,否则这个数据就被认为是 异常的大或异常的小。 在绝大多数情况下,一组正常的数据基本上 落在“均值±3个标准差”的区间内。
14
例 从总体中抽取容量为6的样本,测得样本值为
32, 65, 28, 35, 30, 29,
由小到大排列为
x(1)
是样本
值中最小的一个;而
X (n)
max
1in
X
i
称为最大次序统计量,
它的值 x(n) 是样本值中最大的一个。
由 于 次 序 统 计 量 的 每 一 个 分 量X(k) 都 是 样 本
X1 , X 2 ,, X n 的函数,所以 X (1), X (2), , X (n) 也都是随机 变量。样本X1, X2,, Xn 是相互独立的,但其次序统
1in
Xi
min
1in
Xi,
它的值为
r
x(n)
x(1)
max
1in
xi
min
1in
xi ,
样本极差与样本方差一样是反映样本值变化幅 度或离散程度的数字特征,而且计算方便,所 以在实际中有广泛的应用。
13
Remark
(1). 极差计算简单,但是不如样本标准差稳健。
(2). 对于大多数单峰对称分布,标准差大约 等于极差的四分之一。
计量 ( X(1), X(2), , X(n) ) 一般不是独立的。
2
定义 样本 X1 , X 2 ,, X n 按由小到大的顺序重排为
X (1) X (2) X (n)
则称 ( X (1) , X (2) , , X (n) ) 为样本( X 1 , X 2 ,, X n )的次序统计 量, X(k) 称为样本的第 k 个次序统计量。
定理 次序统计量是充分统计量。
证明 当给定 X (1) x(1) , , X (n) x(n) 时,由于X1 , X 2 ,, X n 独立同分布,所以
P( Xi1 x(1) ,
, Xin
x(n) )
1 n!
此条件分布与总体分布无关,故次序统计量是充分统计量。
3
4
定理 1.19 设总体 X 的分布密度为 f(x)(分布函数为
时,定义
X (k )

值 为 x(k) (k 1, 2, , n), 由 此 得 到 的 ( X (1), X (2) , , X (n) ) 称 为
样本X1 , X 2 ,, X n 的次序统计量。
1
显然有
X(1) X(2) X(n)
其中
X (1)
min
1in
Xi
称为最小次序统计量,它的值
{ 1,1,3,3,4,2,3,8 } 3
11
Remark (1). 中位数比样本均值更为稳健,当二者相差不大时
常采用样本均值表示数据平均,否则应该用中位数。 (2). 样本的众数适用于离散的总体
12
2. 表示“变差”的统计量: 样本方差(或标准差)、极差
样本极差定义为
R
X (n)
X (1)
max
i1
f ( yi ), y1 y2
yn
0,其他
6
定理 1.21 设总体 X 的分布密度为 f(x)(分布函数为
F(x)),
X , X ,, X 为其样本,则次序统计量的分布
1
2
n
密度为(X(1), X(n)) 的联合分布密度为
n(n 1)[F( y) F(x)]n2 f (x) f ( y), x y,
F(x)),
X1
,
X
2
,,
X
为样本,则第
n
k
个次序统计量
X(k)
的分布密度为
fX(k)
(x)
(k
n! 1)!(n
[F(x)]k1[1 k)!
F ( x)]nk
f
(x), k
1, 2,
, n.
特别,最小次序统计量X(1) 和最大次序统计量X (n) 的分布
密度为
fX(1) (x) n[1 F (x)]n1 f (x),
16
例 乙同学毕业后求职于一家公司。总经理说, 公司平均月薪是 3000 元。一个月后乙同学得到 工资1000元,据了解,公司共有21人,和自己 职位相同的业务员共有 10 人,每人的月薪都是 1000 元。应该如何理解乙同学的遭遇 ?
f(
X (1)
,X(2)
)
(x,
y)
0, x y,
7
1. 表示“平均”的统计量: 样本均值、中位数、众数
例 关于平均值的理解 样本均值是人们采用最多的一种描述数据的方法,
它反映了一组数据整体上的一些信息,然而容易掩盖 一些极端的情况,所以有时候样本均值不一定合理 。
思考1. 甲同学听说,有个身高 1.75 米的成年人在 平均水深为 1 米的小河中淹死了,他觉得不可思议。
§ 1.4 次序统计量及其分布
一 次序统计量
设X1 , X2 ,, X n 是从总体 X 中抽取的一个样本, 记x1 , x2 ,, xn 为样本的一个观测值,将观测值的各
个分量按由小到大的递增序列重新排列为
x(1) x(2) x(n).

X , 1
X
2
,,
X n
取值为x , 1
x 2
,,
x n
这件事情是否是一个玩笑?
8
思考2. 一位统计学家把一只脚放进 100℃ 的开水里, 另一只脚放进冰水中。然后宣布:现在,在平均值的 意义上,我感觉很舒服。
9
中位数定义
设( X 1 , X 2 ,, X n )是总体 X 中的样本 , ( X (1) , X (2) , , X (n) ) 为其次序统计量,则样本中位数定义为
X
1 2
[
X
(
X
n) 2
( n1),n奇 2
X ( n1) ],n偶 2
它的值为
x
ห้องสมุดไป่ตู้
x
(
n1),n奇
2
1 2
[
x
(
n 2
)
x
(
n 1 )
],n偶
2
10
样本中位数与样本均值一样是刻划样本位置特征的 量,而且样本中位数的计算方便并不受样本异常值 的影响,所以有时比样本均值更有代表性。
众数定义 样本数据中出现次数最多的样本,例如:
fX(n) (x) n[F (x)]n1 f (x).
5
定理 1.20 设总体 X 的分布密度为 f(x)(分布函数为
F(x)), X , X ,, X 为其样本,则次序统计量的分布
1
2
n
密度为(X(1), X(2), , X(n) ) 的联合分布密度为
n
f ( y1, y2,
,
yn
)
n!
相关文档
最新文档