最新数据分析练习题(解答)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

EX1-0

设来自样本观测值如下表:

求2维总体(X ,Y )各分量的秩统计量。

EX1-1 某小学10名11岁学生的身高(单位:cm)数据如下:

(1) 计算均值、方差、标准差、变异系数、偏度、峰度; (2) 计算中位数、上、下四分位数、四分位极差、三均数; (3) 作出直方图(范围130~145,a i-1≤x

(5) 作出茎叶图; (6)

(7) 写出次序统计量)()2()1(,...,,n x x x ;

(8) 进行正态性W 检验(适合与小样本3<=n<=50)。需要计算)()1(i i n i x x d -=-+,试写出i

d (其中,当n 为偶数时,21n k i =≤≤;当n 为奇数时,2

11-=≤≤n k i ) 解:(1)

均值:∑==

n

i i

x

n

x 1

1;

方差:21

2

)(1

1

∑=--=

n

i i

x x

n s ;标准差2s s =;

变异系数:(%)100x

s

CV ⨯=;

偏度:∑=---=

n

i i

x x

s n n n g 1

33

1)(1

)2)(1(;

峰度:)

3)(2()1(3)(1

)3)(2)(1()1(3

1

4

4

2--------+=

=n n n x x s n n n n n g n

i i 。

(2)

中位数:⎪⎩⎪

⎨⎧+=++是整数

不是整数

np x x np x M np np np )(2

1

,)1()()1]([;

上、下四分位数:75.03M Q =,25.01M Q =;

四分位极差:131Q Q R -=;

三均数:314

1

2141ˆQ M Q M

++=。 EX1-4 2002年11月以及1至11月全国部分省、市、区财政预算收入数据如表1.4所示(单位:亿元)。设X 1为11月预算收入,X 2为1至11月预算收入,分别对X 1,X 2的观测值计算: (9)

(10) X 1,X 2的观测值的Pearson 相关系数Spearman 相关系数。

Pearson 相关系数:yy

xx

xy xy s s s r =

其中∑=--=

n

i i

xx

x x

n s 1

2

)(1

1,∑=--=

n

i i

yy

y y

n s 1

2

)(1

1,21

2)()(1

1y y x x

n s i n

i i

xy

---=

∑=。

Spearman 相关系数:∑

∑===----=

n

i i n i i n

i i i xy S S R R S S R R q 1

2

1

2

1

)

()

()

)((,

其中n R R R ,...,,21为n x x x ,...,,21的秩统计量,n S S S ,...,,21为n y y y ,...,,21的秩统计量。

例2-1,2-2 对于只有一个自变量的线性回归模型εββ++=110X Y ,利用观测值),...,2,1()

,(n i x y i i =

(1)求β0,β1的最小二乘估计及)(2εσVar =的估计,其中x i 不完全相同。

(2)当回归模型为εβ+=X Y 时,它的最小二乘估计β

ˆ是否为β的无偏估计? (3)求X 的一个新观测值x 0处因变量Y 预测值y 0的置信度区间。 (4)求置信区间长度最小的x 0取值? 解:

(1)参考书中例2-1

由Y X X X T T T p 11

10)()ˆ,...,ˆ,ˆ(ˆ--==ββββ可得 ∑

===--=n i i n

i n

i i

i i x x y x x

x y

1

2

1

120

)

(ˆβ,∑

∑==--=n

i i n

i i i x x y x n y x 1

2

11

)

(ˆβ

(2)

由回归模型)1(ε

β+=X Y

==-=

--===

n

i i i T T T n

i i x y X Y X Y S 1

21

2)()()()(βββεεεβ

其中⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n εεεε...21⎥⎥⎥⎥⎦

⎤⎢⎢⎢⎢⎣⎡=n x x x X (2)

1,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y Y (21)

0)(2)

(1

=--=∑

=n

i i i i x x y d dS ββ

β,即

===n

i i n

i i i x x y 1

21

β

设x i 不全为0,则最小二乘估计β

ˆ是∑

=-==n

i i i n

i i x y x 1

1

1

2)(ˆβ

因为

02

)(1

22

2>=∑

=n

i i x d S d β

β故β

ˆ确实是)(βS 的最小值点。 由(1)X Y E β=)( βββ

===-=-=∑

X X x Y E X x E T n

i i T n

i i 11

211

2)(

)()()ˆ(

所以,它的最小二乘估计β

ˆ是β的无偏估计。

(3)参考书中的例2-2 对于给定置信水平α,由

)(]

)(1[ˆ01

00p n t x X X x MSE y y

T

T

-+-- 式,可得Y 在),...,,(1,00201-p x x x 处取值y 0的置信度为1-α

的置信区间为

])(1[)(ˆ0102/10x X X x MSE p n t y T T

--+-±α

所以新观测值处取值y 0的置信度为1-α的置信区间为:

])(/)(1

1[)2(ˆ12202/10∑

=---++-±n

i i x x x x n

MSE n t y

α

其中,∑

=---=

-=n

i i i x y n n SSE MSE 12

10)ˆˆ(2

1

)2/(ββ。∑==n

i i

x

n

x 1

1。

(4)由上式可知,置信区间的长度在x 0=x 时达到最小,为

]1

1[)2(ˆ2/10n

MSE n t y

+-±-α。

相关文档
最新文档