统计学原理 第8章 相关与回归分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。
积差法相关系数的简捷计算
r xy x y
(x x )( y y)
n
(x x)2 ( y y)2
n
n
(x x )( y y) (x x)2 ( y y)2
(x x)( y y) (xy xy xy x y)
总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于特定的总体来说,X和Y的数值是既定的
总体相关系数是客观存在的特定数值。
● 样本相关系数
通过X和Y 的样本观测值去估计样本相关系数变量
X和Y的样本相关系数通常用 rXY 表示
rxy
(xi x )( yi y ) (xi x )2 ( yi y )2
A图 密集分布
Y





B图 散乱分布
Q

••
•• •


• • •
• •
• ••



X

P
(一) (三) (x x)(y y)
A图(( xy
x) y)
(x x)( y y)偏大
红点的Σ和为-,从 而使整体Σ偏小
( p p)(q q)偏小
[负相关]

A图 密集分布
Y • •• •
n y2
2
1 n
xx
x
yy
y
11
2r
1 n
xx
x
yy
y
2
2
2r 2 0 r 1 同理可证 : r 1
xx
x
yy
y
2
0
2
xx
x
yy
y
xx
x
2
yy
y
2
又 x x N (0,1), y y N (0,1)
x
y
xx
x
2
yy
y
2
n
n
2n
r
xx
x
yy
y
Y= f(X)+ε
(ε为随机变量)
◆没有关系 35
30
变量间关系的图形描述: 25 20
Y
坐标图(散点图)
15 10
5
0
0
10
20
30
X
相关关系的类型
● 从涉及的变量数量看
简单相关
多重相关(复相关)
● 从变量相关关系的表现形式看
线性相关——散布图接近一条直线(左图)
非线性相关——散布图接近一条曲线(右图)
关系数 7. 常用的可以转换为线性回归的非线性函数 8. 非线性相关指数
实例1: 中国妇女生育水平的决定因素是什么?
妇女生育水平除了受计划生育政策影响以外,还可能 与社会、经济、文化等多种因素有关。 1. 影响中国妇女生育率变动的因素有哪些? 2. 各种因素对生育率的作用方向和作用程度如何? 3. 哪些因素是影响妇女生育率主要的决定性因素? 4. 如何评价计划生育政策在生育水平变动中的作用? 5. 计划生育政策与经济因素比较,什么是影响生育率的
(一)协方差xy的作用 1、显示x与y之间的相关方向。
Y (二)
x x (xn , yn ) (一)


r xy x y (三)

• •
yy
(四)

(x1, y1 )
xy
(x x)(y n
y)
X
(一) (三) (x x)(y y)
(x x) ( y y)
xy 0 正相关 r 0
120.7 18.6 14568.49 345.96 2245.02
140.6 22.5 19768.36 506.25 3163.5
883.9 129.5 87703 1988 13031
x 883.9, y 129.5.8, x2 87703.23, y2 1987.59,
xy 13031.18, n 10
xy yx xy x y xy y x x y nx y
n
n
xy
xy n
xy n
n
x n
y n
xy xy n
[简捷计算公式]
(x x )2 (x2 2xx x 2 )
x2 2xx x 2 x2 2 x x n x 2 n
x 2
2(x) 2 n
n
r r r
0 0 0
无直线相关 正相关 负相关
第二、显示x与y之间的相关密切程度
xy 越大 x与y之间的相关程度越高
xy
越小
x与y之间的相关程度越低
(二)x、y的作用 1、使不同变量的协方差标准化直接对比。
(x x)( y y)
r xy x y
n
x y
(x x)( y y)
(引自《光明日报》刘军/文)
问题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗?
这些类型的问题可以运用相关分析与回归分析的 方法去解决。
8.0 相关与回归的基本概念
一、变量间的相互关系 二、相关关系的类型 三、相关分析与回归分析
一、变量间的相互关系
◆确定性的函数关系 Y=f (X)
◆不确定性的统计关系—相关关系
25
20
15
10
5
0
0
2
4
6
8
10
12
11.2
11
10.8
10.6
10.4
10.2
10
0
2
4
6
8
10
相关关系的类型
● 从变量相关关系变化的方向看 25
20
正相关——变量同方向变化
A 15 10
5
同增同减 (A)
0
0
2
4
6
8
10
12
负相关——变量反方向变化 一增一减 (B)
● 从变量相关的程度看
25
由固定的自变量去估计因变量的平均值
总 体

自变量固定值

相关分析与回归分析的联系
●共同的研究对象:都是对变量间相关关系的 分析
●只有当变量间存在相关关系时,用回归分析 去寻求相关的具体数学形式才有实际意义
●相关分析只表明变量间相关关系的性质和程 度,要确定变量间相关的具体数学形式依赖 于回归分析
● 相关分析中相关系数的确定建立在回归分析 的基础上
n x y
xx
x
yy
y
n
x
x
x
x
y
y
y
y
n
(x x)(y y) 标准化的协方差 n
2、使 r 1 1 r 1
r
xx
x
yy
y
2r
2
xx
x
yy
y
n
n
1 n
xx
x
yy
y
2
xx
x
2
yy
y
2
2
1 n
xx
x
yy
y
(x x)2 ( y y)2
n
2 x
n
2 y
( y y )2 1

B图 散乱分布 Q
• • •
• •
••






X
• •
•• • •

P
(二) (四) (x x)(y y)
A图((
x y
x) y)
(x x)(y y) 偏大
( p p)(q q) 偏小
[不相关]
xx
Y
• A图
Y
B图




yy

• • •• ••• • •• • • • •
决定因素? 6. 如果某些地区的计划生育政策及社会、经济、文化
等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?
实例2: 全球吃死的人比饿死的人多?
据世界卫生组织统计,全球肥胖症患者达3 亿人,其中儿童占2200万人,11亿人体重过重。 肥胖症和体重超常早已不是发达国家的“专利”, 已遍及五大洲。目前,全球因”吃”致病乃至死 亡的人数已高于因饥饿死亡的人数。
第8章 相关与回归分析
8.0 相关与回归的基本概念 8.1 简单线性相关分析 8.2 一元线性回归分析 8.3 多元线性相关与回归分析 8.4 非线性相关与回归分析 8.5复相关和偏相关
学习目标
1. 变量间的相关关系与相关系数的计算 2. 总体回归函数与样本回归函数 3. 线性回归的基本假定 4. 简单线性回归参数的估计与检验 5. 多元线性回归参数的估计与检验 6. 多个变量的线性相关关系:复相关系数和偏相
r
nxy xy
nx 2 (x)2 y 2 (y)2
10 13031 .18 883 .9 129 .5
10 87703 .23 883 .92 10 1987 .59 129 .52
15846 .75
0.92
95753 .09 3234 .9
答:即账单消费额与小费之间存在着高度的正相关关系。
再问:若令账单消费额为y,小费为x,则r的取值是否改变 ?
使用相关系数的注意事项
▲X和Y 都是相互对称的随机变量,所以
XY YX
▲其接近于1的程度与样本容量n有关, n小, r 1。特例:当n = 2时,r = 1。
▲相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。
▲相关系数不能确定变量的因果关系,百度文库不能 说明相关关系具体接近于哪条直线。
1
n
相关系数的特点总结
• 相关系数的取值在-1与1之间。
• 当r=0时,表明X与Y没有线性相关关系。
• 当 0 r 1 时,表明X与Y存在一定的线性 相关关系: 若 r 0 表明X与Y 为正相关; 若 r 0 表明X与Y 为负相关。
• 当 r 1 时,表明X与Y完全线性相关: 若r=1,称X与Y完全正相关; 若r=-1,称X与Y完全负相关。
x n
2
x2 (x)2
n
同理:( y y)2 y2 (y)2 n
[r的简捷计算式]
r
xy x y
(x x)(y y) (x x)2 ( y y)2
nxy xy
nx2 (x)2 ny 2 (y)2
xy x y
x2 x2 y2 y2
xy x y xy
● 相关系数特点分析
8.1 简单线性相关分析
一、简单线性相关系数及检验 二、总体回归函数与样本回归函数 三、回归系数的估计 四、简单线性回归模型的检验 五、简单线性回归模型预测
一、简单线性相关系数及检验
●总体相关系数
对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:
Cov( X ,Y )
Var( X )Var(Y )


• •
• •
X
X
A图 : x x 0 (x x)( y y) 0 xy 0
B图 : y y 0 (x x)( y y) 0 xy 0
x与y之间无直线相关
[归纳] xy的作用 第一、显示x与y之间的相关方向
r
xy x y
xy xy xy
0 0 0
餐饮消费额与小费数据如下:单位:美元 消 33.5 50.7 87.9 98.8 63.6 107.3 120.7 78.5 102.3 140.6 费 小 5.5 5.0 8.1 17 12 16 18.6 9.4 15.4 22.4 费
账单X 小费Y X2
Y2
XY
33.5
5.5 1122.25 30.25 184.25
[负相关]
Y r xy
x y
xy
(x
x)(y n
y)
(二)

(x1, y1 ) •
xx

(三)

(一)
yy
(四)
• •
(xn , yn )
(二) (四) (x x)(y y)
X
(x x) ( y y)
xy 0 负相关 r 0
2、显示x与y之间的相关程度。
线性相关的判断准则
r 0.3 微弱相关 0.3 r 0.5 低度相关 0.5 r 0.8 显著相关 0.8 r 1 高度相关
r 0 x与y无线性关系,但可能有其他关系
r 1 x与y有完全线性关系:函数关系 [例]为了解餐饮业消费数额与小费之间的数额关系,特从若干 名消费者中随机抽取10消费者调查,所得数额如下:
关于相关的普通错误
在解释关于相关的结果中会出现三种普通的错误:
1、相关就一定意味着因果关系。如:一项研究表明,统 计学教授的薪金与每人的啤酒消费量之间有很强的正相关 关系,但这两个变量都受经济形势的影响。(隐藏变量)
2、相关系数为0,一定不相关。
3、基于平均数进行相关分析与基于个体数据进行相关分 析,其相关程度不一样。如:一项研究中,关于个人收入 和教育的成对数据产生了一个0.4的线性相关系数,但当 使用区域平均时,线性相关系数变为0.7。
20
B 15 10 5
0
0
2
4
6
8
10
12
完全相关 (B) 不完全相关 (A) 不相关 (C)
35 30
C 25 20 15 10 5 0 0
5
10
15
回归的古典意义
高尔顿遗传学的回归概念
父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的 趋势
回归的现代意义
一个因变量对若干解释变量依存关系的研究 回归的目的(实质):
50.7
5 2570.49
25 253.5
63.6
12 4044.96
144 763.2
78.5
9.4 6162.25 88.36 737.9
87.9
8.1 7726.41 65.61 711.99
98.8
17 9761.44
289 1679.6
107.3
16 11513.29
256 1716.8
102.3 15.4 10465.29 237.16 1575.42
相关系数的检验
为什么要检验? 样本相关系数是随抽样而变动的随机变量,
相关系数的统计显著性还有待检验。 检验的依据:
如果X和Y都服从正态分布,在总体相关系 数 0 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布:
相关文档
最新文档