第3讲 变量间的相关关系与统计案例
变量间的相关关系与统计案例
基础梳理
1.相关关系的分类
从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b
^x +a ^,则 ??
???
b ^=∑i =1n (x i
-x )(y i
-y )∑i =1n (x i
-x )2
=
∑i =1n
x i y i
-n x
y
∑i =1
n
x 2i
-n x
2
,
a
^=y -b ^ x .
其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数
r =
∑i =1
n
(x i -x )(y i -y )
∑i =1n (
x i -x )2
∑i =1
n
(y i -y )2,用它来衡量两个变量间的线性相关关系.
(1)当r >0时,表明两个变量正相关; (2)当r <0时,表明两个变量负相关;
(3)r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,
表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
5.线性回归模型
(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.
(2)相关指数
用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差
平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.
6.独立性检验
(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.
(2)列出的两个分类变量的频数表,称为列联表.
(3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1y2总计
x1 a b a+b
x2 c d c+d
总计a+c b+d a+b+c+d
K2=n(ad-bc)2
(a+b)(a+c)(c+d)(b+d)
(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“x与y的关系”.
这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断
().
A .变量x 与y 正相关,u 与v 正相关
B .变量x 与y 正相关,u 与v 负相关
C .变量x 与y 负相关,u 与v 正相关
D .变量x 与y 负相关,u 与v 负相关
2.(2012·南昌模拟)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ). A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200
D.y ^=10x -200
3.(2012·枣庄模拟)下面是2×2列联表:
y 1 y 2 合计 x 1 a 21 73 x 2 22
25 47 合计
b
46
120
则表中a ,b 的值分别为( ).
A .94,72
B .52,50
C .52,74
D .74,52
4. 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).
5.随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
男
女
需要4030
不需要160270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%年人是否的把握认为该地区老需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区老年人中,需要志愿者提供帮助的老年人的比例?说明理由.
附:
P(K2≥k)0.0500.0100.001
k 3.841 6.63510.828
K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
6. 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落
在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数1263861829261 4 乙厂:
分组[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数297185159766218
(1)试分别估计两个分厂生产零件的优质品率;
(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂乙厂合计
优质品
非优质品
合计
附K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,
P(K2≥k)0.050.01
k 3.841 6.635