高中数学 第2讲变量的相关性、回归分析及独立性检验
第2讲 变量的相关性、回归分析及独立性检验
一、知识回顾
1.如何判断两个变量的线性相关:
如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。
2.所求直线方程 ?y
=bx +a 叫做回归直线方程;其中 ?∑∑∑∑n
n
i
i i i
i=1
i=1
n
n
2
2
2
i
i
i=1
i=1
(x
-x)(y -y)
x -nx y
b =
=
,a =y -bx (x
-x)x
-nx
y
回归直线方程必过中心点(,)x y
3
.相关系数的∑n
i
i (x
-x)(y -y)
r =
性质
? (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
4. ??=-i i y y i 残差e
=实际值-预测值2
^^
2
1
1
()
===-∑∑n
n
i
i
i
i i e y y 总残差平方和:
残差平方和越小,即模型拟合效果越好
5. 两个分类变量的独立性检验:
(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下计算随机变量 2
2
n(ad -bc)
K =(a +b)(c +d)(a +c)(b +d)
(3) 根据随机变量K 2
查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:
例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关
1x 1y 1u 1
v
变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,
)
()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=???i i x y i n 的回归直线方程为23,∧
=-y x 若
1
17==∑n
i
i X
则1
==∑n
i i y
变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )
A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨
标准煤)的几组对照数据.
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程??y bx
a =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,
预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5?+?+?+?=)
例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3
年的跟踪
x y y x 5.115?-=x y
5.115.6?-=
x y 5.112.1?-=x y
5.113.1?-=x y
0.0005300035000.0003
0.0004200015000.0002
0.0001
400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:
姓名: 学号:
1.若施化肥量x 与小麦产量y 之间的回归直线方程为?2504y
x =+,当施化肥量为50kg 时,预计小麦产量为
2.4月份x
1 2 3 4
用水量y
5.4
4
3 5.2
由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧
7.0,则=a
3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则
所得新数据的平均数和方差分别是( )
A .57.2 3.6
B .57.2 56.4
C .62.8 63.6
D .62.8 3.6
4.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6
B .6
C .66
D .6.5
5.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,47
6.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200
的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.
7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。为了分析居民的收入与年龄、学历、 职业等方面的关系,要从这10000人中再用分层抽样方法抽
出100人作进一步调查,则在[2500,3000)(元)/月收入段
应抽出 人.
8.为了调查某厂工人生产某种产品的能力,随机抽查 了20位工人某天生产该产品的数量.产品数量的分组区间为
[)45,55,[)[)[)55,65,65,75,75,85,[)85,95由此得到频
率分布直方图如图3,则这20名工人中一天生产该产品数量在[)55,75的人数是 .
第11题图
甲
乙
1 2 3 4
9.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到
由表中数据计算得 ≈2K ,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?
10.在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表:
(1)画出散点图;(2)求出Y 对X 的回归直线方程; (3)如果价格定为1.9万元,预测需求量大约是多少?
11.佛山市在每年的春节后,市政府都会发动公务员参与到植树活动中去.林管部门在植树前,为保证树苗的质量,都会在植树前对树苗进行检测.现从甲乙两种树苗中各抽测了10(单位:厘米)
甲:37,21,31,20,29,19,32,23,25,33
乙:10,30,47,27,46,14,26,10,44,46
(Ⅰ)根据抽测结果,完成答题卷中的茎叶图,并根据你填写的茎叶图, 对甲、乙两种树苗的高度作比较,写出两个统计结论; (Ⅱ)设抽测的10株甲种树苗高度平均值为x ,将这10株树苗的高度依次输入按程序框图进行的运算,问输出的S 大小为多少?并说明S
12.为了了解某年段1000名学生的百米成绩情况,随机抽取了若干学生的百米成绩,成绩全部介于13秒与18秒之间,将成绩按如下方式分成五组:第一组[13,14);第二组[14,15);……;第五组[17,18].按上述分组方法得到的频率分布直方图如图所示,已知图中从左到右的前3个组的频率之比为3∶8∶19,且第二组的频数为8.
(Ⅰ)将频率当作概率,请估计该年段学生中百米成绩
在[16,17)内的人数;
(Ⅱ)求调查中随机抽取了多少个学生的百米成绩;
(Ⅲ)若从第一、五组中随机取出两个成绩,求这两个成绩的
差的绝对值大于1秒的概率.
6.某校从参加高一年级期末考试的学生中抽出60名学生,并
统计了他们的物理成绩(成绩均为整数且满分为100分),把其中不低于50分的分成五段,
…后画出如下部分..
频率分布直方图.观察图形的信息,回答下列问题: (1)求出物理成绩低于50分的学生人数; (2)估计这次考试物理学科及格率(60分及 以上为及格)
(3) 从物理成绩不及格的学生中任选两人, 求他们成绩至少有一个不低于50分的概率.
[)60,50[)70,60[]100,900.03 100
0.025 0.015 0.005
90
80
70
60
50
组距
频率
率分数
第2讲 变量的相关性、回归分析及独立性检验
一、知识回顾
1.如何判断两个变量的线性相关:
如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。
2.所求直线方程 ?y
=bx +a 叫做回归直线方程;其中 ?∑∑∑∑n
n
i
i i i
i=1
i=1
n
n
2
2
2
i
i
i=1
i=1
(x
-x)(y -y)
x -nx y
b =
=
,a =y -bx (x
-x)x
-nx
y
回归直线方程必过中心点(,)x y
3
.相关系数的∑n
i
i (x
-x)(y -y)
r =
性质
? (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
4. ??=-i i y y i 残差e
=实际值-预测值2
^^
2
1
1
()
===-∑∑n
n
i
i
i
i i e y y 总残差平方和:
残差平方和越小,即模型拟合效果越好
5. 两个分类变量的独立性检验:
(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下计算随机变量 2
2
n(ad -bc)
K =(a +b)(c +d)(a +c)(b +d)
(3) 根据随机变量K 2
查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:
例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断。
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关
1x 1y 1u 1
v
解析:由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,选C
变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,
D )
()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=???i i x y i n 的回归直线方程为23,∧
=-y x 若
1
17==∑n
i
i X
则1
==∑n
i i y
31
变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( D )
A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨
标准煤)的几组对照数据.
(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程??y bx
a =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,
预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5?+?+?+?=) 解: (1) 散点图略 (2)
41
66.5i i
i X Y ==∑ 4
222221
345686i
i X
==+++=∑ 4.5X = 3.5Y =
2
66.54 4.5 3.566.563?0.7864 4.58681
b -??-===-?- ; ?? 3.50.7 4.50.35a Y bX =-=-?= 所求的回归方程为 0.70.35y x =+ (3) 100x =, 1000.35y =+
预测生产100吨甲产品的生产能耗比技改前降低9070.3519.65-=(吨)
例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3
年的跟踪____________ .1.78 不能作出这两种手术对病人又发作心脏病的影响有差别的结论.
x y y x 5.115?-=x y
5.115.6?-=
x y 5.112.1?-=x y
5.113.1?-=x y
0.0005300035000.0003
0.0004200015000.0002
0.0001
4000
25001000月收入(元)
频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:
姓名: 学号:
1.若施化肥量x 与小麦产量y 之间的回归直线方程为?2504y
x =+,当施化肥量为50kg 时,预计小麦产量为 450
2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1 2 3 4
用水量y
5.4
4
3 5.2
由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧
7.0,则=a
3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则
所得新数据的平均数和方差分别是(D ) A .57.2 3.6 B .57.2 56.4 C .62.8 63.6 D .62.8 3.6 4.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为A A .6
B .6
C .66
D .6.5
5.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( D ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,47 6.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200
的样本.已知女生比男生少抽了10人,则该校的女生人数应是760 人. 7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。为了分析居民的收入与年龄、学历、 职业等方面的关系,要从这10000人中再用分层抽样方法抽
出100人作进一步调查,则在[2500,3000)(元)/月收入段
应抽出 25 人.
8.为了调查某厂工人生产某种产品的能力,随机抽查 了20位工人某天生产该产品的数量.产品数量的分组区间为[)45,55,[)[)[)55,65,65,75,75,85,[)85,95由此得到频
率分布直方图如图3,则这20名工人中一天生产该产品数量在[)55,75的人数是 .20(0.06510)13??=, 9.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表: 性别与喜欢数学课程列联表
喜欢数学课程 不喜欢数学课程 总计 男 37 85 122 女 35 143 178 总计
72
228
300
由表中数据计算得 ≈2
K 4.513,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?
第11题图
甲
乙 1 2 3 4
甲 乙
1 2 3 4 0 6 0 4 4 7
6 0 6 7
9 0 7 1 3 3 2 5 1 9 10.在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表:
(1)画出散点图;(2)求出Y 对X 的回归直线方程; (3)如果价格定为1.9万元,预测需求量大约是多少?
11.佛山市在每年的春节后,市政府都会发动公务员参与到植树活动中去.林管部门在植树前,为保证树苗的质量,都会在植树前对树苗进行检测.现从甲乙两种树苗中各抽测了10株树苗的高度,量出的高度如下(单位:厘米)
甲:37,21,31,20,29,19,32,23,25,33
乙:10,30,47,27,46,14,26,10,44,46
(Ⅰ)根据抽测结果,完成答题卷中的茎叶图,并根据
你填写的茎叶图,对甲、乙两种树苗的高度作比较,写出
两个统计结论; (Ⅱ)设抽测的10株甲种树苗高度平均值为x ,将 这10株树苗的高度依次输入按程序框图进行的运算,问 输出的S 大小为多少?并说明S 的统计学意义。 解:(Ⅰ)茎叶图如右.
统计结论:①甲种树苗的平均高度小于乙种树苗的平均高度; ②甲种树苗比乙种树苗长得更整齐; ③甲种树苗的中位数为27,乙种树苗的中位数为28.5;
④甲种树苗的高度基本上是对称的,而且大多数集中在均值附近, 乙种树苗的高度分布较为分散.
(Ⅱ)27,35.x S ==S 表示10株甲树苗高度的方差,是描述树苗高度离散程度的量.S 值越小,表示长得越整齐,S 值越大,表示长得越参差不齐.
12.为了了解某年段1000名学生的百米成绩情况,随机抽取了若干学生的百米成绩,成绩全部介于13秒与18秒之间,将成绩按如下方式分成五组:第一组[13,14);第二组[14,15);……;第五组[17,18].按上述分组方法得到的频率分布直方图如图所示,已知图中从左到右的前3个组的频率之比为3∶8∶19,且第二组的频数为8.
(Ⅰ)将频率当作概率,请估计该年段学生中百米成绩
在[16,17)内的人数;
(Ⅱ)求调查中随机抽取了多少个学生的百米成绩;
(Ⅲ)若从第一、五组中随机取出两个成绩,求这两个成绩的
差的绝对值大于1秒的概率.
解:(Ⅰ)百米成绩在[16,17)内的频率为0.32?1=0.32
0.32?1000=320
∴估计该年段学生中百米成绩在[16,17)内的人数为320人。
(Ⅱ)设图中从左到右前3个组的频率分别为3x ,8x ,19x 依题意, 3x+8x+19x+0.32?1+0.08?1=1 ,∴x=0.02
设调查中随机抽取了n 个学生的百米成绩,则n
8
02.08=
? ∴n=50 ∴调查中随机抽取了50个学生的百米成绩。
(Ⅲ)百米成绩在第一组的学生数有3?0.02?1?50=3,记他们的成绩为a ,b ,c 百米成绩在第五组的学生数有0.08?1?50= 4,记他们的成绩为m ,n ,p ,q
则从第一、五组中随机取出两个成绩包含的基本事件有
{a,b},{a,c},{a,m},{a,n},{a,p},{a,q},{b,c},{b,m},{b,n},{b,p},{b,q},{c,m},{c,n},{c,p},{c,q},
{m,n},{m,p},{m,q},{n,p},{n,q},{p,q},共21个
其中满足成绩的差的绝对值大于1秒所包含的基本事件有{a,m},{a,n},{a,p},{a,q},
{b,m},{b,n},{b,p},{b,q},{c,m},{c,n},{c,p},{c,q},共12个, 所以P=
7
42112=
6.某校从参加高一年级期末考试的学生中抽出60名学生,并统计了他们的物理成绩(成绩均为整数且满分为100分),把其中不低于50分的分成五段,…后画出如下部分..频率分布直方图.观察图形的信息,回答下列问题:
(1)求出物理成绩低于50分的学生人数;
(2)估计这次考试物理学科及格率(60分及
以上为及格)
(3) 从物理成绩不及格的学生中任选两人,
求他们成绩至少有一个不低于50分的概率. 解: (1)因为各组的频率和等于1,故低于50分的频率为:
所以低于50分的人数为(人) (2)依题意,成绩60及以上的分数所在的第三、四、五、六组(低于50分的为第一组), 频率和为 所以,抽样学生成绩的合格率是%.
于是,可以估计这次考试物理学科及格率约为% (3)“成绩低于50分”及“[50,60)”的人数分别是6,9。所以从成绩不及格的学生中选两人,他们成绩
[)60,50[)70,60[]100,901.010)005.0025.003.02015.0(11=?+++?-=f 61.060=?(0.0150.030.0250.005)100.75+++*=75750.03
100
0.025 0.015 0.005
90
80
70 60 50 组距 频率率分数
至少有一个不低于50分的概率为:
7
6
1415561=??-=P