高中数学 第2讲变量的相关性、回归分析及独立性检验

高中数学 第2讲变量的相关性、回归分析及独立性检验
高中数学 第2讲变量的相关性、回归分析及独立性检验

第2讲 变量的相关性、回归分析及独立性检验

一、知识回顾

1.如何判断两个变量的线性相关:

如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。

2.所求直线方程 ?y

=bx +a 叫做回归直线方程;其中 ?∑∑∑∑n

n

i

i i i

i=1

i=1

n

n

2

2

2

i

i

i=1

i=1

(x

-x)(y -y)

x -nx y

b =

=

,a =y -bx (x

-x)x

-nx

y

回归直线方程必过中心点(,)x y

3

.相关系数的∑n

i

i (x

-x)(y -y)

r =

性质

? (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.

4. ??=-i i y y i 残差e

=实际值-预测值2

^^

2

1

1

()

===-∑∑n

n

i

i

i

i i e y y 总残差平方和:

残差平方和越小,即模型拟合效果越好

5. 两个分类变量的独立性检验:

(1)假设结论不成立,即“两个分类变量没有关系”.

(2)在此假设下计算随机变量 2

2

n(ad -bc)

K =(a +b)(c +d)(a +c)(b +d)

(3) 根据随机变量K 2

查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:

例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。

(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关

1x 1y 1u 1

v

变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,

()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=???i i x y i n 的回归直线方程为23,∧

=-y x 若

1

17==∑n

i

i X

则1

==∑n

i i y

变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )

A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨

标准煤)的几组对照数据.

(1)请画出上表数据的散点图;

(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程??y bx

a =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,

预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5?+?+?+?=)

例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3

年的跟踪

x y y x 5.115?-=x y

5.115.6?-=

x y 5.112.1?-=x y

5.113.1?-=x y

0.0005300035000.0003

0.0004200015000.0002

0.0001

400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:

姓名: 学号:

1.若施化肥量x 与小麦产量y 之间的回归直线方程为?2504y

x =+,当施化肥量为50kg 时,预计小麦产量为

2.4月份x

1 2 3 4

用水量y

5.4

4

3 5.2

由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧

7.0,则=a

3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则

所得新数据的平均数和方差分别是( )

A .57.2 3.6

B .57.2 56.4

C .62.8 63.6

D .62.8 3.6

4.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6

B .6

C .66

D .6.5

5.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,47

6.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200

的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.

7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。为了分析居民的收入与年龄、学历、 职业等方面的关系,要从这10000人中再用分层抽样方法抽

出100人作进一步调查,则在[2500,3000)(元)/月收入段

应抽出 人.

8.为了调查某厂工人生产某种产品的能力,随机抽查 了20位工人某天生产该产品的数量.产品数量的分组区间为

[)45,55,[)[)[)55,65,65,75,75,85,[)85,95由此得到频

率分布直方图如图3,则这20名工人中一天生产该产品数量在[)55,75的人数是 .

第11题图

1 2 3 4

9.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到

由表中数据计算得 ≈2K ,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?

10.在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表:

(1)画出散点图;(2)求出Y 对X 的回归直线方程; (3)如果价格定为1.9万元,预测需求量大约是多少?

11.佛山市在每年的春节后,市政府都会发动公务员参与到植树活动中去.林管部门在植树前,为保证树苗的质量,都会在植树前对树苗进行检测.现从甲乙两种树苗中各抽测了10(单位:厘米)

甲:37,21,31,20,29,19,32,23,25,33

乙:10,30,47,27,46,14,26,10,44,46

(Ⅰ)根据抽测结果,完成答题卷中的茎叶图,并根据你填写的茎叶图, 对甲、乙两种树苗的高度作比较,写出两个统计结论; (Ⅱ)设抽测的10株甲种树苗高度平均值为x ,将这10株树苗的高度依次输入按程序框图进行的运算,问输出的S 大小为多少?并说明S

12.为了了解某年段1000名学生的百米成绩情况,随机抽取了若干学生的百米成绩,成绩全部介于13秒与18秒之间,将成绩按如下方式分成五组:第一组[13,14);第二组[14,15);……;第五组[17,18].按上述分组方法得到的频率分布直方图如图所示,已知图中从左到右的前3个组的频率之比为3∶8∶19,且第二组的频数为8.

(Ⅰ)将频率当作概率,请估计该年段学生中百米成绩

在[16,17)内的人数;

(Ⅱ)求调查中随机抽取了多少个学生的百米成绩;

(Ⅲ)若从第一、五组中随机取出两个成绩,求这两个成绩的

差的绝对值大于1秒的概率.

6.某校从参加高一年级期末考试的学生中抽出60名学生,并

统计了他们的物理成绩(成绩均为整数且满分为100分),把其中不低于50分的分成五段,

…后画出如下部分..

频率分布直方图.观察图形的信息,回答下列问题: (1)求出物理成绩低于50分的学生人数; (2)估计这次考试物理学科及格率(60分及 以上为及格)

(3) 从物理成绩不及格的学生中任选两人, 求他们成绩至少有一个不低于50分的概率.

[)60,50[)70,60[]100,900.03 100

0.025 0.015 0.005

90

80

70

60

50

组距

频率

率分数

第2讲 变量的相关性、回归分析及独立性检验

一、知识回顾

1.如何判断两个变量的线性相关:

如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。

2.所求直线方程 ?y

=bx +a 叫做回归直线方程;其中 ?∑∑∑∑n

n

i

i i i

i=1

i=1

n

n

2

2

2

i

i

i=1

i=1

(x

-x)(y -y)

x -nx y

b =

=

,a =y -bx (x

-x)x

-nx

y

回归直线方程必过中心点(,)x y

3

.相关系数的∑n

i

i (x

-x)(y -y)

r =

性质

? (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.

4. ??=-i i y y i 残差e

=实际值-预测值2

^^

2

1

1

()

===-∑∑n

n

i

i

i

i i e y y 总残差平方和:

残差平方和越小,即模型拟合效果越好

5. 两个分类变量的独立性检验:

(1)假设结论不成立,即“两个分类变量没有关系”.

(2)在此假设下计算随机变量 2

2

n(ad -bc)

K =(a +b)(c +d)(a +c)(b +d)

(3) 根据随机变量K 2

查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:

例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断。

(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关

1x 1y 1u 1

v

解析:由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,选C

变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,

D )

()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=???i i x y i n 的回归直线方程为23,∧

=-y x 若

1

17==∑n

i

i X

则1

==∑n

i i y

31

变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( D )

A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨

标准煤)的几组对照数据.

(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程??y bx

a =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,

预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5?+?+?+?=) 解: (1) 散点图略 (2)

41

66.5i i

i X Y ==∑ 4

222221

345686i

i X

==+++=∑ 4.5X = 3.5Y =

2

66.54 4.5 3.566.563?0.7864 4.58681

b -??-===-?- ; ?? 3.50.7 4.50.35a Y bX =-=-?= 所求的回归方程为 0.70.35y x =+ (3) 100x =, 1000.35y =+

预测生产100吨甲产品的生产能耗比技改前降低9070.3519.65-=(吨)

例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3

年的跟踪____________ .1.78 不能作出这两种手术对病人又发作心脏病的影响有差别的结论.

x y y x 5.115?-=x y

5.115.6?-=

x y 5.112.1?-=x y

5.113.1?-=x y

0.0005300035000.0003

0.0004200015000.0002

0.0001

4000

25001000月收入(元)

频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:

姓名: 学号:

1.若施化肥量x 与小麦产量y 之间的回归直线方程为?2504y

x =+,当施化肥量为50kg 时,预计小麦产量为 450

2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:

月份x

1 2 3 4

用水量y

5.4

4

3 5.2

由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧

7.0,则=a

3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则

所得新数据的平均数和方差分别是(D ) A .57.2 3.6 B .57.2 56.4 C .62.8 63.6 D .62.8 3.6 4.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为A A .6

B .6

C .66

D .6.5

5.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( D ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,47 6.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200

的样本.已知女生比男生少抽了10人,则该校的女生人数应是760 人. 7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。为了分析居民的收入与年龄、学历、 职业等方面的关系,要从这10000人中再用分层抽样方法抽

出100人作进一步调查,则在[2500,3000)(元)/月收入段

应抽出 25 人.

8.为了调查某厂工人生产某种产品的能力,随机抽查 了20位工人某天生产该产品的数量.产品数量的分组区间为[)45,55,[)[)[)55,65,65,75,75,85,[)85,95由此得到频

率分布直方图如图3,则这20名工人中一天生产该产品数量在[)55,75的人数是 .20(0.06510)13??=, 9.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表: 性别与喜欢数学课程列联表

喜欢数学课程 不喜欢数学课程 总计 男 37 85 122 女 35 143 178 总计

72

228

300

由表中数据计算得 ≈2

K 4.513,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?

第11题图

乙 1 2 3 4

甲 乙

1 2 3 4 0 6 0 4 4 7

6 0 6 7

9 0 7 1 3 3 2 5 1 9 10.在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表:

(1)画出散点图;(2)求出Y 对X 的回归直线方程; (3)如果价格定为1.9万元,预测需求量大约是多少?

11.佛山市在每年的春节后,市政府都会发动公务员参与到植树活动中去.林管部门在植树前,为保证树苗的质量,都会在植树前对树苗进行检测.现从甲乙两种树苗中各抽测了10株树苗的高度,量出的高度如下(单位:厘米)

甲:37,21,31,20,29,19,32,23,25,33

乙:10,30,47,27,46,14,26,10,44,46

(Ⅰ)根据抽测结果,完成答题卷中的茎叶图,并根据

你填写的茎叶图,对甲、乙两种树苗的高度作比较,写出

两个统计结论; (Ⅱ)设抽测的10株甲种树苗高度平均值为x ,将 这10株树苗的高度依次输入按程序框图进行的运算,问 输出的S 大小为多少?并说明S 的统计学意义。 解:(Ⅰ)茎叶图如右.

统计结论:①甲种树苗的平均高度小于乙种树苗的平均高度; ②甲种树苗比乙种树苗长得更整齐; ③甲种树苗的中位数为27,乙种树苗的中位数为28.5;

④甲种树苗的高度基本上是对称的,而且大多数集中在均值附近, 乙种树苗的高度分布较为分散.

(Ⅱ)27,35.x S ==S 表示10株甲树苗高度的方差,是描述树苗高度离散程度的量.S 值越小,表示长得越整齐,S 值越大,表示长得越参差不齐.

12.为了了解某年段1000名学生的百米成绩情况,随机抽取了若干学生的百米成绩,成绩全部介于13秒与18秒之间,将成绩按如下方式分成五组:第一组[13,14);第二组[14,15);……;第五组[17,18].按上述分组方法得到的频率分布直方图如图所示,已知图中从左到右的前3个组的频率之比为3∶8∶19,且第二组的频数为8.

(Ⅰ)将频率当作概率,请估计该年段学生中百米成绩

在[16,17)内的人数;

(Ⅱ)求调查中随机抽取了多少个学生的百米成绩;

(Ⅲ)若从第一、五组中随机取出两个成绩,求这两个成绩的

差的绝对值大于1秒的概率.

解:(Ⅰ)百米成绩在[16,17)内的频率为0.32?1=0.32

0.32?1000=320

∴估计该年段学生中百米成绩在[16,17)内的人数为320人。

(Ⅱ)设图中从左到右前3个组的频率分别为3x ,8x ,19x 依题意, 3x+8x+19x+0.32?1+0.08?1=1 ,∴x=0.02

设调查中随机抽取了n 个学生的百米成绩,则n

8

02.08=

? ∴n=50 ∴调查中随机抽取了50个学生的百米成绩。

(Ⅲ)百米成绩在第一组的学生数有3?0.02?1?50=3,记他们的成绩为a ,b ,c 百米成绩在第五组的学生数有0.08?1?50= 4,记他们的成绩为m ,n ,p ,q

则从第一、五组中随机取出两个成绩包含的基本事件有

{a,b},{a,c},{a,m},{a,n},{a,p},{a,q},{b,c},{b,m},{b,n},{b,p},{b,q},{c,m},{c,n},{c,p},{c,q},

{m,n},{m,p},{m,q},{n,p},{n,q},{p,q},共21个

其中满足成绩的差的绝对值大于1秒所包含的基本事件有{a,m},{a,n},{a,p},{a,q},

{b,m},{b,n},{b,p},{b,q},{c,m},{c,n},{c,p},{c,q},共12个, 所以P=

7

42112=

6.某校从参加高一年级期末考试的学生中抽出60名学生,并统计了他们的物理成绩(成绩均为整数且满分为100分),把其中不低于50分的分成五段,…后画出如下部分..频率分布直方图.观察图形的信息,回答下列问题:

(1)求出物理成绩低于50分的学生人数;

(2)估计这次考试物理学科及格率(60分及

以上为及格)

(3) 从物理成绩不及格的学生中任选两人,

求他们成绩至少有一个不低于50分的概率. 解: (1)因为各组的频率和等于1,故低于50分的频率为:

所以低于50分的人数为(人) (2)依题意,成绩60及以上的分数所在的第三、四、五、六组(低于50分的为第一组), 频率和为 所以,抽样学生成绩的合格率是%.

于是,可以估计这次考试物理学科及格率约为% (3)“成绩低于50分”及“[50,60)”的人数分别是6,9。所以从成绩不及格的学生中选两人,他们成绩

[)60,50[)70,60[]100,901.010)005.0025.003.02015.0(11=?+++?-=f 61.060=?(0.0150.030.0250.005)100.75+++*=75750.03

100

0.025 0.015 0.005

90

80

70 60 50 组距 频率率分数

至少有一个不低于50分的概率为:

7

6

1415561=??-=P

相关主题
相关文档
最新文档