线性回归方程
线性回归方程
一、解答题
1.为了适应高考改革,某中学推行“创新课堂”教学.高一平行甲班采用“传统教学”的教学方式授课,高一平行乙班采用“创新课堂”的教学方式授课,为了比较教学效果,期中考试后,分别从两个班中各随机抽取20名学生的成绩进行
以上的把握认为“成绩优秀与教学方式有关”?
2.现从上述样本“成绩不优秀”的学生中,抽取3?人进行考核,记“成绩不优秀”的乙班人数为X,求X的分布列和期望.
参考公式:
2
2
()
()()()()
n ad bc
K
a b c d a c b d
-
=
++++
,其中n a b c d
=+++.
2.某学校为了了解学生使用手机的情况,分别在高一和高二两个年级各随机抽取了100?名学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频数分布表和频率分布直方图,将使用手机时间不低于80分钟的学生称为“手机迷”。
:
附:随机变量
2
2
()
()()()()
n ad bc
K
a b c d a c b d
-
=
++++
(其中n a b c d
=+++为样本总量).
参考数据
2
()
P K k
≥0.150 0.100 0.050 0.025
k 2.072 2.706 3.841 5.024
.
2.在高二的抽查中,已知随机抽到的女生共有55名,其中10名为“手机迷”.根据已知条件完成下面的22
?列联表,并
?
非手机迷手机迷合计
男
女
合计
3.某中学为了解中学生的课外阅读时间,决定在该中学的1200名男生和800名女生中按分层抽样的方法抽取20?名学生,对他们的课外阅读时间进行问卷调查。现在按课外阅读时间的情况将学生分成三类:A类(不参加课外阅读),B 类(参加课外阅读,但平均每周参加课外阅读的时间不超过3?小时),C类(参加课外阅读,且平均每周参加课外阅读的
A类B类C类
男生x 5 3
女生y 3 3
90%的把握认为“参加课外阅读与否”与性别有关;
男生女生总计
不参加课外阅读
参加课外阅读
总计
,记X为抽取的这3?名女生中A类人数和C类人数差的绝对值,求X的数学期望。
附:
2 2
()
n ad bc k
-
=
2
()
P k k
≥0.10 0.05 0.01 0
k 2.706 3.841 6.635
4.2020年开始,国家逐步推行全新的高考制度.新高考不再分文理科,采用3+3模式,其中语文、数学、外语三科为必考科目,满分各150分,另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物6门科目中自选3门参加考试(6选3),每科目满分100分.为了应对新高考,某高中从高一年级1500名学生(其中男生900人,女生600 人)中,采用分层抽样的方法从中抽取n 名学生进行调查. 1.已知抽取的n 名学生中含女生20人,求n 的值及抽取到的男生人数;
2.学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情况,对在1的条件下抽取到的n 名学生进行问卷调查(假定每名学生在这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的22?列联表. 请将列联表补充完整,并判断是否有99%的把握认为选择科目与性别有关?说
名,再从这5名学生中抽取2人了解学生对“地理”的选课意向情况,求2人中至少有1名男生的概率. 附:参考公式及数据
()()()()()
2
2
n ad bc k a b c d a c b d -=++++
2男性且休闲方式都是读书的概率是多少? .
()
()()()()
2n ad bc k a b c d a c b d -=++++,其中n a b c d =+++.
6.某市春节期间7家超市的广告费支出 x (万元)和销售额y (万元)数据如下:
;
2.用对数回归模型拟合y 与x 的关系,可得回归方程: 12l 22?n y
x =+,经计算得出线性回归模型和对数模型的2R 分别约为0.75和0.97,请用说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出为8万元时的销售额.参数
数据及公式: 77
2
1
1
8,42,2794,708,i i i i i x y x y x ======∑∑1
2
2
1
,,l ???n 20.7n
i i
i n
i
i x y n xy
b
a
y bx x
nx ==--==-≈-∑∑ 7.一只药用昆虫的产卵数y 与一定范围内的温度x 有关, 现收集了该种药用昆虫的6组观测数据如下表:
经计算得: 1266i i x x ===∑,1336i i y y ===∑,1()()557i i i x x y y =--=∑,62
1()84i i x x =-=∑,6
21
()3930i i y y =-=∑线
性回归模型的残差平方和
6
2
1
()
236.64i
i
i y y =-=∑,8.06053167e ≈,
其中,i i x y 分别为观测数据中的温度和产卵数, 1,2,3,4,5,6i =
1.若用线性回归模型,求y 关于x 的回归方程???y
bx a =+ (精确到0.1); 2.若用非线性回归模型求得y 关于x 的回归方程为0.23030.06?x
y
e =,且相关指数20.9522.R =
①试与1中的回归模型相比,用2R 说明哪种模型的拟合效果更好.
②用拟合效果好的模型预测温度为35C 时该种药用昆虫的产卵数(结果取整数). 附:一组数据
()()()1122,,?,,?
...,,,?n n x y x y x y 其回归直线???y bx a =+的斜率和截距的最小二乘估计为1
2
1
()()
()
?n
i
i
i n
i
i x x y y b
x x ==--=-∑∑,??a
y bx =-;相关指数2
2
1
2
1
()
1()
n
i
i
i n
i
i y y R y y ==-
=--∑∑.
8.《中华人民共和国道路交通安全法》第47条的相关规定:机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让斑马线”,《中华人民共和国道路交通安全法》第90?条规定:对不礼让行人的驾驶员处以扣3?分,罚款50元的处罚.下表是某市一主干路口监控设备所抓拍的5个月内驾驶员不“礼让斑马线”行为统计1.请利用所给数据求违章人数y 与月份之间的回归直线方程???y
bx a =+ 2.预测该路口7?月份的不“礼让斑马线”违章驾驶员人数
3.交警从这5个月内通过该路口的驾驶员中随机抽查了50人,调查驾驶员不“礼让斑马线”行为与驾龄的关系,得到如
?
参考公式: 1
1
2
22
1
1
()()
???,()
n n
i i
i
i
i i n
n
i
i
i i x y nx y x x y y b
a
y bx x
nx
x x ====---==
=---∑∑∑∑, 2
2
()()()()()
n ad bc K a b c d a c b d -=++++ (其中n a b c d =+++)
2()P K k ≥ 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k
2.072 2.706
3.841 5.024 6.635 7.879
10.828
x y (单位: t )和年利润
z (单位:千元)的影响.对近8年的年宣传费i x 和年销售量()1,2,
,8i y i =数据作了初步处理,得到下面的散点图及
一些统计量的值.
表中i i w x =1
8i i w w ==∑.
1.根据散点图判断, y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
2.根据1的判断结果及表中数据,建立y 关于x 的回归方程.
3.已知这种产品的年利润z 与x ,y 的关系为0.2z y x =-.根据2的结果回答下列问题: ①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据()11,u v ,()22,u v ,…, (),n n u v 其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为
()()
()
1
2
1
?n
i
i i n
i i u
u v v u u β
==--=-∑∑,??v u α
β=-. 10.如今,中国的“双十一”已经从一个节日变成了全民狂欢的“电商购物日”.某淘宝电商分析近8年“双十一”期间的宣传费用x (单位:万元)和利润y (单位:十万元)之间的关系,得到下列数据:
x 2 3 4 5 6 8 9 11
y 1 2 3 3 4 5 6
8
1.请用相关系数r 说明y 与 x 之间是否存在线性相关关系(当0.81r >时,说明y 与 x 之间具有线性相关关系);
2.根据1的判断结果,建立y 与 x 之间的回归方程,并预测当24x =时,对应的利润?y
为多少(???,,b a y 精确到0.1). 附参考公式:回归方程中???y
bx a =+中?b 和?a 最小二乘估计分别为1
2
2
1
?n
i i
i n
i
i x y
nx y b x
nx ==-=-∑∑,??a
y bx =-, 相关系数
n
i i x y
nx y
r -=
∑
参考数据:
88
21
1
241,6i i i
i i x y x =====∑∑.
11.为了监控某种零件的一条生产线的生产过程,检验员每隔30min 从该生产线上随机抽取一个零件,并测量其尺寸
()
()16
1
18.439,8.5 2.78i i x x i =≈--=-∑
其中i x 为抽取的第i 个零件的尺寸, 1,2,16i =。
1.求()(),1,2,
,16i x i i =的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变
大或变小(若0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小)
2.一天内抽检零件中,如果出现了尺寸在()3,3x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在()3,3x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(,)i i x y ()1,2,,i n =???的相关系数()()
0.09n
i
i
x x y y r --=
≈∑.
12.某网络营销部门为了统计某市网友2016年12月12日的网购情况,从该市当天参与网购的顾客中随机抽查了男女各30人,统计其网购金额,得到如下频率分布直方图:
网购达人
非网购达人 合计
男性 30 女性 12 30 合计
60
2千元的顾客称为“非网购达人”
1.抽取的“网购达人”中女性占12人,请根据条件完成上面的22?列联表,并判断是否有99%的把握认为“网购达人”与性别有关?
2.该营销部门为了进一步了解这60名网友的购物体验,从“非网购达人”、“网购达人”中用分层抽样的方法确定12人,若需从这12人中随机选取3人进行问卷调查.设ξ为选取的3人中“网购达人”的人数,求ξ的分布列和数学期望
(参考公式: ()()()()
2
2
()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)
()2P k k ≥ 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k
2.072 2.706
3.841 5.024 6.635 7.879 10.828
13.经观测,某昆虫的产卵数y 与温度x 有关,现将收集到的温度i x 和产卵数)1,2,,10i y i =?的10组观测数据作了初10
1
i
i x =∑ 10
1
i
i y =∑ 10
1
i
i z
=∑
10
2
1
()
i
i x x =-∑
10
1
()()i
i
i x x y y =--∑ 10
1
()()i
i
i x x z
z =--∑
275 731.1 21.7 150 2368.36 30
表中11
ln ,10i i i z y z z ===∑,
1.根据散点图判断, y a bx =+,y a x =+与21c
x y c e = 哪一个适宜作为y 与x 之间的回归方程模型?(给出判断即
可,不必说明理由)
2.根据1的判断结果及表中数据. ①试求y 关于x 回归方程;
②已知用人工培养该昆虫的成本()h x 与温度x 和产卵数y 的关系为 2.4170h x x lny =-+()(),当温度x (x 取整数)为何值时,培养成本的预报值最小?
附:对于一组数据()()()1122,,,,,n n u v u v u v ?,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为
()()
()
1
2
1
,n
i
i i n
i
i u
u v v
v u u
u
βαβ==--=
=--∑∑
14.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图。
1.求y 与t 的相关系数
2.求y 关于t 的回归方程(系数精确到0.01),并预测2018年我国生活垃圾无害化处理量。 参考数据:
(
)
7
7
7
2
1
1
1
9.32,7 2.646i i i i i i i y t y y y
=====-=≈∑∑∑
参考公式:相关系数()()
()()
1
2
2
1
1
n
i
i i n
n
i
i
i i t
t
y y r t
t
y y ===--=
--∑∑∑ 回归方程???y
a bt =+ 中斜率和截距的最小二乘估计公式分别为: ()()
()
1
2
1
,n
i
i
i n
i
i t
t
y y b a y bt t
t
==--=
=--∑∑
参考答案
一、解答题
根据22?列联表中的数据,得2
K 的观测值为2
40(941611) 5.227 3.84125152020
k ?-?=≈>???,
所以有95%以上的把握认为“成绩优秀与教学方式有关” 2. X 的可能取值为0,1,2,3?,
31131516533
(0)45591
C P X C ====,
2111431522044
(1)45591
C C P
X C ====,
121143
1566
(2)455C C P X C ===, 343154
(3)455
C P X C ===
, 4012391914554555
EX =?
+?+?+?= 解析:
2.答案:1.由频数分布表可知,高一学生是“手机迷”的概率为 1224
==0.26100
P + 由频率分布直方图可知,高二学生是“手机迷”的概率为()2=0.00250.01020=0.25P +?
因为12P P >,所以高一年级的学生是“手机迷”的概率大. 2.由频率分布直方图可知,在抽取的100人中,“手机迷” 有()0.0100.00252010025+??= (人), 非手机迷有
100-2575= (人)
()()()()()
()22
2n 10030*1045*15100
3.030+b 75*25*45*5533ad bc K a c d a c b d -?-===≈+++
因为3.030 2.706>,所以有90%的把握认为“手机迷”与性别有关.
解析:
3.答案:1.设抽取的20?人中,男、女生人数分别为12,n n ,
则12
2012001220002080082000n n ??
==?????==??
,
所以12534x =--=, 8332y =--=.
2
K 的观测值20(4628)10
0.159 2.70612814663
k ??-?=
=≈??, 所以没有90%的把握认为“参加阅读与否”与性别有关. 3. X 的可能取值为0,1,2,3,
则311132333
819
(0)56
C C C C P X C +===, 21211221
333223233
83
(1)7C C C C C C C C P X C +++===, 2121
23333
83
(2)14
C C C C P X C +===, 3
3381
(3)56C P X C ===,
∴19313151
0123567145656
EX =?+?+?+?=
. 解析:
4.答案:1.由题意得: 20
1500600
n =
,解得50n =,男生人数为: 502030-=人
()
2
5020155108.333 6.63525253020
k ?-?=
≈>???
所以有99%的把握认为选择科目与性别有关.
3.从25个选择地理的学生中分层抽样抽5名,所以这5名学生中有2名男生,3名女生,
男生编号为1,2,女生编号为a,b,c, 5名学生中再选抽2个, 则所有可能的结果为{},, 1,2,, 1,2, 1,2, 12ab ac a a bc b b c c Ω= 至少一名男生的结果为{}1,2,1,2,1,2, 12,a a b b c c 所以2人中至少一名男生的概率为7
10
P = 解析: 5.答案:1. 7979
2.由列联表中的数据,得2K 的观测值为()2
892426318 3.689 6.63555343257
k ??-?=
≈??,
因此,没有99%的把握认为性别与休闲方式有关系. 解析:
6.答案:1. 解: 1
2
2
2
1
27947842 1.77087?8
n
i i
i n
i
i x y n xy
b
x
nx ==-?-??==
=-?-∑∑,2?8.4?a y bx =-= 所以, y 关于x 的线性回归方程是 1.7284?.y
x =+ 2.∵0.750.97,<对数回归模型更合适.当8x =万元时,预测A 超市销售额为47.2万元.
解析:
7.答案:1. y 关于x 的线性回归方程为 6.6386?1.y
x =- 2.①由所给数据求得的线性回归方程为 6.6386?1.y
x =-,相关指数为6
2
216
2
1
()236.64
1110.06020.93983930
()
i i i i
i y y R y y ==-=-
=-
≈-=-∑∑
因为0.93980.9522<,
所以回归方程0.23030.06?x
y
e =比线性回归方程 6.6386?1.y
x =-拟合效果更好. ②由①得当温度35x C =?时, 0.230335
8.06050.060.06?y
e e ?==?
又∵8.06053167e ≈
∴0.063167?190y
≈?≈ (个). 即当温度35x C =?时,该种药用昆虫的产卵数估计为190个.
解析:由题意得6
1
6
2
1?()()
557
6.684
()i
i
i i i x x y y b
x x ==--==
≈-∑∑, ∴33 6.626138.6,?a
=-?=- ∴y 关于x 的线性回归方程为 6.6386?1.y
x =- 8.答案:1.由表中数据知, 3,100x y ==
1
2
21
14151500
8.55545
n
i i
i n
i i x y nx y
b x nx
==--∴=
=
=---∑∑,?125.5a
y bx =-=
∴所求回归直线方程为8.512.5?5y
x =-+ 2.由1知,令7x =,则?8.57125.566y
=-?+=人 3.由表中数据得22
50(221288)50
5.556 5.024*********
K ??-?=
=≈>???, 根据统计有97.?5%的把握认为“礼让斑马线”行为与驾龄关
解析:
9.答案:1.由散点图可以判断,
y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型. 2.
令w =
先建立y 关于w 的线性回归方程.
由于()()
()
8
1
8
2
1
108.868,56368 6.8100.61???.6
i
i
i i i w w y y d
c
y dw w w ==--==
==-=-?=-∑∑, 所以y 关于w 的线性回归方程为100.68?6y
w =+, 因此y 关于x
的回归方程为100.?6d
=+3.①由2知,当49x =时,
年销售量y
的预报值100.65?76.6y
=+=, 年利润z 的预报值576.60.249?66.32z
=?-=. ②根据2的结果知,年利润z
的预报值(
0.2100.620.1?2z
x x =+-=-+.
13.6
6.82
=
=,即x 46.24=时, ?z
取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 解析:
10.答案:1.由题意得6,4x y ==. 又
8
8
21
1
241,6i i i
i i x y x ====≈∑∑,
所以
8
8241864
0.990.818.256
i i
x y
x y
r =-??=
=
≈>?∑,
所以y 与x 之间具有线性相关关系. 因为8
182
2
21
8241864
0.7356568i i
i i i x y
x y
b x x
===-??=
=
≈-?-∑∑
2.因为40.760.2a y bx =-≈-?=, 所以回归直线方程为0.70.2a x =-,
当24x =时, 0.70.20.7240.216.6y x =-=?-=,即利润约为166
万元. 解析:
11.答案:1.由样本数据得()(),1,2,
16i x i i =的相关系数为
()()
8.50.18n
i
x x i r --=
=
≈-∑.
由于0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小
2.(i)由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.
(ii)剔除离群值,即第13个数据,剩下数据的平均数为1
(169.979.22)10.0215
?-=,这条生产线当天生产的零件尺寸的均值的估计值10.02.
16
2221
160.212169.971591.134i
i x
==?+?≈∑,剔除第13个数据,剩下数据的样本方差
221
(1591.1349.221510.02)0.00815
--?≈,
0.09≈. 解析:
()
26027121837.2 6.63515453030
K ??-?=
=>???,
所以有99%的把握认为“网购达人”与性别有关 2.由题可知ξ的可能取值为: 0,1,2,3;
()3931221
055C P C ξ===
, ()123931227
155C C P C ξ===
, ()
213931227
2220C C P C ξ===
, ()333121
3220
C P C ξ===
所以ξ的分布列为:
ξ的期望()2713012355552202204
E ξ=?
+?+?+?= 解析:
13.答案:1.根据散点图判断,看出样本点分布在一条指数函数的周围,所以21c x
y c e =适宜作为y 与x 之间的回归方程模型
2.①令ln z y =,则21ln z c x c =+,
()()
(
)
10
1
210
2
1
301
1505
i
i
i i i x x z
z
c x x
==--=
=
=-∑∑,
12ln 3.33c z c x =-=-,
1
3.3375
z x ∴=-
1
3.335
x z
y e e
-∴==
②()()211ln 2.4170 3.33 2.4170 5.7317055h x x y x x x x ??
=-+=--+=-+
???
5.73
14125
x ∴=
≈?时,培养成本的预报值最小 解析:
14.答案:1.由折线图中数据和附注中参考数据得
4t =,7
2
1
()28i i t t =-=∑
0.55=,777
1
1
1
()()40.1749.32 2.89i i i i i i i i t t y y t y t y ===--=-=-?=∑∑∑,
2.89
0.990.552 2.646
r ≈
≈??. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线
性回归模型拟合y 与t 的关系. 2.由9.32 1.3317
y =
≈及1得7
1
7
2
1
()()
2.89?0.10328
()i
i i i
i t
t y y b t
t ==--==
≈-∑∑,?? 1.3310.10340.92a y bt =-≈-?≈.所以, y 关于t 的回归方程为: ?y
0.920.10t =+.将2018年对应的11t =代入回归方程得: ?0.920.1011 2.02y =+?=.所以预测2018年我国生活垃圾无害化处理量将约2.02亿吨.
解析:
(注:可编辑下载,若有不当之处,请指正,谢谢!)