高考数学 考点通关练 第八章 概率与统计 67 变量间的相关关系与统计案例试题 理

合集下载

高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

高考数学复习统计与统计案例概率节变量间的相关关系与统计案例文新人教A版PPT课件

解析 易求-x=9,-y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它 们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程(线性 回归方程系数公式不要求记忆);3.了解独立性检验(只要求 2×2列联表)的基本思想、方法及其简单应用;4.了解回归分 析的基本思想、方法及其简单应用.

的区
域,两个变量的这种相关关系称为一负条相直关线.
(3)如果散点图中点的分布从整体上看大致在
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的 距离的平方最和小的方法叫做最
小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
yn),其回归方程为
知识
1.相关关系与回归分析 梳 理 回归分析是对具有相关关系的两个变量进行统计分析的一种
常用方法;判断相散关点性图的常用统计图是:
;统左计下量角有相关右系上数角与相关指数.
(1)在散点图中,点散布在从

的区
域,对于两个变量的这左种上相角关关系右,下我角们将它称为正相关.
(2)在散点图中,点散布在从
≈4.844.


自考 概率论与数理统计 重难点笔记资料

自考 概率论与数理统计 重难点笔记资料

高等教育自学考试《概率论与数理统计》重难点笔记资料 课程代码:04183第一章 随机事件与概率一.随机事件关系与运算1!0,)!(!!!,)!(!0===-==-=C C C A A n n n r n nn rn r n r n :,n r n n 组合排列二.概率P(A) 1.P(A)概率特征)()31)(,0)()21)(0)111∑∞=∞===Ω=≤≤K KK kA A P ,P(P P A P 事件互不相容时φ2. 古典概型3.概率加法公式P(A+B)=P(A)+P(B)- P(AB)当A 、B 互斥时, P(A+B)=P(A)+P(B) 事件的独立性:定义:P(AB)=P(A)P(B)性质:.P(A)>0,,则P(B)=P(B/A); P(B)>0则P(A)=P(A/B) P(B —A)=P(B)--P(AB)P (A--B )==P (AB )=P (A--AB )=P (A )--P (AB )基本事件总数所包含的基本事件数A A P =)(P(A+B+C)=1--P(A+B+C)=1--P(A)P(B)P(C) P(AB)=P(AUB)=1-P(AUB)=1-(P(A)+P(B)) P(A)=1-P(A4.条件概率公式5.概率的乘法公式6.全概率公式:从原因计算结果7.Bayes 公式:从结果找原因)()()|(B P AB P B A P =)|()()(B A P B P AB P =)|()(A B P A P =∑==nk k k B A P B P A P 1)|()()(∑==nk kki i k B A P B P B A P B P A B P 1)|()()|()()|()()()|(A P AB P A B P =)/()/()()(AB C P A B P A P ABC P =第二章随机变量及其概率分布4/ 13分布函数对离散型随机变量对连续型随机变量分布函数与密度函数的重要关系:“一般正态分布函数F(x)”转换为“标准正态分布函数)(x Φ”的关系 设X~N (δμ2,)则1.2.3.连续型随机变量函数的概率分布定理:记x=h(y)为y=g(x)的反函数,则Y=g(X)的概率密度:⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧<<'=其他y y h y h y f f X Y ,0),())(()(βα1) 设X~U(-2,2ππ),令Y=tanX,求Y 的概率密度柯西分布:+∞<<-∞+='=y y h y h y y f f X Y ,111)())(()(2π 2)设X~N(σμ2,),求eX的概率密度对数正态分布:⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧≤>-=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≤>•=-0,00,2)(ln 210,0,0,1)(ln )(,22y y y y y y y y y e f fX Yσμσπ ∑≤==≤=xk k X P x X P x F )()()(⎰∞-=≤=x dtt f x X P x F )()()(⎰∞-=≤=xdt t f x X P x F )()()()()('x f x F =3直接变换法:[])()(21)()(y y yy y ff F fXXY Y-+='=e e yx x 的的反函数为y y 的反函数为反y 2ln 2,,,,,ln -=-===第三章多维随机变量及其概率分布 二元随机变量及其边缘分布 分布规律的描述方法联合密度函数联合分布函数离散联合分布函数的概率:{}0),(),(),(),(,112112222121≥+--=≤<≤<y x y x y x y x y y x x F F F F Y X P性质1),(,0),(),(),(=+∞+∞=-∞-∞=-∞=-∞F F x F y F 离散边缘分布律:{}{}∑∑===⋅===⋅ijji pijY P j p pij X P pi y x1...2,1,,0,0=⋅=⋅=≥⋅≥⋅∑∑jij p pi j i j p pi联合密度二维边缘密度二维连续随机变量的分布 1.均匀分布(X,Y)~U D1)设D 为平面上的有界区域,S 表面积⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≤+−−→−⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≤≤≤--−−→−⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧∈=其他,其他o d x c b x a c d a b 其他D y x S y x f R yx R 圆形矩形,01,,,))((1,0),(,1),(2222π),(y x f ),(y x F 0),(≥y x f 1),(=⎰⎰+∞∞-+∞∞-dxdy y x f 1),(0≤≤y x F },{),(y Y x X P y x F ≤≤=+∞<<∞-=⎰+∞∞-x ,,dy y x f x f ),()(+∞<<-∞=⎰+∞∞-y dx y x f y f Y ,,),()(}{}{},{j Y P i X P j Y i X P =====2.正态分布),,,,(~),(222121ρσσμμN Y Xey y x f y x x ⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧+--------=σμσσσρρσπσμμρμ222212121212)2(121),())((2)()1(21221离散型随机变量的独立性)()(),(y FY x Fx y x F =连续型随机变量的独立性第四章 随机变量的数字特征数学期望离散型随机变量,数学期望定义连续型随机变量,数学期望定义期望性质:● E(a)=a ,其中a 为常数● E(a+bX)=a+bE(X),其中a 、b 为常数 , ● E(CX)=CE(X),其中C 为常数● E(X+Y)=E(X)+E(Y),X 、Y 为任意随机变量 ● E(XY)=E(X)E(Y),X,Y 相互独立 方差的性质D(a)=0,其中a 为常数D(a+bX)=b 2(X),其中a 、b 为常数D(X+Y)=D(X)+D(Y) 当X 、Y 相互独立时随机变量g(X)的数学期望常用公式:二维随机变量的期望 离散)()(),(y f x f y x f Y X =∑+∞-∞=⋅=k kkP xX E )(⎰+∞∞-⋅=dxx f x X E )()(⎰∑+∞∞-=⇔=dx x fx x g X g E p x g X g E k k k )()()]([)())((ijji Jii i j ij i i i py j p y Y E p x pi x X E ∑∑∑∑∑∑=⋅==⋅=)()()()()(Y E X E Y X E +=+∑∑=i j ij j i p y x XY E )()()()(,Y E X E XY E Y X =独立时与当连续 g(X)∑⎰⎰∑=⇔=jij jiidxdy y x f y x g Y X G E p yx g Y X g E ,),(),()],([),()],([方差 定义式 离散:⋅-=∑=Pi X E xX D ni i21))(()(连续常用计算式常用公式协方差与相关系数⎰⎰--=dxdy y x f Y E Y X E x Y X Cov ),())())(((),(协方差Cov(X,Y)的性质当X 与Y 相互独立时,则Cov(X,Y)=0相关系数XY ρ的性质⎰⎰⎰⎰==dxdyy x yf Y E dxdy y x xf X E ),()(),()(dxdyy x xyf XY E ⎰⎰=),()(()⎰+∞∞-⋅-=dx x f X E x X D )()()(2[]22)()()(X E X E X D -=))}())(({(2)()()(Y E Y X E X E Y D X D Y X D --++=+)()()(Y D X D Y X D +=+)()()(),(Y E X E XY E Y X Cov -=)()(),(Y D X D Y X Cov XY=ρ[][]{})()()()()(Y E X E XY E Y E Y X E X E -=--())()()(),(22X D X E X E X X Cov =-=),(),(Y X abCov bY aX Cov =),(),(),(Z Y Cov Z X Cov Z Y X Cov +=+独立与相关独立必定不相关 相关必定不独立 不相关不一定独立标准正态分布的概率计算公式)()()(a a Z P a Z P Φ=<=≤)(1)()(a a Z P a Z P Φ-=>=≥)()()(a b b Z a P Φ-Φ=≤≤1)(2)()()(-Φ=-Φ-Φ=≤≤-a a a a Z a P一般正态分布的概率计算一般正态分布的概率计算公式第五章 大数定律及中心极限定理1.切比雪夫不等式:设随机变量X 的期望E(X)及方差D (X )存在,则对任意小正数a>0,{}{}22)(1)()()(aX D a X E X P a X D a X E X P -≥<-↔≤≥- 2.独立同分布序列的中心极限定理{})(21)(212lim lim lim x dt x n n X P x Y P x xt n i i n n n n n eF Φ==⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧≤-=≤=⎰∑∞---∞→∞→∞→πσμ3.棣莫费-拉普拉斯中心极限定理)1,0(~),(~2N X Z N X σμσμ-=⇔()()(σμ-Φ=<=≤a a X P a X P )(1)()(σμ-Φ-=>=≥a a X P a X P )()()(σμσμ-Φ--Φ=≤≤a b b X a P)(2122lim x dt x mpq np Z p e t x n n Φ==⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≤--∞-∞→⎰ 第六章 统计量及其抽样分布 样本方差,)(11212∑=--=ni i x x n s样本标准差2s s = 统计量样本K样本K卡方分布t 分布F 分布正态总体条件下样本均值的分布:样本方差的分布:两个正态总体的方差之比)(~)1,0(~212n X N X ni i χ∑=,则若())(~1),,(~21222n Y N Y ni iχμσσμ∑=-则若),(~//),(~),(~21212212n n F n V n U n V n U 则若χχ),(~2n N X σμ)1,0(~/N nX σμ-)1(~)1(222--n S n χσ)1(~/--n t ns X μ则若),(~),1,0(~2n Y N X χ)(~/n t nY X第七章 参数估计点估计:参数的估计值为一个常数最大似然估计P147似然函数单个正态总体参数的置信区间第八章 假设检验假设检验的步骤① 根据具体问题提出原假设H0和备择假设H1② 根据假设选择检验统计量,并计算检验统计值③ 看检验统计值是否落在拒绝域,若落在拒绝域则拒绝原假设,否则就不拒绝原假设。

概率论与数理统计(茆诗松)第二版课后第八章习题参考答案

概率论与数理统计(茆诗松)第二版课后第八章习题参考答案

⎧Yij = µ + a i + ε ij , i = 1, 2, L , r , j = 1, 2, L , m; ⎪ r ⎪ ⎨∑ a i = 0; ⎪ i =1 2 ⎪ ⎩ε ij 相互独立,且都服从N (0, σ ).
检验的原假设与备择假设为 H0:a 1 = a 2 = … = a r = 0 8.1.3 平方和分解 vs H1:a 1 , a 2 , …, a r 不全等于 0.
i =1 j =1 i =1 j =1 r m r m r m r m r m
= ∑∑ (Yij − Yi⋅ ) 2 + ∑∑ (Yi⋅ − Y ) 2 + 2∑∑ (Yij − Yi⋅ )(Yi⋅ − Y )
i =1 j =1 i =1 j =1 i =1 j =1
= S e + S A + 2∑ [(Yi⋅ − Y )∑ (Yij − Yi⋅ )] = S e + S A + 2∑ [(Yi⋅ − Y ) × 0] = S e + S A + 0 = S e + S A ,
ε i⋅ =
1 m ∑ ε ij , i = 1, 2, …, r, m j =1
ε=
1 r m 1 r ε = ε i⋅ . ∑∑ ij r ∑ n i =1 j =1 i =1
显然有 Yi⋅ = µ i + ε i⋅ , Y = µ + ε . 在单因子方差分析中通常将试验数据及基本计算结果写成表格形式 因子水平 A1 A2 ┆ Ar Y11 Y21 ┆ Yr1 Y12 Y22 ┆ Yr2 试验数据 … … ┆ … Y 1m Y 2m ┆ Yrm 和 T1 T2 ┆ Tr 和的平方 平方和

2020高考数学考点突破—计数原理、概率与统计6:变量间的相关关系与统计案例

2020高考数学考点突破—计数原理、概率与统计6:变量间的相关关系与统计案例

2020高考数学考点突破之计数原理、概率与统计(6)第6讲 变量间的相关关系与统计案例【考点梳理】 1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R2=1-∑ni=1(y i-y^i)2∑ni=1(y i-y)2.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为则随机变量K2=(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).【考点突破】考点一、相关关系的判断【例1】(1)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y =c 12c x e 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. [答案] (1)C (2)①②[解析] (1)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 12c x e 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.【类题通法】1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r |越趋近于1,相关性越强. 当残差平方和越小,相关指数R 2越大,相关性越强. 【对点训练】1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578.其中一定不正确...的结论的序号是 ( ) A .①② B .②③ C .③④ D .①④[答案]D[解析]由正负相关性的定义知①④一定不正确.2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:A.甲B.乙C.丙D.丁[答案]D[解析]在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.考点二、线性回归方程及应用【例2】如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑7i=1y i=9.32,∑7i=1t i y i=40.17,∑7i=1(y i-y)2=0.55,7≈2.646.参考公式:相关系数r =∑ n i =1 (t i -t )(y i -y )∑ ni =1(t i -t )2∑ n i =1(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑ n i =1(t i -t )(y i -y )∑ n i =1(t i -t )2,a ^=y --b ^t .[解析] (1)由折线图中的数据和附注中的参考数据得 t =4,∑ 7i =1(t i -t )2=28,∑ 7i =1(y i -y )2=0.55,∑7i =1 (t i -t )(y i -y )=∑ 7 i =1t i y i -t ∑ 7i =1y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得 b ^=∑ 7 i =1 (t i -t )(y i -y )∑ 7 i =1(t i -t )2=2.8928≈0.103.a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 【类题通法】1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.2.(1)正确运用计算b ^,a ^的公式和准确的计算,是求线性回归方程的关键.(2)回归直线y ^=b ^x +a ^必过样本点的中心(x ,y ).【对点训练】某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t -)(y i -y -)∑n i =1 (t i -t -)2,a ^=y --b ^t -.[解析] (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4, y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, ∑7i =1 (t i -t -)2=9+4+1+0+1+4+9=28,∑7i =1(t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑7i =1 (t i -t -)(y i -y -)∑7i =1 (t i -t -)2=1428=0,5,a ^=y --b ^t -=4.3-0.5×4=2.3, 所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.考点三、独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).[解析] (1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表k=300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.【类题通法】1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表;(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)比较k与临界值的大小关系,作统计推断.【对点训练】某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K2=(a+b)(c+d)(a+c)(a+d).[解析x1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:≈6.27<6.635,K2=10×40×18×32∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.。

[精品]2018年高考数学文科考点过关习题第八章概率与统计56和答案

[精品]2018年高考数学文科考点过关习题第八章概率与统计56和答案

考点测试56 变量间的相关关系与统计案例一、基础小题1.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-2x +100 B.y ^=2x +100 C.y ^=-2x -100 D.y ^=2x -100答案 A解析 B 、D 为正相关,C 中y ^值恒为负,不符合题意. 2.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B解析 ∵a ^=y -b ^x =49+26+39+544-9.4×4+2+3+54=9.1,∴回归方程为y ^=9.4x +9.1.令x =6,得y ^=9.4×6+9.1=65.5(万元).3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本点中心(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1ny i -y ^i2∑i =1ny i -y2=1.5.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .直线l 过点(x ,y )B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案 A解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B、C错误;D中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以D错误;根据线性回归直线一定经过样本点中心可知A正确.6.在一次对性别与说谎是否相关的调查中,得到如下数据:) A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有99.5%的把握认为是否说谎与性别有关D.在此次调查中没有充分的证据显示说谎与性别有关答案 D解析由于K2=30× 6×9-7×8 213×17×14×16≈0.0024,由于K2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.7.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.答案D解析由散点图知呈带状区域时有较强的线性相关关系,故去掉D.8.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:根据表中所给的数据,能否在犯错误的概率不超过0.15的前提下认为这两种手术对病人又发作过心脏病的影响有差别?_______________________________________________________ .答案 1.78 不能作出这两种手术对病人又发作心脏病的影响有差别的结论解析根据列联表中的数据,可以求得K 2=392× 39×167-29×157268×324×196×196≈1.78,而K 2<2.072,所以我们不能在犯错误的概率不超过0.15的前提下,作出这两种手术对病人又发作心脏病的影响有差别的结论.二、高考小题9.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 答案 D解析 由柱形图,知2006年以来我国二氧化硫年排放量呈减少趋势,故其排放量与年份负相关,故D 错误.10.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y -b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元答案 B解析 ∵x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=y -0.76x =8-0.76×10=0.4, ∴y ^=0.76x +0.4.当x =15时,y ^=0.76×15+0.4=11.8.11.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表2表3表4A.成绩C.智商D.阅读量答案 D解析根据K2=n ad-bc 2a+b c+d a+c b+d,代入题中数据计算得表1:K2=52× 6×22-10×14 216×36×20×32≈0.009;表2:K 2=52× 4×20-12×16216×36×20×32≈1.769;表3:K 2=52× 8×24-8×12216×36×20×32≈1.3;表4:K 2=52× 14×30-6×2 216×36×20×32≈23.48.∵D 选项K 2最大,∴阅读量与性别有关联的可能性最大,故选D. 12.根据如下样本数据得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0答案 B解析 把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图,由图可知b <0,a >0.故选B.13.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本中心(3,3.5),代入验证得A 正确,B 错误.故选A.三、模拟小题14.已知x ,y 的取值如表所示:如果y 与x 线性相关,且线性回归方程为y ^=b ^x +132,则b ^的值为( )A .-12B.12 C .-110D.110答案 A解析 将x =3,y =5代入到y ^=b ^x +132中,得b ^=-12.故选A.15.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12答案 B解析 依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ,解得a ^=18. 16.下列说法错误的是( )A .在回归模型中,预报变量y 的值不能由解释变量x 唯一确定B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好答案 B解析 对于A ,在回归模型中,预报变量y 的值由解释变量x 和随机误差e 共同确定,即x 只能解释部分y 的变化,∴A 正确;对于B ,线性回归分析中,相关系数r 的绝对值越接近1,两个变量的线性相关性越强,反之,线性相关性越弱,∴B 错误;对于C ,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C 正确;对于D ,在回归分析中,用相关指数R 2来刻画回归的效果时,R 2取值越大,说明模型拟合的效果越好,∴R 2为0.98的模型比R 2为0.80的模型拟合的效果好,D 正确.故选B.17.为了检验某套眼保健操预防学生近视的作用,把500名做该套眼保健操的学生与另外500名未做该套眼保健操的学生的视力情况作记录并比较,提出假设H 0:“这套眼保健操不能起到预防近视的作用”,利用2×2列联表计算所得的K 2≈3.918.经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学得出了以下结论:①有95%的把握认为“这套眼保健操能起到预防近视的作用”;②若某人未做该套眼保健操,那么他有95%的可能得近视;③这套眼保健操预防近视的有效率为95%;④这套眼保健操预防近视的有效率为5%.其中所有正确结论的序号是________. 答案 ①解析 根据查对临界值表知P (K 2≥3.841)≈0.05,故有95%的把握认为“这套眼保健操能起到预防近视的作用”,即①正确;95%仅是指“这套眼保健操能起到预防近视的作用”的可信程度,所以②③④错误.18.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,计算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.已知家庭的月储蓄y 关于月收入x 的线性回归方程为y ^=b ^x +a ^,则变量x 与y ________(填“正相关”或“负相关”);若该居民区某家庭月收入为7千元,预测该家庭的月储蓄是________千元.答案 正相关 1.7解析 由题意,知n =10,x =110∑i =110x i =8,y =110∑i =110y i =2,∴b^=184-10×8×2720-10×82=0.3,a ^=2-0.3×8=-0.4,∴y ^=0.3x -0.4,∵0.3>0,∴变量x 与y 正相关.当x =7时,y ^=0.3×7-0.4=1.7(千元).一、高考大题1.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1y i -y 2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 t i -t y i -y∑ni =1t i -t 2∑ni =1y i -y 2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1t i -t y i -y ∑ni =1t i -t 2,a ^=y -b ^ t . 解 (1)由折线图中数据和附注中参考数据得t =4,∑7i =1(t i -t )2=28,∑7i =1y i -y 2=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i=40.17-4×9.32=2.89, r ≈ 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑7i =1t i -t y i -y ∑7i =1t i -t 2=2.8928≈0.103, a ^=y -b ^t =1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 2.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程; (3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -u v i -v ∑n i =1u i -u 2,α^=v -β^ u . 解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2) 令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1 w i -w y i -y ∑8i =1w i -w 2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x的回归方程为y ^=100.6+68x .(3)①由(2),知当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果,知年利润z 的预报值z ^=0.2×(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值,故年宣传费为46.24千元时,年利润的预报值最大. 二、模拟大题3.班主任对班级22名学生进行了作业量多少的调查,数据如下:在喜欢玩电脑游戏的12人中,有10人认为作业多,2人认为作业不多;在不喜欢玩电脑游戏的10人中,有3人认为作业多,7人认为作业不多.(1)根据以上数据建立一个2×2列联表;(2)试问喜欢玩电脑游戏与认为作业多少是否有关系.参考公式:K 2=n ad -bc2a +bc +d a +c b +d,其中n =a+b +c +d .参考数据:解 (1)(2)K 2=12×10×13×9≈6.418,∵3.841<6.418,∴有95%的把握认为喜欢玩电脑游戏与认为作业多少有关. 4.为使政府部门与群众的沟通日常化,某城市社区组织“网络在线问政”活动.2015年,该社区每月通过问卷形式进行一次网上问政.2016年初,社区随机抽取了60名居民,对居民上网参政议政意愿进行调查.已知上网参与问政次数与参与人数的频数分布表如下:附:χ2=11221221n 1+n 2+n +1n +2,(1)居民”,请你根据频数分布表,完成2×2列联表,据此调查是否有99%的把握认为在此社区内“上网参政议政与性别有关”;(2)6人中选出3人参加政府听证会,求选出的3人为2男1女的概率.解(1)由题意,知积极上网参政的有8+14+10+6=38人,不积极上网参政的有8+14=22人,2×2列联表为:∴χ2=40×20×38×22≈7.03,∵7.03>6.635,∴有99%的把握认为“上网参政议政与性别有关”.(2)选取男居民人数为6×4060=4人,选取女居民人数为6×2060=2人,记4个男居民分别为A、B、C、D,2个女居民分别为甲、乙,则基本事件有(A,B,C),(A,B,D),(A,B,甲),(A,B,乙),(A,C,D),(A,C,甲),(A,C,乙),(A,D,甲),(A,D,乙),(A,甲,乙),(B,C,D),(B,C,甲),(B,C,乙),(B,D,甲),(B,D,乙),(B,甲,乙),(C,D,甲),(C,D,乙),(C,甲,乙),(D,甲,乙),共20种.满足条件的基本事件有12种,∴所求概率为P =1220=35.5.PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物),为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某时间段车流量与PM2.5浓度的数据如下表:(2)若周六同一时段车流量是200万辆,试根据(1)求出的线性回归方程,预测此时PM2.5的浓度为多少?参考公式:b ^=∑i =1nx i -x y i -y∑i =1nx i -x2,a ^=y -b ^·x .解 (1)由条件可知,x =15∑i =15x i =5405=108,y =15∑i =15y i =4205=84,∑i =15(x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,∑i =15(x i -x )2=(-8)2+(-6)2+02+62+82=200,b ^=∑i =15x i -x y i -y∑i =15x i -x2=144200=0.72, a ^=y -b ^x =84-0.72×108=6.24, 故y 关于x 的线性回归方程为y ^=0.72x +6.24. (2)当x =200时,y ^=0.72×200+6.24=150.24.所以可以预测此时PM2.5的浓度约为150.24微克/立方米. 6.某品牌新款夏装即将上市,为了对夏装进行合理定价,在该地区的三家连锁店各进行了两天试销售,得到如下数据:与销量的回归直线方程y ^=b ^x +a ^;(2)在大量投入市场后,销售量与单价仍然服从(1)中的关系,且该夏装成本价为40元/件,为使该款夏装在销售上获得最大利润,该款夏装的单价应定为多少元?(保留整数)附:b ^=∑i =1nx i -x y i -y ∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b^x .解 (1)A ,B ,C 三家连锁店平均售价和销量分别为(83,83),(85,80),(87,74),∴x =85,y =79,∴b ^=错误!=-2.25,∴a ^=y -b ^x =270.25,∴y ^=-2.25x +270.25. (2)设该款夏装的单价应定为x 元,利润为f (x )元, 则f (x )=(x -40)(-2.25x +270.25) =-2.25x 2+360.25x -10810,∴当x ≈80时,f (x )取得最大值.故该款夏装的单价应定为80元.。

《概率论与数理统计》习题及答案第八章

《概率论与数理统计》习题及答案第八章

《概率论与数理统计》习题及答案第 八 章1.设12,,,n X X X 是从总体X 中抽出的样本,假设X 服从参数为λ的指数分布,λ未知,给定00λ>和显著性水平(01)αα<<,试求假设00:H λλ≥的2χ检验统计量及否定域.解00:H λλ≥ 选统计量200122nii XnX χλλ===∑记212ni i X χλ==∑则22~(2)n χχ,对于给定的显著性水平α,查2χ分布表求出临界值2(2)n αχ,使22((2))P n αχχα≥=因22χχ>,所以2222((2))((2))n n ααχχχχ≥⊃≥,从而2222{(2)}{(2)}P n P n αααχχχχ=≥≥≥可见00:H λλ≥的否定域为22(2)n αχχ≥.2.某种零件的尺寸方差为21.21σ=,对一批这类零件检查6件得尺寸数据(毫米):32.56, 29.66, 31.64, 30.00, 21.87, 31.03。

设零件尺寸服从正态分布,问这批零件的平均尺寸能否认为是32.50毫米(0.05α=). 解问题是在2σ已知的条件下检验假设0:32.50H μ=0H 的否定域为/2||u u α≥其中29.4632.502.45 6.771.1X u -==⨯=-0.0251.96u =,因|| 6.77 1.96u =>,所以否定0H ,即不能认为平均尺寸是32.5毫米。

3.设某产品的指标服从正态分布,它的标准差为100σ=,今抽了一个容量为26的样本,计算平均值1580,问在显著性水平0.05α=下,能否认为这批产品的指标的期望值μ不低于1600。

解问题是在2σ已知的条件下检验假设0:1600H μ≥0H 的否定域为/2u u α<-,其中15801600 5.1 1.02100X u -==⨯=-.0.05 1.64u -=-.因为0.051.02 1.64u u =->-=-,所以接受0H ,即可以认为这批产品的指标的期望值μ不低于1600.4.一种元件,要求其使用寿命不低于1000小时,现在从这批元件中任取25件,测得其寿命平均值为950小时,已知该元件寿命服从标准差为100σ=小时的正态分布,问这批元件是否合格?(0.05α=)解设元件寿命为X ,则2~(,100)X N μ,问题是检验假设0:1000H μ≥.0H 的否定域为0.05u u ≤-,其中95010005 2.5100X u -==⨯=-0.05 1.64u =因为0.052.5 1.64u u =-<-=所以否定0H ,即元件不合格.5.某批矿砂的5个样品中镍含量经测定为(%)X :3.25,3.27,3.24,3.26,3.24设测定值服从正态分布,问能否认为这批矿砂的镍含量为3.25(0.01)α=? 解问题是在2σ未知的条件下检验假设0: 3.25H μ=0H 的否定域为 /2||(4)t t α>522113.252,(5)0.00017,0.0134i i X S X X S ===-⨯==∑0.005(4) 4.6041t =3.252 3.252.240.3450.013X t -==⨯=因为0.005||0.345 4.6041(4)t t =<=所以接受0H ,即可以认为这批矿砂的镍含量为3.25.6.糖厂用自动打包机打包,每包标准重量为100公斤,每天开工后要检验一次打包机工作是否正常,某日开工后测得9包重量(单位:公斤)如下:99.3,98.7,100.5,101.2,98.3,99.7,99.5,102.1,100.5问该日打包机工作是否正常(0.05α=;已知包重服从正态分布)?解99.98X =,92211(()) 1.478i i S X X ==-=∑, 1.21S =,问题是检验假设0:100H μ=0H 的否定域为/2||(8)t t α≥.其中99.9810030.051.21X t -==⨯=-0.025(8) 2.306t = 因为0.025||0.05 2.306(8)t t =<=所以接受0H ,即该日打包机工作正常.7.按照规定,每100克罐头番茄汁中,维生素C 的含量不得少于21毫克,现从某厂生产的一批罐头中抽取17个,测得维生素C 的含量(单位:毫克)如下22,21,20,23,21,19,15,13,16, 23,17,20,29,18,22,16,25.已知维生素C 的含量服从正态分布,试检验这批罐头的维生素含量是否合格。

概率论与数理统计课后习题答案 第八章

概率论与数理统计课后习题答案 第八章

有无显著差异(
).
解:检验假设
经计算
查表知
由于
故接受
即甲,乙两台车床加工的产品直径无显著差异.
8. 从甲地发送一个信号到乙地.设乙地接受到的信号值是一个服从正态分布
的随机变量,其
中 为甲地发送的真实信号值.现甲地重复发送同一信号 5 次,乙地接受到的信号值为
8.05
8.15
8.2
8.1
8.25
设接收方有理由猜测甲地发送的信号值为 8.问能否接受这一猜测? (

该机正常工作与否的标志是检验 是否成立.一日
试问:在检验水平
下,该日自动机工作是否正
查表知
,由于
故拒绝 ,即该日自动机工作不正常.
2. 假定考生成绩服从正态分布,在某地一次数学统考中,随机抽取了 36 位考生的成绩,算的平均成绩为 分,标准差 S=15 分,问在显著性水平 0.05 下,是否可以认为这次考试全体考生的平均成绩为
问这两台机床的加工精度是否一致?
解:该题无 值,故省略.(用 F 检验)
4. 对两批同类电子元件的电阻进行测试,各抽 6 件,测得结果如下(单位:Ω )
A 批 0.140 0.138 0.143 0.141 0.144 0.137
B 批 0.135 0.140 0.142 0.136 0.138 0.141
态分布
(单位:公斤).现抽测了 9 包,其重量为:
99.3
98.7
100.5 101.2 98.3
99.7
99.5
102.0 100.5
问这天包装机工作是否正常?
将这一问题化为一个假设检验问题,写出假设检验的步骤,设
解: (1)作假设

高考数学考点练习第八章概率与统计67变量间的相关关系与统计案例试题理

高考数学考点练习第八章概率与统计67变量间的相关关系与统计案例试题理

考点测试67 变量间的相关关系与统计案例一、基础小题1.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ) A.y ^=-2x +100 B.y ^=2x +100 C.y ^=-2x -100 D.y ^=2x -100答案 A解析 B 、D 为正相关,C 中y ^值恒为负,不符合题意. 2.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 答案 B解析 ∵a ^=y -b ^x =49+26+39+544-9.4×4+2+3+54=9.1,∴回归方程为y ^=9.4x +9.1.令x =6,得y ^=9.4×6+9.1=65.5(万元).3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本点中心(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1ny i -y ^i2∑i =1ny i -y2=1.5. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案 A解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B、C错误;D中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以D错误;根据线性回归直线一定经过样本点中心可知A正确.6.在一次对性别与说谎是否相关的调查中,得到如下数据:A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有99.5%的把握认为是否说谎与性别有关D.在此次调查中没有充分的证据显示说谎与性别有关答案 D解析由于K2=-213×17×14×16≈0.0024,由于K2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.7. 如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.答案D解析由散点图知呈带状区域时有较强的线性相关关系,故去掉D.8.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:根据表中所给的数据,能否在犯错误的概率不超过0.15的前提下认为这两种手术对病人又发作过心脏病的影响有差别?________________________________________________________________________.答案 1.779 不能作出这两种手术对病人又发作心脏病的影响有差别的结论解析根据列联表中的数据,可以求得K2=-268×324×196×196≈1.779,而K2<2.072,所以我们不能在犯错误的概率不超过0.15的前提下,作出这两种手术对病人又发作心脏病的影响有差别的结论.二、高考小题9.[2015·全国卷Ⅱ]根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关答案 D解析由柱形图,知2006年以来我国二氧化硫年排放量呈减少趋势,故其排放量与年份负相关,故D错误.10.[2015·福建高考]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y=b x+a,其中b=0.76,a=y-b x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元 B.11.8万元C .12.0万元D .12.2万元 答案 B 解析 ∵x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=y -0.76x =8-0.76×10=0.4, ∴y ^=0.76x +0.4.当x =15时,y ^=0.76×15+0.4=11.8.11.[2014·江西高考]某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表2表3表4A .成绩B .视力C .智商D .阅读量 答案 D 解析 根据K 2=n ad -bc 2a +bc +d a +cb +d,代入题中数据计算得表1:K 2=-216×36×20×32≈0.009;表2:K 2=-216×36×20×32≈1.769; 表3:K 2=-216×36×20×32≈1.3;表4:K 2=-216×36×20×32≈23.48.∵D 选项K 2最大,∴阅读量与性别有关联的可能性最大,故选D. 12.[2014·湖北高考]根据如下样本数据得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0答案 B解析 把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图,由图可知b <0,a >0.故选B.13.[2014·重庆高考]已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本中心(3,3.5),代入验证得A 正确,B 错误.故选A.三、模拟小题14.[2017·大连双基测试]已知x ,y 的取值如表所示:如果y 与x 线性相关,且线性回归方程为y ^=b ^x +2,则b ^的值为( )A .-12 B.12 C .-110 D.110答案 A解析 将x =3,y =5代入到y ^=b ^x +132中,得b ^=-12.故选A.15.[2016·兰州、张掖联考]对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ,解得a ^=18.16.[2016·漳州二模]下列说法错误的是( )A .在回归模型中,预报变量y 的值不能由解释变量x 唯一确定B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好 答案 B解析 对于A ,在回归模型中,预报变量y 的值由解释变量x 和随机误差e 共同确定,即x 只能解释部分y 的变化,∴A 正确;对于B ,线性回归分析中,相关系数r 的绝对值越接近1,两个变量的线性相关性越强,反之,线性相关性越弱,∴B 错误;对于C ,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C 正确;对于D ,在回归分析中,用相关指数R 2来刻画回归的效果时,R 2取值越大,说明模型拟合的效果越好,∴R 2为0.98的模型比R 2为0.80的模型拟合的效果好,D 正确.故选B.17.[2017·温州月考]为了检验某套眼保健操预防学生近视的作用,把500名做该套眼保健操的学生与另外500名未做该套眼保健操的学生的视力情况作记录并比较,提出假设H 0:“这套眼保健操不能起到预防近视的作用”,利用2×2列联表计算所得的K 2≈3.918.经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学得出了以下结论:①有95%的把握认为“这套眼保健操能起到预防近视的作用”;②若某人未做该套眼保健操,那么他有95%的可能得近视;③这套眼保健操预防近视的有效率为95%;④这套眼保健操预防近视的有效率为5%.其中所有正确结论的序号是________. 答案 ①解析 根据查对临界值表知P (K 2≥3.841)≈0.05,故有95%的把握认为“这套眼保健操能起到预防近视的作用”,即①正确;95%仅是指“这套眼保健操能起到预防近视的作用”的可信程度,所以②③④错误.18.[2016·兰州一模]从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,计算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.已知家庭的月储蓄y 关于月收入x 的线性回归方程为y ^=b ^x +a ^,则变量x 与y ________(填“正相关”或“负相关”);若该居民区某家庭月收入为7千元,预测该家庭的月储蓄是________千元.答案 正相关 1.7解析 由题意,知n =10,x =110∑i =110x i =8,y =110∑i =110y i =2,∴b ^=184-10×8×2720-10×82=0.3,a ^=2-0.3×8=-0.4,∴y ^=0.3x -0.4,∵0.3>0,∴变量x 与y 正相关.当x =7时,y ^=0.3×7-0.4=1.7(千元).一、高考大题1.[2016·全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17, ∑7i =1y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 t i -ty i -y∑ni =1t i -t2∑ni =1y i -y 2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1t i -ty i -y∑ni =1t i -t2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得t =4,∑7i =1(t i -t )2=28, ∑7i =1y i -y 2=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑7i =1t i -ty i -y∑7i =1t i -t2=2.8928≈0.103, a ^=y -b ^t =1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.2.[2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑n i =1u i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2) 令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1w i -w y i -y ∑8i =1 w i -w 2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2),知当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果,知年利润z 的预报值 z ^=0.2×(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值,故年宣传费为46.24千元时,年利润的预报值最大. 二、模拟大题3.[2016·石家庄模拟]班主任对班级22名学生进行了作业量多少的调查,数据如下:在喜欢玩电脑游戏的12人中,有10人认为作业多,2人认为作业不多;在不喜欢玩电脑游戏的10人中,有3人认为作业多,7人认为作业不多.(1)根据以上数据建立一个2×2列联表;(2)试问喜欢玩电脑游戏与认为作业多少是否有关系. 参考公式:K 2=n ad -bc 2a +b c +d a +cb +d,其中n =a +b +c +d .参考数据:解(2)K 2=-212×10×13×9≈6.418,∵3.841<6.418,∴有95%的把握认为喜欢玩电脑游戏与认为作业多少有关.4.[2016·广东模拟]2016年1月1日起全国统一实施全面两孩政策,为了解适龄民众对放开生育二胎政策的态度,某市选取70后和80后作为调查对象,随机调查了100位,得到数据如下表:70后公民中随机抽取3位,记其中生二胎的人数为X ,求随机变量X 的分布列和数学期望;(2)根据调查的数据,是否有90%以上的把握认为“生二胎与年龄有关”,并说明理由. 参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d参考数据:解 (1)由已知得70后“生二胎”的概率为3,并且X ~B ⎝ ⎛⎭⎪⎫3,23, 所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),其分布列如下:所以E (X )=3×3=2.(2)K 2=n ad -bc 2a +bc +d a +cb +d=-275×25×45×55=10033≈3.030>2.706, 所以有90%以上的把握认为“生二胎与年龄有关”.5.[2017·成都诊断]PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物),为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某时间段车流量与PM2.5浓度的数据如下表:(2)若周六同一时段车流量是200万辆,试根据(1)求出的线性回归方程,预测此时PM2.5的浓度为多少?参考公式:b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^·x .解 (1)由条件可知x =15∑i =15x i =5405=108,y =15∑i =15y i =4205=84,∑i =15(x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,∑i =15(x i -x )2=(-8)2+(-6)2+02+62+82=200,b ^=∑i =15x i -xy i -y∑i =15x i -x2=144200=0.72, a ^=y -b ^x =84-0.72×108=6.24,故y 关于x 的线性回归方程为y ^=0.72x +6.24. (2)当x =200时,y ^=0.72×200+6.24=150.24.所以可以预测此时PM2.5的浓度约为150.24微克/立方米.6.[2017·厦门质检]某单位共有10名员工,他们某年的收入如下表:(2)从该单位中任取2人,此2人中年薪高于5万的人数记为ξ,求ξ的分布列和期望; (3)已知员工年薪与工作年限成正线性相关关系,若某员工工作第一年至第四年的年薪分别为3万元、4.2万元、5.6万元、7.2万元,预测该员工第五年的年薪为多少.附:线性回归方程y ^=b ^x +a ^中系数计算公式b ^=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b^x ,其中x ,y 表示样本均值.解 (1)平均值为10万元,中位数为6万元.(2)年薪高于5万的有6人,低于或等于5万的有4人,所以从该单位中任取2人,此2人中年薪高于5万的人数记为ξ,ξ的可能取值为0,1,2.P (ξ=0)=C 24C 210=215,P (ξ=1)=C 14C 16C 210=815,P (ξ=2)=C 26C 210=13,所以ξ的分布列为:E (ξ)=0×15+1×15+2×3=5.(3)设x i ,y i (i =1,2,3,4)分别表示工作年限及相应年薪,则x =2.5,y =5,∑i =14(x i -x )2=2.25+0.25+0.25+2.25=5,∑i =14(x i -x )(y i -y )=-1.5×(-2)+(-0.5)×(-0.8)+0.5×0.6+1.5×2.2=7,b ^=∑i =14x i -xy i -y∑i =14x i -x2=75=1.4, a ^=y -b ^x =5-1.4×2.5=1.5,所以线性回归方程为y ^=1.4x +1.5. 当x =5时,y ^=8.5.故可预测该员工第五年的年薪为8.5万元.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

考点测试67 变量间的相关关系与统计案例一、基础小题1.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ) A.y ^=-2x +100 B.y ^=2x +100 C.y ^=-2x -100 D.y ^=2x -100答案 A解析 B 、D 为正相关,C 中y ^值恒为负,不符合题意. 2.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 答案 B解析 ∵a ^=y -b ^x =49+26+39+544-9.4×4+2+3+54=9.1,∴回归方程为y ^=9.4x +9.1.令x =6,得y ^=9.4×6+9.1=65.5(万元).3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本点中心(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1ny i -y ^i 2∑i =1ny i -y2=1.5. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 答案 A解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误;D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误;根据线性回归直线一定经过样本点中心可知A 正确.6.在一次对性别与说谎是否相关的调查中,得到如下数据:A .在此次调查中有95%的把握认为是否说谎与性别有关B .在此次调查中有99%的把握认为是否说谎与性别有关C .在此次调查中有99.5%的把握认为是否说谎与性别有关D .在此次调查中没有充分的证据显示说谎与性别有关 答案 D解析 由于K 2=30× 6×9-7×8 213×17×14×16≈0.0024,由于K 2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.7. 如图所示,有5组(x ,y )数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.答案 D解析 由散点图知呈带状区域时有较强的线性相关关系,故去掉D .8.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:根据表中所给的数据,能否在犯错误的概率不超过0.15的前提下认为这两种手术对病人又发作过心脏病的影响有差别?________________________________________________________________________. 答案 1.779 不能作出这两种手术对病人又发作心脏病的影响有差别的结论 解析 根据列联表中的数据,可以求得K 2=392× 39×167-29×157 268×324×196×196≈1.779,而K 2<2.072,所以我们不能在犯错误的概率不超过0.15的前提下,作出这两种手术对病人又发作心脏病的影响有差别的结论.二、高考小题9.[2015·全国卷Ⅱ]根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 答案 D解析 由柱形图,知2006年以来我国二氧化硫年排放量呈减少趋势,故其排放量与年份负相关,故D 错误.10.[2015·福建高考]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元 答案 B 解析 ∵x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=y -0.76x =8-0.76×10=0.4, ∴y ^=0.76x +0.4.当x =15时,y ^=0.76×15+0.4=11.8.11.[2014·江西高考]某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表2表3表4A .成绩B .视力C .智商D .阅读量 答案 D解析 根据K 2=n ad -bc 2a +bc +d a +c b +d,代入题中数据计算得表1:K 2=52× 6×22-10×14216×36×20×32≈0.009;表2:K 2=52× 4×20-12×16216×36×20×32≈1.769;表3:K 2=52× 8×24-8×12216×36×20×32≈1.3;表4:K 2=52× 14×30-6×2216×36×20×32≈23.48.∵D 选项K 2最大,∴阅读量与性别有关联的可能性最大,故选D. 12.[2014·湖北高考]根据如下样本数据得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0答案 B解析 把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图,由图可知b <0,a >0.故选B.13.[2014·重庆高考]已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本中心(3,3.5),代入验证得A 正确,B 错误.故选A.三、模拟小题14.[2017·大连双基测试]已知x ,y 的取值如表所示:如果y 与x 线性相关,且线性回归方程为y ^=b ^x +2,则b ^的值为( )A .-12 B.12 C .-110 D.110答案 A解析 将x =3,y =5代入到y ^=b ^x +132中,得b ^=-12.故选A.15.[2016·兰州、张掖联考]对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本中心点为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ,解得a ^=18.16.[2016·漳州二模]下列说法错误的是( )A .在回归模型中,预报变量y 的值不能由解释变量x 唯一确定B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好 答案 B解析 对于A ,在回归模型中,预报变量y 的值由解释变量x 和随机误差e 共同确定,即x 只能解释部分y 的变化,∴A 正确;对于B ,线性回归分析中,相关系数r 的绝对值越接近1,两个变量的线性相关性越强,反之,线性相关性越弱,∴B 错误;对于C ,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C 正确;对于D ,在回归分析中,用相关指数R 2来刻画回归的效果时,R 2取值越大,说明模型拟合的效果越好,∴R 2为0.98的模型比R 2为0.80的模型拟合的效果好,D 正确.故选B.17.[2017·温州月考]为了检验某套眼保健操预防学生近视的作用,把500名做该套眼保健操的学生与另外500名未做该套眼保健操的学生的视力情况作记录并比较,提出假设H 0:“这套眼保健操不能起到预防近视的作用”,利用2×2列联表计算所得的K 2≈3.918.经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学得出了以下结论:①有95%的把握认为“这套眼保健操能起到预防近视的作用”;②若某人未做该套眼保健操,那么他有95%的可能得近视;③这套眼保健操预防近视的有效率为95%;④这套眼保健操预防近视的有效率为5%.其中所有正确结论的序号是________. 答案 ①解析 根据查对临界值表知P (K 2≥3.841)≈0.05,故有95%的把握认为“这套眼保健操能起到预防近视的作用”,即①正确;95%仅是指“这套眼保健操能起到预防近视的作用”的可信程度,所以②③④错误.18.[2016·兰州一模]从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,计算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.已知家庭的月储蓄y 关于月收入x 的线性回归方程为y ^=b ^x +a ^,则变量x 与y ________(填“正相关”或“负相关”);若该居民区某家庭月收入为7千元,预测该家庭的月储蓄是________千元.答案 正相关 1.7解析 由题意,知n =10,x =110∑i =110x i =8,y =110∑i =110y i =2,∴b ^=184-10×8×2720-10×82=0.3,a ^=2-0.3×8=-0.4,∴y ^=0.3x -0.4,∵0.3>0,∴变量x 与y 正相关.当x =7时,y ^=0.3×7-0.4=1.7(千元).一、高考大题1.[2016·全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17, ∑7i =1y i -y 2=0.55,7≈2.646. 参考公式:相关系数r =∑ni =1 t i -t y i -y∑ni =1 t i -t 2∑n i =1y i -y 2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1t i -t y i -y∑ni =1 t i -t 2,a ^=y -b ^t . 解 (1)由折线图中数据和附注中参考数据得t =4,∑7i =1(t i -t )2=28, ∑7i =1y i -y 2=0.55, ∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑7i =1t i -t y i -y ∑7i =1 t i -t 2=2.8928≈0.103, a ^=y -b ^t =1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.2.[2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -u v i -v ∑ni =1u i -u 2,α^=v -β^u . 解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2) 令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1w i -w y i -y ∑8i =1 w i -w 2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2),知当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果,知年利润z 的预报值 z ^=0.2×(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值,故年宣传费为46.24千元时,年利润的预报值最大. 二、模拟大题3.[2016·石家庄模拟]班主任对班级22名学生进行了作业量多少的调查,数据如下:在喜欢玩电脑游戏的12人中,有10人认为作业多,2人认为作业不多;在不喜欢玩电脑游戏的10人中,有3人认为作业多,7人认为作业不多.(1)根据以上数据建立一个2×2列联表;(2)试问喜欢玩电脑游戏与认为作业多少是否有关系.参考公式:K 2=n ad -bc 2a +bc +d a +c b +d,其中n =a +b +c +d .参考数据:解(2)K 2=22× 10×7-3×2212×10×13×9≈6.418,∵3.841<6.418,∴有95%的把握认为喜欢玩电脑游戏与认为作业多少有关.4.[2016·广东模拟]2016年1月1日起全国统一实施全面两孩政策,为了解适龄民众对放开生育二胎政策的态度,某市选取70后和80后作为调查对象,随机调查了100位,得到数据如下表:70后公民中随机抽取3位,记其中生二胎的人数为X ,求随机变量X 的分布列和数学期望;(2)根据调查的数据,是否有90%以上的把握认为“生二胎与年龄有关”,并说明理由.参考公式:K 2=n ad -bc 2 a +b c +d a +c b +d,其中n =a +b +c +d参考数据:解 (1)由已知得70后“生二胎”的概率为3,并且X ~B ⎝ ⎛⎭⎪⎫3,23, 所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),其分布列如下:所以E (X )=3×3=2.(2)K 2=n ad -bc 2a +bc +d a +c b +d=100× 30×10-45×15 275×25×45×55=10033≈3.030>2.706, 所以有90%以上的把握认为“生二胎与年龄有关”.5.[2017·成都诊断]PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物),为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某时间段车流量与PM2.5浓度的数据如下表:(2)若周六同一时段车流量是200万辆,试根据(1)求出的线性回归方程,预测此时PM2.5的浓度为多少?参考公式:b ^=∑i =1nx i -xy i -y∑i =1nx i -x 2,a ^=y -b ^·x .解 (1)由条件可知x =15∑i =15x i =5405=108,y =15∑i =15y i =4205=84,∑i =15(x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,∑i =15(x i -x )2=(-8)2+(-6)2+02+62+82=200,b ^=∑i =15x i -xy i -y∑i =15x i -x 2=144200=0.72, a ^=y -b ^x =84-0.72×108=6.24,故y 关于x 的线性回归方程为y ^=0.72x +6.24. (2)当x =200时,y ^=0.72×200+6.24=150.24.所以可以预测此时PM2.5的浓度约为150.24微克/立方米.6.[2017·厦门质检]某单位共有10名员工,他们某年的收入如下表:(2)从该单位中任取2人,此2人中年薪高于5万的人数记为ξ,求ξ的分布列和期望; (3)已知员工年薪与工作年限成正线性相关关系,若某员工工作第一年至第四年的年薪分别为3万元、4.2万元、5.6万元、7.2万元,预测该员工第五年的年薪为多少.附:线性回归方程y ^=b ^x +a ^中系数计算公式b ^=∑i =1nx i -xy i -y∑i =1nx i -x 2,a ^=y -b^x ,其中x ,y 表示样本均值.解 (1)平均值为10万元,中位数为6万元.(2)年薪高于5万的有6人,低于或等于5万的有4人,所以从该单位中任取2人,此2人中年薪高于5万的人数记为ξ,ξ的可能取值为0,1,2.P (ξ=0)=C 24C 210=215,P (ξ=1)=C 14C 16C 210=815,P (ξ=2)=C 26C 210=13,所以ξ的分布列为:E (ξ)=0×15+1×15+2×3=5.(3)设x i ,y i (i =1,2,3,4)分别表示工作年限及相应年薪,则x =2.5,y =5,∑i =14(x i -x )2=2.25+0.25+0.25+2.25=5,∑i =14(x i -x )(y i -y )=-1.5×(-2)+(-0.5)×(-0.8)+0.5×0.6+1.5×2.2=7,b ^=∑i =14x i -xy i -y∑i =14x i -x 2=75=1.4, a ^=y -b ^x =5-1.4×2.5=1.5,所以线性回归方程为y ^=1.4x +1.5. 当x =5时,y ^=8.5.故可预测该员工第五年的年薪为8.5万元.。

相关文档
最新文档