2013年全国高考试题分类汇编:变量间的相关关系与统计案例
变量间的相关关系、统计案例 高考数学总复习 高考数学试题详细解析

11.3 变量间的相关关系、统计案例一、选择题 1.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程; ②平均日学习时间和平均学习成绩; ③某人每日吸烟量和身体健康情况; ④圆的半径与面积;⑤汽车的重量和每千米耗油量. 其中两个变量成正相关的是( )A .①③B .②④C .②⑤D .④⑤解析 由变量的相关关系的概念知,②⑤是正相关,①③是负相关,④为函数关系, 故选C. 答案 C2.通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:由2222()110(40302030)7.8()()()()60506050n ad bc K K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯算得,附表:参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析由27.8 6.635K≈>,而2P K≥=,( 6.635)0.010故由独立性检验的意义可知选A.答案 A3.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( ).A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有解析统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.答案 D4.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( ).A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析由样本的中心(x,y)落在回归直线上可知A正确;x和y的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在-1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还是偶数,故D错.答案 A5.某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( ).A.63.6万元 B.65.5万元C.67.7万元 D.72.0万元解析x=4+2+3+54=3.5(万元),y=49+26+39+544=42(万元),∴a^=y-b^x=42-9.4×3.5=9.1,∴回归方程为y^=9.4x+9.1,∴当x=6(万元)时,y^=9.4×6+9.1=65.5(万元).答案 B6.已知数组(x1,y1),(x2,y2),…,(x10,y10)满足线性回归方程y^=bx+a,则“(x0,y0)满足线性回归方程y^=bx+a”是“x0=x1+x2+…+x1010,y0=y1+y2+…+y1010”的( ).A.充分不必要条件 B.必要不充分条件C.充要条件 D.既不充分也不必要条件解析x0,y0为这10组数据的平均值,又因为线性回归方程y^=bx+a必过样本中心(x,y),因此(x,y)一定满足线性回归方程,但满足线性回归方程的除了(x,y)外,可能还有其他样本点.答案 B7.在第29届奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居世界金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的 2 548名男性公民中有 1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( ).A .平均数与方差B .回归直线方程C .独立性检验D .概率解析 由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求,故用独立性检验最有说服力. 答案 C 二、填空题8. 在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析 根据样子相关系数的定义可知,当所有样本点都在直线上时,相关系数 为1. 答案 189.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解析 K 2≈3.918>3.841,而P (K 2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”;但检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆,正确序号为①. 答案 ①10.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析 由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元. 答案 0.25411.某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =bx +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯(已知回归系数解析 根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40(杯).∴a=y-b x=40-(-2)×10=60,∴y^=-2x+60,当x=-5时,y^=-2×(-5)+60=70(杯).答案7012.某医疗研究所为了了解某种血清预防感冒的作用,把500名使用过血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析因为K2≈3.918≥3.841,而P(K2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案①三、解答题13.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:解析以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程y bx a=+; (Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地2012年的粮食需求量。
第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
(课标专用)高考数学一轮复习第十一章概率与统计11.3变量间的相关关系与统计案例课件文

(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间散布在茎8上的最多,关于 茎8大致呈对称散布;用第二种生产方式的工人完成生产任务所需时间散布在茎7上的最多,关 于茎7大致呈对称散布.又用两种生产方式的工人完成生产任务所需时间散布的区间相同,故 可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
思路分析 (1)计算频率,通过频率估计概率.(2)将数据代入公式计算K2,与附表中的k比较大小, 作出判断.
2.(202X课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产 任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组, 每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任 务的工作时间(单位:min)绘制了如下茎叶图:
20 20 20 20
思路分析 (1)根据茎叶图中的数据大致集中在哪个茎,作出判断; (2)通过茎叶图确定数据的中位数,按要求完成2×2列联表; (3)根据(2)中2×2列联表,将有关数据代入公式计算得K2的值,借助临界值表作出统计推断.
类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
(i)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ii)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别
2013届人教A版文科数学课时试题及解析(56)变量的相关关系与统计案例

课时作业(五十六)[第56讲变量的相关关系与统计案例][时间:45分钟分值:100分]基础热身1.对于自变量x和因变量y,当x取值一定时,y的取值带有一定的随机性,x,y之间的这种非确定性关系叫()A.函数关系B.线性关系C.相关关系D.回归关系2.分类变量X和A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强3.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图K56-1),以下结论中正确的是()图K56-1A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同4.2010年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y=bx+a中的b≈-2.气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月羽绒服的销售量约为________件.5.工人月工资y(元)关于劳动生产率x(千元)的回归方程为y=650+80x,下列说法中正确的个数是()①劳动生产率为1000元时,工资为730元;②劳动生产率提高1000元,则工资提高80元;③劳动生产率提高1000元,则工资提高730元;④当月工资为810元时,劳动生产率约为2000元.A.1 B.2 C.3 D.46.某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元7.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确8. 变量X 与Y 相对应的一组数据为(10,1),(11.3,2)(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 19.已知x 、y如果y 与x 呈线性相关,且线性回归方程为y =bx +132,则b =( ) A.13 B .-12 C.12D .1 10.假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:若由资料可知y 对x 呈线性相关关系,且线性回归方程为y =a +bx ,其中已知b =1.23,请估计使用年限为20年时,维修费用约为________.11. 对一些城市进行职工人均工资水平x (千元)与居民人均消费水平y (元)统计调查后知,y 与x 具有相关关系,满足回归方程y =0.66x +1.562.若某被调查城市居民人均消费水平为7.675(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为________%(保留两个有效数字).12.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后进行统计假设是________________________________________________________________________.13. 为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________.14.(10分) 某中学采取分层抽样的方法从应届高三学生中按照性别抽出20名学生作为(1)3人中既有男生也有女生的概率;(2)用假设检验的方法分析有多大的把握认为该中学的高三学生选报文理科与性别有关?参考公式和数据:K2=n(ad-bc)2.15.(13分)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(1)(2)求线性回归方程,并在散点图中加上回归直线;(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.难点突破16.(12分)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.(参考数据: 1.04≈1.02;由检验水平0.01及n-2=3,查表得r0.01=0.959)课时作业(五十六)【基础热身】1.C [解析] 由相关关系的概念可知,C 正确.故选C.2.C [解析] 因为K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),当(ad -bc )2越大时,K 2越大,说明X 与Y 关系越强.故选C.3.A [解析] 由题设给出的图象知两变量负相关,则相关系数为负值,则C 错,相关系数r 是研究相关性大小的,b 为直线的斜率,则B 错,回归分析得到的直线为与所有点距离和最小的,与点在直线两边的个数无关,D 错,故答案为A.4.46 [解析] 由给定的样本数据可知,该样本点的中心(x ,y )为(10,38),因为线性回归方程过样本点的中心,故38=-20+a ,所以a =58,∴y ^=-2x +58,故当x =6时,y^=46.【能力提升】5.C [解析] 将数据代入方程计算可判断①②④正确.故选C.6.B [解析] x =4+2+3+54=3.5,y =49+26+39+544=42,由于回归方程过点(x ,y ),所以42=9.4×3.5+a ^,解得a ^=9.1,故回归方程为y ^ =9.4x +9.1,所以当x =6时,y=6×9.4+9.1=65.5.7.C [解析] 根据独立性检验的思想知,选项C 正确.8.C [解析] 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0.∴r 2<0<r 1. 故选C.9.B [解析] 因为x =3,y =5,又回归直线过点(x ,y ),所以5=3b +132,所以b =-12. 10.22.68万元 [解析] 易得x =4,y =3,而b =1.23,代入回归方程得a =-1.92,所以,回归方程为y ^=1.23x -1.92,若使用年限为20年时,估计维修费用约为y ^=1.23×20-1.92=22.68.11.83 [解析] 将y =7.675代入回归方程得x =9.262,所以估计该城市人均消费额占人均工资收入的百分比约为7.6759.262≈0.83. 12.小白鼠的死亡与电离辐射的剂量无关 [解析] 根据独立性检验的基本思想,可知类似反证法,即要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.对本题进行统计分析时的统计假设应是“小白鼠的死亡与剂量无关”.13.0.5 0.53 [解析] y =0.4+0.5+0.6+0.6+0.45=2.55=0.5;x =1+2+3+4+55=3.b ^=(x 1-x )(y 1-y )+…+(x 5-x )(y 5-y )(x 1-x )2+…+(x 5-x )2=0.01,a ^=y -b ^x =0.5-0.01×3=0.47,所以回归方程为:y =0.47+0.01x ,所以当x =6时,y =0.47+0.01×6=0.53.14.[解答] (1)设样本中两名男生分别为a ,b,5名女生分别为c ,d ,e ,f ,g ,则基本事件空间为:(abc ),(abd ),(abe ),(abf ),(abg ),(acd ),(ace ),(acf ),(acg ),(ade ),(adf ),(adg ),(aef ),(aeg ),(afg ),(bcd ),(bce ),(bcf ),(bcg ),(bde ),(bdf ),(bdg ),(bef ),(beg ),(bfg ),(cde ),(cdf ),(cdg ),(cef ),(ceg ),(cfg ),(def ),(deg ),(dfg ),(efg )共35种,其中既有男又有女的事件为前25种.故“抽出的3人既有男生又有女生”的概率为P =2535=57. (2)K 2=20×(50-6)27×13×12×8≈4.43>3.84,对照参考表格,结合考虑样本是抽取分层抽样抽取的,可知有95%以上的把握认为学生选报文理科与性别有关.15.[解答] (1)(2)x =15∑i =15x i =109,∑i =15 (x i -x )2=1570, y =23.2,∑i =15 (x i -x )(y i -y )=308.设所求回归直线方程为y ^=b ^x +a ^,则b ^=3081570≈0.1962, a ^=y -b ^x =23.2-109×3081570≈1.8166. 故所求回归直线方程为y ^=0.1962x +1.8166.(3)据(2),当x =150 m 2时,销售价格的估计值为y ^=0.1962×150+1.8166=31.2466(万元).【难点突破】16.[解答] (1)由∑i =15 (x i -x )(y i -y )=10,∑i =15 (x i -x )2=20,∑i =15(y i -y )2=5.2,可得r =∑i =15 (x i -x )(y i -y )∑i =15 (x i -x )2∑i =15(y i -y )2=10104≈0.98. 即年推销金额y 与工作年限x 之间的相关系数约为0.98.(2)由(1)知,r =0.98>0.959=r 0.01,所以可以认为年推销金额y 与工作年限x 之间具有较强的线性相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15 (x i -x )(y i -y )∑i =15 (x i -x )2=1020=0.5,a ^=y -b ^x =0.4. 所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.(3)由(2)可知,当x =11时,y ^=0.5x +0.4=0.5×11+0.4=5.9万元.所以可以估计第6名推销员的年推销金额为5.9万元.。
2013届人教A版文科数学课时试题及解析(56)变量的相关关系与统计案例

为 6℃,据此估计,该商场下个月羽绒服的销售量约为
________件.
能力提升
5.工人月工资 y(元 )关于劳动生产率 x(千元 )的回归方程为 确的个数是 ( )
①劳动生产率为 1000 元时,工资为 730 元; ②劳动生产率提高 1000 元,则工资提高 80 元; ③劳动生产率提高 1000 元,则工资提高 730 元; ④当月工资为 810 元时,劳动生产率约为 2000 元. A . 1 B. 2 C. 3 D. 4 6. 某产品的广告费用 x 与销售额 y 的统计数据如下表:
4. 2010 年一轮又一轮的寒潮席卷全国. 某商场为了了解某品牌羽绒服的月销售量 y(件 ) 与月平均气温 x(℃ )之间的关系,随机统计了某 4 个月的月销售量与当月平均气温,数据如
下表:
月平均气温 x(℃ )
17 13 8
2
月销售量 y(件 )
24 33 40 55
由表中数据算出线性回归方程 y^= bx+ a 中的 b≈- 2.气象部门预测下个月的平均气温约
C.若从统计量中求出有 95%的把握认为吸烟与患肺病有关系,是指有 得推断出现错误
5% 的可能性使
D .以上三种说法都不正确
8. 变量 X 与 Y 相对应的一组数据为 (10,1) , (11.3,2)(11.8,3) , (12.5,4), (13,5);变量 U 与 V 相对应的一组数据为 (10,5) , (11.3,4), (11.8,3), (12.5,2), (13,1) , r 1表示变量 Y 与 X 之
y= 650+ 80x,下列说法中正
广告费用 x(万元 )
4
2
3
5
1
销售额 y(万元 )
变量间相关关系统计案例

1122211()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑学 校: 年 级: 教学课题:统计案例 学员姓名: 辅导科目:数学 学科教师:王光明教学目标 变量间的相关关系与统计案例教学内容考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。
基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()n ad bca b a c b d c d-++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A.【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计60 50110由K 2=n ad -dc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90)[来源:学。
全国版 高考数学一轮复习第13章统计与统计案例第2讲变量间的相关关系与统计案例试题2理
第十三章 统计与统计案例第二讲 变量间的相关关系与统计案例1.[2021贵阳市四校第二次联考]某产品的宣传费用x (单位:万元)与销售额y (单位:万元)的统计数据如表所示:宣传费用x/万元2 3 4 5销售额y/万元 24 30 42 50根据上表可得回归方程y ^=9x+a ^,则宣传费用为6万元时,销售额最接近( ) A .55万元B .60万元C .62万元D .65万元2.[2021江西红色七校第一次联考]某大型电子商务平台每年都会举行“双11”商业促销狂欢活动,现统计了该平台从2011年到2019年共9年“双11”当天的销售额(单位:亿元)并作出散点图,将销售额y 看成年份序号x (2011年作为第1年)的函数.运用Excel 软件,分别选择回归直线和三次多项式回归曲线进行拟合,拟合效果如图13-2-1所示,则下列说法错误的是( )图13-2-1A.销售额y 与年份序号x 呈正相关关系B.根据三次多项式函数可以预测2020年“双11”当天的销售额约为2 684.54亿元C.销售额y 与年份序号x 线性相关关系不显著D.三次多项式回归曲线的拟合效果好于回归直线的拟合效果3.[2020南昌市测试]已知一组样本数据(x1,y1),(x2,y2),(x3,y3),…,(x6,y6),用最小二乘法得到其线性回归方程为y^=-2x+4,若x1,x2,x3,…,x6的平均数为1,则y1+y2+y3+…+y6=()A.10B.12C.13D.144.[2020太原模拟]为检验某种药物预防某一疾病的效果,进行了动物试验,得到如下列联表:患病未患病总计服用药10 45 55没服用药 20 30 50总计30 75 105由上述数据给出下列结论,其中正确结论的个数是()①不能在犯错误的概率不超过0.05的前提下认为药物有效;②能在犯错误的概率不超过0.025的前提下认为药物有效;③不能在犯错误的概率不超过0.010的前提下认为药物有效;④能在犯错误的概率不超过0.005的前提下认为药物有效.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d;P(K2≥k0)0.05 0.025 0.010 0.005k03.841 5.024 6.635 7.879A.1B.2C.3D.45.[2021蓉城名校联考]随着新冠肺炎疫情防控进入常态化,人们的生产生活逐步步入正轨,为拉动消费,成都市先后发行了四批(每批2亿元)消费券.某调查机构随机抽取了50人,对是否赞同这种拉动消费的方式进行调查,结果如下表,其中年龄低于45岁的总人数与不低于45岁的总人数之比为3∶2.年龄/岁[15,25) [25,35)[35,45)[45,55)[55,65)[65,75]抽取人数5 m15 10 n 5 赞同人数5 10 12 7 2 1(1)求m ,n 的值;(2)若以年龄45岁为分界点,由以上统计数据完成下面2×2列联表,并判断是否有99%的把握认为赞同的态度与人的年龄有关;年龄低于45岁的人数 年龄不低于45岁的人数合计赞同 不赞同 合计(3)若从年龄在[55,65)的被调查人中随机选取2人进行追踪调查,求这2人中至少有1人不赞同的概率.附:K 2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ),其中n =a+b+c+d.P (K 2≥k)0.15 0.10 0.05 0.025 0.010 0.005 0.001k 02.0722.7063.8415.0246.6357.87910.8286.[2021山东重点中学第一次联考]“未来肯定是非接触的,无感支付的方式将成为主流,这有助于降低交互门槛”,某科技公司创始人告诉记者.相对于主流支付方式二维码支付,刷脸支付更加便利,以前出门一部手机解决所有,而现在连手机都不需要了,毕竟,手机支付还需要携带手机,打开二维码也需要时间和手机信号.某地从大型超市门口随机抽取50名顾客进行了调查,得到了如下列联表:男性女性 总计 刷脸支付 1825非刷脸支付 13 总计50(1)请将上面的列联表补充完整,并判断是否有95%的把握认为使用刷脸支付与性别有关? (2)从参加调查且使用刷脸支付的顾客中随机抽取2人参加抽奖活动,抽奖活动规则如下:“一等奖”中奖概率为14,奖品为10元购物券m 张(m>3,且m ∈N *),“二等奖”中奖概率为14,奖品为10元购物券两张,“三等奖”中奖概率为12,奖品为10元购物券一张.每位顾客是否中奖相互独立,记参与抽奖的2位顾客抽中购物券金额的总和为X 元,若要使X 的均值不低于50元,求m 的最小值.附:K 2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ),其中n =a+b+c+d.P (K 2≥k 0) 0.100 0.050 0.010 0.005 k 02.7063.841 6.635 7.8797.[2021陕西省部分学校摸底检测]2019年12月27日,国家统计局公布全国规模以上工业企业月累计营业收入利润率数据如下表:月份累计1~2月1~3月 1~4月 1~5月 1~6月 1~7月 1~8月 1~9月 1~10月 1~11月 月份累计代码x 12345678910营业收入利润率y (%)4.795.31 5.52 5.72 5.86 5.87 5.87 5.91 5.85 5.91(1)根据表中有关数据请在下图13-2-2中补充完整y 与x 的折线图,判断y ^=a ^+b ^x 与y ^=c ^+d ^√x 哪一个更适宜作为y 关于x 的回归方程类型,并说明理由;图13-2-2(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(系数精确到0.01);(3)根据(2)得出的回归方程,预测1~12月月累计营业收入利润率(%)的值为多少?。
(安徽专用)2013年高考数学总复习 (教材扣夯实双基 考点突破 典型透析)第十章第3课时 变量间的
【解】 (1)由题设所给数据,可得散点图 如下:
4
(2)由对照数据,计算得x2i =86,
i= 1
x =3+4+4 5+6=4.5, y =2.5+3+4 4+4.5=3.5,
4
已知 xiyi=66.5,
i= 1
所以,由最小二乘法确定的回归直线方程的系 数为:
4
xiyi-4 x y
i= 1
^b=
解析:选D.A的说法是错误的;球的体积和 球的半径具有函数关系,故B错误;C中农 作物的产量和施肥量之间是一种相关关系, 故C错误;D是正确的. 2.(2010·高考湖南卷)某商品销售量y(件)与 销售价格x(元/件)负相关,则其回归方程可 能是( )
A.^y=-10x+200 C.^y=-10x-200
甲厂:
分组 [29.86, [29.90, [29.94, [29.98, [30.02, [30.06, [30.10, 29.90) 29.94) 29.98) 30.02) 30.06) 30.10) 30.14)
频数 12 63 86 182 92 61
4
乙厂:
分组 [29.86, [29.90, [29.94, [29.98, [30.02, [30.06, [30.10, 29.90) 29.94) 29.98) 30.02) 30.06) 30.10) 30.14)
答案:7.35
考点3 独立性检验
例3 某班主任对全班50名学生学习积极性 和对待班级工作的态度进行了调查,统计数
据如下表所示:
积极参加 不太主动参 合 班级工作 加班级工作 计
学习积极性高
18
7
25
学习积极性一般
6
19
高考数学(理)总复习课件: 变量间的相关关系、统计案例
返回
考点——在细解中明规律
题目千变总有根,梳干理枝究其本
返回
考点一
相关关系的判断 [基础自学过关]
[ 题组练透]
1.两个变量的相关关系有①正相关,②负相关,③不相关,则 下列散点图从左到右分别反映的变量间的相关关系是( D )
返回
A.①②③
B.②③①
C.②①③
D.①③②
解析:第一个散点图中,散点图中的点是从左下角区域分布到右上 角区域,则是正相关;第三个散点图中,散点图中的点是从左上角 区域分布到右下角区域,则是负相关;第二个散点图中,散点图中 的点的分布没有什么规律,则是不相关,所以应该是①③②.
i= 1 n
n
, ^ a = y -^ bx.
xi- x 2
i= 1
回归直线 ^ y =^ b x+^ a 必过样 本点的中心( x ,y ), 这个结 论既是检验所求回归直线 方程是否准确的依据, 也是 求参数的一个依据.
(3)通过求Q = yi-bxi-a 的最小值而得到回归直线的方法,
2 i=1
n
返回
即使得样本数据的点到回归直线的距离的平方和最小,这一
r 的符号表明两个变量是正 相关还是负相关;|r|的大小 (4)相关系数: 表示线性相关性的强弱. 当 r>0 时,表明两个变量正相关;当 r<0 时,表明两个变
方法叫做最小二乘法. 量负相关.
r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对 值越接近于 0 时,表明两个变量之间几乎不存在线性相关关系.通 常|r|大于 0.75 时,认为两个变量有很强的线性相关性.❷
第四节 变量间的相关关系、统计案例
目 录
基础——在批注中理解透
【全程复习方略】(福建专用)2013版高中数学 10.3变量间的相关关系与统计案例训练 理 新人教A版
"【全程复习方略】(福建专用)2013版高中数学 10.3变量间的相关关系与统计案例训练 理 新人教A 版 "(45分钟 100分)一、选择题(每小题6分,共36分) 1.对有线性相关关系的两个变量建立的回归直线方程y a bx $$$=+中,回归系数b $( )(A)不能小于0 (B)不能大于0(C)不能等于0 (D)只能小于02.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) (A)y $=1.23x +4 (B)y $=1.23x +5 (C)y $=1.23x +0.08 (D)y $=0.08x +1.233.(2011由()()()()()22n ad bc K a b c d a c b d -=++++算得,22110(40302020)K 7.860506050⨯⨯-⨯=≈⨯⨯⨯附表:参照附表,得到的正确结论是( )(A )在犯错误的概率不超过0.1%的前提下,认为“是否爱好该项运动与性别有关” (B )在犯错误的概率不超过0.1%的前提下,认为“是否爱好该项运动与性别无关” (C )有99%以上的把握认为“是否爱好该项运动和性别有关” (D )有99%以上的把握认为“是否爱好该项运动和性别无关” 4.对于回归分析,下列说法错误的是( )(A)在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定 (B)线性相关系数可以是正的或负的(C)回归分析中,如果r 2=1或r =±1,说明x 与y 之间完全线性相关 (D)样本相关系数r ∈(-1,1)5.(2011·山东高考)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程y bx a =+$$$中的b $为9.4,据此模型预报广告费用为6万元时销售额为( ) (A )63.6万元 (B )65.5万元 (C )67.7万元 (D )72.0万元6.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:根据以上数据,则( )(A )含杂质的高低与设备改造有关 (B )含杂质的高低与设备改造无关 (C )设备是否改造决定含杂质的高低 (D )以上答案都不对二、填空题(每小题6分,共18分)7.(易错题)许多因素都会影响贫穷,教育也是其中之一,在研究这两个因素的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)的数据,建立的回归直线方程为y $=0.8x +4.6,斜率的估计等于0.8说明______,成年人受过9年或更少教育的百分比(x)和收入低于官方规定的贫困线的人数占本州人数的百分比(y)之间的相关系数______(填“大于0”或“小于0”).8.(2012·三明模拟)下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程y $=0.7x+0.35,则表中t 的值为______. 9.(2012·漳州模拟)给出下列四个命题:①x R cosx sin(x )sin(x 36ππ∀∈,=+++)一定不成立;②今年初某医疗研究所为了检验“达菲(药物)”对甲型H1N1流感病毒是否有抑制作用,把墨西哥的患者数据库中的500名使用达菲的人与另外500名未用达菲的人一段时间内患甲型H1N1流感的疗效记录作比较,提出假设H 0:“达菲不能起到抑制甲型H1N1流感病毒的作用”,利用2×2列联表计算得K 2≈3.918,经查对临界值表知P(K 2≥3.841)≈0.05,说明达菲抑制甲型H1N1流感病毒的有效率为95%;③|a ·b |=|a ||b |是|λa +μb |=|λ||a |+|μ||b |成立的充要条件;④如右图的茎叶图是某班在一次测验时的成绩:可断定:女生成绩比较集中,整体水平稍高于男生.其中真命题的序号是______.(填上所有真命题的序号) 三、解答题(每小题15分,共30分) 10.已知x 、y 之间的一组数据如下表:对于表中数据,甲、乙两同学给出的拟合直线分别为y x 13=+与y x 22=+,试利用最小二乘法判断哪条直线拟合程度更好?11.(2012·福州模拟)某种产品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:5 (1)求回归直线方程;(2)试预测广告费支出为10万元时,销售额为多少?(3)在已有的五组数据中任意抽取两组,求至少有一组数据其预测值与实际值之差的绝对值不超过5的概率.(参考数据:00055522ii i i i 1i 1i 1x145,y 13 5,x y 1 38======∑∑∑)【探究创新】(16分)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2月至5月份的数据,求出y 关于x 的线性回归方程y bx a $$$=+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?(参考公式:ni i i 1n2i i 1x x y y b ,a y bx )x x ==--=--∑∑$$$()()=()答案解析1.【解析】选C.∵b $=0时,相关系数r =0,这时不具有线性相关关系,但b $能大于0,也能小于0. 2.【解析】选C.回归直线必过点(4,5),故其方程为y $-5=1.23(x -4),即y $=1.23x +0.08. 3.【解析】选C.因为K 2≈7.8≥6.635,所以相关的概率大于1-0.010=0.99,所以选C.4.【解析】选D.由定义可知相关系数|r|≤1,故D 错误.5.【解题指南】本题可先利用公式求出回归直线方程,再预报广告费用为6万元时销售额. 【解析】选B.由表可计算42357x ,42+++==49263954y 42,4+++==因为点7422(,)在回归直线y bx a =+$$$上,且b $为9.4,所以7429.4a 2=⨯+$,解得a 9.1=$,故回归方程为y $=9.4x+9.1,令x=6得y 65.5.=$6.【解题指南】通过K 2进行判断.【解析】K 2的观测值2382(3720212122)k 13.1115822459323⨯⨯⨯=≈⨯⨯⨯-,由于13.11>10.828,故在犯错误的概率不超过0.01的前提下认为含杂质的高低与设备是否改造是有关的.7.【解析】根据回归方程y $=0.8x+4.6是反映美国50个州的成年人受过9年或更少教育的百分比(x )和收入低于官方规定的贫困线的人数占本州人数的百分比(y)这两个变量的,而0.8是回归直线的斜率,又0.8>0,即b $>0,又根据b $与r 同号的关系知r>0. 答案:受过9年或更少教育的人数每增加1个百分比,那么收入低于官方规定的贫困线的人数占本州的人数增加0.8个百分比 大于08.【解析】3456x 4.5,4+++==Q2.5t 4 4.5t 11y ,44++++==又点x,y)(在y $=0.7x+0.35上,∴t 114+=0.7×4.5+0.35,解得t=3.答案:39.【解析】对于①,等式展开后可化简为asinx +bcosx =0的形式,可知一定有解;对于②,正确解释是:有95%的把握认为“达菲对甲型H1N1流感病毒有抑制作用”;对于③,由向量模的性质知不正确. 答案:④10.【解题指南】利用最小二乘法评价模型的拟合效果,关键是差的平方和的大小,越小越好.【解析】用1y x 13=+作为拟合直线时,所得y 值与y 的实际值的差的平方和为222221410117s 1(22)(33)453333-=(-)+-+-+()+(-)=;用11y x 22=+作为拟合直线时,所得y 值与y 的实际值的差的平方和为222222791s (11)(22)3(44)5.222=-+-+(-)+-+(-)=∵s 2<s 1,故用直线11y x 22=+拟合程度更好.【变式备选】某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 【解析】(1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算.因此,55522i i i i i 1i 1i 125250x 5y 50x 145y 13 500x y 1 380.55===∑∑∑==,==,=,=,= 于是可得5i ii 15222i i 1x y5x y1 3805550b 6.514555x 5x==-⨯⨯⨯-∑∑$-===;-y x 50 6.5517.5⨯$$a =-b =-=,因此,所求回归直线方程是y $=6.5x +17.5.(3)据上面求得的回归直线方程,当广告费支出为10百万元时,y $=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元. 11.【解析】(1)2456825x 555++++===0000000,3465725y 555++++===又已知0552ii i i 1i 1x145,x y 1 38====∑∑于是可得:00b .,a b 0..,5i ii 15222i i 1x y5 x y1 3855565y x 565517514555x 5x==--⨯⨯====-=-⨯=-⨯-∑∑$$$ 因此,所求回归直线方程为:y $=6.5x+17.5 (2)根据上面求得的回归直线方程,当广告费支出为10万元时,y $=6.5×10+17.5=82.5(万元),即这种产品的销售额大约为82.5万元. (3)基本事件:(30,40),(30,60),(30,50),(30,70),(40,60),(40,50),(40,70),(60,50),(60,70),(50,70)共10个,两组数据其预测值与实际值之差的绝对值都超过5的为(60,50), 所以至少有一组数据其预测值与实际值之差的绝对值不超过5的概率为.00191=11- 【探究创新】【解析】(1)设抽到相邻两个月的数据为事件A ,因为从6组数据中选取2组数据共有26C =15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以()51P A .153== (2)由表中数据求得x 11y 24=,=,由参考公式可得18b 7$=,再由a y bx $$=-求得30a 7$=-, 所以y 关于x 的线性回归方程为1830y x .77$=- (3)当x =10时,1501504y |22|2777<$=,-=;同样,当x =6时,78786y |12| 2.777<$=,-= 所以,该小组所得线性回归方程是理想的.【方法技巧】建立回归模型的基本方法:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a);=+$$$ (4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11.4变量间的相关关系与统计案例
考点一 变量间的相关关系
1.(2013湖北,4,5分)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,
分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确...的结论的序号是( )
A.①② B.②③
C.③④ D.①④
答案 D
2.(2013福建,11,5分)已知x与y之间的几组数据如下表:
x 1 2 3 4 5 6
y 0 2 1 3 3 4
假设根据上表数据所得线性回归直线方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直
线方程为y=b'x+a',则以下结论正确的是( )
A.>b',>a' B.>b',C.a' D.答案 C
3.(2013重庆,17,13分)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄
yi(单位:千元)的数据资料,算得xi=80,yi=20,xiyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程y=bx+a中,
其中,为样本平均值.线性回归方程也可写为=x+.
解析 (1)由题意知n=10,=xi==8,=yi==2,
又lxx=-n=720-10×82=80,
lxy=xiyi-n =184-10×8×2=24,
由此得b===0.3,a=-b=2-0.3×8=-0.4,
故所求回归方程为y=0.3x-0.4.
(2)由于变量y的值随x的值增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为
y=0.3×7-0.4=1.7(千元).
考点二 独立性检验
4.(2013福建,19,12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工
人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的
日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工
人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示
的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的
概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否
有90%的把握认为“生产能手与工人所在的年龄组有关”?
附:χ2=
P(χ2≥k) 0.100 0.050 0.010 0.001
k 2.706 3.841 6.635 10.828
解析 (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25
周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是
(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是
(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有
60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:
生产能手 非生产能手 合计
25周岁以上组 15 45 60
25周岁以下组 15 25 40
合计 30 70 100
所以得K2=
==≈1.79.
因为1.79<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.