第讲变量的相关性与统计案例

合集下载

完整版变量间的相关关系统计案例

完整版变量间的相关关系统计案例

完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。

本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。

方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。

本文使用了国在过去10年内的汽车生产数量和GDP的数据。

汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。

分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。

2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。

3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。

4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。

系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。

结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。

2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。

随着汽车生产数量的增加,GDP也有相应增加的趋势。

3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。

由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。

讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。

研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。

可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。

变量间的相关关系与统计案例

变量间的相关关系与统计案例

第二节 变量间的相关关系与统计案例1.变量间的相关关系:例1.下面现象间的关系属于线性相关关系的是( ) A .圆的周长和它的半径之间的关系B .价格不变条件下,商品销售额与销售量之间的关系C .家庭收入愈多,其消费支出也有增长的趋势D .正方形面积和它的边长之间的关系 演变1.下列关系中是函数关系的是( )A .球的半径长度和体积的关系B .农作物收获和施肥量的关系C .商品销售额和利润的关系D .产品产量与单位成品成本的关系例2.对变量x ,y 有观测数据(i x ,i y )(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据(i u ,i v )(i =1,2,…,10),得散点图2,由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关演变1.在一组样本数据1122(,),(,),,(,)n n x y x y x y ⋅⋅⋅(122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点(,)(1,2,,)i i x y i n =⋅⋅⋅都在直线112y x =+上,则这组样本数据的样本相关系数为( )A. -1B.0C.12D.1 例3.实验测得四组),(y x 的值为)5,4(),4,3(),3,2(),2,1(,则y 与x 之间的回归方程为( )A .1ˆ+=x yB .2ˆ+=x yC .12ˆ+=x yD .1ˆ+=x y 演变1.在回归直线方程中,b 表示( )A .当x 增加一个单位时,y 增加a 的数量B .当y 增加一个单位时,x 增加b 的数量C .当x 增加一个单位时,y 的平均增加量D .当y 增加一个单位时,x 的平均增加量演变2.工人月工资(x 元)与劳动生产率(x 千元)变化的回归直线方程为ˆ5080yx =+,下列判断不正确的是( )A .劳动生产率为1000元时,工资为130元B .劳动生产率提高1000元时,则工资提高80元C .劳动生产率提高1000元时,则工资提高130元D.当月工资为210元时,劳动生产率为2000元2.独立性检验:例1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?例2.为考察数学成绩与物理成绩的关系,在高二年级随机抽取了300名学生,得到如下列联表:请你由表中的数据考察数学成绩与物理成绩之间是否有关系?并说明理由。

高考知识点变量间的相关关系与统计案例

高考知识点变量间的相关关系与统计案例

第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。

第3讲 变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1

变量间的相关关系、统计案例

变量间的相关关系、统计案例

变量间的相关关系、统计案例1. 两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2. 回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1(x i -x )(y i -y )∑n i =1(x i-x )2=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2a ^=y -b ^x.3. 回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4. 独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为 2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.1. 已知x 、y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a ^=________. 答案 2.6 解析 因为回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入y ^=0.95x +a ^,得a ^=2.6.2. (2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元.答案 0.254 解析 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg答案 D 解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是() A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系答案 D 解析只有K2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:() A.99.9% B.97.5% C.95% D.90%答案 A 解析可计算K2≈11.377>10.828.故选A.题型一两个变量间的相关关系例15个学生的数学和物理成绩如下表:思维启迪:将每个学生的数学成绩和物理成绩分别作为点的横坐标和纵坐标,作散点图,然后根据散点图判断两个变量是否存在相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.探究提高判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.对变量x,y有观测数据(x i,y i) (i=1,2,…,10),得散点图(1);对变量u、v有观测数据(u i,v i) (i=1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C 解析由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.题型二线性回归分析例2(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y=b x+a,其中b=-20,a=y-b x;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)思维启迪:根据回归直线过样本点中心来求线性回归方程,然后利用回归方程求最大利润.解(1)由于x=16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250,从而线性回归方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25. 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 探究提高 回归直线过样本点中心(x ,y )是一条重要性质;利用线性回归方程可以估计总体,帮助我们分析两个变量的变化趋势.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________. 答案 0.5 0.53解析 小李这5天的平均投篮命中率 y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故线性回归方程为y ^=0.01x +0.47,将x =6代入得6号打6小时篮球的投篮命中率约为0.53. 题型三 独立性检验例3 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.思维启迪:直接计算K 2的值,然后利用表格下结论.解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>7.879,所以有99.5%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.探究提高 (1)根据样本估计总体是抽样分析的一个重要内容.要使估计的结论更加准确,抽样取得的样本很关键.(2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分层抽样的方法更好,从而看出独立性检验的作用.某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:系?说明理由.解 由K 2=50×(18×19-6×7)224×26×25×25≈11.54.∵K 2>10.828,故可以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系. 典例:(12分)某地10户家庭的年收入和年饮食支出的统计资料如表所示:(2)如果某家庭年收入为9万元,预测其年饮食支出.审题视角 可以画出散点图,根据图中点的分布判断家庭年收入和年饮食支出的线性相关性.规范解答解 (1)由题意,知年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如图所示.[3分]从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.[4分] 因为x =6,y=1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,所以b ^=∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.172,a ^=y -b ^x ≈1.83-0.172×6=0.798.从而得到线性回归方程为y ^=0.172x +0.798.[8分](2)y ^=0.172×9+0.798=2.346(万元).所以家庭年收入为9万元时,可以预测年饮食支出为2.346万元.[12分]温馨提醒 (1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现了数与形的完美结合.借助于形的直观,去统计数据,分析数据,无不体现了数形结合的思想.(2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用. (3)本题易错点为散点图画的不准确,导致判断错误.A 组 专项基础训练 (时间:35分钟,满分:57分)一、选择题(每小题5分,共20分)1. 2011·陕西)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如 图),以下结论中正确的是 ( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同答案 A 解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误.D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误.根据线性回归直线一定经过样本点中心可知A 正确.2. (2011·山东)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 ( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B解析 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^ =b ^ x +a ^ 必过(x ,y ),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).3. (2012·课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为 ( )A .-1B .0C.12D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. A .①B .①③C .③D .②答案 C解析 ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ;③正确. 二、填空题(每小题5分,共15分)5. 某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:出有________线性相关关系. 答案 13 正解析 把2005~2009年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.3,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.6. 在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关). 答案 有关解析 由观测值k =27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关. 7. 在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由此得到回归直线的斜率b 是__________.(结果保留两位小数)答案 0.88 解析 把表中数据代入公式b ^=∑5i =1x i y i -5x y ∑5i =1x 2i -5x2≈0.88.三、解答题(共22分)8. (10分)某企业上半年产品产量与单位成本资料如下:且已知产量x (1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,x =3.5,y=71,∑6i =1x 2i =79,∑6i =1x i y i =1 481,b ^=∑6i =1x i y i -6x y ∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82, a ^=y -b ^x =71+1.82×3.5=77.37,∴线性回归方程为y ^=b ^x +a ^=-1.82x +77.37.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入线性回归方程,得y ^=77.37-1.82×6=66.45(元) ∴当产量为6 000件时,单位成本大约为66.45元. 9. (12分)(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =b x +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求线性回归方程.为此对数据预处理如下:x =0,y =3.2.b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2.由上述计算结果,知所求线性回归方程为y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2,即y ^=6.5(x -2 006)+260.2.① (2)利用直线方程①,可预测2012年的粮食需求量约为 6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).B 组 专项能力提升 (时间:25分钟,满分:43分)一、选择题(每小题5分,共15分) 1. 以下四个命题,其中正确的是( )①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. A .①④B .②④C .①③D .②③答案 D 解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.2. (2011·湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 A 解析 根据独立性检验的定义,由K 2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.3.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x( )A.y ^=x -1B.y ^=x +1C.y ^=88+12xD.y ^=176答案 C解析 因为x =174+176+176+176+1785=176,y =175+175+176+177+1775=176,又y 对x 的线性回归方程表示的直线恒过点(x ,y ),所以将(176,176)代入A 、B 、C 、D 中检验知选C.二、填空题(每小题5分,共15分)4. ①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.上面是关于相关系数r 的几种说法,其中正确的序号是__________. 答案 ①③解析 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确;r <0,表示两个相关变量负相关,x 增大时,y 相应减小,故②错误;|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.5. (2011·广东)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.答案 185 解析 儿子和父亲的身高可列表如下:设线性回归方程y ^=a ^+b x ,由表中的三组数据可求得b =1,故a ^=y -b ^x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.6. 某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________ t 钢是废品. 答案 16.68解析 ∵176.5=105.492+42.569x ,∴x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.∴生产的1 000 t 钢中,约有1 000×1.668%=16.68(t)钢是废品. 三、解答题7. (13分)某产品的广告支出x (单位:万元)与销售收入y (单位:万元)之间有下表所对应的数据:(1)(2)求出y 对x 的线性回归方程;(3)若广告费为9万元,则销售收入约为多少万元? 解 (1)作出的散点图如图所示(2)观察散点图可知各点大致分布在一条直线附近,列出下表易得x =52,y =692,所以b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=418-4×52×69230-4×⎝⎛⎭⎫522=735,a ^=y -b ^x =692-735×52=-2.故y 对x 的线性回归方程为y ^=735x -2.(3)当x =9时,y ^=735×9-2=129.4.故当广告费为9万元时,销售收入约为129.4万元.。

§11.3 变量的相关性与统计案例

§11.3 变量的相关性与统计案例

i=1
近于 1,表示回归效果越好.
解析 (1)由折线图中的数据和附注中的参考数据,得


∑ ∑ t = 4, ( ti - t) 2 = 28, ( yi - y) 2 = 18, 所 以 r =
i=1
i=1
21 = 28 × 18
14 4
≈0.935.因为



的相关系数近似为
0.935,
说明 y 与 t 的线性相关程度相当高,从而可以用线性回归模型拟
1-1 (2019 河南洛阳尖子生第二次联考) 已知 x 与 y 之间
的一组数据:
x0123
y m 3 5.5 7
已求得关于 y 与 x 的线性回归方程为 y^ = 2.1x+0.85,则 m 的
值为
( )
A.1
B.0.85
C.0.7
D.0.5
1-1 答案 D
解析
通过数据计算
优秀
合格
合计
大学组
中学组
合计
K2


a+b)
n( ad-bc) 2 ( c+d) ( a+c)

b+d)
,其中


a+b+c+d.
P(K2 ≥k0 ) k0
0.10 2.706
0.05 3.841
0.005 7.879
得x

0+1+ 4
2+3

3 2
,y

m+3+5.5+ 4

( ) = m+415.5.得到样本中心
3 2
,m+415.5

由线性回归方程
y^

2. 1x +

第三节 变量间的相关关系、统计案例(数学建模八)

第三节 变量间的相关关系、统计案例(数学建模八)
3.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的 是 ( C ) A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 答案 C 由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正 相关,所以z随y的增大而增大,所以z随x的增大而减小,即x与z负相关,故 选C.
A.①② B.②③ C.③④ D.①④
答案 D
^^ ^
^
^
解析 由回归直线方程 y = bx+ a,知当 b>0时,y与x正相关;当 b<0时,y与x负
相关,∴①④一定不正确.故选D.
考点突破 栏目索引
方法技巧 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. (2)相关系数:r>0时,正相关:r<0时,负相关. (3)线性回归方程: b^ >0时,正相关: b^ <0时,负相关.
教材研读 栏目索引
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在⑤ 一条直线附近 ,就称这 两个变量之间具有线性相关关系,这条直线叫做回归直线. (4)最小二乘法 求回归直线,使得样本数据的点到它的⑥ 距离的平方和最小 的方法 叫做最小二乘法.
教材研读 栏目索引
(5)回归方程
考点突破 栏目索引
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回 归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归 模型拟合) (2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分

第九章 第三节 变量间的相关关系、统计案例

第九章  第三节  变量间的相关关系、统计案例

A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 59 讲变量的相关性与统计案例
补充:正态分布
这一讲. 相关关系、散点图; 2.线性回归分析的基本思想、方法; 3.独立性检验、2×2 列联表; 4.正态曲线的特点.
1.变量间的相关关系 自变量取值一定时,因变量的取值带有一定随
机性的,这两个变量之间的关系叫做相关关系。 (1) 相关关系是一种不确定性关系; (2) 对具有相关关系的两个变量进行统计分析
f (x)
1
e
(
x )2 2 2
, x (, )
2
(1)当x = 时,函数值为最大.
y
=0
=1
(2)f ( x) 的值域为
(0,
1]
2
-3 -2 -1 0 1 2 3 x
标准正态曲线
(3) f ( x) 的图象关于 x 对称.
(4)当x∈(-∞, ] 时 f ( x)为增函数. 当x∈( ,+∞)时 f ( x) 为减函数.
正态曲线的性质
y x =μ
σ=0.5
f (x)
1
e
(
x )2 2 2
2
σ=1
σ=2
-3 -2 -1 0
12 3 x
(5)当 x<μ时,曲线上升;当x>μ时,曲线下降.并且当曲线
向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近.
(6)当μ一定时,曲线的形状由σ确定 . σ越大,曲线越“矮胖”,表示总体的分布越分散; σ越小,曲线越“瘦高”,表示总体的分布越集中.
3. 独立性检验 (1) 变量的不同 “值”表示个体所属的不同类型,这
些变量称为分类变量;
(2) 列出的两个分类变量的频数表,称为列联表;
如 2 2的列联表:
y1
y2
合计
x1
a
b
ab
x2
c
d
c d
合计 a c b d a c b d
(3) 在独立性检验中常用二维条形图和三维柱形
图来直观地反映数据情况.
注:利用随机变量 K 2 (a b c d )(ad bc)2 (a b)(c d )(a c)(b d )
来确定在多大程度上可以认为 “两个分类变量有关 系”的方法称为两个分类变量的独立性检验.
4.正态曲线
若总体密度曲线是函数 f (x)
1
e
(
x )2 2 2
, x (, ) 的
特殊区间的概率:
a
P( a ≤ a) f ( x)dx
a
x=μ
-a
+a
当 a 3 时正态总体的取值几乎总取值于区间 ( 3 , 3 ) 之内,其他区间取值几乎不可能.在实
际运用中就只考虑这个区间,称为 3 原则.
2
图象的分布,则其分布叫做正态分布,其密度曲线叫做正态曲线
其中实数 和 ( 0) 为参数,分别表示总体的平均数与标准差.
正态分布完全由参数 和 确定,因此正态分布常记作 N (, 2 ) .如果随机变量 服从正态分布,则记为 N (, 2 )
1
2
x1 平均x数2 3答案 正态曲线特点
正态曲线的函数性质
(2) 求回归直线方程
(3) 用回归直线方程进行预报.
注:通过最小二乘法可得求回归直线方程的方法:
y
n
n


( xi x)( yi
i 1 n
( xi x)2
i 1
y bˆ x
y)
xi
nx y
i
i 1
n
xi2
2
nx
,
i 1
回归直线过样本点的中心( x, y)
判断相关强弱
y 水稻产量
500 450
· ·· ·
400 350
·· ·
300
散点图 施化肥量
10 20 30 40 50
x
可以发现:图中各点,大致分布在某条直线附近.
则说这两个变量是线性相关的.
正相关、负相关? 哪条直线更接近各点呢?
2. 回归分析的基本思想 对两个具有线性相关关系的变量进行回归分析的步聚: (1) 画散点图;
的方法叫回归分析。 现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入等等.
怎样研究相关关系呢?
散点图
例如研究水稻产量 y 与施肥量 x 之间大致有何规律?
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
样本相关系数
n
r
( i 1
xi
x)(
yi
y)
n (
i 1
xi
x)2
n
(
i 1
yi
y)2
r 0正相关; r 0 负相关.
通常,1≥ r 0.75 ,认为两个变量有很强的相
关性.
R2 1
n
( i 1
yi
y)2
,
n i1( xi
x)2
n
(
i 1
yi
y)2
若R2越接近1,则模型拟合效果越好.
相关文档
最新文档