08-16年概率统计整理新文科之线性回归方程
《线性回归方程》课件

线性回归方程的假设
线性关系
自变量和因变量之间存在线性关系,即它们 之间的关系可以用一条直线来描述。
无异方差性
误差项的方差在所有观测值中保持恒定,没 有系统的变化。
无多重共线性
自变量之间不存在多重共线性,即它们之间 没有高度的相关性。
无自相关
误差项在不同观测值之间是独立的,没有相 关性。
02
线性回归方程的建立
详细描述
在销售预测中,线性回归方程可以用来分析历史销售数据,并找出影响销售的关键因素。通过建立线性回归模型 ,可以预测未来的销售趋势,为企业的生产和营销策略提供依据。
案例二:股票价格预测
总结词
线性回归方程在股票价格预测中具有一定的 应用价值,通过分析历史股票价ቤተ መጻሕፍቲ ባይዱ和影响股 票价格的因素,可以预测未来的股票价格走 势。
04
线性回归方程的应用
预测新数据
1 2
预测新数据
线性回归方程可以用来预测新数据,通过将自变 量代入方程,可以计算出对应的因变量的预测值 。
预测趋势
通过分析历史数据,线性回归方程可以预测未来 的趋势,帮助决策者制定相应的策略。
3
预测异常值
线性回归方程还可以用于检测异常值,通过观察 偏离预测值的点,可以发现可能的数据错误或异 常情况。
确定自变量和因变量
确定自变量
自变量是影响因变量的因素,通 常在研究问题中是可控制的变量 。在建立线性回归方程时,首先 需要确定自变量。
确定因变量
因变量是受自变量影响的变量, 通常是我们关心的结果或目标。 在建立线性回归方程时,需要明 确因变量的定义和测量方式。
收集数据
数据来源
确定数据来源,包括调查、实验、公开数据等,确保数据质量和可靠性。
高考数学概率统计知识点总结(文理通用)

概率与统计知识点及专练(一)统计基础知识:1. 随机抽样:(1).简单随机抽样:设一个总体的个数为N ,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法.(2).系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).(3).分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.2. 普通的众数、平均数、中位数及方差: (1).众数:一组数据中,出现次数最多的数(2).平均数:常规平均数:12nx x x x n ++⋅⋅⋅+=(3).中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数(4).方差:2222121[()()()]n s x x x x x x n =-+-+⋅⋅⋅+-(5).标准差:s3 .频率直方分布图中的频率:(1).频率 =小长方形面积:f S y d ==⨯距;频率=频数/总数; 频数=总数*频率(2).频率之和等于1:121n f f f ++⋅⋅⋅+=;即面积之和为1: 121n S S S ++⋅⋅⋅+=4. 频率直方分布图下的众数、平均数、中位数及方差: (1).众数:最高小矩形底边的中点(2).平均数:112233n n x x f x f x f x f =+++⋅⋅⋅+ 112233n n x x S x S x S x S =+++⋅⋅⋅+(3).中位数:从左到右或者从右到左累加,面积等于0.5时x 的值(4).方差:22221122()()()nn s x x f x x f x x f =-+-+⋅⋅⋅+-5.线性回归直线方程:(1).公式:ˆˆˆy bx a=+其中:1122211()()ˆ()n ni i i ii in ni ii ix x y y x y nxybx x x nx====---∑∑==--∑∑(展开)ˆˆa y bx=-(2).线性回归直线方程必过样本中心(,) x y(3).ˆ0:b>正相关;ˆ0:b<负相关(4).线性回归直线方程:ˆˆˆy bx a=+的斜率ˆb中,两个公式中分子、分母对应也相等;中间可以推导得到6. 回归分析:(1).残差:ˆˆi i ie y y=-(残差=真实值—预报值)分析:ˆie越小越好(2).残差平方和:2 1ˆ() ni iiy y =-∑分析:①意义:越小越好;②计算:222211221ˆˆˆˆ()()()() ni i n niy y y y y y y y =-=-+-+⋅⋅⋅+-∑(3).拟合度(相关指数):2 2121ˆ()1()ni iiniiy y Ry y==-∑=--∑分析:①.(]20,1R∈的常数;②.越大拟合度越高(4).相关系数:()()n ni i i ix x y y x y nx y r---⋅∑∑==分析:①.[1,1]r∈-的常数;②.0:r>正相关;0:r<负相关③.[0,0.25]r∈;相关性很弱;(0.25,0.75)r∈;相关性一般;[0.75,1]r∈;相关性很强7. 独立性检验:(1).2×2列联表(卡方图): (2).独立性检验公式①.22()()()()()n ad bc k a b c d a c b d -=++++②.上界P 对照表:(3).独立性检验步骤:①.计算观察值k :2()()()()()n ad bc k a b c d a c b d -=++++ ②.查找临界值0k :由犯错误概率P ,根据上表查找临界值0k③.下结论:0k k ≥即认为有P 的没把握、有1-P 以上的有把握认为两个量相关;0k k <:即认为没有1-P 以上的把握认为两个量是相关关系。
2016高三数学(文,理科)复习主干知识和测试:概率-统计-线性回归方程

统计与概率一、统计统计:从字义上不难看出,统计就是分析与整理数据,以达到我们需要的结果,看下面例题便能理解:例1.某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分为6组:[40,50), [50,60), [60,70), [70,80), [80,90), [90,100)加以统计,得到如图所示的频率分布直方图,已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( ) A .588 B .480 C .450 D .120例2:某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A 给出的分数如茎叶图所示。
记分员在去掉一个最高分和一个最低分后,算的平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x )无法看清。
若记分员计算失误,则数字x 应该是___________二、随机事件的概率及概率的意义1、基本概念:(1)必然事件:在条件S 下,一定会发生的事件,叫相对于条件S 的必然事件;(2)不可能事件:在条件S 下,一定不会发生的事件,叫相对于条件S 的不可能事件; (3)确定事件:必然事件和不可能事件统称为相对于条件S 的确定事件;(4)随机事件:在条件S 下可能发生也可能不发生的事件,叫相对于条件S 的随机事件; (5)频数与频率:在相同的条件S 下重复n 次试验,观察某一事件A 是否出现,称n 次试验中事件A 出现的次数nA 为事件A 出现的频数;称事件A 出现的比例fn(A)=n n A为事件A 出现的概率:对于给定的随机事件A ,如果随着试验次数的增加,事件A 发生的频率fn(A)稳定在某个常数上,把这个常数记作P (A ),称为事件A 的概率。
(6)频率与概率的区别与联系:随机事件的频率,指此事件发生的次数nA 与试验总次数n的比值n n A,它具有一定的稳定性,总在某个常数附近摆动,且随着试验次数的不断增多,这种摆动幅度越来越小。
08-16年概率统计整理新文科之线性回归方程

线性回归方程【2015 高考湖北,文4】已知变量x 和 y 满足关系y 0.1 x 1 ,变量y 与 z 正相关. 下列结论中正确的是()A . x与 y 负相关,x 与 z负相关B. x与 y 正相关,x 与z 正相关C . x与 y 正相关,x 与 z负相关D. x与 y 负相关,x 与z 正相关【答案】 A .[2014 ·湖北卷]根据如下样本数据x 3 4 5 6 7 8y4 2.0 .5-0.5.50-2.0-3.0得到的回归方程为^y=bx+a,则( )A.a>0,b<0 B.a>0,b>0C.a<0,b<0 D.a<0,b>06.A【2015 高考福建,理4】为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:收入x (万8.28.6 10.0 11.3 11.9 元)支出 y (万6.27.58.0 8.59.8元)根据上表可得回归直线方程y?b?x a?,其中 b?0.76, a?y b?x,据此估计,该社区一户收入为15 万元家庭年支出为 ( )A.11.4 万元 B .11.8 万元 C .12.0 万元 D .12.2 万元【答案】 B【2015 高考新课标2,理 3】根据下面给出的2004 年至 2013 年我国二氧化硫排放量(单位:万吨)柱形图。
以下结论不正确的是( )2700260025002400230022002100200019002004 年2005 年2006 年2007 年2008 年2009 年2010 年2011 年2012 年2013 年1A.逐年比较,2008 年减少二氧化硫排放量的效果最显著B.2007 年我国治理二氧化硫排放显现C.2006 年以来我国二氧化硫年排放量呈减少趋势D.2006 年以来我国二氧化硫年排放量与年份正相关【答案】 D[2014 ·重庆卷3]已知变量x 与 y 正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )A .y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3 x+4.4答案 A[2014 ·湖北卷4]根据如下样本数据:x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为^y=bx+a,则( )A .a>0,b>0 B.a>0,b<0C.a<0,b>0 D.a<0,b<0答案 B( 长春市 2012 年3 月高中毕业班第二次调研) 4. 已知 x、y 取值如下表:x 0 1 4 5 6 8y 1.3 1.8 5.6 6.1 7.4 9.3从所得的散点图分析可知:y 与x线性相关,且y?0.95x a ,则aA. 1.30B. 1.45C. 1.65D. 1.80答案B(海南省国兴中学、海师附中、嘉积中学、三亚一中2010-2011 学年下学期高三 4 月联考数学理)3.在 2011 年 3 月 15 日那天,海口市物价部门对本市的 5 家商场的某商品的一天销售量及其价格进行调查, 5 家商场的售价x 元和销售量y 件之间的一组数据如下表所示:价格 x 9 9.5 10 10.5 11销售量11 10 8 6 5y由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归直线方程是:y? 3.2 x a,则 a= ()A.24 B.35.6 C.40.5 D.40答案D(2011 年长春市高中毕业班第三次调研测试)0.6下面关于回归直线方程y? 2 1.5x 的说法中,不恰当的是A.变量x与y 负相关B.必过样本中心点(x, y)C.当 x增加 1 个单位时,y平均减小1.5 个单位D.回归直线就是散点图中经过样本数据点最多的那条直线答案D(2012 年长春市高中毕业班第三次调研)2.1对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是2r r2相关系数为相关系数为1相关系数为相关系数为r r43A. r2 r4 0 r3 r1B. r4 r2 0 r1 r3C. r4 r2 0 r3 r1D. r2 r4 0 r1 r3答案 A2011 山东文 8.某产品的广告费用x 与销售额y 的统计数据如下表广告费用x(万元)4 2 3 5销售额 y(万元)49 26 39 54根据上表可得回归方程? ?中的为9.4,据此模型预报广告费用为 6 万元时销售额为y b?x a b?A.63.6 万元B.65.5 万元C.67.7 万元D.72.0 万元B答案2011 辽宁文(14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对 x 的回归直线方程:y?0.254x 0.321.由回归直线方程可知,家庭年收入每增加 1 万元,年饮食支出平均增加____________万元.答案0.2542011 江西文 8.为了解儿子身高与其父亲身高的关系,随机抽取 5 对父子身高数据如下父亲身高x 174 176 176 176 178(cm)儿子身高y 175 175 176 177 177(cm)则y 对x 的线性回归方程为A.y x 1 B.y x 11C.y 88 x D.y 1762答案 C2011 陕西文 9.设(x,y),( x , y ), ···,(x n , y n ) 是变量x 和y 的n 次方个样本点,直线l 是由这些样本1 12 2点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是A.直线l 过点( x, y)3B.x 和y 的相关系数为直线l 的斜率C.x 和y 的相关系数在0 到1 之间D.当n 为偶数时,分布在l 两侧的样本点的个数一定相同答案A(2013湖北)四名同学根据各自的样本数据研究变量x, y 之间的相关关系 , 并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且 y 2.347 x 6.423 ; ② y 与x 负相关且 y 3.476 x 5.648 ;③y 与x 正相关且 y 5.437 x 8.493; ④ y 与x 正相关且 y 4.326 x 4.578.其中一定不.正.确.的结论的序号是A.①②B.②③C.③④D. ①④【答案】D(2013福建).已知 x与y 之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4假设根据上表数据所得线性回归直线方程为y?b?x a?. 若某同学根据上表中前两组数据(1,0 )和( 2,2)求得的直线方程为y b x a , 则以下结论正确的是( )A. b? b ,a? aB. b? b ,a? aC. b? b , a? aD. b? b ,a? a【答案】C【2012 高考湖南文5】设某大学的女生体重y(单位:k g)与身高 x(单位:c m)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,⋯,n),用最小二乘法建立的回归方程为y =0.85x-85.71,则下列结论中不.正.确.的是A.y与x 具有正的线性相关关系B.回归直线过样本点的中心(x,y )C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg【答案】D【2012 高考新课标文3】在一组样本数据( x1,y1),(x2,y2),⋯,(x n,y n)(n≥ 2,x1,x2, ⋯ ,x n 不全1相等)的散点图中,若所有样本点(x i,y i)(i=1,2, ⋯ , n) 都在直线y=2x+1 上,则这组样本数据的样本相关系数为1(A)-1 (B)0 (C)(D)12【答案】D4【2015 高考重庆,文 17】随着我国经济的发展,居民的储蓄存款逐年增长 . 设某地区城乡居民人民币储蓄存款(年底余额)如下表: 年份20102011201220132014时间代号t12345储蓄存款 y (千亿元) 56 7810( Ⅰ) 求 y 关于 t 的回归方程 ^^ ^y b at ( Ⅱ) 用所求回归方程预测该地区 2015 年( t 6)的人民币储蓄存款 .附:回归方程 ^^ ^ yb a 中tnn(x x)( y y)x y nx y i i i ibi 1 i 1 n n 22 (x x) x nx i i i 1i 12 , ay bx. 答案: (I ) y?= 1.2t + 3.6 ., (II )10.8 ,5(2013重庆)从某居民区随机抽取10 个家庭 , 获得第i个家庭的月收入x( 单位: 千元) 与月储蓄yi ( 单i位: 千元 ) 的数据资料,算得10 10 1010x , y , x y ,80 20 184i i i i2x .720ii 1 i 1 i 1 i 1( Ⅰ) 求家庭的月储蓄y对月收入x的线性回归方程y bx a ; ( Ⅱ) 判断变量x与y 之间是正相关还是负相关;( Ⅲ) 若该居民区某家庭月收入为7 千元 , 预测该家庭的月储蓄.nx y nx yi i附: 线性回归方程y bx a 中, 1ibn2x nxi2,a y bx ,i 1其中 x,y 为样本平均值,线性回归方程也可写为y bx a .答案 : (I )y?= 1.2t + 3.6 ., (II )10.8 ,(2011 安徽文 )(20)(本小题满分10 分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份2002 2004 2006 2008 2010 需求量(万吨)236 246 257 276 286(Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程y bx a;(Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地2012 年的粮食需求量。
线性回归计算方法及公式

例:测量16名四岁男孩心脏纵径X1(CM)、心脏横径 X2(CM)和心象面积Y(CM2)三项指标,得如下数 据。试作象面积Y对心脏纵径X1、心脏横径X2多元线 性回归分析。
例:某科研协作组调查山西某煤矿2期高血压病患者40例, 资料如下表,试进行影响煤矿工人2期高血压病病人收 缩压的多元线性回归分析。
回归方程和偏回归系数的假设检验
回归方程的假设检验: 建立回归方程后,须分析应变量Y与这p个自 变量之间是否确有线性回归关系,可用F分析。 H0: B1=B2=….=Bp=0 H1: H0不正确 =0.05 F = MS回归 / MS误差
MS回归 =SS回归/p SS回归 = bjLjy ( j =1,2….,P) MS误差 =SS误差/(n-p-1) SS误差为残差平方和
• Cp值最小
Cp=(n-p-1)(MS误差.p/MS误差.全部-1)+(p+1)
选择变量的方法
• 最优子集回归分析法:
p个变量有2p-1个方程 • 逐步回归分析
向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入-剔除法(stepwise selection)
多元线性回归
• 多元线性回归是简单线性回归的直接推广,其包含一 个因变量和二个或二个以上的自变量。
• 简单线性回归是研究一个因变量(Y)和一个自变量 (X)之间数量上相互依存的线性关系。而多元线性回 归是研究一个因变量(Y)和多个自变量(Xi)之间数 量上相互依存的线性关系。
• 简单线性回归的大部分内容可用于多元回归,因其基 本概念是一样的。
115
35---44 1
4
5
9 5.05
0
高考回归分析知识点

高考回归分析知识点回归分析是统计学中一种重要的分析方法,用于研究变量之间的关系和预测。
在高考数学中,回归分析也是一个重要的知识点。
本文将介绍高考中常见的回归分析知识点,并结合具体例子进行解析。
一、简单线性回归1. 定义:简单线性回归是指在研究两个变量之间关系时,其中一个变量为自变量,另一个变量为因变量,且二者之间存在线性关系的情况。
2. 公式:简单线性回归模型的数学表示为:Y = α + βX + ε,其中Y为因变量,X为自变量,α和β为常数,ε为误差项。
3. 参数估计:通过最小二乘法可以估计出回归系数α和β的值,从而建立回归方程。
示例:假设我们想研究学生的学习时间与考试分数之间的关系。
我们收集了一组数据,学习时间(自变量X)和考试分数(因变量Y)的数值如下:学习时间(小时):[5, 10, 15, 20, 25, 30]考试分数(分数):[60, 70, 75, 80, 85, 90]通过简单线性回归分析,我们可以建立回归方程为:Y = 55 + 0.75X,说明学习时间对考试分数有正向影响。
二、多元线性回归1. 定义:多元线性回归是指在研究多个自变量与一个因变量之间关系时的回归分析方法。
它可以用来探究多个因素对因变量的影响程度,并进行预测和解释。
2. 公式:多元线性回归模型的数学表示为:Y = α + β₁X₁ + β₂X₂+ ... + βₚXₚ + ε,其中Y为因变量,X₁、X₂、...、Xₚ为自变量,α和β₁、β₂、...、βₚ为常数,ε为误差项。
3. 参数估计:同样通过最小二乘法可以估计出回归系数α和β₁、β₂、...、βₚ的值,从而建立回归方程。
示例:我们想研究学生的考试分数与学习时间、家庭收入、家庭教育水平等因素之间的关系。
我们收集了一组数据,学习时间(自变量X₁)、家庭收入(自变量X₂)、家庭教育水平(自变量X₃)和考试分数(因变量Y)的数值如下:学习时间(小时):[5, 10, 15, 20, 25, 30]家庭收入(万元):[8, 10, 12, 15, 18, 20]家庭教育水平(年):[10, 12, 14, 16, 18, 20]考试分数(分数):[60, 70, 75, 80, 85, 90]通过多元线性回归分析,我们可以建立回归方程为:Y = 50 +0.7X₁ + 1.2X₂ + 1.5X₃,说明学习时间、家庭收入和家庭教育水平都对考试分数有正向影响。
概率统计(文科)

文科数学《统计与概率》核心知识点与参考练习题一、统计(核心思想:用样本估计总体)1.抽样(每个个体被抽到的概率相等)(1)简单随机抽样:抽签法与随机数表法(2)系统抽样(等距抽样)(3)分层抽样2.用样本估计总体:(1)样本数字特征估计总体:众数、中位数、平均数、方差与标准差(2)样本频率分布估计总体:频率分布直方图与茎叶图3.变量间的相关关系:散点图、正相关、负相关、回归直线方程(最小二乘法)4.独立性检验二、概率(随机事件发生的可能性大小)1.基本概念(1)随机事件A的概率P(A)e(0,1)(2)用随机模拟法求概率(用频率来估计概率)(3)互斥事件(对立事件)2.概率模型(1)古典概型(有限等可能)(2)几何概型(无限等可能)三、参考练习题1•某校高一年级有900名学生,其中女生400名•按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为.2•某学校高一、高二、高三年级的学生人数之比是3:3:4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则该从高二年级抽取名学生.3.某校老年、中年和青年教师的人数见右表,米用分层抽样的方法调查教类另U人数师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年老年教师900教师人数为中年教师1800 4.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是青年教师1600 5•若1,2,3,4,m这五个数的平均数为3,则这五个数的标准差为•合计4300 6•重庆市2013年各月的平均气温(°C)数据的茎叶图如右图:o吕9则这组数据的中位数是•1252003127•某高校调查了200名学生每周的晚自习时间(单位:小时),制成了如图所示的频率分布直方图,其中晚自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A.56B.60C.120D.1408.(2016四川文)我国是世界上严重缺水的国豕,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图的频率分布直方图.(II)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(III)估计居民月均用水量的中位数.0Q.511622.533.544.6月满意度评分低于70分 70分到89分不低于90分 满意度等级不满意满意非常满意A 地区用户满意度评分的频率分布直方司为了解用户对其产品的满意度,从A,B 两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A 地区用户满意度评分的频率分布直方图和B 地区用户满意度评分的频数分布表.(II) 根据用户满意度评分,将用户的满意度分为三个等级:试估计哪个地区用户的满意度等级为不满意的概率大?说明理由.10.(2014安徽文)某高校共有学生15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(I) 应收集多少位女生的样本数据?(II) 根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(&10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;满意度评分分组 [50,60) [60,70) [70,80) [80,90) [90,100] 频数 2 8 14 10 6B 地区用户满意度评分的频数分布表 (I)作出B 地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分 的平均值及分散程度(不要求计算出具 体值,给出结论即可);B 地区用户满意度评分的频率分布直方图(III)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体 育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间 与性别有关”.n (ad 一bc\附:尺2步畝+d 儿+枫+d )P (2>k)0.10 0.05 0.01 0.005 k2.7063.8416.6357.8799.(2015全国II 文)某公03511.(2014全国I文)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(I)在下表中作出这些数据的频率分布直方图: 12.(2014广东文)某车间20名工人年龄数据如下表: 年皤7舁工人執7人1912日329330531斗323401昔讦20(I)求这20名工人年龄的众数与极差;(II)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(III)求这20名工人年龄的方差.13.(2016江苏)将一颗质地均匀的骰子(一种各个面上分别标有1,2,3,4,5,6个点的正方体玩具)先后抛掷2次,则出现向上的点数之和小于10的概率是.14.___________________________________________________ 从甲、乙等5名学生中随机选出2人,则甲被选中的概率为(II)估计这种产品质量指标值的平均数和方差(同一组中的数据用该组区间的中点值作代表);15.(2016全国乙卷文)为美化环境,从红、黄、白、紫4种颜色的花中任选2种花种在一个花坛中,余下的2种花种在另一个花坛中,则红色和紫色的花不在同一花坛的概率是.(III)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95 16.(2016全国丙卷文)小敏打开计算机时,忘记了开机密码的前两位,只记得第一位是M、I、N中的一个字母,第二位是1,2,3,4,5中的一个数字,则小敏输入一次密码能够成功开机的概率是.的产品至少要占全部产品80%”的规定?17. (2016天津文)甲、乙两人下棋,两人下成和棋的概率为1,甲获胜的概率是-,则甲不23输的概率为.18. 已知5件产品中有2件次品,其余为合格品•现从这5件产品中任选2件,恰有一件次品 的概率为.24. 如图,在边长为1的正方形中随机撒1000粒豆子,有180粒落到阴影部分,据此估计阴19.某单位N 名员工参加“社区低碳你我他”活动•他们的年龄在25岁至50岁之间.按年龄分组并得到的频率分布直方图如图所示.下表是年龄的频数分布表.区间 [25,30) [30,35) [35,40) [40,45) [45,50] 人数25 ab5丰25. 为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下: 父亲身高x (cm )174 176 176 176 178 儿子身高y (cm )17517517617717722. ____________________________________________ 在区间[-2,3]上随机选取一个数x ,则x <1的概率为23. ___________________________________ 若将一个质点随机投入如图所示的长方形ABCD 中,其中AB=2,BC=1,则质点落在以AB 为直径的半圆内的概率是.(I )求y 关于t 的回归方程y =bt+a ;(II )利用(I )中的回归方程,分析2011年至2015年该地区城乡居民储蓄存款的变化情4550年龄/驴(I )求正整数a ,b ,N 的值;(II )现要从年龄较小的第1,2,3组中用分层抽样的方法抽取6人,则年龄在第1,2,3组的人数分别是多少?(III )在(2)的条件下,从这6人中随机抽取2人参加社区宣传交流活动,求恰有1人在第3组的概率. 20.(2016全国丨文)某公司的班车在7:30,8:00,8:30发车,小明在7:50至8:30之间到达发车站乘坐班车,且到达发车站的时刻是随机的,则他等车时间不超过10分钟的概率是( A.1B.1C.-D.- 21.(2016全国II 文)某路口人行横道的信号灯为红灯和绿灯交替出现,红灯持续时间为40秒•若一名行人来到该路口遇到红灯,则至少需要等待15秒才出现绿灯的概率为()10 B.5D.—10 则y 对X 的线性回归方程为()A .y =x 一1B .y =x +1C .y =88+-x广告费用x (万元)4 2 35 销售额y (万元)4926395426.某产品的广告费用x 与销售额y 的统计数据如下:D .y =176根据上表可得回归方程y =bx+a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 A .63.6万元B .65.5万元C .67.7万元D .72.0万元27.随着我国经济的发展,居民的储蓄存款逐年增长•设某地区城乡居民人民币储蓄存款(年 底余额)如下表:年份 2011 2012 2013 2014 2015 时间代号t1 2 3 4 5 储蓄存款y (千亿兀)567810年(1=6)的人民币储蓄存款.V--‘’ty-nty _‘附:回归方程$=几+<2中,,a=y-bt.乙/2-nt 2i=l28.甲、乙两所学校高三年级分别有1200人、1000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样的方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:乙校:(1)计算兀y 的值;况,并 预测 该地 区 2016P^Ki>k)0.10 0.05 0.010 k2.7063.8416.635参考数据与(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率; (3)由以上统计数据填写下面2X2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.公式:由列联表中数(a+b)(?+d)C+c)a+d),临界值表:29.—次考试中,5名学生的数学、物理成绩如下表所示:学生 A B C D E 数学成绩兀(分) 89 91 93 95 97 物理成绩y (分)8789899293(1)要从5名学生中选2人参加一项活动,求选中的学生中至少有一人的物理成绩高于90 分的概率;(2 )性回归100名市民,按年龄情况进行统计得到下面的频率分布表和频率分布直方图.0.08°1—r---—r方程(系数精确到0.01).''''(1)求频率分布表中a、b的值,并补全频率分布直方图,再根据频率分布直方图估计有意购车的这500名市民的平均年龄;31.(2016新课标II)某险种的基本保费为a(单位:元),继续购买该险种的投保人称为续保人,续保人的本年度的保费与其上年度的出险次数的关联如下:附:回归直线的方程是:y=bx+a上年度出险次数0 1 2 3 4 >5保费0.85a a 1.25a 1.5a 1.75a2a其中b=㈠(j——,a=y-b x;设该险种一续保人一年内出险次数与相应概率如下:ii=130•为调查市民对汽车品牌的认可度,在秋季车展上,从有意购车的500名市民中,随机抽取一年内出险次数0 1 2 3 4 >5 概率0.30 0.15 0.20 0.20 0.10 0.05(I)求一续保人本年度的保费高于基本保费的概率;32.袋中有形状、大小都相同的4只球,其中1只白球,1只红球,2只黄球,从中一次随机摸出2只球,则这2只球颜色不同的概率为.33.现有6道题,其中4道甲类题,2道乙类题,某同学从中任取2道题解答•试求:(1)所取的2道题都是甲类题的概率;(2)所取的2道题不是同一类题的概率.34.某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:A地62 73 81 92 95 85 74 64 53 7678 86 95 66 97 78 88 82 76 89B地区:73 83 62 51 91 46 53 73 64 82 93 48 65 81 74 56 54 76 65 79(I)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);A地区B帥反4567S9。
线性回归方程

水稻产量:320 330 360 410 460 470 480
(1)将上述数据制成散点图; (2)你能从散点图中发现施化肥量与水稻产量近似成什么关系 吗?水稻产量会一直随施化肥量的增加而增长吗? 分析 判断变量间是否是线性相关,一种常用的简便可行的方
法就是作散点图.
解 (1)散点图如下:
(2)从图中可以发现,当施化肥量由小到大变化时,水稻产量 由小变大,图中的数据点大致分布在一条直线的附近,因此施 化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一 定范围内随着化肥施用量的增加而增长.
nxy ,a y bx
xi nx2
来计算回归系数,有时常制表对应出xiyi,xi2,以便于求和.
举一反三
3. 某中学期中考试后,对成绩进行分析,从某班中选出5名学
生的总成绩和外语成绩如下表:
学生 学科 1 2 3 4 5
总成 绩(x) 482 外语 成绩 (y)
383
421
364
含量x之间的相关关系,现取8对观测值,计算
得
x
i 1
8
i
52 ,
y
i 1
8
i
228
,
x
i 1
8
2
i
478 ,
x y
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性回归方程【2015 高考湖北,文4】已知变量x 和 y 满足关系y 0.1 x 1 ,变量y 与 z 正相关. 下列结论中正确的是()A . x与 y 负相关,x 与 z负相关B. x与 y 正相关,x 与z 正相关C . x与 y 正相关,x 与 z负相关D. x与 y 负相关,x 与z 正相关【答案】 A .[2014 ·湖北卷]根据如下样本数据x 3 4 5 6 7 8y4 2.0 .5-0.5.50-2.0-3.0得到的回归方程为^y=bx+a,则( )A.a>0,b<0 B.a>0,b>0C.a<0,b<0 D.a<0,b>06.A【2015 高考福建,理4】为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:收入x (万8.28.6 10.0 11.3 11.9 元)支出 y (万6.27.58.0 8.59.8元)根据上表可得回归直线方程y?b?x a?,其中 b?0.76, a?y b?x,据此估计,该社区一户收入为15 万元家庭年支出为 ( )A.11.4 万元 B .11.8 万元 C .12.0 万元 D .12.2 万元【答案】 B【2015 高考新课标2,理 3】根据下面给出的2004 年至 2013 年我国二氧化硫排放量(单位:万吨)柱形图。
以下结论不正确的是( )2700260025002400230022002100200019002004 年2005 年2006 年2007 年2008 年2009 年2010 年2011 年2012 年2013 年1A.逐年比较,2008 年减少二氧化硫排放量的效果最显著B.2007 年我国治理二氧化硫排放显现C.2006 年以来我国二氧化硫年排放量呈减少趋势D.2006 年以来我国二氧化硫年排放量与年份正相关【答案】 D[2014 ·重庆卷3]已知变量x 与 y 正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )A .y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3 x+4.4答案 A[2014 ·湖北卷4]根据如下样本数据:x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为^y=bx+a,则( )A .a>0,b>0 B.a>0,b<0C.a<0,b>0 D.a<0,b<0答案 B( 长春市 2012 年3 月高中毕业班第二次调研) 4. 已知 x、y 取值如下表:x 0 1 4 5 6 8y 1.3 1.8 5.6 6.1 7.4 9.3从所得的散点图分析可知:y 与x线性相关,且y?0.95x a ,则aA. 1.30B. 1.45C. 1.65D. 1.80答案B(海南省国兴中学、海师附中、嘉积中学、三亚一中2010-2011 学年下学期高三 4 月联考数学理)3.在 2011 年 3 月 15 日那天,海口市物价部门对本市的 5 家商场的某商品的一天销售量及其价格进行调查, 5 家商场的售价x 元和销售量y 件之间的一组数据如下表所示:价格 x 9 9.5 10 10.5 11销售量11 10 8 6 5y由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归直线方程是:y? 3.2 x a,则 a= ()A.24 B.35.6 C.40.5 D.40答案D(2011 年长春市高中毕业班第三次调研测试)0.6下面关于回归直线方程y? 2 1.5x 的说法中,不恰当的是A.变量x与y 负相关B.必过样本中心点(x, y)C.当 x增加 1 个单位时,y平均减小1.5 个单位D.回归直线就是散点图中经过样本数据点最多的那条直线答案D(2012 年长春市高中毕业班第三次调研)2.1对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是2r r2相关系数为相关系数为1相关系数为相关系数为r r43A. r2 r4 0 r3 r1B. r4 r2 0 r1 r3C. r4 r2 0 r3 r1D. r2 r4 0 r1 r3答案 A2011 山东文 8.某产品的广告费用x 与销售额y 的统计数据如下表广告费用x(万元)4 2 3 5销售额 y(万元)49 26 39 54根据上表可得回归方程? ?中的为9.4,据此模型预报广告费用为 6 万元时销售额为y b?x a b?A.63.6 万元B.65.5 万元C.67.7 万元D.72.0 万元B答案2011 辽宁文(14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对 x 的回归直线方程:y?0.254x 0.321.由回归直线方程可知,家庭年收入每增加 1 万元,年饮食支出平均增加____________万元.答案0.2542011 江西文 8.为了解儿子身高与其父亲身高的关系,随机抽取 5 对父子身高数据如下父亲身高x 174 176 176 176 178(cm)儿子身高y 175 175 176 177 177(cm)则y 对x 的线性回归方程为A.y x 1 B.y x 11C.y 88 x D.y 1762答案 C2011 陕西文 9.设(x,y),( x , y ), ···,(x n , y n ) 是变量x 和y 的n 次方个样本点,直线l 是由这些样本1 12 2点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是A.直线l 过点( x, y)3B.x 和y 的相关系数为直线l 的斜率C.x 和y 的相关系数在0 到1 之间D.当n 为偶数时,分布在l 两侧的样本点的个数一定相同答案A(2013湖北)四名同学根据各自的样本数据研究变量x, y 之间的相关关系 , 并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且 y 2.347 x 6.423 ; ② y 与x 负相关且 y 3.476 x 5.648 ;③y 与x 正相关且 y 5.437 x 8.493; ④ y 与x 正相关且 y 4.326 x 4.578.其中一定不.正.确.的结论的序号是A.①②B.②③C.③④D. ①④【答案】D(2013福建).已知 x与y 之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4假设根据上表数据所得线性回归直线方程为y?b?x a?. 若某同学根据上表中前两组数据(1,0 )和( 2,2)求得的直线方程为y b x a , 则以下结论正确的是( )A. b? b ,a? aB. b? b ,a? aC. b? b , a? aD. b? b ,a? a【答案】C【2012 高考湖南文5】设某大学的女生体重y(单位:k g)与身高 x(单位:c m)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,⋯,n),用最小二乘法建立的回归方程为y =0.85x-85.71,则下列结论中不.正.确.的是A.y与x 具有正的线性相关关系B.回归直线过样本点的中心(x,y )C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg【答案】D【2012 高考新课标文3】在一组样本数据( x1,y1),(x2,y2),⋯,(x n,y n)(n≥ 2,x1,x2, ⋯ ,x n 不全1相等)的散点图中,若所有样本点(x i,y i)(i=1,2, ⋯ , n) 都在直线y=2x+1 上,则这组样本数据的样本相关系数为1(A)-1 (B)0 (C)(D)12【答案】D4【2015 高考重庆,文 17】随着我国经济的发展,居民的储蓄存款逐年增长 . 设某地区城乡居民人民币储蓄存款(年底余额)如下表: 年份20102011201220132014时间代号t12345储蓄存款 y (千亿元) 56 7810( Ⅰ) 求 y 关于 t 的回归方程 ^^ ^y b at ( Ⅱ) 用所求回归方程预测该地区 2015 年( t 6)的人民币储蓄存款 .附:回归方程 ^^ ^ yb a 中tnn(x x)( y y)x y nx y i i i ibi 1 i 1 n n 22 (x x) x nx i i i 1i 12 , ay bx. 答案: (I ) y?= 1.2t + 3.6 ., (II )10.8 ,5(2013重庆)从某居民区随机抽取10 个家庭 , 获得第i个家庭的月收入x( 单位: 千元) 与月储蓄yi ( 单i位: 千元 ) 的数据资料,算得10 10 1010x , y , x y ,80 20 184i i i i2x .720ii 1 i 1 i 1 i 1( Ⅰ) 求家庭的月储蓄y对月收入x的线性回归方程y bx a ; ( Ⅱ) 判断变量x与y 之间是正相关还是负相关;( Ⅲ) 若该居民区某家庭月收入为7 千元 , 预测该家庭的月储蓄.nx y nx yi i附: 线性回归方程y bx a 中, 1ibn2x nxi2,a y bx ,i 1其中 x,y 为样本平均值,线性回归方程也可写为y bx a .答案 : (I )y?= 1.2t + 3.6 ., (II )10.8 ,(2011 安徽文 )(20)(本小题满分10 分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份2002 2004 2006 2008 2010 需求量(万吨)236 246 257 276 286(Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程y bx a;(Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地2012 年的粮食需求量。
y 6.5( x2006) 260.2.答案 : (I ), (II )299.2(万吨)≈30(0万吨) .,6【2102 高考福建文 18】(本题满分 12 分)某工厂为了对新研发的一种产品进行合理定价, 将该产品按事先拟定的价格进行试销, 得到如下数据:(I )求回归直线方程 y =bx+a ,其中 b=-20,a=y -b x ; (II )预计在今后的销售中,销量与单价仍然服从(I )中的关系,且该产品的成本是4 元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润 =销售收入-成本)答案: (I )y=-20x+250, (II )8.25 ,(银川一中 2011 届高三年级第六次月考文) 19.(本小题满分 12 分)某种设备的使用年限 x 和维修费用 y (万元),有以下的统计数据:x 3 4 5 6 y2.5344.5(1)画出上表数据的散点图(2)请根据上表提供的数据 ,求出 y 关于 x 的线性回归方程 y b x a; (3)估计使用年限为 10 年,维修费用是多少?nx i y i nxy? ??i 1). (注:参考公式: b, ay bx n2 2x nx i i 1答案: (2) y 0.7 x 0.35 ,(3)7.352015年东北三省四市教研联合体高考模拟试卷(三)70.7某地区有小学18 所,中学12所,大学6 所,现采用分层抽样的方法从这些学校中抽取 6 所学校对学生进行视力调查.(1) 若从抽取的6 所学校中随机抽取 2 所学校做进一步数据分析,求抽取的 2 所学校均为小学的概率;(2)若某小学被抽取,该小学五个年级近视眼率y 的数据如下表:年级号 x 1 2 3 4 5近视眼率 y 2.20.152.30.3 0.39根据前四个年级的数据,利用最小二乘法求y关于x 的线性回归直线方程,并计算五年级近视眼率的估计值与实际值之间的差的绝对值.nx y nx yi i( 附:回归直线y b x+ a 的斜率和截距的最小二乘法估计公式分别为: 1ib ,a y b xn22x nxii 1)答案: (1), (2)时,,山西省 2014 届高三年级第二次四校联考18.某年青教师近五年内所带班级的数学平均成绩统计数据如下:年份x年2009 2010 2011 2012 2013平均成绩 y97 98 103 108 109分(1)利用所给数据,求出平均分与年份之间的回归直线方程y?bx a ,并判断它们之间是正相关还是负相关。