专题十 概率与统计第二十九讲 回归分析与独立性检验.doc
回归方程和独立性检验知识点

回归方程和独立性检验知识点回归方程和独立性检验是统计学中重要的概念和方法。
回归方程是用于描述自变量和因变量之间关系的数学模型,而独立性检验则用于检验两个或多个变量之间是否存在独立关系。
以下将分别对回归方程和独立性检验进行详细介绍。
一、回归方程回归方程是用于描述因变量和自变量之间关系的数学模型,通常用于预测和解释变量之间的关系。
回归方程一般可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε其中,Y表示因变量,X1,X2,...,Xk为自变量,β0,β1,β2,...,βk为回归系数,ε为随机误差项。
回归方程中的回归系数表示自变量对因变量的影响程度,可以通过回归分析进行估计。
常见的估计方法包括最小二乘法和最大似然法。
最小二乘法是通过最小化观察值与回归方程估计值之间的差异来确定回归系数的方法。
最大似然法是通过最大化数据出现的概率来确定回归系数的方法。
回归方程的显著性检验可以用来判断回归方程是否具有统计意义。
常用的检验方法包括F检验和t检验。
F检验用于检验所有自变量的回归系数是否全为零,即检验回归方程是否合理。
t检验则用于检验单个自变量的回归系数是否为零,即检验自变量对因变量的影响是否显著。
此外,回归方程还可以通过残差分析检验模型的合理性。
残差是观测值与回归方程估计值之间的差异,残差分析可以用于检验回归方程是否具有线性和正态性假设,并检验是否存在异方差性和自相关等问题。
回归方程在实际应用中广泛使用,例如在经济学中用于分析经济变量之间的关系,在医学研究中用于确定影响健康指标的因素等。
二、独立性检验独立性检验是用于检验两个或多个变量之间是否存在独立关系的统计方法。
独立性检验可以帮助我们了解因素之间的相互关系,从而在实际问题中作出合理的推断和决策。
常用的独立性检验方法包括卡方检验和Fisher精确检验。
卡方检验是用于检验两个分类变量之间是否相互独立的方法。
例如,我们可以使用卡方检验来研究性别和喜好之间是否存在关联。
第10章《概率、统计与统计案例》回归分析与独立性检验

新 课 标 资 源 网
【评析】(1)独立性检验的关键是准确地计算 K2,在计算时,要充分利用2×2列联表. (2)学习相关和无关的判定一定要结合实际问题,
老 师 都 说 好 !
从现实中寻找例子,从而增强学习数学的兴趣.
新 课 标 资 源 网
3.残差分析
在研究两个变量间的关系时,首先要根据散点图来粗 略判断它们是否线性相关,是否可以用线性回归模型来拟 合数据.然后,可以通过残差e1,e2,…,en来判断模型拟合的 效果,判断原始数据中是否存在可疑数据.这方面的分析 工作称为残差分析. 4.残差图 作图时纵坐标为残差,横坐标可以选为样本编号,这 样作出的图形称为残差图.
返回目录
{
E(e)=0,D(e)=σ2
. 返回目录
新 课 标 资 源 网
随机误差e的方差σ2越小,通过回归直线 y =bx+a ˆ 预报真实值y的精确度越高.随机误差是引起预报值 y 与 ˆ 真实值y之间的误差的原因之一,其大小取决于随机误 差的方差.
2.残差
老 师 都 说 好 !
返回目录
*对应演练*
新 课 标 资 源 网
为考察高中生的性别与是否喜欢数学课程之间的关系, 在某城市的某校高中生中随机抽取了300名学生,得到 如下2×2列联表:
喜欢数学 不喜欢数学 合计
男
老 师 都 说 好 !
37
35 72
85
143 228
122
178 300
女 合计
判定性别与是否喜欢数学的关系.
!
新 课 标 资 源 网
【解析】根据题目所给的数据得到如下2×2列联表:
回归分析与独立性检验

回归分析与独立性检验一.考纲目标利用散点图判断变量之间是否存在相关关系;求回归直线方程和利用回归直线作出估计;独立性检验. 二.知识梳理1.两个变量的线性相关 (1)正相关.在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关.在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线.如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.1122211()()()n ni i i i i i n n i ii i x x y y x y nxy b x x x nx a y bx====⎧---⎪⎪==⎨--⎪⎪=-⎩∑∑∑∑, ∑==n i i x n x 11,∑==ni i y n y 11 3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n.e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2R 2越大,意味着残差平方和 越小 ,即模型的拟合效果越好R 2越小,残差平方和越大,即模型的拟合效果越差 .在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好 . 4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这类变量称为分类变量. (2)列联表:列出两个分类变量的 频数表 ,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.三.考点逐个突破1.散点图与相关关系的判断例1. 在一组样本数据(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1[答案] D[解析] 样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.要注意理清相关系数的大小与相关性强弱的关系. 2.利用回归直线方程对总体进行估计例2.(1) 某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值计算,得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i=478,∑i =18x i y i =1849,则其回归直线方程为( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x[答案] A[解析] 由∑i =18x i =52,∑i =18y i =228知,x -=6.5,y -=28.5,b ^=∑i =18x i y i -8x-y-∑i =18x 2i -8x -2=1849-8×6.5×28.5478-8×6.52≈2.62, ∴a ^=y --b ^x -=28.5-2.62×6.5=11.47.(2)在某医学实验中,某实验小组为了分析某药物用药量与血液中某种抗体水平的关系,选取六只验动物进行血检,得到如下资料:动物编号 1 2 3 4 5 6 用药量x(单位) 1 3 4 5 6 8 抗体指标y(单位)3.43.73.84.04.24.3记s 为抗体指标标准差,若抗体指标落在(y -s ,y +s)内,则称该动物为有效动物,否则称为无效动物.研究方案规定先从六只动物中选取两只,用剩下的四只动物的数据求线性回归方程,再对被选取的两只动物数据进行检验.(1)求选取的两只动物都是有效动物的概率;(2)若选取的是编号为1和6的两只动物,且利用剩余四只动物的数据求出y 关于x 的线性回归方程为y ^=0.17x +a ,试求出a 的值;(3)若根据回归方程估计出的1号和6号动物抗体指标数据与检验结果误差都不超过抗体指标标准差,则认为得到的线性回归方程是可靠的.试判断(2)中所得线性回归方程是否可靠. 参考公式:样本数据x 1,x 2,…,x n 的标准差: S =1n[x 1-x-2+x 2-x-2+…+x n -x-2],其中x -为样本平均数.[解析] (1)y -=3.9,s≈0.31.故1、6号为无效动物,2、3、4、5号为有效动物. 记从六只动物中选取两只为事件A.所有可能结果为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15种.满足题意的有(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共6种.故P(A)=615=25. (2)对于2、3、4、5号动物,x -=4.5,y -=3.925,代入y ^=0.17x +a 得a =3.16. (3)由y ^=0.17x +3.16得y ^1=3.33,y ^6=4.52.误差e 1=0.07,e 6=0.22,均比标准差s≈0.31小,故(2)中回归方程可靠. 3.独立性检验例3. (1)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误 A .① B .① C .③ D .②[答案] C[解析] ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ,③正确.排除D ,选C.(2)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n ad -bc2a +bc +d a +c b +d 算得,K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K 2≥k)0.050 0.010 0.001 k3. 8416.63510.828A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” [答案] A[解析] 根据独立性检验的定义,由K 2≈7.8>6.635可知,有99%以上把握认为“爱好该项运动与性别有关”.(3)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男 女 需要 40 30 不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K 2=n ad -bc 2a +bc +d a +cb +d.[解析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K 2=500×40×270-30×1602200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.。
(整理)回归分析及独立性检验).

回归分析与独立性检验1.回归分析的含义是什么?有哪些基本步骤?线性回归模型怎样用表达式表示?产生随机误差的原因是什么?a b2.回归方程中与怎样求解?3.刻画回归效果的方式有哪些?(1)残差(2)残差图(3)残差图法2(4)残差平方和(5)相关指数R1.判一判(正确的打“√”,错误的打“×”)(1)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量. ( )(2)求线性回归方程前可以不进行相关性检验. ( )(3)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )2、一位母亲记录了儿子3~9岁的身高数据,并由此建立的身高与年龄的回归模型为 =7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则下列说法正确的A.身高一定是145.83cmB.身高在145.83cm 以上C.身高在145.83cm 左右D.身高在145.83cm 以下有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是A.0B.1C.2D.3【典例1】(1)(2014·合肥高二检测)已知一个回归方程为 =1.5x+45,x ∈{1,7,5,13,19},则 =A.9B.45C.58.5D.1.5(2)如图所示的是四个残差图,其中回归模型的拟合效果最好的是()yy(3)为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如下表所示:出散点图,并求线性回归方程; ②求出R 2; ③进行残差分析.类型二 非线性回归分析【典例2】(1)两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的A.y=a ·x bB.y=a+blnxC.y=a ·e bxD.y=a ·2)在一次抽样调查中,测得样本的5个样本点的数值如下表:hxe试写出y 与x 之间的回归方程.【易错误区】对回归系数的含义理解错误【典例】(2014·合肥高二检测)废品率x%和每吨生铁成本y(元)之间的回归直线方程为 =256+3x,表明 ( )A.废品率每增加1%,生铁成本增加259元B.废品率每增加1%,生铁成本增加3元C.废品率每增加1%,生铁成本平均每吨增加3元D.废品率不变,生铁成本为256元 【提升练习】1.(2014·梅州高二检测)在2012年8月15日那天,某物价部门对本市的5家商场的某商品的一天销售量价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归直线方程是:=-3.2x+40,且m+n=20,则其中的n= .2、设三组实验数据(x1,y 1),(x 2,y 2),(x 3,y 3)的回归直线方程是:=x+,使代数式[y1-(x 1+)]2+[y 2-(x 2+)]2+[y 3-(x 3+)]2的值最小时,=-,=,(,分别是这三组数据的横、纵坐标的平均数)若有七组数据列表如下:(1)求上表中前三组数据的回归直线方程.(2)若|y 1-(x 1+)|≤0.2,即称(x 1,y 1)为(1)中回归直线的拟合“好点”,求后四组数据中拟合“好点”的概率.1.分类变量的概念是什么?什么是列联表,什么是2×2列联表?2.等高条形图的优点是什么?如何利用等高条形图判断两个变量之间的关系?3.独立性检验的概念是什么?怎样进行独立性检验?1.判一判(正确的打“√”,错误的打“×”)(1)事件A与B的检验无关,即两个事件互不影响. ( )(2)事件A与B关系越密切,K 2就越大. ( )(3)K 2的大小是判断事件A与B是否相关的唯一数据. ( )2、下列不是分类变量的是( )A.近视B.身高C.血压D.药物反应类型一等高条形图的应用【典例1】(1)观察下列各图,其中两个分类变量X,Y之间关系最强的是( )(2)(2014·青岛高二检测)某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.类型二 独立性检验【典例2】(1)(2014·台州高二检测)在独立性检验中,统计量K 2有三个临界值:2.706,3.841和6.635;当K 2>3.841时,在犯错误的概率不超过0.05的前提下说明两个事件有关,当K 2>6.635时,在犯错误的概率不超过0.01的前提下说明两个事件有关,当K 2<2.706时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算K 2=20.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A.在犯错误的概率不超过0.05的前提下认为两者有关B.约有95%的打鼾者患心脏病C.在犯错误的概率不超过0.01的前提下认为两者有关D.约有99%的打鼾者患心脏病(2)(2014·执信高二检测)某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.①根据上表数据作出甲流水线样本频率分布直方图;②若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;③由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条自动包装流水线的选择有关”.【提升练习】1.(2014·德州高二检测)假设两个分类变量X与Y,它们的取值分别为{x1,x2},{y1,y2},其2×2列联表如图所示:对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为( )A.a=50,b=40,c=30,d=20B.a=50,b=30,c=20,d=40C.a=50,b=20,c=40,d=30D.a=20,b=30,c=50,d=40。
专题十 概率与统计第二十九讲 回归分析与独立性检验

专题十 概率与统计第二十九讲 回归分析与独立性检验一、选择题1.(2015湖北)已知变量x 和y 满足关系0.11y x =-+,变量y 与z 正相关,下列结论中正确的是A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 2.(2014湖北)根据如下样本数据x 3 4 56 78y4.02.50.5A .0a >,0b <B .0a >,0b >C .0a <,0b <D .0a <,0b > 3.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是4.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .15.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(i x ,i y )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =-,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 6.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、填空题7.(2015北京)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生. 从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 . 三、解答题8.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.9.(2017新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 234 567 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 910111213141516零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得16119.9716i i x x ===∑x̅=116∑x i 16i=1=9.97,16162221111()(16)1616i i i i s x x x x ===-=-∑∑0.212≈s =√116∑(x i −x̅)216i=1=√116(∑x i 2−16x̅2)216i=1=0.212,1621(8.5)18.439i i =-≈∑,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数12211()()()()niii n niii i x x y y r x x y y ===--=--∑∑∑,0.0080.09≈.10.(2016年全国III 卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1–7分别对应年份2008–2014.(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑721()0.55ii y y =-=∑7≈2.646.参考公式:相关系数12211()()()(yy)niii n ni ii i t t y y r t t ===--=--∑∑∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.46.65636.8289.81.61469108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费49x =时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i nii tty y b tt∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:0.050.013.841 6.635。
(完整版)回归方程和独立性检验知识点讲解

回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2R 表示模型的拟合效果。
范围:]10[2,∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)二、独立性检验1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
回归分析和独立性检验(教师版)

回归分析即独立性检验一、回归分析1、两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2、散点图:将样本中的n 个数据点()(12)i i x y i n =L ,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3、如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4、回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.5、最小二乘法:记回归直线方程为:ˆˆˆy bx a =+,称为变量y 对变量x 的回归直线方程,其中a b ,叫做回归系数.用最小二乘法求回归系数ˆˆab ,有如下的公式: 1122211()()ˆ()ˆˆnni i i ii i n ni ii i x x y y x ynxyb x x xnx ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的(样本中心点(,)x y 必定落在回归直线上)例1、已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为 A . ˆy=1.23x +0.08 B . ˆy =0.08x +1.23 C . ˆy =1.23x +4 D . ˆy =1.23x +5 解析 回归直线方程过样本点的中心,把点(4,5)代入A 项成立. 答案 A例2、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的(2) 请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程$y bxa =+$; (3) 已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?【解析】(1)如下图(2)y x ini i ∑=1=3⨯2.5+4⨯3+5⨯4+6⨯4.5=66.5 x =46543+++=4.5y =45.4435.2+++=3.5 ∑=n i x i 12=32+42+52+62=86 266.54 4.5 3.566.563ˆ0.7864 4.58681b -⨯⨯-===-⨯- ˆˆ 3.50.7 4.50.35a Y bX =-=-⨯= 故线性回归方程为y=0.7x+0.35(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7⨯100+0.35=70.35故耗能减少了90-70.35=19.65(吨)练习1、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)(2)求出y 关于x 的线性回归方程ˆˆˆybx a =+,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?解 (1)散点图如图所示.(2)由表中数据得1ni i i x y =∑=52.5,x =3.5,y =3.5,21ni i x =∑=54,∴ˆb=0.7. ∴ˆa =1.05. ∴ˆy=0.7x +1.05. 回归直线如图中所示.(3)将x =10代入回归直线方程,得y =0.7×10+1.05=8.05(小时), ∴预测加工10个零件需要8.05小时. 二、独立性检验1、22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据a b c d ,,,,并希望根据这样的4个数据来检验上述的两种状态x 与y 是否有关,就称之为22⨯联表的独立性检验.2、独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2K 统计量;查对临界值表,作出判断.3、几个临界值:.4、统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设.5、2K (读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22()()()()()n ad bc K a b c d a c b d -=++++,用它的大小可以用来决定是否拒绝原来的统计假设0H6、2K 统计量的临界值的作用:比如:当2 3.841K ≥时,有95%的把握说事件A 与B 有关;当2 6.635K ≥时,有99%的把握说事件A 与B 有关;当2 3.841K <时,有5%的把握说事件A 与B 是无关的.7、独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立 例、甲、乙两所学校高三年级分别有1200人、1000人,为了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下: 分组 [70,80) [80,90) [90,100) [100,110) 频数 3 4 8 15 分组 [110,120) [120,130) [130,140) [140,150] 频数 15 x 3 2 分组 [70,80) [80,90) [90,100) [100,110) 频数 1 2 8 9 分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10 y 3 (2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率; (3)由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.甲校 乙校 总计 优秀 非优秀 总计解:(1)甲校抽取110×12002200=60(人),乙校抽取110×10002200=50(人),故x =10,y =7.(2)估计甲校优秀率为1560=25%,乙校优秀率为2050=40%.(3) 表格填写如下:甲校 乙校 总计 优秀 15 20 35 非优秀 45 30 75 总计 60 50 110K 2=110(15×30-20×45)260×50×35×75≈2.83>2.706,又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.练习1、某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持活动有关系”.( C )A .0.1%B .1%C .99%D .99.9% 2、某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A 、B 两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下.记成绩不低于90分者为“成绩优秀”.由以上统计数据填写下面列联表,并判断是否有90%的把握认为:“成绩优秀”与教学方式有关.甲班(A 方式)乙班(B 方式)总计 成绩优秀 成绩不优秀 总计[ 甲班(A 方式)乙班(B 方式)总计 成绩优秀 1 5 6 成绩不优秀 19 15 34 总计202040根据列联表中数据,χ2=6×34×20×20≈3.137,由于3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.回归分析和独立性检验练习题1、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为ˆy=7.19x +73.93,用这个模型预测这孩子10岁时的身高,则正确的叙述是( D )A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 以下D .身高在145.83 cm 左右2、某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y 与x 具有相关关系,回归方程为ˆy=0.66x +1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( A )A .83%B .72%C .67%D .66%解析 将y =7.675代入回归方程,可计算得x ≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.3、若施化肥量x 与水稻产量y 的回归直线方程为ˆy=5x +250,当施化肥量为80kg 时,预报水稻产量为_____________________.解析 当x =80 kg 时,ˆy=5×80+250=650 kg . 答案 650 kg4根据上表可得回归直线方程y =0.56x +a ,据此模型预报身高为172cm 的高三男生的体重为( B )A .70.09kgB .70.12kgC .70.55kgD .71.05kg5、下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (t)与相应的生产能耗y (t)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为( A )A .3B .3.15C .3.5D .4.56、有甲、乙两个班级进行数学考试,按照大于等于85分的优秀,85分以下为非优秀统计已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( C )A.列联表中c 的值为30,b 的值为35 B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 7、某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程ˆˆybx a =+,其中20b =-,ˆˆa y bx =-; (2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,所以ˆˆay bx =-=80+20×8.5=250. 从而回归直线方程为ˆy =-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x(-20x +250)-4(-20x +250)=-20x 2+330x -1000=-20⎝⎛⎭⎫x -3342+361.25, 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.8、考察黄烟经过药物处理跟发生青花病的关系,得到如下数据,在试验的470珠黄烟中,经过药物处理的黄烟有25珠发生青花病,60株没有发生青花病.未经过药物处理的有185株发生青花病,200株没有发生青花病,试推断药物处理跟发生青花病是否有关系.[根据公式k 2=470×(25×200-185×60)210×260×85×385≈9.788.由于9.788>7.879,所以我们有99.5%的把握认为经过药物处理跟发生青花病是有关系的.。
回归分析与独立性检验

回归分析的基本思想及其初步应用(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
这种由于模型近似所引起的误差包含在中。
(2)忽略了某些因素的影响。
影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题十 概率与统计第二十九讲 回归分析与独立性检验2019年1.(2019全国1文17)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++.2010-2018年一、选择题1.(2015湖北)已知变量x 和y 满足关系0.11y x =-+,变量y 与z 正相关,下列结论中正确的是A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 2.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b >3.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是4.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .15.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(i x ,i y )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 6.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、填空题7.(2015北京)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 . 三、解答题8.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.9.(2017新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,s ==0.212≈18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r --=∑,0.09≈.10.(2016年全国III 卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1–7分别对应年份2008–2014.(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑721()0.55i i y y =-=∑7≈2.646. 参考公式:相关系数12211()()()(yy)niii n ni ii i t t y y r t t ===--=--∑∑∑ 回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.65636.8289.8 1.61469 108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费49x =时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:)(2k P ≥χ 0.050.01k3.841 6.635。