1.1回归分析的基本思想及其初步应用

合集下载

高中数学《1.1回归分析的基本思想及其初步应用》评估训练 新人教A版选修1-2

高中数学《1.1回归分析的基本思想及其初步应用》评估训练 新人教A版选修1-2

第一章统计案例1.1 回归分析的基本思想及其初步应用双基达标限时20分钟1.下列命题中正确的是( ).①任何两个变量都具有相关关系②圆的周长与圆的半径具有相关关系③某商品的需求量与该商品的价格是一种非确定性关系④根据散点图求得的线性回归方程可能是没有意义的⑤两个变量的线性相关关系可以通过线性回归方程,把非确定性问题转化为确定性问题进行研究A.①③④B.②④⑤C.③④⑤D.②③⑤解析显然①是错误的,而②中圆的周长与圆的半径的关系为:C=2πR,是一种确定性的函数关系,故应选C.答案 C2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( ).A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反解析因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.答案 A3.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是( ).A.模型1 B.模型2C.模型3 D.模型4解析相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.答案 A4.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析 由e i 恒为0,知y i =y ^i ,即y i -y ^i =0,故R 2=1-∑i =1ny i -y ^i 2∑i =1ny i -y2=1-0=1.答案 15.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程是________.解析 由斜率的估计值为 1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08.答案 y ^=1.23x +0.086.某个服装店经营某种服装,在某周内纯获利y (元)与该周每天销售这种服装件数x 之间的一组数据如下表:(1)(2)画出散点图.(3)求纯获利y 与每天销售件数x 之间的回归方程. 解 (1)x =6,y ≈79.86,中心点(6,79.86). (2)散点图如下:(3)因为b ^=∑i =17x i -xy i -y ∑i =17x i -x 2≈4.75,a ^=y -b ^x ≈51.36,所以y ^=4.75x +51.36.综合提高 限时25分钟7.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2.已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( ). A .l 1和l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合解析 都过样本中心点(s ,t ),但斜率不确定. 答案 A8.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ^=0.577x -0.448(x 为人的年龄,y 为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( ). A .年龄为37岁的人体内脂肪含量都为20.90% B .年龄为37岁的人体内脂肪含量为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的大部分的人体内脂肪含量为31.5%解析 当x =37时,y ^=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%. 答案 C9.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________. 解析 由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^≈-2,∴38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46. 答案 4610.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(千箱)与单位成本(元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x 2i =79,∑i =16x i y i =1 481,b ^=1 481-6×72×7179-6×⎝ ⎛⎭⎪⎫722≈-1.818 2, a ^=71-(-1.818 2)×72≈77.36,则销量每增加1千箱,单位成本下降________元.解析 由已知可得,y ^=-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元. 答案 1.818 211.在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y 与x 解 由数值表可作散点图如右图.根据散点图可知y 与x 近似地呈反比例函数关系,设y =k x ,令t =1x,则y =kt ,原数据变为:由散点图可以看出y 与t 呈近似的线性相关关系.列表如下:续表所以t =1.55,y =7.2.所以b ^=∑i =15t i y i -5t y∑i =15t 2i -5t 2=4.134 4,a ^=y -b ^t =0.8.所以y ^=4.134 4t +0.8.所以y 与x 的回归方程是y ^=4.134 4x+0.8.12.(创新拓展)某运动员训练次数与成绩之间的数据关系如下:(1)(2)求出回归方程; (3)作出残差图; (4)计算相关指数R 2;(5)试预测该运动员训练47次及55次的成绩.解 (1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)x =39.25,y =40.875,∑i =18x 2i =12 656,∑i =18x i y i =13 180,∴b ^=∑i =18x i y i -8x y∑i =18x 2i -8x 2=1.041 5,a ^=y -b ^x =-0.003 88,∴回归方程为y ^=1.0415x -0.003 88. (3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适. (4)计算得相关指数R 2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.(5)由上述分析可知,我们可用回归方程y ^=1.041 5x -0.003 88作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y ≈49和y ≈57. 故预测该运动员训练47次和55次的成绩分别为49和57.。

《回归分析的基本思想及其初步应用》

《回归分析的基本思想及其初步应用》

线性关系, 则选用线性回归方程y bx a );
4 按一定规则估计回归方程中的参数 ( 如最小二
乘法); 5 得出结果后分析残差图是否有异常 (个别数据对
应残差过大, 或残差呈现不随机的规律性等等), 若存 在异常, 则检查数据是否有误, 或模型是否合适等.
2014-4-24
2014-4-24
b 0.849是斜率的估计值, 说明身高x每增加 1个单位时, 体重y就增加0.849个单位, 这表明 体重与身高具有正的线性相关关系如何描述 . 它们之间线性相关关系的强弱 ?
2014-4-24
探究 身高 172cm的 女大学生的体重一定 是 60.316kg 吗 ? 如果 不是, 其原因是什么? 显然, 身高172cm的女
x
180
ˆ y bx a 2014-4-24
图1.1 1
从图1.1 1中可以看出, 样本点呈条状分布 , 身 高和体 重有比 较好的 线性相关关系 ,因此可 以用线 性回归方程刻
y
70 65 60 55 50 45 40 150 155 160 165 170 175
x
180
画它们之间的关系. 根据探究中的公式 1 和 2 , 可以得到
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一 般的情况
2014-4-24
在现实中 , 我们经常会遇到类似下 面的问题 : 肺癌是严重威胁人类性命的一种疾病 , 吸烟 与患肺癌有关系吗 ? 肥胖是影响人类健康的 一个重要因素,身高和 体重之间是否存在 线 性相关关系 ? 等等.
不能用女大学生的身高和体重之间的回归方程, 描述 女运动员的身高和体重之间的关系同样 . , 不能用生长 在南方多雨地区的树木的高与直径之间的回归方程, 描述北方干旱地区的树木的高与直径之间的关系.

1[1].1回归分析的基本思想及其初步应用

1[1].1回归分析的基本思想及其初步应用
1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
求根据女大学生的身高预报体重的回归方程,并 预报一名身高为172cm的女大学生的体重.
例1
从某大学中随机选出8名女大学生……
解:由于问题中要求根据身高预报体重,因此选取
61 (0.849 165 85.712) 6.627
0.849 x 85.712 y
编 号 身 高 体 重 1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
残差平方和
把每一个残差所得的值平方后加起来,用数学符号表示为: n ( yi i ) 2 称为残差平方和 y
结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种方法获 取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量观测值中所 包含的随机误差,这对我们查找样本数据中的错误和模型的评价极为有用,因此 在此我们引入残差概念。

残差
数据点和它在回归直线上相应位置的差异 ei =yi 称为 yi 相应于点(xi,yi ) 的残差。 例:编号为6的女大学生,计算随机误差的效应(残差)
身 高 与 体 重 残 差 图
异 常 点
• 错误数据 • 模型问题
误差与残差,这两个概念在某程度上具有很大的相似性, 都是衡量不确定性的指标,可是两者又存在区别。 误差与测量有关,误差大小可以衡量测量的准确性,误差 越大则表示测量越不准确。误差分为两类:系统误差与 随机误差。其中,系统误差与测量方案有关,通过改进测 量方案可以避免系统误差。随机误差与观测者,测量工具, 被观测物体的性质有关,只能尽量减小,却不能避免。 残差――与预测有关,残差大小可以衡量预测的准确性。 残差越大表示预测越不准确。残差与数据本身的分布特性, 回归方程的选择有关。

人教版A版高中数学选修1-2课后习题解答

人教版A版高中数学选修1-2课后习题解答

人教版A版高中数学选修1-2课后习题解答高中数学选修1-2课后题答案第一章统计案例1.1 回归分析的基本思想及其初步应用回归分析是一种统计分析方法,用于探究自变量与因变量之间的关系。

它的基本思想是通过建立数学模型,利用已知数据进行拟合,从而预测或解释未知数据。

回归分析的初步应用包括简单线性回归和多元线性回归。

1.2 独立性检验的基本思想及其初步应用独立性检验是一种用于检验两个变量之间是否存在关联的方法。

其基本思想是通过观察两个变量之间的频数或频率分布,来判断它们是否相互独立。

独立性检验的初步应用包括卡方检验和Fisher精确检验。

第二章推理证明2.1 合情推理与演绎推理合情推理是指根据已知事实和常识,推断出可能的结论。

演绎推理是指根据已知的前提和逻辑规则,推导出必然的结论。

两种推理方法都有其适用的场合,需要根据具体情况进行选择。

2.2 直接证明与间接证明直接证明是指通过逻辑推理,直接证明所要证明的命题成立。

间接证明是指采用反证法或归谬法,证明所要证明的命题的否定不成立,从而推出所要证明的命题成立。

第三章数系的扩充与复数的引入3.1 数系的扩充与复数的概念数系的扩充是指在实数系的基础上引入新的数,使得一些原来不可解的方程可以得到解。

复数是指由实部和虚部组成的数,可以表示在平面直角坐标系中的点。

复数的引入扩充了数系,使得一些原本无解的方程可以得到解。

3.2 复数的代数形式的四则运算复数的代数形式是指将复数表示为实部和虚部的和的形式。

复数的四则运算包括加减乘除四种运算,可以通过对实部和虚部分别进行运算来得到结果。

第四章框图4.1 流程图流程图是一种用图形表示算法或过程的方法。

它由各种基本符号和连线构成,用于描述算法或过程的各个步骤及其执行顺序。

流程图可以帮助人们更好地理解算法或过程,从而提高效率。

4.2 结构图结构图是一种用于描述程序结构的图形表示方法。

它包括顺序结构、选择结构和循环结构三种基本结构,可以用来表示程序的控制流程。

2014年人教A版选修1-2课件 1.1 回归分析的基本思想及其初步应用

2014年人教A版选修1-2课件 1.1  回归分析的基本思想及其初步应用
150 155 160 165 170 175 180
例1. 从某大学中随机选取 8 名女大学生, 其身高和 体重数据如下表所示: 1 2 3 4 5 6 7 8 编号 165 165 157 170 175 165 155 170 身高 64 61 43 59 体重/kg 48 57 50 54 由最小二乘法得 求根据女大学生的身高预报体重的回归方程 , 并预报一名 n n n 1 1 身高为 172 cm 的女大学生的体重 . xi , y = yi . x = x y n x y i i n i =1 n i =1 i = 1 由身高预报体重 解: b= n ,, 则以身高为自变量 x, 体重为 2 2 得 b ≈0.849, x n x 因变量 y , 画出散点图 . i 70 i =1 a= 85.712. 60 由图看出样本点呈条状 a = y bx . 50 分布, 于是得回归直线的方程为 身高和体重有较好的 ˆ40 y = 0.849x 85.712. 30 线性相关关系. ˆ = 60.316. 20 当 x=172 时, y 10 设回归直线为 y=bx+a. 0 ∴ 预计这位大学生的体重大约 60 kg. 150 155 160 165 170 175 180
例1. 从某大学中随机选取 8 名女大学生, 其身高和 体重数据如下表所示: 编号 身高 体重/kg 1 2 3 4 5 6 7 8 165 165 157 170 175 165 155 170 48 57 50 54 64 61 43 59
求根据女大学生的身高预报体重的回归方程, 并预报一名 身高为 172 cm 的女大学生的体重. 解: 由身高预报体重, 则以身高为自变量 x, 体重为 因变量 y, 画出散点图. 70 60 由图看出样本点呈条状 50 分布, 身高和体重有较好的 40 30 线性相关关系. 20 10 设回归直线为 y=bx+a. 0

高中数学《1.1回归分析的基本思想及其初步应用》导学案1 新人教A版选修1-2

高中数学《1.1回归分析的基本思想及其初步应用》导学案1 新人教A版选修1-2

回归分析的基本思想及其初步应用(一)学习目标2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数.学习过程一、课前准备24问题1:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?复习1:函数关系是一种关系,而相关关系是一种关系.复习2:回归分析是对具有关系的两个变量进行统计分析的一种常用方法,其步骤:→→→ .二、新课导学※学习探究实例编号 1 2 3 4 5 6 7 8身高165 165 157 170 175 165 155 170体重48 57 50 54 64 61 43 59为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量.(1)做散点图:从散点图可以看出和有比较好的相关关系.(2) x= y=81i iix y==∑821iix==∑所以81822188i iiiix y x ybx x==-==-∑∑$$a y bx$=-≈于是得到回归直线的方程为(3)身高为172cm的女大学生,由回归方程可以预报其体重为$y=问题:身高为172cm的女大学生,体重一定是上述预报值吗?思考:线性回归模型与一次函数有何不同?新知:用相关系数r可衡量两个变量之间关系.计算公式为r =r>0, 相关, r<0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近;r>,两个变量有关系.※典型例题例1某班5名学生的数学和物理成绩如下表:(2)求物理成绩y对数学成绩x的回归直线方程;(3)该班某学生数学成绩为96,试预测其物理成绩;变式:该班某学生数学成绩为55,试预测其物理成绩;小结:求线性回归方程的步骤:※动手试试练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y bx a=+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?⨯+⨯+⨯+⨯=)(参考数值3 2.543546 4.566.5三、总结提升※学习小结1. 求线性回归方程的步骤:2. 线性回归模型与一次函数有何不同※知识拓展※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 下列两个变量具有相关关系的是()A. 正方体的体积与边长B. 人的身高与视力C.人的身高与体重D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的()A. 预报变量在x 轴上,解释变量在y 轴上B. 解释变量在x 轴上,预报变量在y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可选择两个变量中任意一个变量在y 轴上$必过()3. 回归直线$$y bx a=+A. (0,0)B. (,0)x yx C. (0,)y D. (,)4.r越接近于1,两个变量的线性相关关系 .5. 已知回归直线方程$0.50.81=-,则25y xx=时,y的估计值为 .但还可以使用,它按不同的转速生产出来的某机械零件有一些会有下表为抽样试验的结果:(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?。

高中数学《1.1回归分析的基本思想及其初步应用》教案2 新人教A版选修1-2

高中数学《1.1回归分析的基本思想及其初步应用》教案2 新人教A版选修1-2

11.1回归分析的基本思想及其初步应用(二)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学过程:一、复习准备:1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 二、讲授新课:1. 教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即21()ni i SST y y ==-∑.残差平方和:回归值与样本值差的平方和,即21()ni i i SSE y y ==-∑. 回归平方和:相应回归值与样本均值差的平方和,即21()ni i SSR y y ==-∑. (2)学习要领:①注意i y 、 i y 、y 的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即222111()()()n n ni i i i i i i y y y y y y ===-=-+-∑∑∑;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数 22121()1()nii i n ii yy R yy ==-=--∑∑来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 2R 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好. 2. 教学例题:为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论. (答案:52211521()155110.8451000()i i i ii y y R y y ==-=-=-=-∑∑,221R =-521521()18010.821000()iii ii y y y y ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.)3. 小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.第三课时。

1.11 回归分析的基本思想及其初步应用(文、理)

1.11 回归分析的基本思想及其初步应用(文、理)

1.1 回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。

2. 能作出散点图,能求其回归直线方程。

3. 会用所学的知识对简单的实际问题进行回归分析。

【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。

例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据. 4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。

要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i (i=1,2,…,n )的均值,y 表示数据y i (i=1,2,…,n )的均值,xy 表示数据x i y i (i=1,2,…,n )的均值.a、b 的意义是:以 a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位. 要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ˆ y
160
(2)从散点图还可以看到,样本点散布在某一条 直线的附近,而不是一条直线上,所以不能用一次 函数y=bx+a来描述它们之间的关系。这时我 们用下面的线性回归模型来描述身高和体重的关系: y=bx+a+e其中a和b为模型的未知参数,e ˆ 是y与 y之间的误差,通常e称为随机误差。
图表标题 80 60 40 20 0 150 160 170 180
模 分 析 拟
y = f(x)
y = f(x)
1、定义: 自变量取值一定时,因变量的取值带有一定随
机性的两个变量之间的关系叫做相关关系。 1):相关关系是一种不确定性关系; 注 2):对具有相关关系的两个变量进行
统计分析的方法叫回归分析。 2、现实生活中存在着大量的相关关系。
如:人的身高与年龄;产品的成本与生产数量;
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变 量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察 它们之间的关系(是否存在线性关系); 是否存在线性关系
(3)由经验确定回归方程的类型(如观察到数据呈线性关 系,则选用线性回归方程y=bx+a); (4)按一定规则估计回归方程中的参数(如最小二乘 法); (5)得出结果后分析残差图是否异常(个别数据对应残 差过大,或残差呈现不随机的规律性等),若存在异常, 则检查数据是否有误,或模型是否合适等.
n (xi -x)(yi -y) b= i=1 ˆ = n 2 (xi -x) i=1 ˆ a=y-bx. ˆ
x y
i=1 n
n
i i 2
- nxy - nx
2
x
i=1
,
i
1 n 1 n 其中x = y xi, = yi. n i=1 n i=1
(x,y)
2
y = 0.8485x - 85.712 体重 线性 (体重) 线性 (体重) 线性 (体重)
它的均值E(e)= 0,方差D(e)=σ > 0
线性回归模型

y=bx+a+e
E(e)= 0,
2 D(e)=σ
y=bx+a+e其中a和b为模型的未知参数, e是y与 y 之间的误差,通常e称为随机误差。 ˆ
商品的销售额与广告费;家庭的支出与收入。等等
相关系数
• 1.计算公式
r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
(xi - x)2 (yi - y)2
i=1
• 2.相关系数的性质 • (1)|r|≤1. • (2)|r|越接近于1,相关程度越大;|r|越接 近于0,相关程度越小. • 问题:达到怎样程度,x、y线性相关呢?它 们的相关程度怎样呢?
一只红铃虫的产卵数y和温度x有关,现收集了7组观 测数据作散点图:
350 300 250
产卵数
200 150 100 50 0 0 10 20 温度 30 40
系列1
身高 165 体重 48
求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。
分析:由于问题中 要求根据身高预报 体重,因此选取身 高为自变量,体重 为因变量.
1. 散点图; 2.回归方程: ˆ y 0.849 x 85.172
身高172cm女大学生体重 ˆ y = 0.849×172 - 85.712 = 60.316(kg)
正相关
负相关
复习、变量之间的两种关系
问题1:正方形的面积y与正方形的边长x之间 的函数关系是 确定性关系 y = x2 问题2:某设备的使用年限x和维修费用y之间 是否有一个确定性的关系? 例如:某设备的使用年限x和维修费用y(万元) 之间,有如下所示的统计数据:
使用年限x
2
3
4
5
6 7
维修费用y 2.2 3.8
本例中, r=0.798>0.75.这表明体重与身高有很强的线性相关关 系,从而也表明我们建立的回归模型是有意义的。
探究: 身高为172cm的女大学生的体重一定是60.316kg 吗?如果不是,你能解析一下原因吗? 答:身高为172cm的女大学生的体重不一定是 60.316kg,但一般可以认为她的体重接近于 60.316kg。
使用年限x
2
3
4
5
6
7
维修费用y 2.2 3.8 y 维修费用 · 7
6 5
5.5 6.5
·
·
4
3 2
· ·
2 3 4
2 2.2 3 3.8 4 5.5 5 6.年限 x
解: 1.画出散点图 2.求出 b = 1.23, a = 0.08 ˆ 3.写出回归方程 y = 1.23x + 0.08
类比样本方差估计总体方差的思想
n 1 1 2 ˆ ˆ ˆ ˆ ei Q(a, b)(n 2) n 2 i 1 n2 ˆ ˆ Q(a, b)称为残差平方和 2
(1)根据散点图来粗略判断它们是否线性相关。
(2)是否可以用线性回归模型来拟合数据
ˆ ˆ ˆ ˆ (3)通过残差 e1, e2, e3, .....en, 来判断模型拟合的效 果这种分析工作称为残差分析
异 常 点
• 错误数据 • 模型问题
回归模型的适用范围:
(1)回归方程只适用于我们所研究的样本的总体。样本数据 来自哪个总体的,预报时也仅适用于这个总体。 (2)模型的时效性。利用不同时间段的样本数据建立的模型, 只有用来对那段时间范围的数据进行预报。 (3)建立模型时自变量的取值范围决定了预报时模型的适用 范围,通常不能超出太多。 (4)在回归模型中,因变量的值不能由自变量的值完全确定。 正如前面已经指出的,某个女大学生的身高为172cm,我们不 能利用所建立的模型预测她的体重,只能给出身高为172cm的 女大学生的平均体重的预测值。
维修费用 y
7 6 |yi - yi | 5 4 3 2
(x · · ,y )
i i
·
散点图
·
(xi ,yi )
·
2
n
使用年限
3 4 5 6
x
Q(a,b)= (yi - bxi - a)2 取最小值时,a,b的值.
i=1
推导过程可参阅《数学3》P80
最小二乘法:y = bx + a ˆ ˆ ˆ
必修3(第二章 统计)知识结构
收集数据
(随机抽样)
整理、分析数据 估计、推断 用样本估计总体 变量间的相关关系
简 单 随 机 抽 样
分 层 抽 样
系 统 抽 样
用样本 的频率 分布估 计总体 分布
用样本 数字特 征估计 总体数 字特征
线 性 回 归 分 析
统计的基本思想
实际 抽 样
样本
y = f(x)
为了衡量预报的精度,需要估计的σ2值?
Q( , ) ( yi xi ) 2
i 1 n
随机误差ei yi bxi a (i 1, 2,....n) ˆ ˆ ˆ ˆ 其估计值为: e y y y bx a
i i i i i
ˆ ei称为相应点(xi ,yi )的残差
残差 6000 4000 2000 0 -2000 -4000 0 2 4 6 8 10 12 残差
残差图的制作及作用。P5 • 坐标纵轴为残差变量,横轴可以有不同的选择; • 若模型选择的正确,残差图中的点应该分布在以 横轴为心的带形区域; • 对于远离横轴的点,要特别注意。
身 高 与 体 重 残 差 图
5.5 6.5
探索1:使用年限x和维修费用y大致有何规律?
使用年限x
2
3
4
5
6 7
散点图
维修费用y 2.2 3.8 y 维修费用 · 7
6 5 4
3 2
5.5 6.5
·
·
· ·
2 3 4 5 6
使用年限 x
探索2:在这些点附近可画直线不止一条, 哪条直线最能代表x与y之间的关系呢? 发现:图中各点,大致分布在某条直线附近。
即,用这个回归方程不能给出每个身高为172cm 的女大学生的体重的预测值,只能给出她们平均 体重的值。
(1)由图形观察可以看出,样本点呈条状分 布,身高和体重有比较好的线性相关关系,因 此可以用线性回归方程刻画它们之间的关系。
图表标题 80 60 40 20 0 150
ˆ y
y = 0.8485x - 85.712 体重 线性 (体重) 线性 (体重) 线性 (体重) 170 180
ˆ 回归方程 y = 1.23x + 0.08 的理解
1、请问y与x是正相关,还是负相关?
2、当x增加1个单位时,y一定增加1.23个单位吗? 3、回归方程一定经过的点是? 4、估计使用年限为10年时,维修费用是多少?
案例1 从某大学中随机选出8名女大学生,其身 高和体重数据如下表:
编号 1 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
称为样本点的中心。
2、回归直线方程: 1、所求直线方程 y = bx + a 叫做回归直 ˆ ˆ ˆ ---线方程;其中

ˆ b=
(x
i=1
n
i
- x)(yi - y) =
i
x y
i i=1 n
n
i
- nxy
2
(x
i=1
n
- x)
2
x
i=1
,
2 i
- nx
相关文档
最新文档