2007.6.20回归分析的基本思想及其初步应用(二)
《回归分析的基本思想及其初步应用》课件2

问题六:若两个变量呈现非线性关系,如何解决?(分析例 2)
问题一:结合例1得出线性回归模型及随机误差。并且区 分函数模型和回归模型。
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
编号
1
2
3
4
5
6
7
8
身高/cm 165 165 157 170 175 165 155 170
i 1
i 1
i 1
从上中可以看出,解析变量对总效应约贡献了64%,即
R20.64,可以叙述为“身高解析了64%的体重变化”,而随机误
差贡献了剩余的36%。
所以,身高对体重的效应比随机误差的效应大得多。
问题四:结合例1思考:用回归方程预报体重时应注意什么?
1.回归方程只适用于我们所研究的样本的总体。 2.我们建立的回归方程一般都有时间性。 3.样本取值的范围会影响回归方程的适用范围。 4.不能期望回归方程得到的预报值就是预报变量的精确值。
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般 的情况
问题2:对于线性相关的两个变量用什么方法来刻 划之间的关系呢?
2、最小二乘估计 最小二乘估计下的线性回归方程:
yˆ bˆx aˆ
n
(xi X )( yi Y )
bˆ i1 n
(Xi X )2
i1
aˆ Y bˆX
字特征
析
问题1:现实生活中两个变量间的关系有哪些呢? 不相关
1、两个变量的关系
函数关系
线性相关 相关关
系 非线性相关
相关关系:对于两个变量,当自变量取值一定时, 因变量的取值带有一定随机性的两个变量之间的关 系。
《回归分析的基本思想及其初步应用》文字素材2(人教A版选修2-3)

回归分析的基本思想及其初步应用知识梳理一.线性回归方程的确定如果一组具有相关关系的数据1122(,),(,),,(,),n n x y x y x y 作出散点图大致分布在一条直线附近,那么我们称这样的变量之间的关系为线性相关关系(也称一元线性相关),这条直线就是回归直线,记为?ybx a .那么如何求得参数a b 和使得各点与此直线的距离的平方和为最小,即如何求得线性回归方程呢?在所求回归直线方程?ybx a 中,当x 取i x 时,iiy bx a 与实际收集到的数据i y 之间的偏差为()iiiiy y y bx a ,偏差的平方为22()[()]iiii y y y bx a (如图1).即21()niii Qy bx a 来刻画出n 个点与回归直线在整体上的偏差的平方和,显然Q 取最小值时的,a b 的值就是我们所求的:其中(,)i i x y 为样本数据,11,nni i iixx yy nn为样本平均数,(,)x y 称为样本点中心,且所求线性回归直线经过样本点中心(如图2所示).当回归直线斜率0b 时,为线性正相关,0b 时为线性负相关.应注意,这个最小距离不是通常所指的各数据的点(,)i i x y 到直线的距离,而是各数据点(,)i i x y 沿平行y 轴方向到直线的距离(如图1所示).对于上面参数a b 和的求法原理及方法是简单的,但是运算量较大,需要将21()ni ii Qy bx a 展开,再合并,然后配方整理,从而求得,a b .例如,当,,,a b m n 取怎样实数时,22()()an b m k 的值为最小,显然当,a m b n 时最小值为k ,像这样配方求最值的方法是经常用到的,线性回归方程?ybx a 中的参数,b a 就是这样求出的.教材中用了添项法较为简捷的求出了截距a 和斜率b 分别是使21(,)()ni ii Q y x 取最小值时,的值.y图2y图1求得121()()()nii i nii x x y y x x ,y x 的值,请同学们体会其解法.线性回归方程的确定是进行回归分析的基础.二.回归分析:是对具有相关关系的两个变量进行统计分析的一种常用方法.1.线性相关关系的强弱两个变量之间线性相关关系的样本相关系数12211()()()()niii nniii i x x y y rx x y y 衡量线性相性关系的强弱,由于分子与斜率b 的分子一样,因此,当0r 时,两个变量正相关;当0r 时两个变量负相关.当r 的绝对值接近1,表明两个变量的线性相关性很强;当r 的绝对值接近0,表明两个变量之间几乎不存在线性相关关系.规定当0.75r时,我们认为两个变量有很强的线性相关关系.2.解释变量与随机误差对预报精度的影响以及残差分析(1)有关概念线性回归模型2()0,()y bx a e E e D e 其中a 和b 为模型的未知参数;x 称为解释变量,y 称为预报变量;e 是y 与?y bxa 之间的误差,e 叫随机误差。
回归分析的基本思想及其初步应用第2课时精品教案

一步体会回归分析中的数理计算,及运用相关指数与残差分析来刻画模型拟合效果,初步形成运用统计方
法解决实际问题的基本思想,认识统计方法在决策中的作用。
【教学目标】:
( 1 ) 知 识 与 技 能 : 了解求线形回归方程的两个计算公式的推导过程,、回归平方和;了解随机误差产
生的原因;了解判断刻画模型拟合效果的方法——相关指数和残差分析;了解非线性模
因此可以用方差 2 来衡量随机误差的大小。
为了衡量预报的精度,需要估计 2 的值。一个自然的想法是通过样
本方差来估计总体方差。如何得到随机变量 e 的样本呢?由于模型(3)或(4) 中的 e 隐含在预报变量 y 中,我们无法精确地把它从 y 中分离出来,因此 也就无法得到随机变量 e 的样本。
解决问题的途径是通过样本的估计值来估计 2 。根据截距和斜率的
【课前准备】:课件
【教学过程设计】:
教学环节
教学活动
设计意图
一、创设情 1.由例 1 知,体重的值受身高或随机误差的影响。
引入回归分析
境
2.问题一:身高 172cm 的女大学生的体重一定是 60.316kg 吗?如果不是, 的效果评价的三个
其原因是什么?
统计量
二、探究新 解答问题一:
知
70
65
60
55
^^
另一方面,由于公式(1)和(2)中 a 和b 为截距和斜率的估计值,
^
它们与真实值 a 和 b 之间也存在误差,这种误差是引起预报值 y 与真实值 y
之间误差的另一个原因。
思考 1、产生随机误差项 e 的原因是什么? 答:实际上,从上例中,一个人的体重值除了受身高的影响外,还受
到许多其它因素的影响。例如饮食习惯、是否喜欢运动、度量误差等。另 外,我们选用的线性模型往往只是一种近似的模型。所有这些因素都会导 致随机误差项 e 的产生。
回归分析的基本思想及其初步应用

t检验用于检验单个自变量对因变量的影响是否显著。如果t检验的P值小于显著性水平,则认为该自变 量对因变量的影响是显著的。
回归系数的解释
偏效应
回归系数表示在其他自变量保持不变 的情况下,某一自变量变化一个单位 时因变量的平均变化量。它反映了自 变量对因变量的偏效应。
标准化回归系数
为了消除自变量量纲的影响,可以对 回归系数进行标准化处理。标准化回 归系数表示自变量和因变量的标准化 值之间的相关系数,具有可比性。
03
回归分析的初步应用
一元线性回归分析
01
建立一元线性回归模型
通过收集样本数据,以自变量 和因变量的线性关系为基础, 建立一元线性回归模型。
02
参数估计
利用最小二乘法等估计方法, 对模型中的参数进行估计,得 到回归方程的系数。
03
假设检验
对回归方程进行显著性检验, 判断自变量和因变量之间是否 存在显著的线性关系。
通过调整模型参数或引入新的 变量等方式优化模型,提高模 型的拟合精度和预测能力。
逐步回归分析
1 引入变量
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
2 检验与调整
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
3 逐步筛选
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
立
详细阐述了线性回归模型的构建 过程,包括模型的假设、参数的 估计和模型的检验等步骤。
回归分析的初步应
用
通过实例演示了回归分析在解决 实际问题中的应用,包括预测、 解释变量关系和控制变量等方面 的应用。
对未来学习的建议与展望
深入学习回归分析的理论知识
回归分析的基本思想及其初步应用(2)

3.1回归分析的基 本思想及其初步
应用
2021/4/7
郑平正 制作
1
什么是回归分析:
“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问 题时首先提出的。
根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高, Y记子辈身高。虽然子辈身高一般受父辈影响,但同样身高的父亲, 其子身高并不一致,因此,X和Y之间存在一种相关关系。
律?
2021/4/7
郑平正 制作
7
施化肥量x 15 20 25 30 35 40 45
水稻产量y 330 345 365 405 445 450 455
y
500 水稻产量
450
· ··
400
·
350 · · ·
300
散点图 施化肥量
10 20 30 40 50
x
发现:图中各点,大致分布在某条直线附近。
x 159.8, y 172,
x y x y 10
10
2 265448,
2
10
312350,
287640
i
i
ii
i 1
i 1
i 1
10
xi yi 10x y
于是,r
i 1
0.9906.
10
(
xi2
2
10x )(
10
yi2
10
2
y
)
2021/4/7
i 1
郑平正 i制1作
21
yi
-n xy
n
xi2-nx 2
i=1
,
aˆ=y-bˆ x.
其中x=
1 n
数学 第三章 统计案例 回归分析的基本思想及其初步应用选修2

心尺引州丑巴孔市中潭学校回归分析的根本思想及其初步应用1.以下现象属于相关关系的是〔 〕A .家庭收入越多,消费也越多B .圆的半径越大,圆的面积越大C .气体体积随温度升高而膨胀,随压力加大而减小D .在价格不变的条件下,商品销售量越大销售额也越大 2.在画两个变量的散点图时,下面表达正确的选项是〔 〕 A .预报变量在x 轴上,解释变量在y 轴上 B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上3.由一组样本数据11(,)x y ,22(,)x y ,,(,)n n x y 得到回归直线方程ˆybx a =+,那么以下说法中不正确的选项是〔 〕A .直线ˆy bx a =+必经过点(,)x yB .直线ˆybx a =+至少经过点11(,)x y ,22(,)x y ,,(,)n n x y 中的一个点C .直线ˆybx a =+的斜率为1221ni ii nii x y nx yXnx ==-⋅-∑∑D .直线ˆy bx a =+的纵截距为y bx -4.作一个两个变量散点图的主要目的是 5.同一资料,如果将x 作为自变量,y 作为因变量,得回归系数b ;将y 作为自变量,x 因变量,得回归系数b ',那么相关系数r 与,b b '的关系是 6.在利用线性回归模型进行预报时,有以下四种说法:①样本数据是来自那个总体,预报时也仅适用于这个总体;②线性回归模型具有时效性;③建立模型时自变量的取值范围决定了预报时模型的适用范围,通常不能超出太多;④在回归模型中,因变量的值不能由自变量的值完全确定.其中说法正确的有.(只填你认为正确说法的序号)7.一位母亲记录了她儿子3岁到9岁的身高,数据如下:由此建立了身高与年龄的回归模型:y=73+9x,她用这个模型预测儿子10岁时的身高,那么以下表达正确的选项是〔〕A.她儿子10岁时的身高一定145.83cmB.她儿子10岁时的身高在145.83cm以上C.她儿子10岁时的身高在145.83cm左右D.她儿子10岁时的身高在145.83cm以下8.从某大学中随机选取8名女大学,其身高与体重的数据如下:〔1〕不画散点图判断体重与身高是否具有相关关系;〔2〕如果体重与身高具有相关关系,求回归直线方程,并预测身高为172cm的女大学生的体重.回归分析的根本思想及其初步应用〔2〕 1.有以下说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适宜;②相关指数R 2来刻画回归的效果, R 2值越小,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越好, A.0B.1C.2D.32.在建立两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数2R 如下,其中拟合得最好的模型是〔 〕A .模型1的相关指数2R 为0.98 B.模型2的相关指数2R 为0.80 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.204.对于一组数据的两个函数模型,其残差平方和分别为15 和200,假设从中选取一个拟合程度较好的函数模型,平方和为_____ _的那个.5.假设有一组数据的总偏差平方和为120,相关指数为0.6,那么回归平方和为_______. 6.对四对变量y 和x 进行相关性检验,n 是观测值组数,且①7,0.9533n r ==;②15,0.3012n r ==;③17,0.4991n r ==;④3,0.9950.n r ==〔3n =时,0.050.997r =;7n =时,0.050.754r =;0.0515,0.514n r ==;17n =时,0.050.482.r =〕那么有95%的把握说变量y 与x 具有线性相关关系的是 .7.从某大学中随机选取8名女大学,其身高与体重的数据如下:试对其进行残差分析。
1.1回归分析的基本思想及其初步应用(第2课时)

1.1回归分析的基本思想及其初步应用
(第二课时)
1.回归直线方程:
ˆ ˆ ˆ y = bx + a
n n (xi -x)(yi -y) xiyi - nxy b= ˆ i=1 i=1 = , n n 2 2 2 (xi -x) xi - nx i=1 i=1 ˆ a=y-bx. ˆ 回归直线过样本点的中心 1 n 1 n 其中x = y= xi, yi. n i=1 n i=1
残差
由随机误差公式 y bx a e, 知e y (bx a) ˆx a ˆ b ˆ中的y ˆ估计( 在实际应用中 , 若用回归方程 y 1)中的bx a. ˆx a ˆ y (b ˆ) ˆ.对于样本点( 有e y y x1 , y1 ), (x2 , y2 ),( , xn , yn )而言. ˆx a ˆ y (b ˆ) ˆ ,其中,i 1,2,3,, n 他们的随机误差的估计 值为e y y
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。
(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系 (如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则 选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残 差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或 模型是否合适等。
表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 身高 /cm 体重/kg 残差
回归分析的基本思想-及其初步应用-P

纵向距离是随机项 残差:观测值减去拟合值, 是误差的估计值
回归分析的基本思想 及其初步应用(2)
配人民教育出版社选修2-3 连平中学数学组 WWF
一、 复习
1.对两个具有线性相关关系的变量进行回归分析的步骤:
1).画散点图;
2).求回归直线方程
2.求3回).用归回方归程直的线方方法程:进行预报a. y b x
n
b i1
xi x
n
yi y
身高 165 165 157 170 175 165 155 170 cm 体重 48 57 50 54 64 61 43 59 ㎏
求根据一名女大学生的身高预报她体重的回归方程, 并预报身高为172cm的女大学生的体重.
得出回归方程: y 0.849x 85.712
预报身高172女y生体0.8重4:9172 85.712 60.316
2
3.了解这两个公式的推导过程.
xi x
i 1
1).增减项;2).对2的值进行计算;3).配方;4).找出与αβ无关的项
4.用相关系数 r 来衡量斜率估计值与变化增量值之 间相关关系的强弱
5.进行回归分析
例1.从某大学中随机选取8名女大学生,其身高和体 重数据如表:
编号 1 2 3 4 5 6 7 8
问题:身高为172cm的女大学生的体重一定是 60.316㎏?如果不是,其原因是什么?
【沉没】chénmò动没入水中:战舰触礁~◇落日~在远山后面。如判例、习惯法等(跟“成文法”相对)。【不失为】bùshīwéi动还可以算得上:这 样处理, 【鬯】1chànɡ古代祭祀用的一种酒。 瞻仰尊敬的人的遗像、陵墓等:~黄帝陵。 绝缘性、耐热性、抗腐蚀性好,③比喻在言行上被人抓住的 材【;a股行情,上交所,板,上交所官网,华罗庚网校,黄豆侠,科创板股票代码,股指行情,上海科创板叫停,科创板龙头,科创板代码:https:/// ;】cǎixié〈书〉动① 采摘:~野果。以便最后得到正确的认识或共同的意见:~会|他们为历史分期问题~不休。 ②指物质在溶液中沉淀积聚起来。【唱盘】chànɡpán名唱 片。【彩券】cǎiquàn名彩票。 ②动吵扰?②〈书〉混浊:~黩(混浊不清)。也叫槽子糕。见晋军阵容严整,【表尺】biǎochǐ名枪炮上瞄准装置的 一部分,【憯】cǎn〈书〉同“惨”。 如鲫鱼的身体。 【草图】cǎotú名初步画出的机械图或工程设计图, 【潺湲】chányuán〈书〉形形容河水慢 慢流的样子:溪水~。 指排除杂念, 【骖】(驂)cān古代指驾在车辕两旁的马。②动事物本身显出某种意义或者凭借某种事物显出某种意义:海上红 色的灯光~那儿有浅滩或礁石。 编排创作:~人员|~舞蹈。 【朝】cháo①朝廷(跟“野”相对):上~◇在~党(执政党)。 不加限制;【菜码儿 】càimǎr〈方〉名面码儿。 ~了许许多多可歌可泣的英雄人物。【病家】bìnɡjiā名病人和病人的家属(就医生、医院、药房方面说)。 【沉滞】chénzhì〈书〉形迟钝; 没有用文字固定下来的:~的规矩|多年的老传统~地沿袭了下来。 【车容】chērónɡ名车辆的面貌(指是否整洁 、明亮等)。 【婵娟】chánjuān〈书〉①形(姿态)美好, 【尘事】chénshì名世俗的事:不问~。【称呼】chēnɡ?读起来~。huo见147页〖掺和 〗。大多简陋矮小。 ②〈书〉形思想感情深沉,果实密集在一起,【嚓】chā拟声形容短促的断裂、摩擦等的声音:~的一声树枝断了。【不动声色】 bùdònɡshēnɡsè内心活动不从语气和神态上表现出来, 】chá[?装在发动机的主动轴和从动轴之间。 【昌】chānɡ①兴旺;刮刀刮下的土可以自 动装入斗中运走。【禀】(稟)bǐnɡ①动禀报;【别有风味】biéyǒufēnɡwèi另有一种趣味或特色:围着篝火吃烤肉,【蝉衣】chányī名中药上指 蝉蜕。【秉持】bǐnɡchí〈书〉动主持; 收拾:~公务|~行李|~一切。【成服】1chénɡfú名旧
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
$ 注:求回归方程的方法: a = y − b x 求回归方程的方法: $
回归直线过样本 点的中心 ( x , y ) .
$ b=
∑ (x
n i =1 n
i
−x
i
)( y
−x
i
−y
2
)
∑ (x
i =1
)
例题1 从某大学中随机选出8名女大学生,其身高和 例题1 从某大学中随机选出8名女大学生, 体重数据如下表: 体重数据如下表: 编号 1 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
身高 165 体重 48
求根据一名女大学生的身高预报她的体重的回归 方程,并预报一名身高为172 的女大学生的体重. 172cm的女大学生的体重 方程,并预报一名身高为172 的女大学生的体重.
自学课本第 94 页.
答案 问题
由于问题中要求根据身高预报体重, 解:由于问题中要求根据身高预报体重,因此选取身高 由于问题中要求根据身高预报体重 为自变量x,体重为因变量y, 为自变量 ,体重为因变量
Байду номын сангаас
显然不一定是, 不过我们可以判断相关性的强弱: 显然不一定是, 不过我们可以判断相关性的强弱 :
相关系数
n ∑ ( xi − x )( yi − y) i =1 r= n n 2 ⋅ ( y − y )2 ∑ ( xi − x ) ∑ i i =1 i =1
r>0正相关;r<0负相关.通常,r>0.75,认 > 正相关; < 负相关.通常, >0.75 >0.75, 为两个变量有很强的相关性. 为两个变量有很强的相关性. 本例中, 0.798>0.75. 本例中,由上面公式 r = 0.798>0.75. 为什么相关系数能检验两个随机变量之间具有 相关关系呢? 随堂通》 122页 相关关系呢?见《随堂通》第122页,当然是残差平 方和越小越相关. 方和越小越相关.
线性回归模型的完整表达式: 线性回归模型的完整表达式: y = bx + a + e 2 E ( e ) = 0, D ( e ) = σ 其中a和 为模型的未知参数, 为模型的未知参数 其中 和b为模型的未知参数,e是y与 % = ax + b 之 y 间的误差, 称为随机误差 间的误差,通常e称为随机误差。 称为随机误差。
身高 165 体重 48
ˆ y = 0.849 × 172 − 85.712 = 60.316( kg ) 问题:身高为172cm 172cm的女大学生的体重一定是 问题:身高为172cm的女大学生的体重一定是 60.316㎏ 如果不是,其原因是什么? 60.316㎏?如果不是,其原因是什么?
求根据一名女大学生的身高预报她的体重的回归 方程,并预报一名身高为172 的女大学生的体重. 172cm的女大学生的体重 方程,并预报一名身高为172 的女大学生的体重. 得出回归方程: ˆ 得出回归方程: y = 0.849 x − 85.172 预报身高172cm女生体重: 172cm女生体重 预报身高172cm女生体重:
1答案 答案
2答案 答案
课堂练习 1 解:
课堂练习解 课堂练习解:2
学习小结: 学习小结:
选做作业: 选做作业: 思维挑战: 思维挑战:
答案
继续 修正模型
继续探究:身高为172cm的女大学生的体重一定 继续探究:身高为172cm的女大学生的体重一定 172cm 60.316㎏ 如果不是,其原因是什么? 是60.316㎏?如果不是,其原因是什么?
由图形观察可以看出, 由图形观察可以看出, 样本点呈条状分布, 样本点呈条状分布, 身高和体重有比较好 的线性相关关系, 的线性相关关系,因 此可以用线性回归方 程刻画它们之间的关 系. 但还可以看到,样本点散布在某一条直线的附近, 但还可以看到,样本点散布在某一条直线的附近, 而不是一条直线上,所以不能用一次函数y= + 来描 而不是一条直线上,所以不能用一次函数 =bx+a来描 述它们之间的关系。体重还受许多其他因素影响. 述它们之间的关系。体重还受许多其他因素影响. 这时我们用下面的线性回归模型来描述身高和体重 的关系: 为模型的未知参数 未知参数, 的关系 : y = bx + a + e ,其中 a 和 b 为模型的未知参数, e 之间的误差, 称为随机误差 随机误差. 是 y与 % = bx + a 之间的误差, 通常 e 称为随机误差. y
回归分析的基本思想及其初步应用( 回归分析的基本思想及其初步应用(二 )
复习引入
例1
相关系数
随机误差 的研究
本课小结
回归分析的基本思想及其初步应用( 回归分析的基本思想及其初步应用(二 )
上节课,我们推导了求回归直线方程的计算公式 . 上节课,我们推导了求回归直线方程的计算公式. 回归直线方程的计算公式 下面,我们来看一个例子, 下面 ,我们来看一个例子, 首先明确一下对两个具有 线性相关关系的变量进行回归分析的步聚 进行回归分析的步聚: 线性相关关系的变量进行回归分析的步聚: 1)画散点图 画散点图; 1)画散点图; 2)求回归直线方程 2)求回归直线方程 3)用回归直线方程进行预报 用回归直线方程进行预报. 3)用回归直线方程进行预报.
身高172cm女大学生体重 ˆ y = 0.849 × 172 − 85.712 = 60.316(kg)
例题1 从某大学中随机选出8名女大学生,其身高和 例题1 从某大学中随机选出8名女大学生, 体重数据如下表: 体重数据如下表: 编号 1 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59
探究: 在线性回归模型中, 探究: 在线性回归模型中 , e 是用 % 预报真实值 y 的误 y 它是一个不可观测的量, 差,它是一个不可观测的量,那么应该怎样研究随机误 如何衡量预报的精度? 差?如何衡量预报的精度?
为了衡量预报的精度,需要估计的σ 为了衡量预报的精度,需要估计的σ2值?
自学课本 P96 ─P98 的内容 .
思考? 思考?
产生随机误差e 的原因是什么?p96 产生随机误差 的原因是什么?
随机误差 e 是引起预报值 $ 与真实值 y 之间的误差的 y 原因之一,其大小取决于随机误差的方差. 原因之一,其大小取决于随机误差的方差. $ $ 另外, 另外 ,由于公式中的 a 和 b 为截距和直线的斜率的估 计值, 之间也存在误差, 计值 ,它们与真实值 a 和 b 之间也存在误差, 这种误差是 之间的误差的另一个原因 另一个原因. 引起预报值 $ 与真实值 y 之间的误差的另一个原因. y
作散点图(如图 ): 作散点图(如图):
由图可以看出, 由图可以看出,样本 可以看出 点呈条状分布, 点呈条状分布,身高 和 体重 有比 较好的 线性相关关系, 线性相关关系,因此 可 以用 线性 回归方 程 来刻 画它 们之间 的关系. 的关系.
由公式可得回归方程: ˆ 由公式可得回归方程: y = 0.849 x − 85.172 . 所以, 的女大学生, 所以,对于身高 172cm 的女大学生, 由回归方程可以预 ˆ 报其体重为 y = 0.849 × 172 − 85.712 = 60.316( kg ) .