2019-2020年高考总复习数学课件:第九章 第11讲 回归分析与独立性检验
统计学原理第九章相关与回归分析.2021完整版PPT

相关表
将现象之间的相互关系,用
表格的形式来反映。
STAT
简单 相关表
适用于所观察的样本单位数 较少,不需要分组的情况
分组 相关表
适用于所观察的样本单位数 较多标志变异又较复杂,需 要分组的情况
简单相关表
八个同类工业企业的月产量与生产费用STAT
企业编号 1 2 3 4 5 6 7 8
STAT
|r|=0 表示不存在线性关系;
|r|=1 表示完全线性相关;
0<|r|<1表示存在不同程度线性相关:
|r| < 0.4 为低度线性相关;
0.4≤ |r| <0.7为显著性线性相关;
0.7≤|r| <1.0为高度显著性线性相关。
判定系数
是相关系数的平方,用 r 2 表
示;用来衡量回归方程对y的
STAT
函数关系 指现象间所具有的严格的确定性 的依存关系
相关关系
指客观现象间确实存在,但数量 上不是严格对应的依存关系
函数关系和相关关系的联系和区别
➢二者在一定条件下可以相互转化。有些函STAT
数关系的变量间,由于有测量误差及各种随 机因素的干扰,可表现为相关关系;对具有 相关关系的变量有深刻了解之后,相关关系 有可能转化为函数关系。
STAT 65~70 fY
600~650
11
550~600
12
3
500~550
21
3
450~500
151
7
400~450
22
4
350~400
0
300~350 2
2
fX 2 2 3 5 4 3 1 20
相关图
数学高考总复习重点精品 《11回归分析的基本思想及其初步应用》2 新人教A版选修12PPT课件

思考:相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一 般的情况
问题2:对于线性相关的两个变量用什么方法 来刻划之间的关系呢?
2、最小二乘估计 最小二乘估计下的线性回归方程:
yˆ bˆx aˆ
选修1-2
(一)
标题添加
点击此处输入相 关文本内容
前言
点击此处输入 相关文本内容
标题添加
点击此处输入相 关文本内容
点击此处输入 相关文本内容
2
必修3(第二章 统计)知识结构
收集数据
(随机抽样)
整理、分析数据 估计、推断
用样本估计总体 变量间的相关关系
简 分 系 用样本 用样本
线
单 层 统 的频率 数字特
n
(xi X )( yi Y )
bˆ i1 n
(X i X )2
i 1
aˆYbˆX
例如:
对一作直线运动的质点的运动过程作了8次观 测,得到下表,试估计x=9s时的位置y的值。
时刻 x/s
1
2
3
4
5ቤተ መጻሕፍቲ ባይዱ
6
7
8
位置观 测值 5.54 7.52 10.02 11.73 15.69 16.12 16.98 21.06
xi2 1
4
9
16 25 36 49 64 204
3、回归分析的基本步骤:
画散点图 求回归方程 预报、决策
数学3——统计 1. 画散点图 2. 求出b,a的值。 3. 求回归直线方程 4. 用回归直线方程解决应用问题
思考:在时刻x=9s时,质点运动位置一定 是22.6287cm吗?
《回归分析专题》PPT课件

改进阶段
{预测带
} 置信带
C.I. = 置信区间 (95%置信度表示所有数据的平均值都位于此带内) P.I. = 预测区间 (95%置信度表示单个数据点位于此带内)
编辑ppt
19
SIXSSIIGXMASIMIPGLEMMEANT
会话窗口中的信息与早期生成的信息相同……
改进阶段
无法否定Ho: 接受Ha:
。
编辑ppt
20
SIXSSIIGXMASIMIPGLEMMEANT
改进阶段
课堂练习:
您相信我们的家电所占据的展示厅面积的大小会影响销售量。您已经收集了过去12个月内 ,多个零售点销售量与总的占地面积方面的数据。现在,您希望分析这些数据,看占地面 积是否确实与年销售量存在某种关系。
在Minitab输入以下数据:
SIXSSIIGXMASIMIPGLEMMEANT
改进阶段
单变量回归
编辑ppt
1
SIXSSIIGXMASIMIPGLEMMEANT
改进阶段
单变量回归
目的: 介绍作为实证模型建立方法的回归分析,以模拟具有连续响应变量“ Y” 的过程。 (定义:‘实证’-基于观测值或事实)
目标:
• 确定何时使用回归,以及为什么使用。
改进阶段
附录
编辑ppt
23
SIXSSIIGXMASIMIPGLEMMEANT
改进阶段
回归术语
r: R-Sq:
R-Sq(Adj): 估计值的 标准误差 回归均方 (MS回归) F-比率:
p-值:
多重回归的相关系数(r)。越接近+/-1,模型拟合越好。‘ 0’表示无线性关系。
相关系数的平方(R2)。R2的值越接近100%,说明可能存在关系,由模型解释的 变差的百分比越高。
考点11 回归分析与独立性检验(学生版)

考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。
〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。
2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。
4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。
〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。
2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。
高考数学一轮复习 9.5 回归分析与独立性检验精品课件 文 新人教A版

≈ 0 .999
(518 -1× 6 2 202 0 )0 5 (54.4 5 -17 × 2 72 .6 2 2)
查得r0.05=0.576,
因r>r0.05,说明变量Y与x之间具有线性相关关系.
.
12
返回目录
(2) b=15812-8 19-1 × 6 242× 203 20×07 05 2.6 2 5≈0.304
.
4
返回目录
1.随机误差
由于所有的样本点不共线,而只是散布在某一条直
线的附近,实际上,y=bx+a+e,e是y与 =y ˆbx+a之间
的误差.通常e为随机变量,称为随机误差,它的均值
E(e)=0,方差D(e)=σ2>0.这样线性回归模型的完整表
达式为
{ y=bx+a+e E(e)=0,D(e)=σ2 .
1 32.2 25.0
2 31.1 30.0
3 32.9 34.0
4
5
35.8 37.1
37.0 39.0
第几年 城市居民年收入(亿元) 某商品销售额(万元)
6 38.0 41.0
7 39.0 42.0
8 43.0 44.0
9 10 44.6 46.0 48.0 51.0
.
14
返回目录
(1)画出散点图; (2)如果散点图中的各点大致分布在一条直线附近, 求Y与x之间的回归直线方程.
X 150 160 170 180 190 200 210 220 230 240 250 260 Y 56.9 58.3 61.6 64.6 68.1 71.3 74.1 77.4 80.2 82.6 86.4 89.7
.
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
第11讲回归分析

三、线性回归
5. SPSS操作及案例分析
进一步分析:
一、“回归”起源
Galton通过上述研究发现儿子的平均身高一般总是介于其父亲与其种族的 平均高度之间,即儿子的身高在总体上有一种“回归”到其所属种族高度的趋 势,这种现象称为回归现象,贯穿数据的直线称为回归线。
回归概念产生以后,被广泛应用于各个领域之中,并成为研究随机变量与一个或多 个自变量之间变动关系的一种统计分析技术。
相关系数R=0.916、判定系数R2=0.839、调整判定系数R2=0.830,说明自变量可 以解释因变量83.9%的变异,回归方程的拟合优度高。D-W值=2.06,表明残差具有
独立性。
表1 Variables Entered/Removebd
Model 1
Variables Entered 房 产a评 估 价值
线性回归分析 曲线估计分析 二维逻辑分析 多维逻辑分析 顺序分析 概率分析 非线性回归分析 加权估计分析 两阶最小二乘分析
第十一页,共59页。
线性回归
第十二页,共59页。
三、线性回归
1. 线性回归的概念
线性函数是变量之间存在的各种关系中最简单的形式,具有这种关系的回归叫做线 性回归。
拟合优度检验采用判定(决定)系数 (一元)和调整判定(决定)系数
(多元),来检验。其中R是自变量x和因R变2 量y之间的相关系数。
R2
和
R2 R 2
取值范围是0~1,越接近1表示拟合优度越高,反之就越低。
第十五页,共59页。
三、线性回归
3. 线性回归方程的统计检验 回归方程的显著性检验
y01x
y 0 1 x 1 2 x 2 . ..n x n
回归分析学习课件PPT课件

为了找到最优的参数组合,可以使用网格搜索方 法对参数空间进行穷举或随机搜索,通过比较不 同参数组合下的预测性能来选择最优的参数。
非线性回归模型的假设检验与评估
假设检验
与线性回归模型类似,非线性回归模型也需要进行假设检验,以检验模型是否满足某些统计假 设,如误差项的独立性、同方差性等。
整估计。
最大似然法
03
基于似然函数的最大值来估计参数,能够同时估计参数和模型
选择。
多元回归模型的假设检验与评估
线性假设检验
检验回归模型的线性关系 是否成立,通常使用F检 验或t检验。
异方差性检验
检验回归模型残差的异方 差性,常用的方法有图检 验、White检验和 Goldfeld-Quandt检验。
多重共线性检验
检验回归模型中自变量之 间的多重共线性问题,常 用的方法有VIF、条件指数 等。
模型评估指标
包括R方、调整R方、AIC、 BIC等指标,用于评估模 型的拟合优度和预测能力。
05
回归分析的实践应用
案例一:股票价格预测
总结词
通过历史数据建立回归模型,预测未来股票 价格走势。
详细描述
利用股票市场的历史数据,如开盘价、收盘价、成 交量等,通过回归分析方法建立模型,预测未来股 票价格的走势。
描述因变量与自变量之间的非线性关系,通过变 换或使用其他方法来适应非线性关系。
03 混合效应回归模型
同时考虑固定效应和随机效应,适用于面板数据 或重复测量数据。
多元回归模型的参数估计
最小二乘法
01
通过最小化残差平方和来估计参数,是最常用的参数估计方法。
加权最小二乘法
02
适用于异方差性数据,通过给不同观测值赋予不同的权重来调
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
n
(xi x)( yi y)
xi yi nx y
b i1 n
(xi x)2
i1
i1 n
xi2
2
nx
i1
a y bx
其中-x =1n n xi ,-y =1n n yi ,(-x ,-y )称作_样__本__点__的__中__心___.
i1
×(176-176)+(176-173)×(182-176)=18,
3
(xi- x )2=(173-173)2+(170-173)2+(176-173)2=18.
i1
∴b^=1188=1.∴a^= y -b^ x =176-173=3. ∴回归直线方程为^y=b^x+a^=x+3. ∴可估计孙子的身高为 182+3=185(cm).
xi yi nx y
xi2
2
nx
,a^=-y -b^-x .其中-x =1n
n i1
xi
,-y =1n
n i1
yi
,点(-x ,
i1
-y )称为样本点的中心,回归直线都经过样本点的中心.
【互动探究】
1.根据如下样本数据:
x
3
4
5
6
y
4.0
2.5 -0.5 0.5
7 -2.0
得到的回归方程为^y=b^x+a^,则( )
有网友为此进行了调查,在参加调查的 2548 名男性公民中有 1560 名持反对意见,2452 名女性公民中有 1200 人持反对意见, 在运用这些数据说明中国的奖牌数是否与中国进入体育强国有
无关系时,用什么方法最有说服力( )
A.平均数与方差
B.回归直线方程
C.独立性检验
D.概率
解析:由于参加讨论的公民按性别被分成了两组,而且每 一组又被分成了两种情况:认为有关与无关,故该资料取自完 全随机统计,符合 2×2 列联表的要求.故用独立性检验最有说 服力.
像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设
有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和{y1, y2},其样本频数列联表(称为 2×2 列联表)为
2×2 列联表
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计
a+b c+d a+b+c+d
1.变量间的关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另 一类是相关关系.与函数关系不同,相关关系是一种非确定性关 系.
(2)将样本中 n 个数据点(xi,yi)(i=1,2,…,n)描在平面直角 坐标系中,表示两个变量关系的一组数据的图形叫做散点图.
(3)正相关、负相关. ①在散点图中,点散布在从左下角到右上角的区域,两个
n
( yi yi )2
R2=1-
i1 n
.
( yi y)2
i1
R2 的值越大,说明残差平方和越小,也就是说模型的拟合
效果越好.在线性回归模型中,R2 表示解释变量对于预报变量变
化的贡献率,R2 越接近于 1,表示回归的效果越好.
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,
由于该部分内容的特殊性, 高考对该部分的考查一直 非 常 慎 重 .高考在该部分 的主要命题点就是回归分 析和独立性检验的基础知 识和简单应用.因此,复 习时要掌握好回归分析和 独立性检验的基本思想、 方法和基本公式.此部分 内容也可能结合概率统计 的其他内容命制综合解答 题.另外,复习时要把独 立性ቤተ መጻሕፍቲ ባይዱ验作为重点
答案:185
考点 2 回归分析的综合运用 例 2:(2015 年新课标Ⅰ)某公司为确定下一年度投入某种 产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单 位:t)和年利润 z(单位:千元)的影响,对近 8 年的宣传费 xi 和 年销售量 yi(i=1,2,…,8)数据作了初步处理,得到下面的散点 图(如图 9-11-1)及一些统计量的值.
变量的这种相关关系称为正相关. ②在散点图中,点散布在从左上角到右下角的区域,两个
变量的这种相关关系称为负相关.
2.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种 常用方法. (2)线性相关关系: 观察散点图的特征,如果散点图中点的分布从整体上看大 致在一条直线附近,我们就称这两个变量之间具有线性相关关 系,这条直线叫做回归直线. (3)回归直线的求法:
图 9-11-1
xy 46.6 563
w
8 ( xi--x )2 8 ( wi--w )2
i1
i1
6.8 289.8
1.6
8
(
xi--x )(yi--y )
i1
1469
8
(
wi--w )(yi--y )
i1
108.8
表中 wi= xi , w =18 8 i . i1
(1)根据散点图判断,y=a+bx 与 y=c+d
2012年新课标第3题考查样本的 相关系数; 2014年新课标 Ⅱ 第 19题考查非 线性拟合、线性回归方程求法, 利用回归方程进行预报预测; 2015年新课标 Ⅰ 第 19题考查非 线性拟合、线性回归方程求法, 利用回归方程进行预报预测; 2016年新课标 Ⅲ 第 18题考查非 线性拟合、线性回归方程求法, 利用回归方程进行预报预测; 2017年新课标 Ⅰ 第 19题(1)考查 样本的相关系数;新课标 Ⅱ 第 19题考查独立性检验
=b′x+a′,则以下结论正确的是( )
A.b^>b′,a^>a′ C.b^<b′,a^>a′
B.b^>b′,a^<a′ D.b^<b′,a^<a′
解析:由表格知,-x =261=72,-y =163. 则b^=1×0+2×122++232×+13+2+4×42+3+525+×632+-66××472-2 6×72×163 =57, a^=-y -b^-x =163-57×72=-13. 由两组数据(1,0)和(2,2),得-x ′=32,-y ′=1.
②当年宣传费 x 为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回
归直线 v=α^ +β^ u 的斜率和截距的最小二乘估计公式分别为
n
β^=
i1
(ui
n
u)(i
)
,α^=-υ -β^-u .
(ui u)2
i1
解:(1)由散点图可以判断,y=c+d x适合作为年销售 y
构造一个随机变量 K2=a+bcn+add-ab+cc2b+d, 其中 n=___a_+__b_+__c_+__d__为样本容量.
(3)独立性检验: 利用随机变量 K2 来判断“两个分类变量有关系”的方法称 为独立性检验.
1.第 31 届夏季奥林匹克运动会,中国获 26 金,18 银,26 铜共 70 枚奖牌居奖牌榜第二,并打破 3 次世界纪录.由此许多 人认为中国进入了世界体育强国之列,也有许多人持反对意见.
第11讲 回归分析与独立性检验
考纲要求
考点分布
考情风向标
1.会作两个有关联变量的数 据的散点图,会利用散点图 认识变量间的相关关系. 2.了解最小二乘法的思想, 能根据给出的线性回归方程 系数公式建立线性回归方程. 3.了解下列一些常见的统计 方法,并能应用这些方法解 决一些实际问题. (1)了解独立性检验(只要求 2×2列联表)的基本思想、方 法及其简单应用. (2)了解回归的基本思想、方 法及其简单应用
则 b′=1×102++22×2-2-2×2×32322×1=2, a′=-y ′-b′-x ′=1-2×32=-2. 综上所述,b^<b′,a^>a′.故选 C.
答案:C
【 规 律 方 法 】 回 归 直 线 方 程 为 ^y = b^ x + a^ , 其 中 b^ =
n
i1 n
相关系数.
②当 r>0 时,表明两个变量正相关;
当 r<0 时,表明两个变量__负__相__关__.
r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r
的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关
关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相关性.
(5)相关指数:
故可以排除选项 C 和 D.
因为样本点的中心在回归直线上,把点(3,3.5)分别代入选
项 A 和 B 中的直线方程进行检验,可以排除 B.故选 A.
3.通过随机询问 110 名性别不同的大学生是否爱好某项运
动,得到如下的列联表:
项目
男
爱好
40
不爱好
20
总计
60
女
总计
20
60
30
50
50
110
由 K2=a+bcn+add-ab+cc2b+d算得:
K2=110×60×405×0×306-0×205×0 202≈7.8.
附表:
P(K2≥k)
0.050
0.010
k
3.841
6.635
参照附表,得到的正确结论是( A )
0.001 10.828
A.有 99%以上的把握认为“爱好该项运动与性别有关”
B.有 99%以上的把握认为“爱好该项运动与性别无关”
A.a^>0,b^<0
B.a^>0,b^>0
C.a^<0,b^<0
D.a^<0,b^>0
8 -3.0