线性回归方程分析
回归分析

回归系数,因此失去两个自由度。 回归系数,因此失去两个自由度。
♦
dfR=dfT-dfE=1
⑷.计算方差
♦ ♦
回归方差 残差方差
SS R MS R = df R
SS E MS E = df E
⑷.计算F ⑷.计算F值
MS R F= MS E
⑹.列回归方程的方差分析表
表21-1 回归方程方差分析表
变异 来源 回归 残差 总变异 平方和 自由度 方差 F 值 概率
♦
β=0 H0:β=0 H1:β≠0
♦
统计量计算
ΣX 2 − (ΣX ) / n bYX t= = bYX ⋅ SEb MS E
2
50520 − 710 2 / 10 = 1.22 × = 3.542 13.047
二.一元线性回归方程的评价── 二.一元线性回归方程的评价── 测定系数
♦
一元线性回归方程中, 一元线性回归方程中,总平方和等于回归平
2 2
SS R = SST
(21.5)
r2
X的变异
Y的变异
图21-1 21-
测定系数示意图
图21-2 21-
测定系数示意图
♦
例3:10名学生初一对初二年级数学成 10名学生初一对初二年级数学成
绩回归方程方差分析计算中得到: 绩回归方程方差分析计算中得到:
♦ SST=268.1
♦
2
SSR=163.724
数学成绩估计初二数学成绩的回归方程; 数学成绩估计初二数学成绩的回归方程;将另一 学生的初一数学成绩代入方程, 学生的初一数学成绩代入方程,估计其初二成绩
Y = 1.22 X − 14.32 = 1.22 × 76 − 14.32 = 78.4
线性回归分析ppt课件

21
多元回归分析中的其他问题 u变量筛选问题 Ø向前筛选策略
解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高 线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑 选与解释变量偏相关系数最高并通过检验的变量进入回归方程。 Ø向后筛选策略
变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并 检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验 值最小的变量。 Ø逐步筛选策略
合准则。
最小二乘法将偏差距离定义为离差平方和,即
n
Q( 0, 1, p) ( yi E( yi ))2
i 1
最小二乘估计就是寻找参数β0
、β1、…
βp的估计
值β̂0 、β ̂1、… β ̂p,使式(1)达到极小。通过
求极值原理(偏导为零)和解方程组,可求得估计值,
SPSS将自动完成。
每个解释变量进 入方程后引起的 判定系数的变化 量和F值的变化 量(偏F统计量)
输出个解释变量 和被解释变量的 均值、标准差、 相关系数矩阵及 单侧检验概率值
输出判定系数、 调整的判定系数、 回归方程的标准 误、回归方程显 著性检验的方差 分析表
输出方程中各解 释变量与被解释 变量之间的简单 相关、偏相关系 数和部分相关
30
n回归分析的其他操作
Ø选项
DW值
输出标准化残差 绝对值大于等于 3(默认)的样 本数据的相关信 息
多重共线性分 析: 输出各解释变 量的容忍度、 方差膨胀因子、
特征值、条件 指标、方差 比例等
31
n回归分析的其他操作
Ø选项
•标准化预测值 •标准化残差 •剔除残差 •调整的预测值 •学生化残差 •剔除学生化残差
线性回归分析

线性回归分析线性回归分析是一种常见的统计分析方法,主要用于探索两个或多个变量之间的线性关系,并预测因变量的值。
在现代运营和管理中,线性回归分析被广泛应用于市场营销、财务分析、生产预测、风险评估等领域。
本文将介绍线性回归分析的基本原理、应用场景、建模流程及常见误区。
一、基本原理线性回归分析基于自变量和因变量之间存在一定的线性关系,即当自变量发生变化时,因变量也会随之发生变化。
例如,销售额与广告投入之间存在一定的线性关系,当广告投入增加时,销售额也会随之增加。
线性回归分析的目标是找到这种线性关系的最佳拟合线,并利用该线性方程来预测因变量的值。
二、应用场景线性回归分析可以应用于许多不同的领域,例如:1.市场营销。
通过分析销售额和广告投入之间的关系,企业可以确定最佳的广告投入量,从而提高销售额。
2.财务分析。
线性回归分析可以用于预测公司的收入、费用和利润等财务指标,并帮助企业制定有效的财务战略。
3.生产预测。
通过分析生产量和生产成本之间的关系,企业可以确定最佳的生产计划,从而提高生产效率。
4.风险评估。
通过分析不同变量之间的关系,企业可以评估各种风险并采取相应的措施,从而减少损失。
三、建模流程线性回归分析的建模流程包括以下步骤:1.确定自变量和因变量。
自变量是用来预测因变量的变量,而因变量是需要预测的变量。
2.收集数据。
收集与自变量和因变量相关的数据,并进行初步的数据处理和清理工作。
3.拟合最佳拟合线。
利用最小二乘法拟合最佳拟合线,并计算相关的统计指标(如拟合优度、标准误等)。
4.判断线性关系的签ificance。
利用t检验或F检验来判断线性关系的签ificance,并进行推断分析。
5.进行预测。
利用已知的自变量的值,通过线性方程来预测因变量的值。
四、常见误区在进行线性回归分析时,有一些常见的误区需要注意:1.线性假设误区。
线性回归分析建立在自变量和因变量之间存在线性关系的基础之上,如果这种关系不是线性的,则建立的回归模型将失效。
线性回归分析

表:小区超市的年销售额(百万元)与小区常住人口数(万人)统计表
24
10
01-03 回归分析的应用
分析步骤:(一)
11
01-03 回归分析的应用
分析步骤:(二)
反映模型的拟合度
12
01-03 回归分析的应用
分析步骤:(三) • 一元线性回归 y=kx+b
第三组数据的第1个数据(301.665)是回归直线的截距b,第2个数据( 44.797)也叫回归系数,其实就是回归直线的斜率k。
某一类回归方程的总称回归分析的概念50102?分类1回归分析按照涉及的变量多少分为一一元回归分析多元回归分析2按照自变量和因变量之间的关系类型可分为线性回归分析非线性回归分析回归分析的概念60102?步骤回归分析的概念1
Contents 内 容
01 回归分析的起源 02 回归分析的概念 03 回归分析的应用
22
01-03 回归分析的应用
想一想 做一做:
已 知 2009 — 2015 年 淘 宝 “ 双 11 ” 当天销量统计如图所示,请利用散 点图进行回归分析,模拟淘宝“双 11 ” 的 销 量 变 化 规 律 , 并 预 测 2016年的销量。
23
01-03 回归分析的应用
两种回归分析工具使用总结: • 利用回归分析工具进行线性回归的优缺点如下: ① 优点:可以进行一元线性回归,也可以进行多元线性回归。 ② 缺点:只能进行线性回归,不能直接进行非线性回归。 • 利用散点图和趋势线进行回归分析的优缺点如下: ① 优点:不仅能进行线性回归,还能进行非线性回归。 ② 缺点:只能进行一元回归,不能进行多元回归。
线性回归分析

一元线性回归分析1.理论回归分析是通过试验和观测来寻找变量之间关系的一种统计分析方法。
主要目的在于了解自变量与因变量之间的数量关系。
采用普通最小二乘法进行回归系数的探索,对于一元线性回归模型,设(X1,Y1),(X2,Y2),…,(X n,Y n)是取至总体(X,Y)的一组样本。
对于平面中的这n个点,可以使用无数条曲线来拟合。
要求样本回归函数尽可能好地拟合这组值。
综合起来看,这条直线处于样本数据的中心位置最合理。
由此得回归方程:y=β0+β1x+ε其中Y为因变量,X为解释变量(即自变量),ε为随机扰动项,β0,β1为标准化的偏斜率系数,也叫做回归系数。
ε需要满足以下4个条件:1.数据满足近似正态性:服从正态分布的随机变量。
2.无偏态性:∑(εi)=03.同方差齐性:所有的εi 的方差相同,同时也说明εi与自变量、因变量之间都是相互独立的。
4.独立性:εi 之间相互独立,且满足COV(εi,εj)=0(i≠j)。
最小二乘法的原则是以“残差平方和最小”确定直线位置。
用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。
最常用的是普通最小二乘法(OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小。
线性回归分析根据已有样本的观测值,寻求β0,β1的合理估计值^β0,^β1,对样本中的每个x i,由一元线性回归方程可以确定一个关于y i的估计值^y i=^β0+^β1x i,称为Y关于x的线性回归方程或者经验回归公式。
^β0=y-x^β1,^β1=L xy/L xx,其中L xx=J12−x2,L xy=J1−xy,x=1J1 ,y=1J1 。
再通过回归方程的检验:首先计算SST=SSR+SSE=J1^y−y 2+J1−^y2。
其中SST为总体平方和,代表原始数据所反映的总偏差大小;SSR为回归平方和(可解释误差),由自变量引起的偏差,放映X的重要程度;SSE为剩余平方和(不可解释误差),由试验误差以及其他未加控制因子引起的偏差,放映了试验误差及其他随机因素对试验结果的影响。
第章线性回归分析详解演示文稿

上式表明:y的变化可由两部分解释:第一,由解释
变量x的变化引起的y的线性变化部分,即y=β0+β1x; 第二,由其他随机因素引起的y的变化部分,即ε。 β0 、β1 都是模型中的未知参数,β0为回归常数,β1为 y对x回归系数(即x每变动一个单位所引起的y的平
一元二乘估计:
多元二乘估计(略)
第十一页,共52页。
9.3回归方程的统计检验
拟合优度检验 回归方程的显著性检验
回归系数的显著性检验 残差分析
第十二页,共52页。
9.3.1回归方程的拟合优度检验
用于检验样本数据点聚集在回归线周围的密集程度, 从而评价回归线对样本数据的代表程度。 思想:因变量y(儿子身高)取值的变化受两个因素
第二十九页,共52页。
第二、计算残差的自相关系数 自相关系数用于测定序列自相关强弱,其取值范围 -1~+1,接近1表明序列存在正自相关
第三十页,共52页。
第三、DW(durbin-watson)检验
DW检验用于推断小样本序列是否存在自相关的方法。其原 假设为:总体自相关系数ρ与零无显著差异。采用统计量 为:
的影响:自变量x(父亲身高)不同取值的影响,其 他因素(环境、饮食等)的影响。
可表示如下:
因变量总变差 = 自变量引起的 + 其他因素引起的 即因变量总变差= 回归方程可解释的+不可解释的 即,因变量总离差平方和SST =回归平方和 SSA + 剩余平
方和SSE
第十三页,共52页。
图示:
y y i
素对 y 的影响造成的。
第十五页,共52页。
一、一元线性回归方程
拟合优度的检验采用R2统计量,称为判定系数
总结:线性回归分析的基本步骤

线性回归分析的基本步骤步骤一、建立模型知识点:1、总体回归模型、总体回归方程、样本回归模型、样本回归方程①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。
Y X Uβ=+特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。
例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周消费(Y )数据如下:每周收入(X )每周消费支出(Y )805560657075 100657074808588 1207984909498 140809395103108113115160102107110116118125 180110115120130135140 200120136140144145 220135137140152157160162240137145155165175189 260150152175178180185191作出其散点图如下:②总体回归方程(线):由于假定,因此因变量的均值与自变0EU =量总处于一条直线上,这条直线就称为总体回归线(方()|E Y X X β=程)。
总体回归方程的求法:以例1的数据为例1)对第一个X i ,求出E (Y |X i )。
每周收入(X )每周消费支出(Y )E (Y |X i )805560657075 65100657074808588 771207984909498 89140809395103108113115101160102107110116118125 113180110115120130135140 125200120136140144145 137220135137140152157160162149240137145155165175189 161260150152175178180185191173由于()01|i i i E Y X X ββ=+,因此任意带入两个X i 和其对应的E (Y |X i )值,即可求出01ββ一,并进而得到总体回归方程。
回归曲线方程

回归曲线方程一、引言回归分析是一种统计学方法,用于研究自变量与因变量之间的相关关系,并通过对自变量的已知值来预测因变量的未知值。
回归曲线方程是回归分析中常用的数学模型,用于描述因变量如何随自变量的变化而变化。
本文将介绍回归曲线方程的种类、参数估计以及应用。
二、回归曲线方程的种类1.线性回归方程:线性回归方程是最简单的回归模型,其形式为y=ax+b,其中a是斜率,b是截距。
线性回归方程假设因变量y与自变量x之间存在线性关系。
2.多项式回归方程:当线性回归方程不能很好地拟合数据时,可以考虑使用多项式回归方程。
多项式回归方程的一般形式为y=a0+a1x+a2x2+…+anxn,其中an是最高次项的系数。
3.非线性回归方程:非线性回归方程的形式与线性回归方程类似,但关系不是线性的。
常见的非线性回归方程包括对数回归方程、指数回归方程等。
三、回归曲线方程的参数估计在建立回归曲线方程后,需要估计方程中的参数。
最小二乘法是最常用的参数估计方法,其基本思想是通过最小化预测值与实际观测值之间的平方误差来估计参数。
最小二乘法能够给出参数的“最佳”估计值,使得预测值与实际观测值之间的差距最小。
四、回归曲线方程的应用1.生物医学研究:在生物医学领域中,回归曲线方程常被用来分析生物标志物与疾病之间的关系,或者评估治疗效果与药物剂量的关系。
通过建立回归曲线方程,可以更好地理解生物系统的复杂性和动态性。
2.社会科学调查:在社会科学调查中,回归曲线方程可以用于研究各种社会问题,例如收入水平、教育程度、性别等因素对就业的影响。
通过回归分析,能够深入了解各种因素之间的相关关系和因果关系。
3.工程领域:在工程领域中,回归曲线方程可以用于分析工程数据,例如机械性能、材料强度等。
通过建立回归曲线方程,可以更好地了解工程系统的性能和行为,优化设计并提高产品质量。
4.环境监测:在环境监测中,回归曲线方程可以用于分析环境因素与生态系统之间的关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
环球雅思学科教师辅导讲义讲义编号: 组长签字: 签字日期:学员编号: 年 级: 高二 课时数:3 学员姓名: 辅导科目: 数学 学科教师:闫建斌 课 题 线性回归方程授课日期及时段 2014-2-11 18:00-20:00 教学目标 线性回归方程基础 重点、难点教 学 内 容1、本周错题讲解2、知识点梳理1.线性回归方程①变量之间的两类关系:函数关系与相关关系 ②制作散点图,判断线性相关关系③线性回归方程:a bx y +=∧(最小二乘法)最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法1221ni i i ni i x y nx y b x nx a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 注意:线性回归直线经过定点),(y x 2.相关系数(判定两个变量线性相关性):∑∑∑===----=ni ni i ini i iy y x xy y x xr 11221)()())((注:⑴r >0时,变量y x ,正相关;r <0时,变量y x ,负相关;⑵①||r 越接近于1,两个变量的线性相关性越强;②||r 接近于0时,两个变量之间几乎不存在线性相关关系。
3.线形回归模型:⑴随机误差e :我们把线性回归模型e a bx y ++=,其中b a ,为模型的未知参数,e 称为随机误差。
随机误差a bx y e i i i --=⑵残差eˆ:我们用回归方程a x b y ˆˆˆ+=中的y ˆ估计a bx +,随机误差)(a bx y e +-=,所以y y e ˆˆ-=是e 的估计量,故a x b y y y e ii i i i ˆˆˆˆ--=-=,e ˆ称为相应于点),(i i y x 的残差。
⑶回归效果判定-----相关指数(解释变量对于预报变量的贡献率) 22121ˆ()1()niii niii y yR y y ==-=--∑∑(2R 的表达式中21)(∑=-ni i y y 确定)注:①2R 得知越大,说明残差平方和越小,则模型拟合效果越好;②2R 越接近于1,,则回归效果越好。
4.独立性检验(分类变量关系):(1)分类变量:这种变量的不同“值”表示个体所属的不同类别的变量。
(2)列联表:列出两个分类变量的频数表,称为列联表。
(3)对于22⨯列联表:2K 的观测值))()()(()(2d b c a d c b a bc ad n k ++++-=。
(4)临界值0k 表:)(02k k P ≥ 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k0.4550.7081.3232.072 2.7063.841 5.024 6.635 7.879 10.828如果0k k ≥,就推断“Y X ,有关系”,这种推断犯错误的概率不超过α;否则,在样本数据中没有发现足够证据支持结论“Y X ,有关系”。
(5)反证法与独立性检验原理的比较:反证法原理 在假设0H 下,如果推出矛盾,就证明了0H 不成立。
独立性检 验原理在假设0H 下,如果出现一个与0H 相矛盾的小概率事件,就推断0H 不成立,且该推断犯错误的概率不超过这个小概率。
典型例题1.(2011·山东)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x /万元 4 2 3 5 销售额y /万元49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为 ( ).A .63.6万元B .65.5万元C .67.7万元D .72.0万元 解析 ∵x -=4+2+3+54=72,y -=49+26+39+544=42,又y ^=b ^x +a ^必过(x -,y -),∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元). 答案 B2.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178 儿子身高y /cm175175176177177则y 对x 的线性回归方程为 ( ). A.y ^=x -1 B.y ^=x +1 C.y ^=88+12x D.y ^=176解析 因为x -=174+176+176+176+1785=176,y -=175+175+176+177+1775=176,又y 对x 的线性回归方程表示的直线恒过点(x -,y -), 所以将(176,176)代入A 、B 、C 、D 中检验知选C. 答案 C3.(2011·陕西)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( ).A .x 和y 的相关系数为直线l 的斜率B .x 和y 的相关系数在0到1之间C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同D .直线l 过点(x -,y -)解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的 绝对值越接近1,两个变量的线性相关程度越强,所以A 、B 错误.C 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以C 错误.根据回 归直线方程一定经过样本中心点可知D 正确,所以选D. 答案 D4.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:时间x 1 2 3 4 5 命中率y0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.解析 小李这5天的平均投篮命中率 y -=0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x -=3.根据表中数据可求得b ^=0.01,a ^= 0.47,故回归直线方程为y ^=0.47+0.01x ,将x =6代入得6号打6小时篮球的 投篮命中率约为0.53. 答案 0.5 0.535.(2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元. 解析 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 答案 0.2546.(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2002 2004 2006 2008 2010 需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=b ^x +a ^; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求回归直线方程.为此对数据预处理如下:年份-2006 -4 -2 0 2 4 需求量-257-21-111929对预处理后的数据,容易算得x -=0,y -=3.2.b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y --b x -=3. 由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2, 即y ^=6.5(x -2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为 6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).课堂练习1.实验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( )A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1 D.y ^=x -12.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R 2的值分别约为0.96和0.85,则拟合效果好的模型是( )A .甲B .乙C .甲、乙相同D .不确定3.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑8i =1x i =52,∑8i =1y i =228,∑8i =1x 2i =478,∑8i =1x i y i =1849,则其线性回归方程为()A.y ^=11.47+2.62x B.y ^=-11.47+2.62xC.y ^=2.62+11.47x D.y ^=11.47-2.62x4.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x 1 2 3 4 用水量y 4.5 4 3 2.5由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是y ^=-0.7x +a ,则a 等于______.5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时) 2.5 3 4 4.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?课后练习一、选择题1.实验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( ) A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1 D.y ^=x -1 答案 A解析 画出散点图,四点都在直线y ^=x +1.2.下列有关样本相关系数的说法不正确的是( ) A .相关系数用来衡量变量x 与y 之间的线性相关程度 B .|r |≤1,且|r |越接近于1,相关程度越大 C .|r |≤1,且|r |越接近0,相关程度越小 D .|r |≥1,且|r |越接近1,相关程度越小 答案 D3.由一组样本(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程y ^=a +bx ,下面有四种关于回归直线方程的论述:(1)直线y ^=a +bx至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点;(2)直线y ^=a +bx 的斜率是∑ni =1x i y i -n x y ∑n i =1x 2i -nx2;(3)直线y ^=a +bx 必过(x ,y )点;(4)直线y ^=a +bx 和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的偏差∑ni =1 (y i -a -bx i )2是该坐标平面上所有的直线与这些点的偏差中最小的直线.其中正确的论述有( ) A .0个 B .1个 C .2个 D .3个 答案 D解析 线性回归直线不一定过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的任何一点;b =∑ni =1x i y i -n x y ∑ni =1x 2i -n x2就是线性回归直线的斜率,也就是回归系数;线性回归直线过点(x ,y );线性回归直线是平面上所有直线中偏差∑ni =1 (y i -a -bx i )2取得最小的那一条.故有三种论述是正确的,选D.4.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( )A .b 与r 的符号相同B .a 与r 的符号相同C .b 与r 的符号相反D .a 与r 的符号相反 答案 A5.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R 2的值分别约为0.96和0.85,则拟合效果好的模型是( )A .甲B .乙C .甲、乙相同D .不确定 答案 A6.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑8i =1x i =52,∑8i =1y i =228,∑8i =1x 2i =478,∑8i =1x i y i =1849,则其线性回归方程为( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x 答案 A解析 利用回归系数公式计算可得a =11.47,b =2.62,故y ^=11.47+2.62x . 二、填空题7.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4 用水量y 4.5 4 3 2.5由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是y ^=-0.7x+a ,则a 等于______.解析x =2.5,y =3.5,∵回归直线方程过定点(x ,y ),∴3.5=-0.7×2.5+a .∴a =5.25.8.某服装商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温x (℃) 17 13 8 2 月销售量y (件) 24 33 40 55 由表中数据算出线性回归方程y ^=bx +a 中的b ≈-2,气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月毛衣的销售量约为________件.(参考公式:b =∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a =y -b x )答案 46解析 由所提供数据可计算得出x =10,y =38,又b ≈-2代入公式a =y -b x 可得a =58,即线性回归方程y ^=-2x +58,将x =6代入可得.9.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过 心脏病 未发作过心脏病合计心脏搭桥手术 39 157 196 血管清障手术 29 167 196合计68 324 392 试根据上述数据计算K 2=________.比较这两种手术对病人又发作心脏病的影响有没有差别.________.答案 392×(39×167-29×157)268×324×196×196≈1.78不能作出这两种手术对病人又发作心脏病的影响有差别的结论解析 提出假设H 0:两种手术对病人又发作心脏病的影响没有差别. 根据列联表中的数据,可以求得K 2=392×(39×167-29×157)268×324×196×196≈1.78.当H 0成立时K 2≈1.78,而K 2<2.072的概率为0.85.所以,不能否定假设H 0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论.三、解答题10.某农科所对冬季昼夜温差大小与某反季大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了2010年12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下表:日期 12月1日 12月2日 12月3日 12月4日 12月5日 温差x (℃) 10 11 13 12 8发芽数y (颗)23 25 30 26 16 该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻的2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=bx +a ;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得到的线性回归方程是否可靠?解析 (1)设抽到不相邻的两组数据为事件A ,因为从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)其中数据为12月份的日期数.每种情况都是可能出现的,事件A 包括的基本事件有6种:所以P (A )=610=35.所以选取的2组数据恰好是不相邻2天数据的概率是35.(2)由数据,求得x =12,y =27.由公式,求得b =52,a =y -b x =-3.所以y 关于x 的线性回归方程为y ^=52x -3.(3)当x =10,y ^=52×10-3=22,|22-23|<2;同样,当x =8时,y ^=52×8-3=17,|17-16|<2; 所以,该研究所得到的回归方程是可靠的.11.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时) 2.5 3 4 4.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?(注:b =∑ni =1x i y i -n x y ∑ni =1x 2i -nx2,a =y -b x )解析 (1)散点图如图.(2)由表中数据得:∑4i =1x i y i =52.5, x =3.5,y =3.5,∑4i =1x 2i =54, ∴b =0.7, ∴a =1.05,∴y ^=0.7x +1.05.回归直线如图所示.(3)将x =10代入回归直线方程,得y ^=0.7×10+1.05=8.05(小时 ). ∴预测加工10个零件需要8.05小时.12.(2010·辽宁卷)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:mm 2) 表1:注射药物A 后皮肤疱疹面积的频数分布表疱疹面积 [60,65) [65,70) [70,75) [75,80) 频数 30 40 20 10表2:注射药物B 后皮肤疱疹面积的频数分布表疱疹面积 [60,65) [65,70) [70,75) [75,80) [80,85) 频数 10 25 20 30 15(ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;(ⅱ)完成下面2×2列联表,并回答能否有99.9% 的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:疱疹面积小 于70 mm 2 疱疹面积不小 于70 mm 2 合计 注射药物A a = b = 注射药物B c = d =精品文档 合计n =附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解析 (ⅰ)可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,,所以注射药物A 后疱疹面积的中位数小于注射药物B 后疱疹面积的中位数.(ⅱ)表3:疱疹面积小于70 mm 2 疱疹面积不小于70 mm 2 合计注射药物A a =70 b =30100 注射药物B c =35 d =65100 合计 105 95n =200K 2=200×(70×65-35×30)2100×100×105×95≈24.56. 由于K 2>10.828,所以有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.。