可线性化的回归方程

合集下载

回归分析(5)

回归分析(5)
2016/5/10 27
而知。 为此,研究者选用二元二次多项 式回归模型 2 y 0 1 x1 2 x2 11 x1

2 22 x2
12 x1 x2
并检验交互效应和风险反感度的二次 效应。
2016/5/10 28
序号
x1
x2
y
1
2 3 4
66.29
40.964 72.996 45.01
7
5 10 6
196
63 252 84
5
6
57.204
26.852 38.122 35.84
4
5 4 6
126
14 49 49
数 据 表
7 8
9
10 11 12
75.796
37.408 54.376 46.186
9
5 2 7
266
49 105 98
13
14 15 16
第10章 非线性回归
线性回归的理论较为成熟,应用 也较为广泛。但当被解释变量与解释 变量之间呈某种曲线关系时,就必须 用非线性回归。 本章首先介绍可线性化的非线性 回归,然后介绍多项式回归,最后简 要介绍了一般的非线性回归模型。
2016/5/10 2
§1 可线性化的非线性回归
1. 线性化的含义及途径 因为线性回归的“线性”是针对 参数而言,而不是针对自变量而言, 所以有些非线性回归模型可以通过变 量代换转化为线性回归模型。 例如, bx y 0 1e (b已知)
首先做三元线性回归,结果如下:
2016/5/10 37
线性回归
2016/5/10
38
显然,回归效果极差。 可将所有项选入,然后选择逐步 回归法,结果如下:

05_回归方程的函数形式

05_回归方程的函数形式
设:
b1 ln Y0 , b 2 ln(1 r ) , 并 加 上 随 机 误 差 项 ,
则复利公式变成了对数到线性的半对数模型:
ln(Yt ) b1 b 2 t u t
所以复利增长率 1。 Example 9.4 The growth of the U.S. Population,1970 to 1999 pp258-259
Y / Y Y / Y X b2 ( 是 一 个 b2 ( 是 个 常 数 ) X / X Y X / X
变量)
注:当用 X 和 Y 的样本均值 代 入 时( b2
X ) ,即 为 样 本 期 Y
的平均产弹性。
Y 对 X 的 斜率 判定系 数 R2
b2 ( 常 数 )
X 对 Y 变动的解释比例
两边取以 e 为底的对数得:
ln Yt ln a1 a 2 ln X t u t

Yt* ln Yt , X* t ln X t , b1 ln a 1 , b 2 a 2 则 模 型 变 为 : Yt* b1 b 2 X* t u t( 变 换 后 的 模 型 为 线 性 模 型 ,该 模
厦门大学经济学院 胡朝霞
1
当 当 的。
b2 1 时 , 则 称 该 商 品 的 价 格 是 有 弹 性 的 ;
b2 1 时 , 则 称 该 商 品 的 价 格 是 无 ( 缺 乏 ) 弹 性
思 考 : 如 何 检 验 价 格 弹 性 的 特 征 ? (用 t 检 验 ) 由于双对数模型的弹性是一个常数,所以双对数模 型又称为不变弹性模型。 2. 双 对 数 模 型 与 一 般 线 性 模 型 的 比 较 :
r eb 1, 即 等 于 回 归 系 数 的 反 对 数 减

高考冲刺作业(80)(答案)回归分析、独立性检验

高考冲刺作业(80)(答案)回归分析、独立性检验

高考冲刺作业(80)2020年3月20日 (回归分析、独立性检验)考点1线性回归分析提示:由最小二乘法得回归直线方程:(认真阅读、深刻理解)y a bx =+,其中1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.有时这样表述:对于一组数据11(,)u v ,22(,)u v ,L ,(,)n n u v ,其线性回归方程v u αβ=+的斜率和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-.1.(2015·重庆卷·文理)随着我国经济的发展,居民的储蓄存款逐年增长.设(Ⅰ)求y 关于t 的回归方程y bt a =+; 1.2 3.6y t =+(Ⅱ)用所求回归方程预测该地区2015年(6t =)的人民币储蓄存款. 10.8 2.已知x ,y 的取值如下表所示:如果y 与x 呈线性相关,且线性回归方程为 3.5y bx =+,则b = . 0.5b = 3.(2011·陕西卷·理科)设11(,)x y ,22(,)x y ,L ,(,)n n x y 是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是 DA.x 和y 的相关系数为直线l 的斜率B.x 和y 的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(,)x y Array4.已知x,y的取值如下表根据上表提供的数据,求出y关于x的线性回归直线方程为0.80.4y x=+,那么表中t的值为 CA.4.8B.5.2C.5.5D.5.65.设有一个线性回归方程为3 2.5y x=-,则变量x增加一个单位时 C A.y平均增加2.5个单位 B.y平均增加1个单位C.y平均减少2.5个单位D.y平均减少1个单位6.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查=+,其中0.76b=,a y bx社区一户收入为15万元家庭年支出为 BA.11.4万元B.11.8万元C.12.0万元D.12.2万元7.对四组变量,x y进行相关性检验,r是相关系数,已知①0.96r=,r=,②0.30③0.99r=-,④0.48r=-.则,x y线性相关程度最高的两组是 .8.(2010·湖南卷·文科)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是 AA.$10200=-- D.$10200y x=+ y xy x=-+ B.$10200y x=+ C.$10200考点2可线性化回归分析1.(2015·全国卷Ⅰ·文理)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (1,2,,8)i =L 数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =8118i i w w ==∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程; (Ⅲ)已知这种产品的年利率z 与x ,y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(i )年宣传费49x =时,年销售量及年利润的预报值是多少? (ii )年宣传费x 为何值时,年利率的预报值最大?解析:(Ⅰ)根据散点图判断,y c =+y 关于年宣传费x 的回归方程类型;年宣传费/千元(Ⅱ)根据(Ⅰ)的判断结果,令w =y c d ω=+,81821()()()iii ii w w y y d w w ==--==-∑∑108.8681.6=,56368 6.8100.6c y d ω=+=-⨯=,所以100.668y ω=+,于是y 关于x的回归方程是:100.6y =+(Ⅲ)(i )由0.2z y x =-及当49x =时,100.6y =+,0.2576.6z =⨯-4966.32=,年销售量576.6千元及年利润的预报值是66.32千元.(ii )由0.2z y x =-及100.6y =+0.2(100.6z x x =⨯+-=-+20.04+t =,2()13.620.04h t t t =-++,当 6.8t =,即46.24x =时,年利率的预报值最大.2.已知某种细菌的适宜生长温度为1025C C o o :,为了研究该种细菌的繁殖数量y (单位:个)随温度x (温度:C o )变化的规律,收集数据如下:对数据进行初步处理后,得到了一些统计量的值,如下表所示:其中,ln i i k y =,7117i i k k ==∑.参考数据: 5.5245e ≈.(Ⅰ)绘出y 关于x 的散点图,并根据散点图判断,y a bx =+与21c x y c e =哪一个适宜作为该种细菌的繁殖数y 关于温度x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.1).(Ⅲ)当温度为25C o 时,该种细菌繁殖数量的预报值为多少? 解析:(Ⅰ)根据散点图可知:21c x y c e =比较合适;(Ⅱ)由(Ⅰ)知,21c x y c e =得12ln ln y c c x =+,即2k m c x =+,712721()()()iii ii x x kk c x x ==--=-∑∑20.50.1830.2112=≈≈, 3.80.183180.5m k bx =-=-⨯≈,即1ln 0.5c =,所以 ln 0.50.2y x =+,于是y 关于x 的回归方程是:0.50.2x y e +=.(Ⅲ)当25x =时,0.50.225 5.5245y e e +⨯==≈,即当温度为25C o 时,该种细菌繁殖数量的预报值为245.3.噪音污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D (单位:分贝)与声音能量I (单位:2/W cm )之间的关系,将测量得到的声音强度i D 和声音能量i I (1,2,,10i =L )数据作了初步处理,得到下面的散点图即一些统计量的值.(Ⅰ)根据散点图判断,D c dI =+与lg D a b I =+哪一个适宜作为声音强度D 关于声音能量I 的回归方程类型?(Ⅱ)根据表中数据,建立D 关于I 的回归方程;(Ⅲ)当声音强度大于60分贝时,属于噪音,会产生噪音污染,城市中某点P 共DIg g g gg g g ggg 1020 10 0 20 30 30 40 50 40 50 60受到两个声源的影响,这两个声音能量分别为1I ,2I ,且10121410I I +=.已知点P 的声音能量等于1I 和2I 声音能量之和,请根据(Ⅰ)中回归方程,判断点P 是否受到噪音污染的干扰,并说明理由.参考数据:其中表中lg i i W I =,101110i i W W ==∑,截距的最小二乘估计分别为:v u αβ=-,121()()()nii i nii uu v v uu β==--=-∑∑.解析:(Ⅰ)根据散点图可知,lg D a b I =+适宜作为声音强度D 关于声音能量I 的回归方程;(Ⅱ)由(Ⅰ)知,lg D a b I =+,D a bW =+,1011021()()5.1100.51()iii ii W W D D b W W ==--===-∑∑, 45.710(11.5)160.7a D bW =-=-⨯=,所以D 关于I 的回归方程为:160.710lg D I =+(Ⅲ)点P 的声音能量等于1I 和2I 声音能量之和,101212121410()()I I I I I I I -=+=++ 10102112410[5()]109I I I I --=++≥⨯,10min 160.710lg(109)60.710lg 960D -=+⨯=+>,P 会受到噪音污染的干扰.4.2019年12月以来,湖北省武汉市持续开展流感及相关疾病监测,发现多起病毒性肺炎病例,均诊断为病毒性肺炎/肺部感染,后被命名为新型冠状病毒肺炎( 2019Corona Virus Disease , 2019COVID ),简称“新冠肺炎”.下图是2020年1月15日至1月24日累计确诊人数随时间变化的散点图.为了预测在未采取强力措施下,后期的累计确诊人数,建立了累计确诊人数y 与时间变量t 的两个回归模型,根据1月15日至1月24日的数据(时间变量t 的值依次1,2,L ,10),建立模型y c dt =+和 1.5t y a b =+⋅.(Ⅰ)根据散点图判断,$y c dt =+和$ 1.5t y a b =+⋅哪一个适宜作为累计确诊人数y 与时间变量t 的回归方程类型?(给出判断即可,不必说明理由); (Ⅱ)根据(Ⅰ)的判断结果及附表中数据,建立y 关于t 的回归方程; (Ⅲ)以下是1月25日至1月29日累计确诊人数的真实数据,根据(Ⅱ)的结果时间1月25日 1月26日 1月27日 1月28日 1月29日 累计确诊人数的真实数据19752744451559747111①当1月25日至1月27日这3天的误差(模型预测数据与真实数据差值的绝对值与真实数据的比值)都小于0.1,则认为模型可靠,请判断(Ⅱ)的回归方程是否可靠?②2020年1月24日在人民政府的强力领导下,全国人民共同采取了强力的预防“新冠肺炎”的措施,若采取措施5天后,真实数据明显低于预测数据,则认为防护措施有效,请判断预防措施是否有效?附:对于一组数据11(,)u v ,22(,)u v ,L ,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-参考数据:其中 1.5it i ω=,101110i i ωω==∑.解析:(Ⅰ)根据散点图可知:$ 1.5t y a b =+⋅适宜作为累计确诊人数y 与时间变t 的回归方程类型;(Ⅱ)令 1.5tω=,$y a b ω=+⋅,1011021()()()iii ii y y bωωωω==--=-∑∑$101102211010i ii ii y yωωωω==-=-∑∑,215470010193902076401019-⨯⨯==-⨯,390201910a y b ω=-=-⨯=,$1020y ω=+⋅,即 $1020 1.5t y =+⨯;(Ⅲ)①当11t =时,111.5100=,10201002010y =+⨯=,201019753519752010-=0.0170.1≈<,当12t =时,121.5150=,10201503010y =+⨯=,301027442744-=2660.0970.12744≈<,当13t =时,131.5225=,10202254510y =+⨯=,451045154515-50.14515=<.所以(Ⅱ)的回归方程可靠; ②当15t =时,$10150y =,远大于7111,所以防护措施有效.考点3独立性检验构造随机变量(卡方统计量)统计量2χ(也可表示2K),来判断“两个分类变量有关联”的方法称为独立性检验.其中22()()()()()n ad bca b c d a c b dχ-=++++,n a b c d=+++.1.(2010·课标全国卷·文科)为调查某地区老年人是否需要志愿者提供帮助,(Ⅰ)估计该地区老年人中,需要志愿提供帮助的老年人的比例;(Ⅱ)能否有99℅的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?解:(Ⅰ)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中需要帮助的老年人的比例的估计值为7014% 500=.(Ⅱ)22500(4027030160)9.96720030070430K⨯⨯-⨯=≈⨯⨯⨯.由于9.967 6.635>所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.2.(2014·辽宁卷)某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学(Ⅰ)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(Ⅱ)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.22100(60102010)100 4.7627030802021K ⨯⨯-⨯==≈⨯⨯⨯, 710p =.3.(2018·全国卷Ⅲ·文理科)某工厂为了提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20名工人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min )绘制了如下茎叶图:(Ⅰ)根据茎叶图判断哪种生产方式的效率更高?并说明理由.(Ⅱ)求40名工人完成生产任务所需的时间的中位数m ,并将完成生产任务所(Ⅲ)根据(Ⅱ)中列联表,能否有99%把握认为两种生产方式的效率有差异? 解析:(Ⅰ)第二中生产方式效率更高.(Ⅱ)7981802m +==.(Ⅲ)2240(151555)10 6.63520202020K ⨯⨯-⨯==>⨯⨯⨯.所以有99%把握认为两种生产方式的效率有差异.4.(2019·全国卷Ⅰ·文科)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(Ⅰ)分别估计男、女顾客对该商场服务满意的概率;(Ⅱ)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?第一种生产方式第二种生产方式 8 8765 56 8 90 1 2 2 3 4 5 6 6 8 1 4 4 5 099 7 6 2 9 8 7 7 6 5 4 3 3 2 2 1 1 0 0解析:(Ⅰ)由调查数据,男顾客中对该商场服务满意的比率为400.850=,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为300.650=,因此女顾客对该商场服务满意的概率的估计值为0.6.22100(40203010) 4.76250507030K ⨯⨯-⨯=≈⨯⨯⨯.由于4.762 3.841>,故有95%的把握认为男、女顾客对该商场服务的评价有差异. 5.(2017·全国卷Ⅱ·文科)淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取100个网箱,测量各箱水产品的产量(单位:kg )某频率直方图如下:(Ⅰ)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg ”,估计A 的概率;0.62(Ⅱ)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖22200(62663438)15.70510010096104K ⨯⨯-⨯=≈⨯⨯⨯.6.(2017·全国卷Ⅱ·文科)淡水养殖场进行某水产品的新、旧网箱养殖方法的/kg旧养殖法kg新养殖法产量对比,收获时各随机抽取100个网箱,测量各箱水产品的产量(单位:kg )某频率直方图如下:(Ⅰ)设两种养殖方法的箱产量相互独立,记A 表示事件:旧养殖法的箱产量低于50kg ,新养殖法的箱产量不低于50kg ,估计A 的概率;(Ⅱ)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖(Ⅲ)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)7.(2013·福建卷)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:)[50,60,)[60,70,)[70,80,)[80,90,)[90,100, 分别加以统计,得到如图所示的频率分布直方图.(Ⅰ)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(Ⅱ)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完/kg旧养殖法kg新养殖法成列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?710p =,22100(45152515)25 1.797030604014K ⨯⨯-⨯==≈⨯⨯⨯.没有把握.8.(2010·辽宁卷·理科)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做实验,将这200只家兔随机地分成两组.每组100只,其中一组注射药物A ,另一组注射药物B .下表1和表2分别是注射药物A 和药物B 后的实验结果.(疱疹面积单位:2mm )(Ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;(Ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的25周岁以上组25周岁以下组注射药物A 后皮肤疱疹面积的频率分布直方图注射药物B 后皮肤疱疹面积的频率分布直方图22200(70653530)24.5610010010595K ⨯⨯-⨯=≈⨯⨯⨯,210.828K >.有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.。

§3.5 可以化为线性的多元非线性回归模型

§3.5 可以化为线性的多元非线性回归模型
§3.5 回归模型的其他函数形式
一、非标准线性回归模型 二、可线性化的非线性回归模型 三、不可线性化的非线性回归模型
一、非标准线性回归模型---变量直接置换 非标准线性回归模型---变量直接置换 --1、倒数变换模型 、
1 1 1 Yi = β0 + β1 + ui或 = β0 + β1 + ui Xi Y Xi i
中 国 城 镇 居 民 人 均 食 品 消 费
1800 1600 1400 1200 1000 800 600 400 200 82 84 86 88 90 92 94 96 98 00 Q
特征: 特征: 消费行为在 1981~1995年间表 现出较强的一致性 1995年之后呈现出 另外一种变动特征。
Q = f ( X / P0 , P1 / P0 )
(**)
为了进行比较,将同时估计( 为了进行比较,将同时估计(*)式与(**)式。 式与(**)
首先,确定具体的函数形式 根据恩格尔定律 恩格尔定律,居民对食品的消费支出与居 恩格尔定律 民的总支出间呈幂函数 幂函数的变化关系: 幂函数 对数变换:
令Yi = lnYi 或 Xi = ln Xi
* *
4、多项式模型: 、多项式模型:
Yi = β0 + β1Xi + β2 Xi +... + βk Xi + i
2 k
令X = Xi , j =1,2,..., k
* i j
5、S型曲线模型 、 型曲线模型
1 Yi = α + βe Xi + i
(****)式也可看成是对(***)式施加如下约束而得 β1 + β 2 + β 3 = 0

回归线性方程公式

回归线性方程公式

回归线性方程公式
回归线性方程是统计学中反映数据之间关系的重要统计模型,它
具有表达力强,数值运算简单的特性。

它是利用建立数据之间关系的
拟合性模型,以数学的方式描述一个数量和另一个数据之间的联系,
从而找到一个具有可预测作用的测量模型。

线性回归方程可以用一个
函数来描述离散点或一组数据点之间的联系,通过线性拟合法来确定
线性回归方程。

回归线性方程的一般形式为:y = ax + b,其中ax+b是系数,y
是自变量(x)的应变量,a是斜率,b是常数项。

基于已有的观测值
来求解系数时,需要使用最小二乘法来解决,系数的最优解为使得误
差平方和最小的可行解。

例如,已知一组观测数据的x和y的坐标,
假设存在一个未知的函数,其输入是x,输出是y,则经过多次观测,
可以找到该函数的表达式为y=ax+b,其中a与b是待求参数。

回归线性方程不仅可以用于反映数据之间的相关性,还可以运用
在统计学中,用来分析两个变量之间的关系,并进行预测。

回归线性
方程是统计学家根据已有数据提出一种对数据进行统计推断的先进方式。

它不但提供了一个简单易用的方法来把数据和理论结合,而且也
可以智能地逃避直接的、实证的假设。

回归线性方程是统计学的重要工具,它利用模型来表达数据之间
的关系,从而帮助提高对现实情况的预测能力。

它是一种强大、易用
的统计分析方式,能够有效地帮助人们分析数据,并作出正确地预测,以更好地利用数据资源。

回归方程解读

回归方程解读

回归方程解读回归方程是统计学中常用的工具,用于描述两个或多个变量之间的关系。

它的一般形式可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y是被解释变量,也被称为因变量;X1, X2, ..., Xn是解释变量,也被称为自变量;β0, β1, β2, ..., βn是回归系数,表示自变量对因变量的影响程度;ε是误差项,表示模型无法完全解释的随机因素。

回归方程的解读有助于我们理解自变量对因变量的影响,并且可以用于预测因变量的值。

下面我们将对回归方程的各个部分进行详细解读:1.截距项(β0):该项表示当所有解释变量的取值都为0时,因变量的预测值。

在解释方程时,我们需要注意截距项是否有实际意义,可以根据具体情况来判断。

2.自变量(X):回归方程中的自变量表示我们想要研究的解释变量。

它们的系数(β)表示解释变量对因变量的影响程度。

系数的正负符号表明了自变量与因变量的方向关系,正符号表示正相关,负符号表示负相关。

3.回归系数(β):回归系数代表了自变量对因变量的影响程度。

具体地说,它们表示当自变量的取值增加1个单位时,因变量的平均变化量。

例如,如果β1为2,表示当X1增加1个单位时,Y的平均变化量为2。

4.误差项(ε):回归方程中的误差项表示模型无法完全解释的随机因素。

它代表了由于未知或未观察到的变化引起的因变量的波动。

在回归分析中,我们通常假设误差项是独立同分布的,并且是服从正态分布的。

在解读回归方程时,我们可以通过检验假设来确定自变量对因变量的显著影响。

常见的方法是通过计算回归系数的置信区间或进行假设检验,例如t检验或F检验。

如果回归系数的p值小于设定的显著性水平(通常是0.05),则我们可以拒绝零假设,即自变量对因变量有显著影响。

此外,回归方程还可以用来进行预测。

根据给定的自变量的取值,我们可以利用回归方程来估计因变量的值。

然而,需要注意的是,预测的准确性受到回归方程的稳定性,样本数据的外推性等因素的影响。

[整理]2--可线性化的非线性回归.

[整理]2--可线性化的非线性回归.

2. 可线性化的非线性回归例:已知某小型企业自1998年1月至1989年3月间各月的销售收入(万元),见下表。

求销售收入与月份间的关系,并预测未来1989年4、5月份的销售收入。

表2 某小型企业各月统计收入情况2.1 基本绘图操作(1) 输入数据输入投资x与盈利y数据,并选中x、y数据。

图26(2) 插入散点图点击菜单栏的插入,选择图表。

图27点击图表,选择“标准类型”中的XY散点图,并点击子图表类型的第一个。

图28 点击下一步。

图29点击下一步,并分别点击标题、网格线、图例等进行查看和修改。

图30点击下一步。

图31 点击完成。

图32右击绘图区,修改绘图区格式。

图33 双击坐标轴,修改坐标轴刻度。

图34最后的月份x与销售收入y的散点图见图35图352.2 回归分析 首先观察散点图35,依据经验及散点图的趋势进行分析,可以看出,该散点图可以用双曲线、指数函数、对数函数等曲线来拟合。

2.2.1 双曲线 双曲线函数的方程为:1y ba x =+(1)(1) 双曲函数的线性化及成图 将方程1线性化后,得到方程2''y a bx =+ (2)其中,1'y y =1'x x =。

在excel 表格中计算新数据''x y ,并选中''x y 数据。

图36点击菜单栏的插入,选择图表。

图37点击图表,选择“标准类型”中的XY散点图,并点击子图表类型的第一个。

图38点击下一步,得到图39,图39点击下一步,并分别点击标题、网格线、图例等进行查看和修改。

图40 点击下一步,选择“作为其中的对象插入”图41 点击完成。

图42 右击绘图区,修改绘图区格式。

图43 双击做坐标轴,修改坐标轴刻度。

图44 最后获得月份x与销售收入y的散点图45.图45 选中散点,右击散点,选择添加趋势线。

图46 选择“线性”类型。

图47 选项中选择显示公式和显示R2。

图48 得到趋势线如图49所示。

第三章 1.3可线性化的回归分析

第三章  1.3可线性化的回归分析

可线性化的回归分析[学习目标]1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度.[知识链接]1.有些变量间的关系并不是线性相关,怎样确定回归模型答首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用线性回归方程来建立两个变量之间的关系,这时可以根据已有函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.2.如果两个变量呈现非线性相关关系,怎样求出回归方程答可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.([预习导引]1.非线性回归分析对不具有线性相关关系的两个变量做统计分析,通过变量代换,转化为线性回归模型.2.非线性回归方程曲线方程曲线图形公式变换变换后的线性函数y=ax b·c=ln av=ln xu=ln yu=c+bvy =a e bxc =ln a u =ln yu =c +bxy =a e b x.c =ln a v =1xu =ln yu =c +bvy =a +b ln xv =ln x u =yu =a +bv#要点一 线性回归分析例1 某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 35 销售额y (万元)4926…3954(1)由数据易知y 与x 具有线性相关关系,若b =,求线性回归方程y =a +bx ; (2)据此模型预报广告费用为4万元时的销售额.解 (1)x -=4+2+3+54=,y -=49+26+39+544=42,∴a =y --b x -=42-×= ∴回归直线方程为y =+. (2)当x =4时,y =+×4=, 故广告费用为6万元时销售额为万元.跟踪演练1 为了研究3月下旬的平均气温(x )与4月20日前棉花害虫化蛹高峰日(y )的关系,某地区观察了2006年2011年的情况,得到了下面的数据:(1)对变量x,y进行相关性检验;(2)据气象预测,该地区在2012年3月下旬平均气温为27 ℃,试估计2012年4月化蛹高峰日为哪天.解制表.(1)r=∑6i=1xiyi-6x-y-(∑6i=1x2i-6x-2)(∑6i=1y2i-6y-2)≈- 8.由|r|>,可知变量y和x存在很强的线性相关关系.(2)b=错误!≈-,a=错误!-b错误!≈.所以,线性回归方程为y=-.当x=27时,y=-×27=.据此,可估计该地区2012年4月12日或13日为化蛹高峰日."要点二可线性化的回归分析例2 在一化学反应过程中,化学物质的反应速度y(g/min)与一种催化剂的量x(g)有关,现收集了8组观测数据列于表中:催化剂的量x/g15182124273033\ 36化学物质的反应速度y(g·min-1)6830277020565350解根据收集的数据,作散点图(如图),根据已有的函数知识,可以发现样本点分布在某一条指数函数曲数y=c1e c2x的周围,其中c1和c2是待定的参数.令z=ln y,则z=ln y=ln c1+c2x,即变换后的样本点应该分布在直线z=a+bx(a=ln c1,b=c2)的周围.由y与x的数据表可得到变换后的z与x的数据表:x15182124!27303336z,作出z与x的散点图(如图).由散点图可观察到,变换后的样本点分布在一条直线的附近,所以可用线性回归方程来拟合.由z与x的数据表,可得线性回归方程:z=+,所以y与x之间的非线性回归方程为y=e-+.*规律方法 可线性化的回归分析问题,画出已知数据的散点图,选择跟散点拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.跟踪演练2 电容器充电后,电压达到100 V ,然后开始放电,由经验知道,此后电压U 随时间t 变化的规律用公式U =A e bt (b <0)表示,现测得时间t (s)时的电压U (V)如下表:t /s 0 1 2 3 4 56(7 8910U /V 100 75 55 40 30$2015101055试求:电压U 对时间t 的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解 对U =A e bt 两边取对数得ln U =ln A +bt ,令y =ln U ,a =ln A ,x =t ,则y =a +bx ,得y 与x 的数据如下表:x.1 2345678910{y/根据表中数据作出散点图,如下图所示,从图中可以看出,y 与x 具有较强的线性相关关系,由表中数据求得x -=5,y -≈,进而可以求得b ≈-,a =y --bx -=,所以y 对x 的线性回归方程为y =-.由y =ln U ,得U =e y ,U =-=·e -,因此电压U 对时间t 的回归方程为U =·e-.要点三非线性回归模型的综合应用例3 某地区不同身高的未成年男性的体重平均值如下表:身高x/cm60【708090100110体重y/kg-身高x/cm120130140150160170体重y/kg(试建立y与x之间的回归方程.解根据题干表中数据画出散点图如图所示.由图看出,样本点分布在某条指数函数曲线y=c1e c2x的周围,于是令z=ln y. *x 60708090100110120130140¥150160170z&画出散点图如图所示.由表中数据可得z与x之间的线性回归方程:z=+,则有y=+.规律方法根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线y =c1e c2x的周围,其中c1和c2是待定参数;可以通过对x进行对数变换,转化为线性相关关系.*跟踪演练3 对两个变量x ,y 取得4组数据(1,1),(2,,(3,,(4,,甲、乙、丙三人分别求得数学模型如下: 甲 y =+1, 乙 y =-++,丙 y =-·+,试判断三人谁的数学模型更接近于客观实际. 解 甲模型,当x =1时,y =;当x =2时,y =; 当x =3时,y =;当x =4时,y =.乙模型,当x =1时,y =1;当x =2时,y =; 当x =3时,y =;当x =4时,y =.丙模型,当x =1时,y =1;当x =2时,y =; 当x =3时,y =;当x =4时,y =.观察4组数据并对照知,丙的数学模型更接近于客观实际.1.在一次试验中,当变量x 的取值分别为1,12,13,14时,变量y 的值分别为2,3,4,5,则y 与1x的回归方程为( )A .y =1x +1B .y =2x+3C .y =2x +1D .y =x -1 答案 A解析 由数据可得,四个点都在曲线y =1x+1上.2.某种产品的广告费支出与销售额(单位:百万元)之间有如下对应数据:广告费2~5 6 84销售额3040605070@则广告费与销售额间的相关系数为( )A. B.0.919 C. D.答案B3.根据统计资料,我国能源生产发展迅速.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:年份1996200120062011产量·根据有关专家预测,到2020年我国能源生产总量将达到亿吨左右,则专家所选择的回归模型是下列四种模型中的哪一种( )A.y=ax+b(a≠0) B.y=ax2+bx+c(a≠0)C.y=a x(a>0且a≠1) D.y=log a x(a>0且a≠1)答案A4.某种产品的广告费支出x与销售额y之间有下表关系,现在知道其中一个数据弄错了,则最可能错的数据是__________.x/万元)24568y/万元3040605070答案(6,50)一、基础达标1.下表提供了某厂节能降耗技术改造后生产某产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据.根据表中提供的数据,求出y关于x的线性回归方程是y=+,那么表中t的值是( )x3456,yt4A.4.5 B.4 C.3 D.答案C2.下列数据x,y符合哪一种函数模型( )x1$2345678910y 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§5.2 可线性化的回归方程
在实际问题中,随机变量Y和x的相关关系未必是线性的,而是某种曲线关系. 需要根据相应的专业知识或散点图,
选择适当类型的曲线. 这种问题称为曲线回归分析或非线
性回归分析.
有些非线性回归问题,可以利用变量代换,把回归曲线
方程化为回归直线方程,然后再利用线性回归的方法解决.
根据上述给出的数据,计算得下表:
i i u ln i i z u 2i t 2i
z i i t z i t 1 0 100 4.605 0 0 21.2060252 1 75 4.317 1 4.317 18.6364893 2 55 4.007 4 8.014 16.056049 4 3 40 3.689 9 11.067 13.6087215 4 30 3.401 16 13.604 11.5668016 5 20 2.996 25 14.980 8.9760167 6 15 2.708 36 16.248 7.3332648 7 10 2.303 49 16.121 5.3038099 8 10 2.303 64 18.424 5.30380910 9 5 1.609 81 14.481 2.588881 11 10 5 1.609 100 16.090 2.588881Σ 55 365 33.547 385 133.346 113.168745
整理得正规方程组为
⎪⎪⎪⎩⎪⎪⎪⎨⎧=⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛+⎪⎭
⎫ ⎝⎛=⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛+⎪⎭
⎫ ⎝⎛=⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛+∑∑∑∑∑∑∑∑∑∑∑===========.
,
,1112211141111301112111211131111201111112111211110i i i i i i i i i i i i i i i i i i i i i i i i y x b x b x b x y x b x b x b x y b x b x nb 将观测数据代入上面的方程组,得
⎪⎩
⎪⎨⎧=++=++=++.4.63084405328242001540,6.3804242001540110,6.248154011011210210210b b b b b b b b b
由此解得
.139.0ˆ,2165.0ˆ,9727.0ˆ210===b b b 于是所求的抛物线回归方程为
.139.02165.09727.0ˆ2x x y ++=。

相关文档
最新文档