第六章讲义相关与回归
相关与回归PPT课件PPT课件

(2)求Spearman等级相关系数。
rs
l X ’Y ’
l l X ’X ‘Y ’Y ‘
59.5 0.7539 82.5 75.5
第19页/共40页
2. Spearman等级相关系数的假设检验:
H0:ρS=0
H1: ρS ≠0
=0.05
本例n=10, rs=-0.7539,查rs界值表得:
Y
Y
2
lYY
l XY
2 / l XX lYY bl XY
sy为x 各观察值y 距回归线( )ˆy 的标准差,反映x
的影响被扣除后y 的变异,故称为剩余标准差。
第32页/共40页
Y
Y
2
36.7324 (74.308)2
/ 228.2 12.541
12.541
SY .X
1.1199 12 2
1.1199
sb
0.0741 228.25
0.3256
tb
4.392
0.0741
3.确定P值,判断结果: 按 12 2 10 ,
查t 值表,t0.01(10)=3.169,tb> t0.01(13) ,P<0.01, 按α=0.05水准,拒绝H0 ,接受H1,认为糖尿病患 者血糖和胰岛素之间存在负的直线回归关系。
rs(10,0.02)=0.745,rs> rs(10,0.02) ,则P<0.02,按
α=0.05水准,拒绝H0,接受H1,认为rs有统计
学意义,说明患者血小板数与出血程度呈负
的等级相关关系。
第20页/共40页
第三节 直线回归
随着所探索问题的深入,研究者通常更感兴趣于 其中的一个变量如何定量地影响另一变量的取值, 如医学研究中常需要从某项指标估算另一项指标, 如果这指标分别是测量变量X 和Y,我们希望由X 推算Y的值。
统计.板块六.回归分析.教师版 普通高中数学复习讲义Word版

一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块六.回归分析然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y yi n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆab ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值. 同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 线性相关及回归【例1】 已知变量y 与x 之间的相关系数是0.872r =-,查表得到相关系数临界值0.050.482r =,要使可靠性不低于95%,则变量y 与x 之间( )A .不具有线性相关关系B .具有线性相关关系C .线性相关关系还待进一步确定D .具有确定性关系【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略 【答案】B ;典例分析【例2】 当相关系数0r =时,表明( )A 现象之间完全无关B 相关程度较小C 现象之间完全相关D 无直线相关关系【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】D ;【例3】 下列结论中,能表示变量,x y 具有线性相关关系的是( )A .0.05r r ≥B .0.05r r ≤C .0.05r r >D .0.05r r <【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】C ;【例4】 下列现象的相关密切程度最高的是( )A .某商店的职工人数与商品销售额之间的相关系数0.87B .流通费用水平与利润率之间的相关关系为0.94-C .商品销售额与利润率之间的相关系数为0.51D .商品销售额与流通费用水平的相关系数为0.81- 【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】B ;【例5】 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若2χ的值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得判断出现错误;④以上三种说法都不正确.【考点】线性相关及回归 【难度】2星 【题型】选择 【关键词】无 【解析】略【答案】③;【例6】 设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( )A .b 与r 的符号相同B .a 与r 的符号相同C .b 与r 的相反D .a 与r 的符号相反【考点】线性相关及回归 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】A ;【例7】 定义:点()i i x y ,与直线y b x a =+的“纵向距离”为()i i y bx a -+.已知(00)(01)(11)A B C -,,,,,三点,存在直线l ,使A B C ,,三点到直线l 的“纵向距离的平方和”Q 最小.⑴求直线l 的方程和Q 的最小值;⑵判断点1(0)3D ,与直线l 的位置关系.【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】⑴()()()()2222223101133322b Q a a a b a b ⎛⎫⎛⎫=-+--+-+=++-+ ⎪ ⎪⎝⎭⎝⎭当3122b a ==-,时,min 12Q =,即31ˆ:22l yx =-. ⑵点D 在直线l 上【例8】 对变量x ,y 有观测数据()11x y ,()1210i =,,,,得散点图1;对变量u ,v 有观测数据()11u v ,()1210i =,,,,得散点图2. 由这两个散点图可以判断.A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【考点】线性相关及回归 【难度】1星 【题型】选择【关键词】2009年,宁夏海南高考【解析】由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,选C .【答案】C ;【例9】 为了考查两个变量x 和y 之间的线性关系,甲、乙两位同学各自独立做了10次和15次的试验,并且利用线性回归方法求得回归直线分别为12l l ,,已知两人得到的试验数据中,变量x 和y 的数据的平均值都对应相等,那么下列说法正确的是( )A .直线1l 和2l 一定有交点B .直线1l 一定平行于直线2lC .直线1l 一定与2l 重合D .以上都不对【考点】线性相关及回归 【难度】3星 【题型】选择【关键词】无【解析】回归直线ˆy a bx =+中的回归系数a b ,满足:a y bx =-,其中x y ,是样本平均数,代入后得到:ˆ()()yy bx bx b x x y =-+=-+,故回归直线过点()x y ,.又由题意知,甲、乙两位同学的试验数据的平均值相等,故它们过同一点()x y ,,即直线1l 和2l 一定有交点,选A .【答案】A ;【例10】 某地高校教育经费()x 与高校学生人数()y 连续6年的统计资料如下:【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】ˆ17.920.0955yx =-+,29.83万人【例11】 一家庭问题研究机构想知道是否夫妻所受的教育越高越不愿生孩子,现随机抽样了8对夫妻,计算夫妻所受教育的总年数x 与孩子数y ,得结果如下试求【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】2217 1.75238030223x y x y xy =====∑∑∑,,,,.统计假设:x 与y 不具有线性相关关系,由小概率0.05与26n -=在附表中查得0.050.707r =.相关系数0.776r =-,0.05||r r >,从而有95%的把握认为x 与y 之间有线性相关关系.求回归直线方程有意义.由公式不难算出回归方程为ˆ 5.5070.221yx =-.【例12】 某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:⑴【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略 【答案】⑴⑵12x =,24x =,35x =,46x =,58x =,5x =, 130y =,240y =,360y =,450y =,570y =,50y =,故回归系数601603003005605550416253664525b ++++-⨯⨯=++++-⨯=6.5,50 6.5517.5a =-⨯=,故回归直线方程为ˆ 6.517.5yx =+.【例13】 某五星级大饭店的住屋率(%)()x 与每天每间客房的成本(元)()y 如下:⑴试求⑵若y 的表示不变,x 以小数表示(如75%表为0.75),求新的回归直线.【考点】线性相关及回归 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】⑴226929002537544330000945500x y x y xy =====∑∑∑,,,,统计假设:x 与y 不具有线性相关关系,由小概率0.05与23n -=在附表中查得0.050.878r =.相关系数0.919r =-,0.05||r r >,从而有95%的把握认为x 与y 之间有线性相关关系.求回归直线方程有意义.回归直线算出为ˆ5317.194235.0318yx =- ⑵ˆ5317.19423503.18yx =-【例14】 某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:线性回归方程,再用被选取的2组数据进行检验.⑴若选取的1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程;⑵若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?【考点】线性相关及回归 【难度】4星 【题型】解答 【关键词】无 【解析】略【答案】⑴画散点图如下:由数据求得1124x y ==,,由公式求得187b =, 再由307a y bx =-=-,所以y 关于x 的线性回归方程为^183077y x =-.⑵当10x =时,^1507y =,150|22|27-<;同样,当6x =时,^787y =,78|14|27-<.所以,该小组所得线性回归方程是理想的.【例15】 某种产品的产量与单位在成本的资料如下:⑴计算相关系数r ; ⑵y 对x 直线回归方程;⑶指出产量每增加1000件时,单位成本平均下降了多少元?【考点】线性相关及回归 【难度】3星 【题型】解答 【关键词】无 【解析】略【答案】⑴22771148179302682x y xy x y =====∑∑∑,,,,, 于是可算出100.9111r =-≈-.⑵统计假设:x 与y 不具有线性相关关系,由小概率0.05与24n -=在附表中查得0.050.811r =,于是0.05||r r >,从而有95%的把握认为x 与y 之间有线性相关关系.求回归直线方程有意义.由公式可算出ˆˆ77.37 1.82ab ==-,,回归方程为ˆ77.37 1.82y x =-. ⑶产量每增加1000件时,单位成本平均下降1.82元.【例16】 求回归直线方程以下是收集到的某城市的新房屋销售价格y 与房屋的大小x 的数据:⑵用最小二乘法求回归直线方程;⑶估计该城市一个90平米的房屋销售价格大约为多少? ⑷写一个程序,计算出()Q a b ,和(20.2)Q ,的值,再比较大小.【考点】线性相关及回归 【难度】4星 【题型】解答 【关键词】无【解析】略 【答案】⑴散点图:2)⑵5n =,51545i i x ==∑,109x =,51116ii y==∑,23.2y =,52160952i i x ==∑,5112952i i i x y ==∑,212952510923.20.1962609525109b -⨯⨯=≈-⨯,23.20.1962109 1.8166a =-⨯≈,所以,线性回归方程为ˆ0.1962 1.8166yx =+; ⑶在线性回归方程中,令90x =得19.474619.5y =≈, 即一个90平米的房屋销售价格大约为19.5万元;⑷程序:x (1)=80;x (2)=105;x (3)=110;x (4)=115;x (5)=135;y (1)=18.4;y (2)=22;y (3)=21.6;y (4)=24.8;y (5)=29.2; (或直接写成:x=[80;105;110;115;135],y=[18.4;22;21.6;24.8;29.2]) a=1.8166;b=0.1962;c=2;d=0.2; Q (1)=0;Q (2)=0; for i=1:5Q (1)=Q (1)+(y (i )-a-b*x (i ))^2; Q (2)=Q (2)+(y (i )-c-d*x (i ))^2;endprint (%io (2),Q (1),Q (2))计算得:(1.81660.1962)(1) 5.177Q Q =≈,,(20.2)(2)7.0Q Q ==,,∴()(20.2)Q a b Q <,,.x (1)=80 x (2)=105 x (3)=110 x (4)=115 x (5)=135 y (1)=18.4 y (2)=22 y (3)=21.6 y (4)=24.8 y (5)=29.2 (或直接写成:x=[80;105;110;115;135]y=[18.4;22;21.6;24.8;29.2]) a=1.8166 b=0.1962 c=2 d=0.2 Q (1)=0 Q (2)=0 i=1WHILE i<=5Q (1)=Q (1)+(y (i )-a-b*x (i ))^2 Q (2)=Q (2)+(y (i )-c-d*x (i ))^2 i=i+1 WENDPRINT Q (1),Q (2)计算得:(1.81660.1962)(1) 5.177Q Q =≈,,(20.2)(2)7.0Q Q ==,,∴()(20.2)Q a b Q <,,.【例17】 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据⑴⑵请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bx a =+;⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)【考点】线性相关及回归 【难度】4星 【题型】解答【关键词】2007年,广东高考 【解析】略 【答案】⑴略.⑵不难算出4421166.5 4.5 3.586i i i i i x y x y x ======∑∑,,,.于是266.54 4.5 3.566.563ˆ0.7864 4.58681b-⨯⨯-===-⨯- ˆˆ 3.50.7 4.50.35ay bx =-=-⨯= 故线性回归方程为0.350.7y x =+⑶由回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.350.710070.35+⨯=(吨)故耗能减少了9070.3519.65-=(吨)【例18】 测定某肉鸡的生长过程,每两周记录一次鸡的重量,数据如下表:由经验知生长曲线为1xy Aeλ-=+,试求y 对x 的回归曲线方程. 【考点】线性相关及回归 【难度】3星 【题型】解答 【关键词】无 【解析】略 【答案】将 2.8271xy Ae λ-=+,转变为 2.8271xAe y λ-=-,两边取自然对数得 2.827ln ln(1)A x yλ-=-.令 2.827ln(1)ln y a A y'=-=,,则有y a x λ'=-. 变化后的表如下:可算出228 1.16656040.323123.531x y x y xy '''==-===-,,,,.相关系数0.991r =-,0.05||0.9910.754r r =>=.计算得0.519967 2.99376219.96063a a A e λ-=-===,,. 于是所求曲线方程为0.5199672.827119.9603xy e -=+.【例19】 为了研究某种细菌随时间x 变化的繁殖个数,收集数据如下:⑴⑵求出y 对x 的回归方程.【考点】线性相关及回归 【难度】3星 【题型】解答 【关键词】无 【解析】略【答案】⑴作出散点图如下图所示.8642⑵由散点图看出样本点分布在一条指数型曲线bx y ce =的周围,则ln ln y bx c =+. 令ln z y =,ln a c =,则z bx a =+.可以算出相关系数0.99987r =,因此可认为求线性回归有意义.由表中数据得到线性回归方程为0.69 1.115z x =+.因此细菌的繁殖个数对温度的非线性回归方程为0.69 1.115x y e +=.。
第6章相关分析与回归分析

2019/1/29
本章内容
第一节 相关分析
第二节 一元线性回归 第三节 非线性回归
2019/1/29
第一节 相关分析
一、相关关系的概念 二、相关关系的种类 三、相关分析
四、相关分析中应注意的问题
2019/1/29
一、相关关系的概念
(一)函数关系与相关关系
1.函数关系
函数关系指变量之间具有的严格的确定性的 依存关系。当一个或几个变量取一定的值时, 另一个变量有确定值与之相对应。
函数关系的例子
某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价) 圆的面积(S)与半径R之间的关系可表示为S = R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 2019/1/29 、原材料价格(x )之间的关系可表示为y = x x x 3 1 2 3
之间的相关,称为复相关。
偏相关:在复相关的研究中,假定其他变量不
变,专门研究其中两个变量之间的相关关系时
称其为偏相关。
注意:并非所有的变量之间都存在相关关系,因此需要用 相关分析方法来识别和判断。
2019/1/29
三、相关分析
相关分析就是运用一定的方法对变量之间的依存
关系密切程度进行测定的过程。
发生车祸的次数与司机的年龄有关吗 ? 一年的葡萄酒消耗量(平均每人喝葡萄酒摄取酒精的 升数)以及一年中因心脏病死亡的人数(每十万人死 亡人数)之间有关系吗? 身高与足迹长度有关吗?
为正数,为正相关;为负数就是负相关。
2019/1/29
【例】根据上述资料,计算人均消费与人均国内生产 总值的直线相关系数。
2019/1/29
将上表计算结果代入公式为:
stata简单讲义第六讲

stata简单讲义第六讲线性相关和回归赵耐青在实际研究中,经常要考察两个指标之间的关系,即:相关性。
现以体重与身高的关系为例,分析两个变量之间的相关性。
要求身高和体重呈双正态分布,既:在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。
样本相关系数计算公式(称为Pearson 相关系数):)()())((22YYXXXY L L L Y Y X X Y Y X X r =----=∑∑∑(1)1. 考察随机模拟相关的情况。
显示两个变量相关的散点图程序simur.ado (本教材配套程序,使用见前言)。
命令为simur 样本量 总体相关系数 如显示样本量为100,ρ=0的散点图 本例命令为simur 100 0数据格式为X Y171.0 58.0176.0 69.0175.0 74.0172.0 68.0170.0 64.0173.0 68.5168.0 56.0172.0 54.0170.0 62.0172.0 63.0173.0 67.0168.0 60.0171.0 68.0172.0 76.0173.0 65.0Stata命令pwcorr 变量1 变量2 …变量m,sig 本例命令pwcorr x y,sigpwcorr x y,sig| x y-------------+------------------x | 1.0000||y | 0.5994 1.0000| 0.0182|Pearson相关系数=0.5994,P值=0.0182<0.05,因此可以认为身高与体重呈正线性相关。
注意:Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布,通常在检查中要求X服从正态分布并且Y服从正态分布。
如果不满足双正态分布时,可以计算Spearman相关系数又称为非参数相关系数。
Spearman相关系数的计算基本思想为:用X和Y的秩代替它们的原始数据,然后代入Pearson相关系数的计算公式并且检验与Pearson相关系数类同。
《非参数统计》教学大纲

《非参数统计》课程教学大纲课程代码:090531007课程英文名称:Non-parametric Statistics课程总学时:40 讲课:32 实验:8 上机:0适用专业:应用统计学大纲编写(修订)时间:2017.6一、大纲使用说明(一)课程的地位及教学目标《非参数统计》是应用统计学专业的一门专业基础课,是统计学的一个重要分支。
课程主要研究非参数统计的基本概念、基本方法和基本理论。
本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,着重培养学生的统计思想、统计推断和决策能力。
通过本课程的学习,学生将达到以下要求:1.掌握非参数统计方法原理、方法,具有统计分析问题的能力;2.具有根据具体情况正确选用非参数统计方法,正确运用非参数统计方法处理实际数据资料的能力;3.具有运用统计软件分析问题,对计算结果给出合理解释,从而作出科学的定论的能力;4.了解非参数统计的新发展。
(二)知识、能力及技能方面的基本要求1.基本知识:掌握符号检验、Wilcoxon符号秩检验、Cox-Stuart趋势检验、游程检验、Brown-Mood中位数检验、Wilcoxon秩和检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验、Friedman检验、Page检验、Siegel-Tukey检验、Mood检验、Ansari-Bradley检验、Fligner-Killeen检验等非参数统计方法。
2.基本理论和方法:掌握单样本模型、两样本位置模型、多样本数据模型中的位置参数非参数统计检验方法,掌握检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,要求能在真实案例中应用相应的方法。
3.基本技能:掌握非参数统计方法的计算机实现。
(三)实施说明1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写。
2023年高考数学(文科)一轮复习讲义——变量间的相关关系与统计案例

第4节 变量间的相关关系与统计案例考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=, a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1, y 1)(x 2, y 2),…,(x n, y n ), 其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c dc +d总计a +cb +d a +b +c +d则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )n =a +b +c +d 为样本容量.1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本点的中心(x -,y -).2.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)√ (4)√2.(易错题)(2022·兰州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,n ∈N *,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A.-1 B.0C.12D.1答案 D解析 由题设知,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案 A解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+b e xD.y=a+b ln x答案 D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案 5%解析 K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.6.(2022·银川模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x (个) 10 20 30 40 50 加工时间y (min)62a758189若用最小二乘法求得回归直线方程为y ^=0.67x +54.9,则a 的值为________. 答案 68解析 x -=10+20+30+40+505=30,y -=62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9, 解得a =68.考点一 相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额 6 5 8 3 4 7 利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是( ) A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系 答案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和D ;其属于正相关关系,A 正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3 答案 A解析 由散点图知图①与图③是正相关,故r 1>0,r 3>0, 图②与图④是负相关,故r 2<0,r 4<0,且图①与图②的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A. 3.(2022·合肥模拟)根据如下样本数据,得到回归直线方程y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 y-3.0 -2.00.5-0.52.54.0A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0答案 C解析 作出散点图(图略),由散点图可知,a ^<0,b ^>0. 感悟提升 判断相关关系的两种方法:(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1,相关性越强. 考点二 回归分析 角度1 线性回归方程及应用例1 (2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x (单位:年)与失效费y (单位:万元)的统计数据如下表所示:使用年限x (单位:年) 1234567失效费y (单位:万元)2.903.30 3.604.40 4.805.20 5.90(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费. 参考公式:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑ni =1(y i -y -)2.线性回归方程y ^=b ^x +a ^中斜率和截距最小二乘估计计算公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 参考数据:∑7i =1(x i -x -)(y i -y -)=14.00, ∑7i =1(y i -y -)2=7.08,198.24≈14.10.解 (1)由题意,知x -=1+2+3+4+5+6+77=4,y -=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑7i =1(x i -x -)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28, ∴r =14.0028×7.08=14.00198.24≈14.0014.10≈0.99.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系. (2)∵b ^=∑7i =1 (x i -x -)(y i -y -)∑7i =1 (x i -x -)2=1428=0.5, ∴a ^=y --b ^x -=4.3-0.5×4=2.3.∴y 关于x 的线性回归方程为y ^=0.5x +2.3.将x =10代入线性回归方程,得y ^=0.5×10+2.3=7.3, ∴估算该种机械设备使用10年的失效费为7.3万元. 角度2 非线性回归方程及应用例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB =1 024 TB),EB(1 EB =1 024 PB)乃至ZB(1 ZB =1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49 ZB ,2009年数据量为0.8 ZB ,2010年增长到1.2 ZB ,2011年数据量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:表中z i =ln y i ,z -=16∑6i =1z i . (1)根据上表数据信息判断,方程y =c 1·e c 2x (e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(c 2精确到0.01);(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由. 参数数据:e4.56≈95.58,e4.58≈97.51,回归方程y ^=a ^+b ^x 中,b ^=∑n i =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx -2, a ^=y --b ^x -.解 (1)由y =c 1·e c 2x 得ln y =c 2x +ln c 1, 即z =c 2x +ln c 1,∴c 2=∑6i =1(x i -x -)(z i -z -)∑6i =1(x i -x -)2=6.7317.5≈0.38.又∵z -=c 2x -+ln c 1,0.38×3.5+ln c 1=2.85,ln c 1=1.52. ∴ln y =0.38x +1.52,即y =e 0.38x +1.52为所求的回归方程. (2)根据(1)知回归方程为y =e 0.38x +1.52.当x =9时,y =e 0.38×9+1.52=e 4.94>e 4.56≈95.58,95.581.82≈52.52.据此可以判断2022年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.感悟提升 回归分析问题的类型及解题方法 (1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b ^.③待定系数法:利用回归直线过样本点的中心求系数a ^.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.训练1 下面给出了根据我国2015~2021年水果人均占有量y (单位:kg)和年份代码x 绘制的散点图和线性回归方程的残差图.(2015年~2021年的年份代码x 分别为1~7)(1)根据散点图分析y 与x 之间的相关关系;(2)根据散点图相应数据计算得∑7i =1y i =1 074,∑7i =1x i y i =4 517,求y 关于x 的线性回归方程;(精确到0.01)(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果. 附:回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为 b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2, a ^=y --b ^x -.解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x 由小变大时,y 也由小变大,所以y 与x 之间具有线性相关关系,且是正相关. (2)由题意可知,x -=1+2+3+4+5+6+77=4,y -=17∑7i =1y i=1 0747, ∑7i =1x 2i =12+22+32+42+52+62+72=140, ∴b ^=∑7i =1x i y i-7x - y -∑7i =1x 2i -7x -2=4 517-7×4×1 0747140-7×42=22128≈7.89,∴a ^=y --b ^x -=1 0747-7.89×4≈121.87,∴y 关于x 的线性回归方程为y ^=7.89x +121.87.(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.考点三 独立性检验例3 (2021·武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展,行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯,该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到统计图如图所示.(1)估算该市电动自行车骑乘人员的平均年龄; (2)根据所给的数据,完成列联表:是否佩戴头盔是否(3)根据(2)中的列联表,判断是否有99%的把握认为佩戴安全头盔与年龄有关. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)该市电动自行车骑乘人员平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(周岁). (2)完成2×2列联表如下:(3)K 2的观测值k =1 000×(60×540-60×340)2600×400×880×120=12522≈5.682<6.635.故没有99%的把握认为佩戴安全头盔与年龄有关.感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0. |ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)通过比较观测值k与临界值的大小关系来作统计推断.训练2 (2022·南宁模拟)第五代移动通信技术(5G技术)是最新一代蜂窝移动通信技术,也是继4G、3G和2G系统之后的延伸.5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接.某大学为了解学生对“5G”相关知识的了解程度,随机抽取100名学生参与测试,并根据得分划分成“不太了解”或“比较了解”两类后整理得到如下列联表:(1)补全列联表,并判断是否有99.9%的把握认为“学生对5G的了解程度与性别有关”;(2)从“不太了解”的学生中按性别分层抽取6人,再从这6人中随机选取2人参加“5G”知识讲座,求抽到的2人中恰有1名女生的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d). 临界值表:解(1)补全的列联表如下:不太了解 比较了解 总计 男生 25 33 58 女生 5 37 42 总计3070100所以K 2的观测值k =100×(25×37-33×5)258×42×30×70≈11.291>10.828,故有99.9%的把握认为“学生对5G 的了解程度与性别有关”. (2)“不太了解”的男生有25人,女生有5人,按性别分层抽样从中抽取6人,则男生应抽取5人,记为a ,b ,c ,d ,e ,女生应抽取1人,记为x ,再从这6人中随机抽取2人共有15种情况:xa ,xb ,xc ,xd ,xe ,ab ,ac ,ad ,ae ,bc ,bd ,be ,cd ,ce ,de ,抽到恰有1名女生有5种情况:xa ,xb ,xc ,xd ,xe , 所以所求的概率为515=13.1.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验 D.概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v ,有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2),由这两个散点图可以判断( )A.变量x 与y 正相关,u 与v 正相关B.变量x 与y 正相关,u 与v 负相关C.变量x 与y 负相关,u 与v 正相关D.变量x 与y 负相关,u 与v 负相关 答案 C解析 由题图(1)可知,y 随x 的增大而减小,各点整体呈下降趋势,x 与y 负相关,由题图(2)可知,u 随v 的增大而增大,各点整体呈上升趋势,u 与v 正相关. 3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( ) A.①② B.②③ C.①③ D.①②③答案 D4.(2022·昆明诊断)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表:x 2 3 4 5 6 y3.44.25.15.56.8由表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( ) A.7B.8C.9D.10答案 D解析 由已知表格,得x -=15×(2+3+4+5+6)=4, y -=15×(3.4+4.2+5.1+5.5+6.8)=5,因为回归直线恒过样本点的中心(x -,y -), 所以5=0.81×4+a ^,解得a ^=1.76, 所以回归直线的方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值为10.故选D. 5.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:附表:参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关 答案 A解析 ∵K 2的观测值k =55×(20×20-5×10)225×30×30×25≈11.978>10.828,所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关. 6.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程:y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线:y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =6.665,则有99%的把握确认这两个变量间有关系(其中P (K 2≥6.635)=0.010), 其中错误的个数是( ) A.0 B.1 C.2 D.3答案 B解析 对于①,残差可用来判断模型拟合的效果,残差越小,拟合效果越好,∴①正确;对于②,回归方程y ^=3-5x 中,变量x 增加一个单位时,y 平均减少5个单位,∴②错误;对于③,线性回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),∴③正确; 对于④,在2×2列联表中,由计算得k =6.665,对照临界值得,有99%的把握确认这两个变量间有关系,∴④正确. 综上,其中错误的命题是②,共1个,故选B.7.已知x 和y 的散点图如图所示,在相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21,R 22中较大的是________.答案 R 21解析 由散点图知,用y =c 1e c 2x 拟合的效果比y ^=b ^x +a ^拟合的效果要好,所以R 21>R 22,故较大者为R 21.8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2的观测值k ≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%. 答案 ①解析 k ≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.9.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%; ②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%; ④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%. 答案 ②解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.10.(2022·河南名校联考)某学校食堂统计了最近5天到餐厅就餐的人数x (单位:百人)与食堂向食材公司购买所需食材(原材料)的数量y (单位:袋),得到如下统计表:(1)根据所给的5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)已知购买食材的费用C (单位:元)与数量y (单位:袋)的关系为C =⎩⎨⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),投入使用的每袋食材相应的销售单价为700元,多余的食材必须无偿退还食材公司,据悉下周一大约有1 500人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2,a ^=y --b ^x -. 参考数据:∑5i =1x i y i =1 343,∑5i =1x 2i =558,∑5i =1y 2i=3 237. 解 (1)由所给数据可得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,所以b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i-5x -2=1 343-5×10.4×25558-5×10.42=2.5,又a ^=y --b ^x -=25-2.5×10.4=-1, 所以y 关于x 的线性回归方程为y ^=2.5x -1. (2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要购买食材36.5袋. 因为C =⎩⎪⎨⎪⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),所以当y <36时,利润L =700y -(400y -20)=300y +20,y ∈N , 此时当y =35时,利润L max =300×35+20=10 520(元);当y ≥36时,根据线性回归方程预测需要购买食材36.5袋,并且剩余的食材只能无偿退还,此时当y =36时,利润L =700×36-380×36=11 520(元), 当y =37时,利润L =700×36.5-380×37=11 490(元).综上,食堂应购买36袋食材,才能获得最大利润,最大利润为11 520元. 11.(2022·“四省八校”开学考试)据我国一项专题调查显示,某市高级职称的中年知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们所处的特殊工作及生活的环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态.如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查,该公司处于正常工作状态的员工(包括管理人员)共有8 000人,其中男性员工有6 000人,女性员工有2 000人,从8 000人中用分层抽样的方法随机抽取了400人作为样本进行健康状况的调查.(1)求男性员工、女性员工各抽取多少人?(2)通过调查得到如图所示的统计图,其中a=0.2,b=0.1.根据统计图,完成下面2×2列联表,健康亚健康总计男员工女员工总计400问是否有97.5%的把握认为人处于亚健康状态与性别有关?参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 参考数据:P(K≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879解(1)由题意知样本容量与总体的比值为4008 000=120,∴男性员工抽取了6 000×120=300(人),女性员工抽取了2 000×120=100(人).(2)由统计图可知,样本中男员工处于亚健康状态的人数为300×0.2=60,样本中女员工处于亚健康状态的人数为100×0.1=10,2×2列联表为健康 亚健康 总计 男员工 240 60 300 女员工 90 10 100 总计33070400则K 2的观测值k =400×(240×10-60×90)2300×100×330×70≈5.195>5.024,∴有97.5%的把握认为人处于亚健康状态与性别有关.12.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为________(填序号). 答案 ①解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i =23,则实数b 的值为________. 答案 1723解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -12, 此时t -=∑6i =1x 2i 6=236,y -=∑6i =1yi 6=73,代入y =bt -12,得73=b ×236-12,解得b =1723.14.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求y 关于x 的线性回归方程(计算结果保留两位小数);(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解 (1)依题意得,x -=1+2+3+4+55=3,y -=8+10+13+25+245=16,故∑5i =1(x i -x -)(y i -y -)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47, ∑5i =1(x i -x -)2=4+1+1+4=10,则b ^=∑5i =1(x i -x -)(y i -y -)∑5i =1 (x i -x -)2=4710=4.7,a ^=y --b ^x -=16-4.7×3=1.9.所以y 关于x 的线性回归方程为y ^=4.7x +1.9. (2)依题意,女性不愿意参与管理的人数为50, 计算得K 2的观测值为k =300×(150×50-50×50)2200×100×200×100=300×5 000×5 000200×100×200×100=18.75>10.828, 故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.。
法规与政策讲义第六章

社区矫正的任务与内容
任务 执行刑罚 矫正行为 安置救济
内容 行为督导 教育矫正 组织劳动
第四节 禁毒法规与政策
禁毒的目的、方针及机制 禁毒宣传教育 戒毒措施 法律责任
戒毒措施
社区戒毒:期限:三年 负责部门:街道办、乡镇政府 戒毒治疗:吸毒人员可自行前往戒毒机构接受治疗 强制隔离戒毒:(县级以上公安机关决定或同意)
长期限不得超过( )日。
A. 10
B. 20
C. 30
D. 40
2012年单选题:
4. 根据《禁毒法》,下列关于强制隔离戒毒的说法, 正确的是( )。
A. 强制隔离戒毒的期限一般为两年,最长不超过三年 B. 强制隔离戒毒场所可自行决定是否接收吸毒成瘾人员 C. 不满18周岁的未成年人不适用强制隔离戒毒 D. 卫生行政部门负责对强制隔离戒毒场所的管理
信访事项的提出、受理和办理
信访事项的提出与注意事项:
信访事项的受理时限:15日 信访事项的办理时限:
办理完成:60日+30日 请求复查:30日 复查意见:30日 请求复核:30日 复核意见:30日(终极意见)
信访事项的督办
收到改进建议的行政机关应在30日内书面反 馈情况;未采纳改进建议的应当说明理由
本章考点: 人民调解工作的基本体制 人民调解工作应当遵守的原则 人民调解的程序 人民调解必须遵守的纪律 信访工作的机构 信访事项的提出、受理、办理和督办 信访的法律责任 社区矫正的适用范围 社区矫正的任务与内容 社区矫正相关部门的职责和任务 禁毒的目的、方针及机制 戒毒措施 禁毒的法律责任
第一节 人民调解法规与政策
A.被裁定假释人员 B.被剥夺政治权利人员 C.被判处管制人员 D.被治安处罚人员 E.被宣告缓刑人员
《相关和回归分析》ppt课件

假设: 2yyc2最小值
将 yˆ abx 带入到上述方程,那么得:
e 2 y y ˆ2 y a b2 x 最小
前往本节首页
令:
Q e2 ya b2 x最小
求偏导数并令其等于0:
Q a
2y
abx10
Q b
2y
abxx0
前往本节首页
解上述方程可得到两个规范方程:
ynabx xyaxbx2
阐明:相关分析和回归分析的关系
回归分析是要对所研讨的变量建立描画它们关系的 模型。但假设要研讨的变量间有没有关系,就谈不 上建立模型,而发现变量间有无关系的最简单、直 观的方法就是进展相关分析。
第一节 相关分析的意义和种类
▪ 一、相关分析的概念 ▪ 二、相关分析的种类
前往本章首页
一、相关分析的概念
eyy ˆy(ab)x
残差
即: yy ˆeab xe
此式即为样本回归函数
前往本节首页
知道了样本回归函数的普通方式
yabxe
需求将a 、b的值估计出来,用以作为总体回归参数 的估计值。
对于a 、b的估计,实践中采用最小二乘法
前往本节首页
最小二乘法的思绪:
由于残差 eyy ˆy(ab)x
残差e 越小,估计值和实践值的离差就越小, 代表回归方程的代表性就越好。
需 拟合直线还是曲线需利用散点图判别
样本一元回归直线实际上可表示为:
yˆ abx
yˆ 为 样本实践观测值 y 的估计值 、代表值、平均值
a、b是两个未知参数。a为截距,b为斜率。
两者分别是对总体参数 和的估计值
前往本节首页
实践观测到的各个因变量 y 值 并不完全等于 yˆ
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 相关与回归相关和回归分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。
本章介绍相关和回归分析的基本原理和系统分析的方法。
第一节 相关的概念和二元概率分布1.什么是相关关系?确定性依存关系 不确定(随机性)依存关系2.相关关系种类正相关 负相关 曲线相关 不相关 x x x x xy x3.二元概率分布二元概率分布的5个特征值:(1)x 的数学期望: (2)y 的数学期望: (3)x 的方差: (4)y 的方差: (5第二节 简单线性相关一、相关系数∑=)()(i i x p x x E ∑=)()(i i y p y y E ∑⋅-=)()]([22i ii x x p x E x σ∑⋅-=)()]([22i i i y y p y E y σ)()]()][(j i j y x p y E y x ⋅⋅-0))(()(,0)(<<y y x x y y x x ----0))(()(,0)(><y y x x y y x x ----0))(0)(,0)>>>y y x x y y x x ----0))(0)(,0)<<>y y x x y y x x ----协方差σxy 可表明x 、y 的“共变性”和线性相关的方向。
但不是一个适用于比较的相关关系的量度。
积矩相关系数是对它的改进。
二、相关系数的检验(t 检验)H 0 : p=0, H 1 : p ≠0检验统计量 第三节 一元线性回归模型一、回归的概念和回归分析的特点回归分析和相关分析的联系和区别联 系区 别①理论和方法具有一致性;②无相关就无回归,相关程度越高,回归越好;③相关系数和回归系数方向一致,可以互相推算。
① 相关分析中,x 与y 对等,回归分析中,x 与y 要确定自变量和因变量; ② 相关分析中x ,y 均为随机变量,回归分析中,只有y 为随机变量; ③ 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。
yx yx n y y x x nyy x x r σσσσ∑∑--=--=))(())((212||r n r t --=二、一元线性回归模型(一)一元线性回归模型的性质回归系数b 表明自变量x 每变化一个单位因变量y 的增(减)量。
2.bx a y+=ˆ是理论模型,表明x 与y 两变量之间的平均变动关系。
(实际值):(二)一元线性回归模型的确定j j i j ybx a y εε+=++=ˆ)(根据实际数据,用最小平方法,即使 ,分别对a 、b 求编导并令其为零,求得两个标准方程:三、判定系数(r 2)和估计标准误(Sxy ) (一)判定系数(r 2)判定系数是对回归模型拟合优度的评价。
= +r 2表示全部偏差中有百分之几的偏差可由x 与y 的回归关系min )ˆ(2=-y y j 2x b x a xy xb na y ∑+∑=∑∑+=∑x)222()y y y ∑=222222)()ˆ(1)()ˆ(y y yy r y y y yr -∑-∑-=-∑-∑=或(二)估计标准误(Sxy )Sxy 是二元正态分布中因变量实际值(y j )对估计值( )离Sxy 越小, 拟合越好;Sxy 越大, 拟合越差。
Sxy 也是用自变量对因变量进行区间估计的抽样误差。
四、一元线性回归模型的显著性检验 (一)回归系数b 的检验设总体回归系数为β0 H 0:β=0;H 1:β≠0 1.n ≥30时 检验统计量 (β=0)σb是样本回归系数抽样分布的标准差。
通常是未知的,用其估计量 代替。
y ˆx.45% 99.73%y ˆy ˆbb Z σβ-=b σˆ322222/)()(ˆx n x n xy b y a y x x xy S b -∑-∑-∑-∑=-∑=σ给定显著性水平α,查Z 表可知其临界值 。
2.n <30时检验统计量 (β=0)给定显著性水平α,查t 表可知其临界值 。
(二)回归模型整体的F 检验或(可见,F 检验实质上是对总体回归模型H 0:R 2=0的检验。
)2αZ b b t σβˆ-=)2(2-n t α2/)ˆ(1/)ˆ(//22--∑-∑==n y y y yF 自由度剩余偏差自由度回归偏差检验统计量 221)2(rn r F --=五、应用一元回归模型进行区间估计 1.n ≥30时给定x 0,y 0的置信度(1-α) 的置信区间为:2.n <30时给定x 0,y 0的置信度(1-α) 的置信区间为:给定的x 0越接近 ,y 值估计的精确度越高。
第四节 多元线性回归模型一、多元线性回归模型的性质与模型的确定 1.模型性质Sxy Z yy 20ˆα±=SxyZ bx a 20)(α±+=%73.99)3ˆ(%45.95)2ˆ(%27.68)1ˆ(=±=±=±Sxy yP Sxy yP Sxy yP x0bx +220)220220)220)()(11)()()(11ˆx x x x n Sxy t bx a x x x x n Sxy t y y n n -∑-++⋅⋅±+=-∑-++⋅⋅±=--αα0xbx +x x模型的一般形式:二元线性回归模型:△ b 1:假定x 2固定时x 1每变动1个单位引起的y 的增量。
△ b 2:假定x 1固定时x 2每变动1个单位引起的y 的增量。
△ ,是x 1和x 2共同变动引起的y 的平均变动,反映一组自变量与因变量的平均变动关系。
△ 是给定x 1、x 2计算得到的估计值,是y 的实际值的数学期望。
(实际值)2.模型的确定根据实际资料,用最小平方法,即使 ,分别对a 、b 1、b 2求编导并令其为零,求得三个标准方程: n n x b x b x b a y++++= 2211ˆx b x b a y 211ˆ++=y ˆj j x b x b a y ε+++=2211最小=-∑2)ˆ(y y j 2222112221221112211x b x x b x a y x xx b x b x a y x x b x b na y j jj ∑+∑+∑=∑∑+∑+∑=∑∑+∑+=∑解此联立方程便可得到a 、b 1、b 2。
二、多元线性回归模型的判定系数和估计标准误 (一)判定系数0<r 2<1 (二)估计标准误(S y (x1、x2))r 2和S y (x1、x2)都是对回归模型拟合优度的评价指标。
S y (x1、x2)也是用自变量对因变量进行区间估计的抽样误差。
三、多元回归模型的显著性检验 (一)对偏回归系数的t 检验 H 0: β1=0 ,H 1: β1≠0;H 0: β2=0, H 1: β2≠0。
检验统计量:222)()ˆ(y y y y r j -∑-∑==总偏差回归偏差2222211)()(y n y y n y x b y x b y a j j j j -∑-∑+∑+∑=3)ˆ(2),(21--∑=n yy S j x x y 32211-∑-∑-∑-∑=n y x b y x b y a y jj j j 2211ˆ||||,ˆ||||b b b t b t σσ==22211222211222),(1)])(([)()()(ˆ21x x x x x x x x x x S x x y b --∑---∑-∑⋅=σ22211222211222),(22)])(([)()()(ˆ21x x x x x x x x x x S x x y b --∑---∑-∑=σ按显著性水平α和自由度 (n-3)查t 表可得到临界值(二)模型整体的F 检验 检验统计量:(k ——自变量个数)二元线性回归模型下统计量:或按给定的α和自由度(2)和(n-3)查F 表可得到 临界值F α(2,n-3)四、多元回归中的相关分析 (一)复相关指一个因变量同多个自变量的相关关系。
复相关系数 恒取正值。
22212)()ˆ(y y y y r r j ny -∑-∑== )3(2-n t αt)3(2--n t α2α)1/()(/)ˆ()1/(/22---∑-∑=--=k n y y k y yk n k F j 剩余偏差回归偏差)3/()(2/)ˆ(22--∑-∑=n y y y yF j )1(2)3()3/()1(2/2222r n r n r r F --=--= FαF α(n,m)(二)偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。
计算偏相关系数需借助相关系数矩阵表的资料。
二元回归中的相关系数矩阵表x 1与y 的偏相关系数:x 2与y 的偏相关系数:偏相关系数与单相关系数符号相同,但数值不同。
第五节 非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。
例如: 双曲线:212221221)2(1)(1)(1r r r r r r y y y y -⋅-⋅-=212211212)1(2)(1)(1r r r r r r y y y y -⋅-⋅-=x b a y +=x0 yy 0xa >0b >0a >0,b <0指数曲线:y=ae bx幂函数曲线:y=ax b△ 曲线模型的判别方法:(1)理论和经验判断;(2)观察散点图△ 曲线模型的确定方法:通常用变量代换法将曲线转换为直线。
按线性模型 求解参数,而后再变换为曲线模型。
例如:双曲线模型:指数曲线模型xa >0,b >00 a >0, b <00 xb a y 1ˆ+='ˆ,1'bx a yx x +==则有令bx ae y=ˆxe x bx a y Lna a Lny y =+===='''''',,则有令xb <0xb >0y小结一、相关与回归的系统分析二、注意问题1.注意相关分析和回归分析的联系和区别,正确地把它们结合起来;2.正确理解相关和回归分析中各种测定方法的意义和解释计算的结果;3.选择恰当的回归方程,避免方程形式的错误识别;4.避免多重共线性,即避免自变量之间的高度相关;5.避免因变量的序列相关的影响。
6.把定性分析与定量分析结合起来,不能轻易地把统计上的相关关系都解释为因果关系。
7.回归模型用于外推预测要谨慎。