回归方程及回归系数的显著性检验

回归方程及回归系数的显著性检验
回归方程及回归系数的显著性检验

§3 回归方程及回归系数得显著性检验

1、回归方程得显著性检验

(1) 回归平方与与剩余平方与

建立回归方程以后, 回归效果如何呢?因变量与自变量就是否确实存在线性关系呢?这就是需要进行统

计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值得变化规律。得每次取值就是有波动得, 这种波动常称为变差, 每次观测值得变差大小,常用该次观侧值与次观测值得平均值得差(称为离差)

来表示, 而全部次观测值得总变差可由总得离差平方与

其中:

称为回归平方与, 就是回归值与均值之差得平方与, 它反映了自变量得变化所引起得得波动, 其自由

度(为自变量得个数)。

称为剩余平方与(或称残差平方与), 就是实测值与回归值之差得平方与, 它就是由试验误差及其它因素引起得, 其自由度。总得离差平方与得自由度为。

如果观测值给定,则总得离差平方与就是确定得, 即就是确定得,因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方与越大则线性回归效果越显著, 或者说剩余平方与越小回归效果

越显著, 如果=0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。

(2)复相关系数

为检验总得回归效果,人们也常引用无量纲指标

, (3、1)

, (3、2)

称为复相关系数。因为回归平方与实际上就是反映回归方程中全部自变量得“方差贡献”, 因此就就是这

种贡献在总回归平方与中所占得比例, 因此表示全部自变量与因变量得相关程度。显然。复相关系数越接

近1, 回归效果就越好, 因此它可以作为检验总得回归效果得一个指标。但应注意,与回归方程中自变

量得个数及观测组数有关, 当相对于并不很大时,常有较大得值, 因此实际计算中应注意与得适当比例,一般认为应取至少为得5到10倍为宜。

(3) 检验

要检验与就是否存在线性关系, 就就是要检验假设

, (3、3)

当假设成立时, 则与无线性关系, 否则认为线性关系显著。检验假设应用统计量

, (3、4)

这就是两个方差之比,它服从自由度为及得分布, 即

, (3、5)

用此统计量可检验回归得总体效果。如果假设成立, 则当给定检验水平α下, 统计量应有≤, (3、6)

对于给定得置信度α,由分布表可查得得值, 如果根据统计量算得得值为,则拒绝假设, 即不能认为全部为O, 即个自变量得总体回归效果就是显著得,否则认为回归效果不显著。

利用检验对回归方程进行显著性检验得方法称为方差分析。上面对回归效果得讨论可归结于一个方差分析表中, 如表3、1。

表3、1 方差分析表

根据与得定义,可以导出与得以下关系:

,

利用这两个关系式可以解决值多大时回归效果才算就是显著得问题。因为对给定得检验水平α, 由分布表可查出得临界值, 然后由即可求出得临界值:

,(3、7)

当时,则认为回归效果显著。

例3、1利用方差分析对例2、1得回归方程进行显著性检验。

方差分析结果见表3、2。

表3、2

取检验水平α=0、05, 查分布表得, 而, 所以例2、1得回归方程回归效果就是显著得。

2、回归系数得显著性检验

前面讨论了回归方程中全部自变量得总体回归效果, 但总体回归效果显著并不说明每个自变量对因变量都就是重要得, 即可能有某个自变量对并不起作用或者能被其它得得作用所代替, 因此对这种自变量我们希望从回归方程中剔除, 这样可以建立更简单得回归方程。显然某个自变量如果对作用不显著, 则它得系数就应取值为0, 因此检验每个自变量就是否显著, 就要检验假设:

, , (3、8)

(1) 检验:

在假设下, 可应用检验:

, , (3、9)

其中为矩阵得对角线上第个元素。

对给定得检验水平α,从分布表中可查出与α对应得临界值, 如果有, 则拒绝假设, 即认为与0有显著差异, 这说明对有重要作用不应剔除; 如果有则接受假设,即认为成立, 这说明对不起作用, 应予剔除。

(2) 检验:

检验假设, 亦可用服从自由度分别为1与得分布得统计量

, (3、10)

其中为矩阵得主对角线上第个元素。对于给定得检验水平α, 从分布表中可查得临界, 如果有, 则拒绝假设, 认为对有重要作用。如果,则接受假设, 即认为自变量对不起重要作用, 可以剔除。一般一次检验只剔除一个自变量, 且这个自变量就是所有不显著自变量中值最小者, 然后再建立回归方程, 并继续进行检验, 直到建立得回归方程及各个自变量均显著为止。

最后指出,上述对各自变量进行显著性检验采用得两种统计量与实际上就是等价得, 因为由(3、9)式及(3、10)式知, 有

(3、11)

例3、2对例2、1得回归方程各系数进行显著性检验。

经计算:

,

于就是

,

其中=0、002223, =0、004577。由(3、7)式知

,

,

查分布表得, , 因为, , 所以两个自变量及都就是显著得。又由, 说明体长比胸围对体重得影响更大。

如果应用检验, 查分布表有, 又由

,

因为, ,因此及都就是显著得, 均为重要变量, 应保留在回归方程中。

(3) 偏回归平方与

检验某一自变量就是否显著, 还可应用偏回归平方与进行检验。

个自变量得回归平方与为

如果自个自变量中去掉, 则剩下得个自变量得回归平方与设为, 并设

,

则就表示变量在回归平方与中得贡献, 称为得偏回归平方与或贡献。可以证明

, (3、12)

偏回归平方与越大,说明在回归方程中越重要, 对得作用与影响越大,或者说对回归方程得贡献越大。因此偏回归平方与也就是用来衡量每个自变量在回归方程中作用大小(贡献大小)得一个指标。

例如在例2、1中, 与得偏回归平方与分别为

,

,

, 说明在回归方程中得作用比大。

又如在例2、2中及得偏回归平方与分别为:

,

,

,

得值最小, 即在回归方程中所起得作用最小, 最大, 说明在回归方程中所起得作用最大。

计量经济学--回归方程的显著性检验

经济计量分析实验报告 一、实验项目 回归方程的显著性检验。 二、实验日期 2015.11.21 三、实验目的 对于国内旅游总花费的有关影响因素建立多元线性回归模型。 四、理论分析 影响国内旅游总花费增长的主要因素可能有: 1、人口。人口增长,也就是消费者增长会直接提高国内旅游总花费。 2、旅行社的发展情况。旅行社可以为旅行者提供便利的服务、快捷的信息,为旅行者的出游减少负担,刺激人们的消费欲望。 3、城市公共交通运营状况。交通便利,让人民可以快速而舒适的游转在各个城市之间。方便快捷的交通工具能减少在路途上耗费的时间,提高旅游量。 4、城乡居民储蓄存款。它代表了居民的财富状况,说明居民在满足了基本生活之外的收入,而这笔资金可以用于提高居民的生活水平,丰富居民的精神世界,例如,旅游,健身等。 五、实验内容 建立模型,对模型进行参数估计,对样本回归函数进行统计检验,以判定估计的可靠程度,包括拟合优度检验、方程总体线性的显著性检验、变量的显著性检验,以及参数的置信区间估计。 六、实验步骤 1、建立模型。 以国内旅游总花费Y 作为被解释变量,以年底总人口表示人口增长水平,以旅行社数量表示旅行社的发展情况,以城市公共交通运营数表示城市公共交通运行状况,以城乡居民储蓄存款年末增加值表示城乡居民储蓄存款增长水平。 2、模型设定为: t t t t t μβββββ+X +X +X +X +=Y 443322110t 其中:t Y — 国内旅游总花费(亿元) t 1X — 年底总人口(万人)

t 2X — 旅行社数量(个) t 3X — 城市公共交通运营数(辆) t 4X — 城乡居民储蓄存款年末增加值(亿元) 3、搜集有关国内旅游花费、人口、旅行社发展情况、城市公共交通运行状况、城乡居民储蓄存款的数据并整理汇总、编制表格。 数据来源:国家发改委、国家统计局 4、对数据作出散点图。运用Eviews 软件实现。 5、参数估计。假定模型中随机项满足基本假定,用OLS 法估计其参数,运用Eiews 软件实现。 年份(年) 国内旅游总花费(亿元) 年底总人口(万人) 旅行社数量(个) 城市公共交通运营数(辆) 城乡居民储蓄存款年末增加值(亿元) 1985年 105851.00 45155.00 407.90 1986年 107507.00 49530.00 615.90 1987年 109300.00 52504.00 842.90 1988年 111026.00 56818.00 740.80 1989年 112704.00 59671.00 1374.20 1990年 114333.00 62215.00 1923.40 1991年 115823.00 66093.00 2121.80 1992年 117171.00 77093.00 2517.80 1993年 118517.00 3238.00 88950.00 3444.10 1994年 1023.50 119850.00 4382.00 100848.00 6315.30 1995年 1375.70 121121.00 3846.00 136922.00 8143.50 1996年 1638.40 122389.00 4252.00 148109.00 8858.50 1997年 2112.70 123626.00 4986.00 169121.00 7759.00 1998年 2391.20 124810.00 6222.00 189002.00 7615.40 1999年 2831.90 125909.00 7326.00 209884.00 6253.00 2000年 3175.50 126583.00 8993.00 225993.00 4976.70 2001年 3522.40 127627.00 10532.00 230844.00 9457.60 2002年 3878.40 128453.00 11552.00 246129.00 13233.20 2003年 3442.30 129227.00 13361.00 264338.00 16631.90 2004年 4710.70 129988.00 14927.00 281516.00 15929.40 2005年 5285.90 130756.00 16245.00 313296.00 21496.80 2006年 6229.70 131448.00 17957.00 315576.00 20544.00 2007年 7770.60 132129.00 18943.00 347969.00 10967.10 2008年 8749.30 132802.00 20110.00 371822.00 45351.20 2009年 10183.70 133474.00 370640.00 42886.40 2010年 12579.80 133972.00 42530.80

SPSS中的相关分析及假设检验

相关分析及假设检验 spss 1.概念 变量之间相关,但是又不能由一个或几个变量值去完全和唯一确定另一个变量值的这种关系称为相关关系。相关关系是普遍存在的,函数关系仅仅是相关关系的特例。事物之间有相关关系,不一定是因果关系,也可能仅是伴随关系,但是事物之间有因果关系,则两者必然相关。 相关分析用于分析两个随机变量的关系,可以检验两个变量之间的相关度或多个变量两两之间的相关程度,也可以检验 两组变量之间的相关程度 偏相关分析是指在控制了其他变量的效应以后,对两个变量相关程度的分析。、 2.皮尔逊积差相关系数pearson product-moment correlation coefficient 变量之间的相关程度由相关系数来度量,pearson相关系数是应用最广的一种。它用于检验连续型变量之间的线性相关程度 2.1前提假设 1)正态分布皮尔逊积差相关只适用于双元正态分布的变量,即两个变量都是正态分布,注意只有pearson要求正态分布 如果正态分布的前提不满足,两变量间的关系可能属于非线性相关 2)样本独立样本必须来自总体的随机样本,而且样本必须相互独立 3)替换极值变量中的极端值如极值、离群值对相关系数的影响较大,最好加以删除或代之以均值或中数 2.2相关分析的前提假设检验 一般情况下是对是否满足正态分布进行检验,对于正态分布的检验有好几种方法,总的可分为非参数检验和图形检验法 1)非参数检验法 spss中的1-sample K-S检验,检验样本数据是否服从某种特定的分布,方法有三种 a. Asymptotic only 是一种基于渐进分布的显著性水平的检验指标,通常显著性水平小于0.05则认为显著,适用于大样本。如果 样本过小或分布不好,该指标的适用性会降低 b.Monte Carlo 精确显著性水平的无偏估计,适用于样本过大无法使用渐进方法估计显著性水平的情况,可以不必依赖渐近方法的假设前提 c.Exact 精确计算观测结果的概率值,通常小于0.05即被认为显著,表明横变量和列变量之间存在相关,同时允许用户键入每次检验的最长 时间显著,可以键入1到9999999999之间的数字,但只要一次检验超过指定时间的30分钟,就应该用monte carlo 假设是服从某种分布 所以如果计算出的值比如Asymp. Sig 小于0.05,那么拒绝原假设,说明样本为非正态分布,否则值越大越服从某种分布 单样本K-S首先计算每一阶段实际值与观察值的差异值,再计算每一阶段差异值的绝对值Z,即K-S的Z值,Z值越大,样本服从理论分布的可能性越小 还有一个是2 -sample Kolmogorov—Smirnov用于检验2个样本的分布是相同的假设 2)图形法 spss中graph a.Q-Q正态检验图

线性回归的显著性检验

线性回归的显着性检验 1.回归方程的显着性 在实际问题的研究中,我们事先并不能断定随机变量y与变量人,乂2,…,x p之间确有线 性关系,在进行回归参数的估计之前,我们用多元线性回归方程去拟合随机变量y与变量 X「X2,…,X p之间的关系,只是根据一些定性分析所作的一种假设。因此,和一元线性回归方程的显着性检验类似,在求出线性回归方程后,还需对回归方程进行显着性检验。 设随机变量丫与多个普通变量x1, x2^ ,x p的线性回归模型为 其中;服从正态分布N(0,;「2) 对多元线性回归方程的显着性检验就是看自变量若接受X i,X2,…,X p从整体上对随机变 量y是否有明显的影响。为此提出原假设如果H。被接受,则表明随机变量y与x「X2,…,X p的 线性回归模型就没有意义。通过总离差平方和分解方法,可以构造对H o进行检验的统计量。正 态随机变量y i,y2/ , y n的偏差平方和可以分解为: n n n S r f (y—y)2为总的偏差平方和,S R=為(懈-y)2为回归平方和,S E f (% - ?)2为残 i 1i# im 差平方和。因此,平方和分解式可以简写为: 回归平方和与残差平方和分别反映了b = 0所引起的差异和随机误差的影响。构造F检验统计量则利用分解定理得到: 在正态假设下,当原假设H o :b i =0, b2 =0,…,b p =0成立时,F服从自由度为(p,n -p-1)的F分布。对于给定的显着水平[,当F大于临界值(p, n-p-1)时,拒绝H。,说明回归方程显着,x与y有显着的线性关系。 实际应用中,我们还可以用复相关系数来检验回归方程的显着性。复相关系数R定义为: 平方和分解式可以知道,复相关系数的取值范围为0空R乞1。R越接近1表明S E越小,回归方程拟合越好。 2.回归系数的显着性

多元回归方程的显著性检验

回归方程的显著性检验: (1)在模型上做假设: 建立回归方程的目的是寻找Y 的均值随a 的变化规律,即找出回归方程 a Y 0=+x a 11+x a 22+x a 33+x a 44+x a 55。 如果错误!未找到引用源。=0,那么不管错误!未找到引用源。如何变化,Y 不随a 的变化做任何改变,那么 这时所求的回归方程是没有意义的。,此时的回归方程是不显著的。如果错误!未找到引用源。,x x 51...≠0那么a 变化时,Y 随x 的作回归变化,那么这时求得的回归方程是有意义的,此时是显著地。 综上,对回归方程是否有意义作判断就要作如下的显著性检验: H 0: x x 5 1 ...全为0 H 1 :x x 51...不全为0 拒绝错误!未找到引用源。表示回归方程是显著的。 对最终求得的回归方程: x x x x Y 5421092.18833.19111.0363.026.574++-+-= 进行F 检验。 (2)找出统计量: 数据总的波动用总偏差平方和用 2 13 1 ))((∑=-=i i yave ST y 表示,引起各Yave 不同的原因主要有两个因素:其一是错误!未找到引用源。可能不真,Y 随a 的变化而变化,从而在每一个a 的观测值处的回归值不同,其波动用回归平方和 2 13 1 i yave ypre SR ∑=-=))(( 表示,其二是其他一切因素,包括随机误差、a 对y 的非线性影响等,这 样在得到回归值以后,y 的观测值与回归值之间还有差距,这可用残差平方和 2 13 1 i i ypre SE y ∑=-=))(( 表示。 (3)F 值的计算 由定理:设y 13 2 1 ....y y ,错误!未找到引用源。相互独立,且 ),...(~255110σx a x a a y i i i N +++,

相关系数检验表

自由度自由度n -m -10.10 0.05 0.01 n -m -10.10 0.05 0.01 10.987690.996920.999882010.018230.010910.0028820.900000.950000.990002020.050680.043320.0258130.805380.878340.958742030.068740.066150.0518940.729300.811400.917202040.079150.080690.0725350.669440.754490.874532050.085730.090380.0880760.621490.706730.834342060.090190.097180.0998670.582210.666380.797682070.093370.102170.1089880.549360.631900.764592080.095730.105950.1161890.521400.602070.734792090.097520.108880.12197100.497260.575980.707892100.098910.111200.12670110.476160.552940.683532110.100010.113070.13062120.457500.532410.661382120.100890.114600.13390130.440860.513980.641142130.101600.115860.13667140.425900.497310.622592140.102170.116900.13903150.412360.482150.605512150.102640.117770.14106160.400030.468280.589712160.103020.118500.14281170.388730.455530.575072170.103320.119110.14432180.378340.443760.561442180.103560.119620.14564190.368740.432860.548712190.103760.120060.14679200.359830.422710.536802200.103910.120420.14780210.351530.413250.525622210.104020.120720.14869220.343780.404390.515102220.104100.120970.14946230.336520.396070.505182230.104160.121170.15015240.329700.388240.495812240.104190.121340.15075250.323280.380860.486932250.104200.121470.15127260.317220.373890.478512260.104190.121570.15173270.311490.367280.470512270.104170.121640.15214280.306060.361010.462892280.104130.121690.15249290.300900.355050.455632290.104080.121720.15279300.295990.349370.448702300.104020.121730.15306310.291320.343960.442072310.103950.121730.15328320.286860.338790.435732320.103870.121700.15348330.282590.333840.429652330.103780.121670.15364340.278520.329110.423812340.103680.121620.15377350.274610.324570.418212350.103580.121560.15388360.270860.320220.412822360.103470.121490.15396370.267270.316030.407642370.103360.121410.15403380.263810.312010.402642380.103240.121320.15407390.260480.308130.397822390.103120.121220.15409400.257280.304400.393172400.103000.121120.15410410.254190.300790.388682410.102870.121010.1541042 0.251210.297320.38434242 0.102740.120900.15408 显著性水平(a ) 显著性水平(a ) 相关系数检验临界值表

线性回归方程中的相关系数r

线性回归方程中的相关系数r r=∑(Xi-X的平均数)(Yi-Y平均数)/根号下[∑(Xi-X平均数)^2*∑(Yi-Y平均数)^2]

R2就是相关系数的平方, R在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数 判定系数R^2 也叫拟合优度、可决系数。表达式是: R^2=ESS/TSS=1-RSS/TSS 该统计量越接近于1,模型的拟合优度越高。 问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 ——但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。 这就有了调整的拟合优度: R1^2=1-(RSS/(n-k-1))/(TSS/(n-1)) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。 总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。R = R接近于1表明Y与X1,X2 ,…,Xk之间的线性关系程度密切; R接近于0表明Y与X1,X2 ,…,Xk之间的线性关系程度不密切 相关系数就是线性相关度的大小,1为(100%)绝对正相关,0为0%,-1为(100%)绝对负相关 相关系数绝对值越靠近1,线性相关性质越好,根据数据描点画出来的函数-自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近。 如果其绝对值越靠近0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合是会出现很大误差的或者说是根本错误的)。 分为一元线性回归和多元线性回归 线性回归方程中,回归系数的含义 一元: Y^=bX+a b表示X每变动(增加或减少)1个单位,Y平均变动(增加或减少)b各单位多元: Y^=b1X1+b2X2+b3X3+a 在其他变量不变的情况下,某变量变动1单位,引起y平均变动量 以b2为例:b2表示在X1、X3(在其他变量不变的情况下)不变得情况下,X2每变动1单位,y平均变动b2单位 就一个reg来说y=a+bx+e a+bx的误差称为explained sum of square e的误差是不能解释的是residual sum of square

回归方程及回归系数的显著性检验

§3 回归方程及回归系数得显著性检验 1、回归方程得显著性检验 (1) 回归平方与与剩余平方与 建立回归方程以后, 回归效果如何呢?因变量与自变量就是否确实存在线性关系呢?这就是需要进行统 计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值得变化规律。得每次取值就是有波动得, 这种波动常称为变差, 每次观测值得变差大小,常用该次观侧值与次观测值得平均值得差(称为离差) 来表示, 而全部次观测值得总变差可由总得离差平方与 , 其中: 称为回归平方与, 就是回归值与均值之差得平方与, 它反映了自变量得变化所引起得得波动, 其自由 度(为自变量得个数)。 称为剩余平方与(或称残差平方与), 就是实测值与回归值之差得平方与, 它就是由试验误差及其它因素引起得, 其自由度。总得离差平方与得自由度为。 如果观测值给定,则总得离差平方与就是确定得, 即就是确定得,因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方与越大则线性回归效果越显著, 或者说剩余平方与越小回归效果 越显著, 如果=0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。 (2)复相关系数 为检验总得回归效果,人们也常引用无量纲指标 , (3、1) 或 , (3、2) 称为复相关系数。因为回归平方与实际上就是反映回归方程中全部自变量得“方差贡献”, 因此就就是这 种贡献在总回归平方与中所占得比例, 因此表示全部自变量与因变量得相关程度。显然。复相关系数越接 近1, 回归效果就越好, 因此它可以作为检验总得回归效果得一个指标。但应注意,与回归方程中自变 量得个数及观测组数有关, 当相对于并不很大时,常有较大得值, 因此实际计算中应注意与得适当比例,一般认为应取至少为得5到10倍为宜。 (3) 检验 要检验与就是否存在线性关系, 就就是要检验假设 , (3、3) 当假设成立时, 则与无线性关系, 否则认为线性关系显著。检验假设应用统计量

相关系数显著性检验表完整版

附表11(1)相关系数界值表 P(2): 0.50 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001 P(1): 0.25 0.10 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 1 0.707 0.951 0.988 0.997 1.000 1.000 1.000 1.000 1.000 2 0.500 0.800 0.900 0.950 0.980 0.990 0.995 0.998 0.999 3 0.40 4 0.687 0.80 5 0.878 0.934 0.959 0.974 0.98 6 0.991 4 0.347 0.603 0.729 0.811 0.882 0.917 0.942 0.963 0.974 5 0.309 0.551 0.669 0.755 0.833 0.875 0.90 6 0.935 0.951 6 0.281 0.50 7 0.621 0.707 0.789 0.834 0.870 0.905 0.925 7 0.260 0.472 0.582 0.666 0.750 0.798 0.836 0.875 0.898 8 0.242 0.443 0.549 0.632 0.715 0.765 0.805 0.847 0.872 9 0.228 0.419 0.521 0.602 0.685 0.735 0.776 0.820 0.847 10 0.216 0.398 0.497 0.576 0.658 0.708 0.750 0.795 0.823 11 0.206 0.380 0.476 0.553 0.634 0.684 0.726 0.772 0.801 12 0.197 0.365 0.457 0.532 0.612 0.661 0.703 0.750 0.780 13 0.189 0.351 0.441 0.514 0.592 0.641 0.683 0.730 0.760 14 0.182 0.338 0.426 0.497 0.574 0.623 0.664 0.711 0.742 15 0.176 0.327 0.412 0.482 0.558 0.606 0.647 0.694 0.725 16 0.170 0.317 0.400 0.468 0.542 0.590 0.631 0.678 0.708 17 0.165 0.308 0.389 0.456 0.529 0.575 0.616 0.622 0.693 18 0.160 0.299 0.378 0.444 0.515 0.561 0.602 0.648 0.679 19 0.156 0.291 0.369 0.433 0.503 0.549 0.589 0.635 0.665 20 0.152 0.284 0.360 0.423 0.492 0.537 0.576 0.622 0.652 21 0.148 0.277 0.352 0.413 0.482 0.526 0.565 0.610 0.640 22 0.145 0.271 0.344 0.404 0.472 0.515 0.554 0.599 0.629 23 0.141 0.265 0.337 0.396 0.462 0.505 0.543 0.588 0.618 24 0.138 0.260 0.330 0.388 0.453 0.496 0.534 0.578 0.607 25 0.136 0.255 0.323 0.381 0.445 0.487 0.524 0.568 0.597 26 0.133 0.250 0.317 0.374 0.437 0.479 0.515 0.559 0.588 27 0.131 0.245 0.311 0.367 0.430 0.471 0.507 0.550 0.579 28 0.128 0.241 0.306 0.361 0.423 0.463 0.499 0.541 0.570 29 0.126 0.237 0.301 0.355 0.416 0.456 0.491 0.533 0.562 30 0.124 0.233 0.296 0.349 0.409 0.449 0.484 0.526 0.554 31 0.122 0.229 0.291 0.344 0.403 0.442 0.477 0.518 0.546 32 0.120 0.226 0.287 0.339 0.397 0.436 0.470 0.511 0.539 33 0.118 0.222 0.283 0.334 0.392 0.430 0.464 0.504 0.532 34 0.116 0.219 0.279 0.329 0.386 0.424 0.458 0.498 0.525 35 0.115 0.216 0.275 0.325 0.381 0.418 0.452 0.492 0.519 36 0.113 0.213 0.271 0.320 0.376 0.413 0.446 0.486 0.513 37 0.111 0.210 0.267 0.316 0.371 0.408 0.441 0.480 0.507 38 0.110 0.207 0.264 0.312 0.367 0.403 0.435 0.474 0.501 39 0.108 0.204 0.261 0.308 0.362 0.398 0.430 0.469 0.495 40 0.107 0.202 0.257 0.304 0.358 0.393 0.425 0.463 0.490 41 0.106 0.199 0.254 0.301 0.354 0.389 0.420 0.458 0.484 42 0.104 0.197 0.251 0.297 0.350 0.384 0.416 0.453 0.479 43 0.103 0.195 0.248 0.294 0.346 0.380 0.411 0.449 0.474

显著性检验卡方检验等

第十章 研究资料的整理与分析 本章学习目标: 1.理解量化资料整理与分析中的几个基本概念。 2.掌握几种常用的量化分析方法。 3.掌握质性资料的整理分析方法。 无论采用什么研究方法进行研究,都会搜集到大量的、杂乱的、复杂的研究资料。因此,对大量的、复杂的研究资料进行科学、合理的整理和分析,就成为教育科学研究活动的必不可少的一个环节。这一环节体现着研究者的洞见,是研究者对研究资料进行理性思维加工的过程。通过这一过程,产出研究结果。 根据研究资料的性质,研究资料可以分为质性研究资料和量化研究资料。对研究资料的整理和分析就相应的分为:质性研究资料的整理与分析和量化资料的整理与分析。 第一节 定量资料的整理与分析 一、定量资料分析中的几个基本概念 1.随机变量 在相同条件下进行试验或观察,其可能结果不止一个,而且事先无法确定,这类现象称为随机现象。表示随机现象中各种可能结果(事件)的变量就称为随机变量。教育研究中的变量,大多数都是随机变量。如身高、智商、学业测验分数等。 2.总体和样本 总体是具有某种或某些共同特征的研究对象的总和。样本是总体中抽出的部分个体,是直接观测和研究的对象。例如,要研究西安市5岁儿童的智力发展问题,西安市的5岁儿童就是研究的总体,从中抽取500名儿童,这500名儿童就成为研究的样本。 3.统计量和参数 统计量:反映样本数据分布特征的量称为统计量。例如:样本平均数、样本标准差、样本相关系数等,都属于统计量,它们分别用 表示。统计 量一般是根据样本数据直接计算而得出的。 参数:反映总体数据分布特征的量称为参数。例如:总体平均数、总体标准差、总体相关系数等。它们分别用ρσμ,,等符号来表示。总体参数常常需要根据样本统计量进行估计和推断。 4.描述统计与推断统计 描述统计是指对获得的杂乱的数据进行分类、整理和概括,以揭示一组数据

回归方程及回归系数的显著性检验

§3 回归方程及回归系数的显著性检验 1、回归方程的显著性检验 (1) 回归平方和与剩余平方和 建立回归方程以后, 回归效果如何呢?因变量与自变量是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化规律。的每次取值是有波动的, 这种波动常称为变差, 每次观测值的变差大小, 常用该次观侧值与 次观测值的平均值的差(称为离差)来表示, 而全部次观测值的总变差可由总的离差平方和 , 其中: 称为回归平方和, 是回归值与均值之差的平方和, 它反映了自变量的变化所引起的的波动, 其自由度(为自变量的个数)。 称为剩余平方和(或称残差平方和), 是实测值与回归值之差的平方和, 它是由试验误差及其它因素引起的, 其自由度。总的离差平方和的自由度为。 如果观测值给定, 则总的离差平方和是确定的, 即是确定的, 因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显著, 或者说剩余平方和越小回归效果越显著, 如果=0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。 (2) 复相关系数 为检验总的回归效果, 人们也常引用无量纲指标 , (3.1) 或

, (3.2) 称为复相关系数。因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此就是这种贡献在总回归平方和中所占的比例, 因此表示全部自变量与因变量的相关程度。显然。复相关系数越接近1, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。但应注意, 与回归方程中自变量的个数及观测组数有关, 当相对于并不很大时, 常有较大的值, 因此实际计算中应注意与的适当比例, 一般认为应取至少为的5到10倍为宜。 (3) 检验 要检验与是否存在线性关系, 就是要检验假设 , (3.3) 当假设成立时, 则与无线性关系, 否则认为线性关系显著。检验假设应用统计量 , (3.4) 这是两个方差之比, 它服从自由度为及的分布, 即 , (3.5) 用此统计量可检验回归的总体效果。如果假设成立, 则当给定检验水平α下, 统计量应有≤, (3.6) 对于给定的置信度α, 由分布表可查得的值, 如果根据统计量算得的值为 , 则拒绝假设, 即不能认为全部为O, 即个自变量的总体回归效果是显著的, 否则认为回归效果不显著。 利用检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方差分析表中, 如表3.1。 表3.1 方差分析表 来 平方和自由度方差方差比 源 回 归

matlab建立多元线性回归模型并进行显著性检验及预测问题

matlab建立多元线性回归模型并进行显著性检 验及预测问题 例子; x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; 增加一个常数项 Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; [b,bint,r,rint,stats]=regress(Y,X) 得结果:b = bint = stats = 即对应于b的置信区间分别为[,]、[,]; r2=, F=, p= p<, 可知回 归模型 y=+ 成立. 这个是一元的,如果是多元就增加X的行数! function [beta_hat,Y_hat,stats]=regress(X,Y,alpha) % 多元线性回归(Y=Xβ+ε)MATLAB代码 % % 参数说明 % X:自变量矩阵,列为自变量,行为观测值 % Y:应变量矩阵,同X % alpha:置信度,[0 1]之间的任意数据 % beta_hat:回归系数 % Y_beata:回归目标值,使用Y-Y_hat来观测回归效果 % stats:结构体,具有如下字段 % =[fV,fH],F检验相关参数,检验线性回归方程是否显著 % fV:F分布值,越大越好,线性回归方程 越显著 % fH:0或1,0不显著;1显著(好) % =[tH,tV,tW],T检验相关参数和区间估计,检验回归系数β是 否与Y有显著线性关系 % tV:T分布值,beta_hat(i)绝对值越大, 表示Xi对Y显著的线性作用 % tH:0或1,0不显著;1显著 % tW:区间估计拒绝域,如果beta(i)在对 应拒绝区间内,那么否认Xi对Y显著的线性作用 % =[T,U,Q,R],回归中使用的重要参数 % T:总离差平方和,且满足T=Q+U % U:回归离差平方和 % Q:残差平方和 % R∈[0 1]:复相关系数,表征回归离差占总 离差的百分比,越大越好 % 举例说明 % 比如要拟合 y=a+b*log(x1)+c*exp(x2)+d*x1*x2,注意一定要将原来方程 线化 % x1=rand(10,1)*10;

回归方程及回归系数的显著性检验精品资料

回归方程及回归系数的显著性检验

§3 回归方程及回归系数的显著性检验 1、回归方程的显著性检验 (1) 回归平方和与剩余平方和 建立回归方程以后, 回归效果如何呢?因变量与自变量是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化规律。的每次取值是有波动的, 这种波动常称为变差, 每次观测值的变差大小, 常用该次观侧值 与次观测值的平均值的差(称为离差)来表示, 而全部次观测值的总变差可由总的离差平方和 , 其中: 称为回归平方和, 是回归值与均值之差的平方和, 它反映了自变量的变化所引起的的波动, 其自由度(为自变量的个数)。 称为剩余平方和(或称残差平方和), 是实测值与回归值之差的平方和, 它是由试验误差及其它因素引起的, 其自由度。总的离差平方和的自由度为。 如果观测值给定, 则总的离差平方和是确定的, 即是确定的, 因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显著, 或者说剩余平方和越小回归效果越显著, 如果=0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。 (2) 复相关系数 为检验总的回归效果, 人们也常引用无量纲指标 , (3.1) 或

, (3.2) 称为复相关系数。因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此就 是这种贡献在总回归平方和中所占的比例, 因此表示全部自变量与因变量的相关程度。显然。复相关系数越接近1, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。但应注意, 与回归方程中自变量的个数及观测组数有关, 当相对于并不很大时, 常有较大的值, 因此实际计算中应注意与的适当比例, 一般认为应取至少为的5到10倍为宜。 (3) 检验 要检验与是否存在线性关系, 就是要检验假设 , (3.3) 当假设成立时, 则与无线性关系, 否则认为线性关系显著。检验假设应用统计量 , (3.4) 这是两个方差之比, 它服从自由度为及的分布, 即 , (3.5) 用此统计量可检验回归的总体效果。如果假设成立, 则当给定检验水平α下, 统计量应有≤, (3.6) 对于给定的置信度α, 由分布表可查得的值, 如果根据统计量算得的值为 , 则拒绝假设, 即不能认为全部为O, 即个自变量的总体回归效果是显著的, 否则认为回归效果不显著。 利用检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个 方差分析表中, 如表3.1。 表3.1 方差分析表 来 平方和自由度方差方差比 源 回 归

多元线性回归模型的检验

多元性回归模型与一元线性回归模型一样,在得到参数的最小二乘法的估计值之后,也需要进行必要的检验与评价,以决定模型是否可以应用。 1、拟合程度的测定。 与一元线性回归中可决系数r2相对应,多元线性回归中也有多重可决系数r2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,R2越大,回归方各对样本数据点拟合的程度越强,所有自变量与因变量的关系越密切。计算公式为: 其中, 2.估计标准误差 估计标准误差,即因变量y的实际值与回归方程求出的估计值之间的标准误差,估计标准误差越小,回归方程拟合程度越程。 其中,k为多元线性回归方程中的自变量的个数。 3.回归方程的显著性检验 回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。能常采用F检验,F统计量的计算公式为: 根据给定的显著水平a,自由度(k,n-k-1)查F分布表,得到相应的临界值Fa,若F > Fa,则回归方程具有显著意义,回归效果显著;F < Fa,则回归方程无显著意义,回归效果不显著。 4.回归系数的显著性检验 在一元线性回归中,回归系数显著性检验(t检验)与回归方程的显著性检验(F检验)是等价的,但在多元线性回归中,这个等价不成立。t检验是分别检验回归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量有显著影响的因素。检验时先计算统计量ti;然后根据给定的显著水平a,自由度n-k-1查t分布表,得临界值ta或ta / 2,t > t ? a或ta / 2,则回归系数bi与0有显著关异,反之,则与0无显著差异。统计量t 的计算公式为: 其中,Cij是多元线性回归方程中求解回归系数矩阵的逆矩阵(x'x) ?1的主对角线上的第j个元素。对二元线性回归而言,可用下列公式计算: 其中, 5.多重共线性判别 若某个回归系数的t检验通不过,可能是这个系数相对应的自变量对因变量的影平不显

一元线性回归,方差分析,显著性分析

一元线性回归分析及方差分析与显著性检验 某位移传感器的位移x 与输出电压y 的一组观测值如下:(单位略) 设x 无误差,求y 对x 的线性关系式,并进行方差分析与显著性检验。 (附:F 0。10(1,4)=,F 0。05(1,4)=,F 0。01(1,4)=) 回归分析是研究变量之间相关关系的一种统计推断法。 一. 一元线性回归的数学模型 在一元线性回归中,有两个变量,其中 x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系: (1) / 通常认为 且假设与x 无关。将观测数据 (i=1,……,n)代入(1) 再注意样本为简单随机样本得: (2) 称(1)或(2)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。 对其进行统计分析称为一元线性回归分析。 模型(2)中 EY= ,若记 y=E(Y),则 y=a+bx,就是所谓的一元线性回归方程, 其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称 a 、b 为回归系数。 设得到的回归方程 bx b y +=0? 残差方程为N t bx b y y y v t t t i ,,2,1,?0 =--=-= 根据最小二乘原理可求得回归系数b 0和b 。 对照第五章最小二乘法的矩阵形式,令 ¥ ?????? ? ??=??? ? ??=??? ???? ??=??????? ??=N N N v v v V b b b x x x X y y y Y 2102121?111 则误差方程的矩阵形式为

回归方程及回归系数的显著性检验

§ 3回归方程及回归系数的显著性检验 1、回归方程的显著性检验 (1)回归平方和与剩余平方和 建立回归方程以后,回归效果如何呢?因变量.?与自变量是否确实存在线性关系呢?这 是需要进行统计检验才能加以肯定或否定,为此,我们要进一步研究因变量取值的变化规律。的每次 取值1是有波动的,这种波动常称为变差,每次观测值jt的变差大小,常用该次观侧值 U 与t次观测值的平均值的差丨、/(称为离差)来表示,而全部:次观测值的总变差可由总的 离差平方和 呦迄以*)亠另(n+剳*诃吃+卩 , 其中: ~ 称为回归平方和,是回归值与均值.之差的平方和,它反映了自变量 九心[如的变化所引起的丿的波动,其自由度h~加(川为自变量的个数)。 称为剩余平方和(或称残差平方和),是实测值T与回归值.■,之差的平方和,它是由试验误差及其它因素引起的,其自由度]T 一。总的离差平方和一二的自由度为:亠。 如果观测值给定,则总的离差平方和-二是确定的,即是确定的,因此i.i大则匚小,反之,L 小则〔大,所以U与I都可用来衡量回归效果,且回归平方和U越大则线性回归效果越显著,或者说剩余平方和_越小回归效果越显著,如果_= 0,则回归超平面过所有观测点;如果一大,则线性回归效果不好。 (2)复相关系数 为检验总的回归效果,人们也常引用无量纲指标 -' ,(3.1) 或 R=匸倉 V 切,(3.2)

称为复相关系数。因为回归平方和u实际上是反映回归方程中全部自变量的“方差贡献”,因此 F「就 是这种贡献在总回归平方和中所占的比例,因此〕.表示全部自变量与因变量.■的相关程度。显然[上「二*。 复相关系数越接近1 ,回归效果就越好,因此它可以作为检验总的回归效果的一个指标。但应注意,亠与回归方程中自变量的个数“!及观测组数F有关,当[相对于T并不很大时,常有较大的值,因此实际计算中应注意I与.的适当比例,一般认为应取I至少为■!的5到10倍为宜。 ⑶/'检验 要检验 m 1仪是否存在线性关系,就是要检验假设 :…',(3.3) 当假设二i成立时,贝匚与…… 无线性关系,否则认为线性关系显著。检验假设^0应用统计量 r Uim F = -------- -11- ,(3.4) 这是两个方差之比,它服从自由度为十及- 'I的F分布,即 F ------------- w -1 的”1),(3.5) 用此统计量F可检验回归的总体效果。如果假设上一成立,则当给定检验水平 a下,统计量F应有卜當w 匕二J 一 1 一匚(3.6) 对于给定的置信度a,由F分布表可查得'L1'的值,如果根据统计量算得的 F值为 厂'- ■'_■■_11,则拒绝假设’|.,即不能认为全部为0,即〒个自变量的总体回归效果是显著的 否则认为回归效果不显著。 利用「检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方 差分析表中,如表3.1 o

相关文档
最新文档