(完整word版)Logistic statistic model

(完整word版)Logistic statistic model
(完整word版)Logistic statistic model

Logistic Statistic Model

一、基本概念

1.什么是P-Value?

这是统计学中最重要的基本概念,所谓P-Value是指拒绝H0所犯的第一类错误,通常阈值是0.05.也就是说,不管是什么统计量(F统计量,T统计量,卡方统计量等等),在H0假设成立下都会有一个唯一对应的P-Value,如果算出来的P-Value 小于阈值,则说拒绝H0,反之,不能拒绝H0,但是千万不要说接受H0!

2.什么是点估计和区间估计?

点估计:利用样本数据对未知参数进行估计得到的是一个具体的数据。

区间估计:通过样本数据估计未知参数在置信度下的最可能的存在区间得到的结果是一个区间。

3.什么是置信区间?

在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。

4.什么是LSE(Least Squares Estimation)和MLS (Maximum Likelihood

Estimation) ?

LSE是最小化误差的平方和估计分布中参数出现的值。MLS是估计分布中参数最大可能出现的值(注意:不是最大值,是最大可能性)。不管是LSE还是MLS,其样本背后所隐含的分布都是假设为已知分布。这一点请务必注意。考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即,我

们获取一个采样并把正面的次数记下来,正面记为H,反面记为T)。并把抛出一个正面的概率记为p,抛出一个反面的概率记为1 ? p(因此,这里的p即相当于上边的θ)。假设我们抛出了41个正面,39 个反面,即41次H,39次T。由于它背后隐含的是二项分布,使用最大似然估计,通过这些试验数据(即采样数据),我们可以计算出哪个硬币的可能性最大。这个

可以计算,当p=1/2时,可能性函数取得最大值。这就是P的最大似然估计.

5.选择预测模型时一定要考虑响应变量分布吗?

不一定:当我们只预测响应变量的点估计时,不需要考虑,此时点估计的值只和你假定的Y与X之间的关系有关,于Y是什么分布无关。可以通过LSE或者MLS 来估计Y的值。但是如果我们要预测Y值的区间估计,或者要对预测系数进行显著性检验时,就需要考虑Y是什么分布了。

二、logistic回归模型

假设在自变量X1,X2,…,Xn作用下,某事件发生的概率为P, 则该事件不发生的概率为1-P, P/1-P为发生概率和不发生概率之比,记做“优势”(Odds),若对Odds取自

Logistic回归模型与一般线性回归模型的区别:

第一,线性回归模型的结果变量(outcome variable)或因变量(dependent variable)或反应变量(response variable)与自变量之间的关系是线性

的,而Logistic回归中因变量与自变量之间关系是非线性的。

第二,在线性回归中通常假设,对应自变量X的某个值,因变量Y的观测值具有正态分布,但是在logistic回归中,因变量Y却是二项发布(0和1)

或多项分布。

第三,在logistic回归中,不存在线性回归中有的残差项。

三、Logistic回归模型估计方法论和假设条件

Logistic回归模型估计采用是MLS方法论来估计参数。其假设条件与 LSE回归比较类似。

第一,数据必须来自随机样本。

第二,因变量Y被假定为K个自变量的函数。

第三,自变量是确定性变量,不是随机变量。

第四,正如LSE回归,logistic回归也对多元共线性(muliti-collinearity)敏感。自变量之间存在多元共线性也会导致标准误的膨胀。

但是还有一些与LSE不同的假设:

第一,因变量Y是分类变量,研究的兴趣是在X发生时事件发生的条件概率。

第二,自变量和因变量之间是非线性关系,可以通过Logit函数转换成线性关系。

第三,在LSE回归中对残差要求独立同分布(IID),但在logistic中却不需要,因为logistic没有残差项。

四、logistic回归模型评价

在实际应用中,人们往往只对回归模型自身的“好坏”以及回归系数的显著性关注,评价回归模型“好坏”的主要指标有:

1. 拟合优度(goodness of fit)

拟合优度度量的是预测值和观测值之间的一致性。但是在评价模型时,实际上测量的是预测值和观测值之间的差别,也就是说,我们实际上检验的是模型预测的“劣度”,而不是“优度”,即拟合不佳检验(lack of fit test)。常用的两个指标:Hosmer-Lemeshow指标和信息测量指标(Information Measures)。

1.1HL指标是一种类似于皮尔逊卡方统计量的指标,其对应的H0是预测值概率和

观测值之间无显著差异,所以,如果HL指标显示较大的P-Value,说明统计结果不显著,因此,我们不能拒绝关于模型拟合数据很好的假设,换句话说,模型很好的拟合了数据。在SAS中调用LACKFIT选项命令。

1.2IM指标中比较著名的是AIC, 在其它条件不变的情况下,较小的AIC值表示拟

合模型较好。在SAS中还提供了另外一种IM指标SC,SC指标是对AIC指标的一种修正,与AIC同向作用。

2. 模型卡方统计(Model Chi-Square Statistic)

模型卡方统计检测的是模型中所包含的自变量对因变量有显著的解释能力,也就是说所设模型要比零假设模型(即只包含常数项的模型)要好,在多元线性回归和ANOVA中,常用F检验达到目的。在Logistic中用似然比检验(likelihood ratio test),你可以吧它近似当作F检验,在SAS输出结果中就是Likelihood ratio对应的值。

需要注意的是,模型卡方值和拟合优度是两个完全不同的概念:前者度量的是自变量是否与因变量的ODDS线性相关,而后者度量的是预测值和观测值之间的一致性。所以,按照理想情况,最好是模型卡方统计性显著而拟合优度统计性不显著。如果发生不一致,我们更优先关注前者。

3. 预测准确性

模型卡方统计关注的只是相对于零假设模型而言,所设模型显著不显著,它只是从总体上考虑了模型的显著性,但是所有X变量到底能解释多少Y变量的波动?这是预测准确性的问题。有三种方法:

3.1 类RSQUARE指标

在线性回归中,可以用RSQUARE来度量,显然RSQUARE越高说明预测越好,在logistic中,也有类似的指标,在SAS中调用命令RSQ即可。Logistic中的RSQUARE也有许多重要的性质:

1)与经典的RSQUARE定义一致。

2)它可以被理解为Y变异中被解释的比例。

3.2 C统计量

但是,在实际应用中,人们往往更关心观测值和模型预测的条件事件概率的关联强度,拟合优度只是给出了观测值和预测概率之间的差别程度,然后给出一个总体评价的指标,但是对于哪些个体的预测概率接近观测值,哪些个体的预测概率远离观

测值,拟合优度并没有给出答案。C 统计量是用来度量每个个体是否接近观测值的重要指标。举例说明:

事件发生(Y=1)且预测发生概率:0.8;0.2;0.5;0.7;0.9 事件不发生(Y=0)但预测发生概率:0.3;0.2;0.5;0.1;0.7

其中的预测概率可以通过调用SAS 中的OUTPUT 选项和P=命令实现。

4. AIC, SC,-2LOG L, RSQUARE 和Likelihood Ratio 之间的关系

其中:0?2L L -类似于线性回归中总平方和;

s L L ?2- 类似于误差平方和。K 为当前模型中自变量的个数;S 为反应变量类别总数减1;N 是观测数。

验证如下:

5. 模型评价各项指标总结如下表:

五、logistic 回归系数解释

当模型能够较好的拟合数据的时候,我们就可以对回归系数进行解释了。

由于回归系数解释和多元线性回归几乎一样,所以此处请大家参考相关书籍,这里只重点介绍两点:

5.1 关于ODDS 和ODDS RATIO

这两个概念是logistic 独有的。ODDS 定义在前面已经说过,ODDS RATIO 指两个Odds 之比。用以衡量自变量对响应变量的作用大小。

5.2 关于变量的重要性衡量

变量的重要性必须通过标准化回归系数来衡量。在SAS 中调用STD 命令实现。

5.3 关于回归系数的显著性检验

假设有如下一段SAS 程序:

我们只关注回归系数的显著性,如下图:

SAS 对回归系数显著性检验默认为WALD 检验。

2

?

?(

)k

k W SE ββ=

其中分母是分子的标准误,对应下表如:分子=67.6339;分母=56.8875,

2

67.6339() 1.413556.8875

W ==

Pr>ChiSq 是对应的P-VALUE.在SLE=0.30和SLS=0.35条件下,这四个变量都通过了显著性检验。

现在我们来考虑一个极端的例子:现假设构造一个虚拟自变量TEST=remiss ,修改SAS 程序如下:

系数输出结果如下:

很容易看出,所有系数都没有通过显著性检验。

让我们再单独对test做回归:

系数输出结果如下:

同样,我们看到test也没有通过显著性检验,这就让我们感到很诧异,从直观上说,既然test=remiss,说明test和remiss之间存在完全的正相关关系,那么在所有的上述变量中,TEST预测力相对应该最强,那为什么系数没有通过显著性检验呢?这就要涉及到WALD检验的局限性,WALD有一个很不好的性质,就是当回归系数很大时,SE就会相应的膨胀,这样导致整个W统计量变小,从而P-VALUE变大。也就是说,实际上我们是完全可以拒绝H0,但是却没有拒绝。

如果我们做一个线性回归方程,就会明白:

结果如下:

可以看出,由于回归方程用的是T检验,所以P-VALUE很小,系数显著。而且通过比较上述两个结果,我们可以知道SE的计算方法是不一样的。

但是,造成上述结果还有另外一个重要原因,那就是样本量太小,我们此处用的是SAS HELP中的一个小样本,记录条数只有27条,如果我们扩大样本量,就会得出完全不一样的结论,即在大样本情况下,如果有自变量X和因变量Y之间确实

存在完全的线性相关关系,则在最后的变量筛选中,IN2预测力仍然显示是最强的,不管用STEPWISE还是其它方法,结论都是这样。而且此时C统计量是100.

结论:

在逻辑回归中,我们对结果的关注的重要性依次为:

TOP1:似然比卡方(方程显著性检验);TOP2:C统计量;TOP3:回归系数检验。

六、筛选变量常用的四种方法

1.向前回归法:首先第一个变量进入回归方程,并进行F检验和T检验,计算残差平方和,计为S1,如果通过检验,则该变量保留,引入第二个变量,重新构建一个新的估计方程,并进行F检验和T检验,同时计算残差平方和,计为S

2.从直观上看,增加一个新的变量后,回归平方和应该增大,残差平方和相应应该减少,即S2小于等于S1,称S1-S2的值是第二个变量的偏回归平方和,直观的说,如果该值明显偏大,则说明第二个变量对因变量有显著影响,反之则没有显著影响。前进法最大的缺点是最先引入方程的变量不会再剔出方程,是“终身制”的,这样会给后面引入的变量制造“歧视”。SAS调用命令为:SELECTION=FORWARD SLE=.

2.向后回归法:同向前回归法正好相反,首先,所有的X变量一次性进入模型进行F检验和T检验,然后逐个删除不显著的变量,删除的原则是根据其偏回归平方和的大小决定去留。如果偏回归平方和很大则保留,反之则删除。后退法最大的缺点是可能会引入一些不重要的变量,再就是一旦变量被剔除,就再也没有机会进入方程。是“淘汰制”的。SAS调用命令为:SELECTION=BACKWARD SLS=.

3.逐步回归法:综合向前和向后回归法的特点,变量一个个进入方程,在引入变量时需要利用偏回归平方和进行检验,当显著时才加入该变量,当方程加入了该变量后,又要对原有的老变量重新用偏回归平方和进行检验,一旦某变量变得不显著时要删除该变量,如此下去,直到老变量均不可删除,新变量也无法加入为止。在逐步回归法中需要注意的一个问题是引入自变量和剔除自变量的显著性水平是不同的,必须要求引入自变量的显著性水平小于剔除自变量的显著性水平,即“严进宽出”制,否则如果某个自变量的显著性水平在进入阈值之间,那么这个自变量将会不断被引入,剔除;再引入,再剔除,陷入死循环。SAS调用命令为:SELECTION= STEPWISE SLE= SLS=.

4. SCORE法(全模型法)

含义:在特定的模型大小范围内,找出指定的最佳模型(具有最小的CP)

通常和BEST=连用,如BEST=2就表示在不同变量个数组成的全模型组合中,选择两个最好的模型,显然如果没有BEST选择,则全部组合数为:

度量全模型的统计量是P C ,Mallows 建议P C P ,这里p 是所有变量的个数加1。

调用的SAS 命令为:SELECTION=SCORE BEST= START= STOP=.

全模型法最大的好处是可以计算每一个变量组合下模型的C 统计量以及对应的LIFT 值,这样可以做不同模型之间的比较,缺点是计算量大。

七、建模流程

八、自变量筛选流程

第一步:数据探索

包括缺失值查询和填充,对连续变量看分布,对属性变量看频率。如果有变量的值都集中于某一个值,则需要单独列出。 第二步:初步筛选

对第一步所列变量和Y 之间做相关分析和频率分析,删除不重要的变量。所谓不重要,对连续变量是指相关系数很小。对属性变量是指在Y 中所占百分比几乎差不多(如50%)。 直观判断:

STEPWISE做回归,最终通过的变量会是且只有X1和X2,X3和X4将在第一步就被删除。

第三步:变量归约

对连续变量归约,需要用SAS的PROC VARCLUS过程,这过程其实就是主成分分析。对属性变量归约分两种情况:第一种,如果属性变量值不多(一般不超过3个),可是用哑变量替代。第二种,如果属性变量值很多,一种最简单的归约方式是先对该属性变量用PROC FREQ看每一个属性值对应的Y值反应比例,比例相同或者比较接近的归为一类,然后再用哑变量替代。哑变量替代一定要注意如果一个属性变量有M个属性值,哑变量只能设置为M-1个。否则如果设置为M个,会产生完全共线性。

第四步:模型筛选

一般用逐步回归或者全模型回归筛选变量。

第五步:P-VALUE检测

这一步看回归系数是否在预先设定的阈值条件下通过H0检验。

最后,如果全部通过H0检验,就进入计算LIFT阶段。

九、如何计算LIFT和GAIN

在实际应用中,不管是在模型开发阶段,还是验证阶段或测试阶段,LIFT始终是最为关注的一个指标。其计算公式如EXCEL:

lift.xls

相应代码有两个,一个是老外的代码:

但是,看上去比较繁琐,我利用SAS得分子程序PROC SCORE中的OUTROC命令选项开发出了一段代码,同时对老外的代码进行了简化,相对简单,可以参考:

附录一、Nominal类型的Logistic公式推导

二、Ordinal类型的Logistic公式推导

相关主题
相关文档
最新文档