调查数据分析二元Logistic回归

合集下载

二元logistic回归结果表达

二元logistic回归结果表达

二元logistic回归结果表达通常会包括以下关键部分:1.模型系数: 这是模型中每个自变量的估计系数。

对于二元Logistic回归,系数通常不会像线性回归那样直接解释为每单位自变量增加导致的因变量变化。

相反,它们是用来计算因变量的预测概率的。

2.Odds Ratio: Odds Ratio是模型系数的解释性描述。

它是预测概率变化与基线概率变化的比率,当一个自变量增加一个单位时(其他自变量保持不变)。

例如,如果一个自变量的系数是0.5,那么它的Odds Ratio是exp(0.5) = 1.65,意味着这个自变量每增加一个单位,事件发生的相对风险是1.65倍。

3.显著性: 这表示该自变量是否对模型的预测有统计显著影响。

通常使用p值来表示,如果p值小于预定的显著性水平(如0.05或0.01),则认为该变量对模型的贡献是显著的。

4.置信区间: 这表示预测的Odds Ratio的上下限。

它提供了关于估计的精确性的信息。

5.接受域概率: 这是模型预测为阳性的概率阈值。

例如,如果接受域概率设置为0.5,那么所有预测概率大于0.5的观察值将被归类为阳性。

6.似然比检验: 这是一种比较模型拟合优度的统计检验,通过比较模型中的参数数量和自由度数量来评估模型质量。

7.混淆矩阵: 这是一个表格,显示模型预测和实际观察结果之间的比较。

它提供了真正例(True Positives)、假正例(FalsePositives)、真反例(True Negatives)和假反例(False Negatives)的数量。

8.AUC (Area Under the Curve): 对于二元分类问题,AUC是ROC曲线下的面积,用于评估模型的性能。

AUC值越接近1,表示模型性能越好;AUC值越接近0.5,表示模型性能越差。

9.Akaike's Information Criterion (AIC)和Bayesian InformationCriterion (BIC): 这些准则用于比较不同模型之间的拟合优度,考虑到模型的复杂性和拟合数据的程度。

二元logistic回归模型解读

二元logistic回归模型解读

二元logistic回归模型解读二元logistic回归模型是一种广泛应用于分类问题的统计模型。

它可用于预测二分类变量的概率,并根据自变量的取值确定观察值属于哪个类别。

这种模型通常用于解决只有两个离散结果的问题,比如判断一封电子邮件是否为垃圾邮件或判断一个学生是否通过了考试。

在二元logistic回归模型中,我们首先需要建立一个称为logit的概率函数,它的形式是一个sigmoid函数。

Sigmoid函数的输出值介于0和1之间,并将自变量的线性组合转化为对数几率的形式。

对数几率可以解释为成功(或失败)的可能性与不成功(或未失败)的可能性之间的比值。

在建立模型时,我们需要选择适当的自变量以及对应的权重。

这些权重表示了自变量对结果的影响程度。

通常使用最大似然估计方法来估计这些权重,使得模型的预测概率能够最大程度地与实际观察值相符。

模型的拟合度可以用准确率、对数似然函数、残差等指标来评估。

此外,我们还可以使用变量的p值以及置信区间来判断自变量是否对结果有显著影响。

当我们建立好模型后,可以使用它来进行预测。

对于一个新的观察值,我们就可以根据模型预测其属于类别1的概率。

通常,我们使用一个阈值来判定观察值的类别,如当预测概率大于0.5时判定为类别1,否则判定为类别0。

总的来说,二元logistic回归模型是一种有效的分类模型,广泛应用于各个领域。

它的解读可以帮助我们理解自变量对结果的影响程度,并进行概率预测。

然而,在应用该模型时,需要注意解释结果时要避免设计政治,同时还需要考虑模型的假设和限制等因素。

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析2011-12-02 16:48身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 = 0.16x¯ = 16951 / 489 = 34.2所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.16 *(1-0.16 )=0.216则:y¯(1-y¯)* ∑(Xi-x¯)² =0.216 * 30074.9979 = 5 840.9044060372 则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.76 = 7.46 (四舍五入)计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~!!!!1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和 Nagelkerke R方拟合效果都不太理想,最终理想模型也才:0.305 和 0.446,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR 方的值!提示:将Hosmer 和 Lemeshow 检验和“随机性表” 结合一起来分析1:从Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:CHINV(0.05,8) = 15.507卡方统计量< 临界值,从SIG 角度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。

SPSS—二元Logistic回归结果分析

SPSS—二元Logistic回归结果分析

SPSS—二元Logistic回归结果分析2011-12-02 16:48身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为,标准误差为:那么wald =( B/²=² = , 跟表中的“几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^ = , 其中自由度为1, sig为,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 =x¯ = 16951 / 489 =所以:∑(Xi-x¯)² =y¯(1-y¯)= *()=则:y¯(1-y¯)* ∑(Xi-x¯)² = * = 5则:[∑Xi(yi - y¯)]^2 =所以:= / 5 = = (四舍五入)计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为,刚好跟计算结果吻合!!答案得到验证~!!!!1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和 Nagelkerke R方拟合效果都不太理想,最终理想模型也才:和,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR 方的值!提示:将Hosmer 和 Lemeshow 检验和“随机性表” 结合一起来分析1:从Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:,而临界值为:CHINV,8) =卡方统计量< 临界值,从SIG 角度来看: > , 说明模型能够很好的拟合整体,不存在显著的差异。

stata二元logistic回归结果解读

stata二元logistic回归结果解读

stata二元logistic回归结果解读在Stata中进行二元Logistic回归分析后,你将得到一系列的输出结果。

以下是如何解读这些结果的简要指南:1.模型拟合信息:●Pseudo R-squared :伪R方值,表示模型对数据的拟台程度。

其值介于0和1之间,越接近1表示模型拟合越好。

●Lkliloo ratio test :似然比检验,用于检验模型的整体拟台优度。

2.系数估计值:●B:回归系数,表示自变显每变化-一个单位时,因变显的预测值的变化。

●odds Ratio :优势比。

表示自变量变化-个单位时。

事件发生与不发生的比率的倍数。

计算公式为exp(B) 。

3.显菩性检验:●Pr(>2D:P值,用于检验回归系数的显著性。

通常,如果P值小于预设的显著性水平(如0.05) ,则认为该变量在统计上是显著的。

4. 95%置信区间:●Lower 和Upper:分别为回归系数的95%置信区间的下限和上限。

如果这个区间不包含0,那么我们可以认为该变量对事件的发生有影响。

5.变量信息:●x:自变量名称。

●e(b): Stata自动计算并给出的回归系数估计值。

●(exp(b) :优势比的计算值。

● 伊用:参考类别。

对于分类变量,Stata默认使用第一个类别作为参考类别。

6.模型假设检验:●Heteroskedasticiy:异方差性检验,用于检验误差项的方差是否恒定。

如果存在异方差性,可能需要考虑其他的回归模型或者对模型进行修正。

●Linearity:线性关系检验,用于检验自变量和因变量之间是否为线性关系。

如果不是线性关系,可能需要考虑其他形式的模型或者使用其他转换方法。

7.模型诊断信息:● AlIC, BIC:用于评估模型复杂度和拟合优度的统计星。

较低的值表示更好的拟合。

●Hosmer-Lemeshow test: 霍斯默勒梅肖检验,用于检验模型是否符合Logistic回归的前提假设(比如比例优势假设)。

二元logistics回归分析操作详解

二元logistics回归分析操作详解
4、进行二元logistics回归分析
5、准备进行概率计算
6、进行自变量筛选,一般使用向后LR方法。
7、进行精确判别。当Sig of the Change:大于0.1,该自变量可以去除;小于0.1,该自变量应该保留。
8、二元回归方程p=1.811+0.985Xlwt+1.896Xsmoke+6.332Xht+2.214Xui
一般认为:大于2是明显因数,0.5-2是保护因数。
9、
二元logistics回归分析1交叉表大概分析自变量是否对模型有影响2行是因变量列是自变量进行卡方分析3根据pearsonchisquare进行检验
二元logistics回归分析
1、交叉表大概分析自变量是否对模型有影响
2、行是因变量,列是自变量进行卡方分析
3、根据Pearson Chi-Square进行检验。当值小于得到大概的情况。

SPSS—二元Logistic回归结果分析

SPSS—二元Logistic回归结果分析

SPSS—二元Logistic回归结果分析2011-12-02 16:48身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 = 0.2638036809816x¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216则:y¯(1-y¯)* ∑(Xi-x¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五入)计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和 Nagelkerke R方拟合效果都不太理想,最终理想模型也才:0.305 和 0.446,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR 方的值!提示:将Hosmer 和 Lemeshow 检验和“随机性表” 结合一起来分析1:从Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:CHINV(0.05,8) = 15.507卡方统计量< 临界值,从SIG 角度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。

SPSS—二元Logistic回归结果分析.docx

SPSS—二元Logistic回归结果分析.docx

SPSS—二元Logistic回归结果分析2011-12-02 16:48身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489那么: y¯ = 129/489 = 0.2638036809816x¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216则:y¯(1-y¯)* ∑(Xi-x¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 = 7.4595982010876 = 7.46 (四舍五入)计算过程采用的是在 EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~!!!!1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和 Nagelkerke R方拟合效果都不太理想,最终理想模型也才:0.305 和 0.446,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR 方的值!提示:将Hosmer 和 Lemeshow 检验和“随机性表” 结合一起来分析1:从Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:CHINV(0.05,8) = 15.507卡方统计量< 临界值,从SIG 角度来看: 0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、发生概率p的大小取值范围[0,1],p与自变 量的关系难以用多元线性模型来描述。
2、当p接近0或者1时,p值的微小变化用普 通的方法难以发现和处理好。
总:能不能找到一个p的严格单调函数Q,就 会比较方便;同时要求Q对在p=0或p=1的 附近的微小变化很敏感。
11
回归建模——二元Logistic回归模型
根据线性回归模型,选择参数估计值,使得模型
的估计值与真值的离差平方和最小 。 ?极大似然估计( MLE ):
选择使得似然函数最大的参数估计值。
18
Logistic回归模型估计:极大似然估计
假设n个样本观测值y1y, 2,L , yn, 得到一个观察值的概率为
??????????????????????????P ?Y ?
1
分类变量分析通常采用对数线性模型 (Log-linear mod而el)因, 变量为二分变量时, 对数线性模型就变成Logisti回c 归模型.
logisti回c 归是一个概率型模型,因此 可以利用它预测某事件发生的概率。例如 在可以根据消费者的一些特征,判断购买 某项产品概率有多大。
2
目的:作出以多个自变量估计因变量的 logisti回c 归方程。属于概率型非线性回归。
许多社会科学的观察都只分类而不是连续 的.比如,政治学中经常研究的是否选举某 候选人;经济学研究中所涉及的是否销售或 购买某种商品、是否签订一个合同等等.这 种选择量度通常分为两类,即“是'与 “否”. 在社会学和人口研究中,人们的社 会行为与事件的发生如犯罪、逃学、迁移、 结婚、离婚、患病等等都可以按照二分类变 量来测量。
(取值范围0~1)
9
线性回归模型的基本假定: (1)随机误差项具有0均值: (2)随机误差项具有同方差: (3)随机误差项在不同样本点之间是独立的, 不存
在序列相关: (4)随机误差项与解释变量(自变量)之间不相关
: (5)随机误差项服从0均值、同方差的正态分布
10
回归建模——二元Logistic回归模型
资料:1. 因变量为反映某现象发生与不发 生的二值变量;2. 自变量宜全部或大部 分为分类变量,可有少数数值变量。分 类变量要数量化。
用途:研究哪些变量影响因变量,影响程 度方向、大小等。
3
Logisti回c 归模型
?一.模型的引进 ?二.Logisti回c 归模型估计 ?三. Logisti回c 归模型的评价 ?四. Logisti回c 归系数的统计推断 ?五. Logisti回c 归诊断
Q ? ln p 1? p
p????Logit变换???Q ?取值范围为??? , ?? ??
12
回归建模——二元Logistic回归模型
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
Logiyt(P)
4
13
回归建模——二元Logistic回归模型
? 建立logi(t p)与X的多元线性回归模型:
log it( p ) ? ln( p ) 1? p
6
回归建模——二元Logistic回归模型
自变量(解释变量): X1:年龄,取值从18到58; X2:月收入(元),取值850、950、 1000、 1200、1300、 1500、 1800、 2100; X3:性别,取值为1,表示男性;取值 为0,表示女性。
7
回归建模——二元Logistic回归模型
16
Logistic回归模型估计:极大似然估计
多元回归采用最小二乘估计,使因变量的 真实值和预测值差异值的平方和最小化; Logisti变c 换的非线性特征使得在估计模型的 时候采用极大似然估计的迭代方法,找到 系数的“最可能”的估计,在计算整个模型 拟合度时,采用似然值。
17
Logistic回归模型估计:极大似然估计 ?最小二乘估计( OLS):
yi ??
p yi i
?1?
? p 1? yi i
其中yi取值为0或者1
由于各项观测相互独立,其联合分布为:
? ? ? ? ? ? L
?
n
p yi i
1? pi
1? yi
i?1
19
Logistic回归模型估计:极大似然估计
?求似然函数的极大值
? ln L(θ ) ?
ln ????
n i?1
p
yi i
4
回归建模——二元Logistic回归模型
当虚拟变量作为因变量,虚拟变量有 两个取值,可使用二元Logisti回c 归。
例:在一次有关公共交通的调查中, 一个调查项目为“是乘坐公交车上下班, 还是骑自行车上下班”。因变量有两个取 值,当取值为1,乘坐公交车上下班;取值 为0,骑自行车上下班。
5
回归建模——二元Logistic回归模型
优势比 (odds) 机会比 (odds)
?? ? ? ln( p(Y ? 1 | X ) ) ?? 1 ? p(Y ? 1 | X )
0
11X ? 2 X2 ? 3 X3
(取值范围-∞~+∞)
14
logistic回归模型
? Logisti回c 归模型:
? ? ? ? logit(p)= 0+ 1X1+ 2 X2 ? ? ? k Xk
?0 ? ?1X1+?2 X2+? +?k Xk
p ? 1ek
p ? 1 ? e 1 ?(?0 ? ?1X1+?2 X2+? +?k Xk)
15
Logistic回归模型估计:极大似然估计
Logistic回归模型估计的假设条件与 OLS的不同 (1)logisti回c 归的因变量是二分类变量 (2)logisti回c 归的因变量与自变量之间的关系是非线 性的 (3)logisti回c 归中无相同分布的假设 (4)logisti回c 归没有关于自变量“分布”的假设(离 散,连续,虚拟)
(
1
?
pi )1? yi ????
? ?
ln ????
n i?1
研究目的:X1,X2,X3等因素对因变量 (使用什么交通方式)有无影响?
建立Y与X的多元线性回归模型?
? ? ? ? Y? ? 0 ? 1 X1 ? 2 X2 ? 3 X3
(取值0和1)
8
回归建模——二元Logistic回归模型
建立p(Y=1|X)与X的多元线性回归模型?
? ? ? ? p(YX? 1| ) ? 0 ? 1X1 ? 2 X2 ? 3 X3
相关文档
最新文档