第14章 有序多分类逻辑斯蒂回归模型

合集下载

python 逻辑斯蒂回归多分类

python 逻辑斯蒂回归多分类

逻辑斯蒂回归是一种常用的分类算法,用于将数据分为两个或多个类别。

在二分类问题中,逻辑斯蒂回归可以用于对数据进行二分,然后根据概率来确定新样本属于哪一类。

然而,在多分类问题中,逻辑斯蒂回归的应用相对复杂一些。

本文将讨论Python中逻辑斯蒂回归的多分类问题。

二、逻辑斯蒂回归的多分类问题1. 二分类问题的逻辑斯蒂回归在二分类问题中,逻辑斯蒂回归通过计算样本属于某一类的概率来进行分类。

具体来说,逻辑斯蒂回归使用sigmoid函数将线性函数的输出转换为概率值,然后根据概率值进行分类。

这种方法在二分类问题中表现良好,并且在Python中有很多成熟的库可以直接调用。

2. 多分类问题的逻辑斯蒂回归在多分类问题中,逻辑斯蒂回归的思想是类似的,但实现起来相对复杂一些。

常见的方法有一对多(One-vs-Rest)和一对一(One-vs-One)两种。

三、Python中逻辑斯蒂回归多分类的实现1. 使用sklearn库进行多分类逻辑斯蒂回归在Python中,sklearn库提供了方便易用的多分类逻辑斯蒂回归接口。

通过调用库中的相关函数,可以很方便地实现逻辑斯蒂回归的多2. 使用TensorFlow进行多分类逻辑斯蒂回归TensorFlow是一个强大的机器学习框架,可以用于实现逻辑斯蒂回归的多分类问题。

通过构建神经网络模型,可以实现复杂的多分类问题。

四、案例分析1. 使用sklearn库进行多分类逻辑斯蒂回归的案例以某个实际的数据集为例,我们可以使用sklearn库中的多分类逻辑斯蒂回归模型,对数据进行处理和训练,并进行预测和评估。

2. 使用TensorFlow进行多分类逻辑斯蒂回归的案例以同样的数据集为例,我们可以使用TensorFlow构建多分类逻辑斯蒂回归模型,训练和测试模型,并与sklearn库的结果进行对比分析。

五、总结多分类逻辑斯蒂回归在Python中有多种实现方法,可以根据实际情况选择合适的工具和方法。

在实际应用中,需要充分了解不同方法的特点和适用场景,以便选择合适的方案。

逻辑斯蒂(logistic)回归深入理解、阐述与实现

逻辑斯蒂(logistic)回归深入理解、阐述与实现

逻辑斯蒂(logistic)回归深⼊理解、阐述与实现第⼀节中说了,logistic 回归和线性回归的区别是:线性回归是根据样本X各个维度的Xi的线性叠加(线性叠加的权重系数wi就是模型的参数)来得到预测值的Y,然后最⼩化所有的样本预测值Y与真实值y'的误差来求得模型参数。

我们看到这⾥的模型的值Y是样本X各个维度的Xi的线性叠加,是线性的。

Y=WX (假设W>0),Y的⼤⼩是随着X各个维度的叠加和的⼤⼩线性增加的,如图(x为了⽅便取1维):然后再来看看我们这⾥的logistic 回归模型,模型公式是:,这⾥假设W>0,Y与X各维度叠加和(这⾥都是线性叠加W)的图形关系,如图(x为了⽅便取1维):我们看到Y的值⼤⼩不是随X叠加和的⼤⼩线性的变化了,⽽是⼀种平滑的变化,这种变化在x的叠加和为0附近的时候变化的很快,⽽在很⼤很⼤或很⼩很⼩的时候,X叠加和再⼤或再⼩,Y值的变化⼏乎就已经很⼩了。

当X各维度叠加和取⽆穷⼤的时候,Y趋近于1,当X各维度叠加和取⽆穷⼩的时候,Y趋近于0.这种变量与因变量的变化形式就叫做logistic变化。

(注意不是说X各个维度和为⽆穷⼤的时候,Y值就趋近1,这是在基于W>0的基础上,(如果W<0,n那么Y趋近于0)⽽W是根据样本训练出来,可能是⼤于0,也可能是⼩0,还可能W1>0,W2<0…所以这个w值是样本⾃动训练出来的,也因此不是说你只要x1,x2,x3…各个维度都很⼤,那么Y值就趋近于1,这是错误的。

凭直觉想⼀下也不对,因为你连样本都还没训练,你的模型就有⼀个特点:X很⼤的时候Y就很⼤。

这种强假设肯定是不对的。

因为可能样本的特点是X很⼤的时候Y就很⼩。

)所以我们看到,在logistic回归中,X各维度叠加和(或X各维度)与Y不是线性关系,⽽是logistic关系。

⽽在线性回归中,X各维度叠加和就是Y,也就是Y与X就是线性的了。

ologit模型公式

ologit模型公式

ologit模型公式ologit模型(即有序逻辑斯蒂回归模型)是一种常用的统计模型,用于分析有序分类的变量。

ologit模型可以帮助研究者理解影响有序变量分类的因素,并预测不同类别的概率分布。

ologit模型的公式基于逻辑斯蒂回归模型,逻辑斯蒂回归是一种广义线性模型,用于建立变量之间的概率关系。

在ologit模型中,我们将概率与一个或多个自变量之间的关系建立起来,从而预测有序分类变量的结果。

ologit模型的公式如下:log(odds) = β0 + β1 * X1 + β2 * X2 + ...+ βk * Xk其中,- log(odds)代表对数几率,即自变量(X)取某个特定值时,因变量(有序分类变量)的概率与基准分类(或其他类别)的概率之比的对数。

- β0, β1, β2,...,βk 是模型的回归系数,反映了自变量对概率的影响程度。

- X1, X2,...,Xk 是自变量的取值,用来预测有序分类变量的概率。

- k是自变量的数量,决定了模型中变量的个数。

在此公式中,我们使用对数几率(log odds)来建模。

对数几率是一种线性函数,将自变量的线性组合映射到对数几率空间。

通过这种方式,我们可以使用回归系数来解释自变量对因变量的影响。

为了得到概率的预测结果,我们需要将对数几率转换为概率。

可以使用逆logit函数(即逻辑斯蒂函数)来实现这一转换:P(Y ≤ k) = exp(β0 + β1 * X1 + β2 * X2 + ... + βk * Xk) / (1 + exp(β0 + β1 * X1 + β2 * X2 + ... + βk * Xk))这里,P(Y ≤ k)表示因变量的概率小于等于k,exp是指数函数。

通过使用ologit模型,我们可以利用已知的自变量的取值,计算每个类别的概率。

模型的回归系数可以帮助我们理解不同自变量对结果的影响,从而进行因果推断和预测。

需要注意的是,ologit模型的结果解释和判断需要结合领域知识和实际情况。

逻辑斯蒂增长模型

逻辑斯蒂增长模型

逻辑斯蒂增长模型逻辑斯蒂增长模型(Logistic growth model)逻辑斯蒂增长模型又称自我抑制性方程。

用植物群体中发病的普遍率或严重度表示病害数量(x),将环境最大容纳量k 定为1(100%),逻辑斯蒂模型的微分式是:dx/dt=rx(1-x) 式中的r为速率参数,来源于实际调查时观察到的症状明显的病害,范。

德。

普朗克(1963)将r称作表观侵染速率(apparent infection rate),该方程与指数模型的主要不同之处,是方程的右边增加了(1-x)修正因子,使模型包含自我抑制作用。

逻辑斯蒂曲线通常分为5个时期:1.开始期,由于种群个体数很少,密度增长缓慢。

2.加速期,随个体数增加,密度增长加快。

3.转折期,当个体数达到饱和密度一半(K/2),密度增长最快。

4.减速期,个体数超过密度一半(K/2)后,增长变慢。

5.饱和期,种群个体数达到K值而饱和。

逻辑斯蒂方程有几种不同的表达形式;三中通用形式,外加一种积分形式,如下:dN/dt=rN*(K-N)/K或dN/dt=rN-(r*N^2)/K或dN/dt=rN(1-N/K)和积分形式Nt=K/[1+e^(a-n)]其中dN/dt是种群增长率(单位时间个体数量的改变),r是比增长率或内禀增长率,N是种群的大小(个体的数量),a是积分常数,它决定曲线离原点的位置,K是可能出现的最大种群数(上渐近线)或承载力。

Lotka-Volterra模型20世纪40年代,Lotka(1925)和Volterra(1926)奠定了种间竞争关系的理论基础,他们提出的种间竞争方程对现代生态学理论的发展有着重大影响。

Lotka-Volterra模型(Lotka-Volterra种间竞争模型)是对逻辑斯蒂模型的延伸。

现设定如下参数:N1、N2:分别为两个物种的种群数量K1、K2:分别为两个物种的环境容纳量r1、r2 :分别为两个物种的种群增长率依逻辑斯蒂模型有如下关系:dN1 / dt = r1 N1(1 - N1 / K1)其中:N/K可以理解为已经利用的空间(称为“已利用空间项”),则(1-N/K)可以理解为尚未利用的空间(称为“未利用空间项”)当两个物种竞争或者利用同一空间时,“已利用空间项”还应该加上N2种群对空间的占用。

逻辑斯蒂回归 系数估计

逻辑斯蒂回归 系数估计

逻辑斯蒂回归系数估计逻辑斯蒂回归是一种常用的分类算法,它可以用于预测二分类问题。

在逻辑斯蒂回归中,系数估计是非常重要的一部分,它用于确定模型中各个特征的权重,从而影响预测结果。

在逻辑斯蒂回归中,我们使用的是逻辑函数(也称为sigmoid函数)来建立模型。

逻辑函数可以将连续的输入值映射到0和1之间的概率值,用于表示某个样本属于某一类的概率。

系数估计是通过最大似然估计方法来进行的。

最大似然估计的目标是找到一组系数,使得模型预测的概率最大化。

在逻辑斯蒂回归中,我们使用的是对数似然函数,通过最大化对数似然函数来估计系数。

系数估计的方法有多种,其中最常用的是梯度下降法。

梯度下降法是一种迭代优化算法,通过不断调整系数的值来逼近最优解。

在逻辑斯蒂回归中,梯度下降法通过计算损失函数的梯度来更新系数的值,从而不断优化模型。

在梯度下降法中,需要选择合适的学习率来控制每次迭代中系数的更新幅度。

学习率过大会导致迭代过程不稳定,甚至无法收敛;学习率过小会导致收敛速度过慢。

因此,选择合适的学习率是系数估计的一个重要问题。

除了梯度下降法,还有其他一些优化算法可以用于系数估计,例如牛顿法和拟牛顿法。

这些算法通常可以提供更快的收敛速度和更精确的估计结果。

但是,它们的计算复杂度较高,适用于数据规模较小的情况。

系数估计的过程中,还需要注意一些常见的问题,例如共线性和过拟合。

共线性指的是特征之间存在高度相关性,这会导致系数估计不稳定。

过拟合指的是模型过度拟合训练数据,导致在新数据上的表现不佳。

为了解决这些问题,可以采用正则化方法,例如L1正则化和L2正则化,来约束系数的大小。

在系数估计完成之后,我们可以通过系数的大小来判断特征的重要性。

系数的绝对值越大,表示对预测结果的影响越大。

通过分析系数的大小,我们可以得到关于特征重要性的有用信息。

总之,逻辑斯蒂回归的系数估计是建立模型的关键步骤之一。

通过合适的估计方法和技巧,我们可以得到准确且可解释性强的系数,从而建立一个可靠的分类模型。

简述种群增长的逻辑斯谛模型及其主要参数的生物学意义

简述种群增长的逻辑斯谛模型及其主要参数的生物学意义

简述种群增长的逻辑斯谛模型及其主要参数的生物学意义种群增长的逻辑斯谛模型是一种描述物种生长的统计模型。

它基于两个关键假设:一是种群的增长率取决于种群数量,二是种群的增长率会随着种群数量的增加而减缓。

这个模型可以通过几个主要参数来描述,包括种群增长率、最大种群容量和饱和度。

种群增长率是指单位时间内种群数量的平均增加量。

在逻辑斯谛模型中,种群增长率通常被表示为种群数量与最大种群容量的差异的函数。

当种群数量接近零时,增长率接近最大增长率,随着种群数量的增加,增长率逐渐减缓,最终趋近于零。

这种模型反映了种群增长受到资源限制的生物学过程。

最大种群容量是指在给定环境条件下,种群可以达到的最大数量。

在逻辑斯谛模型中,最大种群容量是一个重要的参数,它代表了生态系统承载能力的上限。

当种群数量逐渐接近最大种群容量时,资源变得越来越有限,种群增长率受到阻碍,从而导致增长率减缓。

饱和度是指种群数量与最大种群容量之间的比值。

它是种群增长动力学的关键指标之一,用来描述种群数量相对于最大种群容量的相对大小。

当饱和度接近零时,种群数量较小,增长率较高;当饱和度接近于1时,种群数量接近最大种群容量,增长率趋近于零。

饱和度反映了种群增长受到资源限制的程度。

逻辑斯谛模型的主要参数具有生物学意义。

首先,最大种群容量可以反映生态系统的承载能力。

当最大种群容量较小时,表明这个生态系统的资源供应有限,种群数量不太可能达到很大;而当最大种群容量较大时,表明这个生态系统的资源供应相对充足,种群数量有较大的增长潜力。

其次,种群增长率是解释种群数量动态变化的重要指标。

当种群数量远离最大种群容量时,增长率较高,种群数量有较大的增长潜力;当种群数量接近最大种群容量时,增长率减缓,种群数量达到动态平衡。

这提醒我们要关注种群数量变化的趋势,及时采取措施来调节种群数量。

最后,饱和度是评估种群数量相对于最大种群容量的相对大小的重要参数。

饱和度越高,种群数量接近最大种群容量,资源供应越有限,增长率减缓;饱和度越低,则种群数量较小,资源供应相对充足,增长率较高。

有序多分类Logistic回归模型

有序多分类Logistic回归模型

三、模型适用条件检验
• Test of Parallel Linesa:输出的是检验各自 变量对于反应变量的影响在两个回归方程 中是否相同的结果。其实质是拟合不限定 下属相等的模型(General Model),将该 模型的似然值和当前限定系数相等的模型 (Null Hypothesis)加以比较,进行似然比 检验。如果检验结果P>0.05,说明各回归 方程互相平行,可以使用Ordinal Regression 过程进行分析,否则就要进行 处理。
• 输出结果会出现Warnings,警告信息说明 自变量的各种取值水平组合中有多少其观 察频数为0。如果模型中有连续型变量,这 个比例会很大,这样的情况属于正常,不 必担心。
• Model Fitting Information:是对是否所有 自变量偏回归系数全为0进行似然比检验, 结果P<0.001,说明至少有一个自变量的偏 回归系数不为0。说明拟合包括上述几个变 量的模型拟合优度好于仅仅包含常数项的 模型。
二、具体操作
• 有序多分类回归模型中既可以放分组变量, 也可以放连续型变量。 • 具体操作:Y放在Dependent框中,路径: Analyze-Regression-Ordinal • 在Factors框中放分组变量,spss自动对分 组变量进行分组,默认最后一组作为对照 组。 • 在Covariate框中放连续变量
有序多分类Logistic回归模型
一、模型适用条件
• 研究变量Y是有序的而且是多分类的,常见 的如生活满意度,答案包括五个:很不满 意;不太满意;一般;比较满意;非常满 意。或者三个:满意;一般;不满意。关 于主观幸福感的研究,答案包括:比较幸 福;一般;比较不幸福。 • 具体的研究中,有些研究把上述五分类或 者三分类变量合并成二分类,使用二项 Logistic回归模型,这样的研究比较常见。

第14章 有序多分类逻辑斯蒂回归模型

第14章 有序多分类逻辑斯蒂回归模型

• 是Pearson 和Deviance 两种拟合优度检验结果。判定规则:卡方值
很小或者P>a,拟合较好。当自变量很多或者自变量中存在连续性变量 时,这两个统计量不太适用。这两个统计量有个致命的缺点是对于
自变量取值水平组合的实际观察频数为0 的比例十分敏感,如果 上述比例过高,这两个统计量不一定仍旧服从卡方分布,因而基 于卡方分布计算的P 值也不可信。即:这两个统计量不一定能真 实地反映模型拟合情况。当自变量中存在连续性变量时,如本例 中的年龄,常会导致上述比例过高。与上述两个统计量相比,似 然比卡方则要稳健得多。本例两个统计量对应的 P 值均小于0.050
14.2 有序回归的案例分析
• 例:分析债权人如何确定申请者信用风险的问题, SPSS自带数据文件“信誉评价数据.sav” • 因变量Chist(账目情况)取值:没有贷款历史、现在 没有贷款、正在偿还、逾期偿还、拖欠贷款
因子一般为 分类变量
协变量一般为 连续变量,也 可以为二分类 变量
• 链接:指定链接函数(联 系函数、连接函数),即 对模型估计中的累积概 率的转换函数,根据因 变量(反应变量)的情 况选择
补充对数—对数
负对数—对数
把观测记录按因变量进行分类的估计概率,有 几个水平就保存几个变量 保存最大的估计响应概率
保存模型的预测响应分类
输出伪R方
输出累积频数、 概率的残差、观 测概率、预测概 率等内容 检验系数在各响 应类别中是否相 同,仅适用于位 臵模型
保存预测正确时 的估计响应概率
• 位臵模型设臵:用于指定定位模型中的各种效应
• 尺度模型设臵:设臵与尺度模型有关的参数
• 主要输出结果
案例处理摘要:可以 看出,本例在链接函 数的选择上,可以选 择补充对数——对数, 也可以选择Cauchit 链接函数
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

p1 p1 log it[ p ( y 1)] log it ( p1 ) ln 1 p ln p p p 1 3 4 2 常数项不同,回归系 1 1 x1 2 x2 k xk 数完全相同的
第一个模型表示了y 取第一个值的概率p1与x的关系;第二个模 型表示了y 取前两个值的累积概率p2与x的关系。这两个模型的 常数项不同,回归系数完全相同的。 y 取第一个值的概率 p(1)=p1 ,y 取第二个值的概率p(2)=p2 -p1,y 取第三个值的概率 p(3)=1- p2 。它们的截距不同,斜率相同,所以是J-1条平行直线 族。多值因变量logistic回归模型要求进行数据的平行性检验。
• 14.2 有序回归的案例分析
14.1 有序回归的基本思想
• 研究中常遇到反应变量为有序多分类(k>2)的资料,如城 市综合竞争力等级、满意度等可以划分为低、中、高。 • 与名义多分类因变量有所不同,定性有序多分类因变量采用 累积logit模型,该模型可利用有序这一特点,得到比基线类别有更简单解释的模型。 • Y的累积概率是指Y落在一个特定点的概率,对结果为类别j 时,其累积概率为:
补充对数—对数
负对数—对数
把观测记录按因变量进行分类的估计概率,有 几个水平就保存几个变量 保存最大的估计响应概率
保存模型的预测响应分类
输出伪R方
输出累积频数、 概率的残差、观 测概率、预测概 率等内容 检验系数在各响 应类别中是否相 同,仅适用于位 臵模型
保存预测正确时 的估计响应概率
• 位臵模型设臵:用于指定定位模型中的各种效应
• 某大学医院外科采用两种不同的绷带和两种不同的包扎 方式进行腿溃疡的治疗处理。治疗的结果分三种:不愈、 有效和痊愈。试分析治疗方法对治疗效果的影响。 • 设因变量 y 表示治疗效果,0=不愈、1=有效、2=痊愈。 设自变量x1表示绷带种类,自变量 x2 表示包扎方式。 • 对于多值因变量模型,平行性假设决定了每个自变量的 OR值对于前k-1个模型是相同的。例如,变量x1的 OR=5.172,它表示使用第一种绷带治愈腿溃疡的可能 性是使用第二种绷带的5.172倍;它也表示使用第一种绷 带至少有效的可能性是使用第二种绷带的5.172倍。
14.2 有序回归的案例分析
• 例:分析债权人如何确定申请者信用风险的问题, SPSS自带数据文件“信誉评价数据.sav” • 因变量Chist(账目情况)取值:没有贷款历史、现在 没有贷款、正在偿还、逾期偿还、拖欠贷款
因子一般为 分类变量
协变量一般为 连续变量,也 可以为二分类 变量
• 链接:指定链接函数(联 系函数、连接函数),即 对模型估计中的累积概 率的转换函数,根据因 变量(反应变量)的情 况选择
多元回归中的几种重要模型
• 第一部分:多重共线情况的处理
– 第10章 岭回归分析( Ridge Regression )
• 第二部分:自变量中含定性变量的处理 – 第11章 自变量中含有定性变量的回归分析 • 第三部分:因变量中含有定性变量情况的处理
– 第12章 二项Logistic回归
– 第13章 多项Logistic回归
14.1 有序回归的基本思想
• 有序回归模型的类型:
当定性因变量y取k个顺序类别时,记为1,2,…,k,这 里的数字1,2,…,k仅表示顺序的大小。
因变量y取值于每个类别的概率仍与一组自变量x1,x2,…,xk 有关,对于样本数据 (xi1,xi2,…,xip ;yi),i=1,2,…,n ,顺序类别 回归模型有两种主要类型, •位臵结构(Location component)模型,位臵模型,定位模型
,2, ,n ; 式只针对 i 1
j 1 ,2, , k1 。
。 j 是类别界限值(threshold)
规模结构模型(尺度模型/度量模型,Scale):
j (1 xi1 2 xi 2 p xip ) link( ij ) exp(1 zi1 m zim )
• 尺度模型设臵:设臵与尺度模型有关的参数
• 主要输出结果
案例处理摘要:可以 看出,本例在链接函 数的选择上,可以选 择补充对数——对数, 也可以选择Cauchit 链接函数
• 主要输出结果
说明最终模型要优于 只含截距的模型,即 模型显著成立
由于本例模型包含连续 变量,故空单元格较多, 影响了统计量的计算和 有效性。因此,本例基 于卡方检验的拟合优度 统计量不太可信
• 以4 水平的反应变量为例,假设反应变量的取值为1 、2 、3 、 4 ,相应取值水平的概率为p1、p2、p3、p4,则此时进行 Logit 变换的分别为p1、p1+p2、p1+p2 +p3,对k 个自变量拟 合三个模型如下:
p1 p2 p1 p2 log it[ p ( y 2)] log it ( p1 p2 ) ln ln 1 ( p1 p2 ) p3 p4 2 1 x1 2 x2 k xk
• 是Pearson 和Deviance 两种拟合优度检验结果。判定规则:卡方值
很小或者P>a,拟合较好。当自变量很多或者自变量中存在连续性变量 时,这两个统计量不太适用。这两个统计量有个致命的缺点是对于
自变量取值水平组合的实际观察频数为0 的比例十分敏感,如果 上述比例过高,这两个统计量不一定仍旧服从卡方分布,因而基 于卡方分布计算的P 值也不可信。即:这两个统计量不一定能真 实地反映模型拟合情况。当自变量中存在连续性变量时,如本例 中的年龄,常会导致上述比例过高。与上述两个统计量相比,似 然比卡方则要稳健得多。本例两个统计量对应的 P 值均小于0.050
(2 )
其中z是x1,x2,…,xp的一个子集,作为规模结构解释变量,
链接函数(联系函数、连接函数)的几种主要类型
联系函数类型 Logit Complementary log-log Negative log-log Probit Cauchit (inverse Cauchy) 为累积概率 形式 log( / (1-) ) log(-log(1-)) -log(-log()) -1() tan((-0.5)) 应用场合 各类别均匀分布 高层类别出现几率大 低层类别出现几率大 正态分布 两端的类别出现几率大
14.2 有序回归的案例分析
• 例:对某地人群调查其对所从事的工作是否满意,可能的影 响因素有:年龄、性别、年收入水平、文化程度。变量的赋 值情况见下表,数据见文件satisfy. sav 。试进行统计分析。 • 变量的赋值情况如下:
• 警告信息说明自变量的各种取值水平组合中有多少其观察频 数为0 。由于数据库中变量age 为连续性变量,所以这个比 例显得较大,此种情况下属于正常现象。
累积概率函数:
j x) exp( ,当 1 j k 1 p j p( y j x) 1 exp( j x) 1,当j k
J等级分为两类:{1,,j } 与 { j+1,,k} 在这两类的基础上定义的 logit 表示:属于后 k-j 个等级的累积 概率与前j个等级的累积概率的优势的对数,故该模型称为累 积优势模型 (cumulative odds model)。
• 系数大都不够显著,原因可能是因变量的分类顺序不对,也可能是因为链 接函数选择不理想。
• 若协变量的参数估计之为正,那么对此变量取值越大的观测目标类别取值 也越大,如age变量显著且为正,表明年龄越大拖欠贷款的概率也越大。
• 平行检验:原假设是斜率系数(位臵参数)在各响应类别中 都是相等的。由于P<a,否定原假设,说明各回归方程不平行 • 如果平行性检验的P 值非常小,是不能就这样蒙混过关的。 其主要原因是链接函数选择不准确,或者系数的确在随着分 割点发生变化。可以考虑其他链接函数以及使用无序多分类 模型。
p(Y j x) p1 p2 p j , j 1,, k
• 累积概率满足:
p(Y 1) p(Y k ) 1
• 累积概率的模型并不利用最后一个概率,因为它必然等于1
14.1 有序回归的基本思想
pj j 1 x1 2 x2 n xn log it ( p j ) ln 1 p j pj = p(y≤j | x),它表示 y 取前 j 个值的累积概率。
•规模结构(Scale component)模型,尺度模型,定量模型
位臵结构模型(位臵模型/定(1xi1 2 xi 2 p xip ) (1)
其中 link( ) 是联系函数, ij i 1 ij 是 第 i 个样品小于等于 j 的累积概率,由于 ik =1,所以(1)
•反应变量与离散自变量不同取值水平的边际频数分布
• 对模型中是否所有自变量偏回归系数全为0 进行似然比 检验(判断规则:P<a,拟合较好),结果P <0. 001, 说明至少有一个自变量的偏回归系数不为0 。即:拟合 包含年龄、性别、年收入水平、文化程度4 个自变量的 模型其拟合优度好于仅包含常数项的模型。
张文彤版本的常数项 前均为负号
• 根据上述公式,可以分别求出:
• 由上述建立的模型可以看出,这种模型实际上是依次 将反应变量按不同的取值水平分割成两个等级,对这 两个等级建立反应变量为二分类的Logistic 回归模型。 不管模型中反应变量的分割点在什么位臵,模型中各 自变量的系数都保持不变,所改变的只是常数项。此 时求出的OR 值表示自变量每改变一个单位,反应变 量提高一个及一个以上等级的比数比。OR exp( i ) • 张文彤认为,这里拟合的模型中常数项之前的符号应 当是“负号”,原因在于此处的常数项正好表示低级 别和高级别相比的情况,且必然有 , 但由 于研究者主要关心的是各参数(系数)的大小,因此 这种差异影响不大。并且由SPSS给出的系数无需再添 加符号。
相关文档
最新文档