weka[29] Logistic源代码分析

作者：Koala++/屈伟

Logistic Regression是非常重要的一个算法，可以从Tom Mitchell的主页上把new chapter 的第一章看一下，或是Ng Andrew的lecture notes的Part II看一下。

从buildClassifier开始：

if (train.classAttribute().type() != Attribute.NOMINAL) { throw new UnsupportedClassTypeException(

"Class attribute must be nominal.");

}

if (train.checkForStringAttributes()) {

throw new UnsupportedAttributeTypeException(

"Can't handle string attributes!");

}

train = new Instances(train);

train.deleteWithMissingClass();

if (train.numInstances() == 0) {

throw new IllegalArgumentException(

"No train instances without missing class value!");

}

类别属性必须是离散的，不能处理字符串属性，删除类别缺失的样本，删除后样本数不能为0。

// Replace missing values

m_ReplaceMissingValues = new ReplaceMissingValues();

m_ReplaceMissingValues.setInputFormat(train);

train = https://www.360docs.net/doc/1d15979815.html,eFilter(train, m_ReplaceMissingValues);

// Remove useless attributes

m_AttFilter = new RemoveUseless();

m_AttFilter.setInputFormat(train);

train = https://www.360docs.net/doc/1d15979815.html,eFilter(train, m_AttFilter);

// Transform attributes

m_NominalToBinary = new NominalToBinary();

m_NominalToBinary.setInputFormat(train);

train = https://www.360docs.net/doc/1d15979815.html,eFilter(train, m_NominalToBinary);

替换缺失值，删除无用的属性，转换成二值属性。

// Extract data

m_ClassIndex = train.classIndex();

m_NumClasses = train.numClasses();

int nK = m_NumClasses - 1; // Only K-1 class labels needed

int nR = m_NumPredictors = train.numAttributes() - 1;

int nC = train.numInstances();

m_Data = new double[nC][nR + 1]; // Data values

int[] Y = new int[nC]; // Class labels

double[] xMean = new double[nR + 1]; // Attribute means

double[] xSD = new double[nR + 1]; // Attribute stddev's

double[] sY = new double[nK + 1]; // Number of classes

double[] weights = new double[nC]; // Weights of instances

double totWeights = 0; // Total weights of the instances

m_Par = new double[nR + 1][nK]; // Optimized parameter values 看一下有哪些值，输入属性值，类标签，属性均值，属性标准差，类别数，样本权重，样本的总权重，优化后的参数值。

for (int i = 0; i < nC; i++) {

// initialize X[][]

Instance current = train.instance(i);

Y[i] = (int) current.classValue(); // Class value starts from 0

weights[i] = current.weight(); // Dealing with weights

totWeights += weights[i];

m_Data[i][0] = 1;

int j = 1;

for (int k = 0; k <= nR; k++) {

if (k != m_ClassIndex) {

double x = current.value(k);

m_Data[i][j] = x;

xMean[j] += weights[i] * x;

xSD[j] += weights[i] * x * x;

j++;

}

// Class count

sY[Y[i]]++;

}

nC是样本数，Y[i]记录下每个样本的类别值，类别值从0开始，weight记录下当前样本的权重，totWeights统计数权重，m_Data第二维是从1开始记录属性值的，第一个值是1，也就是公式中sum_0^n(theta(i)*x(i))，从0开始那么也就是x0为0。xMean[j]现在累计第j 个属性的属性值*权重，xSD累计属性值平方*权重。sY是统计Y[i]属性值。

xMean[0] = 0;

xSD[0] = 1;

for (int j = 1; j <= nR; j++) {

xMean[j] = xMean[j] / totWeights;

if (totWeights > 1)

xSD[j] = Math.sqrt(Math.abs(xSD[j] - totWeights * xMean[j]

* xMean[j]) / (totWeights - 1));

else

xSD[j] = 0;

}

计算xMean[j]的公式没有什么疑问，sum ( weight[i] * x ) / sum ( weight[i] )。xSD的公式也很简单，忘了可以看一下wiki，这说起来也有点矛盾，看完了论文怎么会不知道公式。// Normalise input data

for (int i = 0; i < nC; i++) {

for (int j = 0; j <= nR; j++) {

if (xSD[j] != 0) {

m_Data[i][j] = (m_Data[i][j] - xMean[j]) / xSD[j];

}

z-score归范化，可以看一下Jiawei Han写的数据挖掘，中文版46页，英文版71页。double x[] = new double[(nR + 1) * nK];

double[][] b = new double[2][x.length]; // Boundary constraints, N/A here // Initialize

for (int p = 0; p < nK; p++) {

int offset = p * (nR + 1);

// Null model

x[offset] = Math.log(sY[p] + 1.0) - Math.log(sY[nK] + 1.0);

b[0][offset] = Double.NaN;

b[1][offset] = Double.NaN;

for (int q = 1; q <= nR; q++) {

x[offset + q] = 0.0;

b[0][offset + q] = Double.NaN;

b[1][offset + q] = Double.NaN;

}

数据b是边界约束，这里没有用，而x其实相当于一个二维数组，offset第p个(nR+1)的位置，x[offset]是每一级的x[0]。

OptEng opt = new OptEng();

opt.setDebug(m_Debug);

opt.setWeights(weights);

opt.setClassLabels(Y);

if (m_MaxIts == -1) { // Search until convergence

x = opt.findArgmin(x, b);

while (x == null) {

x = opt.getVarbValues();

if (m_Debug)

System.out.println("200 iterations finished, not enough!");

x = opt.findArgmin(x, b);

}

if (m_Debug)

System.out.println(" ---------------------------"); } else {

opt.setMaxIteration(m_MaxIts);

x = opt.findArgmin(x, b);

if (x == null) // Not enough, but use the current value

x = opt.getVarbValues();

}

m_MaxIts是最多迭代多少次，如果它为-1就一真迭代到收敛，opt.findArgmin，很可笑的是我导师最擅长的最优化，我却没有学到过什么。它的代码太长了，而且说的参考资料Practical Optimization图书馆也没有，并且那代码长的实在惊人。前面的注释上提到：In order to find the matrix B for which L is minimised, a Quasi-Newton Method is used to search for the optimized values of the m*(k-1) variables. Note that before we use the optimization procedure, we "squeeze" the matrix B into a m*(k-1) vector. For details of the optimization procedure, please check weka.core.Optimization class. 这里最优化用的是Quasi-Newton方法，它与Newton法一样，都是函数的局部最大最小值的方法。

在distributionForInstance ：

public double[] distributionForInstance(Instance instance) throws Exception {

m_ReplaceMissingValues.input(instance);

instance = m_ReplaceMissingValues.output();

m_AttFilter.input(instance);

instance = m_AttFilter.output();

m_NominalToBinary.input(instance);

instance = m_NominalToBinary.output();

// Extract the predictor columns into an array

double[] instDat = new double[m_NumPredictors + 1];

int j = 1;

instDat[0] = 1;

for (int k = 0; k <= m_NumPredictors; k++) {

if (k != m_ClassIndex) {

instDat[j++] = instance.value(k);

}

double[] distribution = evaluateProbability(instDat);

return distribution;

}

前面的处理是与buildClassifier中一样的，instDat也是第1个元素为1，用剩下的元素记录属性值。evaluateProbability的代码如下：

private double[] evaluateProbability(double[] data) {

double[] prob = new double[m_NumClasses],

v = new double[m_NumClasses];

// Log-posterior before normalizing

for (int j = 0; j < m_NumClasses - 1; j++) {

for (int k = 0; k <= m_NumPredictors; k++) {

v[j] += m_Par[k][j] * data[k];

}

v[m_NumClasses - 1] = 0;

// Do so to avoid scaling problems

for (int m = 0; m < m_NumClasses; m++) {

double sum = 0;

for (int n = 0; n < m_NumClasses - 1; n++)

sum += Math.exp(v[n] - v[m]);

prob[m] = 1 / (sum + Math.exp(-v[m]));

}

return prob;

}

Product(Theta*X)，取对数后为sum(Theta*X)，然后求每一个类别的概率可以看到下面列出来的注释，或者可以看一下Tom Mitchell的Generative and discriminative classifiers: na?ve bayes and logistic regression的13页，公式是一样的。而这里的sum += Math.exp(v[n]-v[m])这种写法是

The probability for class j except the last class is

*Pj(Xi)=exp(XiBj)/((sum[j=1..(k-1)]exp(Xi*Bj))+1)

*The last class has probability

*1-(sum[j=1..(k-1)]Pj(Xi))=1/((sum[j=1..(k-1)]exp(Xi*Bj))+1)

*The(negative)multinomial log-likelihood is thus:

*L=-sum[i=1..n]{

*sum[j=1..(k-1)](Yij*ln(Pj(Xi)))+

*(1-(sum[j=1..(k-1)]Yij))*ln(1-sum[j=1..(k-1)]Pj(Xi))

*}+ridge*(B^2)

SPSS实验8-二项Logistic回归分析

SPSS作业8：二项Logistic回归分析为研究和预测某商品消费特点和趋势，收集到以往胡消费数据。数据项包括是否购买，性别，年龄和收入水平。这里采用Logistic回归的方法，是否购买作为被解释变量（0/1二值变量），其余各变量为解释变量，且其中性别和收入水平为品质变量，年龄为定距变量。变量选择采用Enter方法，性别以男为参照类，收入以低收入为参照类。（一）基本操作：（1）选择菜单Analyz e－Regression－Binary Logistic; （2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Enter方法，结果如下：分析：上表显示了对品质变量产生虚拟变量的情况，产生的虚拟变量命名为原变量名（编码）。可以看到，对收入生成了两个虚拟变量名为Income（1）和Income（2），分别表示是否中收入和是否高收入，两变量均为0时表示低收入；对性别生成了一个虚拟变量名为Gedder（1），表示是否女，取值为0

时表示为男。消费的二项Logistic分析结果（二）（强制进入策略）分析：上表显示了Logistic分析初始阶段（第零步）方程中只有常数项时的错判矩阵。可以看到：269人中实际没购买且模型预测正确，正确率为100％；162人中实际购买了但模型均预测错误，正确率为0%。模型总的预测正确率为62.4％。消费的二项Logistic分析结果（三）（强制进入策略）

分析：上表显示了方程中只有常数项时的回归系数方面的指标，各数据项的含义依次为回归系数，回归系数标准误差，Wald检验统计量的观测值，自由度，Wald检验统计量的概率p值，发生比。由于此时模型中未包含任何解释变量，因此该表没有实际意义。分析：上表显示了待进入方程的各个变量的情况，各数据项的含义依次为Score检验统计量的观测值，自由度和概率p值。可以看到，如果下一步Age 进入方程，则Score检验统计量的观测值为1.268，概率p值为0.26。如果显著性水平a为0.05，由于Age的概率p值大于显著性水平a，所以是不能进入方程的。但在这里，由于解释变量的筛选策略为Enter，所以这些变量也被强行进入方程。

Logistic回归分析简介

Logistic回归分析简介 Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2．Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ②LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换； ④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或 0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量(Wald 统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫，睡意连连，头不断往下掉，拿出耳机，听下歌曲，缓解我这严重的睡意吧！今天来分析二元Logistic回归的结果分析结果如下： 1：在“案例处理汇总”中可以看出：选定的案例489个，未选定的案例361个，这个结果是根据设定的validate = 1得到的，在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替，在“分类变量编码”中教育水平分为5类，如果选中“为完成高中，高中，大专，大学等，其中的任何一个，那么就取值为 1，未选中的为0，如果四个都未被选中，那么就是”研究生“ 频率分别代表了处在某个教育水平的个数，总和应该为489个

1：在“分类表”中可以看出：预测有360个是“否”（未违约）有129个是“是”（违约） 2：在“方程中的变量”表中可以看出：最初是对“常数项”记性赋值，B为 -1.026，标准误差为：0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近，是因为我对数据进行的向下舍入的关系，所以数据会稍微偏小， B和Exp(B) 是对数关系，将B进行对数抓换后，可以得到：Exp(B) = e^-1.026 = 0.358, 其中自由度为1， sig为0.000，非常显著

1：从“不在方程中的变量”可以看出，最初模型，只有“常数项”被纳入了模型，其它变量都不在最初模型表中分别给出了，得分，df , Sig三个值, 而其中得分（Score)计算公式如下：（公式中（Xi- Xˉ) 少了一个平方）下面来举例说明这个计算过程：(“年龄”自变量的得分为例）从“分类表”中可以看出：有129人违约，违约记为“1”则违约总和为 129，选定案例总和为489 那么： yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以：∑(Xi-xˉ)2 = 30074.9979

logistic回归分析案例

1. 数据制备（栅格数据）（1）宝塔区基底图层.tif （2）居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。在 environment settings ------ p rocessing extent ------ snap raster （选中基底图层），保证栅格数据像元无偏移，且行列的数量一致。化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块，获得logistic 回归分析的数据集。（1）将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式，并将文件放在CLUE-S 模型所在的文件夹中。（2）打开FileCo nvert V2软件，按下图勾选，填写"file list "内容，点击start con version ， 3 田F1 曰 It:. （3）栅格数据转为 ASCII 码，生成txt 文档。匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*￡LD|i4I# ■ Q电兀列心￡i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬￡淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂￡]T (2)logistic回归分析按图设置参数因变量、自变量；由于x3属于分类变量，点击分类按钮，按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl￥ g： ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■；? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l￡j v-IIHH M4Q J0W PW回沐神to 型 rwa： wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞：幽 11013 1 Qm Sft?t 121JJ V s? 014*」； 11 H?iKa； H013 5 *旳 ti a IM■ KK MS V；941 ti Q144T f 7W filwvjcfic OH