对线性回归逻辑回归各种回归的概念学习以与一些误差等具体含义
线性回归、逻辑回归与神经网络推导

线性回归、逻辑回归与神经网络推导哈尔滨工业大学, 17B904012一、多元线性回归(Linear Regression ):用线性关系拟合多个变量属性值x 与观测值y 的关系,以描述散点间的共同特性:()()()()()01122,1,2,iiiiin n y x x x i n ββββε=+++++=L L当[]012,,,T n θββββ=L ,[]121,,,Tn X x x x =L 均为列向量,则()()()iiiT y X θε=+而计算这种回归曲线参数的方法即常提到的最小二乘法或极大似然法。
一)当使用最小二乘法时:目标:最小化均方误差;损失函数定义e 或J :()()()()()()()Ti iiii T Tey X y X θθ=--则可求()()()()()()()()1ˆarg min=arg min NTi i i i TT i TT T y Xy X Y X Y X θθθθθθθ==----∑(将y 的各个分量看做组成向量Y ,此时X 代表属性值矩阵而不止是向量()i X),求解导数使之为零()()()()()()()()()()()20TTT T T T TTTTTTTTT T T T T T T T T Y X Y X Y X Y X eY X Y X X Y X Y X X X X Y X X Y X X Y θθθθθθθθθθθθθθθ∂--∂-∂-∂==-+-∂∂∂∂=----=-+-=-=求得最优估计值:()1ˆTT X X X Y θ-=另外,如果把最小二乘问题看做一种最优化问题的话,那么梯度下降法可用于求解最小二乘,其他基于梯度下降改进的迭代算法,如高斯-牛顿法、Levenberg-Marquardt 也可用于求解最小均方误差的迭代算法。
特别地,当属性X 代表系统中的n 阶差分状态及输入时,如下()()()()()()()1,2,3,1,2,X x k x k x k x k n u k u k u k n =-----------⎡⎤⎣⎦L L[]1212,,,,,,Tn n a a a b b b θ=L L 这种线性回归就变成了较为常用的n 阶系统辨识问题。
第四章 线性回归分析

(4-1)
, zki 是 k 个对 Y 有显
其中 j ( j 1,2,
, k ) 是回归系数,Y 是被解释变量, z1i , z2i ,
著影响的解释变量 (k 2) , i 是反映各种误差扰动综合影响的随机项,下标 i 表 示第 i 期观察值 (Yi , z1i , z2i ,
, zki ), i 1,2,
2
,n 。
ˆ ˆZ ˆ Z ˆZ ˆ 假设多元样本回归函数为:Y i 0 1 1i 2 2i 3 3i
ˆ。 差为: i Yi Y i
由于有 n 期的观察值,这一模型实际上包含 n 个方程:
Y2 0 1Z12 Yn 0 1Z1n
另 V 对 b0 ,
bk zki )]2
(4-3)
, bk 的一阶偏导数都等于 0,即下列方程组:
2[Y (b
i
0
b1 z1i b1 z1i b1 z1i
bk zki )]( 1) 0, bk zki )]( z1i ) 0, bk zki )]( zki ) 0
把样本数据分别代入样本回归方程,得到回归方程组为:
ˆ b bz Y 1 0 1 11 ˆ b bz Y n 0 1 1n bk zk 1 ,
(4-4)
(4-5)
bk zkn
写成等价的向量方程,则为:
ˆ ZB Y
这样回归残差向量为:
ˆ Y ZB Y Y
再利用向量,矩阵的运算法则,可以得到残差平方和为:
k Zk ,
, bk 分 别 表 示 模 型 参 数 0 ,
高一数学必修四线性回归分析知识点

【导语】有时候,洒脱⼀点,眼前便柳暗花明;宽容⼀点,⼼中便海阔天空。
⾝边的世界往往⽐我们想象的要睿智与宽容。
⼼存感激,永不放弃!即使是在最猛烈的风⾬中,我们也要有抬起头,直⾯前⽅的勇⽓。
因为请相信:任何⼀次苦难的经历,只要不是毁灭,就是财富!⾼⼀频道为你整理了《⾼⼀数学必修四线性回归分析知识点》希望对你有帮助! 【⼀】 重点难点讲解: 1.回归分析: 就是对具有相关关系的两个变量之间的关系形式进⾏测定,确定⼀个相关的数学表达式,以便进⾏估计预测的统计分析⽅法。
根据回归分析⽅法得出的数学表达式称为回归⽅程,它可能是直线,也可能是曲线。
2.线性回归⽅程 设x与y是具有相关关系的两个变量,且相应于n组观测值的n个点(xi,yi)(i=1,......,n)⼤致分布在⼀条直线的附近,则回归直线的⽅程为。
其中。
3.线性相关性检验 线性相关性检验是⼀种假设检验,它给出了⼀个具体检验y与x之间线性相关与否的办法。
①在课本附表3中查出与显著性⽔平0.05与⾃由度n-2(n为观测值组数)相应的相关系数临界值r0.05。
②由公式,计算r的值。
③检验所得结果 如果|r|≤r0.05,可以认为y与x之间的线性相关关系不显著,接受统计假设。
如果|r|>r0.05,可以认为y与x之间不具有线性相关关系的假设是不成⽴的,即y与x之间具有线性相关关系。
典型例题讲解: 例1.从某班50名学⽣中随机抽取10名,测得其数学考试成绩与物理考试成绩资料如表:序号12345678910数学成绩54666876788285879094,物理成绩61806286847685828896试建⽴该10名学⽣的物理成绩对数学成绩的线性回归模型。
解:设数学成绩为x,物理成绩为,则可设所求线性回归模型为, 计算,代⼊公式得∴所求线性回归模型为=0.74x+22.28。
说明:将⾃变量x的值分别代⼊上述回归模型中,即可得到相应的因变量的估计值,由回归模型知:数学成绩每增加1分,物理成绩平均增加0.74分。
逻辑回归分类

逻辑回归分类逻辑回归是一种常用的分类算法,广泛应用于各个领域的数据分析和机器学习任务中。
它是一种简单而有效的模型,能够将输入数据映射到一个二元输出。
在本文中,我们将探讨逻辑回归分类的原理、应用以及优缺点。
一、逻辑回归分类的原理逻辑回归的原理很简单,它基于线性回归的基础上引入了一个称为“逻辑函数(logistic function)”的非线性函数,将线性模型的输出映射到一个介于0和1之间的概率值。
逻辑函数的形式为:p = 1 / (1 + e^(-z))其中,p表示样本属于某个类别的概率,z表示线性模型的输出。
通过逻辑函数,逻辑回归可以将线性模型的输出转化为一个概率值,然后根据设定的阈值,将概率值映射到类别标签上。
二、逻辑回归分类的应用逻辑回归分类广泛应用于二分类问题,例如信用评分、疾病诊断、垃圾邮件过滤等。
它具有以下几个优点:1. 实现简单:逻辑回归是一种线性模型,计算量小,训练速度快,适用于大规模数据集;2. 解释性强:逻辑回归通过系数来解释特征对结果的影响,能够帮助我们理解模型的预测结果;3. 可解释性好:逻辑回归的输出是一个概率值,可以根据需求设置不同的阈值,从而灵活地控制分类的准确率和召回率。
三、逻辑回归分类的优缺点逻辑回归分类具有以下优点:1. 实现简单:逻辑回归是一种线性模型,计算量小,训练速度快,适用于大规模数据集;2. 解释性强:逻辑回归通过系数来解释特征对结果的影响,能够帮助我们理解模型的预测结果;3. 可解释性好:逻辑回归的输出是一个概率值,可以根据需求设置不同的阈值,从而灵活地控制分类的准确率和召回率。
然而,逻辑回归分类也存在一些缺点:1. 只能处理线性可分问题:逻辑回归是一种线性模型,只能处理线性可分的问题,对于非线性可分的问题效果会较差;2. 对异常值敏感:逻辑回归对异常值比较敏感,当数据集中存在异常值时,模型的性能会受到影响;3. 特征工程要求高:逻辑回归对特征工程要求较高,需要对输入数据进行适当的处理和选择。
回归分析法概念及原理

回归分析法概念及原理回归分析法概念及原理回归分析定义:利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的分析方法。
分类:1.根据因变量和自变量的个数来分类:一元回归分析;多元回归分析;2. 根据因变量和自变量的函数表达式来分类:线性回归分析;非线性回归分析;几点说明:1.通常情况下,线性回归分析是回归分析法中最基本的方法,当遇到非线性回归分析时,可以借助数学手段将其化为线性回归;因此,主要研究线性回归问题,一点线性回归问题得到解决,非线性回归也就迎刃而解了,例如,取对数使得乘法变成加法等;当然,有些非线性回归也可以直接进行,如多项式回归等;2.在社会经济现象中,很难确定因变量和自变量之间的关系,它们大多是随机性的,只有通过大量统计观察才能找出其中的规律。
随机分析是利用统计学原理来描述随机变量相关关系的一种方法;3.由回归分析法的定义知道,回归分析可以简单的理解为信息分析与预测。
信息即统计数据,分析即对信息进行数学处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“未来预测”。
当然,还可以对回归方程进行有效控制;4.相关关系可以分为确定关系和不确定关系。
但是不论是确定关系或者不确定关系,只要有相关关系,都可以选择一适当的数学关系式,用以说明一个或几个变量变动时,另一变量或几个变量平均变动的情况。
回归分析主要解决的问题:回归分析主要解决方面的问题;1.确定变量之间是否存在相关关系,若存在,则找出数学表达式;2.根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可以达到何种精确度。
回归模型:回归分析步骤:1. 根据自变量与因变量的现有数据以及关系,初步设定回归方程;2. 求出合理的回归系数;3. 进行相关性检验,确定相关系数;4. 在符合相关性要求后,即可根据已得的回归方程与具体条件相结合,来确定事物的未来状况,并计算预测值的置信区间;回归分析的有效性和注意事项:有效性:用回归分析法进行预测首先要对各个自变量做出预测。
现代回归分析方法

描述因变量与自变量之间的多项 式关系,适用于描述复杂的非线 性现象。
对数模型
描述因变量与自变量之间的对数 关系,适用于描述物理、化学、 生物等领域的某些现象。
幂函数模型
描述因变量与自变量之间的幂函数关 系,常用于描述物理学中的万有引力 、电磁学中的库仑定律等现象。
参数估计方法比较与选择
1 2 3
实例:GAM在医学领域应用
疾病风险预测
利用GAM分析多个生物标志物与 疾病风险之间的非线性关系,为 个性化医疗和精准预防提供决策 支持。
药物剂量反应建模
通过GAM建模药物剂量与生理指 标之间的关系,优化药物治疗方 案,提高治疗效果和安全性。
临床试验设计
在临床试验中,利用GAM分析不 同治疗方案对患者结局的影响, 为临床试验设计和数据分析提供 有力工具。
机器学习算法可以自动地学习数据的 特征表示,减少了对人工特征工程的 依赖。
高维数据处理
对于高维数据,传统方法可能面临维度灾 难问题,而机器学习算法如随机森林、支 持向量机等可以有效处理高维数据。
模型泛化能力
通过引入正则化、交叉验证等技术, 机器学习算法可以提高模型的泛化能 力,减少过拟合风险。
实例:机器学习算法在金融领域应用
最小二乘法的应用步骤包括:构建模型、求解参数、进行假 设检验等。通过最小二乘法可以得到回归方程的系数,进而 得到回归方程,用于描述自变量和因变量之间的关系。
拟合优度评价与检验
要点一
拟合优度评价是指对回归模型的 拟合效果进行评估,常用的评…
决定系数、调整决定系数、均方误差等。这些指标可以帮 助我们判断模型的好坏,选择最优的模型。
回归分析的作用包括:预测、解释、 控制、优化等。通过回归分析,可以 了解自变量对因变量的影响程度,预 测未来的趋势,为决策提供支持。
logistic回归和线性回归
logistic回归和线性回归1.输出:线性回归输出是连续的、具体的值(如具体房价123万元)回归逻辑回归的输出是0~1之间的概率,但可以把它理解成回答“是”或者“否”(即离散的⼆分类)的问题分类2.假设函数线性回归:θ数量与x的维度相同。
x是向量,表⽰⼀条训练数据逻辑回归:增加了sigmoid函数逻辑斯蒂回归是针对线性可分问题的⼀种易于实现⽽且性能优异的分类模型,是使⽤最为⼴泛的分类模型之⼀。
sigmoid函数来由假设某件事发⽣的概率为p,那么这件事不发⽣的概率为(1-p),我们称p/(1-p)为这件事情发⽣的⼏率。
取这件事情发⽣⼏率的对数,定义为logit(p),所以logit(p)为因为logit函数的输⼊取值范围为[0,1](因为p为某件事情发⽣的概率),所以通过logit函数可以将输⼊区间为[0,1]转换到整个实数范围内的输出,log函数图像如下将对数⼏率记为输⼊特征值的线性表达式如下:其中,p(y=1|x)为,当输⼊为x时,它被分为1类的概率为hθ(x),也属于1类别的条件概率。
⽽实际上我们需要的是给定⼀个样本的特征输⼊x,⽽输出是⼀个该样本属于某类别的概率。
所以,我们取logit函数的反函数,也被称为logistic函数也就是sigmoid函数ϕ(z)中的z为样本特征与权重的线性组合(即前⾯的ΘT x)。
通过函数图像可以发现sigmoid函数的⼏个特点,当z趋于正⽆穷⼤的时候,ϕ(z)趋近于1,因为当z趋于⽆穷⼤的时候,e^(-z)趋于零,所以分母会趋于1,当z趋于负⽆穷⼤的时候,e^(-z)会趋于正⽆穷⼤,所以ϕ(z)会趋于0。
如在预测天⽓的时候,我们需要预测出明天属于晴天和⾬天的概率,已知根天⽓相关的特征和权重,定义y=1为晴天,y=-1为⾬天,根据天⽓的相关特征和权重可以获得z,然后再通过sigmoid函数可以获取到明天属于晴天的概率ϕ(z)=P(y=1|x),如果属于晴天的概率为80%,属于⾬天的概率为20%,那么当ϕ(z)>=0.8时,就属于⾬天,⼩于0.8时就属于晴天。
回归算法的概念 -回复
回归算法的概念-回复回归算法的概念及应用回归算法是机器学习中的一种重要技术,它被广泛应用于预测和建模问题。
回归算法的目标是通过已知的自变量数据来预测一个或多个连续的因变量。
一、回归算法的基本概念回归分析是统计学中的一种方法,用于探究因变量Y与一个或多个自变量X之间的关系。
简单线性回归是最常见的回归分析方法之一,它假设因变量与自变量之间的关系可以通过一条直线来描述,即Y=b0+b1X+ε,其中b0和b1是回归系数,ε是误差项。
多元线性回归是简单线性回归的扩展,它可以考虑多个自变量对因变量的影响。
多元线性回归模型可以表示为Y=b0+b1X1+b2X2+...+bnXn+ε,其中Xi表示第i个自变量,bi表示回归系数。
除了线性回归,还有许多其他类型的回归算法,如多项式回归、岭回归、Lasso回归、逻辑回归等。
这些回归算法的使用取决于具体的问题和数据特征。
回归算法通过建立一个数学模型来预测因变量,模型的构建过程中需要确定回归系数。
为了得到最佳的回归系数,可以使用最小二乘法等优化算法来估计这些系数。
最小二乘法的目标是最小化实际值与预测值之间的平方差,即误差的平方和。
二、回归算法的应用领域回归算法在各个领域都有广泛的应用,包括经济学、金融学、医学、市场营销等。
下面以其中的几个领域为例探讨回归算法的应用。
1. 经济学和金融学中的应用在经济学和金融学中,回归算法常被用于预测和分析经济和金融数据。
例如,通过回归分析可以研究利率对投资和消费的影响,预测股市指数的走势,评估货币政策的效果等。
回归模型可以帮助经济学家和金融分析师了解各种因素对经济和金融变量的影响,并制定相应的政策和策略。
2. 医学中的应用在医学领域,回归算法可以用来建立与疾病发生和发展相关的预测模型。
例如,通过分析大量的病例数据,可以建立一个回归模型来预测某种疾病的患病率和死亡率。
回归模型可以帮助医生和研究人员了解各种危险因素对疾病发生和发展的影响,并提供依据进行预防和治疗。
回归分析线性回归Logistic回归对数线性模型
逻辑回归的模型为 (P(Y=1) = frac{1}{1+e^{-z}}),其中 (z = beta_0 + beta_1X_1 + beta_2X_2 + ... + beta_nX_n)。
逻辑斯蒂函数
பைடு நூலகம்
定义
逻辑斯蒂函数是逻辑回归模型中用来描述自变量与因变量之 间关系的函数,其形式为 (f(x) = frac{1}{1+e^{-x}})。
。
在样本量较小的情况下, logistic回归的预测精度可能高 于线性回归。
线性回归的系数解释较为直观 ,而logistic回归的系数解释相 对较为复杂。
对数线性模型与其他模型的比较
对数线性模型假设因变量和自变量之间存在对 数关系,而其他模型的假设条件各不相同。
对数线性模型的解释性较强,可以用于探索自变量之 间的交互作用和效应大小。
THANKS
感谢您的观看
预测市场细分中的消费者行为等。
对数线性模型还可以用于探索性数据分析,以发现数 据中的模式和关联。
Part
04
比较与选择
线性回归与logistic回归的比较
线性回归适用于因变量和自变 量之间存在线性关系的场景, 而logistic回归适用于因变量为
二分类或多分类的场景。
线性回归的假设条件较为严格 ,要求因变量和自变量之间存 在严格的线性关系,而logistic 回归的假设条件相对较为宽松
最小二乘法
最小二乘法是一种数学优化技术,用于最小化预测值与实际观测值之间的平方误差总和。
通过最小二乘法,可以估计回归系数,使得预测值与实际观测值之间的差距最小化。
最小二乘法的数学公式为:最小化 Σ(Yi - (β0 + β1X1i + β2X2i + ...))^2,其中Yi是实际观 测值,X1i, X2i, ...是自变量的观测值。
logistic回归与多元线性回归区别及若干问题讨论
logistic回归与多元线性回归区别及若干问题讨论logistic回归与多元线性回归区别及若干问题讨论1多重线性回归(MultipleLinearRegression)Logistic回归(LogisticRegression)概念多重线性回归模型可视为简单直线模型的直接推广,具有两个及两个以上自变量的线性模型即为多重线性回归模型。
属于概率型非线性回归,是研究二分类(可扩展到多分类)观察结果与一些影响因素之间关系的一种多变量分析方法。
变量的特点应变量:1个;数值变量(正态分布)自变量:2个及2个以上;最好是数值变量,也可以是无序分类变量、有序变量。
应变量:1个;二分类变量(二项分布)、无序/有序多分类变量自变量:2个及2个以上;数值变量、二分类变量、无序/有序多分类变量总体回归模型LogitP=(样本)偏回归系数含义表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一个自变量变化一个单位时引起因变量Y变化的平均大小。
表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值(logitP的平均变化量),即lnOR。
适用条件LINE:1、L:线性——自变量X与应变量Y之间存在线性关系;2、I:独立性——Y 值相互独立,在模型中则要求残差相互独立,不存在自相关;3、N:正态性——随机误差(即残差)e服从均值为零,方差为2的正态分布;4、E:等方差——对于所有的自变量X,残差e的方差齐。
观察对象(case)之间相互独立;若有数值变量,应接近正态分布(不能严重偏离正态分布);二分类变量服从二项分布;要有足够的样本量;LogitP与自变量呈线性关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对线性回归、逻辑回归、各种回归的概念学习回归问题的条件/前提:1)收集的数据2)假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。
然后利用这个模型去预测/分类新的数据。
1. 线性回归假设特征和结果都满足线性。
即不大于一次方。
这个是针对收集的数据而言。
收集的数据中,每一个分量,就可以看做一个特征数据。
每个特征至少对应一个未知的参数。
这样就形成了一个线性模型函数,向量表示形式:这个就是一个组合问题,已知一些数据,如何求里面的未知参数,给出一个最优解。
一个线性矩阵方程,直接求解,很可能无法直接求解。
有唯一解的数据集,微乎其微。
基本上都是解不存在的超定方程组。
因此,需要退一步,将参数求解问题,转化为求最小误差问题,求出一个最接近的解,这就是一个松弛求解。
求一个最接近解,直观上,就能想到,误差最小的表达形式。
仍然是一个含未知参数的线性模型,一堆观测数据,其模型与数据的误差最小的形式,模型与数据差的平方和最小:这就是损失函数的来源。
接下来,就是求解这个函数的方法,有最小二乘法,梯度下降法。
/wiki/%E7%BA%BF%E6%80%A7%E6%96%B9%E7%A8%8B%E7%BB%84最小二乘法是一个直接的数学求解公式,不过它要求X是列满秩的,梯度下降法分别有梯度下降法,批梯度下降法,增量梯度下降。
本质上,都是偏导数,步长/最佳学习率,更新,收敛的问题。
这个算法只是最优化原理中的一个普通的方法,可以结合最优化原理来学,就容易理解了。
2. 逻辑回归逻辑回归与线性回归的联系、异同?逻辑回归的模型是一个非线性模型,sigmoid函数,又称逻辑回归函数。
但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。
可以说,逻辑回归,都是以线性回归为理论支持的。
只不过,线性模型,无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。
另外它的推导含义:仍然与线性回归的最大似然估计推导相同,最大似然函数连续积(这里的分布,可以使伯努利分布,或泊松分布等其他分布形式),求导,得损失函数。
逻辑回归函数表现了0,1分类的形式。
应用举例:是否垃圾分类?是否肿瘤、癌症诊断?是否金融欺诈?3. 一般线性回归线性回归是以高斯分布为误差分析模型;逻辑回归采用的是伯努利分布分析误差。
而高斯分布、伯努利分布、贝塔分布、迪特里特分布,都属于指数分布。
而一般线性回归,在x条件下,y的概率分布p(y|x) 就是指指数分布.经历最大似然估计的推导,就能导出一般线性回归的误差分析模型(最小化误差模型)。
softmax回归就是一般线性回归的一个例子。
有监督学习回归,针对多类问题(逻辑回归,解决的是二类划分问题),如数字字符的分类问题,0-9,10个数字,y值有10个可能性。
而这种可能的分布,是一种指数分布。
而且所有可能的和为1,则对于一个输入的结果,其结果可表示为:参数是一个k维的向量。
而代价函数:是逻辑回归代价函数的推广。
而对于softmax的求解,没有闭式解法(高阶多项方程组求解),仍用梯度下降法,或L-BFGS求解。
当k=2时,softmax退化为逻辑回归,这也能反映softmax回归是逻辑回归的推广。
线性回归,逻辑回归,softmax回归三者联系,需要反复回味,想的多了,理解就能深入了。
4. 拟合:拟合模型/函数由测量的数据,估计一个假定的模型/函数。
如何拟合,拟合的模型是否合适?可分为以下三类合适拟合欠拟合过拟合看过一篇文章(附录)的图示,理解起来很不错:欠拟合:合适的拟合过拟合过拟合的问题如何解决?问题起源?模型太复杂,参数过多,特征数目过多。
方法:1)减少特征的数量,有人工选择,或者采用模型选择算法.cnblogs./heaad/archive/2011/01/02/1924088.html (特征选择算法的综述)2)正则化,即保留所有特征,但降低参数的值的影响。
正则化的优点是,特征很多时,每个特征都会有一个合适的影响因子。
5. 概率解释:线性回归中为什么选用平方和作为误差函数?假设模型结果与测量值误差满足,均值为0的高斯分布,即正态分布。
这个假设是靠谱的,符合一般客观统计规律。
数据x与y的条件概率:若使模型与测量数据最接近,那么其概率积就最大。
概率积,就是概率密度函数的连续积,这样,就形成了一个最大似然函数估计。
对最大似然函数估计进行推导,就得出了求导后结果:平方和最小公式6. 参数估计与数据的关系拟合关系7. 错误函数/代价函数/损失函数:线性回归中采用平方和的形式,一般都是由模型条件概率的最大似然函数概率积最大值,求导,推导出来的。
统计学中,损失函数一般有以下几种:1)0-1损失函数L(Y,f(X))={1,0,Y≠f(X)Y=f(X)2)平方损失函数L(Y,f(X))=(Y−f(X))23)绝对损失函数L(Y,f(X))=|Y−f(X)|4)对数损失函数L(Y,P(Y|X))=−logP(Y|X)损失函数越小,模型就越好,而且损失函数尽量是一个凸函数,便于收敛计算。
线性回归,采用的是平方损失函数。
而逻辑回归采用的是对数损失函数。
这些仅仅是一些结果,没有推导。
8. 正则化:为防止过度拟合的模型出现(过于复杂的模型),在损失函数里增加一个每个特征的惩罚因子。
这个就是正则化。
如正则化的线性回归的损失函数:lambda就是惩罚因子。
正则化是模型处理的典型方法。
也是结构风险最小的策略。
在经验风险(误差平方和)的基础上,增加一个惩罚项/正则化项。
线性回归的解,也从θ=(X T X)−1X T y转化为括号的矩阵,即使在样本数小于特征数的情况下,也是可逆的。
逻辑回归的正则化:从贝叶斯估计来看,正则化项对应模型的先验概率,复杂模型有较大先验概率,简单模型具有较小先验概率。
这个里面又有几个概念。
什么是结构风险最小化?先验概率?模型简单与否与先验概率的关系?经验风险、期望风险、经验损失、结构风险期望风险(真实风险),可理解为模型函数固定时,数据平均的损失程度,或“平均”犯错误的程度。
期望风险是依赖损失函数和概率分布的。
只有样本,是无法计算期望风险的。
所以,采用经验风险,对期望风险进行估计,并设计学习算法,使其最小化。
即经验风险最小化(Empirical Risk Minimization)ERM,而经验风险是用损失函数来评估的、计算的。
对于分类问题,经验风险,就训练样本错误率。
对于函数逼近,拟合问题,经验风险,就平方训练误差。
对于概率密度估计问题,ERM,就是最大似然估计法。
而经验风险最小,并不一定就是期望风险最小,无理论依据。
只有样本无限大时,经验风险就逼近了期望风险。
如何解决这个问题?统计学习理论SLT,支持向量机SVM就是专门解决这个问题的。
有限样本条件下,学习出一个较好的模型。
由于有限样本下,经验风险Remp[f]无法近似期望风险R[f] 。
因此,统计学习理论给出了二者之间的关系:R[f] <= ( Remp[f] + e )而右端的表达形式就是结构风险,是期望风险的上界。
而e = g(h/n)是置信区间,是VC维h的增函数,也是样本数n的减函数。
VC维的定义在SVM,SLT中有详细介绍。
e依赖h和n,若使期望风险最小,只需关心其上界最小,即e 最小化。
所以,需要选择合适的h和n。
这就是结构风险最小化Structure Risk Minimization,SRM. SVM就是SRM的近似实现,SVM中的概念另有一大筐。
就此打住。
1数,2数的物理意义:数,能将一个事物,映射到非负实数,且满足非负性,齐次性,三角不等式。
是一个具有“长度”概念的函数。
1数为什么能得到稀疏解?压缩感知理论,求解与重构,求解一个L1数正则化的最小二乘问题。
其解正是欠定线性系统的解。
2数为什么能得到最大间隔解?2数代表能量的度量单位,用来重构误差。
以上几个概念理解需要补充。
9. 最小描述长度准则:即一组实例数据,存储时,利用一模型,编码压缩。
模型长度,加上压缩后长度,即为该数据的总的描述长度。
最小描述长度准则,就是选择总的描述长度最小的模型。
最小描述长度MDL准则,一个重要特性就是避免过度拟合现象。
如利用贝叶斯网络,压缩数据,一方面,模型自身描述长度随模型复杂度的增加而增加;另一方面,对数据集描述的长度随模型复杂度的增加而下降。
因此,贝叶斯网络的MD L总是力求在模型精度和模型复杂度之间找到平衡。
当模型过于复杂时,最小描述长度准则就会其作用,限制复杂程度。
奥卡姆剃刀原则:如果你有两个原理,它们都能解释观测到的事实,那么你应该使用简单的那个,直到发现更多的证据。
万事万物应该尽量简单,而不是更简单。
11. 凸松弛技术:将组合优化问题,转化为易于求解极值点的凸优化技术。
凸函数/代价函数的推导,最大似然估计法。
12. 牛顿法求解最大似然估计前提条件:求导迭代,似然函数可导,且二阶可导。
迭代公式:若是向量形式,H就是n*n 的hessian矩阵了。
特征:当靠近极值点时,牛顿法能快速收敛,而在远离极值点的地方,牛顿法可能不收敛。
这个的推导?这点是与梯度下降法的收敛特征是相反的。
线性与非线性:线性,一次函数;非线性,输入、输出不成正比,非一次函数。
线性的局限性:xor问题。
线性不可分,形式:x 00 x而线性可分,是只用一个线性函数,将数据分类。
线性函数,直线。
线性无关:各个独立的特征,独立的分量,无法由其他分量或特征线性表示。
核函数的物理意义:映射到高维,使其变得线性可分。
什么是高维?如一个一维数据特征x,转换为(x,x^2, x^3),就成为了一个三维特征,且线性无关。
一个一维特征线性不可分的特征,在高维,就可能线性可分了。
逻辑回归logicalistic regression 本质上仍为线性回归,为什么被单独列为一类?其存在一个非线性的映射关系,处理的一般是二元结构的0,1问题,是线性回归的扩展,应用广泛,被单独列为一类。
而且如果直接应用线性回归来拟合逻辑回归数据,就会形成很多局部最小值。
是一个非凸集,而线性回归损失函数是一个凸函数,即最小极值点,即是全局极小点。
模型不符。
若采用逻辑回归的损失函数,损失函数就能形成一个凸函数。
多项式样条函数拟合多项式拟合,模型是一个多项式形式;样条函数,模型不仅连续,而且在边界处,高阶导数也是连续的。
好处:是一条光滑的曲线,能避免边界出现震荡的形式出现(龙格线性)baike.baidu./view/301735.htm以下是几个需慢慢深入理解的概念:无结构化预测模型结构化预测模型什么是结构化问题?adaboost,svm,lr 三个算法的关系。
三种算法的分布对应exponential loss(指数损失函数),hinge loss,log loss(对数损失函数),无本质区别。