徐--稀疏最优化非凸正则化_理论
稀疏优化问题算法研究

稀疏优化问题算法研究作者:李蒙来源:《当代人(下半月)》2018年第03期摘要:稀疏优化问题发展至今,已经广泛应用于压缩感知、图像处理、复杂网络、指数追踪、变量选择等领域,并取得了令人瞩目的成就。
稀疏优化问题的求解算法种类繁多,根据算法设计原理的不同,可将其大致分为三类:贪婪算法、凸松弛方法和阈值类算法。
本文主要介绍稀疏优化问题算法研究进展及各类算法的优缺点。
关键词:稀疏优化问题;压缩感知;信号重构;优化算法随着当代社会信息技术的飞速发展,所获取和需要处理的数据量大幅增多,而基于传统的香农奈奎斯特采样定理中要求采样频率不得低于信号最高频率的两倍才可以精确重构信号。
2006年,Donoho、Candes等人针对稀疏信号或可稀疏表示的信号提出了新的采集和编解码理论,即压缩感知理论。
该理论使得通过少量采样即可准确或近似重构原始信号。
信号重构问题是一个非凸稀疏优化问题(问题)。
该问题是一个NP-hard问题,所以出现了多种不同的处理模型近似地或在一定条件下等价地求解问题。
以下就从压缩感知的信号重构理论出发,分析研究稀疏优化问题的模型和求解算法。
一、压缩感知重构问题在压缩感知理论中,若信号本身是稀疏的,则原始信号和观测信号之间的表达式为:;若信号本身不是稀疏的,但在基底下具有稀疏表示,即,其中是一个稀疏向量,则原始信号和观测信号之间的表达式为:,此时,重构原始信号只需要得到满足该等式约束的稀疏解,便可通过得到原始信号,其中为测量矩阵,为变换矩阵,为感知矩阵。
在压缩感知理论中,感知矩阵是一个很重要的组成部分,感知矩阵的好坏会直接影响原始信号的重构质量。
压缩感知理论中的稀疏信号重构问题旨在通过低维观测数据最大程度恢复出原始的高维信号,其本质为求一个欠定方程组的稀疏解,即(1)压缩感知的重构问题也可通过下述模型来求解:(2)Donoho和Chen证明了当观测矩阵和变换矩阵不相关时,(1)和(2)的解等价,并将(2)称为基追踪(Basis Pursuit,BP)问题。
周期簇稀疏特征提取方法及其在机械故障诊断中的应用研究

AbstrAct
上银
优秀机械博士论
文奖
论文名称:周期簇稀疏特征提取方法及其在机械故障诊断中的 应用研究
论文作者:西安交通大学 / 贺王鹏 指导教师:訾艳阳《研究领域:机械设备状态监测与故障诊断、复合材料健
康监测、装备可靠性分析与寿命预测、柔性传感器设计》、Ivan W. Selesnick《研究领域:稀疏信号处理、小波变换、图像和视频处理、 医学信号处理》
法鲁棒性强,在有限先验知识下从复杂干扰背景下检
测出微弱故障信息。
(3)提出了机械故障诊断的时频域周期重叠簇 稀疏(TFPOGS)特征提取算法。TFPOGS方法通过 求解所构造的非凸正则优化模型来获取稀疏的时频系
数。开发了分离增广的拉格朗日优控替代极小化法
(SALMA)用于所构造的非凸稀疏优化问题的求解, 并证明了SALMA收敛的定理。所提出的TFPOGS法在 某增速齿轮箱结构碰摩故障诊断中取得较好效果。
(2)提出了周期重叠簇稀疏信号优化特征提取 算法(POGS)。针对机械故障诊断周期性特征提取 问题构造了有效的稀疏优化目标函数,利用非凸正则 项增强稀疏特征提取效果引入优控极小化方法求解所构造的目标
函数,并提出了高效的迭代收敛数值算法,且该求解
算法最终收敛于全局最优解。故障诊断实践证明该方
针对近年来机械故障诊断对于微弱故障特征稀 疏性表征的迫切需求,本论文将不同观测域下的稀疏 成分表示和分离作为切入点,研究了小波展开域上的 柔性超小波自动诊断技术,探索了旋转机械周期簇稀 疏特征提取的非凸稀疏正则优化理论、复合故障耦合 特征的稀疏成分同步分离算法等关键科学问题和工程 实用技术。特别地,独立于经典内积匹配原理,本论 文提出了非凸精细正则化及总体凸优化的原创性诊断 理论。研究取得的主要创新成果如下:
浅析稀疏优化在机器学习中的应用

浅析稀疏优化在机器学习中的应用随着机器学习技术的不断发展,稀疏优化在机器学习中的应用变得越来越重要。
稀疏优化是指在优化问题中尽可能使解向量的元素为零,或者接近于零。
在机器学习中,稀疏优化技术可以帮助我们减少特征数量,降低模型的复杂度,提高模型的泛化能力,从而更好地应对现实世界的复杂问题。
本文将对稀疏优化在机器学习中的应用进行浅析,介绍其原理、方法和具体应用场景。
一、稀疏优化的原理在机器学习中,稀疏优化的目标是找到一个稀疏解向量,即大部分元素为零或者接近于零。
稀疏优化的原理主要包括以下几点:1. 数据表示稀疏性:大部分真实世界的数据都具有一定的稀疏性,即大部分特征的取值为零或者接近于零。
在文本分类任务中,一个文档可能包含成千上万的单词,但是其中只有很少一部分单词对文档的主题分类起到关键作用。
2. 模型简化:稀疏优化可以帮助我们简化模型,降低模型的复杂度。
通过将不相关的特征的权重设置为零,可以使模型更易于解释,提高模型的可解释性。
3. 降噪:稀疏优化也可以帮助我们消除噪声特征的影响,提高模型的鲁棒性和泛化能力。
稀疏优化的方法主要包括以下几种:1. L1正则化:L1正则化是最常用的稀疏优化方法之一。
它通过在目标函数中加入L1范数惩罚项来实现稀疏化。
具体来说,对于目标函数 f(x) 和参数向量 x,L1正则化的目标函数可以表示为:minimize f(x) + λ||x||1||x||1表示参数向量 x 的L1范数,λ是正则化系数。
2. L0正则化:L0正则化是另一种常用的稀疏优化方法,它通过在目标函数中加入L0范数惩罚项来实现稀疏化。
由于L0范数不可导,L0正则化通常被替换为非凸可微的函数来实现。
3. 基于投影的方法:基于投影的方法是一类直接将参数向量投影到稀疏空间的方法。
通过在优化过程中对参数向量施加适当的投影操作,可以实现参数向量的稀疏化。
4. 基于启发式的方法:基于启发式的方法主要是一些启发式算法,如前向选择、后向删除等,通过一些启发式规则逐步调整参数向量,使之变得更加稀疏。
非凸优化问题的优化算法改进研究

非凸优化问题的优化算法改进研究第一章引言1.1 研究背景与意义非凸优化问题是现实生活中广泛存在的一类最优化问题,其求解具有重要的理论意义和实际应用价值。
然而,与凸优化问题不同,非凸优化问题的解空间往往包含多个局部极小值点,使得求解非凸优化问题具有更高的难度。
为了解决这一难题,研究者们通过改进优化算法来提高非凸优化问题的求解效果,进一步推动了非凸优化问题的研究和应用。
1.2 研究现状目前,对于非凸优化问题的研究主要集中在改进优化算法的设计和分析上。
例如,传统的梯度下降法在求解非凸优化问题时常受困于局部极小值点,无法找到全局最优解。
因此,研究者们提出了许多改进的算法,如牛顿法、拟牛顿法、共轭梯度法等,以提高非凸问题的求解效果。
然而,这些改进算法在某些情况下仍然存在收敛不稳定、高计算复杂度等问题,需要进一步改进。
第二章基于梯度下降法的优化算法改进2.1 动量梯度下降法梯度下降法是一种常用的优化算法,但在求解非凸问题时容易陷入局部最小值。
为了克服这一问题,研究者们提出了动量梯度下降法。
该方法通过引入动量项,使得梯度更新具有一定的惯性,能够跳出局部最小值点,寻找更好的解。
实验证明,动量梯度下降法能够显著提高非凸问题的求解效果。
2.2 自适应学习率的梯度下降法学习率是梯度下降法中的重要参数,决定了每次迭代更新的步长。
然而,传统的梯度下降法中通常需要手动设置学习率,导致求解过程不稳定。
为了解决这一问题,研究者们提出了自适应学习率的梯度下降法。
该方法通过自动调整学习率,根据当前迭代过程中梯度的大小来确定更新步长。
实验证明,自适应学习率的梯度下降法能够加快收敛速度,提高求解效果。
2.3 随机梯度下降法与批次梯度下降法的结合随机梯度下降法是一种通过随机选择部分样本进行更新的方法,具有较快的收敛速度。
然而,由于其每次只利用一部分样本进行更新,容易陷入局部最小值。
为了充分利用全部样本的信息,研究者们将随机梯度下降法与批次梯度下降法相结合。
凸优化理论与应用_凸集

03
凸优化问题建模与求解
凸优化问题定义及示例
凸优化问题定义
凸优化问题是一类特殊的数学优化问题,其目标函数是凸函数,约束条件为凸集。凸函数在数学上具有很好的性 质,如局部最优解即为全局最优解,这使得凸优化问题的求解相对简单。
凸优化问题示例
支持向量机(SVM)、线性回归、逻辑回归、最小二乘法等机器学习算法中的优化问题都可以转化为凸优化问题 进行求解。
凸函数与凹函数关系
凹函数定义
凹函数与凸函数相反,满足f(λx1+(1-λ)x2)≥λf(x1)+(1-λ)f(x2)。
凸凹性转换
通过取负操作,可以将凸函数转换为凹函数,反之亦然。即,如果f是凸函数,则-f是凹函数;如果f是凹函数,则-f 是凸函数。
凸凹组合
凸函数和凹函数的线性组合可能既不是凸函数也不是凹函数,但可以通过一定的条件判断其凸凹性。
01
03
02 04
多面体与单纯形
多面体是由有限个线性不等式定 义的集合,即{x | Ax ≤ b}。单纯 形是一种特殊的多面体,每个顶 点都是其他顶点的邻居。
锥与凸锥
锥是由原点出发的射线组成的集 合。如果锥还是凸集,则称为凸 锥。
02
凸函数及其性质
凸函数定义及示例
凸函数定义
在数学中,一个函数被称为凸函数,如果对于该函数定义域内的任意两个点x1 和x2,以及任意实数λ∈[0,1],都有f(λx1+(1-λ)x2)≤λf(x1)+(1-λ)f(x2)成立。
稀疏表示与重构
在压缩感知中,利用凸 集理论对信号进行稀疏 表示,并通过求解凸优 化问题实现信号的重构 。
噪声鲁棒性
针对压缩感知中的噪声 问题,利用凸集理论构 建鲁棒性优化模型,提 高信号恢复的精度和稳 定性。
基于非凸稀疏域约束条件的Tikhonov正则化方法

基于非凸稀疏域约束条件的Tikhonov 正则化方法摘要本文给出了一个奇特的正则化方法的理论分析用来解决(非线性)反问题,从而将正则化方法推广到稀疏域上。
我们考察特定的Tikhonov 正则化方法的稳定性和收敛性。
我们将这种正则化方法用于传统的连续的pl 空间,由于这是稀疏域上的正则化方法,所以我们将p 限定于0到1之间。
当1<p 时三角不等式不再成立并且我们会得到一个带有非凸限制条件的伪Banach 空间。
我们将要证明在传统的环境下最小值的存在性,稳定性和连续性。
除此之外,我们还将给出在各自的传统假设下拓扑Hilbert 空间下的收敛速度。
1.介绍本文是关于在稀疏域条件下正则化方法的理论分析。
我们将这种方法不妨设在 p l ))1,0((∈p 空间上并且是非线性的算子。
我们证明了Tikhonov 正则化方法的解的存在性,解得稳定性,对数据扰动解的收敛性。
除此之外,我们还将给出在各自的传统假设下拓扑Hilbert 空间下的收敛速度。
稀疏域上的反问题。
我们有等式y x F =)( )1( 这里F 是一个非线性算子。
为此我们将该式用Tikhonov 方法表示,求该等式的最小值 ),()(2x y x F αψ+- )2( 除了传统的正则化项)(x ψ,如2L 范数,全部变量或者是最大正则化熵等方法,还有一个具有潜质的新奇的稀疏域上的正则化方法.普遍的选择设置都是基础上的延拓,例如小波扩张,傅里叶分解活着各种结构的扩张,典型地这些扩张被用于图像或者频率数据,因此本文所涉及的扩张系数通常指的是稀疏域的扩张。
它可应用于各种潜在的应用。
比如,X 线断层摄影术(CT ,SPECT ,PET )。
这些通常的医学成像技术正是传统的反问题同时又可以通过积分算子来得出Radon 变换的具体形式。
这种图像重构的方法是通过基扩展来实现的,如小波和像素基,参考文献【5,6】,一个适用用的正则化方法都是引进适当的惩罚项)(x ψ,如1l 范数:∑=k k xx )(ψ, )3(这里的k 能够预示小波级数的系数。
稀疏子空间聚类算法

稀疏子空间聚类算法与模型建立稀疏子空间聚类是一种基于谱聚类的子空间聚类方法,基本思想:假设高位空间中的数据本质上属于低维子空间,能够在低维子空间中进行线性表示,能够揭示数据所在的本质子空间, 有利于数据聚类.基本方法是, 对给定的一组数据建立子空间表示模型,寻找数据在低维子空间中的表示系数, 然后根据表示系数矩阵构造相似度矩阵, 最后利用谱聚类方法如规范化割(Normalized cut, Ncut)[22] 获得数据的聚类结果。
基本原理稀疏子空间聚类[32] 的基本思想是: 将数据 αS x i ∈表示为所有其他数据的线性组合, j ij ij i x Z x ∑≠= (1)并对表示系数施加一定的约束使得在一定条件下对所有的αS x j ∉, 对应的0=ij Z 。
将所有数据及其表示系数按一定方式排成矩阵 ,则式(1)等价于 XZ X = (2)且系数矩阵N N R Z ⨯∈ 满足: 当i x 和j x 属于不同的子空间时, 有0=ij Z . 不同于用一组基或字典表示数据, 式(2)用数据集本身表示数据, 称为数据的自表示. 若已知数据的子空间结构, 并将数据按类别逐列排放, 则在一定条件下可使系数矩阵Z 具有块对角结构, 即⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=k Z Z Z Z 00000021 (3) 这里),,1(k Z =αα 表示子空间αS 中数据的表示系数矩阵; 反之, 若Z 具有块对角结构, 这种结构揭示了数据的子空间结构. 稀疏子空间聚类就是通过对系数矩阵Z 采用不同的稀疏约束, 使其尽可能具有理想结构, 从而实现子空间聚类.Elhamifar 等[32] 基于一维稀疏性提出了稀疏子空间聚类(Sparse subspace clustering,SSC) 方法, 其子空间表示模型为1min Z Z 0,..==ii Z XZ X t s (4)该模型利用稀疏表示(SR) 迫使每个数据仅用同一子空间中其他数据的线性组合来表示. 在数据所属的子空间相互独立的情况下, 模型(4) 的解Z 具有块对角结构, 这种结构揭示了数据的子空间属性: 块的个数代表子空间个数, 每个块的大小代表对应子空间的维数, 同一个块的数据属于同一子空间. 注意, 模型中的约束0=ii Z 是为了避免平凡解, 即每个数据仅用它自己表示, 从而Z 为单位矩阵的情形. 稀疏子空间聚类综述 王卫卫1 李小平1 冯象初1 王斯琪132 Elhamifar E, Vidal R. Sparse subspace clustering. In: Pro-ceedings of the 2009 IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition (CVPR).Miami, FL, USA: IEEE, 2009. 2790¡2797稀疏最优化模型位于线性或仿射子空间集合的高维数据可以稀疏地被同一个子空间的点线性或者仿射表示。
深度学习中的非凸优化问题研究

深度学习中的非凸优化问题研究深度学习是一种基于神经网络的机器学习方法,广泛应用于图像识别、语音识别、自然语言处理等领域。
然而,深度学习的成功离不开优化算法的支持。
在深度学习中,优化算法用于训练神经网络的参数,以最小化损失函数。
然而,传统的优化算法在处理深度学习中的非凸优化问题时存在一些挑战。
本文将探讨深度学习中非凸优化问题的研究进展。
首先,我们需要了解什么是非凸优化问题。
在数学中,凸函数是一种具有特殊性质的函数。
具体来说,对于一个函数f(x),如果对任意两个点x1和x2以及任意一个介于0和1之间的数t都有f(tx1 + (1-t)x2) <= tf(x1) + (1-t)f(x2),那么这个函数就是凸函数。
如果一个问题可以被表示为最小化一个凸函数,则这个问题就是一个凸优化问题。
然而,在深度学习中,我们通常需要最小化非凸损失函数来训练神经网络。
这是因为神经网络通常具有多个隐藏层和大量参数,在这种情况下很难找到一个凸函数来准确地描述网络的行为。
因此,深度学习中的优化问题通常是非凸优化问题。
非凸优化问题的一个主要挑战是局部最小值。
在非凸函数中,存在多个局部最小值,而我们通常希望找到全局最小值。
然而,传统的优化算法如梯度下降法容易陷入局部最小值,从而导致模型性能下降。
为了克服这个问题,研究者们提出了许多改进算法。
一种常用的改进算法是随机梯度下降法(SGD)。
SGD通过随机选择一小批训练样本来估计梯度,并更新网络参数。
这种随机性可以帮助我们跳出局部极小值,并更好地探索参数空间。
然而,SGD也存在一些缺点,如学习率选择困难和收敛速度慢等。
为了改进SGD算法,在深度学习中引入了自适应学习率方法。
自适应学习率方法根据参数更新情况自动调整学习率大小,并根据每个参数的历史梯度信息来调整方向和步长。
这些方法包括Adagrad、Adadelta、RMSprop等。
这些方法在一定程度上改善了SGD的性能,但仍然存在一些问题,如学习率衰减过快和参数更新不稳定等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中 | x |[ k ] 表示向量 | x | 的第 k 个最大分量 (ML)1/2 问题的解是有限的
L1/2正则化框架 (Half型算法)
Half
程求解问题的k -稀疏解:
步骤1(求解k稀疏问题):对于确定的稀疏度k,通过下述迭代过
型 算 法
= xn +1 H λn µn ,1/2 Bµn ( xn ) ,
z
2
x = arg min{ y − Ax 2 + β z − Bx 2 } = ( AT A + β BT B) −1 ( AT y + β BT z )
∗ x
2
2
L1/2正则化框架 (解的择一性理论)
定 理
对固定的 µ ∈ (0,1/ L) ,记 Bµ ( x) = x − µ∇Eemp ( x)。则 (ML)1/2 问题
y
min
x
x
0
s.t. y = Ax + ε
人脸识别问题
稀疏性 (稀疏性问题)
稀疏性问题:一个与大量疑似要素相关但本质上仅由少量要素决定的问题。
y F ( x1 , x2 , ..., xn )
压缩感知问题 图像处理问题 文本处理问题 复杂网络问题 基因选择问题 指数追踪问题 变量选择问题
挑战与问题
只在很严格的条件下才有L1/L0 等价性(Donoho,2006); L1框架不能保证在最少采样下完全重构信号; L1理论对于正规化约束( x1 + x2 + + xn = 1)问题失效.
纲
要
稀疏性与稀疏机器学习问题 L1/2 正则化理论 应用举例 非凸正则化理论 展望
稀疏最优化:非凸正则化理论
徐宗本 西安交通大学数学与统计学院 信息与系统科学研究所 2012.4.20
纲
要
稀疏性与稀疏机器学习问题 L1/2 正则化理论 应用举例 非凸正则化理论 展望
稀疏性 (表示稀疏性)
稀疏性(Sparsity):信息表示的普遍属性 (在所选定的参考基底 (基、字 典)下, 一个表示所呈现出的多数系数(坐标)近似为零的特征)。
线性问题
稀疏表示问题
min x
A, x
0
s.t.= y Ax + N
压缩感知问题 min y − Ax 2 s.t. x 0 ≤ k
x
min {|| y − Ax ||2 2 +λ x
x
0
}
(正则化框架)
稀疏机器学习(流行框架)
L0框架
min {|| y − Ax ||2 2 +λ x
x 0
变换域下稀疏约束问题求解方法
1/2 min y − Ax + λ || Bx || 1/2 2 x∈R N z = Bx
2 2
{
2
}
2 2
x , z∈R
minN
{ y − Ax
+ λ || z ||
1/2 1/2
+ β z − Ax
}
L1/2正则化框架 (解的阈值表示理论)
意义和价值:提供了求解变换域下稀疏约束问题的全新手段。
(Olshausen & Field, Nature , 1996)
min E = ∑ [ I ( x , y ) − ∑ aiφi ( x , y )]2 + λ ∑ S (
a ,φ
外界信息
xy
i
i
σ
ai
)
视觉皮层
稀疏机器学习
器 学 f* = 习 机 D {( xi , yi )} ; f ∈ Ψ; lD : Ψ → R =
x si i
i 1 N
x si i , V={i : si }, | V | N
iV
y = F ( x1 , x2 , xN )
稀疏性 (表示稀疏性举例)
y = Ax; A = [ A1 , A2 ,..., Ak ]; Ai = [v1 , v2 ,..., v N i ]; y ∈ i − th class ⇔ x = [0, ,0, xi ,1 ,, xi , N i ,0,,0]
x* = arg min { f (x)+g(x) } = proxµλ , f ( x* − µ∇g ( x* ) )
1 2 此处 proxλµ , f : x → arg λµ f ( y ) + || x − y || 2 y
x
……
自然产生求解稀疏机器学习问题的迭代阈值算法:
}
L1范数是L0范数的凸包络
(S.Mallat (1993), J.A.Tropp & D.Needell (2007,2009)等)
L1框架
min {|| y − Ax ||2 2 + λ x 1}
x
(Donoho(1994, 2006), R.Tibshirani (1996), Candes, Tao & Romberg (2006)等)
L1/2正则化框架 (Half型算法收敛性)
定 理
如果 (ML)1/2 问题中的损失函 数α-Lipschitz 连续, µ<
定 理
1
L1/2正则子具有良好的Oracle统 计性质,即有无偏性、渐近正态 性且满足Oracle不等式:
α
则 Half 型算法收敛到(ML)1/2 问题的一个 k-稀疏解当且仅 当
L1/2正则化框架 (稀疏性度量选取原则)
什么样的稀疏性度量更可取?
什么样的稀疏 度量更好呢?
∂s / ∂xi
在零处突变 (稀疏性来源)
∂s ( x) 对角非线性(对大规模问题可用)
使相应的稀疏机器学习问题容易求解 (有解析表达) 使得问题的解依赖更少的样本信息(实现压缩感知目标)
特别建议:
min { y − Ax 2 + λ x 1/2 }
x
2
1/2
x :真实稀疏信号 k|x* |i:绝对值的第个最大分量 x* i ˆˆ AT ( y − Ax* ), Cε ε ε
∞
*
x*
∞
| x* |i 5 li − p ( ) ,i = 1, , k − 1.则至多经过 < | x* |i +1 2 Half t = k + ∑ li 步,算法可精确恢复的支撑 x*
P i =1 1
数据建模
1 p = arg min Eemp ( f ) l ( f , xi , yi ) ∑ f ∈F p i =1
x1 xn
黑箱
y1 yn
非线性问题 稀疏机器学习问题:以极小化稀疏性为约束的机器学习问题
* = f sparse arg min { Eemp ( f ) + λ S ( f )} f ∈F
3 54 * 的解 x *满足: 或 xi* = 0 或 > ( ) (λµ ) 2/3 B x µ i
4
意义和价值
择一性直接推出 (ML)1/2 问题的解之稀疏度 k 与正则化参数 λ 的如下
基本关系:
3/2 3/2 96 96 * * Bµ ( x ) ≤λ< Bµ ( x ) [ k + 1] [k ] 9µ 9µ
L1/2正则化框架 (Why1/2 ?)
基于 Banach 几何启示及Lq/L0(0<q<1)的等价性研究(相 位图方法),徐宗本等提出了L1/2正则化框架。
sparsest sufficiently sparse
L(1/ 2)
Banach 几何 示 相位图 研启 究
L( k) sparse
L(1)
µ< 连续导数,
1
α
. 则
表 示 定 理
x* H λµ ,1/2 ( x* − µ∇Eemp ( x* ) ) =
1/ 2
H λµ ,1/ 2 (⋅)=(I+λµ∂ ( ⋅ 1/ 2 )) −1 是对角非线性阈值算子,定义 其中, 如下: H ( x) = h ( x ), , h (x )
λµ ,1/2
(
)
x0 ∈ R N = µ0 ∈ (0,1/ L) µ
λ= n
96 | Bµn ( xn ) |[3/2 k +1] , 9µ
分解成若干个k-稀 疏问题,重复步骤1 ;获得一组 k -稀疏解,比较得出最优解。
步骤2(求问题的最优解):将原问题 (ML)1/2 意义和价值
将通常的正则化参数选择问题(连续问题)划归到了稀疏度指定 问题(离散问题)。这一化简有重要意义。 对于k稀疏问题,给出了最优的正则化参数设置策略;然而很多 学习问题本身就是一个k-稀疏问题。
(
λµ ,1/2
1
λµ ,1/2
N
)
hµλ ,1/2
3 2 2π 2ϕλµ ( xi ) 54(λµ ) 2/3 ) , | xi | > = xi 1 + cos( − 3 3 3 4 0 , Otherwise
L1/2正则化框架 (解的阈值表示理论)
意义和价值:上述理论将经典的
2
L1/2正则化框架 (L0-L1/2等价性)
(P 1/2 ) min‖‖ x 1/2 1/2 s.t . y = Ax
x
x 1/2 1/2
假定,且且满足 µ A ≤ 0.2955k
精确恢复定理
−1
x
*
| x* |i 5 li −5 ( ) , < | x* |i +1 2
* k −1 i =1