稀疏学习优化算法PPT课件

合集下载

稀疏学习优化算法

实验结果 (1)
实验结果 (2)
实验结果 (3)
内容提纲
背景介绍快速信赖域牛顿法鲁棒多任务特征学习多阶段多任务特征学习迭代收缩阈值法快速求解非凸优化问题总结和展望
非凸稀疏学习问题
与可能是非凸的
2.5
2
1.5
1
L1
CapL1
LSP
0.5
MCP
SCAD
0
-10 -8 -6 -4 -2
直观解释二：分块坐标下降
共轭函数：共轭的共轭：
g 是凹的且是闭函数
原优化问题：
等价形式：
分块坐标下降
直观解释二：分块坐标下降
分块坐标下降
加权系数
加权Lasso问题
收敛性分析
极限点存在吗？
有界，所以存在极限点
收敛定理
可再生性分析
加权Lasso 问题：
参数估计误差的界
多任务学习 (MTL)
共享信息
神经网络的隐层单元贝叶斯模型的先验分类权重向量相似度量矩阵低秩的子空间一组特征 ……
多任务学习 (MTL)
Hale Waihona Puke 联合特征多任务学习示意图鲁棒多任务特征学习模型
学习共享特征+发现异常任务
P: 学习共享特征 Q: 发现异常任务 W: 权重矩阵
实验
逻辑回归中的信赖域步长问题：
其中
比较算法
多阶段共轭梯度 (MSCG) 梯度投影 (PG) 加速梯度投影 (APG)
所有的算法均是用 Matlab 来实现，实验是在英特尔四核的处理器 (Intel(R) Core(TM)2 Quad CPU [Q6600 2.4GHz])，8G~内存的个人 PC 机上运行。

快速稀疏优化方法

快速稀疏优化方法快速稀疏优化方法是一种在机器学习中常用的技术，它可以帮助我们处理高维数据，提高算法的效率和准确性。

下面是一份全面详细的方法：1. 理解稀疏性首先，我们需要理解什么是稀疏性。

在机器学习中，我们通常会处理大量的特征数据，这些数据中可能存在许多无用或冗余的信息。

如果我们能够找到这些无用或冗余的特征，并将其剔除掉，就可以减少计算量和存储空间，并提高算法的效率和准确性。

这就是稀疏性。

2. 稀疏优化方法现在我们来介绍一些常用的稀疏优化方法：2.1 L1正则化L1正则化是一种经典的稀疏优化方法。

它通过在损失函数中添加一个L1范数惩罚项来实现特征选择。

具体来说，对于一个线性模型y=w*x+b，其中w为权重向量，x为输入特征向量，b为偏置项，则L1正则化可以表示为：loss = sum(y_true - y_pred)^2 + alpha * sum(|w|)其中alpha为超参数，控制惩罚力度。

当alpha越大时，越多的特征权重会被惩罚为0，从而实现特征选择。

2.2 前向逐步回归前向逐步回归是一种基于贪心算法的稀疏优化方法。

它通过不断地添加特征来逐步构建模型，并在每一步中选择最优的特征。

具体来说，前向逐步回归可以分为以下几个步骤：- 初始化权重w为0- 对于每个特征i，计算其对应的残差r_i = y - w*x_i- 在残差集合中选择一个最小的r_i，并将对应的特征x_i加入到模型中- 重复上述过程，直到达到预设的特征数或者达到一定的阈值2.3 奇异值分解奇异值分解是一种基于矩阵分解的稀疏优化方法。

它通过将原始数据矩阵分解成三个矩阵U、S、V来实现降维和去除冗余信息。

具体来说，奇异值分解可以表示为：X = U * S * V^T其中X为原始数据矩阵，U、S、V分别为左奇异向量、奇异值和右奇异向量。

通过对S进行截断或者设置一个阈值，我们可以去除一些小的奇异值，从而实现降维和去除冗余信息。

3. 总结以上就是常用的稀疏优化方法。

第10讲稀疏优化

第十讲稀疏优化从对书的喜好程度谈起《笑傲江湖》《万历十五年》《人间词话》《云海玉弓缘》《人类的故事》甲5？？32乙？53？5丙53？？？丁3？54？问题:若假设读者喜好评分仅与题材有关,能否将问号的信息恢复出来?模型与基本概念“稀疏优化”中的“稀疏”指的是信号中的绝大多数元素为0“稀疏矩阵优化问题”是指在某种线性约束条件下,求一个使决策变量使其非零元素个数达到最小,它的基本数学模型是其中A ∈Rm×n,b 是一个m 维向量b Ax t s x min (1)..,0=“低秩矩阵补全问题”是指在某种线性约束条件下,求一个决策矩阵使其秩达到极小.它的基本数学模型：其中A 是一个R m×n 到R d 的线性变换, b 是一个d 维向量b X A t s X rank min (2))(..),(=2006年10月Netflix电影公司为了有效发展自己的推荐系统而发起的长达5年的竞赛,要求参赛者根据48万余用户对1万7千部电影的不完全评分记录推测出另外近300万条电影评分记录的数值.任何组织或个人只要能提交比Netflix现有电影推荐系统Cinematch效果好10%的新方法,就可以获得诱人的7位数奖金.不仅如此,每年它还会为此提供5万美元的年度进步奖.如果我们把用户的评分数据看作一个矩阵,矩阵的行表示1万7千部电影,矩阵的列表示不同的用户. 上述NetflixPrize问题用数学语言描述就是,已知矩阵的某些元素来求这个完整矩阵.2009年9月,科研团队BellKor' s Pragmatic Chaos获得此奖,所建立的数学模型就是矩阵秩极小化模型是已知矩阵.ijijMXt sXrank min..)(M一个简单的数独的例子,在格子中的大数字表示已经给出的提示数字,每个格子中的小数字为在加上对每一行每一列每一个九宫格的限制后可选的备选数字提示数[x ij1 x ij2 x ij3 x ij4 x ij5 x ij6 x ij7 x ij8 x ij9] 1[1 0 0 0 0 0 0 0 0]2[0 1 0 0 0 0 0 0 0]3[0 0 1 0 0 0 0 0 0]4[0 0 0 1 0 0 0 0 0]5[0 0 0 0 1 0 0 0 0]6[0 0 0 0 0 1 0 0 0]7[0 0 0 0 0 0 1 0 0]8[0 0 0 0 0 0 0 1 0]9[0 0 0 0 0 0 0 0 1][x ij1 x ij2 x ij3 x ij4 x ij5 x ij6 x ij7 x ij8 x ij9]最大分量未知数[0.1 0.6 0.3 0 0 0 0 0 0]0.62 [0.8 0.1 0.1 0 0 0 0 0 0]0.81 [0.1 0.2 0.3 0.4 0 0 0 0 0]0.44 [0.1 0.1 0.1 0 0.7 0 0 0 0]0.75 [0 0 0 0 0 0.2 0 0.8 0]0.87[0 0 0 0 0 0 0 0 1]19将数独看做一个矩阵后,矩阵是有约束条件的,每一行每一列都只有唯一的1-9,每一个九宫格也是只有唯一的1-9⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=999291292221191211x x x x x x x x x x 将按列展开,即用表示,此时将看做一个列向量x )(x vec x Tx x x x x x x vec ][)(991992129111 =x列约束(以第一列为例):197299999991]000[⨯=x I I I行约束(以第一行为例):1997299729972991]000[⨯⨯⨯⨯=x I I I九宫格约束(以第一个九宫格为例):19549995499995499995499991]000000[⨯⨯⨯⨯=x I I I I I I I I I填充数约束(以第一格子为例):1]0011[7209=x 提示数约束(以第一个格子为1为例):1]001[720181=⨯⨯x“稀疏矩阵优化问题”数学模型bAx t s x min ..0这样我们将所有的约束转化为了一个线性方程组的形式,再根据稀疏优化的意义引入0范数,将解向量的0范数作为目标函数,表示非0元的个数,当0范数最小时，解向量一定是二进制的,转化为以下稀疏矩阵优化模型.松弛凸松弛(L1松弛、核范数松弛)非凸松弛(L1/2松弛、L q范数松弛)稀疏问题(不连续) 连续(非光滑)问题松弛的例子将稀疏优化(非凸、不连续)问题bAx t s xmin =..0由下面的凸优化问题代替bAx t s x min =..1L1松弛的合理性Candes,Romberg,Tao(2006): L1优化和L0优化在一定条件下等价!低秩矩阵优化理论与算法)(∙rank 低秩矩阵优化模型因为函数非凸非光滑,求解通常凸松弛为“核范数”,即矩阵的奇异值之和,即转化为下面这个优化问题ijij M X t s X rank min =..)(ijij M X t s X min =..*凸松弛求解算法◆文再文与印卧涛,Goldfarb和张寅:不动点积极集算法,(软件FPC_ AS下载已经超过2000次).◆马士谦与Goldfarb和Scheinberg:交替线性化方法的迭代复杂度分析(交替方向法的复杂度分析最早和最主要的成果之一).◆何炳生、袁晓明和杨俊锋等:交替方向增广拉格朗日函数法.非凸松弛求解算法◆陈小君、徐凤敏和叶荫宇:非光滑非凸非Lipschitz优化(建立了其局部最小值点的一阶、二阶必要和充分条件,给出了可度量的稳定点定义).◆徐宗本等:L1/2正则理论和方法(在图像处理领域取得了很好的效果).◆陈小君、牛凌峰和袁亚湘:光滑信赖域算法(收敛于非Lipschitz优化二阶稳定点).◆边伟、陈小君和叶荫宇:二阶算法(收敛于非Lipschitz优化二阶稳定点，给出了其最坏复杂性分析).。

稀疏技术

S6. 第三行规格化
6 2 5 6 2 4
6 1 3 / 2 1/ 2 2 1 1 48 1( 1/12 )
最后得到：
1 3 / 2 1/ 2 1 1 1
6 2 4

其中，依次取1/2，3，2/5，5，-23/2，-1/12为运算因子。由后向前取虚线上三角中元素进行回代运算
三角检索存储格式示例
a11 a12 a a 21 22 A a42
a23 a33 a43
a14 a44
a12
a14
a23

U—存A的上三角部分的非零元的值，按行依次存储 JU—存A的上三角部分的非零元的列号 IU—存A中上三角部分每行第一个非零元在U中的位置(首地址) L—按列存储A中下三角非零元素的值 IL—按列存储A中下三角非零元素的行号 JL—存储A的下三角部分每列第一个非零元在L中的位置(首地址) D—存储A的对角元素的值，其检索下标不需要存储
33三种节点优化编号方法半动态优化法按动态联结支路数的多少编号最常用动态优化法按动态增加支路数的多少编号三种节点优化编号方法编号结果不同静态优化法按静态联结支路数的多少编号如果编号为消去123后如果继续消去4则出现新支路bd出现注入元
潮流计算中的稀疏技术
概述
线性方程组的求解方法有：
直接法：高斯消去法、三角分解法迭代法矩阵求逆法
三角检索存储

U— JU— IU—
a12
a14
a23

a11 a12 a a 21 22 A a42
a23 a33 a43
a14 a44
2 4 3

深度学习(1)——sae(稀疏自动编码机)PPT教学课件

nn.p{i} 让它初值=0
稀疏
2020/12/10
7
nntrain(这里无验证数据输入)
• 大循环逐numepochs(训练代数)
• 小循环逐numbatches(每代的样本批次，每批样本100个，它们共同决定更新一次权值。。。。。不同代的同个批次中的样本不会相同，因为被随机打乱了。)
• 1 故有numepochs* numbatches次执行下列（这么多次更新权值）
784 100 +1 +1 784 阈值B
+1 +1 2020/12/10a{1} a{2}
这里a{1}=train_x
a{2}=sigm(nn.a{1} * nn.W{1}‘)，作为训练第二个隐含层的输入，但是这里只有一个隐含层，所以a{2}在这里并没用
若是需要训练两个隐含层，那么这里的a{2}则作为设置整个网络（结构是[784 100 10]）
• 2.设置网络的激活函数和学习率
• 3.第一步中，把用于编码的W（实际包括阈值b和权值W）赋给此网络。
• 三、训练前向网络
• 1. 设置训练次数、batchsize。
• 2.调用nntrain训练整个网络（此时因期望输出是train_y，为有监督的训练）
• 判断inputZeroMaskedFraction，看看是否要加噪，是的话，按此比例随机把输入值清零。
• nn = nnff(nn, batch_x, batch_y);%前向网络
• nn = nnbp(nn);
• 逐个隐含层进行nntrain(sae.ae{i}, x, x, opts)训练更新sae.ae{i}参数，其实就是更新sae.ae{i}.W{1}、sae.ae{i}.W{2}

稀疏优化与低秩矩阵优化演示文稿

条件
.从而得到稀疏优化模型： x k
0பைடு நூலகம்
min xTVx
s.t. Ax b,
x 0,
(3)
|| x ||0 k.
第10页，共23页。
三、应用实例
例2、互补问题的稀疏解
众说周知，二人矩阵博弈模型、具有生产和投资的经济均衡模型、交
通流均衡模型等，都可以转化为互补问题.如果这个互补问题有多个解，则在这个解集中寻找一个最为稀疏的解：
第16页，共23页。
三、应用实例
例6、Sparse-Viso CT CT是医学诊断的主要工具之一，其成像的数学原理是Ax=b,其中
x是一个未知向量，表示人体待检查部位的图像，维数512*512代表像素个
数，b是一个测量值，其维数为1160*672代表射线的条数（1160代表圆周划分的角度），A是（1160*672，512*512）阶矩阵，由物理规律得到.由于其行数大于列数，一般情况下该方程无解.更为可怕的是行数多意味着“吃线”多，对人的身体危害极大.期望：“吃线少、时间短、图像清晰”.现在，假设人体待检查部位的图像稀疏，那么应用稀
矩阵秩极小（或低秩矩阵恢复）问题是指在某种线性约束条件下，求一个
决策矩阵使其秩达到极小.它的基本数学模型是：
min rank( X ) s.t. A( X ) b, (2) 其中 A是从 Rm到n 的Rd线性变换，b 是一个 d 维向量.
第3页，共23页。
一、模型与基本概念
【注】
1、模型（2）是模型（1）的一个推广； 2、可以把零范数和秩函数放在约束中，变成非凸约束
疏优化理论和算法，可以进行研究。
第17页，共23页。
四、理论与算法
凸松弛理论和算法

稀疏和低秩理论ppt

?
? ?
Robust PCA expresses an input data matrix as a sum of a low-rank matrix and a sparse matrix .
Two noise-aware variants
Basis pursuit denoising seeks a sparse near-solution to an underdetermined linear system:
? ?
? ?
Noise-aware Robust PCA approximates an input data matrix as a sum of a low-rank matrix and a sparse matrix .
Many possible applications …
CHRYSLER SETS STOCK SPLIT, HIGHER DIVIDEND Chrysler Corp said its board declared a three-for-two stock split in the form of a 50 pct stock dividend and raised the quarterly dividend by seven pct. The company said the dividend was raised to 37.5 cts a share from 35 cts on a pre-split basis, equal to a 25 ct dividend on a post-split basis. Chrysler said the stock dividend is payable April 13 to holders of record March 23 while the cash dividend is payable April 15 to holders of record March 23. It said cash will be paid in lieu of fractional shares. With the split, Chrysler said 13.2 mln shares remain to be purchased in its stock repurchase program that began in late 1984. That program now has a target of 56.3 mln shares with the latest stock split. Chrysler said in a statement the actions "re°ect not only our outstanding performance over the past few years but also our optimism about the company's future."

稀疏表示与稀疏分解课件PPT

2.贪婪法
匹配追踪（MP） ,正交匹配追踪（OMP）,弱匹配追踪等等。
2.1凸松弛法
凸松弛算法的核心思想就是用凸的或者是更容易处理的稀疏
度量函数代替（1）中非凸的L0范数，通过转换成凸规划或非线性规划问题来逼近原先的组合优化问题，变换后的模型则可采用诸多现有的高效算法进行求解，降低了问题的复杂度。
转化为
基追踪去噪：我们可以把上式的模型加以变形为：
1.稀疏表示介绍
稀疏表示，它意欲用尽可能少的非0系数表示信号的主要信息，从而简化信号处理问题的求解过程。
稀疏表示模型可如表达式(1)所示，其中y∈R^n为待处理信号，D∈R^(n×m)为字典，x∈R^m为稀疏系数， ||x||_0≪m。 ||x||_0为x的稀疏度，它表示x中非0稀疏的个数。
凸松弛算法的有效性依赖于过完备字典自身是否存在快速的变换与重建算法，例如对于正交基字典算法具有较高的效率，然而对于一般的
过完备字典，凸松弛算法仍具有非常高的运算复杂度。
2.1贪婪法
我们知道稀疏解x包括非0系数的位置索引和幅值两个信息，贪婪法的主体思路是先确定x中非0元素的位置索引，然后用最小二乘求解对应的幅值。
就变成了一个常见的线性规划问题，我们可以用单纯性算法或内点法来求解. 就变成了一个常见的线性规划问题，我们可以用单纯性算法或内点法来求解.
即在每次选择其的中原子Up为用上Rr一am次-Sc的hm原idt子正正交化交处结理果：，初始Up= 。
我们知道MP与BP算法使用了不同的策略求解模型,我们求解稀疏系数与字典D的选择密不可分，前面我们引用定理我么知道了L1范数最稀疏表示形式时，字典相干参数μ有大小限制。原子都做了归一化处理 =1。转化为基追踪：我们将L1范数替换L0范数之后，稀疏表示模型： min||x||_1 subject to y=Dx 我们这里主要介绍的算法是匹配追踪算法（MP）与正交匹配追踪算法(OMP)。就变成了一个常见的线性规划问题，我们可以用单纯性算法或内点法来求解.

快速稀疏优化方法

快速稀疏优化方法介绍快速稀疏优化方法是一种用于处理大型稀疏优化问题的有效技术。

稀疏优化问题是指在特定约束条件下，通过最小化目标函数来寻找一个稀疏解的问题。

这种方法可以应用于各种领域，如机器学习、图像处理和信号处理等。

在传统的优化方法中，通常采用梯度下降等算法来求解优化问题。

然而，对于稀疏优化问题，传统方法的计算复杂度往往很高，因为在每次迭代中需要计算全部变量的梯度。

而快速稀疏优化方法通过利用稀疏结构的特性，可以显著提高求解效率。

快速稀疏优化方法的核心思想快速稀疏优化方法的核心思想是利用某种规则来选择变量的子集，并在这个子集上进行计算。

这样可以大大减少计算量，从而提高求解速度。

具体而言，快速稀疏优化方法包括以下几个关键步骤：1. 初始变量选择在快速稀疏优化方法中，首先需要选择一组初始变量。

这些初始变量应该具有代表性，并且能够在后续的计算中发挥重要作用。

2. 变量更新在选择初始变量之后，需要通过一定的规则来选择变量更新的顺序。

一种常用的方法是基于梯度的选择，即选择梯度较大的变量进行更新。

这样可以保证每次更新具有较大的收敛速度。

3. 稀疏约束更新在变量更新的过程中，还需要考虑稀疏约束。

稀疏约束是指变量的稀疏性，即变量中有很多为零的元素。

快速稀疏优化方法通常使用一些启发式策略来更新稀疏约束，例如使用L1正则化项。

4. 稀疏性约束更新除了稀疏约束之外，还可以考虑稀疏性约束。

稀疏性约束是指变量中非零元素的个数应尽可能小，从而进一步提高计算效率。

在快速稀疏优化方法中，常用的方法是使用压缩感知技术。

快速稀疏优化方法的应用快速稀疏优化方法在各个领域都有广泛的应用。

下面列举几个典型的应用：1. 机器学习在机器学习中，快速稀疏优化方法可以用于特征选择、稀疏表示和稀疏编码等任务。

通过选择重要的特征，可以提高机器学习算法的准确性和解释性。

2. 图像处理在图像处理中，快速稀疏优化方法可以用于图像去噪、图像恢复和图像压缩等任务。

强化学习算法中的稀疏表示学习方法详解(Ⅰ)

强化学习算法中的稀疏表示学习方法详解强化学习作为机器学习领域的一个重要分支，近年来备受关注。

在强化学习算法中，稀疏表示学习方法是一种十分重要的技术，它可以帮助机器学习系统高效地处理海量的数据，提高学习效率和性能。

本文将对强化学习算法中的稀疏表示学习方法进行详细探讨。

一、稀疏表示学习方法的概念稀疏表示学习是一种通过学习数据的稀疏表示来发现数据的内在结构和特征的方法。

在强化学习中，稀疏表示学习方法可以用于学习价值函数、策略函数等模型，帮助机器智能系统更好地理解和预测环境的变化。

通过学习稀疏表示，系统可以更准确地判断不同状态或行为的价值，从而做出更优的决策。

二、稀疏表示学习方法的应用在强化学习算法中，稀疏表示学习方法被广泛应用于各种任务中。

例如，在游戏领域，可以利用稀疏表示学习方法来学习游戏中不同状态的价值函数，帮助机器智能系统更好地理解游戏规则和策略。

在机器人控制领域，稀疏表示学习方法可以用来学习不同动作的价值函数，从而实现智能机器人的自主决策和行动。

此外，稀疏表示学习方法还可以应用于金融领域、医疗领域等各种实际场景中，帮助机器学习系统更好地理解和预测复杂的现实环境。

三、稀疏表示学习方法的核心技术稀疏表示学习方法的核心技术包括特征选择、特征提取、特征稀疏化等。

特征选择是指从原始数据中选择最具代表性和重要性的特征，以降低数据维度和复杂度；特征提取是指从原始数据中提取出高效表示数据内在结构和特征的特征；特征稀疏化是指通过学习数据的稀疏表示来发现数据的内在结构和特征，以提高数据处理效率和性能。

四、稀疏表示学习方法的优势和挑战稀疏表示学习方法具有很多优势，例如可以帮助机器学习系统更好地处理海量的数据，提高学习效率和性能；可以发现数据的内在结构和特征，帮助系统更好地理解和预测环境的变化；可以应用于各种实际场景中，发挥重要的作用。

然而，稀疏表示学习方法也面临一些挑战，例如如何选择合适的特征和参数，如何处理稀疏表示学习中的数据噪声和异常值等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

y
y
1.2 1
0.8 0.6 0.4 0.2
0 -10
1 0.8 0.6 0.4 0.2
0 -10
= 0.1
-5
0
5
10
=x 8
34
-5
0
5
10
x
优化算法
多阶段多任务特征学习算法(MSMTFL)
repeat
加权Lasso问题加权系数
35
直观解释一：最小化上界
➢ 原优化问题: ➢ 上界 ➢ 次梯度
20
多任务学习 (MTL)
共享信息
✓ 神经网络的隐层单元 ✓ 贝叶斯模型的先验 ✓ 分类权重向量 ✓ 相似度量矩阵 ✓ 低秩的子空间 ✓ 一组特征 ✓ ……
21
多任务学习 (MTL)
联合特征多任务学习示意图
22
鲁棒多任务特征学习模型
学习共享特征+发现异常任务
P: 学习共享特征 Q: 发现异常任务 W: 权重矩阵
非凸稀疏学习问题
与可能是非凸的
2.5
2
1.5
1
L1
CapL1
LSP
0.5
MCP
SCAD
0
-10 -8 -6 -4 -2
0
2
4
6
8 10
50
假设
A1: A2:
连续可微且梯度是Lipschitz连续的是一个可以写成两个凸函数之差的函数
A3:
有下界
51
一些例子
Least Squares:
Logistic Regression:
17
实验结果(部分)
18
内容提纲
稀疏学习背景介绍快速信赖域牛顿法鲁棒多任务特征学习多阶段多任务特征学习迭代收缩阈值法快速求解非凸优化问题总结和展望
19
多任务学习 (MTL)
我们有多个人的手写字母，但来自每个人的字母比较少第 k 个任务：识别来自第 k 个人的字母
我们能否把所有的字母放到一起学习，以达到更好的性能？
3
支持向量机线性判别神经网络主成分分析 C-means ……
优化问题
4
应用问题
文本分析
信号处理
人脸识别
5
稀疏学习
稀疏学习：带有稀疏结构的机器学习问题
向量
稀疏数据
矩阵
6
稀疏学习一般模型
7
稀疏学习的研究问题
优化算法理论研究应用问题 ……
8
稀疏学习优化算法
(分块) 坐标下降法积极集算法同伦算法梯度投影法近似梯度法 ……
➢ 优化问题： ➢ 信赖域步长问题：
: 梯度
: 正定的Hessian矩阵
➢ 实际下降量与预测下降量的比值
: 信赖域步长
➢ 我们着重于快速求解信赖域步长问题
12
共轭梯度法
➢ 无约束二次规划问题
➢ 共轭梯度： : 梯度
: 共轭方向
➢ 共轭梯度最多在 p 步之内找到最优解
13
多阶段共轭梯度法
➢ 略去上标，将 (1) 简化成
23
优化算法
➢ 加速梯度下降法：
➢ 迭代： ➢ 步长搜索： ➢ 系数更新： ➢ 收敛速率：
24
算法细节
➢ 每步迭代有闭式解
➢ 步长初始化：是分块对角矩阵，第 i 个块矩阵是
25
线性+噪声假设理论分析
参数假设
26
数据矩阵假设
27
理论的界
预测误差和参数估计误差的界
基本假设
28
理论的界
No Image
内部: 共轭梯度 (C 步) 边界: 梯度下降 (G 步)
14
Multi-Stage Conjugate Gradient
15
理论分析
引理 1：令不是(2)式的最优解，那么
。如果。
✓指向超球的内部 ✓下降方向
引理 2：如果不是(2)式的最优解，那么我们有：。
定理 1：多阶段共轭梯度法产生的序列收敛到唯一的最优解。
9
给定观测数据
建立稀疏模型
尽可能恢复真实向量
稀疏学习理论
损失函数? 正则或约束? 最优解
假设？预测误差：参数估计误差：特征选择一致性：
10
内容提纲
背景介绍快速信赖域牛顿法鲁棒多任务特征学习多阶段多任务特征学习迭代收缩阈值法快速求解非凸优化问题总结和展望
11
信赖域牛顿法
36
直观解释一：最小化上界
➢ 最小化上界 ➢ 目标函数值下降
37
直观解释二：分块坐标下降
➢ 共轭函数： ➢ 共轭的共轭：
g 是凹的且是闭函数
➢ 原优化问题：
➢ 等价式：
分块坐标下降
38
直观解释二：分块坐标下降
➢ 分块坐标下降
加权系数
加权Lasso问题
39
收敛性分析
➢ 极限点存在吗？
有界，所以存在极限点
1
整体概况
+ 概况1
您的内容打在这里，或者通过复制您的文本后。
概况2
+ 您的内容打在这里，或者通过复制您的文本后。
概况3
+ 您的内容打在这里，或者通过复制您的文本后。
2
内容提纲
背景介绍快速信赖域牛顿法鲁棒多任务特征学习多阶段多任务特征学习迭代收缩阈值法快速求解非凸优化问题总结和展望
➢ 收敛定理
40
可再生性分析
加权Lasso 问题：
41
参数估计误差的界
指数衰减 & 逐步改善
Lasso: MSMTFL:
42
参数估计误差的界
43
44
实验
➢ 比较算法
✓ L1-正则多任务特征学习 (lasso) ✓ L1,2-则正多任特征务学习 (L1,2) ✓ 脏模型多任务特征学习 (DirtyMTL) ✓ 多阶段多任务特征学习 (MSMTFL)
共享特征和异常任务的恢复
29
➢ 合成数据
实验
➢ 真实数据
✓ School ✓ MRI
30
实验结果
31
实验结果(部分)
32
内容提纲
背景介绍快速信赖域牛顿法鲁棒多任务特征学习多阶段多任务特征学习迭代收缩阈值法快速求解非凸优化问题总结和展望
33
非凸多任务特征学习模型
W
W
凸的非凸的
16
实验
➢ 逻辑回归中的信赖域步长问题：
其中
➢ 比较算法
多阶段共轭梯度 (MSCG) 梯度投影 (PG) 加速梯度投影 (APG)
所有的算法均是用 Matlab 来实现，实验是在英特尔四核的处理器 (Intel(R) Core(TM)2 Quad CPU [Q6600 @2.4GHz])，8G~内存的个人 PC 机上运行。
➢ 实验设置
逐步改善 (合成数据) 参数估计误差(合成数据) 预测误差 (真实数据)
45
实验结果 (1)
46
实验结果 (2)
47
实验结果 (3)
48
内容提纲
背景介绍快速信赖域牛顿法鲁棒多任务特征学习多阶段多任务特征学习迭代收缩阈值法快速求解非凸优化问题总结和展望
49
Squared Hinge Loss:
非凸正则
2.5
2
1.5
1
L1
CapL1
LSP
0.5
MCP
SCAD