deeplearning论文笔记之sparsefiltering稀疏滤波

合集下载

DeepLearning论文笔记之(二)SparseFiltering稀疏滤波

Deep Learning论文笔记之（二）Sparse Filtering稀疏滤波zouxy09@/zouxy09自己平时看了一些论文，但老感觉看完过后就会慢慢的淡忘，某一天重新拾起来的时候又好像没有看过一样。

所以想习惯地把一些感觉有用的论文中的知识点总结整理一下，一方面在整理过程中，自己的理解也会更深，另一方面也方便未来自己的勘察。

更好的还可以放到博客上面与大家交流。

因为基础有限，所以对论文的一些理解可能不太正确，还望大家不吝指正交流，谢谢。

本文的论文来自：Sparse filtering, J. Ngiam, P. Koh, Z. Chen, S. Bhaskar, A.Y. Ng. NIPS2011。

在其论文的支撑材料中有相应的Matlab代码，代码很简介。

不过我还没读。

下面是自己对其中的一些知识点的理解：《Sparse Filtering》本文还是聚焦在非监督学习Unsupervised feature learning算法。

因为一般的非监督算法需要调整很多额外的参数hyperparameter。

本文提出一个简单的算法：sparse filtering。

它只有一个hyperparameter（需要学习的特征数目）需要调整。

但它很有效。

与其他的特征学习方法不同，sparse filtering并没有明确的构建输入数据的分布的模型。

它只优化一个简单的代价函数（L2范数稀疏约束的特征），优化过程可以通过几行简单的Matlab代码就可以实现。

而且，sparse filtering可以轻松有效的处理高维的输入，并能拓展为多层堆叠。

sparse filtering方法的核心思想就是避免对数据分布的显式建模，而是优化特征分布的稀疏性从而得到好的特征表达。

一、非监督特征学习一般来说，大部分的特征学习方法都是试图去建模给定训练数据的真实分布。

换句话说，特征学习就是学习一个模型，这个模型描述的就是数据真实分布的一种近似。

稀疏编码在图像滤波中的作用与效果评估方法

稀疏编码在图像滤波中的作用与效果评估方法随着数字图像处理技术的不断发展，图像滤波作为一种重要的图像处理方法，在图像去噪、增强等方面发挥着重要作用。

而稀疏编码作为一种高效的信号表示方法，近年来被广泛应用于图像滤波中，取得了显著的效果。

本文将探讨稀疏编码在图像滤波中的作用，并介绍一种常用的效果评估方法。

首先，我们来了解稀疏编码在图像滤波中的作用。

稀疏编码是一种将信号表示为尽可能少的基函数线性组合的方法，通过选择合适的基函数，可以将信号表示为更少的系数，从而实现信号的压缩和降维。

在图像滤波中，稀疏编码可以用于对图像进行去噪和增强。

通过对图像进行稀疏编码，可以将图像表示为少量的基函数，从而去除图像中的噪声和冗余信息，使图像更加清晰和真实。

稀疏编码在图像滤波中的效果评估是非常重要的。

只有通过科学的评估方法，我们才能准确地评估稀疏编码在图像滤波中的效果，并对不同的滤波算法进行比较。

在评估稀疏编码的效果时，可以采用以下几种方法。

首先，可以使用主观评价方法。

主观评价方法是通过人眼对图像进行观察和比较，来评估图像滤波的效果。

可以邀请一些专业人士或者普通观众对滤波后的图像进行评估，评估指标可以包括图像的清晰度、细节保留程度等。

然而，主观评价方法存在个体差异和主观性较强的问题，因此需要结合客观评价方法进行综合分析。

其次，可以使用客观评价方法。

客观评价方法是通过计算机算法对图像进行自动评估，得出评估指标。

常用的客观评价指标包括峰值信噪比（PSNR）、结构相似性指标（SSIM）等。

这些指标可以通过计算滤波前后图像的差异来评估滤波效果，值越高表示滤波效果越好。

客观评价方法具有客观性强、结果可重复等优点，但是不能完全代替主观评价方法。

最后，可以使用实际应用评价方法。

实际应用评价方法是将滤波后的图像应用于实际场景，通过实际应用效果来评估滤波效果。

例如，可以将滤波后的图像用于目标检测、图像识别等任务，通过任务的准确率和效果来评估滤波算法的优劣。

研究领域总结（一）：稀疏

研究领域总结（一）：稀疏Pre：面试发现自己老讲不条理自己的研究工作，还是要先梳理下。

鉴于motivation，本文是侧重结构化的15分钟talk draft，而非务求详尽。

有兴趣的欢迎私下讨论。

Abstract：本文主要介绍稀疏模型相关，侧重于字典学习和具体应用。

1.sparse background2.DL（DIctionary Learning）是什么，用途，为什么好3.我的DC（Customization）工作I.稀疏模型稀疏模型是最近几年比较hot的技术，在信号处理（压缩感知）、计算机视觉（比如JPEG压缩）领域影响比较大，在机器学习框架则可以看做是一种特征处理相关的模型。

具体的，稀疏表示是指在超完备字典D（超完备是说字典行数小于列数）中用尽可能少的原子来表示信号x，即：minα∥α∥0,s.t.x=Dα.考虑噪声就是minα∥x?Dα∥22+λ∥α∥0,α的size比x大很多，但是非零元素比x的size小很多很多。

稀疏的优点主要在于它是非线性模型，所以表达能力更强。

具体来说，每个信号稀疏系数的非零元素位置不同（所谓的support），所以每个信号可以看做被投影到了不同的线性子空间，这是和正交字典-PCA之类的最大区别。

而为什么在视觉图像里应用尤其多，也正是因为每张图像（如人脸）可以看做处于高维空间的一个低维子空间上（其实还有些研究用流形做子空间建模的）。

稀疏模型研究方向主要包括系数求解（即上面那个问题，经典算法有OMP贪心、lasso凸松弛和l1/2非凸松弛），字典学习（获得更好的D，经典算法有MOD和K-SVD交替迭代）和模型应用。

II.字典学习显然稀疏表达的效果好坏和我们用的字典有着密切的关系。

字典分两类，一种是预先给定的分析字典，比如小波基、DCT等，另一种则是针对特定数据集学习出特定的字典。

这种学出来的字典能大大提升在特定数据集的效果。

给定训练样本X={xi∥ni=1，我们要所有样本在字典D上有稀疏表达W={wi}ni=1，所以优化目标是min D,W∥X?DW∥2F,s.t.∥wi∥0≤s.这个目标函数非凸，一般用交替迭代思想来解，即分别固定D和W，更新另一个，很多变种算法。

语音信号当中降噪算法的实现方法

语音信号当中降噪算法的实现方法1.语音信号的降噪算法可以通过滤波器来实现。

The noise reduction algorithm of speech signals can be implemented through filters.2.降噪算法可以利用数字信号处理技术进行实现。

The noise reduction algorithm can be implemented using digital signal processing techniques.3.常见的降噪算法包括中值滤波和小波变换。

Common noise reduction algorithms include median filtering and wavelet transforms.4.中值滤波是一种简单且有效的降噪技术。

Median filtering is a simple and effective noise reduction technique.5.小波变换可以将信号分解成不同频率的子信号进行处理。

Wavelet transform can decompose the signal into sub-signals of different frequencies for processing.6.降噪算法的实现需要考虑运算速度和处理效果的平衡。

The implementation of noise reduction algorithm needs to consider the balance between computational speed and processing effect.7.降噪算法的性能评价可以使用信噪比等指标进行量化。

The performance evaluation of noise reduction algorithm can be quantified using metrics such as signal-to-noise ratio.8.自适应滤波是一种根据信号特性进行动态调整的降噪技术。

稠密匹配和稀疏匹配

稠密匹配和稀疏匹配稠密匹配（Dense Matching）和稀疏匹配（Sparse Matching）是计算机视觉领域中常用的两种图像匹配方法。

它们在图像处理、目标识别、三维重建等方面有着广泛的应用。

稠密匹配是指在图像中对每个像素进行匹配，得到其在另一幅图像中的对应像素。

这种方法的优势在于可以获得图像间的详细对应关系，从而可以进行高精度的图像配准、目标跟踪等任务。

稠密匹配常用的算法有块匹配算法、光流法等。

块匹配算法是一种常用的稠密匹配方法，它通过比较图像块之间的相似性来确定它们的对应关系。

在块匹配算法中，首先选择一个参考图像块，然后在另一幅图像中搜索与之最相似的块。

相似度通常使用块内像素的差异度量，如均方差或相关性来衡量。

通过遍历图像中的每个像素，可以得到整幅图像的稠密匹配结果。

光流法是另一种常见的稠密匹配方法，它基于图像中像素的运动信息来确定它们的对应关系。

光流法假设图像中的像素在连续帧之间的运动是连续的，并且可以通过一定的数学模型来描述。

通过求解光流方程，可以得到图像中每个像素在下一帧中的位置，从而实现稠密匹配。

与稠密匹配相对应的是稀疏匹配。

稀疏匹配是指只对图像中的一部分像素进行匹配，得到其在另一幅图像中的对应像素。

稀疏匹配的优势在于计算量较小，适用于实时性要求较高的应用场景。

稀疏匹配常用的算法有SIFT、SURF等。

SIFT（Scale-Invariant Feature Transform）是一种常用的稀疏匹配算法，它通过在图像中提取关键点，并计算关键点的特征描述子来实现匹配。

SIFT算法具有尺度不变性和旋转不变性，可以在不同尺度和旋转条件下进行稳定的匹配。

SURF（Speeded Up Robust Features）是另一种常见的稀疏匹配算法，它是对SIFT算法的改进。

SURF算法通过加速图像特征的提取和匹配过程，提高了匹配的速度和精度。

SURF算法在图像匹配、目标检测等方面有着广泛的应用。

强跟踪稀疏网格滤波在水下目标跟踪中的应用

强跟踪稀疏网格滤波在水下目标跟踪中的应用王越;徐正生;于飞;陈斐楠【摘要】A Strong Tracking Sparse Grid Quadrature Filter(STSGQF)is proposed to overcome the problem that Sparse Grid QuadratureFilter(SGQF)decreases in accuracy, even diverges when the underwater target moves with power maneu-verability. The sparse grid is avaible to reduce the SGQF's computation cost, significantly, while the accuracy lowers slightly. STSGQF where the Strong Tracking Filter(STF)is introduced into SGQF not only keeps the advantages of high accuracy and shorter running time, but also improves the robustness of the algorithm. Meanwhile, STSGQF need not to calculate Jacobian matrix. Simulation results show the effectiveness of STSGQF.%针对水下目标发生强机动的情况,为解决稀疏网格求积滤波(Sparse Grid Quadrature Filter,SGQF)精度下降,甚至发散的问题,提出了强跟踪稀疏网格求积滤波(Strong Tracking Sparse Grid Quadrature Filter,STSGQF)算法.SGQF能够在保证滤波精度的情况下,大大降低运算成本.在此基础上引入强跟踪滤波(Strong Tracking Filter,STF),STSGQF不仅保留了SGQF跟踪精度高、运行时间短的优点,还提高了算法的鲁棒性,同时,也解决了STF需要求解Jacobian矩阵的问题.通过仿真实验验证了STSGQF的有效性.【期刊名称】《计算机工程与应用》【年(卷),期】2017(053)022【总页数】8页(P235-242)【关键词】水下目标跟踪;高斯-埃尔米特求积滤波;稀疏网格;强跟踪滤波【作者】王越;徐正生;于飞;陈斐楠【作者单位】哈尔滨工程大学理学院,哈尔滨 150001;哈尔滨工程大学理学院,哈尔滨 150001;哈尔滨工程大学理学院,哈尔滨 150001;哈尔滨工程大学理学院,哈尔滨 150001【正文语种】中文【中图分类】TP391.921世纪以来，随着海上资源的开发利用以及各海洋大国军事发展的需求，水下潜器在水下作业中的重要性日益凸显。

人工智能开发技术中的稀疏学习与数据稀疏性处理

人工智能开发技术中的稀疏学习与数据稀疏性处理随着人工智能技术的发展和应用广泛，稀疏学习（sparse learning）成为了人工智能开发中的重要研究方向之一。

稀疏学习是指通过对数据进行处理，从中挖掘出具有特定稀疏性质的模型和特征，以达到更快速、更精确的学习和推理效果。

稀疏学习方法的核心理念是将大部分数据的权重置为零，仅保留少部分有意义的权重。

在人工智能领域中，稀疏学习的应用非常广泛。

特别是在机器学习、图像处理和自然语言处理等领域，稀疏学习对于提高算法的效率和准确性具有重要作用。

在机器学习中，稀疏学习可以帮助将高维度的特征数据进行降维处理，提取出最具代表性的特征，从而减少计算复杂度。

在图像处理中，稀疏学习可以用于图像去噪、图像压缩和图像恢复等任务，大大提高了图像处理的效果。

在自然语言处理中，稀疏学习可以用于文本分类、信息抽取和机器翻译等任务，使得模型更加准确和高效。

稀疏学习的核心问题之一是如何处理数据的稀疏性。

数据稀疏性是指输入数据集中很多特征都是零，只有少部分特征才具有有效信息。

处理数据稀疏性的方法有很多，下面将介绍几种常见的方法。

首先是L1正则化方法。

L1正则化是一种常用的稀疏学习方法，它通过加入L1范数惩罚项来限制模型的权重，使得模型在训练过程中自动地将一些权重置为零。

L1正则化可以在一定程度上解决数据稀疏性问题，但它并不能保证得到最优的稀疏解。

其次是基于字典学习的方法。

字典学习是一种通过学习数据的字典，将原始数据表示为字典中的稀疏线性组合的方法。

在字典学习中，通过迭代优化，学习到的字典是稀疏的，从而实现了对数据的稀疏表示。

字典学习方法在处理数据稀疏性问题上非常有效，已经在图像处理和自然语言处理等领域取得了显著的成果。

另外，还有一种常见的方法是稀疏编码。

稀疏编码是一种通过对数据进行稀疏表示的方法，它假设数据可以由一组原子（基向量）的线性组合来表示。

在稀疏编码中，通过优化目标函数，可以得到稀疏的表示结果，从而实现对数据的稀疏性处理。

基于改进粒子滤波的稀疏子空间单目标跟踪算法

基于改进粒子滤波的稀疏子空间单目标跟踪算法作者：宫海洋任红格史涛李福进来源：《现代电子技术》2018年第13期摘要：针对单目标跟踪问题，提出基于改进粒子滤波的稀疏子空间单目标跟踪算法。

在改进的粒子滤波中提出将样本分为正、负和过渡样本，减小粒子退化带来的影响，通过仿真实验验证改进粒子滤波器可提高目标跟踪的鲁棒性。

仿照人眼视觉神经系统，将稀疏子空间引入粒子滤波中，建立一个稀疏最优化模型，获得稀疏矩阵，稀疏子空间有针对性地对目标进行聚类，得到聚类中心位置实现目标跟踪。

经过在相同视频序列实验与基本粒子滤波同mean⁃shift 算法目标跟踪的实验对比可知，单目标跟踪的快速性和鲁棒性得到了很大提高。

关键词：目标跟踪；贝叶斯滤波；粒子滤波；稀疏子空间；过渡样本；聚类中心中图分类号： TN911.1⁃34； TP18 文献标识码： A 文章编号： 1004⁃373X（2018）13⁃0010⁃04Abstract： A sparse subspace single target tracking algorithm based on improved particle filtering is proposed for single target tracking problem. On the basis of improved particle filtering， a method to classify the sample into positive， negative and transition samples is proposed to reduce the influence of particle degradation. The simulation experiment results show that the improved particle filter can improve the robustness of target tracking. On the basis of human visual nervous system， the sparse subspace is introduced into the particle filtering， and a sparse optimal model is established to obtain the sparse matrix. The target is clustered in the sparse subspace to get the location of the clustering center and realize the target tracking. The result of same video sequence experiment is compared with those of the target tracking experiments for basic particle filtering algorithm and Mean⁃shift algorithm. The results indicate that the accuracy and robustness of single target tracking algorithm are greatly improved.Keywords： target tracking； Bayesian filtering； particle filtering； sparse subspace；transition sample； clustering center目标跟踪是对视频中所标记的目标实施状态估计的过程，通过对时间和空间相对性的判断，确定跟踪目标在视频序列中每一帧的位置和姿态。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Deep Learning 论文笔记之（二）Sparse Filtering 稀疏滤波Deep Learning 论文笔记之（二）Sparse Filtering 稀疏滤波zouxy09@/zouxy09 自己平时看了一些论文，但老感觉看完过后就会慢慢的淡忘，某一天重新拾起来的时候又好像没有看过一样。

所以想习惯地把一些感觉有用的论文中的知识点总结整理一下，一方面在整理过程中，自己的理解也会更深，另一方面也方便未来自己的勘察。

更好的还可以放到博客上面与大家交流。

因为基础有限，所以对论文的一些理解可能不太正确，还望大家不吝指正交流，谢谢。

本文的论文来自：Sparse filtering , J. Ngiam, P. Koh, Z. Chen, S. Bhaskar, A.Y . Ng. NIPS2011 。

在其论文的支撑材料中有相应的Matlab 代码，代码很简介。

不过我还没读。

下面是自己对其中的一些知识点的理解：《Sparse Filtering 》本文还是聚焦在非监督学习Unsupervised feature learning 算法。

因为一般的非监督算法需要调整很多额外的参数hyperparameter。

本文提出一个简单的算法：sparse filtering 。

它只有一个hyperparameter （需要学习的特征数目）需要调整。

但它很有效。

与其他的特征学习方法不同，sparse filtering并没有明确的构建输入数据的分布的模型。

它只优化一个简单的代价函数（L2 范数稀疏约束的特征），优化过程可以通过几行简单的Matlab 代码就可以实现。

而且，sparse filtering 可以轻松有效的处理高维的输入，并能拓展为多层堆叠。

sparse filtering 方法的核心思想就是避免对数据分布的显式建模，而是优化特征分布的稀疏性从而得到好的特征表达。

一、非监督特征学习一般来说，大部分的特征学习方法都是试图去建模给定训练数据的真实分布。

换句话说，特征学习就是学习一个模型，这个模型描述的就是数据真实分布的一种近似。

这些方法包括denoising autoencoders，restricted Boltzmann machines (RBMs) ，independent component analysis (ICA) 和sparse coding 等等。

这些方法效果都不错，但烦人的一点就是，他们都需要调节很多参数。

比如说学习速率learning rates、动量momentum (好像rbm 中需要用到)、稀疏度惩罚系数sparsity penalties 和权值衰减系数weight decay 等。

而这些参数最终的确定需要通过交叉验证获得，本身这样的结构训练起来所用时间就长，这么多参数要用交叉验证来获取时间就更多了。

我们花了大力气去调节得到一组好的参数，但是换一个任务，我们又得调节换另一组好的参数，这样就会花了俺们太多的时间了。

虽然ICA 只需要调节一个参数，但它对于高维输入或者很大的特征集来说，拓展能力较弱。

本文中，我们的目标是研究一种简单并且有效的特征学习算法，它只需要最少的参数调节。

虽然学习数据分布的模型是可取的，而且效果也不错，但是它往往会使学习的算法复杂化，例如：RBMs 需要近似对数划分log-partition 函数的梯度，这样才可能优化数据的似然函数。

Sparse coding 需要在每次的迭代过程中寻找活跃的基的系数，这是比较耗时的。

而且，稀疏因子也是一个需要调整的参数。

本文方法主要是绕过对数据分布的估计，直接分析优化特征的分布。

那怎样的特征的分布才是优的呢？到这里，我们需要先关注特征的一些主要属性：population sparsity ，lifetime sparsity 和high dispersal 。

怎样的特征才是好的特征，才是对分类或者其他任务好的特征。

我们的学习算法就应该学会去提取这种特征。

二、特征分布上面讨论的特征学习算法都可以认为是生成特定的特征分布Feature distributions 。

例如，sparse coding 只用少许的非零系数（特征）来描述每个样本。

而一个面向特征分布的方法可以认为是直接优化特征分布的一些属性，使其可以更好的描述样本。

我们引入一个特征分布矩阵，矩阵的每一行是一个特征，每一列是一个样本。

每个元素表示第i 个样本的第j 个特征的激活值。

由上面的分析可以知道，这是一个由输入到特征的映射函数（特征提取函数）来得到。

下面我们就来讨论下什么样的特征分布才是好的：1）每个样本的特征应该是稀疏的（Population Sparsity ）每个样本都只用很少的激活（非零）特征来描述。

具体来说，对于特征矩阵的每一列（一个样本）f（i），只有很少的非零元素。

其他的都是0 。

例如，一幅图像可以由里面包含的一些目标来描述，如果里面存在很多可能的目标，那么在某一时刻，也只可能出现一些。

我们称之为population sparsity （种群稀疏）。

2）样本间的特征应该是稀疏的（Lifetime Sparsity ）好的特征应该是具有区分性的，这样才可以区分样本。

例如需要区分人脸和人手，那么很明显，肤色不是区分性的特征，因为人脸和人手都有肤色。

但如果看有没有眼睛，那么就很容易区分是人脸还是人手了，所以眼睛就是一个区分性的特征。

所以要区分样本，就要选择样本独有的，而不是大家都有的特征。

稍微学术点的表达就是，每个特征只允许在少量的样本内被激活。

也就是说，在特征矩阵中，每一行（一种特征）应该只有少量的非零元素。

这个特征的属性被称为lifetime sparsity （存在稀疏）。

3）特征的分布应该是均匀的（High Dispersal ）对每一行（一种特征在不同样本的时候的不同取值）的特征的分布，应该和其他行的特征的分布相似，或者说每种特征都应该具有相似的统计特性。

具体来说，对矩阵的每一行，我们取该行所有元素（一种特征在不同样本的时候的不同取值）的平方后的均值作为其统计特性的描述。

每一行都存在一个均值，那么每行的均值都应该是一样的，这样就可以认为所有的特征都具有相似的分布。

这种属性我们称之为high dispersal （高分散性）。

但对于一个好的特征描述来说，这个属性并不是必要的。

但它可以防止特征的退化，也就是可以防止提取到相同的特征（如果提取到相同的特征，那么特征既冗余，又没有增加信息量，所以一般都要求提取到的特征是正交的）。

对于过完备的特征表达。

highdispersal 可以理解为只有很少的inactive 不活跃的特征。

例如，PCA 编码一般不会满足high dispersal ，因为大的特征值对应的特征向量（也就是特征code）大部分总是活跃active 的。

很多特征学习方法其实有包含上面的这些约束的。

例如sparse RBM 会约束一个特征的激活值靠近一个目标的值（lifetime sparsity ）。

ICA 会归一化每个特征，还会优化特征的lifetime sparsity。

Sparse autoencoder也会显式的优化lifetime sparsity 。

另外，基于聚类的算法，例如K-means，是population sparsity约束的一种极端形式，它的一个聚类中心只对应一个特征，对每个样本来说，只有一个特征是激活的（只有一个值是1，其他全是0）。

Triangle 三角激活函数，本质上也会保证populationsparsity 。

Sparse coding实际上也可以被视为存在population sparsity。

本文中，我们从特征分布的角度去推导得到一种简单的特征学习算法。

它仅仅需要优化high dispersal 和population spa rs ity 。

因为在我们的实验中，我们发现，实现这两种特征的属性对学习一个过完备的特征表达来说已经足够了。

在后面，我们会说明，这两种属性的结合实际上已经蕴含着保证特征的lifetime sparsity 。

三、Sparse filtering 下面我们就说明下，sparse filtering 是如何捕捉到上面说的那些特性的。

我们先考虑下从每个样本中计算线性特征。

具体来说，我们用来表示第i个样本（特征矩阵中第i列）的第j个特征值（特征矩阵中第j 行）。

因为是线性特征，所以。

第一步，我们先简单的对特征矩阵的行进行归一化，然后再对列进行归一化，然后再将矩阵中所有元素的绝对值求和。

具体来说，我们先归一化每个特征为相等的激活值。

具体做法是将每一个特征除以其在所有样本的二范数：。

然后我们再归一化每一个样本的特征。

这样，他们就会落在二范数的单位球体unit L2-ball 上面了。

具体做法是：。

这时候，我们就可以对这些归一化过的特征进行优化了。

我们使用L1 范数惩罚来约束稀疏性。

对于一个有M 个样本的数据集，sparse filtering 的目标函数表示为： 3.1、Optimizing forpopulation sparsity 其中这一项度量的就是第i 个样本的特征的population sparsity ，也就是限制每个样本只有很少的非零值。

因为归一化的特征被约束只能落在二范数的单位球体上面，所以当这些特征是稀疏的时候，也就是样本接近特征坐标轴的时候，上面的目标函数才会最小化。

反之，如果一个样本的每个特征值都差不多，那么就会导致一个很高的惩罚。

可能有点难理解，我们看下图：左图：假设我们的特征维数是两维（f1, f2），我们有两个样本，绿色和褐色的。

每个样本都会先投影到二范数的球体上面（二维的话就是单位圆），再进行稀疏性的优化。

可以看到，当样本落在坐标轴的时候，特征具有最大的稀疏性（例如，一个样本落在f2 轴上，那么这个样本的表示就是（0, 1），一个特征值为1，其他的为0，那么很明显它具有最大的稀疏性）。

右图：因为归一化，特征之间会存在竞争。

上面有一个只在f1 特征上增加的样本。

可以看到，尽管它只在f1 方向上增加（绿色三角型转移到蓝色三角型），经过列归一化后（投影到单位圆上），可以看到第二个特征f2 会减少（绿色圆圈转移到蓝色圆圈）。

也就是说特征之间存在竞争，我变大，你就得变小。

对特征进行归一化的一个属性就是它会隐含的进行特征间的竞争。

归一化会使得如果只有一个特征分量f（i）增大，那么其他所有的特征分量的值将会减小。

相似的，如果只有一个特征分量f（i）减小，那么其他所有的特征分量的值将会增大。

因此，我们最小化，将会驱使归一化的特征趋于稀疏和大部分接近于0 。

也就是，一些特征会比较大，其他的特征值都很小（接近于0）。