深度学习(1)——sae(稀疏自动编码机)

合集下载

深度学习知识：神经网络的稀疏表示

深度学习知识：神经网络的稀疏表示神经网络是一种强大的机器学习工具，它通过一系列神经元和权重之间的连接来构建模型。

目前，神经网络已经在多个领域展现出了强大的应用能力。

但是，神经网络本身也存在一些问题，其中之一就是如何处理稀疏表示的数据。

在本文中，我们将探讨稀疏表示以及神经网络如何处理这种类型的数据。

什么是稀疏表示？稀疏表示是指数据中的许多元素都是0，或者接近于0，而只有少数几个元素具有非零值。

这种情况在实际问题中非常普遍，例如在语音识别中的语音信号就是一种稀疏表示。

如何处理稀疏表示？现代的神经网络通常使用全连接层，在这种情况下，输入数据的每个元素都将连接到每个神经元。

这种方法在处理稠密表示的数据时非常有效，但是，在处理稀疏表示数据时，它可能会导致一些问题。

例如，在处理图像数据时，每个像素都可以被认为是一个输入元素。

然而，在大多数图像中，像素值都非常小，类似于稀疏表示数据。

采用全连接神经网络进行图像分类任务，这将导致非常大的模型大小和处理时间，而且很容易出现过拟合的问题。

因此，处理稀疏表示数据的算法通常需要特定的方法。

其中一种解决方法是采用稀疏编码，这是一种用于处理稀疏表示数据的技术。

稀疏编码是一种无监督学习方法，它通过对数据进行组合来生成一个小的编码向量。

由于编码向量非常小，这种方法可以提高神经网络处理稀疏表示数据的效率。

例如，如果我们用一个稀疏编码将输入数据从1000维降至100维，则神经网络的全连接层将变得小得多，处理速度也将更快。

稀疏编码还有另一个好处，即它可以减少噪声的影响。

如果有许多输入特征都是无效的或没有意义的，那么这些特征将会产生噪声，从而降低神经网络的性能。

稀疏编码可以帮助神经网络过滤掉这些噪音数据，只保留最重要的数据特征。

另外一种方法是使用卷积神经网络。

卷积神经网络是专门针对图像处理、语音处理等领域，它能够对输入进行分层的处理。

卷积神经网络的核心思想是对输入进行卷积操作，然后将结果输入到下一层。

深度学习介绍 ppt课件

自编码器的建立
建立AutoEncoder的方法是：
对于m个数据的输入，有：
Code编码:使用非线性激活函数，将维输入数据映射到维隐含层（隐含节点表示特征）
其中W是一个的权重矩阵，b是一个d'维的偏移向量 Decode解码:通过反向映射，对映射后的数据进行重建
hi
yi
SAE网络每一次训练输入都会得到映射后的与解码后的。通过对代价函数的最优
深层带来的好处
为什么采用层次网络
预训练与梯度消失现象
主要内容
自编码器结构
单层自动编码器网络（AutoEncoder）实质上是一个三层的反向传播神经网络。它逐层采用无监督学习的方式，不使用标签调整权值，将输入映射到隐含层上，再经过反变换映射到输出上，实现输入输出的近似等价。
X1 X2 X3 X4 X5 +1
RBM网络有几个参数，一个是可视层与隐含层之间的权重矩阵，一个是可视节点的偏移量b，一个是隐含节点的偏移量c，这几个参数决定了RBM网络将一个m维的样本编码成一个什么样的n维的样本。
受限玻尔兹曼机
RBM介绍

RBM训练
一般地，链接权重Wij可初始化为来自正态分布N(0,0.01)的随机数，隐单元的偏置cj初始化为0；对于第i个可见单元，偏置bj初始化为log[pi/(1-pi)] 。pi表示训练样本中第i个特征处于激活状态所占的比率学习率epsilon至关重要，大则收敛快，但是算法可能不稳定。小则慢。为克服这一矛盾引入动量，使本次参数值修改的方向不完全由当前样本似然函数梯度方向决定，而是上一次参数值修改方向与本次梯度方向的结合可以避免过早的收敛到局部最优点
激活函数
y f (x)

基于堆栈式稀疏自编码器的高光谱影像分类

基于堆栈式稀疏自编码器的高光谱影像分类戴晓爱;郭守恒;任淯;杨晓霞;刘汉湖【摘要】为挖掘高光谱影像数据的内在光谱特征，该文基于深度学习理论，引用堆栈式稀疏自编码器构建原始数据的深层特征表达。

首先通过稀疏自编码器，得到原始数据的稀疏特征表达。

其次通过逐层学习稀疏自编码器构建深度神经网，输出原始数据的深度特征。

最后将其连接到支持向量机分类器，完成模型的精调。

实验结果分析表明：基于堆栈式稀疏自编码器的最优分类模型，总体精度可达87.82%，优于实验中的其他方法，证明了深度学习方法在高光谱影像处理中具有良好的分类性能。

%To extract rich features of hyperspectral image, this study explores the deep features of the raw data by using a stacked sparse autoencoderin the deep learning theory. First we create a sparse expression of raw hyperspectral image using sparse autoencoder. Then a deep neural network generating the deep features of raw data is built through learning stacked sparse autoencoder layer by layer. In addition, the deep feature-related model parameters are precisely calibrated by the statistical learning algorithm of the support vector machine (SVM). The performance of the experiment indicates that the overall accuracy of classification model based on stacked sparse autoencoder reaches 87.82%, superior to other experimental methods. From our experiments, it follows that the deep learning theory and stacked sparse autoencoder are of high potential in hyperspectral remote sensing image classification.【期刊名称】《电子科技大学学报》【年(卷),期】2016(045)003【总页数】5页(P382-386)【关键词】深度神经网;特征提取;高光谱影像分类;堆栈式稀疏自编码器;支持向量机【作者】戴晓爱;郭守恒;任淯;杨晓霞;刘汉湖【作者单位】成都理工大学地学空间信息技术国土资源部重点实验室成都610059;成都理工大学地学空间信息技术国土资源部重点实验室成都 610059;成都理工大学地学空间信息技术国土资源部重点实验室成都 610059;成都理工大学地学空间信息技术国土资源部重点实验室成都 610059;成都理工大学地学空间信息技术国土资源部重点实验室成都 610059【正文语种】中文【中图分类】TP751.1高光谱影像分类是高光谱影像处理中的重要环节，由于Hughes现象［1］的影响，在不进行降维处理的情况下传统分类算法很难在高光谱影像分类中取得理想结果［2］。

深度学习(1)——sae(稀疏自动编码机)PPT教学课件

nn.p{i} 让它初值=0
稀疏
2020/12/10
7
nntrain(这里无验证数据输入)
• 大循环逐numepochs(训练代数)
• 小循环逐numbatches(每代的样本批次，每批样本100个，它们共同决定更新一次权值。。。。。不同代的同个批次中的样本不会相同，因为被随机打乱了。)
• 1 故有numepochs* numbatches次执行下列（这么多次更新权值）
784 100 +1 +1 784 阈值B
+1 +1 2020/12/10a{1} a{2}
这里a{1}=train_x
a{2}=sigm(nn.a{1} * nn.W{1}‘)，作为训练第二个隐含层的输入，但是这里只有一个隐含层，所以a{2}在这里并没用
若是需要训练两个隐含层，那么这里的a{2}则作为设置整个网络（结构是[784 100 10]）
• 2.设置网络的激活函数和学习率
• 3.第一步中，把用于编码的W（实际包括阈值b和权值W）赋给此网络。
• 三、训练前向网络
• 1. 设置训练次数、batchsize。
• 2.调用nntrain训练整个网络（此时因期望输出是train_y，为有监督的训练）
• 判断inputZeroMaskedFraction，看看是否要加噪，是的话，按此比例随机把输入值清零。
• nn = nnff(nn, batch_x, batch_y);%前向网络
• nn = nnbp(nn);
• 逐个隐含层进行nntrain(sae.ae{i}, x, x, opts)训练更新sae.ae{i}参数，其实就是更新sae.ae{i}.W{1}、sae.ae{i}.W{2}

基于深度学习的机械设备健康管理综述与展望

基于深度学习的机械设备健康管理综述与展望周奇才;沈鹤鸿;赵炯;熊肖磊【摘要】随着机械设备的自动化与智能化程度日益提升,人们对机械设备健康管理的要求也越来越高,得益于海量大数据的积累和计算机技术的发展,除了传统的机器学习方法以外,深度学习方法凭借其极强的非线性拟合能力逐步进入人们的视野.首先介绍现有的深度学习方法以及这些方法各自与机械设备健康管理的结合,然后综述了深度学习在制造业的具体应用,包括代替肉眼检查裂纹、实现设备自我诊断、异常提前感知、施工质量监测.接着指出要实现对机械设备智能化健康管理的必要基础是大批量、高质量、覆盖面广的全生命周期数据,并结合国内外基于机械设备全生命周期数据的故障识别及预诊相关研究说明其重要性.最后提出了基于深度学习的机械设备健康管理的研究趋势和面临的挑战.【期刊名称】《现代机械》【年(卷),期】2018(000)004【总页数】9页(P19-27)【关键词】深度学习;健康管理;全生命周期;机械设备【作者】周奇才;沈鹤鸿;赵炯;熊肖磊【作者单位】同济大学,上海201804;同济大学,上海201804;同济大学,上海201804;同济大学,上海201804【正文语种】中文【中图分类】TP2770 引言健康管理即收集足够的数据，借助智能算法对机械设备进行健康状况的评判，同时提供保障决策及维护计划。

这是比传统故障诊断更为先进的维护方式。

随着机械设备的自动化与智能化程度日益提升，人们对于设备安全性和可靠性要求也越来越高，对机械设备的健康管理成为一门学科，吸引了无数学者的目光。

由IEEE可靠性协会主办的A类国际会议故障预测与健康管理技术国际会议是机械设备健康管理领域每年的盛会，近年来利用深度学习进行研究而发表在大会上的文章占有很大比例。

经过多年发展，健康管理技术已开始吸收人工智能技术中表现优异的部分，基于深度学习的智能诊断研究已是健康管理的重要方向。

近些年来人工智能可谓是引爆全球的一次浪潮，诸如Google，Amazon，BAT等知名企业都在积极布局这一领域。

稀疏编码的优势及应用领域解析

稀疏编码的优势及应用领域解析稀疏编码是一种重要的数据处理技术，它在信息处理和机器学习领域具有广泛的应用。

稀疏编码的优势在于能够提取出数据的关键特征，减少冗余信息，从而提高数据的处理效率和精确度。

本文将对稀疏编码的优势及其应用领域进行解析。

一、稀疏编码的优势稀疏编码的核心思想是通过对数据进行稀疏表示，即将数据表示为尽可能少的非零元素的线性组合。

相比于传统的全连接神经网络等模型，稀疏编码可以更好地捕捉到数据中的关键特征，具有以下几个优势。

首先，稀疏编码可以降低数据的维度。

在高维数据处理中，维度灾难是一个普遍存在的问题，会导致计算和存储开销的大幅增加。

而稀疏编码可以通过选择性地激活少量的特征来表示数据，从而有效地降低数据的维度，减少计算和存储的负担。

其次，稀疏编码可以提高数据的表示能力。

稀疏编码通过选择性地激活特征，能够更好地捕捉到数据中的重要信息，忽略掉冗余和噪声。

这样可以提高数据的表示能力，使得数据的表达更加准确和有意义。

此外，稀疏编码还具有较强的鲁棒性。

在现实应用中，数据常常受到噪声、缺失和异常值等因素的干扰。

稀疏编码通过选择性地激活特征，可以在一定程度上抵抗这些干扰，提高数据处理的鲁棒性。

二、稀疏编码的应用领域稀疏编码在多个领域都有广泛的应用，下面将分别从图像处理、语音识别和推荐系统三个方面进行解析。

1. 图像处理在图像处理领域，稀疏编码常用于图像压缩、图像去噪和图像恢复等任务。

通过对图像进行稀疏表示，可以利用少量的非零系数来重构图像，从而实现图像的压缩和恢复。

同时，稀疏编码还可以通过选择性地激活特征，去除图像中的噪声，提高图像的质量。

2. 语音识别在语音识别领域，稀疏编码常用于语音特征提取和语音信号处理。

通过对语音信号进行稀疏表示，可以提取出语音中的关键特征，减少冗余信息，从而提高语音识别的准确度和鲁棒性。

同时，稀疏编码还可以通过选择性地激活特征，去除语音信号中的噪声和干扰，提高语音识别的性能。

稀疏自编码器SAE

DL Model
• 自动编码器（ห้องสมุดไป่ตู้utoEncoder）稀疏自动编码器（Sparse AutoEncoder）降噪自动编码器（Denoising AutoEncoders）
• 限制波尔兹曼机（Restricted Boltzmann Machine）
• 深信度网络（Deep Belief Networks） • 卷积神经网络（Convolutional Neural Networks）
Sparse AutoEncoder
为什么能稀疏？
1、减小编码后隐藏层神经元个数。比如，后一层比前一层神经元个数少。
2、隐藏层的任何一个神经元不应该总是高度激活。
怎么衡量某个隐藏神经元的激活度？
取平均就好了
Sparse AutoEncoder
为隐藏单元 j 的平均激活值
(2) (2) (2) ˆ ˆ ˆ a a a 1 3 3 如左图， 1 2 2
征，以发现数据的分布式特征表示。
• 特点：通过构建多隐层的模型和海量训练数据，来学习
更有用的特征，从而最终提升分类或预测的准确性。
一般含多隐层的多层感知器就是一种深度学习结构。
DL Model
“深度模型”是手段，“特征学习”是目的。 DL强调模型结构的深度，通常有5-10多层的隐层节点，
BP、SVM是只含有一层隐层节点的浅层模型。
autoencoder将input输入一个encoder编码器就会得到一个code这个code也就是输入的一个表示再加一个decoder解码器这时候decoder就会输出一个信息那么如果输出的这个信息和一开始的输入信号input是很像的理想情况下就是一样的就有理由相信这个code是靠谱的

2013 科学技术与工程稀疏自动编码器在文本分类中的应用研究_秦胜君

第 13 卷第 31 期 2013 年 11 月 1671 — 1815 （ 2013 ） 31-9422-05
科
学
技
术
与
工
程
Science Technology and Engineering
Vol. 13 No. 31 Nov． 2013 2013 Sci. Tech. Engrg.
稀疏自动编码器在文本分类中的应用研究
随着网络技术的不断发展，互联网成为了人们发布和获取文本信息的重要途径。然而，文本数量持续地递增，使文本排序变得杂乱无章，人们很难如何对大量快速而准确地获取所需的信息。因此，的文本进行有效的组织，帮助用户尽快找到所需的信息成为当代信息科学技术领域的重要研究课题
图2 DBN 结构图
发平台为 eclipse。 3. 2 分类性能评价 P）文本分类的性能评价采用准确率（ precision，Ｒ）两个指标进行评估。和召回率（ racall， P = a a ；Ｒ = 。 a +b a +c
DBN 的训练最开始通过对比分歧（ contrastive divergence）方法进行预训练获得生成模型的权值。然后使用 Gibbs 采样，隐含层单元和可视层输入之间的相关性差别作为权值更新的主要依据。使用 Gibbs 采样之后，训练时间会显著减少，只需要单个步骤就可以接近最大似然学习，降低了网络训练时 DBN 通过利用带标签数据对判别性间。另一方面，能做调整，在分类任务中，其性能比单纯的 BP 算法训练的网络好。DBN 的训练是一个复杂的过程，在 8］。此不再详述，详情可参见文献［通过 SEA 算法可以获取输入数据特征，而 DBN 具有较好的分类效果。因此，本文结合 SEA 和 DBN 算法，形成 SD 算法进行文本分类，整个算法主要过程描述如下：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• •
if i+1==n % 倒数第二层，即最后一个隐含层 d{i} = (d{i + 1} * nn.W{i} + sparsityError) .* d_act; % d_act = nn.a{i} .* (1 - nn.a{i});
• else %此外 • d{i} = (d{i + 1}(:,2:end) * nn.W{i} + sparsityError) .* d_act; • if(nn.dropoutFraction>0)% nn.dropOutMask{i}在nnff中已求得，必须与它相同 • d{i} = d{i} .* [ones(size(d{i},1),1) nn.dropOutMask{i}];（清零）二、求dW{i} • if i+1==n • nn.dW{i} = (d{i + 1}' * nn.a{i}) / size(d{i + 1}, 1); • else • nn.dW{i} = (d{i + 1}(:,2:end)' * nn.a{i}) / size(d{i + 1}, 1); • (以往的bp网络，△W=-ƞ*de/dw,这里多了稀疏项，以及Dropout 的处理，在下一步的 nnapplygrads中还多了权值惩罚以及权值动量)
nntest • 调用函数nnpredict进行分类 • 看看分类结果与类标不同的有多少个，将它个数除以测试样本个数，得到偏差。
nnpredict.m
• 令nn.test=1,然后把测试样本代进nnff函数中。得到输出。再令 nn.test=0。 • 找出此次代入nnff后的最后一层的每行的最大值所在的位置
• if(nn.nonSparsityPenalty>0)% 在nnbp中用到 • nn.p{i} = 0.99 * nn.p{i} + 0.01 * mean(nn.a{i}, 1);
三、输出层 • 1。当输出不接softmax时 • nn.a{n} = sigm(nn.a{n - 1} * nn.W{n - 1}'); • 2。当输出接分类器softmax时（此次实验没用到它） • … • 得到误差值 • e=y-a{n} • 当输出不接softmax时，平均误差平方为 • L = sum(sum(1/2 * nn.e .^ 2)) / m;
nntrain.m
x h y
结果
W1 b1
W2 b2
nnff.m
• 得到每层的激活值，一、输入层 • a{1}=[ones(m,1) x],这里m=size(x,1)=100 二、隐含层（这里只考虑s函数） • 从第2到第n-1层，a{i} = sigm(nn.a{i - 1} * nn.W{i - 1}'); • dropoutFraction用在训练隐含层中，随机将激活值按比例清零（为了让权值不起作用） • dropoutFraction用在测试中，将激活值nn.a{i} = nn.a{i}.*(1 - nn.dropoutFraction)
深度学习(1)——
稀疏自动编码机（SAE）网络
广东工业大学
13级控制工程 1019408133@
传统神经网络 • 1）比较容易过拟合，参数比较难调整； • 2）训练速度比较慢，在层次比较少（小于等于3）的情况下效果并不比其它方法更优； BP算法存在的问题： • （1）梯度越来越稀疏：从顶层越往下，误差校正信号越来越小； • （2）收敛到局部最小值：尤其是从远离最优区域开始的时候（随机值初始化会导致这种情况的发生）； • （3）一般，我们只能用有标签的数据来训练：但大部分的数据是没标签的，而大脑可以从没有标签的的数据中学习；
nnappபைடு நூலகம்ygrads.m
• 梯度下降法计算作为更新值的nn.W。 • 当设置nn.weightPenaltyL2>0，则 • dW = nn.dW{i} +… • nn.weightPenaltyL2 * [zeros(size(nn.W{i},1),1) nn.W{i}(:,2:end)]; • 当设置nn.weightPenaltyL2=0，则dW = nn.dW{i} • • • • • • 再让dW乘以学习率（或称步长）如果权值动量momentum>0，则 nn.vW{i} = nn.momentum*nn.vW{i} + dW; dW = nn.vW{i}; 最后nn.W{i} = nn.W{i} - dW; 1。惩罚项方法是一种间接修剪网络的办法，其原理是在传统的误差函数中加入一衡量网络结构复杂程度的“复杂度项”。应用到权值更新规则后，该项在训练过程中起到防止权值增长太大和驱使不重要权值逐渐减小到零的作用。尽管那些接近零的连接权没有从网络中被删除。但它们对网络输出几乎没有影响，已相当于从网络中被删除了。这样一来，训练后的神经网络实际上已是被修剪过的小网络了。可见，惩罚项法在没有破坏网络结构的同时又达到网络修剪的目的，从而是提高神经网络泛化能力的一个重要方法。 .2。权值动量是为了解决 “步长大收敛快，但是容易引起不稳定；步长小可避免振荡，但是收敛慢”的矛盾。
nnbp.m
• 为了得到n-1组dW，用于调节n-1个W。在求dW过程中用到了中间变量 d{i}，d_act 一、求d{i} 1.输出层的d{n} • 当 nn.output=‘sigm’时，d{n} = - nn.e .* (nn.a{n} .* (1 - nn.a{n})); • （即1/2 *nn.e^2的复合函数求导，其中变量是nn.a{n}） 2.隐含层的d{i} • if(nn.nonSparsityPenalty>0) • pi = repmat(nn.p{i}, size(nn.a{i}, 1), 1); • sparsityError = [zeros(size(nn.a{i},1),1) nn.nonSparsityPenalty * (-nn.sparsityTarget ./ pi + (1 - nn.sparsityTarget) ./ (1 - pi))];
一、针对过拟合现象的处理 • 1.惩罚项(Penalty，正则化方法，正则化的一般形式是在整个目标函数后增加一个正则项，以使经验风险最小化。把不重要的项的参数保留，但是令其系数为零)
• 2.给输入层a{1}加噪，以及对隐含层a{i}进行Dropout （按比例随机清零。）二、针对训练快慢与稳定性的矛盾应用权值动量辅助调整权值三、针对以往一个bp网络不能太多层先逐个逐个隐含层进行无监督训练（实际还是用bp），即调用 saesetup.m以及saetrain.m。然后得到各个隐含层的参数才对完整的网络进行有监督训练。
• 三、训练前向网络
saesetup.m
这里sae.setup中的输入是[784 100]，令architecture=[784 10 784] ,调用nnsetup进行网络参数设置。
x
h
x
W1 b1
W1’ b1’
saetrain.m
• 逐个隐含层进行nntrain(sae.ae{i}, x, x, opts)训练更新sae.ae{i}参数，其实就是更新sae.ae{i}.W{1}、sae.ae{i}.W{2} • 实验中，这里的i=1，因而就是得到sae.ae{1}.W{1}、sae.ae{1}.W{2}，而最后只取用sae.ae{1}.W{1}
nnsetup.m
nn.size = architecture; %要设置的各层节点结构，如[784 100 784] nn.n = numel(nn.size); %层数，当[784 100 784]，则为3 nn.activation_function = ‘tanh_opt’; %激活函数，或称传递函数 nn.learningRate = 2; %学习率，或称步长，就是决定每次梯度下降的长度 nn.momentum = 0.5; % 权值动量 nn.scaling_learningRate = 1; %在nntrain中出现，是每代间，学习率的关系倍数 nn.weightPenaltyL2 = 0; %权值惩罚(L2正则化)，在nnapplygrads中用到 nn.nonSparsityPenalty = 0; %稀疏惩罚项，在nnbp中用到。 nn.sparsityTarget = 0.05; %稀疏目标，在nnbp中用到。 nn.inputZeroMaskedFraction = 0; %用于加噪 nn.dropoutFraction = 0; %每一次mini-batch样本输入训练时，随机扔掉0%的隐含层节点 nn.testing = 0; %设置此时网络有无测试 nn.output = ‘sigm’; %输出接什么函数，还有'softmax' and 'linear‘ 以下i 为从第 2 到最后一层 nn.n nn.W{i - 1} 随机给出网络权值初始值 nn.vW{i - 1} 让它初值=0 %用于更新参数时的临时参数 nn.p{i} 让它初值=0 稀疏
test_example_SAE.m
• 一、训练隐含层（例中为单个隐含层）
• • • • 1.调用saesetup设置网络参数( 结构为[784 100]的两层网络) 2.在第1步基础上修改网络参数（这里是修改第一组的激活函数类型、学习率、输入加噪率、训练迭代次数、batchsize) 3.调用saetrain，让它对各个隐含层进行逐层训练（例子中给的隐含层数为 1层，100个节点，输入输出同是train_x。每次进行nntrain来训练隐含层都为三层网络，输入层和输出层一样） 4.对第一组权值进行可视化，看看学习结果。（由于例中的网络只有一个 100节点隐含层，故可视化为一张100个特征块图片。第一组权值W{1}用于编码，第二组W{2}用于解码）