(18)循环神经网络与LSTM

合集下载

理解神经网络中的长短期记忆网络

理解神经网络中的长短期记忆网络神经网络是一种模仿人类神经系统构建的计算模型，它通过模拟大脑的神经元之间的连接和信息传递来实现各种任务。

在神经网络中，长短期记忆网络（Long Short-Term Memory，简称LSTM）是一种特殊的循环神经网络（Recurrent Neural Network，简称RNN），它被广泛应用于自然语言处理、语音识别、图像处理等领域。

LSTM网络的设计灵感来自于人类的记忆系统，它的目标是解决传统循环神经网络中的长期依赖问题。

在传统的RNN中，信息会随着时间的推移逐渐消失，导致无法有效地记忆长期依赖关系。

LSTM通过引入记忆单元（Memory Cell）和门控机制（Gate Mechanism）来解决这个问题。

记忆单元是LSTM网络的核心组成部分，它类似于一个存储信息的容器。

记忆单元可以根据输入和前一时刻的记忆状态来更新自身的状态，并将新的状态传递给下一时刻。

这种机制使得LSTM网络能够有效地保留并传递长期的记忆。

门控机制是LSTM网络的关键特性之一，它包括输入门（Input Gate）、遗忘门（Forget Gate）和输出门（Output Gate）。

输入门决定了当前时刻输入的信息对记忆单元的影响程度，遗忘门决定了前一时刻的记忆状态对当前时刻的影响程度，输出门决定了当前时刻的记忆状态对输出的影响程度。

通过这些门控机制，LSTM 网络可以根据输入和前一时刻的状态有选择地更新记忆单元的内容。

除了记忆单元和门控机制，LSTM网络还包括了输入层、输出层和隐藏层。

输入层接收外部输入的信息，输出层输出最终的结果，隐藏层则负责处理信息并传递给下一层。

这些层之间的连接权重是通过训练数据来学习得到的，训练过程中使用的算法可以是梯度下降法等。

LSTM网络的训练过程可以分为两个阶段：前向传播和反向传播。

在前向传播阶段，网络根据当前的输入和前一时刻的状态计算出当前时刻的状态和输出，并将其传递给下一时刻。

了解循环神经网络(RNN)中的LSTM和GRU

了解循环神经网络（RNN）中的LSTM和GRU循环神经网络（Recurrent Neural Network，简称RNN）是一种常用的神经网络模型，用于处理序列数据，在自然语言处理、语音识别、机器翻译等领域取得了很好的效果。

LSTM（Long Short-Term Memory）和GRU（Gated Recurrent Unit）是RNN中常用的两种变体，它们通过引入门控机制解决了传统RNN面临的“梯度消失”和“梯度爆炸”问题，提高了模型的性能和效果。

一、LSTM（Long Short-Term Memory）LSTM是由Hochreiter和Schmidhuber于1997年提出的一种循环神经网络结构，可以用于处理长期依赖关系。

它通过三个门控单元（输入门、遗忘门、输出门）来控制信息的流动，有效地避免了梯度消失和梯度爆炸问题。

1. 输入门（Input Gate）：控制输入记忆细胞的更新程度。

2. 遗忘门（Forget Gate）：控制记忆细胞中的信息保留和遗忘。

3. 输出门（Output Gate）：控制输出的计算和激活。

LSTM网络中，记忆细胞（Cell State）起到了承载和传递信息的作用，通过门控机制可以有效地决定信息的流动，使得网络可以灵活地记住和遗忘信息，具备更强的长依赖关系建模能力。

LSTM的模型参数较多，计算复杂度较高，但在处理长序列数据和需要长期记忆的场景下表现出色。

二、GRU（Gated Recurrent Unit）GRU是由Cho等人于2014年提出的一种变种循环神经网络结构，相比LSTM简化了门控单元的结构，并取得了近似的性能。

GRU中只有两个门（重置门、更新门），分别用于控制更新和重置操作。

重置门决定了当前时刻是否可以忽略过去的信息，而更新门则控制了新信息的加入程度。

GRU在参数数量上较LSTM更少，计算效率更高。

三、LSTM与GRU的对比LSTM和GRU在很多应用场景中都表现出良好的性能，但二者在某些方面有所不同。

卷积神经网络与循环神经网络

卷积神经网络与循环神经网络卷积神经网络（Convolutional Neural Network，CNN）和循环神经网络（Recurrent Neural Network，RNN）是目前深度学习领域最为流行的两种神经网络架构。

它们分别适用于不同的数据类型和任务，能够有效地处理图像、语音、文本等各种形式的数据。

一、卷积神经网络卷积神经网络是一种专门用于处理格状数据（如图像）的神经网络模型。

它的核心思想是利用卷积操作对输入数据进行特征提取，然后通过池化操作减小特征图的尺寸，最后将提取到的特征输入全连接层进行分类或回归。

卷积神经网络的结构主要包括卷积层、池化层和全连接层。

1.1卷积层卷积层是卷积神经网络的核心组件，它通过卷积操作对输入数据进行特征提取。

卷积操作是指使用一个滤波器（也称为卷积核）在输入数据上进行滑动计算，得到对应位置的输出。

滤波器的参数是在训练过程中通过反向传播算法学习得到的。

在图像处理中，卷积操作可以帮助提取图像中的边缘、纹理、角点等特征。

卷积层一般会使用多个不同的滤波器，从而提取多个不同的特征。

1.2池化层池化层是利用池化操作对卷积层的输出进行降采样，从而减小特征图的尺寸。

常见的池化操作有最大池化和平均池化。

最大池化是保留每个区域内的最大值作为输出，平均池化是计算每个区域内的平均值作为输出。

池化操作的目的是减少计算复杂度和减小过拟合。

1.3全连接层全连接层是卷积神经网络的最后一层，它将池化层的输出作为输入进行分类或回归。

全连接层的每个神经元都与上一层的所有神经元相连，输出一个标量值。

全连接层通常使用一种称为softmax的函数将输出转化为概率分布，再根据不同任务进行相应的损失函数计算和优化。

卷积神经网络通过共享权重和局部感知野的设计，大大减少了模型参数的数量，同时也能够保留输入数据的局部结构特征。

这使得卷积神经网络在图像识别、目标检测、语义分割等计算机视觉任务中取得了很大的成功。

二、循环神经网络循环神经网络是一种专门用于处理序列数据（如语音、文本）的神经网络模型。

神经网络长短期记忆(LSTM)简介

0. 从RNN说起循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络。

相比一般的神经网络来说，他能够处理序列变化的数据。

比如某个单词的意思会因为上文提到的内容不同而有不同的含义，RNN就能够很好地解决这类问题。

1. 普通RNN先简单介绍一下一般的RNN。

其主要形式如下图所示：这里：x为当前状态下数据的输入，h表示接收到的上一个节点的输入。

y为当前节点状态下的输出，而h/为传递到下一个节点的输出。

通过上图的公式可以看到，输出h'与x和h的值都相关。

而y则常常使用h'投入到一个线性层（主要是进行维度映射）然后使用softmax进行分类得到需要的数据。

对这里的y如何通过h'计算得到往往看具体模型的使用方式。

通过序列形式的输入，我们能够得到如下形式的RNN。

2. LSTM2.1 什么是LSTM长短期记忆（Long short-term memory, LSTM）是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。

简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

LSTM结构（图右）和普通RNN的主要输入输出区别如下所示。

相比RNN只有一个传递状态h t，LSTM有两个传输状态，一个c t（cell state），和一个h t（hidden state）。

（Tips：RNN中的h t对于LSTM中的c t）其中对于传递下去的c t改变得很慢，通常输出的c t是上一个状态传过来的c t-1加上一些数值。

而h t则在不同节点下往往会有很大的区别。

2.2 深入LSTM结构下面具体对LSTM的内部结构来进行剖析。

首先使用LSTM的当前输入x t和上一个状态传递下来的h t-1拼接训练得到四个状态。

其中，z f，z i，z o是由拼接向量乘以权重矩阵之后，再通过一个sigmoid激活函数转换成0到1之间的数值，来作为一种门控状态。

时间序列数据挖掘方法

时间序列数据挖掘方法时间序列数据是指按照时间顺序收集的数据，例如气温变化、股票价格、人口增长等。

这些数据具有时间依赖性和序列性，因此时间序列数据挖掘成为了一门重要的方法。

时间序列数据挖掘被广泛应用于天气预测、股票价格预测、销售预测等领域。

本文将介绍几种常用的时间序列数据挖掘方法。

一、传统时间序列分析方法1. 平滑方法平滑方法是时间序列分析中最常见的方法之一。

它通过对数据进行平均或移动平均等操作来消除噪声和季节性变动，使得数据趋于平稳。

常见的平滑方法包括简单平均法、加权平均法和指数平滑法等。

2. 拆解方法拆解方法是将时间序列数据分解为趋势、季节性和残差三个部分。

趋势表示数据的长期变动趋势，季节性表示数据的周期性变动，残差表示无法被趋势和季节性解释的部分。

拆解方法常用的有加法模型和乘法模型。

3. ARIMA模型ARIMA模型是一种常用的时间序列预测方法，它基于自回归（AR）、移动平均（MA）和差分（I）的方法。

ARIMA模型可以用于对拥有趋势和季节性的数据进行建模和预测。

二、机器学习方法传统的时间序列分析方法在处理复杂的时间序列数据时可能存在局限性。

因此，近年来，越来越多的研究者开始将机器学习方法应用于时间序列数据挖掘中。

1. 循环神经网络（RNN）循环神经网络是一种特殊的神经网络，它能够处理序列数据。

通过添加循环连接，RNN能够在处理每一个数据点时，利用前面所有数据的信息。

RNN在时间序列数据挖掘中应用广泛，尤其在预测和分类任务中表现出色。

2. 卷积神经网络（CNN）卷积神经网络是一种对图像处理非常有效的神经网络。

虽然CNN主要应用于图像处理，但近年来被证明也适用于一维时间序列数据的特征提取。

通过卷积和池化等操作，CNN可以捕捉时间序列数据的局部和全局特征，从而实现有效的时间序列数据挖掘。

3. 长短时记忆网络（LSTM）长短时记忆网络是一种常用的循环神经网络架构，专门用于处理和预测时间序列数据。

LSTM通过引入记忆单元，能够更好地捕捉序列数据中的长期依赖关系。

lstm的应用原理

LSTM的应用原理什么是LSTM？长短期记忆网络（Long Short-Term Memory，LSTM）是一种特殊类型的循环神经网络（Recurrent Neural Network，RNN）。

与传统的RNN相比，LSTM具有更强大的记忆能力，能够更有效地处理时间序列数据。

LSTM的结构LSTM网络由一系列的LSTM单元组成。

每个LSTM单元都包含了三个门（input gate，forget gate和output gate）和一个记忆单元。

通过门的控制，LSTM 能够选择性地记住重要的信息并忘记无关紧要的信息。

1. 输入门（Input Gate）输入门用于控制输入数据的更新。

通过一个sigmoid函数将输入和上一时刻的状态进行运算后，生成一个0到1之间的值，表示多少信息被保存下来。

2. 遗忘门（Forget Gate）遗忘门用于控制前一时刻的状态被遗忘的程度。

同样通过一个sigmoid函数，将输入和上一时刻的状态进行运算后，生成一个0到1之间的值，表示多少状态被遗忘。

3. 输出门（Output Gate）输出门用于控制即将输出的状态。

同样通过一个sigmoid函数，将输入和上一时刻的状态进行运算后，生成一个0到1之间的值，表示输出状态的重要程度。

4. 记忆单元（Cell Memory）记忆单元用于存储中间的状态。

它是LSTM网络的核心组件，可以根据输入、遗忘和输出门的控制，选择性地更新、保存和输出状态。

LSTM的工作原理LSTM通过门的控制，能够处理长序列数据并且能够记住重要的信息。

以下是LSTM的工作原理：1.初始化状态–将输入序列中的第一个元素输入到LSTM网络中。

–初始化记忆单元和状态，通常为0向量。

2.逐个元素更新状态–将下一个元素输入到LSTM网络中。

–计算输入、遗忘和输出门的值。

–根据门的值更新记忆单元和状态。

3.提取输出–通过输出门的控制，选择性地提取输出状态。

4.迭代直至最后一个元素–通过循环，重复步骤2和步骤3，直至处理完所有输入元素。

深度学习技术在自然语言处理中的应用

深度学习技术在自然语言处理中的应用自然语言处理(NLP)是人工智能中最具挑战性的领域之一，线性模型在此领域中已经被证明无法有效地处理复杂的语言结构。

然而，随着人工智能技术的发展和深度学习技术的崛起，深度学习成为NLP领域的主流方法。

深度学习技术可以处理自然语言中的语义和语法，并在NLP中实现广泛的应用。

在人类自然语言中，每个单词都可以有几个不同的含义，具体含义可以根据上下文来确定。

因此，处理自然语言就需要让机器根据单词出现的上下文来理解它的含义。

利用深度学习技术，我们可以通过神经网络将单词的语义和上下文信息相结合，从而更好地理解自然语言。

在深度学习技术中，循环神经网络(RNN)和长短期记忆(LSTM)被广泛使用。

RNN可以将上一个单词和当前单词的信息连接起来，用于处理自然语言中的序列数据。

而LSTM则是一类特殊的RNN模型，它专门处理长序列中的梯度消失和梯度爆炸问题。

由于LSTM网络可以记住历史信息，因此更适合处理基于语言的任务。

深度学习技术在NLP中的应用包括文本生成、文本分类、自然语言生成和机器翻译等。

下面，我们将重点关注其中的两个应用场景。

1. 问答系统问答系统是一种实现人机交互的应用程序。

问答系统可以是基于检索的系统，也可以是基于自然语音处理的系统，但是不管哪种方式，NLP都是问答系统的核心技术。

当进行问题回答时，问答系统首先需要根据输入的自然语言，从文本中提取问题的核心信息，并将其转化为机器语言。

然后再从已知知识库中获取答案。

由于知识库是海量的，因此如何准确又快速地检索答案成为了一个难点。

利用深度学习技术，我们可以训练一个神经网络，将问题和答案进行映射，并将答案的相关性排名，以得出最佳答案。

同时，还可以对问题的语言模型进行建模，找到与问题最匹配的答案。

2. 情感分析情感分析是一种通过自然语言处理来确定文本情感的技术。

情感分析可以检测出用户的情绪，评估评论的好坏，判断公司的声誉等等。

深度学习技术可以通过处理大量的标注数据，来学习对情感的理解，向量化文本，对文本的情感进行分类。

神经网络中的LSTM层介绍及应用

神经网络中的LSTM层介绍及应用神经网络是一种模拟人脑神经元工作方式的数学模型，它通过大量的神经元相互连接，实现对输入数据的学习和预测。

其中，LSTM（Long Short-Term Memory）层作为一种特殊的循环神经网络层，具有记忆能力和长期依赖处理能力，被广泛应用于自然语言处理、语音识别、机器翻译等领域。

LSTM层的结构和传统的循环神经网络相比，引入了三个门控单元：输入门、遗忘门和输出门。

这些门控单元通过学习参数来控制信息的流动，从而实现对长期依赖关系的建模。

输入门决定了当前时刻的输入信息是否被纳入记忆单元，遗忘门决定了上一时刻的记忆是否被保留，输出门则决定了当前时刻的输出信息。

LSTM层的应用非常广泛。

在自然语言处理领域，LSTM层可以用于语言模型的建立和文本生成。

通过学习大量的语言数据，LSTM层可以捕捉到词语之间的上下文关系，从而生成具有连贯性和语义合理性的文本。

在机器翻译中，LSTM层可以将源语言的句子映射到目标语言的句子，实现自动翻译的功能。

此外，LSTM层还可以应用于语音识别任务。

语音信号是一种时间序列数据，具有时序性和长期依赖性。

传统的循环神经网络在处理长序列时容易出现梯度消失或梯度爆炸的问题，而LSTM层通过引入门控机制，可以有效地解决这些问题。

因此，LSTM层在语音识别中被广泛应用，可以将输入的语音信号转化为文字。

除了自然语言处理和语音识别，LSTM层还可以应用于时间序列预测任务。

时间序列数据具有时序性和相关性，传统的神经网络往往无法捕捉到这些特征。

而LSTM层通过记忆单元的存储和更新，可以有效地建模时间序列数据的长期依赖关系，从而提高预测的准确性。

例如，LSTM层可以用于股票价格预测、天气预测等任务。

总结起来，LSTM层作为一种特殊的循环神经网络层，具有记忆能力和长期依赖处理能力，被广泛应用于自然语言处理、语音识别、机器翻译和时间序列预测等领域。

通过引入门控机制，LSTM层可以有效地解决传统循环神经网络在处理长序列时的梯度消失和梯度爆炸问题。

循环神经网络中的lstm大概是什么意思？

同样，如果场景是⼀个超市，有⼈⼿拿培根，应该被标记为购物，⽽不是做饭。

我们想做的事情，是让模型追踪世界的状态。

1. 看到每个图像后，模型输出⼀个标签，并更新其对世界的知识。

例如，模型能学会⾃动发现和追踪信息，例如位置、时间和电影进度等。

重要的是，模型应该能⾃动发现有⽤的信息。

2. 对于给定的新图像，模型应该融合收集⽽来的知识，从⽽更好的⼯作。

这样就成了⼀个循环神经⽹络RNN。

除了简单的接收⼀张图⽚返回⼀个活动标记之外，RNN会通过给信息分配不同的权重，从⽽在内部保留了对世界的记忆，以便更好的执⾏分类任务。

RNN的数学原理如图所⽰：通过LSTM实现长期记忆模型如何更新对世界的认知？到⽬前为⽌，还没有任何规则限制，所以模型的认知可能⾮常混乱。

这⼀帧模型认为⼈物⾝处美国，下⼀帧如果出现了寿司，模型可能认为⼈物⾝处⽇本……这种混乱的背后，是信息的快速变换和消失，模型难以保持长期记忆。

所以我们需要让⽹络学习如何更新信息。

⽅法如下：1. 增加遗忘机制。

例如当⼀个场景结束是，模型应该重置场景的相关信息，例如位置、时间等。

⽽⼀个⾓⾊死亡，模型也应该记住这⼀点。

所以，我们希望模型学会⼀个独⽴的忘记/记忆机制，当有新的输⼊时，模型应该知道哪些信息应该丢掉。

2. 增加保存机制。

当模型看到⼀副新图的时候，需要学会其中是否有值得使⽤和保存的信息。

3. 所以当有⼀个新的输⼊时，模型⾸先忘掉哪些⽤不上的长期记忆信息，然后学习新输⼊有什么值得使⽤的信息，然后存⼊长期记忆中。

4. 把长期记忆聚焦到⼯作记忆中。

最后，模型需要学会长期记忆的哪些部分⽴即能派上⽤场。

不要⼀直使⽤完整的长期记忆，⽽要知道哪些部分是重点。

这样就成了⼀个长短期记忆⽹络（LSTM）。

RNN会以相当不受控制的⽅式在每个时间步长内重写⾃⼰的记忆。

⽽LSTM则会以⾮常精确的⽅式改变记忆，应⽤专门的学习机制来记住、更新、聚焦于信息。

这有助于在更长的时期内跟踪信息。

LSTM的数学原理如图所⽰：卡⽐兽△ 神奇宝贝中的卡⽐兽我们不妨拿《神奇宝贝》中的卡⽐兽对⽐下不同类别的神经⽹络。

人工智能深度学习技术练习(习题卷18)

人工智能深度学习技术练习(习题卷18)说明：答案和解析在试卷最后第1部分：单项选择题，共47题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]一般我们建议将卷积生成对抗网络(convolutional generative adversarial nets)中生成部分的池化层替换成什么?CA)跨距卷积层(Strided convolutional layer)B)ReLU层C)部跨距卷积层(Fractional stridedconvolutional layer)D)仿射层(Affine layer)2.[单选题]梯度下降算法的正确步骤是什么?A计算预测值和真实值之间的误差B重复迭代，直至得到网络权重的最佳值C把输入传入网络，得到输出值D用随机值初始化权重和偏差E对每一个产生误差的神经元，调整相应的(权重)值以减小误差A)AbcdeB)EdcbaC)CbaedD)Dcaeb3.[单选题]自顶向下设计主要由下列哪个语法元素实现？（）。

A)面向对象B)函数C)循环结构D)过程4.[单选题]自定义循环训练模型模式，无需（）过程A)编译B)求导C)计算梯度D)计算得分5.[单选题]pytorch中可视化参数分布：A)writer.add_graphB)writer.add_scalarC)writer.add_histogramD)writer.add_figure6.[单选题]Sigmoid激活函数的导数范围是( )A)(0,0.1]B)(0,0.2]C)(0,0.25]D)(0,0.5]7.[单选题]绘制直方图的命令是（）。

A)plt.bar()B)plt.histC)plt.pieD)plt.scatter8.[单选题]哪个算法同一层使用不同的卷积核尺寸进行计算A)LeNetB)AlexNetC)ResNetD)Inception9.[单选题]要建立数学模型,其详细过程是必须经过数据测量、数据比较、( )过程,才能达到最优。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4月机器学习算法班
循环神经网络之结构细节
o 可以把隐状态St视作“记忆体”，捕捉了之前时间点上的信息。 o 输出Ot由当前时间及之前所有的“记忆”共同计算得到。 o 很可惜，实际应用中，St并不能捕捉和保留之前所有信息（记忆有限？） o 不同于CNN，这里的RNN其实整个神经网络都共享一组参数（U,V,W），极大减小了需要训练和预估的参数量 o 图中的Ot在有些任务下是不存在的，比如文本情感分析，其实只需要最后的output结果就行
4月机器学习算法班
RNN模仿贴吧留言例子
4月机器学习算法班

RNN模仿贴吧留言例子
o 详见ipython notebook
4月机器学习算法班
RNN模仿贴吧留言例子
o 详见ipython notebook
4月机器学习算法班
LSTM比较？
o 2015的paper《LSTM: A Search Space Odyssey》中，对各种变体做了对比，发现其实本质上它们大大同小异。 o 2015的论文文《An Empirical Exploration of Recurrent Network Architectures》中，google和facebook的大大神尝试了1w+种RNN架构，发现并非所有任务上LSTM都表现最好。 o 现在有更多的RNN研究方方向，比如attention model和Grid LSTM等等
o 通过“门”让信息选择性通过，来去除或者增加信息到细胞状态 o 包含一个sigmoid神经网络层和一个pointwise乘法操作 o Sigmoid 层输出0到1之间的概率值，描述每个部分有多少量可以通过。 0代表“不许任何量通过”，1就指“允许任意量通过”
4月机器学习算法班

o 模仿论文(连公式都格式很正确)
4月机器学习算法班

循环神经网络与应用
o 模仿莎士比亚的作品
4月机器学习算法班

循环神经网络与应用
o 模仿小四的作品
4月机器学习算法班

循环神经网络与应用
o 看图说话
4月机器学习算法班
4月机器学习算法班

LSTM的几个关键“门”与操作
o 第3步：更新“细胞状态” 更新Ct-1为Ct 把旧状态与ft相乘，丢弃掉我们确定需要丢弃的信息加上it* 。这就是新的候选值，根据我们决定更新每个状态的程度进行变化。
4月机器学习算法班

神经网络到循环神经网络
o 我们知道神经网络结构如下
o 那循环神经网络和它是什么关系呢？
4月机器学习算法班
循环神经网络
o 为什么有BP神经网络，CNN，还要RNN？
n 传统神经网络(包括CNN)，输入和输出都是互相独立的。 Ø 图像上的猫和狗是分隔开的，但有些任务，后续的输出和之前的内容是相关的。 Ø “我是中国人，我的母语是___” n RNN引入“记忆”的概念 Ø 循环2字来源于其每个元素都执行相同的任务。 Ø 但是输出依赖于输入和 “记忆”
4月机器学习算法班

感谢大家！恳请大家批评指正！
4月机器学习算法班

4月机器学习算法班
julyeduห้องสมุดไป่ตู้com
循环神经网络之 LSTM
o LSTM关键：“细胞状态”
o 细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。
4月机器学习算法班

循环神经网络之 LSTM
o LSTM怎么控制“细胞状态”？

不同类型的RNN
o 双向RNN o 有些情况下，当前的输出不只依赖于之前的序列元素，还可能依赖之后的序列元素 o 比如从一段话踢掉部分词，让你补全 o 直观理解：2个RNN叠加
4月机器学习算法班

不同类型的RNN
o 深层双向RNN o 和双向RNN的区别是每一步/每个时间点我们设定多层结构
4月机器学习算法班

循环神经网络之 LSTM
o 前面提到的RNN解决了，对之前的信息保存的问题 o 但是！从在长期依赖的问题。 n 看电影的时候，某些情节的推断需要依赖很久以前的一些细节。 n 很多其他的任务也一样。 n 很可惜随着时间间隔不断增大时，RNN 会丧失学习到连接如此远的信息的能力。 n 也就是说，记忆容量有限，一本书从头到尾一字不漏的去记，肯定离得越远的东西忘得越多。 n 怎么办：LSTM
4月机器学习算法班

循环神经网络之 LSTM
o 咱们把“记忆细胞”表示得炫酷一点
4月机器学习算法班

循环神经网络之 LSTM
o LSTM呢？ o “记忆细胞”变得稍微复杂了一点点
4月机器学习算法班

循环神经网络之 LSTM
o 图太复杂，细节看不懂？别着急，我们解释解释。
4月机器学习算法班

循环神经网络之结构
o 简单来看，把序列按时间展开
4月机器学习算法班

循环神经网络之结构
o Xt是时间t处的输入 o St是时间t处的“记忆”，St=f(UXt+WSt−1)，f可以是tanh等 o Ot是时间t出的输出，比如是预测下个词的话，可能是 softmax输出的属于每个候选词的概率
4月机器学习算法班

LSTM的变体
o 变种3：Gated Recurrent Unit (GRU)，2014年提出 Ø 将忘记门和输入门合成了一个单一的更新门 Ø 同样还混合了细胞状态和隐藏状态，和其他一些改动。 Ø 比标准LSTM简单。
4月机器学习算法班

4月机器学习算法班

LSTM的变体
o 变种1 Ø 增加“peephole connection” Ø 让门层也会接受细胞状态的输入。
4月机器学习算法班

LSTM的变体
o 变种2 Ø 通过使用 coupled 忘记和输入门 Ø 之前是分开确定需要忘记和添加的信息，这里是一同做出决定。
4月机器学习算法班
循环神经网络之 LSTM
o LSTM是RNN一种，大体结构几乎一样。区别是？ o 它的“记忆细胞”改造过。 o 该记的信息会一直传递，不该记的会被“门”截断。
4月机器学习算法班

循环神经网络之 LSTM
o 之前提到的RNN结构如下
LSTM的几个关键“门”与操作
o 第1步：决定从“细胞状态”中丢弃什么信息 => “忘记门” o 比如完形填空中填“他”或者“她”的问题，细胞状态可能包含当前主语的类别，当我们看到新的代词，我们希望忘记旧的代词。
4月机器学习算法班

LSTM的几个关键“门”与操作
o 第2步：决定放什么新信息到“细胞状态”中 Sigmoid层决定什么值需要更新 Tanh层创建一个新的候选值向量上述2步是为状态更新做准备
循环神经网络与LSTM
七月算法
寒老师
2016年7月3日
4月机器学习算法班 1
主要内容
n 神经网络与循环神经网络
1.强大的功能 2.层级结构 3.多种RNN
n LSTM
1.长时依赖问题 2.“记忆细胞”与状态
n LSTM变体
1.GRU等
4月机器学习算法班
循环神经网络与应用
LSTM的几个关键“门”与操作
o 第4步：基于“细胞状态”得到输出
首先运行一个sigmoid 层来确定细胞状态的哪个部分将输出接着用tanh处理细胞状态(得到一个在-1到1之间的值)，再将它和 sigmoid门的输出相乘，输出我们确定输出的那部分。比如我们可能需要单复数信息来确定输出“他”还是“他们”