chap-循环神经网络 - 360文档中心

chap-语言模型与词嵌入

T ∏ t=1 T ∏ t=2
(15.4) (15.5) (15.6)
P (wt |w1:(t−1) )
=
P (wt |w1:(t−1) ),
(15.7)
为了形式上简洁，公式（15.7）引进一个虚拟词 w0 ，并且假定 P (w1 |w0 ) = p(w1 )。从公式（15.7）可以看出，我们需要估计句子中每个词 wt 在给定前面词序列 w1:(t−1) 时的条件概率。假如我们有一个很大的文档集合，就可以去估计这些
1
https://en.wikiΒιβλιοθήκη /wiki/Lists_of_colors
197 维的稠密向量。比如“红色”为 [1, 0, 0]， “中国红”为 [0.67, 0.22, 0.12]， “黑色”为 [0, 0, 0]。相比与局部表示，分布式表示需要的神经元数量要少得多，并且很容易表示新的颜色名。此外，不同颜色之间的相似度也很容易计算。对于更一般的自然语言，我们无法从语言编码中获取任何语义的信息。比如“猫”和“狗”两个字的 UTF8 编码分别为“&#x732B”和“&#x72D7” 。在传统机器学习中，我们经常使用局部表示的方法来表示语言。假设一个语言中的词都取自词汇表 V ，大小为 |V|。我们将每个词看成一个特征，如果这个词出现，则这个特征的值为 1，否则为 0。这样，我们可以用 |V| 维的特征向量来表示文本。假设我们有 4 个词“白” 、 “黑” 、 “狗”和“猫” ，词表大小为 4。这 4 个词分别赋予一个唯一的编号 1, 2, 3, 4，它们的向量表示分别为 v白 = [1 0 0 0 ]T . v黑 = [0 1 0 0 ]T . v狗 = [0 0 1 0 ]T . v猫 = [0 0 0 1 ]T ,

物理知识神经网络

PINN的未来展望
持续改进PINN的网络结构和训练算法探索更广泛的应用领域提高PINN在工程实践中的可用性
PINN的工程应用案例
使用PINN优化飞机机翼设计模拟地下水流动以预测污染扩散优化电子元件布局以降低热耗散
PINN的学术研究领域
PINN在计算流体动力学中的应用求解波动方程以模拟声波传播应用于地球物理学中的地下介质建模
感谢！
单击此处添加文本具体内容
PINN用于2D圆柱绕流的参数估计
非稳态NS方程的描述与意义基于PINN的参数估计方法详解恢复误差分析与示例展示未知参数的收敛性与稳定性
流场可视化与PINN
从稀疏速度观测重建高分辨率流场应用于气动力学与实验研究保持物理规律的高分辨率流场重建PINN在流体可视化中的前景
隐流体力学与PINN
无网格方法与Kansa法
无网格方法与PINN的原型Kansa法用于解决边值问题通过配点得到待定系数的线性方程组
神经网络与RBF-net
RBF-net是基于径向基函数的无网格方法PINN将单层RBF-net扩展为多层感知机（MLP）MLP用于逼近解，自动微分运算表达微分算子
PINN的基本结构
PINN用神经网络参数化解多层感知机（MLP）是常见的网络结构损失函数包括控制方程、初值/边界条件残差和观测数据
为什么单纯数据驱动会出问题？
泛化性能差，推断可能不符合物理。物理现象的混沌本质，如分岔现象（Bifurcation）。示例：学习 y^2=x，无法保证结果满足物理限制。
物理知识驱动的优势
通过嵌入物理知识，保证结果符合物理。示例：可极小化目标以符合物理限制。物理知识的嵌入可以适用于复杂方程。 Bifurcation是复杂物理过程中的常见现象。

chap-网络正则化与优化

l wi ai
(l−1)
)
(l−1)
(6.10)
i=1
=
(l−1) n∑
l Var(wi ) Var(ai
) ).
(6.11) (6.12)
i=1 l = n(l−1) Var(wi ) Var(ai (l−1)
l 也就是说，输入信号的方差在经过该神经元后被放大或缩小了 n(l−1) Var(wi ) 倍。
[0, 1] 或 [−1, 1] 之间： x ˆ(i) = x(i) − min(x) , max(x) − min(x) (6.4)
其中，min(x) 和 max(x) 分别为这一维特征在所有样本上的最小值和最大值。 PCA 使用 PCA (Principal Component Analysis) 方法可以去除掉各个成分之间的相关性。
标准归一化
标准归一化也叫 z-score 归一化，来源于统计上的标准分数。将每
一个维特征都处理为符合标准正态分布（均值为 0，标准差为 1）。假设有 N 个
邱锡鹏：《神经网络与深度学习》
95
https://nndl.github.io/
96
第六章
网络正则化与优化
w2
w2
w1
w1
(a) 未归一化数据的梯度
邱锡鹏：《神经网络与深度学习》
96
https://nndl.github.io/
6.3 批量归一化
97
原始数据
标准归一化
PCA 白化
图 6.2: 数据归一化示例 0.4 训练集测试集
0.3
0.2
0.1
0 −4
−2
0
2
4
6
8

神经网络——BP算法

2）在一般情况下，均是在隐含层采用 S 型激活函数，而输出层采用线性激活函数。
只有当希望对网
络的输出进行限 x1
y1
…… ……
……
制，如限制在0和 x2
1之间，那么则在
yp
输出层包含 S 型 xn 激活函数
神经网络——BP算法
BP网络特点
是多层网络，包括输入层、隐层和输出层层与层之间采用全互连方式，同一层神经
神经网络——BP算法
为了能够较好地掌握BP网络的训练过程，我们再用两层网络为例来叙述BP 网络的训练步骤。
1)用小的随机数对每一层的权值W初始化，以保证网络不被大的加权输入饱和；
2)计算网络各层输出矢量A1和A2以及网络误差E
神经网络——BP算法
3)计算各层反传的误差变化并计算各层权值的修正值以及新权值
如果在输出层没有得到期望的输出，则计算输出层的误差变化值，然后转向反向传播，通过网络将误差信号沿原来的连接通路反传回来修改各层神经元的权值直至达到期望目标。
神经网络——BP算法
BP网络用途 1)函数逼近：用输入矢量和相应的输出矢
量训练一个网络逼近—个函数； 2)模式识别：用一个特定的输出矢量将它
神经网络——BP算法
7.2.2 BP网络结构
输
输
入
出
输入层
隐层
输出层
BP神经网络模型结构
神经网络——BP算法
BP网络是一种多层前向神经网络
❖一般分三层：输入层，隐层，输出层，也可以有2层或更多个隐层。 ❖层与层之间采用全互联方式，同一层单元之间不存在相互连接。
神经网络——BP算法
1）输入层单元无转换函数，直接接收信号传给下一层，所以有些书不认为输入层是一个网络层。

chap-深度信念网络

《神经网络与深度学习》
深度信念网络
https://nndl.github.io/
玻尔兹曼机
《神经网络与深度学习》
2
玻尔兹曼机（Boltzmann machine）
玻尔兹曼机是一个特殊的概率无向图模型。
每个随机变量是二值的所有变量之间是全连接的整个能量函数定义为
P(X) 为玻尔兹曼分布
当系统温度非常高T → ∞时，pi → 0.5，即每个变量状态的改变十分容易，每一种网络状态都是一样的，而从很快可以达到热平衡。
当系统温度非常低T → 0时，如果∆Ei (x\i ) > 0则pi → 1，如果∆Ei (x\i ) < 0则pi → 0。
随机性方法变成确定性方法
Hopfield网络
受限玻尔兹曼机是一个二分图结构的无向图模型。
在受限玻尔兹曼机中，变量可以为两组，分别为隐藏层和可见层（或输入层）。
节点变量的取值为0或1。和两层的全连接神经网络的结构相同。
《神经网络与深度学习》
10
全条件概率
《神经网络与深度学习》
11
参数学习
采用梯度上升法时，参数W,a,b可以用下面公式近似地更新
14
深度信念网络
《神经网络与深度学习》
15
深度信念网络（Deep Belief Networ）
深度信念网络是深度的有向的概率图模型，其图结构由多层的节点构成。
和全连接的神经网络结构相同。顶部的两层为一个无向图，可以看做是一个受限玻尔兹曼
机。
认知权重
《神经网络与深度学习》
生成权重
16
“如果梦中的景象不是我脑中的相应概念，改变我的认知权重使得这种景象在我看来就是这个概念”；

RNN中的循环神经网络算法及其优化

RNN中的循环神经网络算法及其优化循环神经网络（Recurrent Neural Network，简称RNN）是一种具有记忆功能的神经网络模型。

在自然语言处理、语音识别、图像识别等领域中广泛应用。

RNN能够根据之前的输入和当前的输入产生输出，并且将之前的信息存储下来，在下次的运算中再次使用，这种记忆性是传统神经网络不具备的。

本文将介绍RNN中的循环神经网络算法及其优化。

一、基本概念1. 网络结构RNN是由一个或多个隐藏层节点组成的神经网络，每个节点包含一个非线性的激活函数和一个状态。

其中输入层接收输入信号，然后将这些信号传递给隐藏层和输出层。

因此，RNN可以将以前的输入和当前的输入一起考虑，然后生成输出和状态。

在循环神经网络中，状态向后传递到下一个时间步，因此网络在每个时间步采用相同的权重矩阵。

2. 训练方法训练RNN的方法包括反向传播算法等，由于误差在后向传播时随着时间步的增加而指数级增长，所以特殊的误差反向传播算法被用于训练RNN。

3. 应用RNN具有记忆功能，适用于对序列数据进行处理，如时间序列数据、自然语言等，是目前自然语言处理和音频处理等领域的重要研究方向之一。

二、循环神经网络算法1. 长短时记忆网络（LSTM）LSTM是一种常用的循环神经网络模型，能够有效地解决长时间依赖问题，避免梯度消失和爆炸。

LSTM的关键是加入了三个门来控制信息流，包括输入门、遗忘门和输出门，能够有效地控制网络状态的更新。

2. 简单循环神经网络（SRNN）SRNN是一种最简单的循环神经网络模型，它只有一个隐藏层节点，并且所有节点都使用相同的权重。

由于其简单性，SRNN的收敛速度很快，但它不能足够强大地拟合数据。

因此，SRNN也不适用于处理时间序列数据。

三、循环神经网络的优化1. 双向循环神经网络（Bi-RNN）与常规的RNN一样，Bi-RNN也由一个或多个隐藏层节点组成，但双向循环神经网络在每个时间步同时考虑该节点的前一个和后一个状态，从而更好地捕捉数据的特征。

了解循环神经网络(RNN)中的注意力机制

了解循环神经网络（RNN）中的注意力机制循环神经网络（Recurrent Neural Networks，RNNs）是一种非常强大的深度学习模型，它在自然语言处理、语音识别和图像生成等任务中取得了重要的突破。

然而，传统的RNN模型存在一个问题，即对于长序列的处理能力较弱，容易出现梯度消失/爆炸的问题。

为了解决这个问题，注意力机制（Attention Mechanism）被引入到RNN模型中。

注意力机制允许RNN模型能够对序列中的重要部分进行专注，从而更准确地进行预测和生成。

注意力机制的核心思想是，对于给定的输入序列，模型应该在不同的时间步长上分配不同的注意力权重。

这意味着模型可以专注于与当前预测相关的重要信息。

下面，让我们详细了解在循环神经网络中使用注意力机制的工作原理。

1. 注意力机制介绍在传统的RNN模型中，每个时间步长的隐藏状态只依赖于上一个时间步长的隐藏状态。

而在引入注意力机制后，隐藏状态的计算还会受到输入序列的其他部分的影响。

具体来说，注意力机制通过计算每个时间步长的注意力权重来确定每个时间步长的重要程度。

这些权重与输入序列的不同部分相关联，从而允许模型有选择地关注某些部分。

通过引入注意力机制，模型可以自动学习到每个时间步长的注意力权重，而不是使用固定权重或者简单的均匀分配权重。

这使得模型能够更好地适应不同的输入序列和任务。

2. 注意力机制的计算注意力机制的计算通常分为三个步骤：计算注意力权重、加权求和和上下文向量的计算。

1) 计算注意力权重：注意力权重可以通过不同的方法计算得到，其中最常用的方法是使用软注意力（Soft Attention）。

Soft Attention使用可学习的全连接层和激活函数（通常是softmax函数）将隐藏状态和输入序列的每个时间步长进行映射，得到注意力权重。

2) 加权求和：计算得到注意力权重后，可以将输入序列乘以相应的权重并求和，得到加权求和的结果。

这个结果可以看作是对输入序列的一种加权表示。

chap-模型独立的学习方式

集成学习协同学习多任务学习迁移学习终身学习元学习
《神经网络与深度学习》
3
集成学习
三个臭皮匠赛过诸葛亮
《神经网络与深度学习》
4
集成方式
Bagging类
Bagging（Bootstrap Aggregating）是一个通过不同模型的训练数据集的独立性来提高不同模型之间的独立性。我们在原始训练集上进行有放回的随机采样，得到M 比较小的训练集并训练M 个模型，然后通过投票的方法进行模型集成。
《神经网络与深度学习》
模型独立的学习方式
https://nndl.github.io/
模型独立的学习方式
这些学习方式不限于具体的模型
前馈神经网络、循环神经网络还是其他模型
然而一种学习方式往往会对符合某种特性的模型更加青睐
集成学习往往和方差大的模型组合时效果显著。
《神经网络与深度学习》
2
内容
迁移学习（Transfer Learning）
《神经网络与深度学习》
12
元学习（Meta Learning）
《神经网络与深度学习》
13
元学习（Meta Learning）
《神经网络与深度学习》
14
终身学习
《神经网络与深度学习》15来自谢谢https://nndl.github.io/
《神经网络与深度学习》
10
Machine Learning 1997
Multitask Learning is an approach to inductive transfer that improves generalization by using the domain information contained in the training signals of related tasks as an inductive bias. It does this by learning tasks in parallel while using a shared representation; what is learned for each task can help other tasks be learned better.

从ReLU到GELU，一文概览神经网络的激活函数

w^L，则我的前⼀篇⽂章说过，如果我们想更新特定的权重，则更新规则为：但如果偏导数 ∂C/∂w^(L) 很⼩，如同消失了⼀般，⼜该如何呢？这时我们就遇到了梯度消失问题，其中许多权重和偏置只能收到⾮常⼩的更新。

可以看到，如果权重的值为 0.2，则当出现梯度消失问题时，这个值基本不会变化。

因为这个权重分别连接了第⼀层和第⼆层的⾸个神经元，所以我们可以⽤的表⽰⽅式将其记为假设这个权重的值为 0.2，给定⼀个学习率（具体多少不重要，这⾥使⽤了 0.5），则新的权重为：这个权重原来的值为 0.2，现在更新为了 0.199999978。

很明显，这是有问题的：梯度很⼩，如同消失了⼀样，使得神经⽹络中的权重⼏乎没有更新。

这会导致⽹络中的节点离其最优值相去甚远。

这个问题会严重妨碍⼈们已经观察到，如果不同层的学习速度不同，那么这个问题还会变得更加严重。

层以不同的速度学习，前⾯⼏层总是会根据学习率⽽变得更差。

出⾃ Nielsen 的书《Neural Networks and Deep Learning》。

在这个⽰例中，隐藏层 4 的学习速度最快，因为其成本函数仅取决于连接到隐藏层 4 的权重变化。

我们看看隐藏层 1；这⾥的成本函数取决于连接隐藏层 1 与隐藏层 2、3、4 的权重变化。

如果你看过了我前⼀篇⽂章中同时，如前⾯介绍的那样，最后⼀层仅取决于计算偏导时出现的⼀组变化：最终，这就是个⼤问题了，因为现在权重层的学习速度不同。

这意味着⽹络中更后⾯的层⼏乎肯定会被⽹络中更前⾯的层受到更多优化。

⽽且问题还在于反向传播算法不知道应该向哪个⽅向传递权重来优化成本函数。

梯度爆炸问题梯度爆炸问题本质上就是梯度消失问题的反⾯。

研究表明，这样的问题是可能出现的，这时权重处于「爆炸」状态，即它们的值快速增长。

我们将遵照以下⽰例来进⾏说明：/chap5.html#what's_causing_the_vanishing_gradient_problem_unstable_gradients_in_deep_neural_nets注意，这个⽰例也可⽤于展⽰梯度消失问题，⽽我是从更概念的⾓度选择了它，以便更轻松地解释。

周志华机器学习西瓜书全书16章pptChap05神经网络课件

冰河期
1985左右 -1995左右 ~繁荣期： Hopfield (1983), BP (1986), …
1995年左右：SVM 及统计学习兴起
沉寂期
2010左右 -至今 ~繁荣期：深度学习
交替模式 : 热十（年）冷十五（年）
启示
科学的发展总是“螺旋式上升” 三十年河东、三十年河西坚持才能有结果！
训练： • 网络接收输入样本后，将会确定输出层的“获胜”神经元（“胜者通吃”） • 获胜神经元的权向量将向当前输入样本移动
级联相关网络
CC: Cascade-Correlation (级联相关)
构造性神经网络：将网络的结构也当做学习的目标之一，希望在训练过程中找到适合数据的网络结构
训练： • 开始时只有输入层和输出层 • 级联 - 新的隐层结点逐渐加入，从而创建起层级结构 • 相关 - 最大化新结点的输出与网络误差之间的相关性
SOM 神经网络
SOM: Self-Organizing feature Map (自组织特征映射 )
• 竞争型的无监督神经网络 • 将高维数据映射到低维空间（通常为 2
维） , 高维空间中相似的样本点映射到网络输出层中邻近神经元 • 每个神经元拥有一个权向量 • 目标：为每个输出层神经元找到合适的权向量以保持拓扑结构
• 每次针对单个训练样例更新权值与阈值
• 参数更新频繁 , 不同样例可能抵消 , 需要多次迭代
• 其优化目标是最小化整个训练集上的累计误差
• 读取整个训练集一遍才对参数进行更新 , 参数更新频率较低
在很多任务中 , 累计误差下降到一定程度后 , 进一步下降会非常缓慢, 这时标准 BP算法往往会获得较好的解, 尤其当训练集非常大时效果更明显.