人工智能实践：Tensorflow笔记北京大学 4 第四讲神经网络优化 (4.6.1) 助教的Tenso

合集下载

深度学习实战：如何使用TensorFlow构建强大的神经网络

深度学习实战：如何使用TensorFlow构建强大的神经网络在人工智能领域中，深度学习是一个非常热门的话题。

人们都在追求如何深入挖掘机器的潜力，让机器变得更加智能、更加自适应、更加高效，实现自主决策和自主行动。

而深度学习正是为此提供了一种极具潜力的方法论。

而TensorFlow是谷歌公司开发的一个广泛使用的深度学习框架，它针对大规模的机器学习和深度神经网络设计。

那么如何使用TensorFlow构建强大的神经网络呢？本文将会从TensorFlow的基本概念开始介绍，一步步地实现简单的神经网络，直到最终构建强大的深度神经网络，并对其进行训练和测试。

首先，我们需要了解TensorFlow是什么。

它是一个用于构建和训练神经网络的深度学习框架，能够帮助机器更好地处理大规模数据集，并实现复杂的神经网络结构。

其核心是一个基于数据流图的计算模型，允许你在一个统一的接口下使用不同的算法和硬件，而不必考虑后台的处理细节。

接下来，我们需要了解TensorFlow的基本概念。

TensorFlow的核心概念是张量、节点和图。

张量是指一个向量或多维数组，节点则是指TensorFlow 中的运算操作，图则是指节点之间的连接关系。

当我们将这些节点组合在一起时，就构建出了一个神经网络。

TensorFlow不仅提供了一个用户友好的API，还提供了广泛的文档、示例和教程。

另外，TensorFlow还提供了多种强大的工具来支持网络训练和调试。

例如tfdbg，可以帮助开发人员调试神经网络代码；TensorBoard可以帮助开发人员更好地可视化数据和图像；tf.contrib.learn可以帮助开发人员更方便地进行机器学习。

这些工具的存在，让TensorFlow不仅仅是一个数学库，而是一个更加全面的深度学习框架。

接下来，我们通过一个简单的例子来演示如何使用TensorFlow构建神经网络。

这里我们使用一个经典的MNIST手写数字识别数据集，来训练一个简单的神经网络模型。

神经网络算法的优化方法

神经网络算法的优化方法人工神经网络是一种仿生学的技术，它通过对大量的训练数据进行学习和优化，达到了模拟大脑神经元的效果。

然而，神经网络的训练过程复杂而耗时，需要不断调整网络结构和优化算法，才能获得满意的结果。

本文将介绍神经网络算法的优化方法。

一、神经网络的目标函数神经网络的训练过程就是通过一定的优化算法来最小化目标函数。

在神经网络中，目标函数通常被称为损失函数（loss function），其表示网络预测结果与真实值之间的差距。

常见的损失函数包括均方误差（MSE）、交叉熵（Cross Entropy）等。

均方误差是指预测值与真实值之差的平方和，交叉熵是一种度量两个概率分布之间差异的度量方式。

二、梯度下降优化算法梯度下降是一种常见的优化算法，其基本思想是通过不断地沿着梯度负方向更新网络参数，逐步降低目标函数的值。

具体而言，梯度下降算法按照以下步骤进行：1. 初始化网络参数。

2. 计算目标函数的梯度。

3. 根据梯度值调整网络参数。

4. 重复步骤2和步骤3，直至目标函数足够小，或者达到最大迭代次数。

在实际应用中，梯度下降算法通常会结合一些改进策略，如动量法（Momentum）、自适应学习率（Adaptive Learning Rate）等，以提高算法的收敛速度和稳定性。

三、自适应优化算法随着神经网络应用场景的不断增加，传统的梯度下降算法已经不能满足需求，因此出现了一些自适应优化算法。

3.1 Adam算法Adam算法是一种自适应优化算法，其基于动量法和RMSProp 算法设计。

Adam算法会根据当前梯度值和历史梯度信息来动态调整每个参数的学习率，以适应不同的梯度特征和目标函数形状。

具体而言，Adam算法按照以下步骤进行：1. 初始化参数和动量项。

2. 计算梯度和梯度平方的移动平均值，分别对应一阶矩估计（即动量项）和二阶矩估计（即变量速率）。

3. 根据当前梯度和梯度平方的移动平均值，计算动态学习率。

4. 根据动态学习率更新网络参数。

深度学习基础教程：使用TensorFlow进行神经网络训练与推理

深度学习基础教程：使用TensorFlow进行神经网络训练与推理深度学习是人工智能领域的一个重要分支，具有广泛的应用前景。

TensorFlow 是一个开源的深度学习框架，可以用于构建和训练各种神经网络模型。

本文将介绍如何使用TensorFlow进行神经网络训练与推理，并提供详细的步骤。

一、安装TensorFlow1. 下载TensorFlow的安装包，可从官方网站或者第三方网站进行下载。

2. 根据操作系统的不同，选择对应的安装方式，例如使用pip命令进行安装。

3. 安装完毕后，验证TensorFlow的安装是否成功，可以打开Python的命令行窗口，输入import tensorflow语句，若无报错信息则表示安装成功。

二、构建神经网络模型1. 导入TensorFlow库，例如import tensorflow as tf。

2. 定义输入的占位符，例如x = tf.placeholder(tf.float32, [None, input_size])，其中input_size是输入的特征维度。

3. 定义神经网络的结构，可以选择不同的层类型，例如全连接层（yers.dense）、卷积层（yers.conv2d）等。

4. 定义网络的输出，通常是通过softmax函数得到分类的概率分布，例如y_pred = tf.nn.softmax(logits)。

5. 定义损失函数，例如交叉熵损失函数（tf.nn.softmax_cross_entropy_with_logits）。

6. 定义优化器，例如选择梯度下降优化算法（tf.train.GradientDescentOptimizer）。

7. 定义训练操作，例如train_op = optimizer.minimize(loss)。

8. 定义评估指标，例如准确率（accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))）。

人工智能开发技术的神经网络优化

人工智能开发技术的神经网络优化人工智能是近年来备受瞩目的领域，而人工智能的核心技术之一就是神经网络。

神经网络是一种模仿人脑神经元之间相互连接的计算模型，通过大量的训练数据和优化算法，使得神经网络能够自主学习和适应各种复杂任务。

在人工智能开发技术中，神经网络的优化是极为关键的环节。

神经网络的优化需要考虑两个方面的问题：一方面是模型的结构设计，另一方面是参数的调整。

模型的结构设计主要是指神经网络的层数、每层神经元的数量以及神经元之间的连接方式等。

参数的调整则是指模型的权重和偏置等参数的取值。

如何在众多的结构和参数组合中寻找到最佳的模型，是神经网络优化的核心问题。

在神经网络优化中，最常用的方法是梯度下降法。

梯度下降法的主要思想是通过计算模型的损失函数关于参数的导数，来更新参数的取值，从而逐渐降低模型的损失值。

梯度下降法有两种常见的变种：批量梯度下降法和随机梯度下降法。

批量梯度下降法是每次迭代时使用所有样本来计算模型的梯度，而随机梯度下降法则是每次迭代时仅使用一个样本来计算模型的梯度。

两种方法各有优缺点，具体选择何种方法需要根据实际情况进行权衡。

除了梯度下降法，还有一些其他的优化算法被广泛应用于神经网络的训练过程中。

其中最著名的就是Adam优化算法。

Adam算法结合了梯度的一阶矩估计和二阶矩估计，可以自适应地调整学习率，从而更快地收敛到最优解。

相比于传统的梯度下降法，Adam算法具有更好的性能和收敛速度。

除了选择适当的优化算法之外，还可以通过正则化、Dropout等技术来优化神经网络的训练过程。

正则化是通过在损失函数中添加正则项的方式来约束模型参数的取值范围，防止过拟合的发生。

Dropout是一种随机失活的方法，可以在训练过程中随机地将某些神经元的输出置为零，从而降低模型对训练数据的过度拟合。

除了上述的模型设计和参数调整的问题之外，还有一些其他的技术可以用于神经网络的优化。

例如，输入数据的预处理可以通过归一化等方式来减少不同特征之间的差异，提高模型的训练效果。

神经网络的优化方法及技巧

神经网络的优化方法及技巧神经网络是一种模拟人脑神经元工作方式的计算模型，它可以通过学习和训练来实现各种复杂的任务。

然而，神经网络的优化是一个复杂而耗时的过程，需要考虑许多因素。

本文将探讨神经网络的优化方法及技巧，帮助读者更好地理解和应用神经网络。

一、梯度下降法梯度下降法是一种常用的优化方法，通过迭代地调整网络参数来最小化损失函数。

其基本思想是沿着损失函数的负梯度方向更新参数，使得损失函数不断减小。

梯度下降法有多种变体，如批量梯度下降法、随机梯度下降法和小批量梯度下降法。

批量梯度下降法使用所有训练样本计算梯度，更新参数；随机梯度下降法每次只使用一个样本计算梯度，更新参数；小批量梯度下降法则是在每次迭代中使用一小批样本计算梯度，更新参数。

选择合适的梯度下降法取决于数据集的规模和计算资源的限制。

二、学习率调整学习率是梯度下降法中的一个重要参数，决定了参数更新的步长。

学习率过大可能导致参数在损失函数最小值附近震荡，而学习率过小则会导致收敛速度缓慢。

为了解决这个问题，可以使用学习率衰减或自适应学习率调整方法。

学习率衰减是指在训练过程中逐渐减小学习率，使得参数更新的步长逐渐减小；自适应学习率调整方法则根据参数的梯度大小自动调整学习率，如AdaGrad、RMSProp和Adam等。

这些方法能够在不同的训练阶段自动调整学习率，提高训练效果。

三、正则化正则化是一种用来防止过拟合的技巧。

过拟合是指模型在训练集上表现良好，但在测试集上表现较差的现象。

常见的正则化方法有L1正则化和L2正则化。

L1正则化通过在损失函数中添加参数的绝对值，使得模型更加稀疏，可以过滤掉一些不重要的特征；L2正则化通过在损失函数中添加参数的平方和，使得模型的参数更加平滑，减少参数的振荡。

正则化方法可以有效地减少模型的复杂度，提高模型的泛化能力。

四、批标准化批标准化是一种用来加速神经网络训练的技巧。

它通过对每个隐藏层的输出进行标准化，使得网络更加稳定和收敛更快。

TensorFlow深度学习与人工智能

TensorFlow深度学习与人工智能第一章：TensorFlow简介与基础TensorFlow是一个开源的机器学习框架，由Google开发并发布，用于构建和训练神经网络模型。

它使用图形计算的方式来表示数学运算，能够高效地在各种硬件平台上进行计算，包括CPU、GPU和专用的AI芯片。

TensorFlow提供了丰富的API和工具，使得深度学习和人工智能的研究和应用变得更加简单和高效。

在TensorFlow中，最基本的概念是张量（Tensor）。

张量是一种多维数组，可以表示任意维度的向量、矩阵等数据。

TensorFlow通过计算图的方式将计算过程表示为一个由节点和边组成的图结构，节点表示张量的操作，边表示张量之间的依赖关系。

通过构建计算图，可以利用TensorFlow的自动微分和自动并行化等特性来进行高效的训练和推断。

第二章：深度学习模型在TensorFlow中，可以使用各种不同的深度学习模型来解决不同的任务。

其中，最常用的模型之一是全连接神经网络（Fully Connected Neural Network），它由多个全连接层组成，每个神经元与前一层的所有神经元相连。

全连接神经网络在图像分类、文本处理等领域取得了很好的效果。

除了全连接神经网络，还有卷积神经网络（Convolutional Neural Network）用于图像处理，循环神经网络（Recurrent Neural Network）用于序列数据处理，生成对抗网络（Generative Adversarial Network）用于生成新的样本等。

这些模型都可以在TensorFlow中轻松地构建和训练。

第三章：TensorFlow应用TensorFlow被广泛应用于各种人工智能领域，如图像识别、语音识别、自然语言处理等。

其中，图像识别是TensorFlow的一个重要应用场景。

通过构建卷积神经网络，可以实现对图像中的物体、人脸等进行准确的识别和定位。

神经网络的训练与优化方法

神经网络的训练与优化方法1.梯度下降（Gradient Descent）梯度下降是神经网络中最常用的优化方法之一、其基本原理是通过不断调整网络参数来降低损失函数的值。

具体而言，梯度下降通过计算参数梯度的负方向来更新参数，以减小损失函数的值。

这个过程可以看作是在参数空间中找到损失函数最小值的下降过程。

2.反向传播算法（Backpropagation）反向传播算法是训练神经网络的关键算法之一、它通过不断计算损失函数对每个参数的梯度来更新参数。

反向传播算法基于链式法则，通过递归计算每一层的梯度来得到整个网络的梯度。

反向传播算法为神经网络提供了高效的梯度计算方法，使得网络可以在大规模数据上进行训练。

3.正则化（Regularization）正则化是一种常用的优化方法，用于防止神经网络过拟合。

过拟合是指模型在训练集上表现很好，但在测试集或实际应用场景中表现较差。

正则化通过在损失函数中引入额外的项来控制网络的复杂程度。

常用的正则化方法包括L1正则化、L2正则化以及Dropout等。

4.优化器（Optimizers）优化器是神经网络训练中常用的工具，用于找到损失函数的最小值。

常见的优化器包括随机梯度下降（SGD）、动量优化器（Momentum）、Nesterov动量优化器、Adagrad、RMSProp和Adam等。

它们的目标都是在每次参数更新时调整学习率以提高训练效果，并加速收敛过程。

5.学习率调整（Learning Rate Adjustment）学习率是指网络在训练过程中每次参数更新的步长。

学习率的选择直接影响网络的训练速度和性能。

通常来说，学习率过大可能导致网络不稳定，学习率过小可能导致网络收敛过慢。

因此，一般会采用学习率衰减或自适应学习率的方法来调整学习率。

常见的学习率调整策略有固定衰减、指数衰减、余弦退火等。

6.批量训练（Batch Training）批量训练是指在训练过程中使用一定数量的样本进行参数更新。

神经网络模型优化

学习▪模型的模轻型量可级部解署释。性和鲁棒性增强
1.可解释性增强：指提高模型的透明度和可理解性，以便更好地解释模型作出的预测和决策。 2.鲁棒性增强：指提高模型对异常数据和干扰的抵抗能力，从而提高模型的稳定性和可靠性。 3.常见可解释性和鲁棒性增强方法：包括集成学习、对抗训练等。 4.集成学习：通过将多个模型的预测结果进行融合，来提高模型的泛化能力和鲁棒
▪ 深度学习优化算法及其应用
1.深度学习优化算法是用于训练深度神经网络的优化算法，包括梯度下降、随机梯度下降、 Adam等算法。 2.这些算法通过迭代更新模型参数来最小化损失函数，实现模型优化。 3.在模型优化中，可以通过使用深度学习优化算法来提高模型的准确性和鲁棒性。 4.研究表明，深度学习优化算法在处理大规模数据集和复杂问题方面具有优势。
神经网络模型优化
模型结构优化
模型结构优化
▪ 模型结构优化概述
1.介绍神经网络模型优化的重要性，以及模型结构优化在其中的地位。 2.简述模型结构优化的主要目标，包括提高模型性能、减少模型复杂度、增强模型泛化能力等。
▪ 模型结构设计
1.介绍常见的神经网络模型结构，如卷积神经网络、循环神经网络、全连接神经网络等。 2.分析不同模型结构的优缺点，以及适用场景。 3.讲述如何根据具体问题选择合适的模型结构。
神经网络模型优化
模型评估与调优
模型评估与调优
▪ 模型评估指标及其重要性
1.模型评估是模型优化的关键步骤之一，用于判断模型在训练和测试集上的表现。 2.常见的模型评估指标包括准确率、精确率、召回率和F1得分等。 3.单一指标往往不足以全面评估模型性能，需要结合业务需求选择多个评估指标。 4.除了评估指标，模型的可解释性、鲁棒性和实时性等也是需要考虑的重要因素。

北京大学-人工智能实践：Tensorflow笔记一

北京大学-人工智能实践：Tensorflow笔记一本文目录：1：什么是人工智能？2：什么是机器学习？3：什么是深度学习？什么是人工智能？说起人工智能，首先会想到一个人物是图灵。

艾伦·麦席森·图灵（Alan Mathison Turing，1912年6月23日－1954年6月7日），英国数学家、逻辑学家，被称为计算机科学之父，人工智能之父。

1950年图灵在论文《机器能思考吗？》提出了图灵测试，一种用于判别机器是否具有智能的实验方法：提问者和回答者隔开，提问者通过一些装置(如键盘)向机器随意提问。

多次测试，如果有30%的提问者认为回答问题的是人而不是机器，那么这台机器就通过了测试，具有了人工智能。

也就是人工智能的概念：用机器模拟人的意识和思维。

什么是机器学习？再说概念之前，先来举个例子：每天早上7点半，班车从A地发往B地，到达B地的时间如何预测呢？如果你是第一次乘车，可能你的预测通常不太准。

一周以后你大概能预测到班车会8点左右到达B地；一个月之后，随着经验的增加，你还会知道，周一通常会堵车，会晚10分钟，下雨会堵车，会晚20分钟。

于是你画了一张图如下：如果是周一而且还下了雨会8点半到达，如果既不是周一也没有下雨会8点到达。

可以看出，随着你多次乘车（训练），实验的结果会越靠谱。

所以机器学习是一种统计方法学，计算利用已有数据得出某种模型，再利用此模型预测结果。

例子所示的模型是一种决策树模型，特点是：随经验的增加，效果会变好。

什么是深度学习？深度学习的概念：深层次神经网络，源于对生物神经元结构的研究。

它是一种模拟人脑神经网络的结构模型，如下图：人工智能，机器学习，深度学习之间的关系：人工智能：用机器模拟人的思维和意识。

机器学习：实现人工智能的一种方法，是人工智能的子集。

深度学习：深层次神经网络，是机器学习的一种实现方法，是机器学习的一个子集。

人工智能实践第四讲

∀�� (�� = ��) ∈ [��, ��]
softmax 函数表示为：��(��)
=
�� ∑��=��
7
由图可知，损失函数 loss 的最小值会在(-1,0)处得到，此时损失函数的导数为 0,得到最终参数 w = -1。代码如下：
运行结果如下：
由结果可知，随着损失函数值的减小，w 无限趋近于-1，模型计算推测出最优参数 w = -1。 √ 学习率的设置学习率过大，会导致待优化的参数在最小值附近波动，不收敛；学习率过小，会导致待优化的参数收敛缓慢。例如： ① 对于上例的损失函数 loss = (w + 1)2。则将上述代码中学习率修改为 1，其余内容不变。
tanh() 数学表达式 tanh() 数学图形 √ 神经网络的复杂度：可用神经网络的层数和神经网络中待优化参数个数表示 √ 神经网路的层数：一般不计入输入层，层数 =n 个隐藏层 + 1 个输出层
1
√ 神经网路待优化的参数：神经网络中所有参数 w的个数 + 所有参数 b的个数例如：
6
y1=(0.6, 0.4)，第二个神经网络模型预测结果为 y2=(0.8, 0.2)，判断哪个神经网络模型预测的结果更接近标准答案。
根据交叉熵的计算公式得： H1((1,0),(0.6,0.4)) = -(1*log0.6 + 0*log0.4) ≈ -(-0.222 + 0) = 0.222 H2((1,0),(0.8,0.2)) = -(1*log0.8 + 0*log0.2) ≈ -(-0.097 + 0) = 0.097 由于 0.222>0.097，所以预测结果 y2 与标准答案 y_更接近，y2 预测更准确。 √softmax 函数：将 n 分类的 n 个输出（y1,y2…yn）变为满足以下概率分布要求的函数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Tensorflow笔记：第四讲神经网络优化4.1√神经元模型：用数学公式表示为：f(∑i x i w i+b)，f为激活函数。

神经网络是以神经元为基本单元构成的。

√激活函数：引入非线性激活因素，提高模型的表达力。

常用的激活函数有relu、sigmoid、tanh等。

①激活函数relu: 在Tensorflow中，用tf.nn.relu()表示r elu()数学表达式 relu()数学图形②激活函数sigmoid：在Tensorflow中，用tf.nn.sigmoid()表示sigmoid ()数学表达式 sigmoid()数学图形③激活函数tanh：在Tensorflow中，用tf.nn.tanh()表示tanh()数学表达式 tanh()数学图形√神经网络的复杂度：可用神经网络的层数和神经网络中待优化参数个数表示√神经网路的层数：一般不计入输入层，层数 = n个隐藏层 + 1个输出层√神经网路待优化的参数：神经网络中所有参数w 的个数 + 所有参数b 的个数例如：输入层隐藏层输出层在该神经网络中，包含1个输入层、1个隐藏层和1个输出层，该神经网络的层数为2层。

在该神经网络中，参数的个数是所有参数w 的个数加上所有参数b 的总数，第一层参数用三行四列的二阶张量表示（即12个线上的权重w ）再加上4个偏置b ；第二层参数是四行两列的二阶张量（）即8个线上的权重w ）再加上2个偏置b 。

总参数 = 3*4+4 + 4*2+2 = 26。

√损失函数（loss ）：用来表示预测值（y ）与已知答案（y_）的差距。

在训练神经网络时，通过不断改变神经网络中所有参数，使损失函数不断减小，从而训练出更高准确率的神经网络模型。

√常用的损失函数有均方误差、自定义和交叉熵等。

√均方误差mse ：n 个样本的预测值y 与已知答案y_之差的平方和，再求平均值。

MSE(y_, y) = Ʃi=1n (y−y_)2n在Tensorflow 中用loss_mse = tf.reduce_mean(tf.square(y_ - y))例如：预测酸奶日销量y ，x1和x2是影响日销量的两个因素。

应提前采集的数据有：一段时间内，每日的x1因素、x2因素和销量y_。

采集的数据尽量多。

在本例中用销量预测产量，最优的产量应该等于销量。

由于目前没有数据集，所以拟造了一套数据集。

利用Tensorflow 中函数随机生成 x1、 x2，制造标准答案y_ = x1 + x2，为了更真实，求和后还加了正负0.05的随机噪声。

我们把这套自制的数据集喂入神经网络，构建一个一层的神经网络，拟合预测酸奶日销量的函数。

代码如下：运行结果如下：由上述代码可知，本例中神经网络预测模型为y = w1*x1 + w2*x2，损失函数采用均方误差。

通过使损失函数值（loss ）不断降低，神经网络模型得到最终参数w1=0.98，w2=1.02，销量预测结果为y = 0.98*x1 + 1.02*x2。

由于在生成数据集时，标准答案为y = x1 + x2，因此，销量预测结果和标准答案已非常接近，说明该神经网络预测酸奶日销量正确。

√自定义损失函数：根据问题的实际情况，定制合理的损失函数。

例如：对于预测酸奶日销量问题，如果预测销量大于实际销量则会损失成本；如果预测销量小于实际销量则会损失利润。

在实际生活中，往往制造一盒酸奶的成本和销售一盒酸奶的利润是不等价的。

因此，需要使用符合该问题的自定义损失函数。

自定义损失函数为：loss =∑n f(y_,y)其中，损失定义成分段函数：f (y_,y )={PROFIT ∗(y_−y ) y <y_COST ∗(y −y_) y >=y_损失函数表示，若预测结果y 小于标准答案y_，损失函数为利润乘以预测结果y 与标准答案y_之差；若预测结果y 大于标准答案y_，损失函数为成本乘以预测结果y 与标准答案y_之差。

用Tensorflow 函数表示为：loss = tf.reduce_sum(tf.where(tf.greater(y,y_),COST(y-y_),PROFIT(y_-y)))① 若酸奶成本为1元，酸奶销售利润为9元，则制造成本小于酸奶利润，因此希望预测的结果y 多一些。

采用上述的自定义损失函数，训练神经网络模型。

代码如下：运行结果如下：由代码执行结果可知，神经网络最终参数为w1=1.03，w2=1.05，销量预测结果为y =1.03*x1 + 1.05*x2。

由此可见，采用自定义损失函数预测的结果大于采用均方误差预测的结果，更符合实际需求。

②若酸奶成本为9元，酸奶销售利润为1元，则制造成本大于酸奶利润，因此希望预测结果y小一些。

采用上述的自定义损失函数，训练神经网络模型。

代码如下：运行结果如下：由执行结果可知，神经网络最终参数为w1=0.96，w2=0.97，销量预测结果为y =0.96*x1 + 0.97*x2。

因此，采用自定义损失函数预测的结果小于采用均方误差预测的结果，更符合实际需求。

√交叉熵(Cross Entropy)：表示两个概率分布之间的距离。

交叉熵越大，两个概率分布距离越远，两个概率分布越相异；交叉熵越小，两个概率分布距离越近，两个概率分布越相似。

交叉熵计算公式：H(y_ ,y)=−∑y_∗log y用Tensorflow函数表示为ce= -tf.reduce_mean(y_* tf.log(tf.clip_by_value(y, 1e-12, 1.0)))例如：两个神经网络模型解决二分类问题中，已知标准答案为y_ = (1, 0)，第一个神经网络模型预测结果为y1=(0.6, 0.4)，第二个神经网络模型预测结果为y2=(0.8, 0.2)，判断哪个神经网络模型预测的结果更接近标准答案。

根据交叉熵的计算公式得：H1((1,0),(0.6,0.4)) = -(1*log0.6 + 0*log0.4) ≈-(-0.222 + 0) = 0.222H2((1,0),(0.8,0.2)) = -(1*log0.8 + 0*log0.2) ≈-(-0.097 + 0) = 0.097由于0.222>0.097，所以预测结果y2与标准答案y_更接近，y2预测更准确。

√softmax函数：将n分类的n个输出（y1,y2…yn）变为满足以下概率分布要求的函数。

(X=x)=1∀x P(X=x)∈[0,1]且∑Pxsoftmax函数表示为：softmax(y i)=e yin e yi∑j=1softmax函数应用：在n分类中，模型会有n个输出，即y1,y2…yn，其中yi表示第i种情况出现的可能性大小。

将n个输出经过softmax函数，可得到符合概率分布的分类结果。

√在Tensorflow中，一般让模型的输出经过sofemax函数，以获得输出分类的概率分布，再与标准答案对比，求出交叉熵，得到损失函数，用如下函数实现：ce = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))cem = tf.reduce_mean(ce)4.2√学习率 learning_rate：表示了每次参数更新的幅度大小。

学习率过大，会导致待优化的参数在最小值附近波动，不收敛；学习率过小，会导致待优化的参数收敛缓慢。

在训练过程中，参数的更新向着损失函数梯度下降的方向。

参数的更新公式为：w n+1=w n−learning_rate∇假设损失函数为loss = (w + 1)2。

梯度是损失函数loss的导数为∇=2w+2。

如参数初值为5，学习率为0.2，则参数和损失函数更新如下：1次参数w：5 5 - 0.2 * (2 * 5 + 2) = 2.62次参数w：2.6 2.6 - 0.2 * (2 * 2.6 + 2) = 1.163次参数w：1.16 1.16 – 0.2 * (2 * 1.16 + 2) = 0.2964次参数w：0.296损失函数loss = (w + 1)2的图像为：由图可知，损失函数loss的最小值会在(-1,0)处得到，此时损失函数的导数为0,得到最终参数w = -1。

代码如下：运行结果如下：由结果可知，随着损失函数值的减小，w无限趋近于-1，模型计算推测出最优参数w = -1。

√学习率的设置学习率过大，会导致待优化的参数在最小值附近波动，不收敛；学习率过小，会导致待优化的参数收敛缓慢。

例如：①对于上例的损失函数loss = (w + 1)2。

则将上述代码中学习率修改为1，其余内容不变。

实验结果如下：由运行结果可知，损失函数loss值并没有收敛，而是在5和-7之间波动。

②对于上例的损失函数loss = (w + 1)2。

则将上述代码中学习率修改为0.0001，其余内容不变。

实验结果如下：由运行结果可知，损失函数loss值缓慢下降，w值也在小幅度变化，收敛缓慢。

√指数衰减学习率：学习率随着训练轮数变化而动态更新学习率计算公式如下：Learning_rate=LEARNING_RATE_BASE*LEARNING_RATE_DECAY*global_stepLEARNING_RATE_BATCH_SIZE用Tensorflow的函数表示为：global_step = tf.Variable(0, trainable=False)learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE,global_step,LEARNING_RATE_STEP, LEARNING_RATE_DECAY,staircase=True/False)其中，LEARNING_RATE_BASE为学习率初始值，LEARNING_RATE_DECAY为学习率衰减率,global_step记录了当前训练轮数，为不可训练型参数。

学习率learning_rate更新频率为输入数据集总样本数除以每次喂入样本数。

若staircase设置为True时，表示global_step/learning rate step取整数，学习率阶梯型衰减；若staircase设置为false时，学习率会是一条平滑下降的曲线。

例如：在本例中，模型训练过程不设定固定的学习率，使用指数衰减学习率进行训练。

其中，学习率初值设置为0.1，学习率衰减率设置为0.99，BATCH_SIZE设置为1。

代码如下：运行结果如下：由结果可以看出，随着训练轮数增加学习率在不断减小。

4.3√滑动平均：记录了一段时间内模型中所有参数w和b各自的平均值。