一天搞懂深度学习台湾大学李宏毅

李宏毅机器学习课程——Lifelonglearning学习笔记

李宏毅机器学习课程——Lifelonglearning学习笔记概述lifelong learning⾮常直观，意思是机器不能前边学后边忘。

常见的⽅法是对前边的task中学习出来的参数加⼀个保护系数，在后⾯的任务中，训练参数时，对保护系数⼤的参数很难训练，⽽保护系数⼩的参数则容易⼀些。

下⾯的图⾮常直观，颜⾊的深浅代表loss的⼤⼩，颜⾊越深loss越⼩。

在task1中θ2的变化对loss的变化⾮常敏感，⽽θ1则不敏感，所以在task2中尽量只通过改变θ1来减⼩loss，⽽不要改变θ2。

在lifelong learning中，loss的计算公式如下：L′(θ)=L(θ)+λΣi b i(θi−θb i)2其中b i就是对θ的保护系数，θi表⽰本次task中需要学习的参数，θb i是从之前的task中学习到的参数。

不同的⽅法差异就在于b i的计算。

这⾥将会结合Coding整理⼀下遇到的三个⽅法。

Coding这部分针对HW14，介绍了EWC，MAS，SCP三种⽅法，这⾥讲解⼀下具体的代码实现，并定性地分析⼀下这些⽅法是如何把哪些重要的参数保护起来。

EWCEWC中不同的保护系数f i使⽤如下的⽅法计算得到：F=[∇log(p(y n|x n,θ∗A))∇log(p(y n|x n,θ∗A))T]F的对⾓线的各个数就是各个θ的保护系数。

p(y n|x n,θ∗A)指的就是模型在给点之前 task 的 data x n以及给定训练完 task A (原来)存下来的模型参数θ∗A得到y n(x n对应的 label ) 的后验概率。

其实对参数θi，它的保护系数就是向量log(p(y n|x n,θ∗A))对θ1的偏导数∂log(p(y n|x n,θ∗A))∂θ1与⾃⾝的内积。

当对这个参数敏感时，这个偏导数会变⼤，当预测结果正确率⾼时，p(y n|x n)也会⾼，最终都会使的保护系数变⼤。

某⼀个参数⽐较敏感，这个参数下正确率⾼时，这个参数就会被很好地保护起来。

人工智能应用通俗指南_随笔

《人工智能应用通俗指南》阅读笔记目录1. 内容综述 (2)1.1 人工智能的历史背景 (2)1.2 人工智能的基本概念 (3)1.3 本指南的目标和内容概述 (4)2. 人工智能的基础知识 (5)2.1 机器学习的基本原理 (7)2.1.1 监督学习 (8)2.1.2 无监督学习 (9)2.1.3 强化学习 (9)2.2 神经网络介绍 (10)2.2.1 人工神经网络的基本结构 (11)2.2.2 深度学习的发展历程 (12)2.2.3 神经网络的训练方法 (13)3. 人工智能技术应用 (14)3.1 计算机视觉 (15)3.1.1 图像识别技术 (16)3.1.2 视频分析技术 (17)3.2 自然语言处理 (19)3.2.1 语音识别技术 (19)3.2.2 机器翻译技术 (21)3.3 机器人技术 (22)3.3.1 机器人类型介绍 (23)3.3.2 机器人控制技术 (25)3.4 专家系统 (26)3.4.1 专家系统的原理 (26)3.4.2 专家系统的应用案例 (28)4. 人工智能的发展趋势 (29)4.1 人工智能的未来前景 (30)4.2 通用人工智能的挑战与机遇 (31)4.3 人工智能对社会的影响 (33)5. 结论与实践 (34)5.1 总结全文的主要观点 (35)5.2 人工智能应用实例分析 (36)5.3 尝试实践项目建议 (37)1. 内容综述《人工智能应用通俗指南》是一本旨在向广大读者普及人工智能基本概念、发展历程及其在实际生活中的广泛应用的书籍。

本书内容涵盖了从基础原理、关键技术到具体应用场景的多个方面。

在内容综述部分，我们首先从人工智能的历史发展脉络入手，解释了人工智能的概念和它的发展历程。

随后阐述了人工智能领域的几大关键技术，包括机器学习、深度学习、自然语言处理和计算机视觉等，并简要介绍了这些技术的基本原理和应用案例。

本书详述了人工智能在日常生活、医疗健康、教育、交通、金融等多个领域的具体应用，通过实际案例展示了人工智能技术对各行业产生的深远影响。

李宏毅2021春机器学习课程笔记——生成对抗模型模型

李宏毅2021春机器学习课程笔记——⽣成对抗模型模型本⽂作为⾃⼰学习李宏毅⽼师2021春机器学习课程所做笔记，记录⾃⼰⾝为⼊门阶段⼩⽩的学习理解，如果错漏、建议，还请各位博友不吝指教，感谢！！概率⽣成模型概率⽣成模型（Probabilistic Generative Model）简称⽣成模型，指⼀系列⽤于随机⽣成可观测数据的模型。

假设在⼀个连续或离散的⾼维空间\(\mathcal{X}\)中，存在⼀个随机向量\(X\)服从⼀个未知的数据分布\(p_r(x), x \in\mathcal{X}\)。

⽣成模型根据⼀些可观测的样本\(x^{(1)},x^{(2)}, \cdots ,x^{(N)}\)来学习⼀个参数化的模型\(p_\theta(x)\)来近似未知分布\(p_r(x)\)，并可以⽤这个模型来⽣成⼀些样本，使得⽣成的样本和真实的样本尽可能地相似。

⽣成模型的两个基本功能：概率密度估计和⽣成样本（即采样）。

隐式密度模型在⽣成模型的⽣成样本功能中，如果只是希望⼀个模型能⽣成符合数据分布\(p_r(x)\)的样本，可以不显⽰的估计出数据分布的密度函数。

假设在低维空间\(\mathcal{Z}\)中有⼀个简单容易采样的分布\(p(z)\)，\(p(z)\)通常为标准多元正态分布\(\mathcal{N}(0,I)\)，我们⽤神经⽹络构建⼀个映射函数\(G : \mathcal{Z} \rightarrow \mathcal{X}\)，称为⽣成⽹络。

利⽤神经⽹络强⼤的拟合能⼒，使得\(G(z)\)服从数据分布\(p_r(x)\)。

这种模型就称为隐式密度模型（Implicit Density Model）。

隐式密度模型⽣成样本的过程如下图所⽰：⽣成对抗⽹络⽣成对抗⽹络（Generative Adversarial Networks，GAN）是⼀种隐式密度模型，包括判别⽹络（Discriminator Network）和⽣成⽹络（Generator Network）两个部分，通过对抗训练的⽅式来使得⽣成⽹络产⽣的样本服从真实数据分布。

在线学习行为分析和成绩预测方法

在线学习行为分析和成绩预测方法目录1. 内容概览 (3)1.1 研究背景 (3)1.2 研究目的和意义 (4)1.3 文献综述 (6)2. 在线学习行为分析 (7)2.1 学习行为数据的来源 (9)2.2 学习行为数据的采集与处理 (10)2.3 学习行为特征的提取与分析 (11)3. 学习成绩预测方法 (12)3.1 传统统计方法 (14)3.1.1 线性回归分析 (15)3.1.2 多元分析 (15)3.2 机器学习方法 (16)3.2.1 决策树算法 (17)3.2.2 随机森林算法 (19)3.2.3 支持向量机 (20)3.3 深度学习方法 (21)3.3.1 神经网络 (23)3.3.2 卷积神经网络 (24)3.3.3 循环神经网络 (25)4. 预测模型的构建与评价 (26)4.1 模型构建流程 (27)4.2 数据集准备 (29)4.3 特征选择与预处理 (30)4.4 模型训练与验证 (31)4.5 模型评价指标 (32)5. 案例研究 (33)5.1 案例背景与数据来源 (33)5.2 学习行为数据分析 (34)5.3 成绩预测模型的实现 (36)6. 在线学习行为与成绩预测的优化策略 (37)6.1 数据挖掘技术 (38)6.2 实时学习行为捕获 (39)6.3 个性化学习策略 (40)7. 结论与展望 (41)7.1 研究总结 (42)7.2 研究问题与不足 (43)7.3 未来研究方向 (44)1. 内容概览本报告旨在探讨在线学习行为分析和成绩预测方法的应用，以及如何利用这些分析结果来提高在线学习环境的教学效果和学生的学习体验。

在线学习近年来得到了迅猛发展，它不仅改变了传统的教学模式，也为教学方法的创新提供了新的可能性。

在这一背景下，我们通过行为分析和成绩预测的方法来理解学生的学习过程，从而为个性化学习和教学策略的制定提供数据支持。

报告首先对在线学习环境中的学习行为进行分析，包括学生完成作业的效率、参与讨论的热度、观看视频的学习时间等各项指标，揭示学生的个性化特征和学习习惯。

李宏毅深度学习笔记-半监督学习

李宏毅深度学习笔记-半监督学习半监督学习什么是半监督学习？⼤家知道在监督学习⾥，有⼀⼤堆的训练数据（由input和output对组成）。

例如上图所⽰x r是⼀张图⽚，y r是类别的label。

半监督学习是说，在label数据上⾯，有另外⼀组unlabeled的数据，写成x u (只有input没有output)，有U笔ublabeled的数据。

通常做半监督学习的时候，我们常见的情景是ublabeled的数量远⼤于labeled的数量（U>>R)。

半监督学习可以分成两种：⼀种叫做转换学习，ublabeled 数据就是testing set，使⽤的是testing set的特征。

另⼀种是归纳学习，不考虑testing set，学习model的时候不使⽤testing set。

unlabeled数据作为testing set，不是相当于⽤到了未来数据吗？⽤了label 才算是⽤了未来数据，⽤了testing set的特征就不算是使⽤了未来数据。

例如图⽚，testing set的图⽚特征是可以⽤的，但是不能⽤label。

什么时候使⽤转换学习或者归纳学习？看testing set是不是给你了，在⼀些⽐赛⾥，testing set给你了，那么就可以使⽤转换学习。

但在真正的应⽤中，⼀般是没有testing set的，这时候就只能做归纳学习。

为什么使⽤半监督学习？缺有lable的数据，⽐如图⽚，收集图⽚很容易，但是标注label很困难。

半监督学习利⽤未标注数据做⼀些事。

对⼈类来说，可能也是⼀直在做半监督学习，⽐如⼩孩⼦会从⽗母那边做⼀些监督学习，看到⼀条狗，问⽗亲是什么，⽗亲说是狗。

之后⼩孩⼦会看到其他东西，有狗有猫，没有⼈会告诉他这些动物是什么，需要⾃⼰学出来。

为什么半监督学习有⽤？假设现在做分类任务，建⼀个猫和狗的分类器。

有⼀⼤堆猫和狗的图⽚，这些图⽚没有label。

Processing math: 100%假设只考虑有label的猫和狗图⽚，要画⼀个边界，把猫和狗训练数据集分开，可能会画⼀条如上图所⽰的红⾊竖线。

李宏毅深度学习(一)：深度学习模型的基本结构

李宏毅深度学习（⼀）：深度学习模型的基本结构李宏毅深度学习(⼀):深度学习模型的基本结构转⾃简书的⼀位⼤神博主：下⾯开始正题吧！1、全连接神经⽹络(Fully Connected Structure)最基本的神经⽹络⾮全连接神经⽹络莫属了，在图中，a是神经元的输出，l代表层数，i代表第i个神经元。

两层神经元之间两两连接，注意这⾥的w代表每条线上的权重，如果是第l-1层连接到l层，w的上标是l，下表ij代表了第l-1层的第j个神经元连接到第l层的第i个神经元，这⾥与我们的尝试似乎不太⼀样，不过并⽆⼤碍。

所以两层之间的连接矩阵可以写为如下的形式：每⼀个神经元都有⼀个偏置项：这个值记为z，即该神经元的输⼊。

如果写成矩阵形式如下图：针对输⼊z，我们经过⼀个激活函数得到输出a：常见的激活函数有：这⾥介绍三个：sigmoidSigmoid 是常⽤的⾮线性的激活函数，它的数学形式如下：特别的，如果是⾮常⼤的负数，那么输出就是0；如果是⾮常⼤的正数，输出就是1，如下图所⽰：.sigmoid 函数曾经被使⽤的很多，不过近年来，⽤它的⼈越来越少了。

主要是因为它的⼀些缺点：**Sigmoids saturate and kill gradients. **（saturate 这个词怎么翻译？饱和？）sigmoid 有⼀个⾮常致命的缺点，当输⼊⾮常⼤或者⾮常⼩的时候（saturation），这些神经元的梯度是接近于0的，从图中可以看出梯度的趋势。

所以，你需要尤其注意参数的初始值来尽量避免saturation的情况。

如果你的初始值很⼤的话，⼤部分神经元可能都会处在saturation的状态⽽把gradient kill掉，这会导致⽹络变的很难学习。

Sigmoid 的 output 不是0均值. 这是不可取的，因为这会导致后⼀层的神经元将得到上⼀层输出的⾮0均值的信号作为输⼊。

产⽣的⼀个结果就是：如果数据进⼊神经元的时候是正的(e.g. x>0 elementwise in f=wTx+b)，那么 w 计算出的梯度也会始终都是正的。

基于改进DDPG的多AGV路径规划算法

基于改进DDPG的多AGV路径规划算法目录1. 内容综述 (2)1.1 研究背景 (2)1.2 研究目的 (4)1.3 文献综述 (4)1.4 问题提出与论文结构 (6)2. 多智能体系统(MAS)理论基础 (7)2.1 多智能体系统概述 (9)2.2 多智能体通信模型 (10)2.3 多智能体协同任务规划 (11)3. 深度确定性策略梯度算法(DDPG) (13)3.1 DDPG算法简介 (14)3.2 DDPG算法结构 (16)3.3 DDPG算法的训练与参数调整 (17)4. 基于改进DDPG的多AGV路径规划算法 (19)4.1 智能体交互模型设计 (20)4.2 多智能体协同路径规划的优化方法 (22)4.3 基于奖励机制的路径规划评估标准设计 (23)4.4 改进DDPG算法流程 (24)4.5 仿真实验设置与结果分析 (25)4.5.1 仿真环境搭建 (27)4.5.2 仿真数据与指标 (28)4.5.3 仿真对比实验 (29)5. 结论与展望 (31)5.1 主要贡献与创新点 (32)5.2 研究展望 (33)1. 内容综述本文档旨在深入探讨基于改进型深度确定性策略梯度（DDPG）算法的多自主导引车（AGV）路径规划技术。

现代社会对高效物流和自动化仓储的需求日益增长，而AGV在这一领域展现了巨大的潜力和应用价值。

要求增加的全局路径规划效率和实时更新的能力对传统的规划算法提出挑战。

我们研究并构建了一种新型的、结合强化学习技术的路径优化方案，该方案旨在提升调度决策的速度与质量。

改进DDPG算法通过引入先进的Q网络优化技术和动作重复机制，极大地削弱了传统DDPG算法的时序维度依赖，同时加强了对特定场景的适应能力。

在多AGV协同工作的实际情境下，该算法博客摆明了，目标是通过学习目标函数的稳定梯度，在确保安全的前提下，以最短路径完成货物运输，避免无用的转弯和冗余路径，从而提高吞吐量和资源利用率。

李宏毅-B站机器学习视频课件BP全

Backpropagation
Gradient Descent
Network parameters
Starting
0

Parameters
L
L w1
L w
2

L b1

L b2

w1 , w2 ,, b1 , b2 ,
b
4

2

=

′
’’
′ ′′
(Chain rule)
=
+
′ ′′
Assumed
?
?

3
4
it’s known
Backpropagation – Backward pass
Compute Τ for all activation function inputs z
Chain Rule
y g x
Case 1
z h y
x y z
Case 2
x g s
y hs
x
s
z
y
dz dz dy

dx dy dx
z k x, y
dz z dx z dy

ds x ds y ds
Backpropagation
2
Compute Τ for all parameters
Backward pass:
Compute Τ for all activation
function inputs z
Backpropagation – Forward pass