台湾李宏毅教授深度学习基本思路

李宏毅机器学习课程——Lifelonglearning学习笔记

李宏毅机器学习课程——Lifelonglearning学习笔记概述lifelong learning⾮常直观，意思是机器不能前边学后边忘。

常见的⽅法是对前边的task中学习出来的参数加⼀个保护系数，在后⾯的任务中，训练参数时，对保护系数⼤的参数很难训练，⽽保护系数⼩的参数则容易⼀些。

下⾯的图⾮常直观，颜⾊的深浅代表loss的⼤⼩，颜⾊越深loss越⼩。

在task1中θ2的变化对loss的变化⾮常敏感，⽽θ1则不敏感，所以在task2中尽量只通过改变θ1来减⼩loss，⽽不要改变θ2。

在lifelong learning中，loss的计算公式如下：L′(θ)=L(θ)+λΣi b i(θi−θb i)2其中b i就是对θ的保护系数，θi表⽰本次task中需要学习的参数，θb i是从之前的task中学习到的参数。

不同的⽅法差异就在于b i的计算。

这⾥将会结合Coding整理⼀下遇到的三个⽅法。

Coding这部分针对HW14，介绍了EWC，MAS，SCP三种⽅法，这⾥讲解⼀下具体的代码实现，并定性地分析⼀下这些⽅法是如何把哪些重要的参数保护起来。

EWCEWC中不同的保护系数f i使⽤如下的⽅法计算得到：F=[∇log(p(y n|x n,θ∗A))∇log(p(y n|x n,θ∗A))T]F的对⾓线的各个数就是各个θ的保护系数。

p(y n|x n,θ∗A)指的就是模型在给点之前 task 的 data x n以及给定训练完 task A (原来)存下来的模型参数θ∗A得到y n(x n对应的 label ) 的后验概率。

其实对参数θi，它的保护系数就是向量log(p(y n|x n,θ∗A))对θ1的偏导数∂log(p(y n|x n,θ∗A))∂θ1与⾃⾝的内积。

当对这个参数敏感时，这个偏导数会变⼤，当预测结果正确率⾼时，p(y n|x n)也会⾼，最终都会使的保护系数变⼤。

某⼀个参数⽐较敏感，这个参数下正确率⾼时，这个参数就会被很好地保护起来。

基于深度学习的网络入侵检测系统设计与实现

基于深度学习的网络入侵检测系统设计与实现目录1. 内容概要 (2)1.1 研究背景 (2)1.2 相关工作综述 (3)1.3 目标与目的 (5)2. 现有入侵检测系统的局限性与挑战 (6)2.1 传统入侵检测系统的不足 (7)2.2 深度学习在网络安全领域的应用 (8)2.3 现有深度学习入侵检测系统的挑战 (9)3. 系统架构设计与实现 (10)3.1 系统整体框架 (12)3.1.1 数据采集模块 (13)3.1.2 数据预处理模块 (14)3.1.3 模型训练模块 (16)3.1.4 模型部署模块 (17)3.2 网络入侵数据特征提取 (19)3.2.1 深度特征提取 (20)3.2.2 传统特征与深度特征融合 (21)3.3 深度学习模型选择与训练 (23)3.3.1 常用深度学习模型 (25)3.3.2 模型训练策略与参数选择 (26)3.4 模型评估与性能指标 (28)3.4.1 准确率、召回率、F1score等指标 (30)3.4.2 性能评价方法与标准 (31)4. 实验环境与结果分析 (32)4.1 实验平台搭建 (34)4.2 实验数据集 (35)4.3 实验结果与讨论 (37)4.3.1 模型精度比较及分析 (38)4.3.2 模型对不同攻击类型的检测性能 (40)5. 结论与展望 (41)5.1 研究成果总结 (42)5.2 系统局限性及未来工作方向 (43)1. 内容概要内容概要。

NIDS)。

该系统利用深度学习算法对网络流量进行分析，识别并分类潜在的网络入侵行为。

我们将介绍网络入侵检测的需求背景和当前技术趋势，并概述传统入侵检测系统的局限性以及深度学习技术的优势。

将详细阐述系统的架构设计，包括数据采集与预处理、特征提取、模型构建、检测与分类以及结果可视化等部分。

我们将探讨常用的深度学习模型，例如卷积神经网络(CNN)和循环神经网络(RNN)在入侵检测领域的应用，并分析不同模型的优缺点。

电子鼻PPT课件

·
敏感材料
传感器2
传感器3
· · ·
传感器n
传感器信号预处理
传感器信号预处理
· · ·
传感器信号预处理
数字信号（处理）
知识库
训练
预测
阵列信号预处理
模式
气味表
识别引擎
达
输出预测
.
6
气体传感器阵列
• 1,含义：
• 气体传感器阵列由具有广谱响应特性，较大的交叉灵敏度以及对不同气体有不同灵敏度的气敏元件组成。工作时气敏元件对接触气体能产生响应并产生一定的响应模式。它相当于人的嗅觉受体细胞。
---------------来自参考文献[2]
.
10
模式识别(ANN)
• 1,含义：模式识别单元对信号预处理单元所发出的信号做进一步的处理，完成对气体定性和定量的识别。它相当于人的大脑。
• 2,ANN简单构建步骤 • 1）构建模型 • 2）计算cost function • 3）更新权重，寻找局部最优解
电子鼻
***
.
1
目录
• 电子鼻的定义 • 电子鼻的基本原理 • 课题相关
.
2
电子鼻的定义
• 电子鼻是综合了化学传感器阵列各检测技术以及计算机信息处理等多学科技术开发研制出来的一种化学传感器智能系统，它是一种模拟哺乳动物嗅觉的过程，用气敏传感器来识别，检测不同的仿生传感器系统。
----《生物医学与传感器检测》（第四版）
.
7
气体传感器阵列
2，气体传感器的种类：
---------------来自参考文献[2]
.
8
气体传感器阵列
3，金属氧化物传感器的原理：

李宏毅2021春机器学习课程笔记——生成对抗模型模型

李宏毅2021春机器学习课程笔记——⽣成对抗模型模型本⽂作为⾃⼰学习李宏毅⽼师2021春机器学习课程所做笔记，记录⾃⼰⾝为⼊门阶段⼩⽩的学习理解，如果错漏、建议，还请各位博友不吝指教，感谢！！概率⽣成模型概率⽣成模型（Probabilistic Generative Model）简称⽣成模型，指⼀系列⽤于随机⽣成可观测数据的模型。

假设在⼀个连续或离散的⾼维空间\(\mathcal{X}\)中，存在⼀个随机向量\(X\)服从⼀个未知的数据分布\(p_r(x), x \in\mathcal{X}\)。

⽣成模型根据⼀些可观测的样本\(x^{(1)},x^{(2)}, \cdots ,x^{(N)}\)来学习⼀个参数化的模型\(p_\theta(x)\)来近似未知分布\(p_r(x)\)，并可以⽤这个模型来⽣成⼀些样本，使得⽣成的样本和真实的样本尽可能地相似。

⽣成模型的两个基本功能：概率密度估计和⽣成样本（即采样）。

隐式密度模型在⽣成模型的⽣成样本功能中，如果只是希望⼀个模型能⽣成符合数据分布\(p_r(x)\)的样本，可以不显⽰的估计出数据分布的密度函数。

假设在低维空间\(\mathcal{Z}\)中有⼀个简单容易采样的分布\(p(z)\)，\(p(z)\)通常为标准多元正态分布\(\mathcal{N}(0,I)\)，我们⽤神经⽹络构建⼀个映射函数\(G : \mathcal{Z} \rightarrow \mathcal{X}\)，称为⽣成⽹络。

利⽤神经⽹络强⼤的拟合能⼒，使得\(G(z)\)服从数据分布\(p_r(x)\)。

这种模型就称为隐式密度模型（Implicit Density Model）。

隐式密度模型⽣成样本的过程如下图所⽰：⽣成对抗⽹络⽣成对抗⽹络（Generative Adversarial Networks，GAN）是⼀种隐式密度模型，包括判别⽹络（Discriminator Network）和⽣成⽹络（Generator Network）两个部分，通过对抗训练的⽅式来使得⽣成⽹络产⽣的样本服从真实数据分布。

李宏毅深度学习笔记-半监督学习

李宏毅深度学习笔记-半监督学习半监督学习什么是半监督学习？⼤家知道在监督学习⾥，有⼀⼤堆的训练数据（由input和output对组成）。

例如上图所⽰x r是⼀张图⽚，y r是类别的label。

半监督学习是说，在label数据上⾯，有另外⼀组unlabeled的数据，写成x u (只有input没有output)，有U笔ublabeled的数据。

通常做半监督学习的时候，我们常见的情景是ublabeled的数量远⼤于labeled的数量（U>>R)。

半监督学习可以分成两种：⼀种叫做转换学习，ublabeled 数据就是testing set，使⽤的是testing set的特征。

另⼀种是归纳学习，不考虑testing set，学习model的时候不使⽤testing set。

unlabeled数据作为testing set，不是相当于⽤到了未来数据吗？⽤了label 才算是⽤了未来数据，⽤了testing set的特征就不算是使⽤了未来数据。

例如图⽚，testing set的图⽚特征是可以⽤的，但是不能⽤label。

什么时候使⽤转换学习或者归纳学习？看testing set是不是给你了，在⼀些⽐赛⾥，testing set给你了，那么就可以使⽤转换学习。

但在真正的应⽤中，⼀般是没有testing set的，这时候就只能做归纳学习。

为什么使⽤半监督学习？缺有lable的数据，⽐如图⽚，收集图⽚很容易，但是标注label很困难。

半监督学习利⽤未标注数据做⼀些事。

对⼈类来说，可能也是⼀直在做半监督学习，⽐如⼩孩⼦会从⽗母那边做⼀些监督学习，看到⼀条狗，问⽗亲是什么，⽗亲说是狗。

之后⼩孩⼦会看到其他东西，有狗有猫，没有⼈会告诉他这些动物是什么，需要⾃⼰学出来。

为什么半监督学习有⽤？假设现在做分类任务，建⼀个猫和狗的分类器。

有⼀⼤堆猫和狗的图⽚，这些图⽚没有label。

Processing math: 100%假设只考虑有label的猫和狗图⽚，要画⼀个边界，把猫和狗训练数据集分开，可能会画⼀条如上图所⽰的红⾊竖线。

台湾李宏毅教授深度学习基本思路

演讲完毕，谢谢听讲!
再见，see you again
2020/11/14
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
谢谢大家！！！
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学Байду номын сангаас基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
2020/11/14
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路
台湾李宏毅教授深度学习基本思路

李宏毅深度学习(一)：深度学习模型的基本结构

李宏毅深度学习（⼀）：深度学习模型的基本结构李宏毅深度学习(⼀):深度学习模型的基本结构转⾃简书的⼀位⼤神博主：下⾯开始正题吧！1、全连接神经⽹络(Fully Connected Structure)最基本的神经⽹络⾮全连接神经⽹络莫属了，在图中，a是神经元的输出，l代表层数，i代表第i个神经元。

两层神经元之间两两连接，注意这⾥的w代表每条线上的权重，如果是第l-1层连接到l层，w的上标是l，下表ij代表了第l-1层的第j个神经元连接到第l层的第i个神经元，这⾥与我们的尝试似乎不太⼀样，不过并⽆⼤碍。

所以两层之间的连接矩阵可以写为如下的形式：每⼀个神经元都有⼀个偏置项：这个值记为z，即该神经元的输⼊。

如果写成矩阵形式如下图：针对输⼊z，我们经过⼀个激活函数得到输出a：常见的激活函数有：这⾥介绍三个：sigmoidSigmoid 是常⽤的⾮线性的激活函数，它的数学形式如下：特别的，如果是⾮常⼤的负数，那么输出就是0；如果是⾮常⼤的正数，输出就是1，如下图所⽰：.sigmoid 函数曾经被使⽤的很多，不过近年来，⽤它的⼈越来越少了。

主要是因为它的⼀些缺点：**Sigmoids saturate and kill gradients. **（saturate 这个词怎么翻译？饱和？）sigmoid 有⼀个⾮常致命的缺点，当输⼊⾮常⼤或者⾮常⼩的时候（saturation），这些神经元的梯度是接近于0的，从图中可以看出梯度的趋势。

所以，你需要尤其注意参数的初始值来尽量避免saturation的情况。

如果你的初始值很⼤的话，⼤部分神经元可能都会处在saturation的状态⽽把gradient kill掉，这会导致⽹络变的很难学习。

Sigmoid 的 output 不是0均值. 这是不可取的，因为这会导致后⼀层的神经元将得到上⼀层输出的⾮0均值的信号作为输⼊。

产⽣的⼀个结果就是：如果数据进⼊神经元的时候是正的(e.g. x>0 elementwise in f=wTx+b)，那么 w 计算出的梯度也会始终都是正的。

李宏毅-B站机器学习视频课件BP全

Backpropagation
Gradient Descent
Network parameters
Starting
0

Parameters
L
L w1
L w
2

L b1

L b2

w1 , w2 ,, b1 , b2 ,
b
4

2

=

′
’’
′ ′′
(Chain rule)
=
+
′ ′′
Assumed
?
?

3
4
it’s known
Backpropagation – Backward pass
Compute Τ for all activation function inputs z
Chain Rule
y g x
Case 1
z h y
x y z
Case 2
x g s
y hs
x
s
z
y
dz dz dy

dx dy dx
z k x, y
dz z dx z dy

ds x ds y ds
Backpropagation
2
Compute Τ for all parameters
Backward pass:
Compute Τ for all activation
function inputs z
Backpropagation – Forward pass