神经网络基本知识(优.选)
人工智能课后习题答案

可采用批量梯度下降、随机梯度下降、小批量梯度下降等优化算法,以及动量 法、AdaGrad、RMSProp、Adam等自适应学习率优化方法。
课后习题解答与讨论
• 习题一解答:详细阐述感知器模型的原理及算法实现过程,包括模型结构、激 活函数选择、损失函数定义、权重和偏置项更新方法等。
• 习题二解答:分析多层前馈神经网络的结构特点,讨论隐藏层数量、神经元个 数等超参数对网络性能的影响,并给出一种合适的超参数选择方法。
发展历程
人工智能的发展大致经历了符号主义、连接主义和深度学习三个阶段。符号主义认为人工智能源于对人类思 维的研究,尤其是对语言和逻辑的研究;连接主义主张通过训练大量神经元之间的连接关系来模拟人脑的思 维;深度学习则通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
机器学习原理及分类
深度学习框架与应用领域
深度学习框架
深度学习框架是一种用于构建、训练和部署深度学习模型的开发工具。目前流行的深度学习框架包括 TensorFlow、PyTorch、Keras等。
应用领域
深度学习已广泛应用于图像识别、语音识别、自然语言处理、推荐系统等多个领域,并取得了显著的 成果。
课后习题解答与讨论
习题四解答
讨论人工智能的伦理问题,如数据隐私、算法偏见等,并 提出可能的解决方案。
02 感知器与神经网络
感知器模型及算法实现
感知器模型
感知器是一种简单的二分类线性模型 ,由输入层、权重和偏置项、激活函 数(通常为阶跃函数)以及输出层组 成。
感知器算法实现
通过训练数据集,采用梯度下降法更 新权重和偏置项,使得感知器对训练 样本的分类误差最小化。
时序差分方法
人工智能单选练习题库含参考答案

人工智能单选练习题库含参考答案一、单选题(共100题,每题1分,共100分)1、人工智能诞生在1955年,50年代末第一款神经网络-()将人工智能推向了第一个高潮。
A、感知机B、无人机C、费曼机D、机器人正确答案:A2、GooLeNet中使用较多小tricks,其中全局平局池化GAP就是一个,使用GAP的优点是()A、加速模型收敛B、提供更好的分类C、增加网络深度D、减少参数量,实现任意大小的输入正确答案:D3、学习器的实际预测输出与样本的真实输出之间的差异称为(___)。
A、误差B、精度C、查准率D、错误率正确答案:A4、华为的芯片支持 HUAWEI HiAI 的哪一个模块?A、HiAI FrameworkB、HiAI ServiceC、HiAI FoundationD、HiAI Engine正确答案:C5、有统计显示,在未来,非结构化数据的占比将达到()以上。
A、$0.90B、0.8C、0.6D、0.7正确答案:A6、我国人工智能的发展战略是()。
A、12320工业互联B、“1438”战略C、新一代人工智能发展规划D、国家制造创新正确答案:C7、()就是指分类任务中不同类别的训练样例数目差别很大的情况A、类别不相同B、类别不对等C、类别不平衡D、类别数不同正确答案:C8、以下哪个关键字是与 try 语句一起使用来处理异常的?A、&catch(a)&B、catch&C、&exception&D、&except正确答案:D9、深度学习中的“深度”是指()A、计算机对问题的处理更加灵活B、中间神经元网络的层次很多C、计算机的求解更加精准D、计算机理解的深度正确答案:B10、增强现实领域(AR)大量应用了(),典型的就是微软的HoLolens。
A、计算机视觉B、语音识别C、图像处理D、虚拟现实技术正确答案:A11、DBSCAN在最坏情况下的时间复杂度是()A、O(m2)B、O(m*logm)C、O(logm)D、O(m)正确答案:A12、多义现象可以被定义为在文本对象中一个单词或短语的多种含义共存。
《人工神经网络原理与应用》试题

《人工神经网络原理与应用》试题1、试论述神经网络的典型结构,常用的作用函数以及各类神经网络的基本作用,举例说明拟定结论。
2、试论述BP 算法的基本思想,讨论BP 基本算法的优缺点,以及改进算法的思路和方法。
以BP 网络求解XOR 问题为例,说明BP 网络隐含层单元个数与收敛速度,计算时间之间的关系。
要求给出计算结果的比较表格,以及相应的计算程序(.m 或者.c )3、试论述神经网络系统建模的几种基本方法。
利用BP 网络对以下非线性系统进行辨识。
非线性系统 )(5.1)1()(1)1()()1(22k u k y k y k y k y k y +-++-=+ 1)首先利用[-1,1]区间的随机信号u(k),样本点500,输入到上述系统,产生y(k), 用于训练BP 网络;2)网络测试,利用u(k)=sin(2*pi*k/10)+1/5*sin(2*pi*k/100),测试点300~500,输入到上述系统,产生y(k),检验BP 网络建模效果要求给出程序流程,matlab 程序否则c 程序,训练样本输入输出图形,检验结果的输入输出曲线。
4、试列举神经网络PID 控制器的几种基本形式,给出相应的原理框图。
5、试论述连续Hopfield 网络的工作原理,讨论网络状态变化稳定的条件。
6、谈谈学习神经网络课程后的心得体会,你准备如何在你的硕士(博士)课题中应用神经网络理论和知识解决问题(给出一到两个例)。
《人工神经网络原理与应用》试题1、试论述神经网络的典型结构,常用的作用函数以及各类神经网络的基本作用,举例说明拟定结论。
2、试论述BP 算法的基本思想,讨论BP 基本算法的优缺点,以及改进算法的思路和方法。
以BP 网络求解XOR 问题为例,说明BP 网络隐含层单元个数与收敛速度,计算时间之间的关系。
要求给出计算结果的比较表格,以及相应的计算程序(.m 或者.c )3、试论述神经网络系统建模的几种基本方法。
支持向量机与神经网络算法的对比分析

支持向量机与神经网络算法的对比分析支持向量机(Support Vector Machine,SVM)和神经网络(Neural Network)是机器学习领域广泛应用的两种算法。
本文将对这两种算法进行对比分析,包括原理、优缺点和应用领域等方面。
一、原理对比1. 支持向量机支持向量机是一种二分类模型,其基本思想是找到一个能够将不同类别的样本分隔开的超平面。
超平面的选择是通过找到能够最大化分类间隔的最优超平面实现的。
支持向量机还引入了核函数的概念,可以将样本映射到更高维度的空间中进行非线性分类。
2. 神经网络神经网络是一种模仿生物神经系统功能的计算模型。
它由大量的神经元相互连接而成,通过学习调整神经元之间的权重,实现模型的训练和预测。
神经网络可以包含多个隐藏层,每层都有多个节点,节点之间通过激活函数传递信息。
二、优缺点对比1. 支持向量机优点:(1)具有较强的泛化能力,能够有效处理高维数据和非线性问题;(2)对于小样本数据集效果好,能够处理样本维度大于样本数量的情况;(3)通过核函数的引入可以处理非线性分类问题;(4)具有较好的鲁棒性,对于噪声和异常点有较好的容错能力。
缺点:(1)对大规模数据集需要较长的训练时间,不适合处理大规模数据;(2)对于包含大量噪声的数据集,容易过拟合。
2. 神经网络优点:(1)对于大规模数据集和复杂问题的处理能力较强;(2)可以通过网络结构的调整和权重的学习进行非线性建模;(3)能够处理包含噪声和异常点的数据集。
缺点:(1)网络结构和参数的选择较为复杂,需要大量的调试和优化工作;(2)对于小样本数据和高维数据的处理效果不佳,容易出现过拟合问题;(3)训练时间通常较长,计算资源需求高。
三、应用领域对比1. 支持向量机支持向量机在许多领域都有广泛的应用,如图像识别、文本分类、生物信息学等。
由于其能够处理高维和非线性问题的能力,使得其在这些领域中具有一定的优势。
2. 神经网络神经网络在语音识别、图像处理、自然语言处理等领域都有重要应用。
深度学习基础知识解读

深度学习基础知识解读第一章深度学习的背景和概念1.1 人工智能与机器学习的发展历程1.2 深度学习的定义和特点1.3 深度学习与传统机器学习的区别第二章神经网络及其基本原理2.1 人脑神经系统简介2.2 人工神经网络概述2.3 基本神经网络的结构和运行机制2.4 优化算法:梯度下降和反向传播第三章深度学习常用的网络结构3.1 卷积神经网络(CNN)3.1.1 卷积和池化层的原理3.1.2 LeNet-5网络结构解析3.1.3 AlexNet网络结构解析3.2 循环神经网络(RNN)3.2.1 循环单元(RNN unit)的原理3.2.2 长短时记忆网络(LSTM)的结构和应用 3.2.3 双向循环神经网络第四章深度学习的主要应用领域4.1 计算机视觉4.1.1 图像分类和目标检测4.1.2 图像分割和语义分割4.2 自然语言处理4.2.1 语言模型和文本生成4.2.2 机器翻译4.2.3 文本分类和情感分析4.3 语音识别和合成4.3.1 语音识别原理与技术4.3.2 语音合成原理与技术4.4 推荐系统4.4.1 基于内容的推荐4.4.2 协同过滤推荐4.4.3 深度学习在推荐系统中的应用第五章深度学习的训练和优化技巧5.1 数据预处理5.1.1 数据清洗和归一化处理5.1.2 数据增强技术5.2 正则化技术5.2.1 L1和L2正则化5.2.2 Dropout正则化5.2.3 批归一化(Batch Normalization) 5.3 学习率调整策略5.3.1 学习率衰减5.3.2 动量方法5.3.3 自适应学习算法(Adam)第六章深度学习的挑战和未来发展趋势6.1 深度学习存在的问题和挑战6.1.1 数据需求和标注困难6.1.2 模型的复杂性和计算资源要求6.2 深度学习的未来趋势6.2.1 模型压缩和轻量化网络6.2.2 自迁移学习和跨域学习6.2.3 强化学习和深度强化学习通过本文,我们深入解读了深度学习的基础知识。
国开人工智能专题形考2题库2及答案

人工智能专题·专题二测验(权重20%)一、判断题2.语义网络的表示方法只能表示有关某一事物的知识,无法表示一系列动作、一个事件等的知识。
A.对B.错正确答案: B3.深度学习是计算机利用其计算能力处理大量数据,获得看似人类同等智能的工具。
A.对B.错正确答案: A4.人工智能利用遗传算法在求解优化问题时,会把问题的解用"0"和"1"表示。
0,1就是就是“遗传基因", 01组成的字符串,称为一个染色体或个体。
A.对B.错正确答案: A5.谓词逻辑是应用千计算机的逻辑形式,其逻辑规则、符号系统与命题逻辑是一样的。
A.对B.错正确答案: B6.人们需要把分类器学习的样本的特点进行量化,这些量化后的数据,如鸾尾花的高度、花瓣的长度、花瓣的宽度等就是鸾尾花的特征。
这些特征都是有效的,可以提供给分类器进行训练。
A.对B.错正确答案: B7.贝叶斯定理是为了解决频率概率问题提出来的。
A.对B.错正确答案: B8.状态空间图是对一个问题的表示,通过问题表示,人们可以探索和分析通往解的可能的可替代路径。
特定问题的解将对应状态空间图中的一条路径。
A.对B.错正确答案: A9.现实世界中的规划问题需要先调度,后规划。
A.对B.错正确答案: B10下图表示的是前向状态空间搜索。
A.对B.错正确答案: A11.P (A I B)代表事件A发生的条件下事件B发生的概率。
A.对B.错正确答案: B二、选择题13.贝叶斯网络是一个()。
A.有向环形图B.无向环形图C.有向无环图D.无向无环图正确答案: C14.()的原理是:每一个节点绑定一个启发值,然后经过一次又一次的筛选,引导机器优先筛选那些启发值更优的节点,规避一些无用或效率较低的节点,从而快速找到问题的解。
A.K NNB.决策树C.遗传算法D.A*算法正确答案: D15.当我们在物品种类很多的情况下,需要快速选择出一种最优搭配方案时,其实可以借助一些特别的处理方法来解决,这些方法中的一种被称为“遗传算法"'它是通过模拟达尔文的进化论来解决问题的,因此也被归类为“进化算法”。
智能控制技术基础知识单选题100道及答案
智能控制技术基础知识单选题100道及答案1. 智能控制的核心在于()。
A. 不需要人工干预就能自动完成任务B. 能够模仿人类的智能行为进行决策和控制C. 仅仅依靠预设的程序进行固定操作D. 只处理简单的、重复性的任务答案:B2. 以下哪种不属于智能控制的主要研究领域()。
A. 专家系统B. 神经网络控制C. 传统的PID控制D. 模糊控制答案:C3. 智能控制系统与传统控制系统最主要的区别是()。
A. 控制精度更高B. 具有学习和自适应能力C. 响应速度更快D. 结构更复杂答案:B4. 专家系统的核心部分是()。
A. 知识库B. 推理机C. 人机接口D. 解释模块答案:B5. 模糊控制中,模糊集合的隶属度取值范围是()。
A. [0, 1]B. (-∞, +∞)C. [0, +∞)D. (-1, 1)答案:A6. 神经网络控制中,神经元的激活函数主要作用是()。
A. 对输入信号进行加权求和B. 对加权求和后的结果进行非线性变换C. 存储神经元之间的连接权重D. 传递输入信号到下一层神经元答案:B7. 遗传算法的主要操作包括选择、交叉和()。
A. 变异B. 排序C. 复制D. 淘汰答案:A8. 智能控制在工业自动化中的优势不包括()。
A. 能够处理复杂的非线性系统B. 对模型的精确性要求较低C. 不适合处理不确定性问题D. 具有很强的自适应能力答案:C9. 模糊控制器的输入通常是()。
A. 精确量B. 模糊量C. 离散量D. 模拟量答案:A10. 专家系统中,用于获取专家知识并将其转化为计算机可处理形式的是()。
A. 知识工程师B. 领域专家C. 用户D. 程序员答案:A11. 神经网络的学习过程主要是调整()。
A. 神经元的阈值B. 神经元之间的连接权重C. 激活函数的参数D. 网络的拓扑结构答案:B12. 遗传算法中,适应度函数的作用是()。
A. 衡量个体的优劣程度B. 确定交叉和变异的概率C. 选择合适的初始种群D. 控制算法的迭代次数答案:A13. 智能控制中的反馈环节主要作用是()。
基于BP神经网络的信息对抗能力选优模型
嘲
基孑 B 神经网络的信息对抗雒力选1t型 P 7f  ̄
O p i i a i n M o e f I f r a i n Ope a i n s d o u a t r s tm z to d lo n o m to r to sBa e n BP Ne r lNe wo k
被 部分 地 表现 出来 。也 正是 这 次 “ 漠 风 暴 ” 事 行 动 的 成 功 , 沙 军
些 指 标 值则 需 要通 过专 家 打分 的 方法 获 得 , 满分 为 1 。
国 家 信 息
对 技 抗 术
能 能
与 摧毁
管 理 能 4^
, ● ●● ● ● f 、 ● ● 【
性 , 以将 此 模 型 应 用 5& 国信 息 对 抗 能 力 的 分析 , 国 家信 息 对抗 决 策提 供 有 价值 的参 考 。 可 - 为
关键词 B P神 经 网络 信 息对 抗 指 标 体 系 选优 模 型
信息 对抗 是 指 : 任 何 时 候 , 影 响 敌 方 的信 息 和 信 息 系 在 为 统, 同时保 护 己方 信 息与 信息 系统 所 采 取 的各 种 行 动 。 目的是 通 过威 慑 制止 冲 突 , 护 国家 的信 息 和信 息 系统 安 全 … 。 自 2 保 0 世纪 9 O年 代 海湾 战争 爆 发 以来 , 息 技 术 在 军 事 领 域 的 威 力 , 信
使 人们 看 到 了信 息战 的 巨大 威 力 。 而 世 纪末 的科 索 沃 战 争 , 则
向人们 展 示 了信 息 技 术 改 变 战 争形 态 的 强 大 驱 动 力 。事 实 证
力 力
, ●●●,●●,、 ●●●●● \ ●
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 / 7word. (一)三层神经网络 1) 该模型的参数通过两个步骤训练获得:在该网络的第一层,将输入 映射至隐藏单元激活量 的权值 可以通过稀疏自编码器训练过
程获得。在第二层,将隐藏单元 映射至输出 的权值 可以通过 logistic 回归或 softmax 回归训练获得。 2) 在描述上述过程时,假设采用了“替代 (Replacement)”表示而不是“级联 (Concatenation)”表示。在替代表示中,logistic 分类器所看到的训练样
本格式为 ;而在级联表示中,分类器所看到的训练样本格式为 。在级联表示神经网络中,输入值 也直接被输入至 logistic 分类器。 3) 在训练获得模型最初参数(利用自动编码器训练第一层,利用 logistic/softmax 回归训练第二层)之后,可以进一步修正模型参数,进而降低训练误差。具体来说,可以对参数进行微调,在现有参数的基础上采用梯度下降或者 L-BFGS 来降低已标注样本集
上的训练误差。 ➢ 微调的作用在于,已标注数据集也可以用来修正权值 ,这样可以对隐藏单元所提取的特征 做进一步调整。 2 / 7word.
➢ 对于微调来说,级联表示相对于替代表示几乎没有优势。因此,如果需要开展微调,通常使用替代表示的网络。但是如果不开展微调,级联表示的效果有时候会好得多。 ➢ 通常仅在有大量已标注训练数据的情况下使用微调。在这样的情况下,微调能显著提升分类器性能。如果有大量未标注数据集(用于非监督特征学习/预训练),却只有相对较少的已标注训练集,微调的作用非常有限。
(二)深度网络 深度神经网络,即含有多个隐藏层的神经网络。通过引入深度网络,可以计算更多复杂的输入特征。因为每一个隐藏层可以对上一层的输出进行非线性变换,因此深度神经网络拥有比“浅层”网络更加优异的表达能力。
1. 深度神经网络的优势 1) 当训练深度网络的时候,每一层隐层应该使用非线性的激活函数 。这是因为多层的线性函数组合在一起本质上也只有线性函数的表达能力(例如,将多个线性方程组合在一起仅仅产生另一个线性方程)。因此,在激活函数是线性的情况下,相比于单隐藏层神经网络,包含多隐藏层的深度网络并没有增加表达能力。 2) 深度网络最主要的优势在于,它能以更加紧凑简洁的方式来表达比浅层网络大得多的函数集合。即可以找到一些函数,这些函数可以用 层网络简洁地表达出来(这里的简洁是指隐层单元的数目只需与输入单元数目呈多项式关系)。但是对于一个只有 层的网络而言,除非它使用与输入
单元数目呈指数关系的隐层单元数目,否则不能简洁表达这些函数。 3) 当处理对象是图像时,使用深度网络,能够学习到“部分-整体”的分解关系。例如,第一层可以学习如何将图像中的像素组合在一起来检测边缘,第二层可以将边缘组合起来检测更长的轮廓或者简单的“目标的部件”,在更深的层次上,可以将这些轮廓进一步组合起来以检测更为复杂的特征。
这种分层计算很好地模仿了大脑皮层对输入信息的处理方式。视觉图像在人脑中是分多个阶段进行处理的,首先是进入大脑皮层的“V1”区,然后紧跟着进入大脑皮层“V2”区,以此类推。
2. 训练深度网络的困难 目前主要使用的学习算法是:首先随机初始化深度网络的权重,然后使用有监督的目标函数在有标签的训练
集 上进行训练。其中通过使用梯度下降法来降低训练误差,这种方法通常不是十分凑效。 1) 数据获取问题 3 / 7word.
使用上面提到的方法,需要依赖于有标签的数据才能进行训练。然而有标签的数据通常是稀缺的,因此对于许多问题,我们很难获得足够多的样本来拟合一个复杂模型的参数。例如,考虑到深度网络具有强大的表达能力,在不充足的数据上进行训练将会导致过拟合。 2) 局部极值问题 使用监督学习方法来对浅层网络(只有一个隐藏层)进行训练通常能够使参数收敛到合理的范围内。但是当用这种方法来训练深度网络的时候,并不能取得很好的效果。特别的,使用监督学习方法训练神经网络时,通常会涉及到求解一个高度非凸的优化问题。对深度网络而言,这种非凸优化问题的搜索区域中充斥着大量“坏”的局部极值,因而使用梯度下降法(或者像共轭梯度下降法,L-BFGS
等方法)效果并不好。 3) 梯度弥散问题 梯度下降法(以及相关的L-BFGS算法等)在使用随机初始化权重的深度网络上效果不好的技术原因是:梯度会变得非常小。具体而言,当使用反向传播方法计算导数的时候,随着网络的深度的增加,反向传播的梯度(从输出层到网络的最初几层)的幅度值会急剧地减小。结果就造成了整体的损失函数相对于最初几层的权重的导数非常小。这样,当使用梯度下降法的时候,最初几层的权重变化非常缓慢,以至于它们不能够从样本中进行有效的学习。这种问题通常被称为“梯
度的弥散”.
与梯度弥散问题紧密相关的问题是:当神经网络中的最后几层含有足够数量神经元的时候,可能单独这几层就足以对有标签数据进行建模,而不用最初几层的帮助。因此,对所有层都使用随机初始化的方法训练得到的整个网络的性能将会与训练得到的浅层网络(仅由深度网络的最后几层组成的浅层网络)的性能相似。
3.逐层贪婪训练方法 逐层贪婪训练方法是训练深度网络取得一定成功的一种方法。简单来说,逐层贪
婪算法的主要思路是:
➢ 每次只训练网络中的一层,即首先训练一个只含一个隐藏层的网络,仅当这层网络训练结束之后才开始训练一个有两个隐藏层的网络,以此类推。 ➢ 在每一步中,把已经训练好的前 层固定,然后增加第 层(也就是将已经训练好的前 的输出作为输入)。 ➢ 每一层的训练可以是有监督的(例如,将每一步的分类误差作为目标函数),但更通常使用无监督方法(例如自动编码器)。 ➢ 这些各层单独训练所得到的权重被用来初始化最终(或者说全部)的深度网络的权重,然后对整个网络进行“微调”(即把所有层放在一起来优化有标签训练集上的训练误差)。
逐层贪婪的训练方法取得成功要归功于以下两方面: ✓ 数据获取 虽然获取有标签数据的代价是昂贵的,但获取大量的无标签数据是容易的。自学习方法的潜力在于它能通过使用大量的无标签数据来学习到更好的模型。具体而4 / 7word.
言,该方法使用无标签数据来学习得到所有层(不包括用于预测标签的最终分类层) 的最佳初始权重。相比纯监督学习方法,这种自学习方法能够利用多得多的数据,并且能够学习和发现数据中存在的模式。因此该方法通常能够提高分类器的性能。
✓ 更好的局部极值 当用无标签数据训练完网络后,相比于随机初始化而言,各层初始权重会位于参数空间中较好的位置上。然后我们可以从这些位置出发进一步微调权重。从经验上来说,以这些位置为起点开始梯度下降更有可能收敛到比较好的局部极值点,这是因为无标签数据已经提供了大量输入数据中包含的模式的先验信息。
(三)卷积特征提取和池化 1)全联通网络 把输入层和隐含层进行“全连接”的设计,从整幅图像中计算特征,从计算的角度来讲,对相对较小的图像是可行的。但是,如果是更大的图像,要通过全联通网络的这种方法来学习整幅图像上的特征,将是非常耗时。
2)部分联通网络 解决以上问题的一种简单方法是对隐含单元和输入单元间的连接加以限制:每个隐含单元仅仅只能连接输入单元的一部分。例如,每个隐含单元仅仅连接输入图
像的一小片相邻区域。
网络部分连通的思想,也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的(即这些神经元只响应某些特定区域的刺激)。
3)卷积 自然图像有其固有特性,也就是说,图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上,所以对于这个
图像上的所有位置,都能使用同样的学习特征。 当从一个大尺寸图像中随机选取一小块,比如说 8x8 作为样本,并且从这个小块样本中学习到了一些特征,这时可以把从这个 8x8 样本中学习到的特征作为探测器,应用到这个图像的任意地方中去。特别是,可以用从 8x8 样本中所学习到的特征跟原本的大尺寸图像作卷积,从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。
实例:假设已经从一个 96x96 的图像中学习到了它的一个 8x8 的样本所具有的特征,假设这是由有 100 个隐含单元的自编码完成的。为了得到卷积特征,需要对 96x96 的图像的每个 8x8 的小块图像区域都进行卷积运算。也就是说,抽取 8x8 的小块区域,并且从起始坐标开始依次标记为(1,1),(1,2),...,一直到(89,89),然后对抽取的区域逐个运行训练过的稀疏自编码来得到特征5 / 7word.
的激活值。在这个例子里,显然可以得到 100 个集合,每个集合含有 89x89 个卷积特征。
假设给定了 的大尺寸图像,将其定义为 xlarge。首先通过从大尺寸图像中抽取的 的小尺寸图像样本 xsmall 训练稀疏自编码,计算 f = σ(W(1)xsmall + b(1))(σ 是一个 sigmoid 型函数)得到了 k 个特征, 其中 W(1) 和 b(1) 是可视层单元和隐含单元之间的权重和偏差值。对于每一个 大小的小图像 xs,计算出对应的值 fs = σ(W(1)xs + b(1)),对这些 fconvolved 值做卷积,就可以得
到 个卷积后的特征的矩阵。
4)池化 在通过卷积获得了特征 之后,下一步是要利用这些特征去做分类。理论上讲,可以用所有提取得到的特征去训练分类器,例如 softmax 分类器,但这样做面临计算量的挑战。例如:对于一个 96X96 像素的图像,假设已经学习得到了400个定义在8X8输入上的特征,每一个特征和图像卷积都会得到一个 (96 − 8 + 1) * (96 − 8 + 1) = 7921 维的卷积特征,由于有 400 个特征,所以每个样例都会得到一个7921 * 400 = 3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便,并且容易出现过拟合。
为了解决这个问题,即为了描述大的图像,一个很自然的想法就是对不同位置的特征进行聚合统计,例如,人们可以计算图像一个区域上的某个特定特征的平均
值 (或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征),同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling),有时也称为平均池化或者最大池化 (取决于计算池化的方法)。
池化的不变性 如果选择图像中的连续范围作为池化区域,并且只是池化相同(重复)的隐藏单元产生的特征,那么,这些池化单元就具有平移不变性 。这就意味着即使图像经历了一个小的平移之后,依然会产生相同的 (池化的) 特征。 形式化描述 形式上,在获取到卷积特征后,就要确定池化区域的大小(假定为),来池化卷积特征。那么,把卷积特征划分到数个大小为 的不相交区域上,然后用这些区域的平均(或最大)特征来获取池化后的卷积特征。这些池化后的特征便可以用来做分类。