深度学习研究综述_尹宝才
基于改进的自适应主元提取算法的人脸识别

基于改进的自适应主元提取算法的人脸识别
石勤;尹宝才;孙艳丰;王成章
【期刊名称】《计算机工程与应用》
【年(卷),期】2006(42)24
【摘要】论文提出了一种基于改进的自适应主元提取算法的人脸识别方法.采用改进的自适应主元提取算法将人脸图像由高维观测空间投影到低维特征空间,通过改进前馈网络权值更新方程,降低算法的复杂度和计算量.基于三维人脸形变模型,采用区域填充和曲面消隐算法根据一幅人脸图像生成多个虚拟样本,克服人脸识别中的小样本问题.在ORL和UMIST数据库上的实验结果表明,该文提出的算法在识别性能上明显高于传统的Eigenface和Fisherface方法.
【总页数】4页(P20-23)
【作者】石勤;尹宝才;孙艳丰;王成章
【作者单位】北京工业大学多媒体与智能软件技术北京市重点实验室,北京,100022;北京工业大学多媒体与智能软件技术北京市重点实验室,北京,100022;北京工业大学多媒体与智能软件技术北京市重点实验室,北京,100022;北京工业大学多媒体与智能软件技术北京市重点实验室,北京,100022
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于小波树和主元分析的人脸识别 [J], 刘悦婷
2.自适应主元提取算法及其在人脸图像特征提取中的应用 [J], 甘俊英;张有为;毛士艺
3.基于改进的自适应局部保持投影算法的人脸识别 [J], 梅玲玲;龚劬
4.自适应主元提取算法在人脸图像特征提取中的应用 [J], 甘俊英;张有为;毛士艺
5.一种基于改进型自适应滑动窗算法的主元分析 [J], 周奇才; 黄克; 赵炯; 熊晓磊因版权原因,仅展示原文概要,查看原文内容请购买。
深度学习中的无监督学习方法综述①

2016 年 第 25 卷 第 8 期
计算机系统应用
会被进行一定程度的抽象, 得到一个更深层的编码
(code), 然后可以通过第二层变换(decoder)得到一个近
似于输入数据(input data)的输出数据(output data). 如
果输入数据和输出数据相等, 则表明该编码是无损的
如今深度学习方法在许多应用中都取得了比较好 的效果, 但是却缺乏坚实的理论基础, 针对特定问题 需要多少层的神经网络, 每层神经网络需要多少个神 经单元, 都只有经验公式, 没有理论支撑. 深层网络 架构本身可以比浅层网络更简洁地表达复杂关系, 但 是深层架构的不可或缺性和无监督学习算法的必要性 还有待进一步论证. 不可否认的是, 作为构建深度学 习的重要方法, 无监督学习技术所起的作用是不容忽 视的. 无监督学习技术可以在没有标签的情况下自主 学习数据的抽象形式, 不仅拓展了学习的范围, 也为 神经网络提供了一个较优的初始化参数, 因此, 理解 和分析无监督学习技术的机理和方法, 对于理解和拓 展深度学习具有非常重要的意义.
论文的其余部分是这样组织的, 第 1 节介绍了无 监督学习方法及其在深度学习中的应用, 第 2 节介绍 确定型的无监督学习方法-自编码及降噪自编码技术, 第 3 节介绍概率型的无监督学习方法—基于受限玻尔 兹曼机的对比散度学习方法, 第 4 节介绍了基于无监 督学习方法的深度学习系统并简要介绍了两类无监督
2016 年 第 25 卷 第 8 期
计算机系统应用
深度学习中的无监督学习方法综述①
殷瑞刚 1, 魏 帅 2, 李 晗 2, 于 洪 2
1(解放军第 181 医院, 桂林 541002) 2(国家数字交换系统工程技术研究中心, 郑州 450002)
国外近十年深度学习实证研究综述主题、情境、方法及结果

国外近十年深度学习实证研究综述主题、情境、方法及结果一、概述:二、主题分类:计算机视觉:该主题主要关注图像识别、目标检测、图像生成等任务。
研究者利用深度学习模型,如卷积神经网络(CNN),在图像分类、人脸识别、物体检测等任务上取得了显著成果。
自然语言处理:自然语言处理是深度学习的另一重要应用领域。
研究者使用循环神经网络(RNN)、长短期记忆网络(LSTM)、变压器(Transformer)等模型进行文本生成、情感分析、机器翻译等任务,推动了自然语言处理技术的发展。
语音识别与生成:深度学习在语音识别和语音合成方面也有广泛应用。
研究者利用深度学习模型进行语音特征提取、语音识别和语音合成,提高了语音技术的准确性和自然度。
游戏与人工智能:深度学习在游戏领域的应用也日益增多。
研究者利用深度学习模型进行游戏策略学习、游戏内容生成等任务,提高了游戏的智能性和趣味性。
医疗与健康:深度学习在医疗领域的应用也备受关注。
研究者利用深度学习模型进行疾病诊断、药物研发、医疗影像分析等任务,为医疗健康领域的发展提供了有力支持。
这些主题分类展示了深度学习在不同领域和应用场景中的广泛应用和巨大潜力。
通过对这些主题的深入研究和分析,我们可以更好地理解深度学习的发展趋势和应用前景。
1. 计算机视觉在计算机视觉领域,深度学习技术的应用已经取得了显著的突破。
近年来,卷积神经网络(CNN)成为了该领域的主导模型,特别是在图像分类、目标检测、图像分割等方面。
AlexNet、VGG、GoogleNet、ResNet等模型的出现,不断刷新了图像分类任务上的准确率记录。
主题:计算机视觉的核心任务是让机器能够像人一样“看懂”图像和视频,从而进行自动分析和理解。
深度学习通过模拟人脑神经元的连接方式,构建出复杂的网络结构,实现对图像的高效特征提取和分类。
情境:计算机视觉的应用场景非常广泛,包括人脸识别、自动驾驶、医学影像分析、安全监控等。
在这些场景中,深度学习模型需要处理的数据集往往规模庞大,且存在噪声、模糊等问题,因此模型的鲁棒性和泛化能力成为研究重点。
快速总结相关研究综述范文

摘要:随着信息技术的飞速发展,人工智能(AI)已成为全球科技竞争的焦点。
本文从人工智能的发展历程、主要技术领域、应用场景以及面临的挑战等方面,对人工智能领域的相关研究进行综述。
一、发展历程人工智能的发展历程可分为四个阶段:理论探索阶段、技术突破阶段、应用探索阶段和产业应用阶段。
从20世纪50年代至今,人工智能经历了从理论研究到技术突破,再到产业应用的全过程。
二、主要技术领域1. 深度学习:深度学习是近年来人工智能领域的重要突破,包括卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)等。
2. 自然语言处理(NLP):NLP是人工智能领域的核心之一,包括文本分类、情感分析、机器翻译、问答系统等。
3. 计算机视觉:计算机视觉是人工智能领域的重要分支,包括目标检测、图像识别、图像分割等。
4. 机器学习:机器学习是人工智能的基础,包括监督学习、无监督学习、半监督学习等。
5. 强化学习:强化学习是使机器通过与环境交互来学习的一种方法,广泛应用于游戏、机器人控制等领域。
三、应用场景1. 金融领域:智能投顾、风险管理、反欺诈等。
2. 医疗领域:疾病诊断、药物研发、健康管理等。
3. 教育:个性化教学、智能评测、教育资源分配等。
4. 交通:自动驾驶、智能交通管理、交通信号控制等。
5. 语音助手:智能客服、智能家居、语音识别等。
四、面临的挑战1. 数据隐私与安全:随着人工智能技术的广泛应用,数据隐私与安全问题日益突出。
2. 算法偏见与公平性:算法偏见可能导致不公平的决策,影响人工智能的公正性。
3. 技术伦理与道德:人工智能技术可能引发伦理道德问题,如机器人的权利、人工智能的决策责任等。
4. 跨学科融合:人工智能技术涉及多个学科领域,需要跨学科的研究与合作。
总结:人工智能领域的研究取得了丰硕的成果,但在实际应用中仍面临诸多挑战。
未来,人工智能技术将继续向深度学习、多模态、跨学科融合等方面发展,为人类社会带来更多福祉。
基于相邻像素的帧内预测算法

基于相邻像素的帧内预测算法
尹宝才;孙磊;孔德慧;季鹏飞
【期刊名称】《北京工业大学学报》
【年(卷),期】2006(032)011
【摘要】为了解决H.264帧内预测中运动物体边缘预测不精确的问题,提出了一种基于块内相邻像素的帧内预测算法.根据块内相邻像素相关性更强的特点,采用层次结构,分阶段预测待编码块内像素.在保证模式方向特性的前提下,充分利用块内已经预测过的像素作为参考,预测其他像素,重新统计最优模式的分布规律,基于统计结果确定该算法的预测模式顺序.实验结果证明,这种基于相邻像素的帧内预测算法可以解决预测不精确的问题,提高帧内编码效率.
【总页数】6页(P1037-1042)
【作者】尹宝才;孙磊;孔德慧;季鹏飞
【作者单位】北京工业大学,多媒体与智能软件技术北京市重点实验室,北
京,100022;北京工业大学,多媒体与智能软件技术北京市重点实验室,北京,100022;北京工业大学,多媒体与智能软件技术北京市重点实验室,北京,100022;北京工业大学,多媒体与智能软件技术北京市重点实验室,北京,100022
【正文语种】中文
【中图分类】TN911.72
【相关文献】
1.基于块参考像素特征的快速帧内预测模式选择新算法 [J], 蒋刚毅;李世平;叶锡恩;郁梅
2.基于像素分组的帧内预测快速算法 [J], 周祥君;李东新
3.基于相邻像素差与NRSS的自动对焦算法 [J], 陈浩;陈健;叶轻舟;蔡志明
4.基于相邻像素差异值的车牌定位算法 [J], 韦玉科;欧阳发
5.基于相邻像素间比特置乱的图像加密算法 [J], 郭媛;敬世伟;周艳艳
因版权原因,仅展示原文概要,查看原文内容请购买。
基于多任务模型的深度预测算法研究

2021年6月图 学 学 报 June2021第42卷第3期JOURNAL OF GRAPHICS V ol.42No.3基于多任务模型的深度预测算法研究姚翰,殷雪峰,李童,张肇轩,杨鑫,尹宝才(大连理工大学计算机科学与技术学院,辽宁大连 116024)摘要:图像的深度值预测是计算机视觉和机器人领域中的一个热门的研究课题。
深度图的构建是三维重建的重要前提,传统方法主要依靠确定固定点深度进行人工标注或是根据相机的位置变化来进行双目定位预测深度,但这类方法一方面费时费力,另一方面也受到相机位置、定位方式、分布概率性等因素的限制,准确率很难得到保证,从而导致预测的深度图难以完成后续三维重建等工作。
通过引入基于多任务模块的深度学习方法,可以有效解决这一问题。
针对场景图像提出一种基于多任务模型的单目图像深度预测网络,能同时训练学习深度预测、语义分割、表面向量估计3个任务,包括共有特征提取模块和多任务特征融合模块,能在提取共有特征的同时保证各个特征的独立性,提升各个任务的结构性的同时保证深度预测的准确性。
关键词:计算机视觉;单目深度预测;多任务模型;语义分割;表面向量估计中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2021030446文献标识码:A 文章编号:2095-302X(2021)03-0446-08Research on depth prediction algorithm based on multi-task modelYAO Han, YIN Xue-feng, LI Tong, ZHANG Zhao-xuan, YANG Xin, YIN Bao-cai (School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116024, China)Abstract: Image depth prediction is a hot research topic in the field of computer vision and robotics. The construction of depth image is an important prerequisite for 3D reconstruction. Traditional methods mainly conduct manual annotation based on the depth of a fixed point, or predict the depth based on binocular positioning according to the position of the camera. However, such methods are time-consuming and labor-intensive and restricted by factors such as camera position, positioning method, and distribution probability. As a result, the difficulty in guaranteeing high accuracy poses a challenge to subsequent tasks following the predicted depth map, such as 3D reconstruction. This problem can be effectively solved by introducing a deep learning method based on multi-task modules. For scene images, a multi-task model-based monocular-image depth-prediction network was proposed, which can simultaneously train and learn three tasks of depth prediction, semantic segmentation, and surface vector estimation.The network includes a common feature extraction module and a multi-task feature fusion module, which can ensure the independence of each feature while extracting common features, and guarantee the accuracy of depth prediction while improving the structure of each task.Keywords: computer vision; monocular depth prediction; multi-task model; semantic segmentation; surface normal estimation收稿日期:2020-08-28;定稿日期:2020-12-15Received:28 August,2020;Finalized:15 December,2020基金项目:国家自然科学基金项目(91748104,61972067,61632006,U1811463,U1908214,61751203);国家重点研发计划项目(2018AAA0102003) Foundation items:National Natural Science Foundation of China (91748104, 61172007, 61632006, U1811463, U1908214, 61751203); National Key Research and Development Program (2018AAA0102003)第一作者:姚翰(1994-),男,辽宁沈阳人,硕士研究生。
深度学习方法研究综述
深度学习方法研究综述一、本文概述随着技术的飞速发展,深度学习作为其中的一项关键技术,已经在许多领域取得了显著的突破。
本文旨在对深度学习方法进行全面的研究综述,以期为读者提供一个清晰、系统的深度学习知识体系。
我们将从深度学习的基本原理、发展历程、主要算法、应用领域以及未来发展趋势等方面展开详细的介绍和分析。
我们将回顾深度学习的基本原理,包括神经网络的基本结构、激活函数的作用、优化算法的选择等。
在此基础上,我们将探讨深度学习的发展历程,从早期的感知机模型到现代的卷积神经网络、循环神经网络等,以及深度学习在各领域的应用情况。
接下来,我们将详细介绍几种主流的深度学习算法,如卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)等。
我们将对这些算法的基本原理、优缺点以及在实际应用中的表现进行深入分析。
本文还将关注深度学习的应用领域,包括计算机视觉、自然语言处理、语音识别、推荐系统等。
我们将通过具体的案例来展示深度学习在这些领域中的实际应用价值和潜力。
我们将对深度学习的未来发展趋势进行展望,探讨深度学习在未来可能面临的挑战和机遇,以及可能的新技术和新方法。
本文旨在对深度学习方法进行全面的研究综述,帮助读者更好地理解和应用深度学习技术。
我们希望通过本文的介绍和分析,为深度学习领域的发展贡献一份力量。
二、深度学习的基本原理深度学习的基本原理主要建立在人工神经网络(ANN)的基础上,通过模拟人脑神经元的连接方式,构建深度神经网络(DNN)模型。
DNN通过多层非线性变换,将低层次的特征组合成高层次的特征表示,从而实现对复杂数据的抽象和表示。
深度学习的核心在于通过反向传播算法(Backpropagation)和梯度下降法(Gradient Descent)优化网络参数,使得网络输出与真实标签之间的误差最小化。
在训练过程中,通过不断迭代更新网络权重,使得网络能够从大量无标签或弱标签数据中学习到有效的特征表示和数据分布。
电梯补偿链动态悬挂特性分析
电梯补偿链动态悬挂特性分析傅武军(三菱电机上海机电电梯有限公司技术开发中心,上海201109)摘要:根据乘客曳引电梯补偿链的实际运动形式,建立运动状态下的电梯补偿链微分方程,通过差分方法对电梯补偿链动态特性进行了数值求解,根据结果对顶层、中间层和底层的补偿链的动态悬垂曲线进行了分析,发现加速状态的补偿链与静态相比会发生向轿厢或对重侧偏移。
该结果对电梯井道部件的设计具有重要指导意义。
关键词:电梯;补偿链;悬链线;数值解法中图分类号:TH218文献标志码:A文章编号:1002-2333(2021)05-0042-03 Analysis on Dynamic Suspension Characteristics of Elevator Compensation ChainFU Wujun(R&D Center,Mitsubishi Electric Shanghai Electric Elevator Co.,Ltd.,Shanghai201109,China)Abstract:According to the actual motion form of the passenger traction elevator compensation chain,the differential equation of the elevator compensation chain under the motion state is established,and the dynamic characteristics of the elevator compensation chain are numerically solved by the difference method.According to the results,the dynamic sag curves of the compensation chain of the top,middle and bottom layers are analyzed.It is found that the compensation chain in the acceleration state will shift to the car or the counterweight compared with the static state.This result has important guiding significance for the design of elevator shaft components.Keywords:elevator;compensation chain;suspension curve;numerical solution0引言曳引乘客电梯作为高层建筑中垂直运输工具,在现代社会中的应用越来越广泛。
《深度学习在自动驾驶中的应用》的文献综述
《深度学习在自动驾驶中的应用》的文献综述摘要:随着人工智能技术的飞速发展,深度学习已成为推动自动驾驶技术革新的关键力量,在未来自动驾驶依托深度学习会有更快的发展。
本文综述了深度学习在自动驾驶领域中的最新应用,并探讨了其未来的发展趋势。
本文展望了深度学习在自动驾驶领域中的未来发展趋势。
随着计算能力的提升和算法的优化,深度学习将在自动驾驶系统中发挥更加重要的作用。
同时,随着5G、物联网等技术的普及与应用,自动驾驶系统将实现更加高效的信息共享与协同工作,从而推动智能交通系统的全面发展。
关键词:深度学习;自动驾驶;感知;决策;控制;智能交通系统一、引言随着科技的飞速发展,自动驾驶技术是当今科技领域一个备受瞩目的研究和发展方向,它代表了现代交通系统未来的发展潜力。
深度学习作为人工智能领域的一个重要分支,在自动驾驶中扮演着关键角色。
近年来,深度学习技术的崛起为自动驾驶领域带来了革命性的变革。
深度学习以其强大的特征提取能力和模型泛化能力,为自动驾驶系统的感知、决策与控制等核心模块提供了全新的解决方案。
在自动驾驶的感知模块中,深度学习技术通过构建深度神经网络模型,能够实现对车辆周围环境的高精度感知与理解。
无论是复杂的道路场景、多样的交通参与者,还是多变的天气条件,深度学习都能以出色的性能完成识别与分类任务,为自动驾驶系统提供准确的环境信息。
在决策模块中,深度学习通过强化学习等方法,使自动驾驶系统能够自主规划行驶路径并做出合理决策。
这些决策不仅基于当前的环境信息,还考虑了未来的路况变化、交通流量等多种因素,从而确保车辆行驶的安全与高效。
此外,深度学习在自动驾驶的控制模块中也发挥着重要作用。
通过优化控制算法,深度学习能够实现对车辆行为的精准控制,包括车速、转向、制动等。
这种精准控制不仅提高了行车稳定性,还降低了事故发生的概率。
尽管深度学习在自动驾驶领域展现出了巨大的潜力,但也面临着诸多挑战。
数据标注成本高、计算资源消耗大、安全性保障难等问题都亟待解决。
由粗到细的渐进式特征点定位算法
由粗到细的渐进式特征点定位算法
贾熹滨;石勤;尹宝才
【期刊名称】《北京工业大学学报》
【年(卷),期】2006(032)005
【摘要】为了解决描述口形轮廓的特征点定位问题,提出了一种特征点定位算法,通过建立口形灰度图像与口形特征点矢量之间的线性映射关系,实现了特征点的初始定位.在此基础上利用局部纹理模型,对特征点位置进行了准确调整.该算法克服了单纯基于局部纹理模型可能陷入搜索过程中局部收敛的缺点.并提出了适合描述唇部特征的局部纹理模型,提高了特征点标定的准确性.
【总页数】4页(P447-450)
【作者】贾熹滨;石勤;尹宝才
【作者单位】北京工业大学,计算机学院,多媒体与智能软件技术北京市重点实验室,北京,100022;北京工业大学,计算机学院,多媒体与智能软件技术北京市重点实验室,北京,100022;北京工业大学,计算机学院,多媒体与智能软件技术北京市重点实验室,北京,100022
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于ASM和ERT特征点定位算法的人脸比例特征信息提取 [J], 唐飞;卢鑫;沈琳琳
2.一种由粗到细的渐进式特征点定位算法 [J], 贾熹滨;石勤;尹宝才
3.由粗到细的点云配准算法 [J], 赵夫群
4.一种由粗到细的图像逐级去雨算法 [J], 马悦
5.粗-细两阶段卷积神经网络算法 [J], 张梦倩;张莉
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[4143 ]
50
北
京
工
业
大
学
学
报
2015 年
[46 ] 和下采样 3 个阶段 , 其中下采样阶段不是每层都 必需的. 每层的输入和输出为一组向量构成的特征
征图对应的是一维向量; 对于视频或立体影像, 对应 的是三维数组) ; 对应的输出部分, 每个特征图对应 的是表示从输入图片所有位置上提取的特定特征 . 2. 1 单层卷积神经网络 卷积、 非线性变换和下采样 3 个阶段构成的单 层卷积神经网络如图 2 所示.
, 以及反向传播算法与神经网络结合
的研究 使得神经网络的研究重新开始成为热 [4143 ] . 点 但是由于传统的反向传播算法 具有收敛速 度慢、 需要大量带标签的训练数据、 容易陷入局部最 优等缺点, 多层感知机的效果并不是十分理想 . 1984 年日本学者 K. Fukushima 等基于感受野 概念 提出的神经认知机可看作卷积神经网络的 [45 ] Y. Lecun 等[33-34] 提出的卷积神经网 一种特例 , 络是神经认知机的推广形式. 卷积神经网络是由多 个单层卷积神经网络组成的可训练的多层网络结 构. 每个单层卷积神经网络包括卷积、 非线性变换
图( feature map) ( 第一层的原始输入信号可以看作 一个具有高稀疏度的高维特征图 ) . 例如, 输入部分 是一张彩色图像, 每个特征图对应的则是一个包含 输入图像彩色通道的二维数组 ( 对于音频输入, 特
图2 Fig. 2
单层卷积神经网络的 3 个阶段
Three phases of a single layer convolutional neural network
第 41 卷 第 1 期 2015 年 1 月
北
京
工
业
大
学
学
报
Vol. 41 No. 1 Jan. 2015
JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY
深度学习研究综述
尹宝才,王文通,王立春
( 北京工业大学 城市交通学院 多媒体与智能软件技术北京市重点实验室 ,北京 100124 ) 摘 要: 鉴于深度学习在学术界和工业界的重要性 , 依据数据流向对目前有代表性的深度学习算法进行归纳和总
[26 ] 利于分类或特征的可视化 . 深度学习理论的另 外一个理论动机是: 如果一个函数可用 k 层结构以
BDDN) , 通过叠加多个编码器层和解码器层构成 ( 每层可能是单独的编码过程或解码过程, 也可能 既包含编码过程也包含解码过程 ) , 如深度玻尔兹 [3637 ] 、 ( deep Boltzmann machines , DBM ) 深度信 曼机 DBN ) [26]、 念网络 ( deep belief networks, 栈式自编码 encoders, SAE ) [38]等. 器( stacked auto-
[120 ]
1
深度学习
深度学习是机器学习领域一个新的研究方向, 近年来在语音识别、 计算机视觉等多类应用中取得
信号时, 通过多个变换阶段分层对数据特征进行描 [2122 ] , 述 进而给出数据的解释. 以图像数据为例, 灵
收稿日期: 2014-09-05 基金项目: 国家自然科学基金资助项目 ( 61390512 ) Email: 作者简介: 尹宝才( 1963 —) ,男,教授,主要从事数字多媒体技术 、 多功能感知技术、 虚拟现实与图形学方面的研究 , ybc@ bjut. edu. cn
Abstract: Considering deep learning's importance in academic research and industry application ,this paper reviews methods and applications of deep learning. First , the concept of deep learning is introduced,and the main stream deep learning algorithms are classified into three classes: feedforward deep networks,feedback deep networks and bidirectional deep networks according to the architectural characteristics. Second ,network architectures and training methods of the three types of deep networks are reviewed. Finally ,stateoftheart applications of mainstream deep learning algorithms is illustrated and trends of deep learning is concluded. Although deep learning algorithms outperform traditional methods in many fields,there are still many issues,such as feature learning on unlabeled data ; the balance among network scale ,training speed and accuracy ; and model fusion. Key words: deep learning; deep neural networks; convolutional neural network ; deconvolutional network; deep Boltzmann machines 突破性的进展 . 其动机在于建立模型模拟人类 大脑的神经连接结构, 在处理图像、 声音和文本这些
第1 期
尹宝才,等: 深度学习研究综述
49
长类的视觉系统中对这类信号的处理依次为 : 首先 检测边缘、 初始形状, 然后再逐步形成更复杂的视觉 形状 , 同样地, 深度学习通过组合低层特征形成 更加抽象的高层表示、 属性类别或特征, 给出数据的
[22 ]
( multilayer perceptrons,MLP ) [31-32]、 卷积神经网络 ( convolutional neural networks,CNN) [33-34]等. 2 ) 反 馈 深 度 网 络 ( feedback deep networks, FBDN) , 如反卷积网络 由多个解码器层叠加而成, ( deconvolutional networks,DN) [30]、 层次稀疏编码网
[40 ] 前向人工神经网络, 但随后 M. Minsky 等 证明单 层感知机无法解决线性不可分问题 ( 如异或操作 ) ,
这一结论将人工神经网络研究领域引入到一个低潮 期, 直到研究人员认识到多层感知机可解决线性不 可分问题
[3132 ]
networks,DNN) . 深度神经网络是由多个单层非线性网络叠加而 [21 , 29 ] , 成的 常见的单层网络按照编码解码情况分为 3 类: 只包含编码器部分、 只包含解码器部分、 既有 编码器部分也有解码器部分. 编码器提供从输入到 隐含特征空间的自底向上的映射, 解码器以重建结 果尽可能接近原始输入为目标将隐含特征映射到输 [30 ] 入空间 . 深度神经网络分为以下 3 类 ( 如图 1 所 示) . 1 ) 前馈深度网络 ( feedforward deep networks, FFDN ) , 由多个编码器层叠加而成, 如多层感知机
简洁的形式表达, 那么用 k - 1 层的结构表达则可能 需要指数级数量的参数 ( 相对于输入信号 ) , 且泛化 能力不足
[21 , 27 ]
.
Fig. 1
图1
深度神经网络分类结构
深度学习的概念最早由多伦多大学的 G. E. Hinton 等[26] 于 2006 年提出, 指基于样本数据通过 一定的训练方法得到包含多个层级的深度网络结构 [21 ] 的机器学习过程 . 传统的神经网络随机初始化 网络中的权值, 导致网络很容易收敛到局部最小值 , Hinton 提出使用无监督预训练方 为解决这一问题, 法优化网络权值的初值, 再进行权值微调的方法, 拉 开了深度学习的序幕. 深度学习所得到的深度网络结构包含大量的单 一元素( 神经元) , 每个神经元与大量其他神经元相 连接, 神经元间的连接强度 ( 权值 ) 在学习过程中修 改并决定网络的功能. 通过深度学习得到的深度网
Review of Deep Learning
YIN Baocai,WANG Wentong ,WANG Lichun
( Beijing Key Laboratory of Multimedia and Intelligent Software Technology,College of Metropolitan Transportation, Beijing University of Technology,Beijing 100124 ,China)
[35 ] 络( hierarchical sparse coding ,HSC ) 等. 3 ) 双向深度网络 ( bidirectional deep networks,
分层特征表示. , 深度学习之所以被称为“深度 ” 是相对支撑向 量 机 ( support vector machine ,SVM ) 、提 升 方 法 ( boosting ) 、 最大熵方法等“浅层学习 ” 方法而言的, [21 ] 深度学习所学得的模型中, 非线性操作的层级数 更多. 浅层学习依靠人工经验抽取样本特征, 网络 模型学习后获得的是没有层次结构的单层特 [2325 ] ; 而深度学习通过对原始信号进行逐层特征 征 变换, 将样本在原空间的特征表示变换到新的特征 空间, 自动地学习得到层次化的特征表示 , 从而更有