利用深度学习进行场景分类

合集下载

基于深度学习算法的图像识别与分类研究

基于深度学习算法的图像识别与分类研究
03 全连接层
全连接层用于将卷积层和池化层提取的特征进行 整合,输出最终的分类结果。
深度神经网络
多层感知器
多层感知器是一种深度神经网络,通过堆叠多个神经元 层来提取和传递信息。
深度信念网络
深度信念网络是一种无监督学习的深度神经网络,通过 训练生成模型来学习数据的潜在表示。
优化算法
梯度下降法
反向传播算法
结果分析
准确率评估
使用测试集对训练好的模型进行评估,计算分类准确 率、混淆矩阵等指标。
性能对比
将所提模型与经典模型进行对比,分析所提模型的性 能优势和不足。
可视化分析
对模型的特征进行可视化,了解模型对图像特征的提 取和分类决策过程。
06
结论与展望
研究成果总结
深度学习算法在图像识别与分类领域 取得了显著成果,提高了分类准确率
和识别精度。
迁移学习、数据增强和混合模型等方 法进一步提升了图像识别的性能,为
实际应用提供了有力支持。

卷积神经网络(CNN)是处理图像识 别问题的主流深度学习算法,具有强 大的特征提取和分类能力。
深度学习算法在人脸识别、目标检测 、语义分割等领域取得了广泛应用, 为相关行业带来了巨大的商业价值。
未来研究方向
激活函数用于引入非线性特性,使神经网络能够 更好地学习和模拟复杂的数据模式。
03 权重和偏置
权重用于调节输入信号的强度,偏置则用于调整 神经元的激活阈值。
卷积神经网络
01 卷积层
卷积层是卷积神经网络的核心,通过卷积运算对 输入图像进行特征提取。
02 池化层
池化层用于降低数据的维度,减少计算量和过拟 合的风险。
根据研究目的和数据集特点,选择合适的深度学 习模型,如卷积神经网络(CNN)、残差网络 (ResNet)、迁移学习等。

使用AI技术进行场景识别的技术要点解析

使用AI技术进行场景识别的技术要点解析

使用AI技术进行场景识别的技术要点解析一、引言近年来,人工智能(Artificial Intelligence, AI)技术的快速发展和广泛应用为无数领域带来了新的机遇和挑战。

其中,使用AI技术进行场景识别已成为各个行业中的热门话题。

场景识别是指通过计算机视觉和深度学习技术,使计算机能够理解并识别图像或视频中所呈现的特定环境场景。

本文将解析使用AI技术进行场景识别的关键要点。

二、数据集构建数据集的构建对于场景识别的准确性至关重要。

首先需要收集大量且具有代表性的图像或视频样本,涵盖不同环境、天气、光照条件等多个因素,并标注其对应的场景类别信息。

采用众包平台可以有效增加数据集规模,并利用人工智能算法自动化地进行标注。

此外,还需考虑多样性和平衡性,保证各个类别均衡分布,以避免模型过拟合或偏差。

三、特征提取与选择在场景识别中,提取有效特征是关键一步。

传统方法常基于手工设计特征,如颜色直方图、纹理特征等。

然而,这些传统方法无法充分挖掘图像的高级语义信息。

随着深度学习技术的兴起,基于卷积神经网络(Convolutional Neural Networks, CNN)的特征提取成为主流。

通过预训练的深度学习模型(如ResNet、Inception 等),可以获得更具代表性和抽象化的特征表示,提高识别准确性。

四、模型选择与训练场景识别中常用的模型包括经典的卷积神经网络(CNN)、循环神经网络(Recurrent Neural Network, RNN)和时序卷积神经网络(Temporal ConvolutionalNeural Network, TCN)。

根据具体任务需求选择合适的模型结构,并进行参数训练。

应注意模型规模与计算资源之间的平衡,并进行适量规模化。

五、数据增强与扩展数据增强是提高场景识别鲁棒性和泛化能力的重要手段。

数据增强可通过图像尺寸变换、颜色空间变换、噪声添加等方式实现。

此外,还可以借助生成对抗网络(Generative Adversarial Networks, GANs)生成合成样本以实现数据扩展,从而进一步提高模型性能。

基于深度学习的遥感影像大数据土地利用分类

基于深度学习的遥感影像大数据土地利用分类

基于深度学习的遥感影像大数据土地利用分类摘要:土地是人类赖以生存和发展的物质基础,是社会生产的劳动资料,是农业生产的基本生产资料,是一切生产和一切存在的源泉。

科学地进行土地利用分类,不仅有助于提高土地利用调查研究与制图的质量,而且有利于因地制宜、合理地组织土地利用和布局生产。

随着深度学习的不断成熟,深度学习已成功的运用于遥感影像自动分类。

本文将介绍两种深度学习网络,分别是卷积神经网络和胶囊神经网络,并通过分析其工作原理,进行优点缺点的相互比较。

关键词:土地利用分类深度学习卷积神经网络胶囊神经网络1 引言1.1 研究背景与意义土地利用分类是国家掌握土地资源现状、制定土地政策、合理利用土地资源的重要的基础性工作,同时也是新时期开展国土空间规划工作的基础和前提。

随着中国经济持续高水平发展,土地浪费现象日益严重,土地资源的实际应用效率比较低,因为土地资源短缺、土地资源利用率和森林覆盖率、耕地利用等问题都与社会可持续发展息息相关,所以更加迫切的要求对土地资源进行合理的开发、规划和利用[1]。

1.2 研究现状经典的遥感影像分类方法主要利用遥感影像的低层次特征信息,如光谱特征、几何特征等[2],采用不同的分类器,如主成分分析、人工神经网络等,实现遥感影像的地物分类。

Maggiori 等[3]采用全卷积神经元网络实现了遥感影像的像素级分类;Scott等[4]结合迁移学习,克服了遥感影像数据集标注缺乏的困境。

目前,利用深度学习算法实现高分辨率航空和航天影像的大区域(如城市级)土地利用分类及变化检测的有关研究依然较少,本文针对城市级的高分辨率遥感影像,研究了基于深度学习的分类和变化检测方法。

2 卷积神经网络2.1 卷积神经网络的原理卷积神经网络的原理是在3D 输入特征图上滑动这些3×3 或5×5 的窗口,在每个可能的位置停止并提取周围特征的3D图块。

然后每个3D图块与学到的同一个权重矩阵做张量积,转换成形状为的1D向量。

基于深度学习的网络图像语义分割与场景理解

基于深度学习的网络图像语义分割与场景理解

基于深度学习的网络图像语义分割与场景理解深度学习在计算机视觉领域有着广泛的应用,而网络图像语义分割与场景理解是其中重要的研究方向之一。

它们利用深度学习模型对输入的图像进行像素级别的分类和理解,能够对图像中的不同物体进行准确的分割,并对场景进行深度理解。

本文将对基于深度学习的网络图像语义分割与场景理解进行详细介绍和讨论。

首先,我们来了解一下网络图像语义分割。

图像语义分割是指将图像中的每一个像素分配给特定的语义类别,如人、车、树等。

传统的图像分割方法通常基于低层次的特征如颜色、纹理等进行像素分类,但难以获得准确的分割结果。

然而,基于深度学习的图像语义分割方法往往通过卷积神经网络(CNN)从图像原始像素数据中学习出高层次的语义特征。

这些学习到的特征能够捕捉到不同语义类别物体的形状、纹理和上下文等信息,从而能够在像素级别上进行准确的分割。

深度学习的图像语义分割方法主要包括全卷积网络(FCN)、深度级联网络(DCNN)和条件随机场(CRF)等。

其中,FCN是最早应用于图像分割任务的深度学习方法,它通过将卷积神经网络的全连接层替换为卷积层,从而可以接受任意大小的输入图像并生成相应的密集像素预测图。

DCNN则通过在像素级别上进行多次迭代,逐步细化分割结果,从而提高了分割的准确性。

而CRF则常用于进一步优化分割结果,通过考虑像素之间的上下文关系,从而消除分割中的局部错误。

除了图像分割,基于深度学习的网络场景理解也是一个重要的研究方向。

场景理解是指对图像所代表的场景进行整体的理解和推理。

传统的场景理解方法通常基于手工设计的特征和规则进行分类和推理,难以适应复杂场景的变化。

而基于深度学习的场景理解方法则可以通过学习大量的图像数据,自动地从数据中学习到高层次的语义信息和抽象特征。

基于深度学习的场景理解方法一般基于卷积神经网络(CNN)或循环神经网络(RNN)。

CNN能够对图像进行特征提取和表示学习,从而能够捕捉到场景中的重要视觉特征;而RNN则能够利用其记忆性质对图像中的序列信息进行建模和推理。

基于深度学习的遥感图像分类与分割技术研究

基于深度学习的遥感图像分类与分割技术研究

基于深度学习的遥感图像分类与分割技术研究遥感图像分类与分割技术是遥感领域中重要的研究方向,广泛应用于地球资源调查、环境监测、军事侦察等领域。

近年来,随着深度学习技术的快速发展,基于深度学习的遥感图像分类与分割技术取得了显著的进展。

本文着重探讨了基于深度学习的遥感图像分类与分割技术的研究现状以及存在的问题,并提出了未来研究的发展方向。

首先,回顾了传统的遥感图像分类与分割方法。

传统的方法主要基于手工设计的特征提取和分类算法,如常用的支持向量机(SVM)和决策树等。

这些方法在一定程度上能够有效地处理简单的遥感图像分类任务,但对于复杂的图像场景和大规模数据集的处理能力有限。

接着,本文重点介绍了基于深度学习的遥感图像分类与分割技术。

深度学习技术通过学习数据中的高级特征,能够自动地进行特征提取和分类。

在遥感图像分类任务中,卷积神经网络(CNN)是最常用的深度学习模型之一。

CNN能够通过多层卷积和池化操作,提取图像中的空间信息和局部特征,从而实现遥感图像分类和分割。

此外,还有一些基于深度学习的优化算法,如深度卷积生成对抗网络(DCGAN)和注意力机制网络(AMN),在遥感图像分类和分割中也取得了较好的效果。

然而,基于深度学习的遥感图像分类与分割技术仍存在一些挑战和问题。

首先,深度学习模型需要大量的训练数据来提取有效的特征,但遥感图像数据的获取成本较高,很难获得足够的标注数据。

其次,遥感图像中存在多种类别的目标,目标类别之间存在较大的差异,如何处理类别不平衡问题是一个关键挑战。

此外,遥感图像中的大尺度、遮挡、光照变化和噪声等问题也给图像的分类和分割带来了困难。

针对上述问题,未来的研究可以从以下几个方向进行深入探索。

首先,应该利用深度学习模型的迁移学习和半监督学习技术,充分利用有限的标注数据来提高遥感图像分类和分割的性能。

其次,可以设计更加灵活和鲁棒的深度学习模型,以应对遥感图像中的各种变化和复杂场景。

此外,也可以结合其他的辅助信息,如地理信息系统(GIS)数据和气象数据等,来改善遥感图像的分类和分割效果。

场景模型分类

场景模型分类

场景模型分类在计算机视觉领域中,场景模型分类是一项重要的任务,旨在对图像或视频进行分类和识别,以准确判断场景类型。

通过对不同场景的模型分类,可以帮助计算机更好地理解图像和视频内容,为人工智能应用提供更多可能性。

一、背景介绍随着计算机视觉和人工智能技术的不断进步,场景模型分类已经成为研究和应用的热点之一。

通过利用深度学习和卷积神经网络等技术,可以对图像和视频进行高效准确的场景分类。

场景模型分类常被用于智能监控、自动驾驶、视频内容管理等领域。

二、常见的场景模型分类方法1.传统机器学习方法传统的场景模型分类方法主要基于特征提取和分类器的组合。

常用的特征提取方法包括SIFT、HOG等。

分类器可以采用SVM、决策树等算法。

这类方法在小样本集上的分类效果有一定的局限性,但在一些特定场景下仍然具有一定的应用价值。

2.卷积神经网络(CNN)卷积神经网络是目前场景模型分类的主流方法。

通过自动学习特征和分层表示的能力,CNN可以对图像和视频进行端到端的分类。

常用的CNN模型有AlexNet、VGG、ResNet等。

这类模型通常需要大量的标注数据进行训练,但在场景模型分类任务上有着出色的表现。

3.迁移学习迁移学习是一种能够将已学到的知识迁移到新任务上的技术。

对于场景模型分类任务,迁移学习可以通过在已有大规模数据集上训练的模型上进行微调,以适应新场景的特征提取和分类需求。

这种方法不仅可以提高模型的泛化能力,还可以减少训练时间和所需数据量。

三、场景模型分类的应用实例1.智能交通系统场景模型分类在智能交通系统中有着广泛的应用。

通过对交通场景进行分类,可以实现自动驾驶、交通监控等功能。

例如,当车辆驶入高速公路场景时,智能交通系统可以通过场景模型分类判断车辆的状态和所需的相应处理。

2.视频内容管理对于视频内容管理来说,场景模型分类可以帮助实现视频的自动标注和分类。

通过将视频片段分类为不同的场景类型,可以方便用户快速检索和管理大规模的视频资源。

深度学习方法在松山湖地区地物分类中的应用

深度学习方法在松山湖地区地物分类中的应用

DOI:10.16660/ki.1674-098X.2008-5640-6334深度学习方法在松山湖地区地物分类中的应用①贺丹* 张静(东莞理工学院城市学院计算机与信息学院 广东东莞 523000)摘 要:高分一号(GF-1)遥感影像具有分辨率高、光谱信息丰富、纹理清晰等特征,利用GF-1影像研究地物识别具有重要的现实意义。

本文以东莞市松山湖地区为研究区域,基于GF-1遥感影像数据,分别采用最大似然法、支持向量机、深度学习(随机森林)等方法对研究区的地物进行识别。

实验结果表明:采用深度学习方法对地物分类的总精度为92.24%,Kappa系数为0.91,与最大似然法和支持向量机相比,基于深度学习方法的分类精度更高,分类结果更能体现土地实际利用情况。

关键词:深度学习 松山湖 地物分类 遥感 高分一号中图分类号:TN957.52;TP391.41 文献标识码:A 文章编号:1674-098X(2020)11(c)-0021-05The Application of Deep Learning Method in the FeatureClassification of Songshan Lake AreaHE Dan * ZHANG Jing(School of Computer and Information, City College of DongGuan University of Technology, Dongguan,Guangdong Province, 523000 China)Abstract: GF-1 remote sensing image is characterized by high resolution, rich spectral information and clear texture, etc. Therefore, it is of great practical significance to use GF-1 image to study ground object recognition. Based on GF-1 remote sensing image data, this paper takes Songshan Lake area of Dongguan city as the research area, and adopts maximum likelihood method, support vector machine, deep learning(Random Forest, RF) and other methods to identify ground objects in the research area. The experimental results show that the total accuracy of ground objects classification using deep learning method is 90.24%, and the Kappa coefficient is 0.91. Compared with the maximum likelihood method and support vector machine, the classification based on deep learning method has a higher accuracy, and the classification results can better ref lect the actual land use.Key Words: Deep learning; Songshan lake; Feature classification; Remote sensing; GF-1①基金项目:2020年东莞市社会科技发展(一般)项目(项目名称:基于深度学习的松山湖地区遥感地物识别研究;项目编号:2020507151803),2019年广东大学生科技培育专项资金(“攀登计划”专项资金) (项目名称:基于深度学习的高分遥感影像城市绿地提取研究;项目编号:pdjh2019b0623)。

介绍常见的深度学习算法及其应用场景

介绍常见的深度学习算法及其应用场景

介绍常见的深度学习算法及其应用场景深度学习算法是人工智能领域的重要分支,通过模拟人脑神经网络的结构和工作原理,实现了许多复杂的任务。

一、卷积神经网络(Convolutional Neural Network,CNN)卷积神经网络是深度学习领域应用最广泛的算法之一。

它具有局部感知和权值共享的特点,专门用于处理图像相关的任务。

卷积神经网络通过卷积操作提取图像特征,并通过池化层减少特征的维度。

其应用包括图像分类、目标检测、图像分割等。

例如,人脸识别技术中的人脸检测和人脸特征提取就采用了卷积神经网络。

二、循环神经网络(Recurrent Neural Network,RNN)循环神经网络是一种具有记忆能力的神经网络,主要用于处理序列数据,如语音识别、机器翻译、文本生成等任务。

循环神经网络通过引入循环节点,能够保持之前的计算结果并用于当前的输入。

这使得它能够对序列数据进行建模,并捕捉数据中的时序信息。

三、生成对抗网络(Generative Adversarial Network,GAN)生成对抗网络由生成器和判别器两个神经网络组成,通过对抗过程学习生成器生成逼真的数据。

生成器向前传播生成伪造数据,判别器则评估数据的真实性。

通过不断优化生成器和判别器的能力,生成对抗网络能够生成逼真的图片、音乐、甚至是文本。

其应用场景包括图像生成、图像修复、图像转换等。

四、长短期记忆网络(Long Short-Term Memory,LSTM)长短期记忆网络是循环神经网络的一种延伸,专门用于解决长序列数据的建模问题。

传统的循环神经网络在处理长序列时容易出现梯度消失和梯度爆炸的问题,而LSTM通过引入遗忘门、输入门和输出门的机制,能够有效地解决这些问题。

LSTM广泛应用于语言模型、机器翻译、语音识别等领域,取得了显著的效果。

五、强化学习算法(Reinforcement Learning)强化学习算法是一种通过与环境进行交互来学习最优行为策略的算法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 25•利用深度学习进行场景分类浙江省杭州学军中学 赵熠杰【摘要】近些年来,随着社交网络的发展,互联网中的图像数据也越来越多。

使用机器学习以及深度学习进行场景分类取得了一系列的进展,同时大量的场景分类的数据集公开出来,为我们提供了非常多的训练样本。

本文使用aichallenger竞赛场景分类的数据集,使用迁移学习以及深度学习的方法构建模型,对场景图片进行了比较精确的分类。

【关键词】场景分类;深度学习1.概述1.1 研究背景与意义随着网络的普及以及信息社会的发展,我们在日常生活中接触到的图像数据也越来越多,尤其是最近几年社交网络的普及,像是facebook,微信,微博等社交网络,人们可以随时随地上传自己的图片或者视频,一方面对于图像的存储以及管理带来了很大的困难,另一方面来说如何去挖掘图像中存储的信息也变得越来越重要。

这些图像信息不仅可以让我们获得一些人们的想法,还可以快速的提高效率。

场景分类是一个比较基础性的工作,它的应用非常的广泛,不仅可以应用的安防领域,让我们的生活变得更加安全,还可以应用到自动驾驶领域,提高自动驾驶的安全性。

同时场景分类在各大社交网络中的应用也非常多,丰富了我们的生活。

但是如何让计算机像人类一样对一个场景进行精确的分类也是一项非常具有挑战性的工作。

因此,场景分类是一个具有研究前景的领域。

1.2 研究现状计算机视觉一直以来都是人工智能的研究热点,所以也涌现了非常多的优秀的算法。

主要分为两类,一类是传统的根据特征进行建模然后使用机器学习的算法进行分类,常见的特征提取算法包括统计直方图,色彩直方图,LBP以及SIFT特征等。

使用的机器学习算法如随机森林,建立多颗决策树,并根据多棵决策树的结果进行多数投票,另外一种是支持向量机,这也是在深度学习大规模应用之前效果最好的一种算法,是一种根据支持向量确定决策边界的方法。

另外一类是基于深度学习的算法,Krizhevsky在2012年提出了基于深度学习的图像分类算法,使用了一个8层的神经网络结构,夺得了ImageNet2012年图像分类的冠军。

随后Christian Szegedy提出了GoogleNet,使用了22层的神经网络获得了ImageNet2014年图像分类的冠军。

随后Karen Simonyan等人提出了一个19层的VGG网络,在图像分类领域获得了更好的结果。

2.场景分类2.1 什么是场景分类场景分类是根据训练数据集中的数据的特征,给每一类确定一种准确地描述方式,由这些特征生成类描述或模型,并运用这种描述方式对新的数据集进行分类。

场景分类是指针对原始的图片数据,对数据进行过滤、提取特征等操作,然后根据场景图像特征进行分类。

2.2 数据集介绍本文中所使用的数据集为aichallenger中场景分类的数据集,比赛从400万张图片中选出了8万张比较好的图片,分别属于80个不同的场景,比如足球场,滑雪场,卧室等。

从中选出70%作为训练集,10%作为交叉验证集,20%作为测试集,其中每张图片的大小是不相同的。

2.3 场景分类的步骤首先是图像的预处理,本步骤主要将图片做一些简单的处理。

由于每张图片的大小都是各不相同的,深度学习算法通常需要固定大小的输入,因此我们需要将每张图片的大小处理成固定的大小,如果直接对图像做缩放的话可能会造成比较大的失真,实验验证也是如此的。

因此,在图像的处理中本文首先将图像进行小幅度的缩放,然后从缩放后的图片中裁剪出224*224大小的图片。

后续将图片存储为numpy支持的数组即可。

第二步是数据增强。

在后续的实验中本文发现,现有的数据数量还是比较的少,因此有必要进行进一步的数据增强,在增加数据增强后的网络中,top3的准确率可以提高大约10%。

本文所使用的数据增强方法主要包括如下:将输入数据归一化到-1,到1之间;将输入的图片进行一定幅度的旋转,本文中旋转角度为15度;每一张图片的宽度上进行随机的水平平移,本文中平移整张图片的1%;每一张图片在高度上进行随机的水平平移,本文中同样偏移整张图片的1%;对图片以一定的概率进行随机的水平翻转,在竖直方向上不做任何的翻转。

第三步模型构建。

此步骤主要是选择或者设计深度学习使用的模型,同时由于本文使用的数据集中图片的数量比较少,只有8万张图片,比较深的网络可能会过拟合。

因此,本文使用了迁移学习的方法,使用了部分在ImageNet中训练好的参数初始化网络,部分模型没有使用做对比实验。

详细的内容将在第三部分进行介绍。

第四步是使用第三步训练好的网络以及参数进行预测。

在这一部分同样需要对数据进行预处理,预处理的过程同训练过程的预处理相同,但是这一步不进行数据的增强。

3.场景分类的方法在对场景分类模型的构建的时候,本文选择使用ResNet以及InceptionV3的网络结构对场景进行分类,并对部分地方进行改进实验。

同时,为了增强模型的泛化能力,避免在小数据上造成过拟合的现象,因此本文使用了迁移学习的方法,使用了在ImageNet中训练好的ResNet以及InceptionV3的参数对网络进行初始化。

另外在进• 26•行实验的时候发现,只对网络进行微调的结果在top1上的准确率并不是十分的理想。

因此,本文使用预训练好的参数对网络进行初始化,不加载最后一层全连接层的参数,并且在网络的训练过程中对整个网络中的所有参数进行更新,而不是只更新最后一层的参数。

下面将详细介绍ResNet 以及InceptionV3算法。

3.1 ResNet我们在网络的训练过程中会发现这样一些现象,就是随着网络深度的增加,模型的准确率会下降,通常这种下降是由于模型的过拟合造成的,但是在这里却不是由于模型的过拟合造成的。

为了避免这种情况,ResNet 网络提出了一种Residual block ,如图1所示,加入我们要学习的特征是H(x),那么在第一个卷积层中我们可以学到的知识是F(x),那么我们如果令F(x)=H(x)-x 的话,我们就可以添加一条捷径,使得网络在经过两个卷积层过后可以获得更好的结果,同时不丢失一些比较好的特征。

图1整个ResNet 的网络结构就是由上面的残差块组成的,本文使用的是ResNet50,也就是说总共有16个残差块,其中每个残差块由3个卷积层,每个卷积层后面会有一个BN 层,BN 层后面是激活函数,本文中激活函数使用Relu 。

首先网络接受一个224*224*3大小的场景图片,然后是64个7*7大小的卷积核,步长为2,后面是一个最大池化层。

后面是16个参差块,每个参差块有3个卷积层构成,包含1*1,3*3,1*1的卷积核大小。

第一种参差块卷积核的个数分别为64,64,256,总共有3个这样的参差块。

第二个残差块的卷积核个数分别为128,128,512,共有4个。

第三个残差块的卷积核个数分别为256,256,1024,共有6个。

第四个残差块的卷积核个数分别问512,512,2018,共有3个。

最后是一个80的全连接层。

本文采用在ImageNet 中训练好的ResNet50对网络进行参数初始化,然后对整个模型中的参数进行更新,实验发现这样的效果比只更新最后全连接层的参数要好很多。

3.2 Inception NetInception 的结构最初是在GoogleNet 这个网络结构中提出来的。

从14年开始各种各样的网络通过增加网络的深度以及宽度在图像分类这个任务上提高了比较多的准确率。

但是这样的操作在提升了网络效果的同时增加了计算的复杂度,同时参数的数量也大大的增加,比如vgg 需要196亿FLOP ,但是使用了Inception 结构的GoogleNet 就会少很多。

卷积核的大小如果比较大的情况下,对应的计算就会比较多,同样参数的数量也会比较多,比如n 个5*5的卷积核需要25×n 个网络参数,但是如果使用3*3的卷积核的话,需要的参数就比原来少了16个。

因此在使用相同大小的特征图的情况下,卷积核的大小应该是越小越好。

那么5*5的卷积核是否可以用更小,但是个数会稍微多一点的卷积核来替代。

假如我们放大一下5*5的卷积的计算图的话,我们可以看到每一次的输出都更像是一个更小的全连接网络,在其输入上滑动5*5大小的位置,那么我们可以利用平移不变性使用两个更小的卷积运算来代替这样一个比较大的卷积运算。

首先是一个使用3*3大小卷积核的卷积层,然后在这一层的输出后跟一个使用3*3大小卷积核的卷积层,这样经过这两个卷积层的输出与原来使用5*5大小的卷积核的输出是相同的。

一个Inception 块的结构如图2所示:图2 一个Inception块的结构图图3 nception块的结构图通过如上的分析,我们可以发现一个n*n 的卷积核同样可以使用一个1×n 的卷积核,然后再接一个n ×1的卷积核来替代。

但是这样做会有一个比较不好的效果就是在一些比较浅的层中使用这样的结构往往不会取得很好的效果,但是在一些中等的网络尺寸上会取得比较不错的效果,因此在InceptionV3中通常会使用1*7和7*1的卷积核去替代7*7的卷积核,而不会去替代一下本身就比较小的卷积核。

本部分的Inception 块的结构如图3所示。

另外使用了扩展输出的Inception 块可以提取到更多的高维的特征,这种的Inception 块如图4所示:图4 Inception块图整个InceptionV3的结构为:首先网络接受224*224*3大小的输• 27•入,然后是3个卷积层,卷积核的大小是3*3,后面会有一个池化层,后面会跟3个3*3大小的卷积层。

然后是Inception的结构,首先3个图2的Inception块,然后5个图3的Inception块,后面是2个图4的Inception块。

再然后是一个8*8的卷积核,后面是softmax分类。

本文对原始的InceptionV3进行了部分调整,将网络的输入调整到了224*224*3,同时最后一个全连接层的大小为80。

使用在ImageNet训练好的InceptionV3的参数进行初始化网络,然后全部更新网络的参数。

4.评价方法准确率是一种对深度学习模型进行评估的最简单的方法。

故名思议,准确率是指被正确分类的场景图片占所有图片的比例,比如总共100张图片中有99张场景图片都被正确的分类了,那么我们的准确率就是99%。

aichallenger竞赛中采用top3的准确率作为模型优劣的评价方法。

我们的模型在最后的全连接层会输出80个概率,我们会将这80个概率从大到小进行排序,从中选择较大的3个概率所代表的类别,如果这3个类别中有一个类别和真实的类别一致,那么我们就认为该样本被分类正确了。

5.总结与展望如今是信息化的年代,场景分类任务对于我们的生活来说也越来越重要,随着计算计算资源的提升,尤其是GPU的大规模更新,利用深度学习解决这个任务也变得越来越简单。

相关文档
最新文档