嵌入式平台深度学习

合集下载

结合改进ShuffleNet-V2_和注意力机制的无人机图像自主分类预警框架

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００３－３１０６．２０２４．０５．０２３引用格式：杨珍，吴珊丹，贾如，等．结合改进ＳｈｕｆｆｌｅＮｅｔＶ２和注意力机制的无人机图像自主分类预警框架［Ｊ］．无线电工程，２０２４，５４（５）：１２６１－１２６９．［ＹＡＮＧＺｈｅｎ，ＷＵＳｈａｎｄａｎ，ＪＩＡＲｕ．ＡｕｔｏｎｏｍｏｕｓＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＥａｒｌｙＷａｒｎｉｎｇＦｒａｍｅｗｏｒｋｆｏｒＵＡＶＩｍａｇｅｓＣｏｍｂｉｎｉｎｇＩｍｐｒｏｖｅｄＳｈｕｆｆｌｅＮｅｔＶ２ａｎｄＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍ［Ｊ］．ＲａｄｉｏＥｎｇｉｎｅｅｒｉｎｇ，２０２４，５４（５）：１２６１－１２６９．］结合改进ＳｈｕｆｆｌｅＮｅｔＶ２和注意力机制的无人机图像自主分类预警框架杨　珍１，吴珊丹１，贾　如２（１．内蒙古农业大学计算机技术与信息管理系，内蒙古包头０１４１０９；２．内蒙古大学计算机学院，内蒙古呼和浩特０１００２１）摘　要：为实现灾难事件的无人机（ＵｎｍａｎｎｅｄＡｅｒｉａｌＶｅｈｉｃｌｅ，ＵＡＶ）自主监测和预警，提出了结合逐通道注意力机制和高效卷积神经网络的新架构。

考虑到嵌入式平台的资源限制条件，使用轻量级ＳｈｕｆｆｌｅＮｅｔＶ２作为骨干网络，能够对更多信息进行高效编码并尽可能降低网络复杂度。

为进一步提高灾难场景分类的准确度，在ＳｈｕｆｆｌｅＮｅｔＶ２网络中结合了挤压－激发（ＳｑｕｅｅｚｅＥｘｃｉｔａｔｉｏｎ，ＳＥ）模块以实现逐通道注意力机制，显著增强分类网络对重要特征的关注度。

通过数据采集和增强技术获得包括１２８７６张图像的ＵＡＶ航拍灾难事件数据集，对所提方法进行性能评估，并比较所提方法与其他先进模型的性能。

结果表明，所提方法取得了９９．０１％的平均准确度，模型大小仅为５．６ＭＢ，且在ＵＡＶ机载平台上的处理速度超过１０ＦＰＳ，能够满足ＵＡＶ平台自主灾情监测任务的现实需求。

关键词：无人机；图像分类；卷积神经网络；注意力机制；嵌入式平台中图分类号：ＴＰ３９１文献标志码：Ａ开放科学（资源服务）标识码（ＯＳＩＤ）：文章编号：１００３－３１０６（２０２４）０５－１２６１－０９ＡｕｔｏｎｏｍｏｕｓＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＥａｒｌｙＷａｒｎｉｎｇＦｒａｍｅｗｏｒｋｆｏｒＵＡＶＩｍａｇｅｓＣｏｍｂｉｎｉｎｇＩｍｐｒｏｖｅｄＳｈｕｆｆｌｅＮｅｔＶ２ａｎｄＡｔｔｅｎｔｉｏｎＭｅｃｈａｎｉｓｍＹＡＮＧＺｈｅｎ１，ＷＵＳｈａｎｄａｎ１，ＪＩＡＲｕ２（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙａｎｄＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ，ＩｎｎｅｒＭｏｎｇｏｌｉａＡｇｒｉｃｕｌｔｕｒａｌＵｎｉｖｅｒｓｉｔｙ，Ｂａｏｔｏｕ０１４１０９，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＩｎｎｅｒＭｏｎｇｏｌｉａＵｎｉｖｅｒｓｉｔｙ，Ｈｕｈｈｏｔ０１００２１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＴｏｒｅａｌｉｚｅＵｎｍａｎｎｅｄＡｅｒｉａｌＶｅｈｉｃｌｅ（ＵＡＶ）ａｕｔｏｎｏｍｏｕｓｍｏｎｉｔｏｒｉｎｇａｎｄｅａｒｌｙｗａｒｎｉｎｇｉｎｄｉｓａｓｔｅｒｅｖｅｎｔｓ，ａｎｏｖｅｌａｒｃｈｉｔｅｃｔｕｒｅｃｏｍｂｉｎｉｎｇｃｈａｎｎｅｌｂｙｃｈａｎｎｅｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍａｎｄｅｆｆｉｃｉｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｉｓｐｒｏｐｏｓｅｄ．Ｔａｋｉｎｇｉｎｔｏａｃｃｏｕｎｔｔｈｅｒｅｓｏｕｒｃｅｃｏｎｓｔｒａｉｎｔｓｏｆｅｍｂｅｄｄｅｄｐｌａｔｆｏｒｍｓ，ｔｈｅｌｉｇｈｔｗｅｉｇｈｔＳｈｕｆｆｌｅＮｅｔＶ２ｉｓｕｓｅｄａｓｔｈｅｂａｃｋｂｏｎｅｎｅｔｗｏｒｋ，ｂｙｗｈｉｃｈｍｏｒｅｉｎｆｏｒｍａｔｉｏｎｉｓｅｆｆｉｃｉｅｎｔｌｙｅｎｃｏｄｅｄａｎｄｔｈｅｎｅｔｗｏｒｋｃｏｍｐｌｅｘｉｔｙｉｓｒｅｄｕｃｅｄａｓｍｕｃｈａｓｐｏｓｓｉｂｌｅ．Ｉｎｏｒｄｅｒｔｏｆｕｒｔｈｅｒｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｄｉｓａｓｔｅｒｓｃｅｎｅｃｌａｓｓｉｆｉｃａｔｉｏｎ，ａＳｑｕｅｅｚｅＥｘｃｉｔａｔｉｏｎ（ＳＥ）ｍｏｄｕｌｅｉｓｉｎｃｏｒｐｏｒａｔｅｄｔｏｉｍｐｌｅｍｅｎｔａｃｈａｎｎｅｌｗｉｓｅａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ，ｗｈｉｃｈｓｉｇｎｉｆｉｃａｎｔｌｙｅｎｈａｎｃｅｓｔｈｅａｔｔｅｎｔｉｏｎｔｏｉｍｐｏｒｔａｎｔｆｅａｔｕｒｅｓ．ＡＵＡＶａｅｒｉａｌｄｉｓａｓｔｅｒｅｖｅｎｔｄａｔａｓｅｔｃｏｎｔａｉｎｉｎｇ１２８７６ｉｍａｇｅｓｉｓｏｂｔａｉｎｅｄｔｈｒｏｕｇｈｄａｔａａｃｑｕｉｓｉｔｉｏｎａｎｄｅｎｈａｎｃｅｍｅｎｔｔｅｃｈｎｉｑｕｅ．Ｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｓｅｖａｌｕａｔｅｄａｎｄｃｏｍｐａｒｅｄｗｉｔｈｔｈａｔｏｆｏｔｈｅｒａｄｖａｎｃｅｄｍｏｄｅｌｓ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄａｃｈｉｅｖｅｓａｎａｖｅｒａｇｅａｃｃｕｒａｃｙｏｆ９９．０１％，ｔｈｅｍｏｄｅｌｓｉｚｅｉｓｏｎｌｙ５．６ＭＢ，ａｎｄｔｈｅｐｒｏｃｅｓｓｉｎｇｓｐｅｅｄｏｎＵＡＶｏｎｂｏａｒｄｐｌａｔｆｏｒｍｅｘｃｅｅｄｓ１０ＦＰＳ，ｗｈｉｃｈｃａｎｍｅｅｔｔｈｅｐｒａｃｔｉｃａｌｎｅｅｄｓｏｆＵＡＶｐｌａｔｆｏｒｍｆｏｒａｕｔｏｎｏｍｏｕｓｄｉｓａｓｔｅｒｍｏｎｉｔｏｒｉｎｇｔａｓｋｓ．Ｋｅｙｗｏｒｄｓ：ＵＡＶ；ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ；ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ；ｅｍｂｅｄｄｅｄｐｌａｔｆｏｒｍ收稿日期：２０２３－０９－０１基金项目：国家自然科学基金（３２１６０５０６）；内蒙古自治区自然科学基金（２０１４ＭＳ０６１６）ＦｏｕｎｄａｔｉｏｎＩｔｅｍ：ＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（３２１６０５０６）；ＩｎｎｅｒＭｏｎｇｏｌｉａＡｕｔｏｎｏｍｏｕｓＲｅｇｉｏｎＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（２０１４ＭＳ０６１６）工程与应用０　引言当前，无人机（ＵｎｍａｎｎｅｄＡｅｒｉａｌＶｅｈｉｃｌｅ，ＵＡＶ）已得到了广泛应用，例如交通监测、搜索救援、精准农业和卫星图像处理等［１］。

基于TensorRT的深度学习模型在嵌入式系统上的部署优化

基于TensorRT的深度学习模型在嵌入式系统上的部署优化深度学习技术在近年来取得了巨大的发展，已经在各个领域展现出了强大的应用潜力。

然而，随着深度学习模型变得越来越复杂和庞大，如何高效地部署这些模型成为了一个亟待解决的问题。

特别是在嵌入式系统中，由于硬件资源有限、功耗限制等因素，对深度学习模型的部署提出了更高的要求。

TensorRT简介TensorRT是英伟达（NVIDIA）推出的用于深度学习推理（inference）加速的库，它能够将训练好的深度学习模型优化并部署到各种平台上，包括服务器、台式机、笔记本电脑以及嵌入式系统等。

TensorRT通过减少网络中冗余的计算、精简网络结构、优化内存使用等方式，显著提高深度学习模型的推理速度，同时降低系统资源的占用率。

深度学习模型在嵌入式系统上的挑战在嵌入式系统上部署深度学习模型面临诸多挑战。

首先，嵌入式设备通常具有有限的计算资源和内存空间，无法承受过大的模型。

其次，嵌入式设备对实时性要求较高，需要在有限的时间内完成推理任务。

此外，嵌入式设备通常工作在功耗受限的环境下，需要尽可能降低能耗。

TensorRT在嵌入式系统上的优势基于TensorRT进行深度学习模型部署优化可以带来诸多优势。

首先，TensorRT能够针对不同硬件平台进行优化，充分利用硬件资源，提高推理速度。

其次，TensorRT支持多种深度学习框架，包括TensorFlow、PyTorch等，方便用户灵活选择模型训练框架。

此外，TensorRT还提供了丰富的API接口和工具，方便用户进行模型转换、优化和部署。

基于TensorRT的深度学习模型部署流程选择合适的深度学习模型：根据实际需求选择适合嵌入式系统部署的轻量级模型，如MobileNet、YOLO等。

训练和优化模型：使用常见的深度学习框架如TensorFlow或PyTorch进行模型训练，并通过TensorRT进行优化。

转换模型格式：将训练好的模型转换为TensorRT支持的格式，如ONNX或TensorFlow SavedModel。

嵌入式人工智能行业发展状况及技术要点

嵌入式人工智能行业发展状况及技术要点嵌入式人工智能（Embedded AI）是指将人工智能技术应用于嵌入式系统中的一种发展方向。

嵌入式系统是指嵌入在其他设备或系统中的计算机系统，包括智能手机、智能家居、智能穿戴设备等。

嵌入式人工智能的发展状况及技术要点对于推动智能化产品和服务的发展具有重要意义。

嵌入式人工智能的发展状况：随着物联网的兴起和智能设备的普及，嵌入式人工智能得到了广泛的应用和关注。

在嵌入式人工智能领域，各类智能设备不断涌现，为用户提供了更加智能化和便捷的生活体验。

嵌入式人工智能的技术应用已经渗透到了各个领域，包括智能家居、智能医疗、智能交通等。

嵌入式人工智能的技术要点：1. 边缘计算：嵌入式人工智能的一个重要技术要点是边缘计算。

边缘计算是指将数据处理和分析的能力移到数据源附近，减少数据传输延迟和网络带宽压力。

通过在智能设备上集成人工智能算法和模型，可以实现对数据的实时分析和决策，提高系统的响应速度和效率。

2. 低功耗设计：嵌入式人工智能系统通常需要在有限的能源供应下运行，因此低功耗设计是一个关键的技术要点。

通过优化算法和硬件设计，可以降低系统的功耗，延长设备的电池寿命，提高系统的可靠性和稳定性。

3. 端到端的智能处理：嵌入式人工智能系统需要能够完成从数据采集、处理到决策的全过程。

因此，端到端的智能处理是一个重要的技术要点。

通过在智能设备上集成传感器、处理器和人工智能算法，可以实现对数据的实时处理和决策，提高系统的智能化水平和用户体验。

4. 深度学习算法：深度学习是嵌入式人工智能的核心技术之一。

深度学习算法可以通过对大量数据的学习和训练，实现对复杂模式和特征的识别和分析。

在嵌入式人工智能系统中，通过使用深度学习算法，可以实现对声音、图像、文本等多种数据的处理和分析，提高系统的智能化水平和性能。

5. 安全和隐私保护：嵌入式人工智能系统需要处理大量的敏感数据，因此安全和隐私保护是一个重要的技术要点。

《高性能嵌入式数控系统算法优化机制的研究与开发》

《高性能嵌入式数控系统算法优化机制的研究与开发》一、引言随着现代制造业的快速发展，数控系统作为工业自动化领域的重要一环，其性能的优劣直接影响到生产效率和产品质量。

高性能嵌入式数控系统作为数控系统的核心组成部分，其算法优化机制的研究与开发对于提高系统性能具有十分重要的意义。

本文旨在研究高性能嵌入式数控系统的算法优化机制，以期为相关领域的研究和应用提供参考。

二、高性能嵌入式数控系统概述高性能嵌入式数控系统是一种集成了高性能处理器、高精度传感器、高效率控制算法等技术的数控系统。

它具有高精度、高速度、高可靠性的特点，广泛应用于机械制造、航空航天、汽车制造等领域。

然而，随着工业自动化程度的不断提高，对数控系统的性能要求也越来越高，因此，对高性能嵌入式数控系统的算法优化机制进行研究与开发显得尤为重要。

三、算法优化机制研究1. 算法选择与改进针对高性能嵌入式数控系统的特点，选择合适的控制算法是提高系统性能的关键。

目前，常用的控制算法包括PID控制、模糊控制、神经网络控制等。

针对这些算法，我们进行了深入研究，分析了它们的优缺点，并根据实际需求进行了改进和优化。

2. 实时性优化实时性是高性能嵌入式数控系统的重要性能指标之一。

为了满足实时性要求，我们采用了多线程技术、中断处理技术等手段，对算法进行了实时性优化。

同时，我们还对系统的硬件资源进行了合理分配，确保了系统在运行过程中能够快速响应外部指令。

3. 鲁棒性优化鲁棒性是指系统在面对外部干扰和内部参数变化时能够保持稳定性的能力。

为了提高系统的鲁棒性，我们采用了自适应控制技术、鲁棒控制技术等手段，对算法进行了优化和改进。

这些技术可以根据系统的实际情况进行自我调整，确保系统在面对各种复杂情况时能够保持稳定运行。

四、算法优化机制开发在算法优化机制研究的基础上，我们进行了相关开发工作。

首先，我们设计了一套完整的开发流程，包括需求分析、算法选择与改进、实时性优化、鲁棒性优化等环节。

为模型减减肥：谈谈移动嵌入式端的深度学习

为模型减减肥：谈谈移动嵌⼊式端的深度学习原⽂链接：本⽂为机器之⼼矽说专栏系列⽂章之⼀，对模型压缩进⾏了深度解读。

1. 为什么要为深度学习模型减肥随着深度学习的发展，神经⽹络模型也越来越复杂，常⽤的模型中 VGG 系列⽹络的计算量可以达到 30-40 GOP（1GOP=109 运算）。

这些神经⽹络通常运⾏在 GPU 上，但是如果我们要在移动／嵌⼊式端也实现深度学习，那么这样巨⼤的模型是绝对跑不动的。

移动／嵌⼊式端的计算能⼒往往只有桌⾯级 GPU 的 1/100 到 1/1000，换句话说在 GPU 上⼀秒 40 帧的深度学习 CV 算法在移动／嵌⼊式端⼀秒只有 0.04-0.4 帧，这样的性能会极⼤影响⽤户体验。

常⽤深度学习⽹络运算量在移动／嵌⼊式端跑深度学习模型，除了运⾏速度之外，能效⽐（energy efficiency）也是关键指标。

能效⽐指的是⼀次运算所需消耗的能量，它决定了移动／嵌⼊式端运⾏深度学习算法时电池能⽤多久。

能效⽐与深度学习模型息息相关，我们下⾯将会看到深度学习模型的⼤⼩会决定运⾏算法时的⽚外内存访问频率，从⽽决定了能效⽐。

2. 怎样的模型才能算「⾝材苗条」？正如我们减肥不仅要看体重还要看体脂率⼀样，为深度学习模型「减肥」时不仅要看模型计算量还要看模型⼤⼩。

模型计算量是衡量深度学习是否适合在移动或嵌⼊式端计算的最重要指标，通常⽤ GOP 单位来表⽰。

例如，流⾏的 ResNet-18 的计算量⼤约是 4 GOP，⽽ VGG-16 则为⼤约 31 GOP。

移动和嵌⼊式端的硬件计算能⼒有限，因此模型所需的计算量越⼤，则模型在移动端运⾏所需要的时间就越长。

为了能让使⽤深度学习的应⽤顺畅运⾏，模型运算量当然是越⼩越好。

除此之外，深度学习每次运算都是需要花费能量的，模型运算量越⼤则完成⼀次 inference 需要的能量也就越⼤，换句话说就是越费电。

在电池量有限的移动和嵌⼊式端，模型⼀次inference 所花费的能量必须精打细算，因此深度学习模型计算量不能太⼤。

jetson agx orin的fp32算例

Jetson AGX Xavier是一款由NVIDIA生产的高性能嵌入式计算平台，它配备了NVIDIA 的Volta架构GPU，支持FP32（单精度浮点运算）和其他精度的深度学习计算。

要在Jetson AGX Xavier上运行FP32算例，您可以使用NVIDIA的深度学习框架（如TensorFlow或PyTorch）来构建和训练模型，然后在Jetson AGX Xavier上进行推断。

以下是一个示例：1. **准备Jetson AGX Xavier：** 确保您已经配置好了Jetson AGX Xavier，并且安装了所需的软件和驱动程序。

您可以使用NVIDIA的JetPack SDK来安装必要的软件包和驱动程序。

2. **构建和训练模型：** 使用TensorFlow、PyTorch或其他深度学习框架来构建和训练您的模型。

确保在训练过程中使用了FP32精度。

示例代码如下（使用PyTorch）：```pythonimport torchimport torch.nn as nn# 构建一个简单的神经网络模型class Net(nn.Module):def __init__(self):super(Net, self).__init__()self.fc1 = nn.Linear(64, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 创建模型和数据加载器model = Net()optimizer = torch.optim.SGD(model.parameters(), lr=0.01)criterion = nn.CrossEntropyLoss()# 训练模型for epoch in range(10):for batch_data, batch_labels in dataloader:optimizer.zero_grad()output = model(batch_data)loss = criterion(output, batch_labels)loss.backward()optimizer.step()```3. **将模型导出为ONNX格式：** 一旦模型训练完成，您可以将模型导出为ONNX格式，以便在Jetson AGX Xavier上进行推断。

轻量化人工智能方法研究

轻量化人工智能方法研究摘要：人工智能广泛应用于各个领域当中，普遍依赖大规模服务器和海量训练数据，新时期发展中，轻量化、前端化的人工智能逐渐成为研究主流，文章先分析了轻量化人工智能，随后介绍了轻量化人工智能方法，希望能给相关人士提供有效参考。

关键词：轻量化；人工智能；图像预处理引言：人工智能于嵌入端实施图像预处理，随后将相关处理信息传输至相应分析模型内实施系统推理，最终获得识别结果。

相关研究证明，嵌入端内开展识别工作能够有效减少时间消耗，在嵌入端内部署人工智能可以有效提高综合运算速率。

一、轻量化人工智能分析轻量化人工智能可以使当下的服务，像是手机拍照、语音助手等变得更加高效、快捷，无需每次和云端连接才能促进深度学习模型运行。

除此之外，轻量化人工智能可以扩展全新应用，像是以移动端为基础的检测分析、自动驾驶等。

轻量化人工智能可以促进人工智能实现主流化发展，有效降低人工智能成本和部署难度，促进人工智能从本来的高端科技竞赛转化成普惠智能生态，轻量化逐渐成为人工智能领域研究主流。

轻量化人工智能从外部层面分析属于一种减法，缩减能耗，进一步降低对运输通讯、硬件平台性能方面的要求。

但本质上，轻量化本质属于一种加法。

相关产业需求使得人工智能任务越加复杂化，为此轻量化人工智能应该注重提升运算效率，扩大计算密度，从而达到极致的效率。

精度接近无损条件下，促进计算载体和智能模型实现微型化发展，属于一项重要任务，具有较高挑战性，为此需要针对神经网络实施轻量化设计，创新计算架构，提升计算速率，实现模型硬件化。

为此需要立足于软硬件两种角度，软件层面积极创新相关算法、模型，结合量化集散、矩阵分解以及轻量化模型打造高速率计算和微型化模型。

硬件角度需要优化设计存储模式，开展流水线设计，创新系统硬件结构。

人工智能平台和神经网络结构会直接影响计算量以及运算方式，极致的轻量化应该保证软硬件协同轻量化，基于人工智能应用场景促进算法、平台和芯片的全面融合，加速运行[1]。

深度学习在嵌入式设备上的应用综述

深度学习在嵌入式设备上的应用综述
王瀚文
【期刊名称】《应用能源技术》
【年(卷),期】2018(000)007
【摘要】鉴于深度学习在学术和工业领域的重要研究和应用,对目前深度学习在嵌入式系统上的应用进行详细的介绍,概述了深度学习在嵌入式设备上的研究现状,综述了深度学习的发展方向.首先介绍了嵌入式系统的研究背景与现状.其次简要概述了深度学习的几种典型结构模型,在此基础上详细综述了深度学习在嵌入式设备上的应用,最后进行了分析与总结,指出了深度学习在嵌入式设备上仍需要解决的问题及未来的研究方向.
【总页数】3页(P54-56)
【作者】王瀚文
【作者单位】哈尔滨市劳动保障信息中心,哈尔滨150001
【正文语种】中文
【中图分类】TP316.8
【相关文献】
1.面向嵌入式设备的深度学习物体检测优化算法 [J], 戴雷燕;冯杰;董慧;杨小利
2.基于嵌入式设备与深度学习模型的智能小车的设计与研究 [J], 耿韶光
3.深度学习在极化SAR图像分类上的应用综述 [J], 毕海霞;魏志强
4.深度学习在水利行业上的应用综述 [J], 孙涛;王雷;付文博;傅罡;张颖
5.基于深度学习的目标检测研究与应用综述 [J], 吕璐;程虎;朱鸿泰;代年树
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

开源
）
11
针对深度学习优化专用版
性能结果
•
（
）
• 测试网络：
• 超过已有实现接近
，
线程
12
针对深度学习优化专用版
性能结果
•
（
）
• 测试网络：
• 超过已有实现
，
线程
13
针对深度学习优化专用版
性能结果
•（）源自• 测试网络：• 超过已有实现，
线程
14
小结
嵌入式深度学习
• 模型 • 框架 • 底层库 • 硬件
不符合
标准
ü
使用
• 并行化的处理
ü 如何切分矩阵？
8
针对深度学习优化专用版
9
针对深度学习优化专用版
01
优化
指令预取距离参数
参数
02
03
函数
还要不要
？
函数优化，尽量连续写
并行化
到底在哪层？哪个？需要细粒度切分
10
针对深度学习优化专用版
性能结果
•
• 层网络模型（图像类应用）
• 单线程，超过已有实现倍（我们的
6
针对深度学习优化专用版
硬件平台
• • 嵌入式
合作用户
• 旷世科技
• 中科视拓（
）
• 猎豹移动
• 阅面科技
• 水滴科技
• 中科奥森
• • 陌陌 • 中兴移动，华为等
7
针对深度学习优化专用版
基于已有
•
开源项目
不是为深度学习优化的
差别
• 大矩阵
ü
中、小矩阵
为科学计算
• 能不能用
指令集
ü
在
没有使用，由于
• 支持
和
• 支持
，
• 支持
和
• 相比开源版本
等常用深度学习框架提升明显，可达倍以上
15
进行中工作
• 针对
等
• 不采用
？
•
超过
一倍
16
18
• 模型参数定点化
ü
• 二值化
• 模型压缩技术
ü
ü 剪枝
ü
ü 基于哈希
4
嵌入式深度学习
•
，
，
• 裁剪
• 与模型适合二值化
• 与底层优化库匹配
•
融合
深度学习框架
，
5
嵌入式深度学习
底层库
• 大量采用开源实现 •
• 我们主导的开源项目 • 获得年中国计算机学会科学技术二等奖 • 多个深度学习项目依赖库 • 进入公司
嵌入式平台深度学习
张先轶
澎峰科技
澎峰科技
• • 挖掘潜能，引领客户性能
我们是：
• 领先的计算的技术公司
• 覆盖服务器嵌入式
• 独到的技术（
）
• 优秀的人才团队
ü 中科院 ü
2
嵌入式深度学习
目标
• 将深度学习的
• 手机，机器人等
•
，？
•
？？
计算迁移到移动平台
3
嵌入式深度学习
模型
• 模型不能太大，层数不过深