TeslaK提供深度学习框架基准测试平台

合集下载

NVIDIATESLAK80显着提升吞吐能力加速科研发现

NAMD 1倍
NAMD 2.4 倍
应用程序性能基准测试 8 台 CPU 服务器对阵 1 台 Tesla K80 服务器
8台
System TChPrUo服u务g器hput Increases when
NHOoOMdDe-BsL1U倍aEre Acceler1a台teTedsla
HOOMD-BLUE 1.7 倍
Tesla K80 可大幅提升数据中心吞吐量，因此每天能够完成更多的计算任务。如果为三分之一的系统节点配备 Tesla K80 加速器来加速你的主要应用程序，那么数据中心的整体吞吐量就会提升 2 倍以上。
加速计算让研究人员能够解决那些用 CPU 方式无法解决的难题。例如，当传统系统再也无法满足科学家与研究人员不断增长的需求时，德累斯顿工业大学利用 Tesla K80 加速器扩展了其超级计算机。对于他们目前运行的应用程序而言，德累斯顿工业大学预计，64 台配备 Tesla K80 的服务器可提供相当于 1,400 台 CPU 服务器的性能。
MILC
K80 服务器 MILC
1倍
1/31.4of倍System Nodes with
CPU-only System
NAMD
Tesla K80 AБайду номын сангаасcelerators
NAMD
1倍
1.7 倍
AmberM
MILC
第 3 大理由：更高的吞吐量成就更多发现
数据中心负责人面临着同样的挑战，即如何满足计算机资源需求。这些需求通常会超出系统的可用周期。
1X
3.0X
纯 CPNUAM系D 统
1X 16X
K80 14X
CPU
12X

基于IndyLSTM的锂电池充电剩余时间预测

第３８卷第５期计算机应用与软件Ｖｏｌ３８Ｎｏ．５２０２１年５月ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＭａｙ２０２１基于ＩｎｄｙＬＳＴＭ的锂电池充电剩余时间预测杜京义　刘　鑫　柳庆莉　王佳程（西安科技大学电气与控制工程学院　陕西西安７１００５４）收稿日期：２０１９－０８－１３。

杜京义，教授，主研领域：故障诊断，安全生产与监测，智能控制。

刘鑫，硕士。

柳庆莉，硕士。

王佳程，硕士。

摘　要传统模型在锂电池充电剩余时间预测中的泛化能力受到一定约束。

针对此问题，提出一种基于独立长短期记忆循环神经网络（ＩｎｄｙＬＳＴＭ）的锂电池充电剩余时间预测方法。

通过对锂电池充电过程数据的分析，利用ＩｎｄｙＬＳＴＭ在处理序列化数据时可以长期记忆历史数据的优势，对充电剩余时间进行预测。

采用美国国家航空航天局（ＮＡＳＡ）公开的电池数据，与常规的ＬＳＴＭ和ＳＶＲ模型进行实验对比，ＩｎｄｙＬＳＴＭ预测结果在准确性和稳定性方面表现更好。

关键词ＩｎｄｙＬＳＴＭ　锂电池　充电剩余时间　ＬＳＴＭ　ＳＶＲ中图分类号　ＴＰ１８３文献标志码　ＡＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０２１．０５．０１８ＰＲＥＤＩＣＴＩＯＮＯＦＲＥＭＡＩＮＩＮＧＴＩＭＥＯＦＬＩＴＨＩＵＭＢＡＴＴＥＲＹＣＨＡＲＧＩＮＧＢＡＳＥＤＯＮＩＮＤＹＬＳＴＭＤｕＪｉｎｇｙｉ　ＬｉｕＸｉｎ　ＬｉｕＱｉｎｇｌｉ　ＷａｎｇＪｉａｃｈｅｎｇ（ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｉｃａｌａｎｄＣｏｎｔｒｏｌＥｎｇｉｎｅｅｒｉｎｇ，Ｘｉ’ａｎＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｘｉ’ａｎ７１００５４，Ｓｈａａｎｘｉ，Ｃｈｉｎａ）ＡｂｓｔｒａｃｔＴｈｅｔｒａｄｉｔｉｏｎａｌｍｏｄｅｌｈａｓａｃｅｒｔａｉｎｃｏｎｓｔｒａｉｎｔｏｎｔｈｅｇｅｎｅｒａｌｉｚａｔｉｏｎａｂｉｌｉｔｙｏｆｌｉｔｈｉｕｍｂａｔｔｅｒｙｃｈａｒｇｉｎｇｒｅｍａｉｎｉｎｇｔｉｍｅｐｒｅｄｉｃｔｉｏｎ．Ａｉｍｉｎｇａｔｔｈｉｓｐｒｏｂｌｅｍ，ａｍｅｔｈｏｄｆｏｒｐｒｅｄｉｃｔｉｎｇｔｈｅｒｅｍａｉｎｉｎｇｔｉｍｅｏｆｌｉｔｈｉｕｍｂａｔｔｅｒｙｃｈａｒｇｉｎｇｂａｓｅｄｏｎｉｎｄｅｐｅｎｄｅｎｔｌｏｎｇｔｅｒｍａｎｄｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙｃｙｃｌｅｎｅｕｒａｌｎｅｔｗｏｒｋ（ＩｎｄｙＬＳＴＭ）ｉｓｐｒｏｐｏｓｅｄ．Ｂｙａｎａｌｙｚｉｎｇｔｈｅｄａｔａｏｆｔｈｅｃｈａｒｇｉｎｇｐｒｏｃｅｓｓｏｆｔｈｅｌｉｔｈｉｕｍｂａｔｔｅｒｙ，ｔｈｅｍｅｔｈｏｄｕｓｅｄＩｎｄｙＬＳＴＭｔｏｐｒｅｄｉｃｔｔｈｅａｄｖａｎｔａｇｅｏｆｔｈｅｈｉｓｔｏｒｉｃａｌｄａｔａｗｈｅｎｐｒｏｃｅｓｓｉｎｇｔｈｅｓｅｒｉａｌｉｚｅｄｄａｔａ，ａｎｄｉｔｐｒｅｄｉｃｔｅｄｔｈｅｒｅｍａｉｎｉｎｇｔｉｍｅｏｆｃｈａｒｇｉｎｇ．ＵｓｉｎｇｔｈｅｂａｔｔｅｒｙｄａｔａｐｕｂｌｉｓｈｅｄｂｙｔｈｅＮａｔｉｏｎａｌＡｅｒｏｎａｕｔｉｃｓａｎｄＳｐａｃｅＡｄｍｉｎｉｓｔｒａｔｉｏｎ（ＮＡＳＡ），ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｃｏｎｖｅｎｔｉｏｎａｌＬＳＴＭａｎｄＳＶＲｍｏｄｅｌｓ，ｔｈｅＩｎｄｙＬＳＴＭｐｒｅｄｉｃｔｉｏｎｓｐｅｒｆｏｒｍｅｄｂｅｔｔｅｒｉｎｔｅｒｍｓｏｆｐｒｅｄｉｃｔｉｏｎａｃｃｕｒａｃｙａｎｄｓｔａｂｉｌｉｔｙ．ＫｅｙｗｏｒｄｓＩｎｄｙＬＳＴＭ　Ｌｉｔｈｉｕｍｂａｔｔｅｒｙ　Ｃｈａｒｇｅｒｅｍａｉｎｉｎｇｔｉｍｅ　ＬＳＴＭ　ＳＶＲ０　引　言锂电池由于具备循环使用寿命长、无记忆效应、能量密度高、自放电率低和高性价比等优势，已被广泛应用于工业、日常生活等领域［１］。

《大模型时代的基础架构：大模型算力中心建设指南》札记

《大模型时代的基础架构：大模型算力中心建设指南》阅读札记目录一、内容描述 (2)二、大模型时代的背景与发展趋势 (3)三、基础架构的重要性 (4)四、大模型算力中心建设指南 (6)4.1 总体架构设计 (8)4.2 硬件设备选型与配置 (9)4.3 软件系统架构规划 (10)4.4 数据存储与处理方案 (12)五、算力中心的实施与优化 (14)5.1 实施步骤与方法 (15)5.2 优化策略与措施 (16)六、案例分析与学习 (17)6.1 成功案例分享 (18)6.2 经验教训总结 (19)七、大模型算力中心的挑战与对策 (21)7.1 技术挑战与解决方案 (22)7.2 管理挑战与对策建议 (24)八、未来发展趋势与展望 (26)8.1 技术发展趋势预测 (28)8.2 行业应用前景展望 (29)九、结语 (30)一、内容描述在当今数字化浪潮中，大模型算力中心已成为推动人工智能、云计算、大数据等技术领域飞速发展的核心驱动力。

当我们将目光投向这个领域的建设与应用时，不禁要思考：如何构建一个高效、稳定且具备可扩展性的算力中心？《大模型时代的基础架构：大模型算力中心建设指南》一书为我们提供了宝贵的参考与启示。

书中开篇即对大模型算力中心的建设理念进行了深入剖析，大模型算力中心不仅仅是一个技术系统的堆砌，更是一个复杂的多维度、多层次的网络结构。

在这个体系中，数据传输、计算资源管理、存储设备、网络带宽等多个环节相互依存，共同构成了一个高效运转的整体。

在内容描述部分，作者详细阐述了算力中心的核心组件及其功能。

从高性能计算机的序列式排列到分布式存储系统的并行处理机制，再到智能化的能源管理系统，每一个细节都体现了作者对大模型算力中心建设的深刻理解与独到见解。

书中还结合了大量实际案例和最新技术动态，帮助读者更好地理解这些组件的工作原理和应用场景。

值得一提的是，作者在书中提出的“弹性扩展”理念令人印象深刻。

随着人工智能技术的不断进步和应用场景的日益丰富，算力中心需要能够灵活应对各种变化与挑战。

产业级深度学习开发套件应用实践

更多任务的构建
• 构建多个层次的任务全面捕捉训练语料中的词法、结构、语义的潜在知识 • 不同层次无监督 / 弱监督任务的建模
词法层面
1. 知识融合 2. 大小写预测 3.文章中心词预测
结构层面
1.
句子排序
2.
句子距离
语义层面
1.
检索相关性
2.
连词关系预测
持续学习各类知识
ERNIE 已累计学习 13亿+ 知识
产业级深度学习开发套件应用实践
技术创新，变革未来
• PaddlePaddle全景介绍 • ERNIE语义理解框架 • PaddleSeg图像分割库
飞桨产业级深度学习开源开放平台全景图
服务平台
工具组件端到端开发套件基础模型库
核心框架
EasyDL 定制化训练和服务平台
AutoDL 自动化深度学习
ERNIE开发套件怎么用？
上线
START
使用ERNIE Service 预测向量表达
N
Fine-tune?
Y
N
延迟 < 5ms? Y
ERNIE Base/Large
ERNIE Tiny
蒸馏后模型 (CNN/LSTM/BOW)
ERNIE Fast-inference API
上线
ERNIE 一键式数据蒸馏
• 标注成本高，数据量少 • 显存和算力要求高 • 边缘部分区分难度大
传统算法
图像分割解决方案
传统算法的不足
深度学习方法
• 基于阈值方法：OTSU • 基于区域方法：区域生长、漫水填充法等 • 基于聚类方法：K-means, 超像素分割等
• 噪声敏感，泛化能力不足 • 复杂场景分割精度不高

英伟达 tesla p100 应用性能指南- hpc 和深度学习应用说明书

HPC 及深度學習應用APR 2017TESLA P100 效能指南現代的高效運算（HPC）資料中心是解決部分全球最重要之科學與工程挑戰的關鍵。

NVIDIA® Tesla®加速運算平台利用領先業界的應用程式支援這些現代化資料中心，促進 HPC 與 AI 工作負載。

Tesla P100 GPU 是現代資料中心的引擎，能以更少的伺服器展現突破性效能，進而實現更快的解析能力，並大幅降低成本。

每一個 HPC 資料中心都能自 Tesla 平台獲益。

在廣泛的領域中有超過 400 個HPC 應用程式，採用 GPU 最佳化，包括所有前 10 大 HPC 應用程式和各種主要深度學習架構。

採用加速 GPU 應用程式的研究領域包括：超過 400 個 HPC 應用及所有深度學習架構皆是採用加速 GPU。

>若想要取得最新 GPU 加速應用目錄，請造訪：/teslaapps>若想要立即在 GPU 上使用簡易指示，快速執行廣泛的加速應用，請造訪：/gpu-ready-apps分子動力（MD）代表 HPC 資料中心的大部分工作負載。

100% 頂尖 MD 應用皆是採用 GPU 加速，以使科學家能進行從前僅有 CPU 版本之傳統應用項目無法執行的模擬工作。

在執行 MD 應用時，配備 Tesla P100 GPU 的資料中心可節省高達 60% 的伺服器取得成本。

TESLA 平台及適用 MD 的 P100 的關鍵功能>搭載 P100 的伺服器，最多可取代 40 部適用 HOOMD-Blue、LAMMPS、AMBER、GROMACS 和 NAMD 等應用的 CPU 伺服器>100% 頂尖 MD 應用項目皆採用加速 GPU>FFT 和 BLAS 等關鍵數學程式庫>每一個 GPU 之單精度效能高達每秒 11 TFLOPS>每一個 GPU 之記憶體頻寬高達每秒 732 GB檢視所有相關的應用項目：/molecular-dynamics-appsHOOMD-BLUE循序寫入 GPU 的粒子動力封裝版本1.3.3加速功能CPU 和 GPU 可用版本延展性多 GPU 和多節點更多資訊/hoomd-blueLAMMPS典型粒子動力封裝版本2016加速功能Lennard-Jones、Gay-Berne、Tersoff 更多勢能延展性多 GPU 和多節點更多資訊/lammpsGROMACS模擬含複雜連結互動的生物模型分子版本5.1.2加速功能PME ，顯性與隱性溶劑延展性多 GPU 和多節點擴展至 4xP100更多資訊/gromacs黃色在生物分子上模擬分子動力的程式套件版本16.3加速功能PMEMD 顯性溶劑和 GB 、顯性及隱性溶劑、REMD 、aMD延展性多 GPU 和多節點更多資訊/amberNAMD專為高效模擬大分子系統而設計版本2.11加速功能PME 全靜電和眾多模擬功能延展性高達 100M 原子，多 GPU，擴展為 2xP100更多資訊/namd量子化學（QC）模擬是探索新藥物與原料的關鍵，且會耗費大部分 HPC 資料中心的工作負載。

基于改进的YOLO v5s目标实时检测方法

基于改进的YOLO v5s目标实时检测方法作者：李乐阳张维忠来源：《青岛大学学报（工程技术版）》2023年第04期摘要：針对包裹单件分离领域存在的包裹识别不准确、实时性差及效率低等问题，本文提出一种基于改进的YOLO v5s算法的包裹检测模型。

将RepVGG模块融入特征提取网络，降低网络参数的计算量，将损失函数CIOU优化为SIOU，引入真实框和预测框之间的向量角度，提升模型准确性。

实验结果表明，在包裹检测任务中，该模型的准确率可达到95.2%，召回率达到90.3%，检测速度达到136.9帧每秒（frames per second，FPS），可实时精确地检测传送带上的各类包裹，包括检测难度较大的异形件，能够满足实际需求。

该研究具有一定的实际应用价值。

关键词：YOLO v5s；快递包裹检测；目标检测；单件分离中图分类号：TP391.4文献标识码：A收稿日期：2023-06-13；修回日期：2023-10-30基金项目：市级专项扶持资金（202001PTXM14）作者简介：李乐阳（1996-），女，硕士研究生，主要研究方向为计算机视觉。

通信作者：张维忠（1963-），男，教授，硕士生导师，主要研究方向为计算机视觉，人工智能与大数据等。

Email：*********************近年来，电商平台带动了快递行业的高速发展，传统的包裹分离逐渐从人力分拣过渡到使用智能算法自动化处理，不仅提高了物流效率，还减少了人力资源的需求，降低了成本。

在包裹分离领域，德国西门子公司设计了单件分离系统[1]，该系统由包裹检测模块和传送带控制模块组成，采用基于视觉的包裹检测方法，计算包裹在传送带上的位置，通过启动传送带进行分离，可方便地应用于自动化包裹分拣生产线上，但实时性较差，不能满足实际应用的需求。

杨赛[2]参照西门子系统，利用RGB-D相机，使用连通区域标记法对深度图像进行包裹分割，此方法效率较高，但错误分割的概率较大；海康威视开发了基于RGB-D相机与深度学习技术的包裹单件分离设备，将包裹定位分割算法整合到相机内部，完成包裹定位与分割的计算过程，但存在单个相机成本较高、分离不理想的情况。

NVIDIA TESLA K20&K20X详解

Speedup vs. Dual K20
�
20x
�
CP2K- Quantum Chemistry
K20 with Hyper-Q K20 without Hyper-Q
15x
�
10x
�
5x
2.5x
0x 0 5 10 15 Number of GPUs 20
Dynamic Parallelism allows the GPU to operate more autonomously from the CPU by generating new work for itself at run time, from inside a kernel. The concept is simple, but the impact is powerful: it can make programming easier, particularly for algorithms traditionally considered difficult such as divide-and-conquer problems.
SMX: 3x More Performance Per Watt
The new SMX (Next Generation Streaming Multiprocessor) is an architectural innovation designed from the ground-up to deliver high efficiency performance. With SMX at its core, Tesla K20/K20X accelerators deliver the industry’s highest single and double precision performance- 3.95 teraflops and 1.31 teraflops respectively for Tesla K20X- at an unprecedented 93% computational efficiency.

基于YOLOv5的高分辨率遥感图像目标检测算法

第１３卷㊀第１０期Ｖｏｌ．１３Ｎｏ．１０㊀㊀智㊀能㊀计㊀算㊀机㊀与㊀应㊀用ＩｎｔｅｌｌｉｇｅｎｔＣｏｍｐｕｔｅｒａｎｄＡｐｐｌｉｃａｔｉｏｎｓ㊀㊀２０２３年１０月㊀Ｏｃｔ．２０２３㊀㊀㊀㊀㊀㊀文章编号：２０９５－２１６３（２０２３）１０－００８３－０５中图分类号：ＴＰ３９１文献标志码：Ａ基于ＹＯＬＯｖ５的高分辨率遥感图像目标检测算法李在瑞，郑永果，东野长磊（山东科技大学计算机科学与工程学院，山东青岛２６６５９０）摘㊀要：针对高分辨率遥感图像中物体排布密集㊁尺度变化较大等特性，提出一种目标检测算法Ｒ－ＹＯＬＯｖ５㊂算法在ＹＯＬＯｖ５模型基础上首先将跨阶段局部扩张结构作用于主干网络，采用一种加强的特征提取方式，通过整合空洞卷积和密集连接，来缓解模型对密集分布目标的漏检问题；其次，在主干网络的瓶颈部分结合Ｔｒａｎｓｆｏｒｍｅｒ模块来增强特征的表达，突出目标区域；最后，引入多尺度特征融合模块，解决多尺度特征融合时存在的不一致性问题，以提高模型的检测效果㊂在公开的遥感图像检测数据集ＤＩＯＲ的实验结果表明，Ｒ－ＹＯＬＯｖ５算法平均精度均值（ｍＡＰ）达到８０．６％，具有良好的检测性能㊂关键词：遥感图像；目标检测；分布密集；ＹＯＬＯ；空洞卷积ＯｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｈｉｇｈｒｅｓｏｌｕｔｉｏｎｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅｂａｓｅｄｏｎＹＯＬＯｖ５ＬＩＺａｉｒｕｉ，ＺＨＥＮＧＹｏｎｇｇｕｏ，ＤＯＮＧＹＥＣｈａｎｇｌｅｉ（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＳｈａｎｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＱｉｎｇｄａｏＳｈａｎｄｏｎｇ２６６５９０，Ｃｈｉｎａ）ʌＡｂｓｔｒａｃｔɔＡｉｍｉｎｇａｔｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｄｅｎｓｅｄｉｓｔｒｉｂｕｔｉｏｎａｎｄｌａｒｇｅｓｃａｌｅｖａｒｉａｔｉｏｎｏｆｏｂｊｅｃｔｓｉｎｈｉｇｈ－ｒｅｓｏｌｕｔｉｏｎｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅｓ，ａｎｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍＲ－ＹＯＬＯｖ５ｉｓｐｒｏｐｏｓｅｄ．ＯｎｔｈｅｂａｓｉｓｏｆＹＯＬＯｖ５ｍｏｄｅｌ，ｔｈｅａｌｇｏｒｉｔｈｍｆｉｒｓｔｌｙｉｎｔｒｏｄｕｃｅｓＣｒｏｓｓＳｔａｇｅＰａｒｔｉａｌＤｉｌａｔｅｄＮｅｔｗｏｒｋｉｎｔｈｅｂａｃｋｂｏｎｅｎｅｔｗｏｒｋ，ｗｈｉｃｈａｄｏｐｔｓａｎｅｎｈａｎｃｅｄｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｔｏａｌｌｅｖｉａｔｅｔｈｅｐｒｏｂｌｅｍｏｆｕｎｄｅｔｅｃｔｅｄｄｅｎｓｅｄｉｓｔｒｉｂｕｔｅｄｔａｒｇｅｔｓｂｙｉｎｔｅｇｒａｔｉｎｇｄｉｌａｔｅｄｃｏｎｖｏｌｕｔｉｏｎａｎｄｄｅｎｓｅｃｏｎｎｅｃｔｉｏｎ．Ｓｅｃｏｎｄｌｙ，ｉｎｔｈｅｂｏｔｔｌｅｎｅｃｋｐａｒｔｏｆｔｈｅｂａｃｋｂｏｎｅｎｅｔｗｏｒｋ，ｔｈｅＴｒａｎｓｆｏｒｍｅｒｍｏｄｕｌｅｉｓｃｏｍｂｉｎｅｄｔｏｅｎｈａｎｃｅｔｈｅｅｘｐｒｅｓｓｉｏｎｏｆｆｅａｔｕｒｅｓａｎｄｈｉｇｈｌｉｇｈｔｔｈｅｔａｒｇｅｔａｒｅａ．Ｆｉｎａｌｌｙ，ｍｕｌｔｉ－ｓｃａｌｅｆｅａｔｕｒｅｆｕｓｉｏｎｍｏｄｕｌｅｉｓｉｎｔｒｏｄｕｃｅｄｔｏｓｏｌｖｅｔｈｅｉｎｃｏｎｓｉｓｔｅｎｃｙｐｒｏｂｌｅｍｉｎｍｕｌｔｉ－ｓｃａｌｅｆｅａｔｕｒｅｆｕｓｉｏｎｔｏｉｍｐｒｏｖｅｔｈｅｄｅｔｅｃｔｉｏｎｅｆｆｅｃｔｏｆｔｈｅｍｏｄｅｌ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎｐｕｂｌｉｃｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅｄｅｔｅｃｔｉｏｎｄａｔａｓｅｔＤＩＯＲｓｈｏｗｔｈａｔｔｈｅＭＡＰｏｆＲ－ＹＯＬＯｖ５ｒｅａｃｈｅｓ８０．６％，ｗｈｉｃｈｈａｓｇｏｏｄｄｅｔｅｃｔｉｏｎｐｅｒｆｏｒｍａｎｃｅ．ʌＫｅｙｗｏｒｄｓɔｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅ；ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ；ｄｅｎｓｅｄｉｓｔｒｉｂｕｔｉｏｎ；ＹＯＬＯ；ｄｉｌａｔｅｄｃｏｎｖｏｌｕｔｉｏｎ作者简介：李在瑞（１９９８－），男，硕士研究生，主要研究方向：计算机视觉；郑永果（１９６３－），男，博士，教授，主要研究方向：虚拟现实与可视化㊁图像处理与模式识别；东野长磊（１９７８－），男，博士，副教授，主要研究方向：医学图像处理㊁计算机视觉㊂通讯作者：郑永果㊀㊀Ｅｍａｉｌ：ｓｋｄ９９１３１７＠ｓｄｕｓｔ．ｅｄｕ．ｃｎ收稿日期：２０２２－１１－０５０㊀引㊀言近些年，随着卫星及遥感技术的发展，遥感图像的目标检测在城市规划㊁灾情救援㊁车辆监控等各种实际应用中起到了至关重要的作用［１］㊂深度学习技术的迅速发展，使得目标检测有了重大突破，许多高性能的神经网络算法被提出［２］㊂目前，基于深度学习的目标检测算法可以大致分为二阶段算法和一阶段算法两类，二阶段算法专注于提升模型对目标的检测精度，一阶段方法则在追求精度的基础上又兼顾了检测速度㊂二阶段算法的经典模型是ＦａｓｔＲ－ＣＮＮ［３］，其使用ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ（ＲＰＮ）来选择对象的候选边界框，随后又进一步筛选出较为准确的目标区域㊂特征金字塔网络（ＦＰＮ）［４］使用类似金字塔的结构来学习不同尺度的特征㊂Ｔｒｉｄｅｎｔｎｅｔ［５］通过引入扩展卷积来改变大小最佳的感受野，并基于不同大小的感受野构造多分支结构，从而解决多尺度检测问题㊂一阶段模型中，ＳＳＤ［６］增加了多个卷积层，以获得多尺度特征图进行预测，并设计不同大小的先验边界框以更好地检测目标㊂ＹＯＬＯｖ４［７］采用了更为高效的ｃｓｐ－ｄａｒｋｎｅｔ作为主干网络并设计多尺度预测㊂ＴＰＨ－ＹＯＬＯｖ５［８］则将Ｔｒａｎｓｆｏｒｍｅｒ与网络相结合，增强模型提取特征的能力㊂以上算法虽然在识别自然图像时都表现出了良好的效果，但由于遥感图像存在背景复杂㊁目标尺度变化范围大㊁物体分布密集等检测难题［９］，通用目标检测算法对高分辨率遥感图像的检测具有很大的局限性［１０］㊂为解决上述问题，本文基于ＹＯＬＯｖ５框架，提出特征信息补充与加强以及多尺度融合的方法，以增强模型的检测能力㊂１㊀相关工作１．１㊀ＹＯＬＯｖ５模型随着ＹＯＬＯ系列网络的提出，其在各种视觉检测任务中展现了出色的性能㊂其中，ＹＯＬＯｖ５主干网络是由Ｆｏｃｕｓ模块㊁ＣＳＰ结构以及ＳＰＰ模块组合而成㊂Ｆｏｃｕｓ模型会对图片进行切片操作，在宽和高两个维度上每隔一个像素取一个值，从而使特征图的通道数变为原来的４倍，能够在最大程度减少信息损失的同时实现两倍下采样㊂ＹＯＬＯｖ５在ＣＳＰＮｅｔ［１１］的基础上重新设计ｃｓｐ结构，并在原本的ｄａｒｋｎｅｔ网络中大量插入该结构㊂ｓｐｐ模块对特征图做不同大小的池化操作，从而在原特征图的基础上融合不同感受野，丰富上下文信息［１２］㊂ＹＯＬＯｖ５在Ｎｉｃｋ部分结构参考了ＦＰＮ和ＰＡＮ㊂首先，设计自顶向下路径来融合网络中不同层次的特征，将包含丰富语义信息的深层特征向下传递与浅层结合，能够提高模型对多尺度目标的检测能力；后又增加自底向上的金字塔结构，把浅层特征映射到深层网络，补充检测目标的细节及空间信息，进一步提升模型的检测效果㊂同时，在ｎｉｃｋ部分应用ｃｓｐ２＿ｘ结构，使用Ｘ个卷积模块替代残差单元㊂Ｈｅａｄ部分则对图片进行预测与分类，ＹＯＬＯｖ５设计３种尺寸的特征图来检测大中小不同种类的目标，最后通过非极大值抑制来筛选预测框，实现检测过程㊂１．２㊀Ｔｒａｎｓｆｏｒｍｅｒ模块Ｔｒａｎｓｆｏｒｍｅｒ模块早先广泛应用于ＮＬＰ领域，通过自注意力机制来捕获序列元素之间的依赖关系，在可并行性和特征提取方面展现了出色的性能［１３］㊂近些年来，许多计算机视觉的学者开始将其作用于图像相关的研究上㊂Ｐａｒｍａｒ等人提出ＩｍａｇｅＴｒａｎｓｆｏｒｍｅｒ［１４］算法，基于Ｔｒａｎｓｆｏｒｍｅｒ解码器用于图像生成任务；随后ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ［１５］被提出，并首次在大型图像数据集上展现出超越卷积网络的性能，在图像分类方面具有较强的泛化能力；ＳｗｉｎＴｒａｎｓｆｏｒｍｅｒ［１６］则采用移动窗口的机制来计算注意力，有效解决了传统Ｔｒａｎｓｆｏｒｍｅｒ模块中计算复杂度较高的问题，并通过不同窗口之间的特征交互提取到更为丰富的语义信息㊂Ｔｒａｎｓｆｏｒｍｅｒ由编码器和解码器两部分组成，基本原理是通过将图片展开成一维，得到图像特征张量，输入到编码器部分使用多头自注意力学习目标特征，增强图像中目标的语义信息，再利用解码器与解码器协同训练，学习注意力规律来强化目标和特征之间的关联关系，进而提升检测效果㊂２㊀Ｒ－ＹＯＬＯｖ５遥感图像目标检测算法Ｒ－ＹＯＬＯｖ５目标检测算法结构如图１所示㊂首先，在ＹＯＬＯｖ５的主干网络ＣＳＰＤａｒｋＮｅｔ中使用跨阶段局部扩张结构，替代原本的跨阶段局部网络结构；其次，在主干网络的输出特征图瓶颈部分结合Ｔｒａｎｓｆｏｒｍｅｒ模块中的编码器；最后，在原本的Ｎｉｃｋ部分嵌入多尺度特征融合模块㊂S P PT R -B o t t l e n e c k C S P D 1_3C S P 1_1C o n vF o c u sT R -B o t t l e n e c k C S P D 1_3S P PC S PD 2_1C o n c a tC o n c a tC o n vC S PD 2_1C o n c a tC S PD 2_1C o n vT R -B o t t l e n e c kC S PD 2_1C S P D 2_1C o n c a tM S FC a tM a x p o o lM a x p o o l M a x p o o lP r e d i t i o nM S FC o n vC o n v C o n vC a tS o f t M a xC o n v C o n vC a tC a tC o n vC o n v2*C o n v6?D i l a t e d C o n vC S PD 1_XC S PD 2_X X *C o n v6?D i l a t e dC o n vX 个残差单元图１㊀Ｒ－ＹＯＬＯｖ５算法结构Ｆｉｇ．１㊀Ｒ－ＹＯＬＯｖ５ａｌｇｏｒｉｔｈｍｓｔｒｕｃｔｕｒｅ４８智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第１３卷㊀２．１㊀跨阶段局部扩张结构跨阶段局部网络结构（ＣｒｏｓｓＳｔａｇｅＰａｒｔｉａｌＳｔｒｕｃｔｕｒｅ，ＣＳＰ）被大量应用到ＹＯＬＯｖ４的主干网络，ＹＯＬＯｖ５又在ｖ４的基础上将其与ｎｉｃｋ部分结合㊂ＣＳＰ结构包括两个分支：一是将输入特征图进行Ｘ个残差单元的卷积操作，另一部分进行简单的３∗３卷积计算特征后，与上一分支结合㊂ＣＳＰ结构能够增强网络的特征提取能力，使模型获取到更为丰富的语义信息㊂针对遥感图像中检测目标尺度变化较大，物体分布密集的特性，对ＣＳＰ结构进行改进，提出跨阶段局部扩张结构（ＣｒｏｓｓＳｔａｇｅＰａｒｔｉａｌＤｉｌａｔｅｄＳｔｒｕｃｔｕｒｅ，ＣＳＰＤ），如图２所示㊂首先，保持残差单元分支不变，在另一分支中使用６个连续的扩张卷积，扩张率分别为３㊁６㊁１２㊁１８㊁２４，来获取同一特征图的不同感受野，从而覆盖遥感图像中各种不同尺度的检测对象㊂其次，当图像中目标分布较为紧密时，使用扩张卷积会丢失特征信息，为了避免检测对象的漏检现象，在连续的６个扩张卷积基础上采用密集连接结构，将原特征图与每层的卷积分别做逐个元素的加操作，从而加强特征的传播，丰富语义信息㊂X 个残差单元C o n c a tD =3D =6D =12D =18D=24图２㊀跨阶段局部扩张模块结构图Ｆｉｇ．２㊀ＣｒｏｓｓＳｔａｇｅＰａｒｔｉａｌＤｉｌａｔｅｄｍｏｄｕｌｅ２．２㊀瓶颈Ｔｒａｎｓｆｏｒｍｅｒ结构ＹＯＬＯｖ５主干网络分别输出３个不同层次大小的特征图，作为后续多尺度特征融合部分的输入㊂将主干网络中负责输出特征图的瓶颈（Ｂｏｔｔｌｅｎｅｃｋ）部分与Ｔｒａｎｓｆｏｒｍｅｒ模块中的编码器相结合（如图３所示），提出瓶颈Ｔｒａｎｓｆｏｒｍｅｒ结构（ＴＲ－Ｂｏｔｔｌｅｎｅｃｋ），提高模型对语义信息的提取能力，丰富图像全局信息，抑制背景对目标识别的影响㊂首先，将图片做切分并降低维度，即将原本Ｈ∗Ｗ∗Ｃ的图像变为Ｎ∗（Ｐ２∗Ｃ）的Ｔｏｋｅｎｓ，其中Ｎ＝ＨＷ∗Ｐ２；随后输入Ｅｎｃｏｄｅｒ中的多头注意力机制，进一步做特征提取，如式（１）所示：ＡｔｔｅｎＱ，Ｋ，Ｖ()＝ｓｏｆｔｍａｘＱＫＴ㊀ｄｋæèçöø÷Ｖ（１）式中：Ｑ㊁Ｋ㊁Ｖ分别为输入多头注意力的查询向量㊁键向量㊁值向量，ｄｋ代表特征维度㊂将查询向量与键向量相乘后，经过ｓｏｆｔｍａｘ激活函数并归一化处理，再与Ｖ相乘加权，得到输出结果㊂最后输入由两个全连接层及激活函数组成的ＭＬＰ（前馈神经网络）得到整个Ｔｒａｎｓｆｏｒｍｅｒ模块的输出特征，并与Ｂｏｔｔｌｅｎｃｋ结构的特征信息结合㊂T R -B o t t l e n e c kM u l t i -H e a dA t t e n t i o nC o n v C o n v C o n vC o n vC o n vB nR e L U*2C o n c a tT r a n s f o r m e r M L P图３㊀瓶颈Ｔｒａｎｓｆｏｒｍｅｒ模块结构图Ｆｉｇ．３㊀Ｔｒａｎｓｆｏｒｍｅｒｂｏｔｔｌｅｎｅｃｋｍｏｄｕｌｅ２．３㊀多尺度特征融合模块ＹＯＬＯｖ５输出的３种尺寸的特征图，分别对应大中小不同的检测对象，高层语义信息中检测大目标，低层语义信息中检测小目标，而遥感图像中往往既有大目标又有小目标㊂特征融合时，由于不同层间特征的不一致性，将会影响最后的检测结果㊂为了缓解上述问题，更好的让网络利用高低层语义信息，在ｎｉｃｋ部分的最后，嵌入多尺度特征融合模块（ＭｕｌｔｉＳｃａｌｅＦｅａｔｕｒｅＦｕｓｉｏｎＭｏｄｕｌｅ，ＭＳＦ），如图４所示㊂S o f t M a x压缩压缩压缩图４㊀多尺度特征融合模块结构图Ｆｉｇ．４㊀Ｍｕｌｔｉ－ｓｃａｌｅｆｅａｔｕｒｅｆｕｓｉｏｎｍｏｄｕｌｅ㊀㊀首先将３种尺寸的特征图进行采样操作，调整到同一尺寸；再根据通道维度整合并接入ＳｏｆｔＭａｘ函数生成权重参数；最后３层特征分别乘上各自的权重参数，得到融合后的特征，表达如式（２）所示：ｆ＝ð３ｉ＝１ＳｏｆｔＭａｘ（ｃａｔ（ｘ１ｘ２ｘ３））ｘｉ（２）式中：ｘ１㊁ｘ２㊁ｘ３分别为３种尺寸的特征图，ｃａｔ表示对特征图做通道维度的整合，表示点乘操作，ｆ则为最终的输出特征㊂５８第１０期李在瑞，等：基于ｙｏｌｏｖ５的高分辨率遥感图像目标检测算法３㊀实验３．１㊀实验环境与数据集实验在ｌｉｎｕｘ系统下进行，所用ＧＰＵ为ＴｅｓｌａＰ１００，显存１６Ｇ，深度学习框架为ｐｙｔｏｒｃｈ㊂实验所用遥感数据集为ＤＩＯＲ，其中包括２３４６３张图像，训练与测试各取一半的样本㊂３．２㊀评价指标实验采用平均精度均值（ｍＡＰ）㊁平均精确率（ＡＰ）作为评估指标，ＡＰ和ｍＡＰ是可以反映多类别目标全局检测精度的指标在文献中被广泛用于评估多类别目标检测性能表达如式（２）㊁（３）所示：ＡＰ＝ʏ１０ｐＲ()ｄＲ（３）ｍＡＰ＝１ＮðｉＡＰｉ（４）㊀㊀其中，平均精度ＡＰ表示的是计算单类目标Ｐ－Ｒ曲线下面积的结果，ｐ为精确率，Ｒ为召回率；而ｍＡＰ是所有类别ＡＰ的平均值；Ｎ为检测目标的类别总数；ＡＰｉ表示第ｉ个类别的平均检测精度㊂３．３㊀算法流程如图５所示，Ｒ－ＹＯＬＯｖ５算法首先对输入的遥感图像进行预处理，扩展图像数据；其次，根据模型配置文件搭建网络结构，读取训练参数，并根据训练结果更新网络参数；最后，加载训练权重与测试数据集，输出模型的预测图像㊂搭建网络读取参数输出结果更新参数训练模型训练集测试集数据预处理归一化数据扩充遥感图像图５㊀Ｒ－ＹＯＬＯｖ５算法流程图Ｆｉｇ．５㊀Ｒ－ＹＯＬＯｖ５ａｌｇｏｒｉｔｈｍｆｌｏｗｃｈａｒｔ３．４㊀实验结果表１为本文算法Ｒ－ＹＯＬＯｖ５与不同目标检测模型在ＤＩＯＲ数据集下的实验结果㊂其中包括一阶段模型Ｆａｓｔｅｒ－ＲＣＮＮ，以ＳＳＤ㊁ＲｅｔｉｎａＮｅｔ㊁ＹＯＬＯｖ４为代表的二阶段模型，及无锚方法ＹＯＬＯＸ㊂表１㊀ＤＩＯＲ数据集下对比试验Ｔａｂ．１㊀ＲｅｓｕｌｔｓｏｎＤｉｏｒｄａｔａｓｅｔ％ＭＥＴＨＯＤＦａｓｔｅｒ－ＲＣＮＮＳＳＤＲｅｔｉｎａＮｅｔＹＯＬＯｖ４ＹＯＬＯＸＲ－ＹＯＬＯｖ５Ｅｘｐｒｅｓｓｗａｙｓｅｒｖｉｃｅａｒｅａ６５６４９０８９８０９３Ｂａｓｋｅｔｂａｌｌｃｏｕｒｔ７１７６９０８７８９９２Ｔｅｎｎｉｓｃｏｕｒｔ７７７６８７８８９０９２ｇｏｌｆｆｉｅｌｄ７０６５８５７４７２８６Ｇｒｏｕｎｄｔｒａｃｋｆｉｅｌｄ６２６９８３８２８１８８Ｓｔａｄｉｕｍ９４６１８１７０７４８０Ｃｈｉｍｎｅｙ８９６６８１８０７６８２Ａｉｒｐｏｒｔ６８７２７９８０７１９２Ｄａｍ５９５７７５７０６１８１Ｂａｓｅｂａｌｌｆｉｅｌｄ９２７２７４８５８４８１Ｗｉｎｄｍｉｌｌ４４６６７０８３８９９２Ａｉｒｐｌａｎｅ９１６０６８７３８５８４Ｔｒａｉｎｓｔａｔｉｏｎ４０５５６１６３４８７５Ｅｘｐｒｅｓｓｗａｙｔｏｌｌｓｔａｔｉｏｎ５５５３５９７１７１８３Ｈａｒｂｏｒ５４４９５９６３５２６７Ｏｖｅｒｐａｓｓ５１４８５７６２６１６６Ｓｈｉｐ２１５９４７８５８８９１ｂｒｉｄｇｅ２２３０３７４４４４５５Ｓｔｏｒａｇｅｔａｎｋ７３４７３４６３７０７６Ｖｅｈｉｃｌｅ３０２７２１４４４９５８ＭＡＰ６１．５８５８６６．９２７２．６９７１．７８０．６㊀㊀由表１可知，Ｒ－ＹＯＬＯｖ５对飞机㊁机场㊁船㊁桥㊁车辆等密集分布㊁大小尺度不一目标的精度均有不同程度的提高，具有良好的表现㊂图６所示为Ｒ－ＹＯＬＯｖ５对密集分布㊁大小尺度不一目标的效果图㊂这两种情况在检测过程中都较易对目标错检或漏检，模型识别的难度较大㊂如图６８智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第１３卷㊀６（ａ）㊁（ｂ）中飞机与油罐的分布较为密集，模型对此类目标能够较为全面的做出识别；图６（ｃ）㊁（ｄ）中车辆与桥梁㊁棒球场与网球场等各类物体的尺度变化给模型带来了检测难题，结果表明，Ｒ－ＹＯＬＯｖ５可以较为准确的检测出目标对象㊂（a ）飞机场（b ）油罐场（c ）车辆与桥梁（d ）棒球场与网球场图６㊀Ｒ－ＹＯＬＯｖ５检测结果Ｆｉｇ．６㊀Ｒ－ＹＯＬＯｖ５ｄｅｔｅｃｔｉｏｎｒｅｓｕｌｔ４㊀结束语基于高分辨率遥感图像存在检测对象密集度高㊁大小不一等问题㊂本文提出Ｒ－ＹＯＬＯｖ５算法，通过扩大感受野和增强特征信息以及改善特征融合来提高模型对密集物体以及多尺度目标的检测精度㊂实验表明，本文提出的目标检测算法在遥感数据集上具有较好的识别能力㊂参考文献［１］ＳＣＨＩＬＬＩＮＧＨ，ｄＵＬＡＴＯＶＤ，ＮＩＥＳＳＮＥＲＲ，ｅｔａｌ．Ｄｅｔｅｃｔｉｏｎｏｆｖｅｈｉｃｌｅｓｉｎｍｕｌｔｉｓｅｎｓｏｒｄａｔａｖｉａｍｕｌｔｉｂｒａｎｃｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＥＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＡｐｐｌｉｅｄＥａｒｔｈＯｂｓｅｒｖａｔｉｏｎｓａｎｄＲｅｍｏｔｅＳｅｎｓｉｎｇ，２０１８，１１（１）：４２９９－４３１６．［２］ＣＨＥＮＪ，ＹＵＥＡ，ＷＡＮＧＣ，ｅｔａｌ．Ｗｉｎｄｔｕｒｂｉｎｅｅｘｔｒａｃｔｉｏｎｆｒｏｍｈｉｇｈｓｐａｔｉａｌｒｅｓｏｌｕｔｉｏｎｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅｓｂａｓｅｄｏｎｓａｌｉｅｎｃｙｄｅｔｅｃｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＡｐｐｌｉｅｄＲｅｍｏｔｅＳｅｎｓｉｎｇ，２０１８，１２（１）：０１６０４１．［３］ＧＩＲＳＨＩＣＫＲ．Ｆａｓｔｒ－ｃｎｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．２０１５：１４４０－１４４８．［４］ＬＩＮＴＹ，ＤＯＬＬＲＰ，ＧＩＲＳＨＩＣＫＲ，ｅｔａｌ．Ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ．２０１７：２１１７－２１２５．［５］ＬＩＹ，ＣＨＥＮＹ，ＷＡＮＧＮ，ｅｔａｌ．Ｓｃａｌｅ－ａｗａｒｅｔｒｉｄｅｎｔｎｅｔｗｏｒｋｓｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．２０１９：６０５４－６０６３．［６］ＬＩＵＷ，ＡＮＧＵＥＬＯＶＤ，ＥＲＨＡＮＤ，ｅｔａｌ．Ｓｓｄ：Ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉｂｏｘｄｅｔｅｃｔｏｒ［Ｃ］／／ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ－ＥＣＣＶ２０１６：１４ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅ，Ａｍｓｔｅｒｄａｍ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ，Ｏｃｔｏｂｅｒ１１－１４，２０１６，Ｐｒｏｃｅｅｄｉｎｇｓ，ＰａｒｔＩ１４．ＳｐｒｉｎｇｅｒＩｎｔｅｒｎａｔｉｏｎａｌＰｕｂｌｉｓｈｉｎｇ，２０１６：２１－３７．［７］ＢＯＣＨＫＯＶＳＫＩＹＡ，ＷＡＮＧＣＹ，ＬＩＡＯＨＹＭ．Ｙｏｌｏｖ４：Ｏｐｔｉｍａｌｓｐｅｅｄａｎｄａｃｃｕｒａｃｙｏｆｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：２００４．１０９３４，２０２０．［８］ＺＨＵＸ，ＬＹＵＳ，ＷＡＮＧＸ，ｅｔａｌ．ＴＰＨ－ＹＯＬＯｖ５：ＩｍｐｒｏｖｅｄＹＯＬＯｖ５ｂａｓｅｄｏｎｔｒａｎｓｆｏｒｍｅｒｐｒｅｄｉｃｔｉｏｎｈｅａｄｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｏｎｄｒｏｎｅ－ｃａｐｔｕｒｅｄｓｃｅｎａｒｉｏｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．２０２１：２７７８．［９］ＺＨＡＮＧＧ，ＬＵＳ，ＺＨＡＮＧＷ．ＣＡＤ－Ｎｅｔ：Ａｃｏｎｔｅｘｔ０ａｗａｒｅｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋｆｏｒｏｂｊｅｃｔｓｉｎｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅｒｙ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＧｅｏｓｃｉｅｎｃｅａｎｄＲｅｍｏｔｅＳｅｎｓｉｎｇ，２０１９，５７（１２）：１００１５－１００２４．［１０］ＺＨＥＮＧＺ，ＬＥＩＬ，ＳＵＮＨ，ｅｔａｌ．Ａｒｅｖｉｅｗｏｆｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｓｂａｓｅｄｏｎｄｅｅｐｌｅａｒｎｉｎｇ［Ｃ］／／２０２０ＩＥＥＥ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅ，ＶｉｓｉｏｎａｎｄＣｏｍｐｕｔｉｎｇ（ＩＣＩＶＣ）．ＩＥＥＥ，２０２０：３４－４３．［１１］ＷＡＮＧＣＹ，ＬＩＡＯＨＹＭ，ＷＵＹＨ，ｅｔａｌ．ＣＳＰＮｅｔ：ＡｎｅｗｂａｃｋｂｏｎｅｔｈａｔｃａｎｅｎｈａｎｃｅｌｅａｒｎｉｎｇｃａｐａｂｉｌｉｔｙｏｆＣＮＮ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｗｏｒｋｓｈｏｐｓ．２０２０：３９０－３９１．［１２］ＣＡＯＬ，ＺＨＡＮＧＸ，ＷＡＮＧＺ，ｅｔａｌ．Ｍｕｌｔｉａｎｇｌｅｒｏｔａｔｉｏｎｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｆｏｒｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅｂａｓｅｄｏｎｍｏｄｉｆｉｅｄｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＲｅｍｏｔｅＳｅｎｓｉｎｇ，２０２１，４２（１４）：５２５３－５２７６．［１３］ＷＡＮＧＣ，ＢＡＩＸ，ＷＡＮＧＳ，ｅｔａｌ．ＭｕｌｔｉｓｃａｌｅＶｉｓｕａｌａｔｔｅｎｔｉｏｎｎｅｔｗｏｒｋｓｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｉｎＶＨＲｒｅｍｏｔｅｓｅｎｓｉｎｇｉｍａｇｅｓ［Ｊ］．ＩＥＥＥＧｅｏｓｃｉｅｎｃｅａｎｄＲｅｍｏｔｅＳｅｎｓｉｎｇＬｅｔｔｅｒｓ，２０１８，１６（２）：３１０－３１４．［１４］ＰＡＲＭＡＲＮ，ＶＡＳＷＡＮＩＡ，ＵＳＺＫＯＲＥＩＴＪ，ｅｔａｌ．Ｉｍａｇｅｔｒａｎｓｆｏｒｍｅｒ［Ｃ］／／Ｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇ．ＰＭＬＲ，２０１８：４０５５－４０６４．［１５］ＤＯＳＯＶＩＴＳＫＩＹＡ，ＢＥＹＥＲＬ，ＫＯＬＥＳＮＩＫＯＶＡ，ｅｔａｌ．Ａｎｉｍａｇｅｉｓｗｏｒｔｈ１６ˑ１６ｗｏｒｄｓ：Ｔｒａｎｓｆｏｒｍｅｒｓｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎａｔｓｃａｌｅ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：２０１０．１１９２９，２０２０．［１６］ＬＩＵＺ，ＬＩＮＹ，ＣＡＯＹ，ｅｔａｌ．Ｓｗｉｎｔｒａｎｓｆｏｒｍｅｒ：Ｈｉｅｒａｒｃｈｉｃａｌｖｉｓｉｏｎｔｒａｎｓｆｏｒｍｅｒｕｓｉｎｇｓｈｉｆｔｅｄｗｉｎｄｏｗｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．２０２１：１００１２－１００２２．７８第１０期李在瑞，等：基于ｙｏｌｏｖ５的高分辨率遥感图像目标检测算法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Tesla K80提供深度学习框架基准测试平台
案例简介
•本案例中香港浸会大学计算机科学系异构计算实验室使用Tesla K80集群对目前主流的五大深
度学习框架（Caffe，CNTK，MXNet，
TensorFlow和Torch）进行性能基准评测。

•In this case, researchers from the Heterogeneous Computing Laboratory of The Department of
Computer Science, Hong Kong Baptist University
conducted a comprehensive benchmarking and
comparative study on the running performance of
five state-of-the-art deep learning frameworks
(Caffe, CNTK, MXNet, TensorFlow and Torch) by
using the Tesla K80 cluster.
•本案例中用到NVIDIA GPU：16块 Tesla K80
背景
香港浸会大学异构计算实验室从2007年开始则研究GPU并行计算，在GPU计算与高性能计算领域有丰富的科研和实践经验。

我们团队在各个应用领域的GPU优化算法都有较丰富的科研成果，如网络编码算法，基因匹配算法，机器学习算法等都取得突破性的性能提升。

我们团队在2014年与华为合作研究的深度学习的分布式计算框架。

基于CXXNET框架，研发出基于MPI的分布式深度学习框架。

同时，该框架也成功应用于ImageNet大规模图片识别的模型训练。

当前，各大知名公司和研究单位开源优秀的深度学习框架，而各个框架在单GPU节点和多GPU节点的性能表现各不相同。

香港浸会大学异构计算实验室对各大框架在Tesla GPU集群上进行性能基准评测。

在未来，深度学习框架由于出发点各不相同，在各种硬件资源下表现的性能也表现各异。

我们采用取长补短的方式，对相关算法进行优化，使得深度学习框架可以更加充分地利用硬件资源，提高模型训练或测试速度。

挑战
深度学习算法在GPU上的优化很大情况下依赖于NVIDIA提供的cuDNN和cuBLAS软件库，然而不同厂商在设计自己的深度学习框架时在软件库使用和资源调度上存在较大的差异，所以在同样的硬件环境下，所表现出来的性能也有所不同。

对于终端用户来讲，在众多深度学习框架中，较难选择较高性能的框架；对于研究人员来讲，每个框架都有自己的实现方法，很难知道哪一种实现方法已经是state-of-the-art。

基于这两个问题，提供一个深度学习框架的性能基准评测是很有必要的。

深度学习社区的发展迅速，深度学习框架的更新迭代也非常之快，而每一次新的迭代出现的性能也存在差异。

使得用户使用深度学习框架训练模型时间效率低下或无法发挥实际硬件的计算能力。

为快速评估出各个框架在一些通用的深度学习模型上的性能表现，我们设计基于Tesla K80硬件平台的性能基准测试，在同样的硬件环境下，评测5大深度学习框架在同样的深度网络模型的性能表现。

以最公平的评测方式为用户展示性能测试结果比较，并持续更进框架版本更新，让用户在选择深度学习框架时对性能的表现有一个直观理解。

我们设计3类主流的深度神经网络（全连接网，卷积网和循环网络），每一种网络应用在主流的公开数据集上（MNIST，Cifar10，ImageNet和PTB）进行模型训练。

如果只有一个GPU的情况下，所有测试的Case只能串行执行, 对所有框架的性能评测需要1周左右的时间，如此长的时间周期非常不利于与深度学习框架的更新保持同步，同时也大大地影响对深度学习框架的性能分析。

方案
16个节点的Tesla K80 GPU使我们对多个深度学习框架在性能上的全面评测成为可能。

首先，在单GPU节点的性能评估上，可以使用16个节点对不同的深度学习框架并行测试，以快速产生结果。

其次，对不同的深度学习框架可以在单机多卡的环境下进行性能评估，以对比不同框架在单机多卡的扩展性。

最后，在跨机器的分布式计算的性能评估也成为现实，利用8台服务器，每台服务器部署2个Tesla K80，测试不同框架在分布式环境下的性能表现。

首先，在单GPU的性能评估上，不同的深度学习框架可以利用16块Tesla K80共32个GPU同时进行性能测试。

我们总需要对6种不同的深度网络，每种深度网络需要跑5组不同的mini-batch大小，共有5个深度学习框架，即需测试150次。

在单GPU的环境下，这150次只能串行进行，需要持续1周左右时间才能测试完毕，而利用Tesla K80的8节点集群（每节点2块K80），把150次测试用例平均到每个GPU上，这样即把测试时间缩短为原来的1/32，大大地提高的测试效率。

其次，不同深度学习框架在多GPU环境下的性能表现也不同，8节点的K80集群为我们提供了单机4个GPU的测试环境，以评估单机多卡的性能表现。

在单机多卡的模型训练中，通常需要进行数据同步，而数据同时则需要将数据通过PCI-e进行传输。

但目前PCI-e的速度远比GPU的计算性能要差，导致PCI-e的数据传输容易成为性能瓶颈，因此不同框架在数据同步方面会采取一些优化方案以减少PCI-e的数据传输。

不同的框架则有不同的优化策略，通过性能的基准评测，我们可以测试出在哪些Case上怎样的策略是最优的。

最后，在深度学习框架的应用上，当需要处理更大型的任务时，往往需要多台GPU服务器协同工作以完成任务。

深度学习框架也具备这样的特点，在分布式计算环境下，与单机多卡的环境类似，也需要进行数据同步，这不仅需要依赖于PCI-e的数据传输，还依赖于以太网或IB网的数据传输，使用分布式模型训练带来更大的挑战。

因此，每个框架为减少网络传输和PCI-e传输对数据和算法的优化也各不相同。

8台K80服务器也为我们提供这样的测试环境，以评估各个框架在分布式环境下的扩展性。

深度学习框架在GPU计算平台上的性能表现直接影响到用户在进行模型训练或推理时的效率，而深度学习的训练过程中，通常需要对深度网络的层数，每层节点数，连接结构和一些超参数等进行调整以达到最佳的表达能力，这就需要进行快速迭代来提高效率。

因此，深度学习框架在某一个操作或某一个算法的性能提升直接关系到深度学习研究和开发人员的工作效率。

我们使用提供的基于K80硬件环境下的性能基准测试则提供一个全面的评估，使用户更方便选择最优性能的框架，而对开发人员，即可以根据相应的性能劣势进一步地优化，提高硬件资源使用率。

目前，基于18块K80集群，我们只需要3天时间即可对5大深度学习框架进行全面的性能比较。

影响
通过16块K80集群，我们的基准测试可以大大地缩短评测周期，快速地响应深度学习框架的更新，为用户和开发者提供一个全面的性能比较。

目前我们开放的深度学习框架的性能基准评测已引起了Google，微软和亚马逊等大公司和学者的关注。

在我们开放的性能评估的基础上，各大公司对其开源的深度学习框架的性能劣势做进一步的优化和性能提升。

他们对性能进行优化后便集成进新版本中，我们又可以其新发布的版本快速地进行性能评估。

这对整个深度学习框架的研究和开发是一个良性的循环。