以太网交换控制电路流量控制研究与实现
西安电子科技大学2024年硕士研究生招生考试自命题科目考试大纲 953网络空间安全基础综合

953网络空间安全基础综合考试大纲(研招考试主要考察考生分析问题与解决问题的能力,大纲所列内容为考生需掌握的基本内容,仅供复习参考使用,考试范围不限于此)一、总体要求《953网络空间安全基础综合》要求考生比较系统地掌握网络空间安全相关基础课程的基本概念、基本原理和基本方法,能够综合运用所学的基本原理和基本方法分析、判断和解决有关理论问题和实际问题。
二、知识要点数据结构:(一)数据结构基本概念1.数据结构的概念、名词和术语2.数据结构的逻辑结构3.数据结构的物理结构(二)线性表1.线性表的概念和基本运算2.线性表的顺序存储表示及算法3.顺序表的基本运算4.单链表、循环链表、双向链表的基本运算,5.线性表的链式存储表示及算法6.顺序表及链表的应用(三)栈和队列1.栈和队列的基本概念和基本操作2.栈和队列的顺序存储结构3.栈和队列的链式存储结构4.栈和队列的应用(四)串和数组1.串的基本概念和基本操作2.串的存储结构3.模式匹配算法4.数组的概念5.数组的存储结构6.矩阵压缩存储(五)树1.数、二叉树、森林的基本概念2.二叉树的性质和存储表示。
3.二叉树的遍历及递归算法的运用4.树和森林的转换方法5.二叉树的应用(六)图1.图的基本概念、术语2.图的存储方法3.图的遍历4.生成树和最小生成树5.最短路径6.拓扑排序7.关键路径(七)索引结构与散列技术1.索引结构的表示2.索引结构的应用3.散列表的概念4.散列表的构造5.散列表的查找(八)缩小规模算法1.递归与分治算法2.动态规划算法3.掌握贪心算法计算机网络:(一)计算机网络体系结构1.计算机网络概述(1)计算机网络的概念、组成与功能(2)计算机网络的分类(3)计算机网络与互联网的发展历史(4)计算机网络的标准化工作及相关组织2.计算机网络体系结构与参考模型(1)计算机网络分层结构(2)计算机网络协议、接口、服务等概念(3)ISO/OSI参考模型和TCP/IP模型(二)物理层1.通信基础(1)信道、信号、宽带、码元、波特、速率、信道容量等基本概念(2)奈奎斯特定理与香农定理(3)编码与调制、多路复用与扩频(4)电路交换、报文交换与分组交换(5)数据报与虚电路2.传输介质(1)双绞线、同轴电缆、光纤与无线传输介质(2)物理层接口的特性3.物理层设备(1)中继器(2)集线器(三)数据链路层1.数据链路层的功能2.组帧3.差错控制(1)检错编码(2)纠错编码4.流量控制与可靠传输机制(1)流量控制、可靠传输与滑轮窗口机制(2)停止-等待协议(3)后退N帧协议(4)选择重传协议5.典型数据链路层协议(1)HDLC协议(2)PPP协议(3)ADSL协议6.介质访问控制(1)信道划分介质访问控制频分多路复用、时分多路复用、码分多路复用的概念和基本原理。
基于以太网的DNC通信控制系统的设计与应用

基于以太网的DNC通信控制系统的设计与应用
朱兴华
【期刊名称】《通信电源技术》
【年(卷),期】2024(41)9
【摘要】文章针对现有系统信息交换速度慢、通信控制效果不佳等问题,研究基于以太网的分布式数控(Distributed Numerical Control,DNC)通信控制系统的设计与应用。
依据系统的基本功能,设计系统硬件,包括单片机控制板和无线通信交换机。
以此为基础,利用以太网技术设定系统的控制程序,并结合信道物理量剔除假性信号,求取通信安全控制限制标准值,从而完成系统软件设计。
系统性能测试结果显示,设
计的系统可有效加快数控设备的信息交换速度,通信控制效果较好。
【总页数】3页(P7-9)
【作者】朱兴华
【作者单位】上海振华重工集团(南通)传动机械有限公司
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于Windows和工业以太网的DNC通信控制系统
2.基于以太网的数控机床DNC控制系统设计
3.基于TB9061AFNG与以太网通信的汽车冷却泵控制系统设
计4.基于以太网通信的智能照明控制系统设计5.基于FX5U以太网通信的多台电
机联合控制系统设计
因版权原因,仅展示原文概要,查看原文内容请购买。
FCoE

以太网光纤通道(FCoE)技术综述目前,数据中心正以前所未有的速度增长,企业级应用需要更强的计算能力,Web 服务成为企业面向客户的核心策略,包括电子邮件、文件、以及多媒体等在内的数据量不断增多,等等。
此外,法规遵从要求数据作较长时间的保存。
所有这些要求使得运行一个数据中心变得日益复杂和昂贵。
与此同时,数据中心通常运行多个独立的网络:一个以太网网络(LAN)用于客户机到服务器和服务器到服务器的通信;一个光纤通道的存储区域网络(SAN)用于服务器和存储设备的通信。
为了支持各类型网络,数据中心的服务器上需要为每种网络配置单独的接口,即以太网网络接口卡(NIC)和光纤通道主机总线适配器(HBA)。
并且服务器通常还具有其他专用的网络接口,用于管理、备份和虚拟机即时迁移。
对这些接口提供支持需要大量接口卡、布线、机架空间、上行交换机。
多种并行的网络架构增加了数据中心的建设成本和电力、冷却方面的开支以及空间的消耗,使得数据中心管理更加困难,削弱了业务灵活性。
网络融合是数据中心应对上述挑战的发展方向(如图1所示)。
FCoE便是一种网络融合的技术,可以使得FC和以太网共享一个单一的,集成的网络基础设施。
FCoE可以为数据中心带来显著的业务优势:更低的总体拥有成本(TCO):通过为LAN/SAN流量提供统一交换网络,融合网络能够整合并更有效的利用以前分散的资源,通过消除不必要的交换基础设施,将服务器的I/O适配器与线缆的数量减少多达50%,大幅减少电力和冷却成本。
同时,简化的基础设施还可以降低管理和运营的开支。
强大的投资保护:FCoE可以和数据中心现有的以太网及FC基础设施无缝互通,使用户享受融合网络带来的优势,同时延续以太网和FC网络领域的架构,管理和运营最佳实践。
增强的业务灵活性:FCoE使得所有的服务器均能访问存储设备,在虚拟机移动的情况下可为虚拟机提供一致的存储连接,这样也提高了系统的灵活性和可用性。
图1 当前的网络架构和通过FCoE整合后的网络架构以太网LAN与FC SAN设计差异比较以太网LAN的设计思路图2. 以太网的基本模型如图2所示为传统以太网LAN的基本模型,其特点是“无限制性和尽力而为”,正是这种特点使得以太网的拓扑结构及流量模型具有高度灵活性。
现代网络技术(第二版)( (7)

第7章 广域网与路由技术
这两种服务适用于不同的通信场合。很多情况下,网络上传 送的报文长度都是很短的,若采用128个字节为分组长度,则往 往一次传送一个分组就够了。在这种情况下,用数据报既迅速又 经济。若用虚电路,为了传送一个分组而建立虚电路和释放虚电 路明显要浪费网络资源。但从另一个角度看,为了在交换结点进 行存储转发,在使用数据报时,每个分组必须携带完整的地址信 息。而在使用虚电路的情况下,每个分组不需要携带完整的目的 地址,而仅需要有虚电路号的标志,这样就使分组的控制信息部 分的比特数减少,因而减少了额外开销。
第7章 广域网与路由技术
对比项目 连接的建立 目的站地址
路由选择
路由器有故障 分组的顺序 端到端的差错控制 端到端的流量控制
表 7-1 虚电路服务与数据报服务的对比
必须有
虚电路服务
不要
数据报服务
仅在连接建立阶段使用,每个分组使 用短的虚电路号
基于改进粒子群算法整定的PID网络流量控制研究

Vo . O 1 l31 N
温 州 大 学 学 报 ・自 然 科 学 版
J u na fW e h n ve st ’ aur lSce e o r lo nz ouU i r iy N t a inc s
21 0 0年 2月
Fe 201 b. 0
环控 制 )近年 来 备受有 关 学者 关注 .
PD ( rp ro tga Deiaie I Po ot nI e rl r t )控制 是控 制 系统 中技 术最
方式 . 了更 好地 应用 PD 控 制 , I 控 制器 的参 数整 定 与优 化 已成为 一个 重要 的研 究课 题 L. 为 I PD 5 传 J
Deia v 控制 器,并与经典的 PD控制器进行 了比较.仿真 结果验证 ,优化后 的 PD控制 器能较好 r t e) vi I I 地控制 A M ( y crn u Ta s r d )网络流量 ,减少拥 塞,提 高网络 资源利用率. T Asnho o s rnf Mo e e
关键 词:A M 网络;粒子群算法;PD控制 T I
参数 整定 ,但 这 种算 法有 “ 早成 熟 ”和 收敛速 度 较慢 的缺 点 ,而 且 需要 设定 的参 数较 多 .粒 子 过 群算 法 P O ( at l S r O t z t n S P rce wam pi ai )源 于对 鸟群 捕食 行 为 的研 究 ,属 于进 化算 法 的-  ̄ , i mi o - 0 e
基 于 改进 粒 子 群 算 法 整 定 的 PD 网络 I
流量控 制研 究
王 环 ,郑 崇伟 ,黄 明真
( 温州 大 学物理 与 电子信 息工程 学 院 ,浙江 温州 35 3) 20 5
MSTP在城域传输网中的应用.kdh

2008年第3期多业务传输平台(MSTP)是一种城域传输网技术,将同步数字体系(SDH)传输技术、以太网、ATM、POS等多种技术进行有机融合,以SDH技术为基础,将多种业务进行汇聚并进行有效适配,实现多业务的综合接入和传送,实现SDH从纯传送网转变为传送网和业务网一体化的多业务平台。
为了满足客户层对以太网业务性能的要求,经历了频繁更新换代的MSTP将多协议标签交换(MPLS)和弹性分组环(RPR)融入其中,有效提高了以太网的业务性能和组网能力,以SDH为基础的MSTP技术在城域网应用领域扮演着十分重要的角色。
1MSTP技术特点针对城域网提出的MSTP是基于SDH的多业务传输平台,以MSTP设备进行组网带来了许多不同于以往的新特点。
1)具有严格的延时和抖动保障机制采用MSTP设备进行组网,实现以太网多业务等级,保障带宽的业务具有严格的延时和抖动保障机制。
2)实现端到端的流量控制可在保证业务质量的基础上根据用户的最初约定来公平地提供带宽接入,实现端到端的流量控制。
3)提供更小颗粒带宽业务租用除支持传统VC12/VC3/VC4业务基本颗粒外,还提供更灵活的带宽颗粒,实现100Kbits/s的带宽颗粒,运营商可以为用户提供更小颗粒带宽的业务租用。
4)提高带宽利用率可在不需要SDH层面保护的情况下实现以太网分组环小于50ms的业务保护,提高带宽利用率。
5)支持多点方式MSTP专线支持点到点、点到多点及多点到多点的方式。
6)基于SDH网络的多业务传送MSTP基于SDH网络的多业务传送,其中二层协议可以采用ATM、Ethernet或直接由SDH来承载数据。
2MSTP在城域网中的应用目前,全球对网络带宽的要求以超过“摩尔定律”300%的速度飙升。
城域网上的数据业务流量已超过了传统的语音业务,如何高效、低成本地构建能支撑大量数据业务的宽带城域网已成为众多运营商和设备制造商共同追逐的焦点之一。
现在的电信网络遵循开放系统互联(OSI)的7层机制,SDH和波分复用(WDM)划归物理层;ATM、帧中继(FR)、以太网、RPR被划归到数据链路层,即第二层,所以人们经常说的以太网交换是二层交换;MPLS比较特殊,被划归到第二层与第三层之间,属于一种隧道(Tunnel)技术,但总体上,属于第二层的成分比较多;第三层就是IP层,再往上的层次跟物理层的传送网关系不大,这里无需赘述。
运营商大模型硬件基础设施创新及RDMA流量控制技术研究

运营商大模型硬件基础设施创新及RDMA流量控制技术研究车碧瑶1 张永航2 廖怡2 唐剑2 樊小平2 赵继壮1 陆钢1(1.中国电信股份有限公司研究院,北京102209;2.中国电信天翼云科技有限公司,北京100007)摘要:从业界大模型硬件基础设施创新的主要模式出发,论述了电信运营商在该领域自主创新的路线选择考虑㊂基于实际组网环境和业务场景提出需求,设计了一种支持NO-PFC㊁交换机免配置的拥塞控制算法,使用RTT作为拥塞感知信号,控制交换机队列长度,实现低延迟㊂关键词:RDMA拥塞控制;大模型基础设施创新;运营商数据中心网络中图分类号:TP30;F124㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀文献标志码:A引用格式:车碧瑶,张永航,廖怡,等.运营商大模型硬件基础设施创新及RDMA流量控制技术研究[J].信息通信技术与政策,2024,50(2):26-32.DOI:10.12267/j.issn.2096-5931.2024.02.0050㊀引言真正认真对待软件的人应该自己制造硬件 [1]㊂经过十几年的发展,云计算已经走到了硬件创新成为行业主要驱动力的阶段㊂随着2022年底大模型时代的开启,全球头部云服务商2023年除了推出自己的各种大模型,也坚定地在大模型硬件基础设施上进行了自主研发㊂本文首先对电信运营商在大模型硬件基础设施领域自主创新的路线选择进行了分析和研究,然后重点论述了基于中国电信云网融合大科创实验装置在远程直接内存访问(Remote Direct Memory Access, RDMA)拥塞控制方面的研究进展㊂1㊀运营商大模型硬件基础设施创新路线图大模型硬件基础设施创新主要包括以下3个层面㊂一是研发人工智能(Artificial Intelligence,AI)算力芯片㊂2023年,AWS推出第二代AI芯片Trainium2,微软推出Maia100,谷歌推出TPUv5p,这些产品均选择走可对特定AI业务场景加速的专用集成电路(Application Specific Integrated Circuit,ASIC)芯片路线,而不是通用图形处理器(Graphics Processing Unit, GPU)路线㊂二是研发数据处理单元(Data Processing Unit, DPU)㊂例如,AWS的Nitro㊁谷歌的IPU㊁阿里巴巴的CIPU㊁中国电信的紫金DPU等㊂DPU设备是云服务商的根本技术所在,云主机最重要的虚拟化㊁网络通信㊁存储㊁安全功能全部下沉到此设备中;与过去智能网卡只能提供部分软件卸载不同,现在整个基础架构软件堆栈都可以在DPU上实现,中央处理器(Central Processing Unit,CPU)释放后可给最终用户售卖更多核;头部云服务商自研DPU的产品路线上均选择对能够体现自身架构独特性的功能进行强化;因功能非常复杂且需要嵌入云服务商各自独特的功能,故产业界DPU标准化程度还不高㊂三是研发运行在数据中心专用通信硬件上的实时处理逻辑㊂例如,嵌入高速网卡中的RDMA拥塞控制逻辑㊁网络负载均衡逻辑和交换机上的定制化协议处理逻辑等㊂第一㊁二层面硬件自主研发的商业价值主要体现在:一方面,自研芯片可给云服务商加持其他公司难以复制的核心竞争力,如AWS的IPU Nitro;另一方面,大幅降低云服务商采购第三方先进芯片的投资额,可以预估一旦谷歌原生多模态大模型Gemini的领先效果被业界广泛认可,则训练Gemini的谷歌张量处理器(Tensor Processing Unit,TPU)会一改以前只是自用的局面,外部客户也会从通用GPU转向更便宜的谷歌自研芯片TPU,谷歌会大大降低外购GPU成本㊂但第一㊁二层面的硬件研发需要巨大的投入和时间积累并且失败风险很高,目前的实现路径有以下几种模式㊂一是与大型芯片公司联合研发,既可解决自身能力不足问题,又提高了项目的成功率㊂例如,微软组建数百人的独立团队,与AMD联合开发代号名为Athena的AI芯片,此项目预估已投入20亿美元以上;谷歌TPU v1~v4均由博通共同设计,除了芯片设计之外,博通公司还为谷歌提供了关键的知识产权,并负责了制造㊁测试和封装新芯片等步骤,以供应谷歌的新数据中心,博通公司还与其他客户(如Facebook㊁微软和AT&T等公司)合作设计ASIC芯片㊂二是收购半导体设计公司,走独立自主的芯片设计路线㊂例如,亚马逊多年前收购Annapurna Labs,设计出的AI推理/训练和网络芯片均已规模部署㊂三是收购初创公司获得完整知识产权(Intellectual Property,IP)和人才,如微软收购DPU初创公司Fungible㊂四是组建设计团队,直接购买第三方完整IP修改后定制出自己的芯片,但除了因符合云服务商定制化需求的IP供应商很少外,商务合作模式也受限于运营商标准化采购流程比较难以操作㊂五是与已经成功流片的小体量的初创设备商合作进行上层功能定制,快速推出自己的芯片㊂六是基于现场可编程门阵列(Field Programmable Gate Array,FPGA)开展核心IP完全自主可控的产品研发,逐步积累芯片研发经验,时机成熟启动流片,最后实现低成本芯片规模化部署;微软早在2010年就启动了以FPGA路线为主的硬件研发;由于FPGA在信息通信网络设备中广泛存在,运营商在云中选择同样的FPGA路线可实现IP的复用;针对高端云网设备(高速DPU+高速交换机)极难解耦的困境,运营商端侧的FPGA设备可以实现异构厂家交换机协议的兼容,保持运营商对网络的核心掌控力㊂综上所述,结合运营商自身业务场景㊁实际需求和研发现状,对硬件基础设施创新3个层面分析如下:芯片研发耗时漫长,投资巨大,见效慢,且流片失败风险极高㊂选择上层功能定制合作模式的自研芯片见效快,但由于运营商研发人员没有真正深度参与IP设计,从长远看不利于核心竞争力的掌控㊂因此,在第三层面研发嵌入到特殊硬件中的硬件逻辑则相对周期较短,风险可控,实现独有技术架构的可能性较大㊂例如,随着业界100G以上高速网卡在需求方引导下逐步开放可编程接口,研发面向大模型智算场景运行在高速网卡上的RDMA流量控制逻辑是一种性价比较高的选择㊂RDMA流量控制技术是保证大模型训练网络性能的关键技术之一㊂RDMA流量控制技术主要包括RDMA拥塞控制与RDMA多路径负载均衡两种技术: RDMA拥塞控制技术用于调控各个计算端服务器向数据中心网络的发送数据的速度;RDMA多路径负载均衡技术的目标是让流入网络的报文公平且最大化地利用组网中所有物理链路,尽快完成流传递,避免出现一部分链路过载而另一部分链路利用率不高的情况㊂这两种技术现阶段都需要在符合特定规范的硬件中嵌入运营商自主研发的控制逻辑,才能在100G㊁200G㊁400G甚至未来800G的高速网卡和高速交换机中发挥作用㊂2023年,中国电信股份有限公司研究院与中国电信天翼云科技有限公司紧密协同在RDMA拥塞控制方面持续发力,结合运营商智算网络规模大㊁可靠性要求高等特征确定研发目标:重点关注可部署性,尽可能破除对基于优先级的流量控制(Priority-Based Flow Control,PFC)的依赖,简化交换机配置,避免繁琐的显式拥塞通知(Explicit Congestion Notification,ECN)水线调优,得到高速㊁NO-PFC㊁NO-ECN㊁Zero Queuing的拥塞控制算法㊂基于大科创装置仿真实验平台和物理实验平台,通过方法创新不断挑战性能曲线,自主研发拥塞控制技术(Chinatelecom Congestion Control,CTCC),在Incast场景㊁全闪存储场景㊁混合专家(Mixed of Expert,MoE)大模型训练场景实测结果有明显对比优势㊂2㊀RDMA流量控制技术业界研究现状2.1㊀主流技术路线随着大模型算力性能飞速提升,为实现更高的GPU计算加速比,云主机网络带宽从主流通用云计算的单端口25G演进到单端口400G,此时基于软件的网络堆栈已经无法发挥出网卡的全部性能㊂头部云服务商在高算力数据中心的各种业务中开始广泛采用RDMA技术,将网络堆栈卸载到网卡硬件中,实现数据直接传输㊂但RDMA网络在协调低延迟㊁高带宽利用率和高稳定性方面面临着挑战㊂由于网络丢包对业务(尤其是大模型训练业务)影响较大,避免网络拥塞并发挥网络全链路负载是保证算网协同场景性能的关键,云服务提供商都在此领域积极布局自主研发创新㊂数据中心网络拥塞主要由Incast流量和流量调度不均导致,为应对这两类场景,提高RDMA网络的性能和可靠性,业界采用拥塞控制算法和流量路径负载均衡两种技术路线㊂前者致力于提出高效的拥塞控制协议,感知链路拥塞状态后进行流级别控速;后者调整进入网络的各种流量路径避免拥塞,特别是解决在大模型训练业务场景下复杂的组网架构㊁通信模式极易引起的局部链路过载等问题㊂主流拥塞控制算法主要通过ECN㊁往返时延(Round-Trip Time,RTT)㊁带内网络遥测(In-band Network Telemetry,INT)等信号感知链路拥塞,并做出微秒级响应㊂当前业界最普遍采用的㊁基于ECN信号的代表性算法是微软和Mellanox联合研发的数据中心量化拥塞通知(Data Center Quantized Congestion Notification,DCQCN)算法[2],需要交换机在拥塞时标记数据包,并由接收侧反馈到发送侧网卡进行速率控制㊂基于RTT的方案依赖网卡硬件实现高精度的时延测试,不需要交换机参与,部署相对容易,谷歌提出的TIMELY和SWIFT算法[3-4]均采用该路线;基于INT信号的方案依赖链路中交换机记录的出口速率和队列深度等信息精确控制飞行流量,要求交换机支持特定格式的INT报文[5-6]㊂在流量路径负载均衡控制方面,业界主流技术路线包括动态负载均衡和多路径传输两种㊂动态负载均衡感知链路故障或拥塞状态,修改数据包头中生成负载均衡哈希(Hash)算法Key值的相关字段,实现自适应路由,腾讯提出端网协同的快速故障自愈Hash DODGING方案[7]采用该路线,网卡和交换机上采用基于Hash偏移的网络路径控制方法,感知故障后终端修改数据包头的服务类型字段值实现重新选路;多路径传输路线的主要设计思路是包级别甚至信元(Cell)级别的负载均衡实现方案,以解决传统等价多路径(Equal Cost Multipath,ECMP)算法在长/短流混合场景负载分配不均导致长尾时延的问题㊂AWS的SRD 协议[8]实现逐包转发的负载均衡技术,依赖自研芯片Nitro完成乱序重排㊂谷歌提出新型网络架构Aquila[9],定制TiN(ToR-in-NIC)芯片实现网卡和交换机硬件级的紧耦合改造,采用私有L2Cell Based协议GNet提供Cell级交换能力㊂博通公司采用分布式分散式机箱(Distributed Disaggregated Chassis,DDC)组网方案[10],提出基于网卡的全网端到端Cell改造以及仅在叶脊网络(Leaf-Spine)之间进行Cell改造的实现方案㊂目前,先进的负载均衡方案大多依赖端网协同,需要交换机和网卡提供各种定制化能力㊂由于尚未形成统一的标准,设备商基于各自独有技术提供能力支持,现阶段开放性不足,难以异厂家设备组网,在运营商现网环境中大规模应用存在阻碍㊂端到端拥塞控制算法可以在不进行业务软件㊁网络硬件设备更新的前提下优化网络拥塞和时延,是提升大规模集群网络通信性能最具成本效益的方法㊂结合现网环境和业务场景,运营商可先着手于短期内能落地㊁易部署的高效拥塞控制算法,在数据中心改造升级过程中结合实际情况探索端网协同的负载均衡策略,提出更完备的流量控制解决方案㊂2.2㊀面临挑战与优化目标DCQCN是标准网卡中默认的RDMA拥塞控制算法,只有当交换机队列累积至超过ECN水线才能感知拥塞,导致在大规模Incast场景拥塞缓解速度慢,收敛前持续触发PFC㊂此外,DCQCN算法超参数数量过多,性能与参数选择强相关,在实际部署中调参困难㊂此外,DCQCN 算法完全依赖于路径中交换机标记ECN 拥塞后对端返回给发送端的拥塞通知报文(Congestion Notification Packet ,CNP )调速,此方案有如下优劣势㊂在各个发送端,由于一台交换机下所有发送端收到的拥塞信号接近,很容易导致各个流以相同的计算公式在同等输入条件下得到的速度相近,吞吐波形图中体现为各条流曲线基本重合㊂通过大科创装置的物理实验平台,观测到DCQCN 吞吐量接近链路带宽且各条流曲线公平性非常好㊂ECN 信号无法反馈准确的交换机队列长度,拥塞情况下极易导致队列累积触发PFC ㊂如果一条链路上出现多种流量混跑,因为交换机每个端口的优先级队列只有8条,超过8个业务时必然存在多个业务共享一个交换机优先级队列的情况㊂各个业务的流量模型不同时,可能出现共享队列的流彼此影响,触发PFC 时端口暂停导致受害者流的问题㊂调速应同时考虑交换机链路和主机处理速度双重因素,但交换机的ECN 信号无法反映对端主机上的业务处理速度㊂F1图1㊀CTCC 拥塞控制算法实现框架综合考虑运营商现网设备现状与实际业务需求,从业务性能㊁网络可靠性㊁成本等方面出发,提出自主可控的CTCC 拥塞控制算法2023年设计目标:一是降低业务延迟,满足RDMA 网络高吞吐㊁低时延的需求㊂算法基于端到端的RTT 信号监控网络拥塞状态,快速做出响应,控制交换机队列长度,减少数据包在网络中的排队延迟和抖动㊂二是支持NO-PFC ㊂算法能够在NO-PFC 配置下正常工作,避免持续丢包降低网络性能,保证网络可靠性㊂三是简化部署步骤㊂工业级网络实践中往往强调可部署性,新的拥塞控制方案应当不需要对网络设备进行任何修改,主要在网卡上实现和配置,降低部署的成本和复杂度㊂3㊀中国电信自研RDMA 拥塞控制算法交换机队列长度是网络拥塞状态的直接反应,维持稳定的低交换机队列能够同时实现低延迟和高吞吐㊂排除软件侧时延抖动,RTT 大小主要受数据包经过交换机的排队延迟影响,能够快速反应网络拥塞状态的变化㊂随着硬件性能的提升,网卡能够提供更高的时钟精度和更准确的时间戳功能㊂这使得通过网卡进行高精度延迟测量成为可能,为基于RTT 信号的数据中心RDMA 拥塞控制协议的设计与实现提供了前提条件㊂针对DCQCN 基于ECN 信号调速导致队列累积㊁对网络拥塞反应滞后㊁PFC 依赖程度较高等问题,考虑使用RTT 信号进行更细粒度的调速,提出一种端到端的㊁基于速率(Rate-Based )的拥塞控制协议,可基于现有商用网卡或DPU 的可编程拥塞控制(Programmable Congestion Control ,PCC )功能实现㊂与现有算法相比主要有以下两点创新:依赖RTT 信号进行Rate-Based 调速,实现交换机免配置,能够有效维持交换机低队列,降低延迟;以支持NO-PFC 配置为出发点,设置收到否定应答(Negative ACKnowledge ,NACK )报文时快速降速,减少丢包带来的性能损失㊂3.1㊀算法设计如图1所示,CTCC 算法使用RTT 信号体现网络拥塞的变化趋势,设置目标RTT ,当实测RTT 高于目标RTT 时表明网络发生拥塞,控制发送端网卡降速;实测RTT 低于目标RTT 时表明网络畅通,可试探性增速㊂此外,网卡收到NACK 信号快速降速,避免持续丢包造成网络性能损失㊂CTCC算法主要在网卡中实现,采用无需修改RDMA协议或软件协议栈的RTT探测方式,发送端网卡在拥塞控制算法请求RTT探测时主动发出探测包,收到RTT响应报文或NACK基于加性增乘性减(Additive Increase Multiplicative Decrease,AIMD)策略调速㊂接收端网卡负责返回应答(Acknowledgement, ACK)报文和NACK报文,收到RTT探测包时记录相关时间戳,生成RTT响应报文返回发送方㊂为避免反向链路拥塞增加RTT信号反馈延迟,设置RTT响应报文高优先级㊂该算法无需交换机参与,能够降低部署成本,更好地支持动态环境下的网络调整和扩/缩容操作㊂CTCC算法难点描述:典型场景如7000个发送方往一个接收方打流,约束条件为7000个发送方彼此完全未知,每个发送方只能通过往接收方发送探测帧获得微秒级延迟后进行发送速率控制;目标为7000个发送方要速率快速收敛达到一致以保证公平性,同时避免总发送速率超过接收方链路带宽,避免交换机队列太满产生PFC暂停帧,瓶颈链路吞吐要尽量逼近链路带宽㊂此外,在网络动态变化或复杂业务场景下,如打流期间对相同接收方动态新增1000个或动态减少1000个发送方㊁发送方物理链路混跑有多种业务流量㊁跨多个交换机㊁大小业务流混跑等场景,依然要满足上述目标㊂3.2㊀算法优势分析纯RTT方案无需交换机配合,基于现有商用网卡实现,减少替换和运维成本㊂CTCC算法仅基于RTT信号进行拥塞控制,无需交换机支持可编程等高级功能,且基于商用网卡提供的PCC框架实现,无需定制化硬件㊂收到NACK快速降速,支持NO-PFC场景㊂算法设置网卡收到NACK后直接将速率减半,在关闭PFC的情况下也能应对大规模突发场景,快速降速大幅减少丢包数量,降低丢包带来的性能损失㊂参数数量少,降低调优难度㊂算法不依赖PFC和ECN,免去配置交换机水线的繁琐步骤;且网卡实现简单,超参数数量少,极大地降低了算法调优难度,减少部署和运维工作量㊂3.3㊀控制器设计在算法研发测试过程中,随着测试环境节点数的增加,算法烧写㊁网卡和交换机配置等准备工作量剧增,且极易出现不同节点算法配置不一致等问题㊂为验证算法可商用需要进行覆盖多种基础场景的上千项测试,测试结果的统一记录和汇总是结果分析和算法优化的基础㊂为解决该问题,自主研发出CTCC集中控制器,提供图形化操作界面,实现多设备算法镜像一键烧写㊁动态超参数下发㊁算法类型切换㊁自动化测试㊁测试结果实时监控㊁试验结果跟踪等一系列功能,大大降低了研发测试的工作量和复杂性,保证测试结果可靠㊂其中,超精度网络指标采集及监控是CTCC控制器的重要组成部分和一大技术难点㊂拥塞控制技术在研发过程中往往需要观测流量变化瞬间的网络性能的变化,对指标采集精度提出非常高的要求㊂CTCC控制器采用网络遥感技术,通过推模式(Push Mode)周期性地主动向采集器上送设备的接口流量统计㊁CPU 或内存数据等信息,相对传统拉模式(Pull Mode)的一问一答式交互,可提供更实时㊁更高速的数据采集功能㊂之后,经过Protocol Buffer编码,实时上报给采集器进行接收和存储㊂通过上述方案,可实现亚秒级以上的监控精度㊂3.4㊀算法性能评估利用商用网卡可编程架构实现自研算法,基于大科创装置的物理实验台搭建8台服务器通过1台交换机连接的网络环境,通过性能测试(Perftest)命令进行打流测试验证自研算法优势㊂测试使用的网卡支持per-QP和per-IP两种调速模式,per-QP模式下为每个连接(QueuePair,QP)单独调速,per-IP模式为相同目的互联网协议(Internet Protocol,IP)地址的QP分配相同的速率㊂考虑到同一目的IP的流可能通过负载均衡分配到不同的链路上,拥塞状态会存在差异,设置相同发送速率并不合理㊂在测试中,采用per-QP模式对每个QP进行细粒度调速,根据链路实际拥塞情况调整速率㊂对于DCQCN算法,测试时开启PFC,相关参数使用网卡和交换机推荐的默认值㊂对于CTCC算法,测试时关闭网卡和交换机的PFC功能㊂CTCC算法维持交换机低队列避免丢包:将7台服务器作为发送方,另外1台作为接收方,控制7个发送方同时起1000个QP向接收方打流,对比DCQCN 和CTCC算法在大规模Incast拥塞场景的性能㊂测试结果显示DCQCN算法拥塞控制基本失效,始终维持10MB以上的交换机队列,打流过程中持续触发PFC,易造成PFC风暴㊁死锁等问题,从而影响网络性能㊂CTCC算法最高交换机队列仅为1.22MB,且在没有开启PFC的状态下无丢包㊂DCQCN算法Perftest测得的发送端总和带宽为97.98Gbit/s,瓶颈链路带宽利用率为95.4%㊂CTCC算法测得的发送端总和带宽为90.70Gbit/s,瓶颈链路带宽利用率为91.5%㊂CTCC算法实现低时延:为验证自研算法在时延方面存在的优势,在上述测试场景中添加同方向的小流,测试小流完成的时延㊂由于DCQCN算法维持高队列,小流延迟达到1154.77μs,而CTCC算法能够有效维持低交换机队列,小流延迟平均值为20.31μs,与DCQCN相比降低99%㊂以上两项测试结果验证了CTCC能够在保证高吞吐的同时显著降低时延㊂与DCQCN相比,大规模Incast场景CTCC算法交换机平均队列和小流时延降低90%以上,在DCQCN持续触发PFC的情况下实现稳定状态无丢包㊂尽管控制交换机低队列易导致吞吐损失,且RTT探测包会占用少量带宽,CTCC仍保证了90%以上的带宽利用率,与DCQCN相比吞吐损失低于5%㊂4㊀结束语本文总结了业内RDMA拥塞控制算法研究趋势,结合运营商实际组网环境和业务场景需求提出研发目标,设计了一种交换机免配置的拥塞控制算法,基于大科创装置验证了其在物理环境中的性能优势㊂随着自主研发DPU㊁交换机技术的不断突破,产业各方会持续开展RDMA关键技术攻关,加强面向大模型训练场景数据中心网络极致负载分担㊁RDMA拥塞控制算法等核心技术研究,基于新的硬件设备设计结合多种信号的高效拥塞控制算法,并规划拥塞控制与负载均衡结合的全套解决方案,推动产业链的成熟与落地㊂参考文献[1]张佳欣.德媒:芯片之争,中国绝非无能为力[N].科技日报,2021-04-09(004).[2]ZHU Y,ZHANG M,ERAN H,et al.Congestion controlfor large-scale RDMA deployments[J].ACM SIGCOMM Computer Communication Review,2015,45(5):523-536.DOI:10.1145/2829988.2787484.[3]MITTAL R,LAM V T,DUKKIPATI N,et al.TIMELY:RTT-based congestion control for the datacenter [C]//Proceedings of the2015ACM Conference onSpecial Interest Group on Data Communication.New York:ACM,2015:537-550.DOI:10.1145/2785956. 2787510.[4]KUMAR G,DUKKIPATI N,JANG K,et al.Swift:delay is simple and effective for congestion control in the datacenter[C]//SIGCOMM 20:Annual Conference of the ACM Special Interest Group on Data Communication on the Applications,Technologies,Architectures,and Protocols for Computer Communication.New York: ACM,2020:514-528.DOI:10.1145/3387514.3406591.[5]LI Y,MIAO R,LIU H,et al.HPCC:high precisioncongestion control[C]//Proceedings of the ACM Special Interest Group on Data Communication.New York: ACM,2019:44-58.DOI:10.1145/3341302.3342085.[6]BASAT R B,RAMANATHAN S,LI Y,et al.PINT:probabilistic in-band network telemetry[C].Proceedings of the Annual Conference of the ACM Special Interest Group on Data Communication.New York:ACM,2020: 662-680.[7]何春志.腾讯星脉高性能计算网络:为AI大模型构筑网络底座[EB/OL].(2023-03-06)[2023-12-20].https:///developer/article/2234084.[8]SHALEV L,AYOUB H,BSHARA N,et al.A cloud-optimized transport protocol for elastic and scalable HPC [J].IEEE Computer Society,2020(6):67-73.DOI: 10.1109/MM.2020.3016891.[9]GIBSON D,HARIHARAN H,LANCE E,et al.Aquila:a unified,low-latency fabric for datacenter networks [C]//Proceedings of19th USENIX Symposium onNetworked Systems Design and Implementation.Seattle: NSDI,2022:1249-1266.[10]WU X G.Reducing job completion time in AI/ML clusters[EB/OL].(2022-06-09)[2023-12-20].https://www./blog/reducing-job-completion-time-in-ai-ml-clusters.作者简介:车碧瑶㊀中国电信股份有限公司研究院云网运营技术研究所助理工程师,主要从事RDMA高性能网络方向的研究工作张永航㊀中国电信天翼云科技有限公司研发专家,长期从事RDMA高性能网络的设计和研究工作廖怡㊀㊀中国电信天翼云科技有限公司研发专家,主要从事RDMA网络架构㊁协议㊁拥塞控制算法㊁智能网卡和DPU相关的研究工作唐剑㊀㊀中国电信天翼云科技有限公司研发工程师,主要从事高性能网络方向的研发工作樊小平㊀中国电信天翼云科技有限公司资深专家,主要从事高性能网络方向的研究工作赵继壮㊀中国电信股份有限公司研究院云网运营技术研究所云计算研究中心总监,高级工程师,主要从事云计算和高性能计算的软硬件优化等方面的研究工作陆钢㊀㊀中国电信股份有限公司研究院云网运营技术研究所副所长,教授级高级工程师,长期从事云计算技术研发与应用方面的研究工作Research on hardware infrastructure innovation for large language model of telecom operators and RDMA traffic control technologyCHE Biyao1,ZHANG Yonghang2,LIAO Yi2,TANG Jian2,FAN Xiaoping2,ZHAO Jizhuang1,LU Gang1(1.China Telecom Corporation Limited Research Institute,Beijing102209,China;2.China Telecom Cloud Technology Co.,Ltd.,Beijing100007,China)Abstract:Based on the main modes of hardware infrastructure innovation for large language model in the industry,this paper explores the considerations for route selection by telecom operators in this field.This paper presents a congestion control algorithm that supports NO-PFC and does not require the configuration of switches.The algorithm is designed with considerations for the actual networking environment and service scenario.To achieve low latency,the Round-Trip Time(RTT)is employed as the congestion sensing signal,enabling effective regulation of the switch queue length. Keywords:RDMA congestion control;hardware infrastructure innovation for large language model;telecom operator data center network(收稿日期:2023-12-26)。
以太网交换芯片

以太网交换芯片以太网交换芯片是一种用于构建局域网(LAN)的关键设备,其用于在网络中传输数据,并实现网络中各个节点之间的通信。
以下是关于以太网交换芯片的一些基本知识。
一、以太网交换芯片的定义和作用以太网交换芯片是一种基于以太网标准的网络交换设备,用于处理和分配网络数据,将数据从一个端口转发到另一个端口,实现节点之间的直接通信。
其作用是在局域网中提供高速、可靠和非阻塞的网络连接。
二、以太网交换芯片的工作原理1. 网络数据的转发以太网交换芯片通过学习每个连接的设备的MAC地址,将数据发送到目标设备,而不是发送到整个网络中的所有设备。
因此,数据转发是根据目标设备的地址进行选择性转发的。
2. 非阻塞转发以太网交换芯片具备高速转发能力,可以同时处理多个数据包,即不会因为网络中的传输量增加而产生阻塞。
这使得它能够提供更可靠和高效的网络连接。
3. VLAN支持以太网交换芯片还可以支持虚拟局域网(VLAN)的实现。
VLAN可以将网络划分为多个逻辑子网,提供更好的网络管理和资源分配。
三、以太网交换芯片的特点1. 高性能以太网交换芯片能够提供高速的数据传输和转发能力,支持大容量的网络流量和多任务处理。
2. 可扩展性以太网交换芯片具备可扩展性,可以与其他网络设备进行连接,构建更大规模的网络。
3. 灵活性以太网交换芯片可以根据网络需求进行配置和管理,提供具有灵活性的网络设计和部署。
4. 低成本以太网交换芯片相对于其他网络设备和技术来说,其成本较低。
这使得以太网交换芯片成为广泛使用的网络设备。
四、以太网交换芯片的应用领域以太网交换芯片主要应用于局域网中,例如企业内部网络、学校网络、医院网络等。
其在这些环境中能够提供高速、可靠和安全的网络连接,并支持各种网络应用和服务。
此外,以太网交换芯片也被广泛应用于数据中心网络和云计算中心网络,用于构建高性能和可扩展的网络基础设施。
五、未来趋势随着物联网的发展和云计算的普及,对于大规模、高速和可靠的网络连接的需求将进一步增加。