
近日,联想万全异构智算研发团队的论文《RNL: RoCE Network Loadbalance with AI Traffic Characteristics and Link Congestion Awareness》被 IEEE CyberSciTech 2025 大会成功接收。
近日,联想万全异构智算研发团队的论文《RNL: RoCE Network Loadbalance with AI Traffic Characteristics and Link Congestion Awareness》被 IEEE CyberSciTech 2025 大会成功接收,并即将收录于 IEEE DL 和 EI Indexed。
IEEE 是全球最大的专业技术组织,其中 CyberSciTech 已成为衡量技术创新与学术价值的重要标尺。作为聚焦人工智能、计算机与网络技术的中高级国际会议,IEEE CyberSciTech 每年吸引全球上千名顶尖专家学者参与。论文录用率严苛,仅有三十余篇成果能通过前沿性与突破性双重评审,被收录至 IEEE Xplore 和 EI 数据库。这些论文大多在业界被广泛引用,具有深远的国际影响力。
此次联想被收录的论文提出了一项创新性的 RNL 技术,通过多维感知、路径负载均衡优化与增量流量迁移,有效解决了 AI 训练与推理场景中 RoCE 网络负载均衡的长期难题。这一成果不仅获得了国际学术界的认可,更标志着联想在 AI 异构计算网络领域的技术实力步入全球前沿。
随着大语言模型参数规模爆发式增长,AI 集群规模不断扩大,RoCEv2(RDMA over Converged Ethernet v2)已成为 AI 网络的主流协议。然而,AI 训练与推理基于通信原语(如 all-gather、all-reduce)进行数据传输,这种模式容易导致网络流量呈现「低熵、大象流」特征,极易引发负载不均和链路拥塞,严重制约带宽利用率与整体性能。
面对 AI 业务对低延迟、高吞吐的严苛需求,传统厂商主要通过专用硬件交换设备感知连接关系,实现负载均衡优化,但方案高度依赖自身硬件生态,成本高昂且灵活性不足。因此,行业亟需一种通用、高效且经济的解决方案。
针对上述痛点,联想万全异构智算研发团队创新性提出的 RNL 技术,可以构建「多维感知+路径负载均衡+增量迁移」闭环体系,兼具算法创新与实用价值:
首先是多维感知机制,可以实时感知网络拓扑结构、AI 任务网络需求及 RoCE 链路负载状态,为动态调度提供数据基础。
其次是路径负载均衡优化,通过虚拟-物理网络映射与路径评分算法,智能选择最优数据传输路径,最大化带宽利用率。
第三是增量流量迁移,该技术采用增量迁移策略,在链路流量调整时避免瞬时延迟,确保业务连续性。
与传统方案不同,RNL 基于通用 RoCE 交换机实现 AI 网络优化,无需绑定专用硬件,显著降低了部署成本。其核心创新在于融合 AI 业务通信带宽与时延评估算法,结合多维链路拥塞评估机制,实现对 AI 负载的精准调度与网络路径的智能编排。
在实测环境中,RNL 技术不仅展现出高可靠性,更体现出在提升 AI 业务效率与降低总拥有成本(TCO)方面的双重优势。在性能提升方面,集合通信原语性能提升 50%,带宽利用率达 85%,负载均衡离散度降低 90%;AI 推理场景下,TPS(每秒处理事务数)提升 26%,TTFT(首字节时间)时长减少 30%,TPOT(每输出令牌时间)时长减少 22%;整体部署成本降低 60%,为 AI 集群的规模化落地提供了经济高效的网络基础。
RNL 技术巧妙实现了成本与灵活性的双赢。通过纯算法创新,该技术在通用 RoCE 交换机上实现了同等甚至更优的性能表现。这一突破不仅打破了传统厂商的技术垄断,更为用户提供了高性价比、易部署的替代选择,助力企业在 AI 竞赛中快速构建竞争优势。
目前,RNL 技术已纳入联想万全异构智算平台的落地规划,这将进一步巩固联想万全异构智算平台在 AI 异构计算市场的技术壁垒,提升其行业影响力与核心竞争力。此前,联想万全异构智算平台已在教育科研、工业/制造、云计算、大数据等领域打造一系列标杆案例:例如,在行业级&科研级智算场景,联想与北大深度配合,共同打造了重大科技基础设施算力平台,减少运维成本 50%,GPU 资源利用率从 70% 提升至 90%;在制造业,联想与吉利共同打造了标杆级的智能算力集群,实现企业混合算力场景下的成本优化。
未来,联想计划将 RNL 技术扩展至高性能存储、HPC 等场景,并引入深度学习算法优化拥塞预测能力。同时,联想将在千卡、万卡节点的大型 AI 集群中验证其综合性能,持续推动 AI 网络技术的创新与迭代。
此次联想万全异构智算研发团队的创新成果,不仅是其科研实力的集中展现,更是联想在前沿技术领域不断追求、不断突破的生动写照。在 AI 大模型迈向万卡级集群的背景下,联想将继续以技术创新为核心,持续打造稳定、高效的智算引擎,助力 AI 技术的规模化落地,推动 AI 算力普惠新时代。



