近日,聯想萬全異構智算研發團隊的論文《RNL: RoCE Network Loadbalance with AI Traffic Characteristics and Link Congestion Awareness》被IEEE CyberSciTech 2025大會成功接收,并即將收錄于IEEE DL和EI Indexed。
IEEE是全球最大的專業技術組織,其中CyberSciTech已成為衡量技術創新與學術價值的重要標尺。作為聚焦人工智能、計算機與網絡技術的中高級國際會議,IEEE CyberSciTech每年吸引全球上千名頂尖專家學者參與。論文錄用率嚴苛,僅有三十余篇成果能通過前沿性與突破性雙重評審,被收錄至IEEE Xplore和EI數據庫。這些論文大多在業界被廣泛引用,具有深遠的國際影響力。
此次聯想被收錄的論文提出了一項創新性的RNL技術,通過多維感知、路徑負載均衡優化與增量流量遷移,有效解決了AI訓練與推理場景中RoCE網絡負載均衡的長期難題。這一成果不僅獲得了國際學術界的認可,更標志著聯想在AI異構計算網絡領域的技術實力步入全球前沿。
?
隨著大語言模型參數規模爆發式增長,AI集群規模不斷擴大,RoCEv2(RDMA over Converged Ethernet v2)已成為AI網絡的主流協議。然而,AI訓練與推理基于通信原語(如all-gather、all-reduce)進行數據傳輸,這種模式容易導致網絡流量呈現“低熵、大象流”特征,極易引發負載不均和鏈路擁塞,嚴重制約帶寬利用率與整體性能。
面對AI業務對低延遲、高吞吐的嚴苛需求,傳統廠商主要通過專用硬件交換設備感知連接關系,實現負載均衡優化,但方案高度依賴自身硬件生態,成本高昂且靈活性不足。因此,行業亟需一種通用、高效且經濟的解決方案。
針對上述痛點,聯想萬全異構智算研發團隊創新性提出的RNL技術,可以構建“多維感知+路徑負載均衡+增量遷移”閉環體系,兼具算法創新與實用價值:
首先是多維感知機制,可以實時感知網絡拓撲結構、AI任務網絡需求及RoCE鏈路負載狀態,為動態調度提供數據基礎。
其次是路徑負載均衡優化,通過虛擬-物理網絡映射與路徑評分算法,智能選擇最優數據傳輸路徑,最大化帶寬利用率。
第三是增量流量遷移,該技術采用增量遷移策略,在鏈路流量調整時避免瞬時延遲,確保業務連續性。
與傳統方案不同,RNL基于通用RoCE交換機實現AI網絡優化,無需綁定專用硬件,顯著降低了部署成本。其核心創新在于融合AI業務通信帶寬與時延評估算法,結合多維鏈路擁塞評估機制,實現對AI負載的精準調度與網絡路徑的智能編排。
在實測環境中,RNL技術不僅展現出高可靠性,更體現出在提升AI業務效率與降低總擁有成本(TCO)方面的雙重優勢。在性能提升方面,集合通信原語性能提升50%,帶寬利用率達85%,負載均衡離散度降低90%;AI推理場景下,TPS(每秒處理事務數)提升26%,TTFT(首字節時間)時長減少 30%,TPOT(每輸出令牌時間)時長減少 22%;整體部署成本降低60%,為AI集群的規模化落地提供了經濟高效的網絡基礎。
RNL技術巧妙實現了成本與靈活性的雙贏。通過純算法創新,該技術在通用RoCE交換機上實現了同等甚至更優的性能表現。這一突破不僅打破了傳統廠商的技術壟斷,更為用戶提供了高性價比、易部署的替代選擇,助力企業在AI競賽中快速構建競爭優勢。
目前,RNL技術已納入聯想萬全異構智算平臺的落地規劃,這將進一步鞏固聯想萬全異構智算平臺在AI異構計算市場的技術壁壘,提升其行業影響力與核心競爭力。此前,聯想萬全異構智算平臺已在教育科研、工業/制造、云計算、大數據等領域打造一系列標桿案例:例如,在行業級&科研級智算場景,聯想與北大深度配合,共同打造了重大科技基礎設施算力平臺,減少運維成本50%,GPU資源利用率從70%提升至90%;在制造業,聯想與吉利共同打造了標桿級的智能算力集群,實現企業混合算力場景下的成本優化。
未來,聯想計劃將RNL技術擴展至高性能存儲、HPC等場景,并引入深度學習算法優化擁塞預測能力。同時,聯想將在千卡、萬卡節點的大型AI集群中驗證其綜合性能,持續推動AI網絡技術的創新與迭代。
此次聯想萬全異構智算研發團隊的創新成果,不僅是其科研實力的集中展現,更是聯想在前沿技術領域不斷追求、不斷突破的生動寫照。在AI大模型邁向萬卡級集群的背景下,聯想將繼續以技術創新為核心,持續打造穩定、高效的智算引擎,助力AI技術的規模化落地,推動AI算力普惠新時代。(圖片由聯想(北京)有限公司授權發布)
以上內容為推廣信息,所涉及內容不代表本網觀點,不構成投資建議、消費建議。