首頁> 資訊 > > 正文

            騰訊云首次披露自研星脈高性能計算網絡

            2023-06-26 20:45:57來源:搜狐數碼

            AIGC的爆發除了帶來算力上的挑戰,對網絡的要求也達到了前所未有的高度。6月26日,騰訊云首次對外完整披露自研星脈高性能計算網絡:星脈網絡具備業界最高的3.2T通信帶寬,能提升40%的GPU利用率,節省30%~60%的模型訓練成本,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡的超大計算規模。


            (資料圖)

            AIGC的火爆帶來AI大模型參數量從億級到萬億級的飆升。為支撐海量數據的大規模訓練,大量服務器通過高速網絡組成算力集群,互聯互通,共同完成訓練任務。

            大集群不等于大算力,相反,GPU集群越大,產生的額外通信損耗越多。大帶寬、高利用率、信息無損,是AI大模型時代網絡面臨的核心挑戰。

            千億、萬億參數規模的大模型,訓練過程中通信占比最大可達50%,傳統低速網絡的帶寬遠遠無法支撐。同時,傳統網絡協議容易導致網絡擁塞、高延時和丟包,而僅0.1%的網絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。

            基于全面自研能力,騰訊云在交換機、通信協議、通信庫以及運營系統等方面,進行了軟硬一體的升級和創新,率先推出業界領先的大模型專屬高性能網絡——星脈網絡。

            在硬件方面,星脈網絡基于騰訊的網絡研發平臺,采用全自研設備構建互聯底座,實現自動化部署和配置。

            在軟件方面,騰訊云自研的TiTa網絡協議,采用先進的擁塞控制和管理技術,能夠實時監測并調整網絡擁塞,滿足大量服務器節點之間的通信需求,確保數據交換流暢、延時低,實現高負載下的零丟包,使集群通信效率達90%以上。

            此外,騰訊云還為星脈網絡設計了高性能集合通信庫TCCL,融入定制化解決方案,使系統實現了微秒級感知網絡質量。結合動態調度機制合理分配通信通道,可以避免因網絡問題導致的訓練中斷等問題,讓通信時延降低40%。

            網絡的可用性,也決定了整個集群的計算穩定性。為確保星脈網絡的高可用,騰訊云自研了端到端的全棧網絡運營系統,通過端網立體化監控與智能定位系統,將端網問題自動定界分析,讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓練系統的整體部署時間從19天縮減至4.5天。

            文/北京青年報記者 溫婧

            編輯/樊宏偉

            責任編輯:

            標簽:

            上一篇:【世界時快訊】曾夢想仗劍走天涯看一看世界的繁華什么意思_曾夢想仗劍走天涯看一看世界的繁華
            下一篇:最后一頁