騰訊云首次披露自研星脈高性能計算網絡
AIGC的爆發除了帶來算力上的挑戰,對網絡的要求也達到了前所未有的高度。6月26日,騰訊云首次對外完整披露自研星脈高性能計算網絡:星脈網絡具備業界最高的3.2T通信帶寬,能提升40%的GPU利用率,節省30%~60%的模型訓練成本,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡的超大計算規模。
(資料圖)
AIGC的火爆帶來AI大模型參數量從億級到萬億級的飆升。為支撐海量數據的大規模訓練,大量服務器通過高速網絡組成算力集群,互聯互通,共同完成訓練任務。
大集群不等于大算力,相反,GPU集群越大,產生的額外通信損耗越多。大帶寬、高利用率、信息無損,是AI大模型時代網絡面臨的核心挑戰。
千億、萬億參數規模的大模型,訓練過程中通信占比最大可達50%,傳統低速網絡的帶寬遠遠無法支撐。同時,傳統網絡協議容易導致網絡擁塞、高延時和丟包,而僅0.1%的網絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。
基于全面自研能力,騰訊云在交換機、通信協議、通信庫以及運營系統等方面,進行了軟硬一體的升級和創新,率先推出業界領先的大模型專屬高性能網絡——星脈網絡。
在硬件方面,星脈網絡基于騰訊的網絡研發平臺,采用全自研設備構建互聯底座,實現自動化部署和配置。
在軟件方面,騰訊云自研的TiTa網絡協議,采用先進的擁塞控制和管理技術,能夠實時監測并調整網絡擁塞,滿足大量服務器節點之間的通信需求,確保數據交換流暢、延時低,實現高負載下的零丟包,使集群通信效率達90%以上。
此外,騰訊云還為星脈網絡設計了高性能集合通信庫TCCL,融入定制化解決方案,使系統實現了微秒級感知網絡質量。結合動態調度機制合理分配通信通道,可以避免因網絡問題導致的訓練中斷等問題,讓通信時延降低40%。
網絡的可用性,也決定了整個集群的計算穩定性。為確保星脈網絡的高可用,騰訊云自研了端到端的全棧網絡運營系統,通過端網立體化監控與智能定位系統,將端網問題自動定界分析,讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓練系統的整體部署時間從19天縮減至4.5天。
文/北京青年報記者 溫婧
編輯/樊宏偉
責任編輯:
標簽:
- 01 14.99萬起!深藍S7上市,這回壓力給到了誰?-焦點簡訊
- 02 后防撞梁質量最好的十大車型,雷克薩斯排第一,特斯拉兩款車前十|環球今頭條
- 03 環球關注:廣汽本田純正用品“範FUN+”品牌發布
- 04 熱點評!月底交付,“卷王”深藍S7正式上市14.99萬元起售
- 05 全球百事通!與26年前的塞車終于“和解” 梁家輝代言MAZDA CX-50行也
- 06 風光580和風神ax7怎么樣及馬自達cx5相比柯珞克多少錢
- 07 江華:放生貓頭鷹-全球速看料
- 08 山東鄄城三名少年溺水,村民跳水救人,一人獲救兩人不幸遇難
- 09 世界快訊:土耳其里拉兌美元跌幅擴大至3%,續創歷史新低
- 010 宿松縣光榮初中: 重視離校安全教育 護航學生暑期生活