亚洲一区二区三区xxx视频,亚洲欧美中文字幕,美女视频黄免费的亚洲男人天堂

騰訊云首次披露自研星脈高性能計算網絡

2023-06-26 20:45:57來源:搜狐數碼

AIGC的爆發除了帶來算力上的挑戰，對網絡的要求也達到了前所未有的高度。6月26日，騰訊云首次對外完整披露自研星脈高性能計算網絡：星脈網絡具備業界最高的3.2T通信帶寬，能提升40%的GPU利用率，節省30%~60%的模型訓練成本，為AI大模型帶來10倍通信性能提升。基于騰訊云新一代算力集群HCC，可支持10萬卡的超大計算規模。

(資料圖)

AIGC的火爆帶來AI大模型參數量從億級到萬億級的飆升。為支撐海量數據的大規模訓練，大量服務器通過高速網絡組成算力集群，互聯互通，共同完成訓練任務。

大集群不等于大算力，相反，GPU集群越大，產生的額外通信損耗越多。大帶寬、高利用率、信息無損，是AI大模型時代網絡面臨的核心挑戰。

千億、萬億參數規模的大模型，訓練過程中通信占比最大可達50%，傳統低速網絡的帶寬遠遠無法支撐。同時，傳統網絡協議容易導致網絡擁塞、高延時和丟包，而僅0.1%的網絡丟包就可能導致50%的算力損失，最終造成算力資源的嚴重浪費。

基于全面自研能力，騰訊云在交換機、通信協議、通信庫以及運營系統等方面，進行了軟硬一體的升級和創新，率先推出業界領先的大模型專屬高性能網絡——星脈網絡。

在硬件方面，星脈網絡基于騰訊的網絡研發平臺，采用全自研設備構建互聯底座，實現自動化部署和配置。

在軟件方面，騰訊云自研的TiTa網絡協議，采用先進的擁塞控制和管理技術，能夠實時監測并調整網絡擁塞，滿足大量服務器節點之間的通信需求，確保數據交換流暢、延時低，實現高負載下的零丟包，使集群通信效率達90%以上。

此外，騰訊云還為星脈網絡設計了高性能集合通信庫TCCL，融入定制化解決方案，使系統實現了微秒級感知網絡質量。結合動態調度機制合理分配通信通道，可以避免因網絡問題導致的訓練中斷等問題，讓通信時延降低40%。

網絡的可用性，也決定了整個集群的計算穩定性。為確保星脈網絡的高可用，騰訊云自研了端到端的全棧網絡運營系統，通過端網立體化監控與智能定位系統，將端網問題自動定界分析，讓整體故障的排查時間由天級降低至分鐘級。同時，大模型訓練系統的整體部署時間從19天縮減至4.5天。

文/北京青年報記者溫婧

編輯/樊宏偉

責任編輯：

標簽：

精品一区二区三区四区电影_亚洲人在线视频_久久久91精品_日本欧美黄色

騰訊云首次披露自研星脈高性能計算網絡