(騰訊雲副總裁王亞晨)
随着大模型的火熱持续迭代,AI基礎設施愈發成爲雲廠商的核心競爭力之一。
7月1日,騰訊宣布其自研星脈高性能計算網絡全面升級,升級後的星脈網絡2.0搭載全自研的網絡設備與AI算力網卡,支持超10萬卡大規模組網,網絡通信效率比上一代提升60%,讓大模型訓練效率提升20%。這意味著,如果原來訓練中某個計算結果的同步需要花100秒完成,現在只需要40秒;原來需要花50天訓練的模型,只需要花40天。
AI大模型就像是一场F1睙狳,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”,共同让“腾讯云高性能計算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最 大的算力性能,助力客户在AI大模型的竞争中领先。
AIGC的火熱推动着AI大模型参数量从亿级到万亿级的飙升。模型参数规模与架构升级对底层网络网络也提出了新的要求。
爲支撐AIGC中海量數據的大規模訓練,大量服務器通過高速網絡組成大規模算力集群,互聯互通,共同完成訓練任務。
然而,集群规模越大,所产生的通信损耗会越高;同时,AI训练的通信模式,与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型訓練过程中通信占比最 大可达50%。同时,分布式计算模式也意味着,单点的故障将导致整个集群不可用,因此在故障的时候需要快速定位与恢复训练,把损失降到最 低。
如何在大規模組網前提下,提升通信效率、降低通信占比,讓訓練穩定高可用,進而提升GPU的利用率和模型訓練效率,是AI網絡要解決的核心問題。
数据显示,星脉网络2.0可实现大模型訓練过程中,网络通信占比(通信时间占总体时间比例)低至6%,远低于10%的业界水平;通信负载率达到90%,与IB网络(Infiniband)持平,相较于标准以太网提升60%。整体能力处于业界顶 尖水平。
四大組件全面升級,助力AI訓練提速
騰訊自研星脈網絡是一套軟硬協同的高性能網絡體系,包括自研網絡設備、通信協議、通信庫以及運營系統四大關鍵組件,每個組件均采用了業界首創的騰訊核心技術。
(騰訊雲副總裁王亞晨)
硬件方面,腾讯星脉网络是业界首 个采用全自研网络设备的高性能网络,包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T,同时在业界率先引入400G硅光模块,速率翻倍,让网络延迟降低40%,支持超10万卡大规模组网。
值得注意的是,星脉网络2.0支持搭载腾讯自研的全新算力网卡,这是公共云业内首 款为AI训练设计的网卡,网卡采用最 新一代 FPGA 芯片,整卡带宽可达400Gbps,具备业界最 高的3.2T整机通信带宽。该自研算力網卡運行著新一代騰訊自研通信協議TiTa,並搭載了騰訊獨有的主動擁塞控制算法。
相比起上一代,TiTa協議2.0從部署在交換機轉移到了端側的網卡上,從原來的被動擁塞算法升級到了更爲智能的主動擁塞控制算法,可主動調整數據包發送速率,從而避免網絡擁堵;並通過擁堵智能調度,實現網絡擁塞快速自愈。這讓混合專家(MoE)模型訓練下網絡通信性能相比1.0提升30%,帶來訓練效率10%的提升。
專爲星脈網絡設計的高性能集合通信庫TCCL,也進行了升級。通過創新的NVLINK+NET異構並行通信、Auto-Tune?Network?Expert自適應算法等通信庫的升級,在MoE模型訓練下,給星脈網絡帶來了30%的通信效率提升,讓模型訓練效率提升10%。
TCCL 对外的接口跟原生通信库接口完全一致的,主流AI大模型客户不需要额外适配,只需要替换通信库就可以发挥星脉的能力。
通信协议TiTa与通信库TCCL的升级带来的效果叠加,让星脉网络的通信效率提升60%,MoE大模型訓練效率提升20%。
網絡的故障或任何單點的故障,將導致整個集群不可用,讓模型訓練暫停。因此,網絡的高可用、穩定性也極爲重要。爲確保星脈網絡的高可用,騰訊雲自研了端到端的全棧網絡運營系統,這也是星脈網絡第四大關鍵組件。
运营系统2.0新增腾讯独 家技术灵境仿真平台,从原来仅能定位网络问题,到可定位GPU节点问题,实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控,可以更快发现与定位网络问题,让整体故障的排查时间再次大幅缩短,故障时尽快恢复续训。
打造最適合大模型的雲
目前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型訓練集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。
大模型訓練集群在HCC将高性能云服务器作为节点,满配最 新代次的GPU,节点之间通过自研星脉网络互联,提供高性能、高带宽和低延迟的一体化高性能計算产品。
腾讯云AIGC云存储解决方案是国内首 个实现存储引擎全面自研的云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。
腾讯云向量数据库Tencent Cloud VectorDB每日支撑超过3700亿次向量检索请求,可支持千亿级向量规模存储,万级 QPS 及毫秒级查询延迟,适用于大模型的训练推理、RAG场景、AI应用以及搜索推荐服务,实现企业数据接入AI的效率比传统方案提升10倍。
腾讯云打造了天御AIGC全链路的内容安全解决方案,提供包含数据服务、安全专家、机器审核、版權保护、客户体验管理五大服务体系,护航企业从模型训练到事后运营全过程的内容安全建设。
同时,在自身AI基礎設施支撑下,腾讯自研的通用大模型腾讯混元大模型也在持续迭代。
借助基于星脉网络的大模型訓練集群HCC、Angel机器学习平台等自研底层技术,腾讯搭建起万卡AI训练集群,可以用更少的资源训练更大的模型,训练速度是主流框架的2.6倍;推理成本相比业界主流框架下降70%,并且支持国产主流硬件的适配。
騰訊混元已擴展至萬億級參數規模,采用混合專家模型(MoE)結構,在通用基礎能力和專業應用能力方面處于國內主流大模型領先地位。無論是企業客戶還是個人開發者,都可以通過騰訊雲上API直接調用騰訊混元,實現更便捷的智能化升級。騰訊還聯合生態夥伴,將大模型技術與20多個行業結合,提供超50個行業大模型解決方案。
大模型时代的来临,将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”,也将持续升级底层AI基礎設施,助力企业把握AI时代。
(推廣)