在人工智能大模型迅猛發展的當下,大模型參數和計算量呈指數級增長,大規模深度學習模型的訓練離不開多硬件設備的分布式計算。在鲲鵬昇騰科教創新卓越中心的算力支持下,北京大學計算機學院崔斌教授團隊創新研發了面向大模型的高效分布式訓練框架,大幅提升了大規模分布式訓練模型的效率。
針對模型訓練任務的多樣性和複雜性所帶來的負載不均問題,研究團隊創新設計出了細粒度模型切分與並行策略搜索算法。此方法依托昇騰強大的計算資源管理能力,及算子優化技術對訓練策略的適配,完成了統一訓練接口到智能切分策略的全過程。首先通過總結多種大模型訓練的共同特点,设计出统一的接口来启动和管理不同任务负载的模型训练任务,对训练时所花费的算力、内存、网络通信等进行精确地计算。接着基于这些数据细致拆解庞大且复杂的大模型,根据不同模块分配不同的训练策略以适应各模块的负载差异,实现训练任务的高效并行。目前,该方案已实现比分片数据并行、3D 并行禑岖局模版化并行方案提升15% 的训练效率。
除此之外,团队还解决了分布式計算所涉及的硬件间通信传输效率问题。结合昇腾高速互联总线技术的高带宽低时延优势,系统会很根据不同的通信需求,对硬件设备进行分组以优化组队时间,运用计算通信重叠技术让“计算”和“通信”同步进行,提高训练流水线的效率,并在模型切分的决策时考虑计算通信重叠的性能影响,综合多方面因素选取最适合的分布式运行方案,最终实现数据传输效率和资源利用率的最大化。
该研究成果不仅为模型大规模训练提供了高效的解决方案,更展现了自主算力在分布式計算领域的巨大潜力。目前,研究成果已在国际頂級學術會議NeurIPS、ICLR、AAAI發表3篇論文,爲國內AI技術突破提供了理論支撐與實踐範式。
北京大学 鲲鹏昇腾科教创新卓越中心的这一突破彰显了校企协同创新的显著成效。未来,中心将持续加速AI前沿技术在自主计算平台的深度落地,为我国人工智能产业的自主化突破提供强劲动能。
(推廣)