11月8日,阿裏巴巴達摩院公布了多模態大模型M6”的最新進展,其參數已從萬億躍遷至10萬億,成爲全球最大的AI預訓練模型。
作爲通用性AI大模型,M6拥有多模态、多任务能力,尤其擅长设计、写作、问答,在電商、制造业、文学艺术、科学研究等领域有广泛应用前景。
與傳統AI相比,大模型擁有成百上千倍神經元”數量,認知和創造能力也更勝一籌,被普遍認爲是未來的基礎模型”。
但是,大模型的算力成本相当高昂,睙徵训练1750亿参数语言大模型GPT-3所需能耗,能让一辆汽车在地月之间往返一趟。
今年5月,通過專家並行策略及優化技術,達摩院M6團隊將萬億模型能耗降低超過80%,效率提升近11倍。
10月,M6再次突破業界极限,使用512颗GPU,在10天内就训练出了具有可用水平的10万亿模型,相睙幞年发布的大模型GPT-3,M6实现了同等参数规模,能耗却只有1%。
另一方面,AI大模型擴展到千億及以上參數的超大規模時,很難放在一台機器上,爲此達摩院在阿裏云PAI自研Whale框架上搭建了MoE模型,并通过更细粒度的CPU offload技术,最终实现将10万亿参数放进512张GPU:
自研Whale框架:
自研Whale分布式深度學習訓練框架,針對數據並行、模型並行、流水並行、混合並行等多種並行模型進行了統一架構設計,讓用戶在僅僅添加幾行API調用的情況下就可以實現豐富的分布式並行策略。
MoE專家並行策略:
在Whale架構中實現Mixture-of-Experts(MoE)專家並行策略,在擴展模型容量、提升模型效果的基礎上,不顯著增加運算FLOPs(每秒所執行的浮點運算次數),從而實現高效訓練大規模模型的目的。
CPU offload创新技术:
在自研的分布式框架Whale中通过更细粒度的CPU offload,解决了有限资源放下极限规模的难题,并通过灵活地选择offload的模型层,进一步地提高GPU利用率。
此外,針對訓練效率問題,M6團隊設計了Pseudo-to-Real(共享解除)機制,即利用訓練好的共享參數模型初始化大模型,讓收斂效率進一步提升7倍,解決大模型訓練速度慢的問題。
對比不使用該機制,預訓練達到同樣loss用時僅需6%;和此前萬億模型相比,訓練樣本量僅需40%。
作爲国内首个商业化落地的多模态大模型,M6已在超40个场景中应用,日调用量上亿。
今年,大模型首次支持雙11,應用包括但不限于:
- M6在犀牛智造为品牌设计的服饰已在淘寶上線;
- 凭借流畅的写作能力,M6正为天猫虚拟主播创作剧本;
- 依靠多模态理解能力,M6正在增进淘寶、支付宝等平台的搜索及内容认知精度。
未来,M6将积极探索与科学应用的结合,通过AI for science让大模型的潜力充分发挥,并加强M6与国产芯片的软硬一体化研究。
目前,达摩院联合阿裏云已推出M6服务化平台,为大模型训练及应用提供完备工具,首次让大模型实现开箱即用”,算法人员及普通用户均可方便地使用平台。
(舉報)