在人工智能領域,大語言模型的訓練與推理成本一直是限制技術普及的關鍵因素之一。近日,北京大學人工智能研究院助理教授張牧涵團隊在鲲鵬昇騰科教創新卓越中心(簡稱“卓越中心”)提供的算力支持下,成功研發出一套高效的大模型訓練推理架構,實現了百萬tokens輸入成本低至1元,爲産業提供了高效能、低成本的解決方案。
此研究成果包括三項關鍵技術創新。首先,目前廣泛使用的相對位置編碼存在較大的稀疏性,團隊通過將每個注意力頭中的位置信息和非位置信息分離,對位置編碼進行了低秩壓縮,僅使用3%的位置信息,即可維持原有表達能力。該方法通過優化昇騰硬件的flash-attention算子,使得注意力頭的參數得到更高效利用。
第二,非位置编码信息在原始模型中通常处于被抑制状态。通过将位置编码与非位置编码分离,非位置编码得到了较大的压缩空间。团队采用了联合KV的低秩压缩方法,仅保留12.5%的KV Cache即可维持原始模型的能力。这一方法能够有效利用昇腾硬件高效的计算能力,减轻访存压力,显著提升推理效率。
最后,基于昇腾硬件在出色的并行计算能力,团队实现的Recurrent Decoding(RD)技术通过替换LM-head提升了训练数据利用率并加速了推理。在训练阶段,RD通过将解码出的多个tokens与target tokens进行对比,实现了训练数据的高效利用;在推理阶段,结合投机推理显著提高了tokens的采样通过率,进而提升了推理速度。
這一成果得到了學術界的廣泛關注,不僅爲科研提供了可複用的高效架構,也爲AI大模型在企業中的應用大幅降低了成本。自去年6月成立以來,北京大學與華爲在産業前沿課題的聯合攻關持續推進,本次成果驗證了昇騰算力平台支撐尖端科研的技術實力。卓越中心將繼續深入開展大模型關鍵技術創新,爲構建中國技術生態提供堅實支撐。
(推廣)