**劃重點:**
1. ? Nemotron-415B擁有150億參數,基于8萬億文本標注數據預訓練,在多領域測試中超越同類大小的開源模型,尤其在代碼語言准確率上表現出色。
2. ?采用标准Transformer架构,结合自注意力、全局注意力和多头注意力等机制,以及旋转位置编码技术,提升模型表达和泛化能力。
3. ? 利用384个DGX H100节点,每节点搭载8个NVIDIA Hopper架构的H10080GB SXM5GPU,采用8路张量并行和数据并行的组合,以及分布式优化器进行分片。
站長之家(ChinaZ.com)3月7日 消息:英偉達最新推出的大型語言模型Nemotron-415B,以其卓越性能和創新架構引起廣泛關注。該模型擁有150億參數,基于龐大的8萬億文本標注數據進行了預訓練。
在多領域測試中,Nemotron-415B在7個領域中的4個表現優異,超越了同類大小的開源模型。特別值得注意的是,在代碼語言方面,Nemotron-415B展現出更高的准確率,尤其在資源稀缺的編程語言上超過了Starcoder和Mistral7B等模型。
該模型采用了標准的Transformer架構,包括多頭自注意力機制和前饋神經網絡。其獨特之處在于,Nemotron-415B結合了自注意力和全局注意力機制,以更好地理解輸入序列內部的依賴關系和輸入序列與輸出序列之間的對應關系。多頭注意力的引入進一步提高了模型的表達能力和泛化能力。
在训练过程中,研究人员充分利用了384个DGX H100节点,每个节点搭载8个基于NVIDIA Hopper架构的H10080GB SXM5GPU。通过8路张量并行和数据并行的组合,以及分布式优化器进行分片,成功完成了Nemotron-415B的训练。
Nemotron-415B在英語、數學推理、多語言分類和代碼等多個測試任務中表現出色,不僅在性能上超越了LLaMA-234B和Mistral7B,在廣泛的代碼語言中也取得了更高的准確率。這一成就爲大型語言模型的發展和應用提供了嶄新的視角。
技術報告https://arxiv.org/abs/2402.16819
(舉報)