AI一天,人間一年。
現在不論是大模型本身,亦或是AI應用的更新速度簡直令人直呼跟不上——
Sora、Suno、Udio、Luma……重磅應用一個接一個問世。
也正如來自InfoQ的調查數據顯示的那般,雖然AIGC目前還處于起步階段,但市場規模已初具雛形:
行業整體迅速發展固然是好事,但具體到每個的應用或者大模型的落地來說,面臨的競爭也越發激烈了。
例如前不久各個大模型廠商之間展開的非常激烈的“價格戰”,主打一個比誰更便宜,甚至直接把大模型價格推向“厘時代”。
加上最近OpenAI的“斷供”事件,更是讓國內廠商們在打出“輕松搬家”計劃的同時,再加碼Tokens送送送的力度。
究其原因,也是與當下應用爲王,尤其是以盡量低的成本把業務快速落地的這一大趨勢緊密相關。
那麽問題來了,大模型玩家們何以在又快又好又省之間做到平衡?
这就回到了那个避不开,同时又是成本里占绝 对大头的因素——算力。
现在提及大模型的训练和推理,很多人的第 一反应或许就是想到了GPU。
誠然GPU在高性能上占據著一定的優勢,但它所存在“硬傷”也是比較明顯,那便是供應不足、價格昂貴。
何以破局?国产大模型第 一梯队玩家百度智能云千帆大模型平台,就给出了自己的一个更具“效价比”的解法:
具體到算力的部署上,百度智能雲AI與大模型平台總經理忻舟認爲:
一言蔽之,在大模型時代,CPU甚至比以往更加重要了,而且是能讓大模型和應用做到“快好省”落地的關鍵因素之一。
那麽具體“上崗”效果又是如何,我們繼續往下看。
國産頭部大模型玩家,pick了CPU
國內AIGC應用爆發,這其中,百度智能雲千帆大模型平台功不可沒。
作爲企業使用大模型的”一站式”服務平台,千帆大模型平台自去年3月發布以來已有超12萬客戶使用,累計調優模型2萬個,孵化應用4.2萬個。
這些應用覆蓋教育、金融、辦公、醫療等衆多場景,爲行業數字化轉型提供了有力支撐。
在教育領域,千帆大模型平台賦能了試題生成、在線批改、題目解析等應用,提升了教學和備考效率。
例如用戶可以提供參考材料,設定題型和難度,平台就能自動生成高質量的試題。而交互式的題目解析,則可以針對每位學生的薄弱環節,提供個性化的學習指導。
在办公场景,千帆大模型平台与业内头部企业合作,共同打造了智能写作助手等创新应用,能够根据用户输入的關鍵詞,快速生成招聘文案、营销方案、数据报告等专业文档。
還可以專注于各類寫作場景,可以智能生成論文大綱、項目彙報、品牌宣傳稿等,提升了行政和營銷人員的工作效率。
醫療健康是千帆大模型平台的另一大應用賽道。基于醫療知識庫訓練的模型,可以自動生成體檢報告解讀,用通俗易懂的語言向用戶解釋各項指標,並給出個性化的健康指導。
這讓普通大衆也能更好地了解自己的身體狀況,實現”健康自主管理”。
可以看到,千帆大模型平台在多個領域實現了AI模型的”最後一公裏”落地。
那么千帆大模型平台是怎么支撑如此多AI應用的呢?
答案是:讓CPU成爲客戶的選擇之一,讓“效價比”的紅利普惠千行百業。
之所以如此,百度智能雲所給出的解釋是:
至于效果,以Llama-2-7B为例,在第四代英特尔? 至强? 可扩展处理器上输出 Token 吞吐可达100TPS 以上,相比第三代提升了60%。
△Llama-2-7b模型輸出Token吞吐
在低延迟的场景,同等并发下,第四代至强? 可扩展处理器的首Token时延比第三代至强? 可降低50%以上。
在将处理器升级为第五代至强? 可扩展处理器之后,较上代的吞吐可提升45%左右,首 Token 时延下降50%左右。
△Llama-2-7b模型首Token時延
並且千帆大模型平台團隊根據實踐經驗還表示:
不仅如此,利用充足的CPU资源,降低对于AI加速卡的需求,从而降低 LLM 推理服务的总体拥有成本 (TCO),特别是在离线的 LLM 推理场景中表现出色。
而且在千帆大模型平台上,可不止是有自家的ERNIE,還有很多主流的大模型都集成于此。
这也在一定程度上从侧面印证了第五代英特尔? 至强? 可扩展处理器在性能上的过关。
英特尔第五代至强,如何让性能和效率变得Pro Max?
百度智能雲千帆大模型平台,不止需要大模型推理一種工作負載,它其實是一個覆蓋大模型全生命周期的平台。
具體來說,千帆大模型平台提供數據標注,模型訓練與評估,推理服務與應用集成的全面功能服務,以及快速應用編排與插件集成,助力大模型多場景落地應用。這樣一來,比起專爲大模型推理部署專用加速器,充分利用平台已廣泛部署的CPU資源,就是更劃算的選擇了。
對于千帆大模型平台上存在的大量離線大模型應用需求來說,如生成文章總結、摘要、評估多個模型的效果等,這類需求對推理的時延要求其實不高,但內存容易成爲瓶頸。
采用CPU來做,擴展內存更方便,還可以利用起平台閑時的算力資源,進一步提高資源利用率,起到降低總擁有成本的作用。
在这个大背景下,第五代英特尔? 至强? 可扩展处理器中的性能密集型通用计算应用负载(类似P Core性能核)的设计就尤为关键了。
与E Core(能效核)相比,P Core采用了追求性能最 大化的设计,能承载非常重的负载,同时还兼顾了AI推理加速。
采用此设计的第五代至强? 可扩展处理器,在兼顾AI推理加速这一点上可不是说说而已,而是软硬件协同优化,各方面都考虑到位了。
硬件方面,英特尔? AMX(高 级矩阵扩展)技术,正是为大模型推理重深度学习中大量的矩阵乘法运算专门优化的,可以理解成”CPU 里的 Tensor Core”。
有了英特尔? AMX,处理器每个时钟周期可完成高达2048个INT8运算,比上一代AVX512_VNNI指令提升8倍之多。
更重要的是,英特尔? AMX加速器是内置在CPU核心里的,让矩阵存储和运算更近,这一特性应用在大模型推理上,能够降低处理下一个Token的时延,让终端用户的体验更好。
△英特尔? AMX 可以更有效的实现 AI 加速
软件方面,百度智能云千帆大模型平台已经引入了针对英特尔? 至强? 可扩展平台深度优化的大模型推理软件解决方案xFasterTransformer (xFT),并将其作为后端推理引擎。主要优化策略如下:
充分利用 AMX/AVX512等指令集,有效实现核心算子如 Flash Attention 等
采用低精度量化,降低数据访存量,发挥 INT8/BF16运算的优势
支持超大規模模型的多機多卡並行推理
△英特尔? 至强? 可扩展处理器 LLM 推理软件解决方案
最後還要補充的一點是,要知道選擇一種硬件平台,不止關乎于設備本身的采購價格,還會影響到後續的維護成本,甚至人才儲備成本。
所以正如百度智能云所言,高性价比的算力基础设施,与先进的大模型算法和平台软件相辅相成,让上层的开发者们能够更加平滑地应用,构建他们的业务,才能最 大化云计算平台的商业价值。
大模型時代,CPU大有可爲
縱觀當下,大模型正從實驗室走向産業,從少數人的“玩具”變爲大衆可用的“工具”。
這意味著,大模型服務不僅要有優秀的性能表現,還要做到價格親民、部署便捷。一言以蔽之,“快好省”成了大模型商業化的關鍵一環。
而要實現“快好省”,算力基礎設施的選擇至關重要。
傳統觀點認爲,專用加速器才是AI的“標配”。但在供應緊張、成本高企的背景下,專用加速器的優勢正在減弱。
相比之下,优化良好的高端 CPU 不仅能提供足够应对大模型推理的算力,而且具有更广泛的部署基础和更成熟的软件生态、以及更好的安全保障,开始受到越来越多业界玩家的青睐。
以英特尔? 至强? 系列为代表的x86架构CPU,拥有成熟完善的软件生态和广泛的应用基础。数以百万计的开发者可以利用现有工具和框架,快速构建和优化AI應用,而无需额外学习专门的加速器软件栈,降低了开发难度和迁移成本。
同時,企業級用戶還可以利用CPU內置的多層次安全技術,實現從硬件到軟件的全棧保護,充分保障數據安全和隱私。這些優勢,是當前專用加速器難以比擬的。
由此可見,充分利用CPU進行推理,讓AI從“燒錢遊戲”變爲“普惠科技”,正是AIGC産業應對算力門檻,推動規模化應用落地的關鍵一招。未來,隨著技術創新和生態完善,這一模式還將爲更多企業創造價值,爲産業發展注入新的動力。
除了直接加速推理任务外,CPU在完整的端到端AI管线中还能有效完成数据预处理、特征工程等AI全流程中的关键步骤。而支持机器学习和图分析的各类数据库,也主要是构建在CPU之上的。以至强? 可扩展处理器为例,除了英特尔? AMX之外,还有诸如英特尔? 数据保护与压缩加速技术(英特尔? QAT)、英特尔? 存内分析加速器(英特尔? IAA)等一系列数据分析引擎内置于处理器中,通过卸载特定任务使CPU得到更好的利用,从而提升工作负载整体性能,实现数据分析加速。
由此可见,构建“快、准、稳”的 AI 应用,既要靠专用加速器强大的算力,也离不开CPU超强的通用计算能力去释放整个系统的潜力。
为了科普CPU在AI推理新时代的玩法,量子位开设了《最“in”AI》专栏,将从技术科普、行业案例、实战优化等多个角稛岖面解读。
我們希望通過這個專欄,讓更多的人了解CPU在AI推理加速,甚至是整個AI平台或全流程加速上的實踐成果,重點就是如何更好地利用CPU來提升大模型應用的性能和效率。(量子位)
(推廣)