今日,腾讯正式发布新一代混元开源大语言模型。英特尔凭借在人工智能领域的全栈技术布局,现已在英特尔? 酷睿? Ultra 平台上完成针对该模型的第零日(Day0)部署与性能优化。值得一提的是, 依托于OpenVINO? 构建的 AI 软件平台的可扩展性,英特尔助力ISV生态伙伴率先实现应用端Day0模型适配,大幅加速了新模型的落地进程,彰显了 “硬件 + 模型 + 生态” 协同的强大爆发力。
混元新模型登場:多維度突破,酷睿Ultra平台Day0適配
騰訊混元宣布開源四款小尺寸模型,參數分別爲0.5B、1.8B、4B、7B,消費級顯卡即可運行,適用于筆記本電腦、手機、智能座艙、智能家居等低功耗場景。新開源的4個模型均屬于融合推理模型,具備推理速度快、性價比高的特點,用戶可根據使用場景靈活選擇模型思考模式——快思考模式提供簡潔、高效的輸出;而慢思考涉及解決複雜問題,具備更全面的推理步驟。
这些模型已在英特尔酷睿 Ultra 平台实现全面适配,其在 CPU、GPU、NPU 三大 AI 运算引擎上都展现了卓越的推理性能表现1。以酷睿 Ultra2代 iGPU 平台为例,7B 参数量模型在 INT4精度下,吞吐量达20.93token/s;0.5B 小尺寸模型在 FP16精度下吞吐量达68.92token/s。值得一提的是,英特尔对新模型的 NPU 第零日支持已形成常态化能力,为不同参数量模型匹配精准硬件方案,满足从个人终端到边缘设备的多样化需求。
OpenVINO:新模型快速落地的“關鍵引擎”
作为英特尔推出的开源深度学习工具套件,OpenVINO 以 “性能优化 + 跨平台部署” 为核心优势,可充分释放英特尔硬件资源潜力,广泛应用于 AI PC、边缘 AI 等场景。其核心价值在于能将深度学习模型的推理性能最大化,同时实现跨 CPU、GPU、NPU 等异构硬件的无缝部署。
目前,OpenVINO已支持超过900个人工智能模型,涵盖生成式 AI 领域主流模型结构与算子库。这样的模型支持体系,使其能在新模型发布的Day0,即完成英特尔硬件平台的适配部署。此次混元模型的快速落地,正是 OpenVINO 技术实力的直接体现 —— 通过其优化能力,混元模型在酷睿 Ultra 平台的性能得到充分释放,为用户带来即发即用的 AI 体验。
生態共創:AI技術到應用的“最後一公裏”加速
生态合作是英特尔 AI 战略的核心支柱,驱动人生作为其长期合作伙伴,专注于互联网客户端软件研发及运营,本着“以用户为中心,以技术为根本,以开放为原则”的理念,长期致力于技术研发和技术创新,为用户提供优质的服务。其 AIGC 助手软件,实现本地部署,离线使用,支持文字输入、语音转译,将大模型装进背包,可随时随地与它进行智能对话,还能让它帮忙解读文档,编撰方案。
该应用采用 OpenVINO推理框架,借助其快速适配能力,在混元模型发布当日即完成应用层适配,成为首批支持新模型的应用之一。
目前,驱动人生 AIGC 助手、英特爾AIPC應用專區和多家OEM 应用商店的 AI PC专区均已上线,搭载混元模型的新版本也将在近期推出,用户可第一时间体验更智能的交互与服务。这种 “模型发布 - 硬件适配 - 应用落地” 的全链条第零日响应,正是英特尔生态协同能力的生动写照。
AI 的发展离不开模型创新与软硬件生态协同 —— 模型如同燃料,生态则是驱动前进的引擎。英特尔通过硬件平台、软件工具与生态网络的深度协同,实现对新模型的第零日适配,不仅加速了技术到应用的转化,更推动着整个 AI 产业的高效创新。未来,英特尔将持续深化与合作伙伴的协同,让 AI 创新更快走进千行百业与大众生活。
快速上手指南
第一步,環境准備
通過以下命令可以搭建基于Python的模型部署環境。
該示例在以下環境中已得到驗證:
硬件環境:
Intel? Core? Ultra7258V
iGPU Driver:32.0.101.6972
NPU Driver:32.0.100.4181
Memory:32GB
操作系統:
Windows1124H2(26100.4061)
OpenVINO版本:
openvino2025.2.0
openvino-genai2025.2.0.0
openvino-tokenizers2025.2.0.0
Transformers版本:
第二步,模型下載和轉換
在部署模型之前,我們首先需要將原始的PyTorch模型轉換爲OpenVINOTM的IR靜態圖格式,並對其進行壓縮,以實現更輕量化的部署和最佳的性能表現。通過Optimum提供的命令行工具optimum-cli,我們可以一鍵完成模型的格式轉換和權重量化任務:
開發者可以根據模型的輸出結果,調整其中的量化參數,包括:
--model:为模型在HuggingFace上的model id,这里我们也提前下载原始模型,并将model id替换为原始模型的本地路径,针对国内开发者,推荐使用ModelScope魔搭社区作为原始模型的下载渠道,具体加载方式可以参考ModelScope官方指南:https://www.modelscope.cn/docs/models/download
--weight-format:量化精度,可以選擇fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64
--group-size:權重裏共享量化參數的通道數量
--ratio:int4/int8權重比例,默認爲1.0,0.6表示60%的權重以int4表,40%以int8表示
--sym:是否開啓對稱量化
此外我們建議使用以下參數對運行在NPU上的模型進行量化,以達到性能和精度的平衡。
這裏的--backup-precision是指混合量化精度中,8bit參數的量化策略。
第三步,模型部署
目前我們推薦是用openvino-genai來部署大語言以及生成式AI任務,它同時支持Python和C++兩種編程語言,安裝容量不到200MB,支持流式輸出以及多種采樣策略。
GenAI API部署示例
其中,'model_dir'为OpenVINOTM IR格式的模型文件夹路径,'device'为模型部署设备,支持CPU,GPU以及NPU。此外,openvino-genai提供了chat模式的构建方法,通过声明pipe.start_chat()以及pipe.finish_chat(),多轮聊天中的历史数据将被以kvcache的形态,在内存中进行管理,从而提升运行效率。
开发者可以通过该该示例的中方法调整chat template,以关闭和开启thinking模式,具体方式可以参考官方文档 。由于目前OpenVINOTM Tokenizer还没有完全支持Hunyuan-7B-Instruct模型默认的chat template格式,因此我们需要手动替换原始的chat template,对其进行简化,具体方法如下:
chat模式輸出結果示例:
关于该示例的后续更新,可以关注OpenVINO notebooks仓库
驅動人生應用獲取方式:
驱动人生 AIGC 助手
英特爾AIPC應用專區
1.通过使用 OpenVINO 框架版本2025.2.0在 英特尔? 酷睿? Ultra7258V 和 英特尔? 酷睿? Ultra9285H 上进行测试获得了性能数据,计算过程发生在 iGPU 或 NPU 上。测试评估了首 Token 的延迟以及在 int4-mixed、int4-mixed-cw-sym 和 fp16精度设置下1K 输入的平均吞吐量。每项测试在预熱阶段后执行三次,并选择平均值作为报告数据。
性能因使用方式、配置和其他因素而異。
性能結果基于測試時的配置狀態,可能未反映所有公開可用的更新內容。請參閱相關文檔以獲取配置詳情。沒有任何産品或組件能夠保證絕對安全。
您的實際成本和結果可能會有所不同。
相關英特爾技術可能需要啓用相關硬件、軟件或激活服務。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
(推廣)