今天,百度智能雲千帆正式推出全新視覺理解模型——Qianfan-VL,並全面開源!該系列模型包含3B、8B和70B三個尺寸版本,是面向企業級多模態應用场景,进行了深度优化的视觉理解大模型。即日起至10月10日,用户可在百度智能雲千帆平台免费体验8B、70B模型。Qianfan-VL不仅具备出色的基础通用能力,还针对产业落地中的高频需求,如OCR和教育垂直场景做了专项强化,使其在实际应用中表现更加卓越。
Qianfan-VL系列模型是由百度智能雲千帆模型研发团队,基于开源模型进行开发,并在百度自研昆仑芯 P800上完成全流程计算任务。昆仑芯P800提供了强大的算力支撑,确保模型能够高效处理海量数据与复杂算法,同时支持单任务5000卡规模的并行计算。这一结合不仅优化了模型计算的效率,更使得模型在性能表现上达到了新的高度,在通用和垂类任务评测中展现出SOTA水平。Qianfan-VL模型具備三大特點:
多尺寸模型滿足不同場景需求:提供3B、8B、70B三種規格的模型,讓不同規模的企業和開發者都能找到合適的解決方案。
提供思考推理能力:8B和70B模型支持通過特殊token激活思維鏈能力,覆蓋複雜圖表理解、視覺推理、數學解題等多種場景。
OCR與文檔理解能力增強:主打OCR全場景識別和複雜版面文檔理解兩大特色能力,在多項基准測試中表現優異,爲企業級應用提供高精度的視覺理解解決方案。
1、模型性能與效果
(1)通用能力基准測試表現
在通用能力基准测试中,Qianfan-VL 系列模型(3B、8B、70B)展现出显著核心优势。从视觉理解到专业领域问答,模型性能随参数规模增大提升显著,体现出很好的Scaling趋势。在 ScienceQA 等专业问答测试中,精准度表现突出;多模态任务如 RefCOCO 等,物体识别与关联能力优异;同时,在各类通用基准测试里,相较主流模型,整体表现也颇为亮眼,充分彰显出在视觉理解通用能力上的出色实力,为不同场景下的智能应用提供了有力支撑。
(2)OCR與文檔理解基准測試表現
Qianfan-VL系列模型(3B、8B、70B)在 OCR 与文档理解领域尽显卓越实力。一方面,具备OCR全场景识别能力,能精准识别手写体、数学公式、自然场景文字,还可对卡证票据信息进行结构化提取;另一方面,复杂版面文档理解能力突出,可自动分析版面元素,精准解析表格、图表,实现文档智能问答与结构化解析。从基准测试表现看,在 OCRBench、各类专业测试中,相较于主流模型,成绩优异且随参数规模提升持续向好,为企业级应用提供了高精度的视觉理解解决方案,有力推动文档智能处理场景的高效落地。
(3)數學解題基准測試表現
Qianfan-VL系列的8B和70B模型,在思考推理能力方面表現卓越。它們支持通過特殊token激活思維鏈能力,能覆蓋複雜圖表理解、視覺推理、數學解題等多類場景。這類任務需結合視覺信息與外部知識進行組合推理,而模型通過融合大量視覺類、文本類推理數據並用于後訓練,從benchmark表現來看,推理計算相關任務效果顯著提升。
在核心推理应用场景上,复杂图表理解与推理方面,可从复杂图表提取关键信息,进行数据分析、趋势预测、关联推理及统计计算;数学解题与视觉推理领域,能实现几何推理、公式识别、分步求解与逻辑推断。从數學解題基准測試表現看,在MathVista-mini、MathVision等多项测试中,相较于主流模型,成绩优异且随参数规模提升持续向好,为复杂推理场景下的应用提供了强力支持。
2、模型架構設計與技術特色
Qianfan-VL通過先進的多模態架構設計,憑借持續預訓練和三大技術創新,實現了領域增強的通用視覺-語言能力。
整體架構
能力增強訓練方案:創新的四階段訓練策略,在保持通用能力基礎上實現領域能力顯著提升
高精度數據合成管線:構建面向多模態任務的大規模數據合成管線,涵蓋文檔識別、數學解題、圖表理解、表格識別、公式識別、自然場景OCR等核心任務,通過精細化的管線設計和中間過程數據構造,實現高質量訓練數據的規模化生産。
昆侖芯驅動大模型高效計算:基于百度自研昆侖芯P800芯片,構建了業界領先的超大規模(5000卡)分布式計算系統,通過創新的並行策略和算子優化,顯著提升大模型任務的處理性能與運行效率。
3、模型應用案例
(1)OCR識別場景
(2)數學推理場景
(3)文檔理解場景
除上述場景應用案例外,Qianfan-VL同樣可應用在圖表分析、視頻理解等場景中,均呈現出卓越的模型效果。
Qianfan-VL系列模型的开源,对百度智能雲千帆来说,更像是“把模型放进真实生产力场景”的第一小步;未來,百度智能雲會秉持著對技術的執著追求與對應用場景的深度洞察,不斷推出全新的産業級模型,全方位助力AI技術在各行業落地。
(推廣)