在産業智能化進程中,如何有效融合企業專有知識資産,構建領域專屬認知引擎,是企業邁向智能決策與有效運營的關鍵。然而,傳統檢索增強生成(RAG)技術受限于語言單模態處理能力,僅能實現文本知識庫與文本查詢之間的淺層理解,難以滿足複雜業務場景的需求,在實際應用中暴露出兩大缺陷:
信息表征缺失:忽略知識庫中多模態富文檔的視覺語義信息,如版面結構、圖表關系、公式特征等;
模態交互受限:無法支持圖文混合查詢、跨模態關聯檢索等多樣化需求。
針對以上痛點,我們發布了紫東太初多模態檢索增強生成框架—Taichu-mRAG。該框架基于統一多模態細粒度檢索引擎和紫東太初多模態大模型,旨在提升內容理解與生成質量,實現對多模態信息的協同感知、准確檢索與深度推理問答。
Taichu-mRAG 在多模态富文档理解、多模态细粒度实体属性问答两大保障基准上取得突破性进展:
在 M3DocVQA 数据集上端到端问答准确率比开源SOTA M3DocRAG相对提升33%,多模態檢索召回率相对提升12%;
在 E-VQA 数据集上端到端问答准确率比开源SOTA EchoSight相对提升9%,多模態檢索召回率相对提升9%。
3.1 Taichu-mRAG整体架构
面向新一代智能问答场景,Taichu-mRAG 整体架构包含四大核心模块:Query理解模塊、多模态混合索引召回模块、多模態精排模塊、多模态增强答案生成模块。
Query理解模塊
该模块根据用户Query 及对话上下文深度挖掘用户需求,判断是否需要触发全文理解,并结合对话历史对用户 Query 进行智能扩展、改写,使得改写后的 Query 可以更准确地检索到相关知识。
多模態混合索引與召回模塊
该模块包含特征抽取、索引建库及多路召回。在知识库构建过程中,我们先对富文档进行多维度理解、分块,抽取出子级检索单元块;包括基于版面识别的区域级分块、基于纯视觉信息的页面级分块、基于文本语义的滑窗分块;之后,通过多模态Embedding模型抽取这些检索分块的语义特征,在统一语义空间内进行 ANN 索引建库。当收到改写的 Query 后,我们采用多路召回,并行执行四路检索:跨模态索引、关键Term倒排索引、基础语义索引、知识扩展语义索引,有效召回和用户需求最相关的 TopN 知识片段。
多模態精排模塊
多模態精排模塊负责对召回的 TopN 知识片段进行精细化排序,更加关注细粒度语义信息,有利于处理高难度场景,从而进一步提升多模态大模型的问答准确度。该模块采用单塔结构,深稛嶷合Query、文本、图像、布局特征等信息,确保排序结果更加准确稳定。
多模態答案生成模塊
答案生成模塊根據前序模塊給出的相關參考知識和用戶原始Query,聯合生成最終的答案,並給出答案的參考片段,便于用戶進行答案溯源。當候選片段無法覆蓋答案時,多模態大模型會根據用戶自定義配置選擇拒答或者依賴多模態大模型自身知識進行開放式回答。這一模塊不僅生成准確的答案,還提供了答案的來源和依據,增強了答案的可信度和可解釋性。
3.2 Taichu-mRAG多模態檢索
Taichu-mRAG 的多模態檢索引擎采用了雙層級父子關聯索引機制和多路異構特征聯合檢索技术:
雙層級父子關聯索引機制
基于多模態結構感知的層級式分塊技術可有效解決多模態數據檢索中的粒度適配與上下文整合難題。雙層級父子索引技術核心是父級語義單元、子級檢索單元的智能分塊和關聯策略。
子级检索单元为基础单元,核心价值在于根据用户 Query准确召回语义最相关的细粒度语义片段,确保召回的准确性;子级检索单元可包含多种单元形式,如基于滑动窗口的文本片段单元、 图像单元、表格单元、图文混合单元等。父级语义单元为跨模态知识容器,核心价值是为关联的子级检索单元提供完整的上下文信息输入给大模型,提升大模型的回答精度和完整度。
父、子语义单元的切分及关联映射核心在于对以下多种策略的灵活组合: (1)语义理解分块:基于句子、段落、图像、图表多模态 Embedding 计算相似度,当连续内容相似度低于特定阈值时则进行切割。(2)结构化分块:基于布局分析技术,对PDF、PPT、Markdown 等文档按章节、标题或页面、语义块边界进行切割。(3)滑动窗口分块 :设置字符重叠范围及滑动窗口大小,通过滑动窗口对文档内容进行切割。
多路異構特征聯合檢索
Taichu-mRAG 检索引擎采用多路异构特征联合索引的召回机制,在多模态、复杂富文档理解场景下形成互补增强的检索矩阵,保证了检索系统的准确性和产业落地可行性,多路异构特征索引概况如下:
其中,多模態Embedding模型充分利用多模態大模型的語義理解能力,經過多粒度多階段學習,實現多種模態在統一空間的語義表征,支持文本、圖像、圖表、公式等多種混合形式。模型有效緩解了模態偏差問題,同時也具備出色的單模態語義表征能力。
3.3 紫东太初多模态大模型
紫东太初多模态大模型(Taichu-MLLM)具备强大的视觉理解能力和若干特性,支持动态分辨率、图文及多语言输入、图文混排模式等。同时为了更好促进Taichu-mRAG的产业落地应用,针对落地应用过程中的重点需求,我们对Taichu-MLLM 特定能力进行了重点优化:
扩展上下文长度到128k,支持超长文本和多张高清圖片输入;
優化拒答指令遵循能力,提升拒答精度,具備准確、穩定的拒答能力;
優化溯源能力,模型同時生成答案和引用來源,便于用戶溯源查證,提高答案可解釋性。
關鍵詞:
(推廣)