劃重點:
? MLLMs在视觉情境下的表现异常出色,但解决视觉数学问题的能力仍需全面评估和理解。
? MATHVERSE提出了一个创新性的基准,旨在严格评估MLLMs在解释数学问题中的视觉信息理解能力。
? 研究发现大多数现有模型需要视觉输入来理解数学图表,甚至可能表现更好,这表明需要更先进的数学专用视觉编码器。
站長之家(ChinaZ.com)3月26日 消息:多模態大型語言模型(MLLMs)在視覺情境下的表現異常出色,引起了廣泛關注。然而,它們解決視覺數學問題的能力仍需全面評估和理解。數學常常在理解複雜概念和解釋解決問題所需的視覺信息方面存在挑戰。在教育和其他領域中,解讀圖表和插圖變得至關重要,尤其是在解決數學問題時。
GeoQA和MathVista等框架試圖彌合文本內容與視覺解釋之間的差距,專注于幾何查詢和更廣泛的數學概念。這些模型,包括SPHINX和GPT-4V,旨在通過解決各種挑戰,從幾何問題解決到理解複雜圖表,來增強多模態理解能力。盡管它們取得了進展,但在數學推理的文本分析與准確視覺解釋之間實現無縫整合的全面方法仍然是一個尚未完全征服的前沿領域。
來自香港中文大學多媒體實驗室和上海人工智能實驗室的研究團隊提出了“MATHVERSE”,這是一個創新性的基准,旨在嚴格評估MLLMs在解釋數學問題中的視覺信息理解能力。該方法引入了各種數學問題,其中包含圖表,以測試模型在文本推理之外的理解能力。
MATHVERSE通過2612個數學問題與圖表,挑戰視覺數據處理。研究人員將這些問題精心調整爲六種不同的格式,從以文本爲主到僅以視覺爲主,以解剖MLLMs的多模態分析技能。性能分析顯示出不同的成功程度;當剝奪了視覺線索時,一些模型的准確性竟然提高了超過5%,暗示了對文本的更強依賴性。特別是,GPT-4V展示了在文本和視覺模態中的平衡熟練度,爲當前MLLMs在處理視覺和數學查詢方面的能力和局限性提供了全面的洞察。
对MATH VERSE的评估突出显示,像Qwen-VL-Max和InternLM-XComposer2这样的模型在没有视觉输入的情况下,性能有所提升(准确性增加超过5%),而GPT-4V在整合视觉信息方面表现更为熟练,在仅有文本的情况下几乎与人类水平相匹配。这种差异强调了MLLMs对文本而非视觉的依赖性,而GPT-4V则因其比较视觉理解而显著。
研究提出了一個名爲MATHVERSE的專門基准,以評估MLLMs在視覺數學問題解決能力方面的能力。研究結果顯示,大多數現有模型需要視覺輸入才能理解數學圖表,甚至可能表現更好。這表明需要更先進的數學專用視覺編碼器,突顯了MLLM發展的潛在未來方向。
産品入口:https://top.aibase.com/tool/mathverse
論文:https://arxiv.org/abs/2403.14624
(舉報)