要點:
1、清華、浙大等中國頂尖學府提供了性能優異的GPT-4V開源替代方案。
2、LLaVA、CogAgent和BakLLaVA是三種具有極大潛力的開源視覺語言模型。
3、LLaVA在視覺聊天和推理問答方面表現出接近GPT-4水平的能力。
站長之家(ChinaZ.com)1月4日 消息:近期,GPT-4V的開源替代方案在中國的頂尖學府清華、浙大等的推動下,出現了一系列性能優異的開源視覺模型。其中,LLaVA、CogAgent和BakLLaVA是三種備受關注的開源視覺語言模型。
LLaVA是一個端到端訓練的多模態大模型,它將視覺編碼器和用于通用視覺和語言理解的Vicuna相結合,具備令人印象深刻的聊天能力。而CogAgent是在CogVLM基礎上改進的開源視覺語言模型,擁有110億個視覺參數和70億個語言參數。
另外,BakLLaVA是使用LLaVA1.5架構增強的Mistral7B基礎模型,已經在多個基准測試中優于LLaVA213B。這三種開源視覺模型在視覺處理領域具有極大的潛力。
LLaVA在視覺聊天和推理問答方面表現出接近GPT-4水平的能力。在視覺聊天方面,LLaVA的表現相對于GPT-4的評分達到了85%,在推理問答方面更是達到了92.53%的超過GPT-4的新SoTA。LLaVA在回答問題時,能夠全面而有邏輯地生成回答,並且可以以JSON格式輸出。
它不僅可以從圖片中提取信息並回答問題,還可以將圖片轉化爲JSON格式。LLaVA還可以識別驗證碼、識別圖中的物體品種等,展現出了強大的多模態能力。在性能上接近GPT-4的情況下,LLaVA具有更高的成本效益,訓練只需要8個A100即可在1天內完成。
CogAgent作爲在CogVLM基礎上改進的開源視覺語言模型,擁有更多的功能和性能優勢。它支持更高分辨率的視覺輸入和對話答題,能夠處理超高分辨率圖像輸入。
論文地址:https://arxiv.org/pdf/2312.08914.pdf
CogAgent还提供了可视化代理的能力,能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能,可以处理与网页、PC应用程序、移动应用程序禑嵛何图形用户界面截图相关的问题。另外,通过改进预培训和微调,CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先進的通用性能。
BakLLaVA是使用LLaVA1.5架構增強的Mistral7B基礎模型,具備更好的性能和商用能力。BakLLaVA在多個基准測試中優于LLaVA213B,並且可以在某些數據上進行微調和推理。雖然BakLLaVA在訓練過程中使用了LLaVA的語料庫,不允許商用,但BakLLaVA2則采用了更大的數據集和更新的架構,超越了當前的LLaVA方法,具備商用能力。
(舉報)