站長之家(ChinaZ.com)6月11日 消息:在CVPR2024上,美國英特爾研究院的蔡志鹏博士及其团队提出了一种名为L-MAGIC(Language Model Assisted Generation of Images with Coherence)的新技术。这项技术通过结合语言模型和图像扩散模型,实现了高质量、多模态、零样本泛化的360度场景生成。
核心特點:
結合語言模型和擴散模型:L-MAGIC利用自然圖像連接不同模態的輸入,並通過條件擴散模型如ControlNet從各種模態輸入生成自然圖像。
迭代变形和填充:在获得自然图像后,L-MAGIC通过迭代变形(warping)和填充(inpainting)生成360度场景的多个视角,使用基于扩散的图像填充模型(如Stable Diffusion v2)生成缺失像素。
語言模型控制:L-MAGIC使用語言模型自動控制擴散模型,根據每個視角需要生成的場景內容,有效保持語言及擴散模型的泛化性。
多樣化場景生成:L-MAGIC能夠生成多樣化的全局場景結構,無需微調,從而實現多樣化場景的高質量生成。
多模態輸入:除了自然圖像,L-MAGIC還能接受文字、手繪草圖、深度圖等多種模態的輸入。
實驗結果表明:
L-MAGIC在图像到360度场景生成及文字到360度场景生成任务中均达到了SOTA(State of the Art)。
能夠生成具有多樣化360度場景結構的全景圖,並且能夠平滑地完成360度閉環。
除了文字和自然圖像,L-MAGIC還能夠使用ControlNet接受多樣化的輸入,如深度圖、設計草圖等。
技術應用:
L-MAGIC還能夠利用深度估計模型生成場景的沈浸式視頻和三維點雲,爲場景理解和可視化提供了更多可能性。
項目主頁:https://zhipengcai.github.io/MMPano/
(舉報)