随着以 Sora 为代表的視頻生成模型技術的演進,长視頻生成领域在维持长时序内容一致性以及平衡生成质量与计算资源效率方面面临挑战。浙江大学 鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队基于此课题持续深耕并取得重要进展。依托昇腾AI基础软硬件平台,该团队提出的技术方案有效提升了长视频内容一致性,同时显著优化了視頻生成过程中的计算效率。
針對長序列視覺指令生成的核心技术难题,项目团队成功研发首个无需训练的长序列視覺指令生成框架LIGER,实现了历史提示和视觉记忆机制,以及基于DDIM反演的记忆校准技术。依托昇腾的编码加速能力,通过对每个步骤的图像特征进行采样和存储,捕捉前序步骤中的关键视觉信息,并将其注入到自注意力机制中,确保步骤间的视觉连贯性。同时,通过自反思机制纠正图像中的属性错误、逻辑错误、对象冗余和身份不一致等问题,使用多种图像编辑工具进行精确修正。该系统在长序列任务中展现出优异的逻辑连贯性和对象属性准确性,显著提升了视觉指令的理解性和实用性。
在計算效率方面,項目團隊提出了基于昇騰平台優化的引導式漸進蒸餾方法,通過在線教師引導、漸進式蒸餾和高頻細節保護三項關鍵技術,成功加速了視頻擴散模型的生成過程。該方法讓教師模型實時優化學生模型的中間預測以創建自適應訓練目標,通過多階段訓練逐步增加步長將複雜軌迹學習分解爲可管理的任務,並引入頻域損失函數保持視頻精細細節。在保持視頻高質量輸出基礎上,該方法實現8倍加速。
该项目创新性地将大语言模型推理能力与視頻生成技术相结合,为多模态交互研究开辟了新方向。目前,研究成果已成功入选人工智能頂級会议ICLR2025,获得国际学术界的高稛嵯可。项目构建的包含569个任务的评估数据集,为后续研究提供了重要基准。
未来,浙江大学 鲲鹏昇腾科教创新卓越中心将依托昇腾AI基础软硬件平台,持续深化产学研协同创新,着力突破多模态生成技术的核心瓶颈,构建自主创新、技术领先的多模态生成技术生态体系,并为国家人工智能战略与数字经济发展储备核心创新力量。
(推廣)