6月27日,可靈AI宣布全系列視頻模型上線“視頻音效”功能,用戶在使用可靈AI進行視頻創作時,不僅能獲得高質量的視頻畫面,更能體驗到與視頻准確匹配、富有空間感的立體聲音效,真正實現“所見即所聽”的沈浸式體驗。目前,該功能已無縫集成至文生視頻、圖生視頻、多模態編輯等多種創作模式中,並限時免費開放。
与此同时,平台原有的“音效生成”也进一步升级,新增“视频生音效”功能。用户现在不仅可以通过文本生成音效,更可以直接上传本地视频,或选用在可靈平台创作的历史视频,一键为无声的画面匹配上语义契合、节奏同步的音效,自动适配动作、环境、氛围等多种场景,极大地提升了视频内容的表现力和沉浸感,有效降低了创作者在音频后期制作上的时间与技术成本。
从实际效果来看,可靈AI的音效功能在多个典型案例中展现了很高的音画同步精度和较好的空间听感。例如,在生成“婴儿在活泼地笑”的视频片段中,模型不仅还原了婴儿清亮的笑声,甚至连婴儿笑容间隙短促的吸气声都美好捕捉,与画面中肉嘟嘟脸颊的起伏动作准确匹配,其富有空间感的立体声效果,让整个画面的温馨感与生命力扑面而来。在另一段山體滑坡導致巨石砸中汽車的視頻中,系統自動生成了金屬扭曲斷裂聲、石塊飛濺與塵土揚起的細節音效,聲音定位清晰、動態層次豐富,提升了整體災難場景的視覺沖擊力與沈浸感。
据悉,上述功能的实现,依托于可靈AI自主研发的多模态视频生音效模型——Kling-Foley。Kling-Foley支持基于视频内容与可选文本提示自动生成与视频画面语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容。它支持生成任意时长的音频内容,还具备立体声渲染的能力,支持空间定向的声源建模和渲染。今年3月,可靈AI初次推出AI音效功能,用户可通过输入文本生成相应的环境音或动作音,并可进一步结合平台生成的视频进行语义理解与自动匹配。随后,在可靈2.1模型中正式加入了视频音效功能,在生成视频的同时,系统也会自动生成与之匹配的音效,增强了整体视听体验。随着视频音效生成技术的成熟落地,将进一步释放可靈AI在廣告创意、影视、短視頻、游戏等内容等领域的发展潜力。
(舉報)