快科技5月9日消息,騰訊混元宣布今天正式推出並開源全新的多模態定制化視頻生成工具HunyuanCustom。
據悉,該模型基于混元視頻生成大模型(HunyuanVideo)打造,主體一致性效果超過現有的開源方案。
據介紹,HunyuanCustom融合文本、圖像、音頻、視頻等多模態輸入生視頻的能力,是一款具備高度控制力和生成質量的智能視頻創作工具。
騰訊表示,HunyuanCustom模型能實現單主體視頻生成、多主體視頻生成、單主體視頻配音、視頻局部編輯等能力,其生成的視頻與用戶輸入的參考主體能保持高度一致。
在部分場景下,創作者希望保持人物一致的情況下,改變人物所在的環境和動作。
但此前的視頻生成模型都無法實現。
而HunyuanCustom通過引入身份增強機制和多模態融合模塊,真正實現圖像提供身份,文本定義一切”。
HunyuanCustom可以满足视频创作者、短視頻博主、電商从业者、廣告创意人等不同用户和场景的需求。
睙徵,在廣告场景中,可以快捷变换商品背景、模特可以快速换衣服;在電商和客服场景中,可以快速低成本制作出生动的数字人商品介绍视频,或者制作特定穿着的数字人客服视频;在影视场景中,快速制作短剧和小故事短視頻。
此外,通過業內領先的主體一致性建模能力,HunyuanCustom在單人、非人物體、多主體交互等多種場景,都能保持身份特征在視頻全程的一致性與連貫性。人物不會變臉”,物體不會漂移”。
目前,單主體生成能力已經開源並在混元官網上線,用戶可以在模型廣場-圖生視頻-參考生視頻”中體驗,其他能力將于5月內陸續對外開源。
单主体生成能力下,用户只需上传一张目标人物或物体的图片,并提供一句如他正在遛狗”的文本描述,Hunyuan Custom就能在完全不同的动作、服饰与场景中生成连贯自然的视频内容。
在多主體視頻的生成中,用戶提供一張人物和一張物體的照片,並輸入文字描述,即可能讓這兩個主體按要求出現在視頻裏。而Hunyuan Custom不止于图像和文本的配合,还具备强大的扩展能力。
在音頻驅動(單主體)模式下,用戶可以上傳人物圖像並配上音頻語音,模型便可生成人物在任意場景中說話、唱歌或進行其他音視頻同步表演的效果,廣泛適用于數字人直播、虛擬客服、教育演示等場景。
在视频驱动模式下,Hunyuan Custom支持将图片中的人物或物体自然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。
(舉報)