字节跳动技术团队宣布推出一项创新技术,基于DiT大模型与字体级分割的视频字幕无痕擦除方案,旨在助力短剧等视频内容的全球化传播。这一技术突破了传统字幕擦除方法的局限,为短剧出海、跨境電商等新兴领域提供了强有力的技术支持。
在全球化內容制作中,原始視頻的中文字幕對于海外觀衆而言不僅是無效信息,還嚴重影響觀看體驗。傳統的字幕添加或馬賽克、GAN(生成對抗網絡)等字幕擦除方案,往往導致畫面雜亂、模糊或幀間閃爍,無法徹底解決這一問題。火山引擎視頻點播推出的這一方案,通過兩大核心技術突破和強大的工程能力,重新定義了字幕擦除標准,實現了全片真實自然的“無痕擦除”,並支持多字幕框、指定時間段的精准擦除。
該方案的核心在于兩個技術突破:一是DiT視頻字幕擦除模型,二是字體級分割模型。DiT模型通過強魯棒性預訓練基底、擺脫輔助先驗依賴、兩階段訓練策略提升魯棒性與修複精細度,實現了像素級無痕修複。字體級分割模型則通過精准定位目標區域,實現了從“粗放擦除”到“像素級修複”的轉變,有效避免了傳統塊填充導致的背景模糊或紋理重複問題。
火山引擎多媒體實驗室聯合工程團隊構建了兼顧精度與效率的技術體系,經過超萬集視頻數據集驗證,擦除任務成功率達到100%。創新的視頻分鏡技術結合服務器集群分布式計算,顯著提升了視頻處理效率。此外,該方案還支持多語言內容流轉,突破了中英文限制,支持多個小語種字幕擦除,爲全球內容流轉提供了雙向通道。
火山引擎視頻點播形成了“擦除-翻譯-口型同步”的一站式閉環,集成了多種語言翻譯能力,並針對短劇場景優化了俚語與文化語境適配。結合語音韻律與面部動作分析技術,實現了翻譯字幕與人物口型的動態對齊,大幅提升了從原視頻到多語言本地化內容的全流程處理效率。
这一技术的推出,不仅为短剧出海提供了强有力的技术支持,也为跨境電商、影视公司等提供了高效的视频处理方案,使得优质内容的全球化传播变得更加简单和高效。火山引擎正通过技术消除视觉隔阂,让每一个精心打磨的镜头都能在全球观众眼中绽放原有的光彩。
火山引擎視頻點播官網:
https://console.volcengine.com/vod/