字节跳动推出视频字幕无痕擦除方案,基于 DiT 大模型打造


字节跳动技术团队宣布推出一项创新技术,基于DiT大模型与字体级分割的视频字幕无痕擦除方案,旨在助力短剧等视频内容的全球化传播。

在全球化内容制作中,原始视频的中文字幕对于海外观众而言不仅是无效信息,还严重影响观看体验。传统的字幕添加或马赛克、GAN(生成对抗网络)等字幕擦除方案,往往导致画面杂乱、模糊或帧间闪烁,无法彻底解决这一问题。

火山引擎视频点播推出的这一方案,通过两大核心技术突破和强大的工程能力,重新定义了字幕擦除标准,实现了全片真实自然的“无痕擦除”,并支持多字幕框、指定时间段的精准擦除。

该方案的核心在于两个技术突破:一是DiT视频字幕擦除模型,二是字体级分割模型。DiT模型通过强鲁棒性预训练基底、摆脱辅助先验依赖、两阶段训练策略提升鲁棒性与修复精细度,实现了像素级无痕修复。字体级分割模型则通过精准定位目标区域,实现了从“粗放擦除”到“像素级修复”的转变,有效避免了传统块填充导致的背景模糊或纹理重复问题。

火山引擎多媒体实验室联合工程团队构建了兼顾精度与效率的技术体系,经过超万集视频数据集验证,擦除任务成功率达到100%。创新的视频分镜技术结合服务器集群分布式计算,显著提升了视频处理效率。

此外,该方案还支持多语言内容流转,突破了中英文限制,支持多个小语种字幕擦除,为全球内容流转提供了双向通道。


相關推薦

2024-09-25

字节跳动今天在深圳举办2024火山引擎 AI 创新巡展,并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。 据悉,豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

2024-10-21

近日,有消息称字节跳动发生大模型训练被实习生“投毒”事件。 据悉,该事件发生在字节跳动商业化团队,因实习生田某某对团队资源分配不满,利用HF(huggingface)的漏洞,通过共享模型注入破坏代码,导致团队模型训练成

2025-07-23

字节跳动Seed团队正式推出全新Vision-Language-Action Model(VLA)模型 GR-3,该模型在机器人操作领域展现出突破性能力,不仅能理解包含抽象概念的语言指令,还可精准操作柔性物体,并具备快速迁移至新任务、认识新物体的泛化能

2025-05-15

字节跳动正式开源了全新图像定制框架DreamO。该框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能,旨在通过单一模型完成各种定制化任务。 https://github.com/bytedance/DreamO DreamO基于DiT(Diffusion Transform

2025-05-30

字节跳动公司发布了一款名为 “剪小映” 的新应用,其宣传口号 “捕捉美好,智创影片” 引发了广泛关注。 这也是字节继 “即梦 AI” 之后的又一力作。借助火山引擎的豆包大模型技术,“剪小映” 旨在为用户提供更加便

2025-06-19

在近期的人工智能视频生成领域,字节跳动悄然发布了一款名为 Seedance1.0的新模型,该模型在独立的评测中已经超越了谷歌最新推出的 Veo3。 Seedance1.0的研究论文中详细介绍了该模型的创新之处。字节跳动的团队通过对空间和时

2024-09-26

模型原名“云雀”,是国内通过算法备案的大模型之一。字节跳动基于豆包大模型打造了 AI 对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等 AI 创作工具,并把大模型接入抖音、番茄小

2025-04-29

字节跳动近日宣布推出其全新的数据选择框架 QuaDMix,旨在提升大型语言模型(LLM)预训练的效率和泛化能力。众所周知,模型的训练效果受基础数据集的质量和多样性影响很大。然而,传统的数据筛选方法往往将质量和多样性

2024-08-14

公,效率翻倍。 豆包 抖音旗下的人工智能产品,基于字节跳动推出的自研豆包大模型。豆包电脑版以“豆包”主智能体为核心,集合AI搜索、写作、阅读总结、图像生成功能于一体,能够在工作、学习等各种场景为你提供帮

2025-06-17

更新:针对有消息称,字节人工智能实验室 (AI Lab) 负责人李航已经正式卸任,其在内部系统的身份变为劳务/顾问一事,字节相关负责人回应《科创板日报》:“李航是退休返聘,管理范围没有变化。” 据爆料,字节跳

2025-07-05

字节跳动旗下AI原生集成开发环境(IDE)Trae 宣布正式开源其核心组件Trae-Agent。 Trae-Agent是字节跳动打造的智能开发工具,支持自然语言驱动的编程任务自动化,极大提升开发效率。其核心亮点包括: 多模型支持:兼容OpenAI

2025-06-28

字节跳动正式发布了 Agent TARS 的 Beta 版本,将其定位为一个开源的多模态 AI Agent 工具,旨在提供与各种现实世界工具的无缝集成能力,并实现“随时随地可用”。 Agent TARS 的早期预览版已于三月份开源。此

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准