字节发布端到端同声传译模型 Seed LiveInterpret 2.0

2025-07-25 發表於开源资讯

字节跳动 Seed 团队宣布正式推出端到端同声传译模型 Seed LiveInterpret 2.0 —— 首个延迟&准确率接近人类水平的产品级中英语音同传系统，在中英同传翻译质量达到业界SOTA的同时，实现了极低的语音延迟水平。

公告称，Seed LiveInterpret 2.0 基于全双工端到端语音生成理解框架，支持中英互译，可实时处理多人语音输入，像人类同传译员一样以极低的延迟 “边听边说”，一边接收源语言语音输入，一边直接输出目标语言的翻译语音。同时，Seed LiveInterpret 2.0 还支持 0 样本声音复刻，让沟通更加流畅自然。

在测试中，Seed LiveInterpret 2.0 面对 40 秒的大段中文表达，能够低延迟地丝滑输出同款音色的英语翻译。Seed LiveInterpret 2.0 还能快速学习音色，即便此前未“听”过角色的声音，依然能通过实时交互进行现场演绎。

相比传统机器同传系统，Seed LiveInterpret 2.0 模型具备以下优势：

接近真人同传的翻译准确率

精准的语音理解能力保障了翻译准确度，在多人会议等复杂场景中英双向翻译准确率超 70%，单人演讲翻译准确率超 80%，接近真人专业同传水平。

极低延迟的 “边听边说” 能力

采用全双工语音理解生成框架，翻译延迟可低至 2-3 秒，较传统机器同传系统降低超 60%，实现了真正的 “边听边说” 翻译。

零样本声音复刻，音色真实自然

只需采样实时语音信号，便能提取声音特征，用说话人的音色特质实时 “说出” 外语，提升交流的沉浸感和亲和力。

智能平衡翻译质量、延迟和语音输出节奏

可根据语音清晰度、流畅度、复杂程度，调整输出节奏，并适配不同语言特性。面对超长信息，依然能保证传译语音节奏的自然流畅。

目前，Seed LiveInterpret 2.0 技术报告已公布，模型基于火山引擎对外开放。此外，Ola Friend 耳机也将在 8 月底接入 Seed LiveInterpret 2.0，成为首个支持该模型的智能硬件设备。

评测结果显示，在语音到文本的同传任务中，Seed LiveInterpret 2.0 中英互译平均翻译质量的人类评分达到 74.8（满分 100，评估译文准确率），较排名第二的基准系统（47.3 分）超出 58%。

在语音到语音中英同传任务中，仅 3 个测评的翻译系统支持该能力，其中 Seed LiveInterpret 2.0 中英互译平均翻译质量达到 66.3 分（满分 100，除评估译文准确率，还评估语音输出时延、语速、发音、流畅性等指标），远超其他基准系统，达到接近专业真人同传的水平。同时，大部分基准系统也不支持声音复刻功能。