字节发布端到端同声传译模型 Seed LiveInterpret 2.0


字节跳动 Seed 团队宣布正式推出端到端同声传译模型 Seed LiveInterpret 2.0 —— 首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界SOTA的同时,实现了极低的语音延迟水平。

公告称,Seed LiveInterpret 2.0 基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,像人类同传译员一样以极低的延迟 “边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,让沟通更加流畅自然。

在测试中,Seed LiveInterpret 2.0 面对 40 秒的大段中文表达,能够低延迟地丝滑输出同款音色的英语翻译。Seed LiveInterpret 2.0 还能快速学习音色,即便此前未“听”过角色的声音,依然能通过实时交互进行现场演绎。

相比传统机器同传系统,Seed LiveInterpret 2.0 模型具备以下优势:

  • 接近真人同传的翻译准确率

精准的语音理解能力保障了翻译准确度,在多人会议等复杂场景中英双向翻译准确率超 70%,单人演讲翻译准确率超 80%,接近真人专业同传水平。

  • 极低延迟的 “边听边说” 能力

采用全双工语音理解生成框架,翻译延迟可低至 2-3 秒,较传统机器同传系统降低超 60%,实现了真正的 “边听边说” 翻译。

  • 零样本声音复刻,音色真实自然

只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时 “说出” 外语,提升交流的沉浸感和亲和力。

  • 智能平衡翻译质量、延迟和语音输出节奏

可根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。面对超长信息,依然能保证传译语音节奏的自然流畅。

目前,Seed LiveInterpret 2.0 技术报告已公布,模型基于火山引擎对外开放。此外,Ola Friend 耳机也将在 8 月底接入 Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。

评测结果显示,在语音到文本的同传任务中,Seed LiveInterpret 2.0 中英互译平均翻译质量的人类评分达到 74.8(满分 100,评估译文准确率),较排名第二的基准系统(47.3 分)超出 58%。

在语音到语音中英同传任务中,仅 3 个测评的翻译系统支持该能力,其中 Seed LiveInterpret 2.0 中英互译平均翻译质量达到 66.3 分(满分 100,除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标),远超其他基准系统,达到接近专业真人同传的水平。同时,大部分基准系统也不支持声音复刻功能。

在延迟表现上,Seed LiveInterpret 2.0 在语音到文本场景中,输出首字平均延迟仅 2.21 秒,在语音到语音场景中,输出延时仅 2.53 秒,做到了对翻译质量以及时延的均衡。

不过,字节方面也坦承尽管 Seed LiveInterpret 2.0 已初步展现出一定优势,其边界仍有拓展空间。比如,在语言覆盖方面,目前模型主要支持中英互译,其他语种尚未较好支持。此外,其声音复刻的稳定性、语音表现力、情绪复刻能力、极复杂情况下的翻译准确性等仍有进步空间。

更多详情可查看官方公告。


相關推薦

2025-07-23

字节跳动Seed团队正式推出全新Vision-Language-Action Model(VLA)模型 GR-3,该模型在机器人操作领域展现出突破性能力,不仅能理解包含抽象概念的语言指令,还可精准操作柔性物体,并具备快速迁移至新任务、认识新物体的泛化能

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2025-07-23

字节跳动旗下 AI 编程助手 Trae 正式发布 2.0 版本。 据介绍,Trae 2.0 拥有全新的视觉设计,并加入了新的 SOLO 模式。据悉,SOLO 模式为一个具备上下文工程能力的系统,可基于完整信息进行任务规划和执行,支持从代码编写到功

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准

2025-04-01

百度宣布发布业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约50%-90%。 文小言宣布率先接入该模型,同时带来

2025-04-17

AI 科技评论独家获悉,字节 AI Lab 即将全部收归 Seed 团队下。 字节 AI Lab 是 Seed 成立之前字节主要的 AI 研发部门,目前由李航管理,自2024年开始向 Seed 时任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字

2024-09-25

,并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。 据悉,豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力。 据火山引擎介绍,豆包视频生成模型基于DiT架

2025-06-25

此前,一份有关字节跳动豆包大模型核心技术人员乔某及同组HRBP程某存在不正当关系的举报文件在网上广泛传播。6月23日,红星资本局获悉,字前字节Seed大语言模型负责人乔木以及关联HRBP已被辞退。 字节在最新发布的一期

2025-06-17

更新:针对有消息称,字节人工智能实验室 (AI Lab) 负责人李航已经正式卸任,其在内部系统的身份变为劳务/顾问一事,字节相关负责人回应《科创板日报》:“李航是退休返聘,管理范围没有变化。” 据爆料,字节跳

2025-07-17

字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供

2025-05-27

的邮件中快速筛选出重要信息,避免遗漏关键邮件。Teams 同声传译智能体则切实解决了跨国企业的语言障碍问题,为不同语言背景的员工提供了顺畅的沟通环境,尤其对中国出海企业和在华经营的跨国企业意义重大。 不仅如此

2025-07-18

根据网易科技的独家报道,7月17日上午,字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在公司内部宣布“暂时休息”,相关工作已完成交接,其职务由周畅(花名“时光”)接手。 周畅所在架构为“多模态交互与世界

2025-06-07

字节跳动 Seed 团队宣布正式发布了图像编辑模型SeedEdit3.0,技术报告对外公开,模型同步在即梦网页端开启测试,豆包 App 也即将上线。 SeedEdit3.0 基于文生图模型Seedream3.0开发,通过引入多样化的数据融合方法和特定奖励模型,