Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

2023-08-25 發表於开源资讯

8 月 26 日「源创会」北京站，聊聊 AI 大模型与底层技术 >>>

Meta 宣布推出 SeamlessM4T，一种基础的多语言和多任务模型，可以无缝翻译和转录语音和文本。SeamlessM4T 支持：

自动语音识别近百种语言
近 100 种输入和输出语言的语音到文本翻译
语音翻译，支持近 100 种输入语言和 35 种（+英语）输出语言
近 100 种语言的文本到文本翻译
文本转语音翻译，支持近 100 种输入语言和 35种（+英语）输出语言

目前，SeamlessM4T 已在 CC BY-NC 4.0 许可下发布，以便研究人员可以在此基础上进行开发。与此同时，Meta 还发布了一个多模式翻译数据集 SeamlessAlign，包含 270,000 小时的语音和文本对齐。

Meta 表示，现有的语音转语音和语音转文本程序仅覆盖世界上一小部分语言，而 SeamlessM4T 代表了语音到语音和语音到文本领域的重大突破，它解决了语言覆盖面有限和依赖独立系统的难题，将语音到语音的翻译任务分成多个阶段，跨越多个子系统。

“我们所面临的挑战是创建一个可以完成这一切的统一多语言模型。我们相信，我们今天宣布的工作是在这一征程中迈出的重要一步。我们的单一模式可提供按需翻译，让使用不同语言的人能够更有效地交流。我们显着提高了我们支持的中低资源语言的性能...... SeamlessM4T 能隐式识别源语言，无需单独的语言识别模型。”

SeamlessM4T 建立在 Meta 在该领域的现有工作基础上，包括 No Language Left Behind、Universal Speech Translator、SpeechMatrix 和 Massively Multilingual Speech。

Meta 方面表示，他们在研发过程中遵循"five pillars of Responsible AI"指导原则；并进行了毒性和偏见研究，以了解模式中可能存在的敏感区域。并对模型进行了性别偏见评估，目前已能够量化数十个语音翻译方向的性别偏见。

当使用允许跨语音和文本单元进行评估的 BLASER 2.0 进行测试时，与目前最先进的语音到文本任务模型相比，SeamlessM4T 模型在语音到文本任务中对抗背景噪声和说话者变化的表现更好（平均分别提高了 37% 和 48%）。“SeamlessM4T 的性能也优于之前最先进的竞争对手。”

更多详情可查看官方博客。

Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

相關推薦

扎克伯克：Meta 明年投入更多工程和计算资源到 AI 领域

Meta 正在构建新开源大模型，性能超越 Llama 2、比肩 GPT-4

Meta 开源 AI 语言模型，维基百科都说好

英伟达发布并开源两款多语言语音模型，支持商用

Meta 开发了实时翻译闽南语的 AI

真我推出首款 AI 翻译耳机，支持 32 种语言翻译

Meta 宣布全球首个 1GW+ 能耗超级计算机集群即将上线

Meta 支持将 Hack/Python/C++/Rust 作为开发人员首选语言

微软近 5 万 star 的开源项目 —— MarkItDown 已支持 MCP

Meta 开源基于 Llama 2 的 AI 代码生成大模型：Code Llama

Meta 发布新一代开源大模型 Llama 3.1

Mistral AI 开源 AI 音频模型系列 Voxtral

Meta AI 多语言阅读理解数据集 Belebele，涵盖 122 种语言变体

txtai 5.1 发布，构建 AI 驱动的语义搜索应用