Meta 推出 SeamlessM4T,可转录和翻译近 100 种语言


8 月 26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>>

Meta 宣布推出 SeamlessM4T,一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。SeamlessM4T 支持:

  • 自动语音识别近百种语言
  • 近 100 种输入和输出语言的语音到文本翻译
  • 语音翻译,支持近 100 种输入语言和 35 种(+英语)输出语言
  • 近 100 种语言的文本到文本翻译
  • 文本转语音翻译,支持近 100 种输入语言和 35种(+英语)输出语言

目前,SeamlessM4T 已在 CC BY-NC 4.0 许可下发布,以便研究人员可以在此基础上进行开发。与此同时,Meta 还发布了一个多模式翻译数据集 SeamlessAlign,包含 270,000 小时的语音和文本对齐。 

Meta 表示,现有的语音转语音和语音转文本程序仅覆盖世界上一小部分语言, 而 SeamlessM4T 代表了语音到语音和语音到文本领域的重大突破,它解决了语言覆盖面有限和依赖独立系统的难题,将语音到语音的翻译任务分成多个阶段,跨越多个子系统。

“我们所面临的挑战是创建一个可以完成这一切的统一多语言模型。我们相信,我们今天宣布的工作是在这一征程中迈出的重要一步。我们的单一模式可提供按需翻译,让使用不同语言的人能够更有效地交流。我们显着提高了我们支持的中低资源语言的性能...... SeamlessM4T 能隐式识别源语言,无需单独的语言识别模型。”

SeamlessM4T 建立在 Meta 在该领域的现有工作基础上,包括 No Language Left BehindUniversal Speech TranslatorSpeechMatrix 和 Massively Multilingual Speech

Meta 方面表示,他们在研发过程中遵循"five pillars of Responsible AI"指导原则;并进行了毒性和偏见研究,以了解模式中可能存在的敏感区域。并对模型进行了性别偏见评估,目前已能够量化数十个语音翻译方向的性别偏见。

当使用允许跨语音和文本单元进行评估的 BLASER 2.0 进行测试时,与目前最先进的语音到文本任务模型相比,SeamlessM4T 模型在语音到文本任务中对抗背景噪声和说话者变化的表现更好(平均分别提高了 37% 和 48%)。“SeamlessM4T 的性能也优于之前最先进的竞争对手。

更多详情可查看官方博客。


相關推薦

2023-10-28

ode Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生成式人工智能模型 AudioCraft;语音生成人工智能模型 Voicebox。它还推出了 I-JEPA(一种可以像人类一样学习的计算机视觉模型)和 F

2023-09-12

ode Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生成式人工智能模型 AudioCraft;语音生成人工智能模型 Voicebox。它还推出了 I-JEPA(一种可以像人类一样学习的计算机视觉模型)和 F

2022-07-08

取得了突破,能为世界上大多数语言开发出高质量的机器翻译。 该 AI 模型名为 NLLB-200,可以翻译超过 200 种不同的语言。为了评估新模型的输出质量,Meta 创建了一个测试数据集,包括该模型所涵盖的每种语言的 3001 个句子对

2022-10-22

目前大多数的人工智能翻译都集中在翻译书面语言上,因为这些语言具有丰富的数据集,对 AI 而言这也是训练机器学习系统理解和翻译的最简便的方法。然而,全球共有超过 7000 种不同的语言,其中更有超过 40% 的语言是没有标

2022-07-29

求将代码转换为不同的语言。 Hack 是 Meta 自己开发推出的一款新的编程语言,一种类型安全的 PHP 变体,依赖于 HipHop Virtual Machine (HHVM)。Meta 推荐将 Hack 用于业务逻辑和相对无状态的应用,推荐将 Python 用于数据科学、ML 应

2023-08-26

层技术 >>> Meta 刚刚开源了号称是编程领域“最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。

2024-07-25

该模型在通用常识、可引导性、数学、工具使用和多语言翻译等广泛任务中足以对标 GPT-4、Claude 3.5 Sonnet 等领先闭源模型。 Llama 3.1 现已于 Meta 官网和 Hugging Face 开放下载。 Llama 3.1 论文:https://ai.meta.com/research/publications/the-lla

2023-09-05

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。 BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵

2022-10-20

i 5.1 已发布,此版本为翻译管道添加了新的模型支持、在转录管道和 ARM Docker 镜像中支持 OpenAI Whisper、升级和改进主题建模,包括使用 BM25/TF-IDF 索引来驱动主题模型。 txtai 是一个人工智能驱动的搜索引擎,可以在文本的各个

2023-10-26

LP 的模型中心有 2 万多个模型和管道可供下载,用于语言翻译、命名实体识别、文本分类、问题解答、情感分析和其他用例。2023 年,Spark NLP 发布了许多 LLM 集成、新的图像到文本注释器、对所有主要公共云存储系统的支持以及

2022-10-28

一些经验。 该公司认为,Kotlin 是一种流行的 Android 开发语言,与 Java 相比具有一些关键优势。“因此,在我们努力使我们的开发工作流程更加高效的过程中,将 Meta 的 Android 开发转向 Kotlin 是非常合理的......Kotlin 通常被认为是

2022-10-09

到目前为止,人工智能推理引擎在很大程度上被束缚在它们所设计的特定硬件上。这样的硬件锁定意味着开发人员将需要为不同的硬件构建特定的软件,并且很可能也会减缓行业整体创新的步伐。 Meta 日前开源了一套新的 Python

2023-02-28

ChatGPT 持续火热,大型科技公司争先恐后地涌入 AI 军备竞赛中,这也为 AI 领域又带来了一个新的模型与潜在竞争对手 —— LLaMA。 LLaMA 语言模型全称为 "Large Language Model Meta AI",是 Meta 近日公布的一个全新的大型语言模型(LLM

2023-03-17

Games Summit(游戏峰会)上,Google 宣布将为 Android 开发者推出免费的翻译服务。这可以让开发者更容易地针对不同国家/地区进行本地化,目前该服务支持七种语言。 这项翻译服务将结合现有的 Google 翻译以及基于变换模型(Tra