Meta 开源 AI 语言模型,维基百科都说好


Facebook 是全球最大的社交平台,可以将全球各地的用户紧密联系到一起。为了让用户不受地域、语言等条件限制,Facebook 母公司 Meta 近日宣布其 NLLB(No Language Left Behind)项目取得了突破,能为世界上大多数语言开发出高质量的机器翻译。

该 AI 模型名为 NLLB-200,可以翻译超过 200 种不同的语言。为了评估新模型的输出质量,Meta 创建了一个测试数据集,包括该模型所涵盖的每种语言的 3001 个句子对,每个句子都由专业翻译和母语人士从英语翻译成目标语言。

研究人员通过他们的模型运行这些句子,并使用机器翻译中常见的 BLEU 基准将机器翻译与人类翻译的参考句子进行比较。测试表明,新的 NLLB-200 模型在支持的语言中获得了平均 44% 的 BLEU 分数的提升,在针对某些非洲和印度方言的测试中甚至提升了 70%。

目前全球范围内一共有数千种不同的语言,但由于语言数据的匮乏导致如今的翻译技术仍然有很多不足之处。以大家熟知的 Google 翻译为例,它目前能够翻译的语言数量仅限于 133 种;而微软的必应翻译支持的语言比 Google 翻译更少。

虽说这些翻译工具支持的语言只有 100 多种,再加上全世界一半以上的人口所使用的语言就那么十几二十种,翻译工具是能够满足大部分用户的使用需求的,但这对那些使用低资源语言(特别是在非洲)的用户来说就十分不友好,导致这些语言的使用者和他们希望消费的内容之间的交流受到了阻碍。

马克·扎克伯格表示:

我们刚刚开源了一个我们建立的 AI 模型,它可以翻译 200 种不同的语言,其中有许多语言还是目前不被其他翻译系统所支持的。我们把这个项目称为 "No Language Left Behind",我们使用的 AI 建模技术能够为全世界数十亿人使用的语言构建出高质量的翻译。

尽管在技术上取得了突破,但 Meta 公司认为如果没有创新的合作,实现 NLLB 项目的目标将是不可能完成的。为了使其他研究人员能够扩大语言范围,建立更多的包容性技术,Meta 将 NLLB-200 模型开源了,与此同时还向非营利组织提供了高达 20 万美元的资助,以便将 NLLB-200 应用于他们的业务。

维基媒体基金会目前已在 Content Translation 工具中引入了 NLLB-200 模型背后的技术,维基百科的编辑们可以使用该技术更有效地翻译和编辑源自其他代表性不足的语言的文章,这有助于使全世界的维基百科读者以更多的语言获得更多的知识。

NLLB-200 技术演示地址:https://nllb.metademolab.com/

项目地址:https://github.com/facebookresearch/fairseq/tree/nllb/


相關推薦

2023-10-25

受与其他任何人相同的浏览体验。Kiwix 软件及其内容完全开源,可免费使用和共享。 via Stack Overflow 宣布推出离线版本 马斯克此举引发了许多人关于维基媒体基金会所请求资金用途的询问。该组织随后出面解释,称维基百科

2023-07-06

可用的数据进行人工智能模型 (AI models) 训练。 谷歌将"语言模型"一词替换为"AI模型",并表示可能允许使用任何公开数据来构建功能和完整产品,如 Google 翻译、Bard 和 Cloud AI 能力。 这项更新于 2023 年 7 月 1 日发布: 这项政

2023-08-26

创会」北京站,聊聊 AI 大模型与底层技术 >>> Meta 刚刚开源了号称是编程领域“最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言,包括 Python、C++、Java、PH

2022-10-22

模型仍然为通用翻译开辟了更多的新语言。 Meta 未来将开源这个闽南语的模型、代码、基准数据和论文等资料,供其他人构建自己的 AI 实时翻译工具。Meta AI 的工程师除了希望这个 AI 翻译系统可以帮助用户跨越语言障碍更自如

2023-10-28

关人员转向从事AI工作。 上月曾报道过,Meta 正在构建新开源大模型,据称性能超越 Llama 2、比肩 GPT-4,最终目标是加速开发下一代生成式人工智能模型,使其能够生成更多类似人类的表达。 长期以来,Meta 一直在采用开源方

2023-06-09

在面向公众开放的短时间里,都经历了危险地滥用 —— 开源模型则进一步加剧了这种风险。” 信中还举例指责了 Meta 在审查方面的缺失:当被要求“写一张纸条,假装是某人的儿子,向他要钱以摆脱困境”时,OpenAI 的 ChatGPT

2023-02-28

GPT-3 不同,我们只使用公开的数据集,使我们的工作与开源兼容并可重现,而大多数现有模型依赖的数据要么不公开,要么没有记录。 目前 LLaMA 的一个精简版可在 GitHub 上找到,Meta 暂时还没有要公开发布完整模型和权重的

2023-09-05

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。 BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵

2023-08-04

Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft,该工具可以帮助用户根据文本提示创作音乐和音频。 Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼

2024-02-04

季度财报电话会议中,马克 - 扎克伯格解释 Meta 为什么要开源其 AI 技术。 Meta开源其 AI 技术是出于推动技术创新、提升模型质量、建立行业标准、吸引人才、增加透明度和支持其长期战略的考虑。这不仅有助于 Meta 在竞争激烈

2023-09-12

正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终功能尚

2022-07-16

在使用上也有一些限制条件,比如 OpenAI 开发的 GPT-3 并不开源;Meta 开发的 OPT-175B 虽然开源,但完整的模型只有在提出申请后才能获得,并且只能用于非商业用途。而 Bloom 就完全不同,并没有这些限制,任何个人或机构都可以

2023-08-25

底层技术 >>> Meta 宣布推出 SeamlessM4T,一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。SeamlessM4T 支持: 自动语音识别近百种语言 近 100 种输入和输出语言的语音到文本翻译 语音翻译,支持近 100 种

2023-02-08

TIOBE 公布了 2023 年 2 月的编程语言排行榜。 总的来说,本月 TIOBE 指数变化不大。在获得 2022 年度编程语言之后,C++ 仍然保持着远远领先于其他编程语言的势头,目前的同比增幅为 5.93%。涨幅第二的是 C 语言,但只有 1