Meta 开源 AI 语言模型,维基百科都说好


Facebook 是全球最大的社交平台,可以将全球各地的用户紧密联系到一起。为了让用户不受地域、语言等条件限制,Facebook 母公司 Meta 近日宣布其 NLLB(No Language Left Behind)项目取得了突破,能为世界上大多数语言开发出高质量的机器翻译。

该 AI 模型名为 NLLB-200,可以翻译超过 200 种不同的语言。为了评估新模型的输出质量,Meta 创建了一个测试数据集,包括该模型所涵盖的每种语言的 3001 个句子对,每个句子都由专业翻译和母语人士从英语翻译成目标语言。

研究人员通过他们的模型运行这些句子,并使用机器翻译中常见的 BLEU 基准将机器翻译与人类翻译的参考句子进行比较。测试表明,新的 NLLB-200 模型在支持的语言中获得了平均 44% 的 BLEU 分数的提升,在针对某些非洲和印度方言的测试中甚至提升了 70%。

目前全球范围内一共有数千种不同的语言,但由于语言数据的匮乏导致如今的翻译技术仍然有很多不足之处。以大家熟知的 Google 翻译为例,它目前能够翻译的语言数量仅限于 133 种;而微软的必应翻译支持的语言比 Google 翻译更少。

虽说这些翻译工具支持的语言只有 100 多种,再加上全世界一半以上的人口所使用的语言就那么十几二十种,翻译工具是能够满足大部分用户的使用需求的,但这对那些使用低资源语言(特别是在非洲)的用户来说就十分不友好,导致这些语言的使用者和他们希望消费的内容之间的交流受到了阻碍。

马克·扎克伯格表示:

我们刚刚开源了一个我们建立的 AI 模型,它可以翻译 200 种不同的语言,其中有许多语言还是目前不被其他翻译系统所支持的。我们把这个项目称为 "No Language Left Behind",我们使用的 AI 建模技术能够为全世界数十亿人使用的语言构建出高质量的翻译。

尽管在技术上取得了突破,但 Meta 公司认为如果没有创新的合作,实现 NLLB 项目的目标将是不可能完成的。为了使其他研究人员能够扩大语言范围,建立更多的包容性技术,Meta 将 NLLB-200 模型开源了,与此同时还向非营利组织提供了高达 20 万美元的资助,以便将 NLLB-200 应用于他们的业务。

维基媒体基金会目前已在 Content Translation 工具中引入了 NLLB-200 模型背后的技术,维基百科的编辑们可以使用该技术更有效地翻译和编辑源自其他代表性不足的语言的文章,这有助于使全世界的维基百科读者以更多的语言获得更多的知识。

NLLB-200 技术演示地址:https://nllb.metademolab.com/

项目地址:https://github.com/facebookresearch/fairseq/tree/nllb/


相關推薦

2024-08-02

根据维基百科的 2023 年社区调查报告,支持“深色模式”(Dark Mode)是用户呼声最高的功能。 https://meta.wikimedia.org/wiki/Community_Wishlist_Survey_2023/Results/zh 现在在社区的努力之下,维基百科终于实现了对深色模式的支持,该支持

2023-10-25

受与其他任何人相同的浏览体验。Kiwix 软件及其内容完全开源,可免费使用和共享。 via Stack Overflow 宣布推出离线版本 马斯克此举引发了许多人关于维基媒体基金会所请求资金用途的询问。该组织随后出面解释,称维基百科

2023-07-06

可用的数据进行人工智能模型 (AI models) 训练。 谷歌将"语言模型"一词替换为"AI模型",并表示可能允许使用任何公开数据来构建功能和完整产品,如 Google 翻译、Bard 和 Cloud AI 能力。 这项更新于 2023 年 7 月 1 日发布: 这项政

2023-08-26

创会」北京站,聊聊 AI 大模型与底层技术 >>> Meta 刚刚开源了号称是编程领域“最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言,包括 Python、C++、Java、PH

2022-10-22

模型仍然为通用翻译开辟了更多的新语言。 Meta 未来将开源这个闽南语的模型、代码、基准数据和论文等资料,供其他人构建自己的 AI 实时翻译工具。Meta AI 的工程师除了希望这个 AI 翻译系统可以帮助用户跨越语言障碍更自如

2023-10-28

关人员转向从事AI工作。 上月曾报道过,Meta 正在构建新开源大模型,据称性能超越 Llama 2、比肩 GPT-4,最终目标是加速开发下一代生成式人工智能模型,使其能够生成更多类似人类的表达。 长期以来,Meta 一直在采用开源方

2023-06-09

在面向公众开放的短时间里,都经历了危险地滥用 —— 开源模型则进一步加剧了这种风险。” 信中还举例指责了 Meta 在审查方面的缺失:当被要求“写一张纸条,假装是某人的儿子,向他要钱以摆脱困境”时,OpenAI 的 ChatGPT

2023-02-28

GPT-3 不同,我们只使用公开的数据集,使我们的工作与开源兼容并可重现,而大多数现有模型依赖的数据要么不公开,要么没有记录。 目前 LLaMA 的一个精简版可在 GitHub 上找到,Meta 暂时还没有要公开发布完整模型和权重的

2023-09-05

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。 BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵

2024-07-31

a 创始人 CEO 马克·扎克伯格举行炉边谈话,讨论了讨论了开源 AI 和 AI 助手的未来。 黄仁勋称赞了Meta的开源大模型,他与扎克伯格都同意应坚持大模型的开源路线。黄仁勋表示:“就像我身上穿的皮衣,我不愿意自己去制作

2024-09-27

Meta 今天发布了 Llama 3.2 系列开源模型,其中包括小型和中型视觉 LLMs(11B 和 90B),以及适合边缘和移动设备的小型纯文本模型(1B 和 3B),包括预训练和指令调整版本。 LLaMA 3.2 支持同时处理文本、图像和视频,能够理解并生

2024-07-06

Meta 今年 4 月曾在一篇论文中介绍了一种利用多标记预测(multi-token prediction)实现更好、更快 LLM 的新训练方法。为了便于研究人员进一步探索,该公司现如今在 HuggingFace 上发布了使用这种方法完成代码的预训练模型。 “大

2023-08-04

Facebook 母公司 Meta 宣布开源文本生成音乐工具 Audiocraft,该工具可以帮助用户根据文本提示创作音乐和音频。 Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼

2024-07-25

Meta 在今天凌晨正式发布新一代开源大模型 Llama 3.1 系列。与此同时,Meta 创始人兼首席执行官马克·扎克伯格也发布了一封名为“Open Source AI Is the Path Forward”的公开信,描绘了 AI 发展的未来愿景。 他以闭源版 Unix 和开源 Linux