Meta AI 多语言阅读理解数据集 Belebele,涵盖 122 种语言变体


Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。

BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵盖了 29 种脚本和 27 个语系中不同类型的高、中、低资源语言。此外,还有 7 种语言包含在两种不同的脚本中,从而为印地语、乌尔都语、孟加拉语、尼泊尔语和僧伽罗语的罗马化变体制定了首个 NLP 基准。

该数据集可对单语和多语模型进行评估,但其并行性也可在一些跨语言环境中对跨语言文本表征进行评估。通过从相关质量保证数据集中收集训练集,可以对任务进行全面微调评估。每个问题都基于 Flores-200 数据集中的一段短文,并有四个多项选择答案。这些问题经过精心设计,以区分具有不同一般语言理解水平的模型。

  • 每种语言有 900 道题
  • 488 个不同段落,每个段落有 1-2 道相关问题。
  • 每道题有 4 个选择答案,其中只有一个是正确的。
  • 122 种语言/语言变体(包括英语)。
  • 900 x 122 = 109,800 个问题。

研究人员利用这个数据集评估了多语言屏蔽语言模型(MLM)和大语言模型(LLM)的能力。结果表明,尽管以英语为中心的 LLM 有显著的跨语言迁移能力,但在平衡的多语言数据上经过预训练的更小的 MLM 仍然能理解更多的语言。且词汇量越大、越有意识地构建词汇,在低资源语言上的表现就越好。

更多详情可查看完整论文。


相關推薦

2023-10-28

计算机视觉模型的偏差)。 延伸阅读 Meta AI 多语言阅读理解数据集 Belebele,涵盖 122 种语言变体 Meta 开源基于 Llama 2 的 AI 代码生成大模型:Code Llama Meta 推出 SeamlessM4T,可转录和翻译近 100 种语言 Meta 发布开源 AI 工

2023-08-25

与底层技术 >>> Meta 宣布推出 SeamlessM4T,一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。SeamlessM4T 支持: 自动语音识别近百种语言 近 100 种输入和输出语言的语音到文本翻译 语音翻译,支持近 100

2022-10-22

翻译都集中在翻译书面语言上,因为这些语言具有丰富的数据集,对 AI 而言这也是训练机器学习系统理解和翻译的最简便的方法。然而,全球共有超过 7000 种不同的语言,其中更有超过 40% 的语言是没有标准书写系统的。 来自

2022-07-08

语言。为了评估新模型的输出质量,Meta 创建了一个测试数据集,包括该模型所涵盖的每种语言的 3001 个句子对,每个句子都由专业翻译和母语人士从英语翻译成目标语言。 研究人员通过他们的模型运行这些句子,并使用机器

2023-03-02

VA,视觉通用多任务模型Painter,文生图大模型AltDiffusion(多语言),文图表征预训练大模型(多语言)、EVA-CLIP(英文),阿拉伯语大模型ALM,百亿语言基础模型CPM3等。 目前,FlagAI 已经加入 Linux 基金会,吸引全球

2023-10-19

>>> 腾讯宣布开源 tRPC ,一款基于插件化理念设计的支持多语言、高性能的 RPC 开发框架。首批开源支持 Go/Cpp 两种编程语言,预计接下来会开源更多编程语言的支持。 根据介绍吗,tRPC 通过对底层通信的封装提供RPC的调用方式

2023-04-04

模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型,并仅通过 API 访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术,我们认为重

2023-07-27

技术团队宣布开源最新的代码模型 CodeGeeX2-6B。CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型,基于 ChatGLM2 架构注入代码实现。 我们希望每一位程序员,都能在自己机器上跑上一个自己的编程助手。为实现这一目标,

2022-10-01

I18N SIG组负责openKylin社区国际化和本地化相关工作,包括多语言开发框架、多语言平台开发和维护,以及社区、版本内文档的翻译管理相关工作。本月主要进展如下: 完成翻译维护流程文档的编写上传,同步openKylin项目至webl

2023-10-26

23 年最佳开源软件榜单,旨在表彰年度领先的软件开发、数据管理、分析、人工智能和机器学习开源工具。 InfoWorld 是致力于引领 IT 决策者走在科技前沿的国际科技媒体品牌,每年 InfoWorld 都会根据软件对开源界的贡献,以及在

2023-09-12

今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言模型; 可实现数百种语言通用按需翻译的 SeamlessM4T 模型; 用于创作音乐和声音的生成式人工智能模型 AudioCraft;语

2023-08-26

补全和调试。每个模型都使用 500B 代码 tokens 和代码相关数据进行训练,此外 7B 和 13B 基础模型和指令模型经过了中间填充 (FIM) 功能的训练,支持在现有代码中插入代码的功能。 Meta 表示这三种不同大小模型满足了不同的服务

2023-12-02

超过3万亿tokens的数据进行预训练,包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。通过大量对比实验对预训练语料分布进行了优化。 强大的性能:Qwen-72B在多个中英文下游评测任务上(涵盖

2023-10-26

轻松将Astra DB或Apache Cassandra添加为LangChain框架内的新矢量数据源。🏭 该整合对初创企业和大型企业的开发者都具有重要意义,特别是在构建生成式AI应用程序时。👨‍💻💡🎯聚焦开发者DeepSparse:稀疏性技术加速神经网络推理De