Meta AI 多语言阅读理解数据集 Belebele，涵盖 122 种语言变体

2023-09-05 發表於开源资讯

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集，名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。

BELEBELE 是首个跨语言并行数据集，可以直接比较所有语言的模型性能。该数据集涵盖了 29 种脚本和 27 个语系中不同类型的高、中、低资源语言。此外，还有 7 种语言包含在两种不同的脚本中，从而为印地语、乌尔都语、孟加拉语、尼泊尔语和僧伽罗语的罗马化变体制定了首个 NLP 基准。

该数据集可对单语和多语模型进行评估，但其并行性也可在一些跨语言环境中对跨语言文本表征进行评估。通过从相关质量保证数据集中收集训练集，可以对任务进行全面微调评估。每个问题都基于 Flores-200 数据集中的一段短文，并有四个多项选择答案。这些问题经过精心设计，以区分具有不同一般语言理解水平的模型。

每种语言有 900 道题
488 个不同段落，每个段落有 1-2 道相关问题。
每道题有 4 个选择答案，其中只有一个是正确的。
122 种语言/语言变体（包括英语）。
900 x 122 = 109,800 个问题。

研究人员利用这个数据集评估了多语言屏蔽语言模型（MLM）和大语言模型（LLM）的能力。结果表明，尽管以英语为中心的 LLM 有显著的跨语言迁移能力，但在平衡的多语言数据上经过预训练的更小的 MLM 仍然能理解更多的语言。且词汇量越大、越有意识地构建词汇，在低资源语言上的表现就越好。

更多详情可查看完整论文。

Meta AI 多语言阅读理解数据集 Belebele，涵盖 122 种语言变体

相關推薦

扎克伯克：Meta 明年投入更多工程和计算资源到 AI 领域

开源跨境电商系统 InnoShop 发布 V0.5.8, 助力企业更好的建设自己的独立站

苹果公开 AI 模型训练策略：从大规模网络抓取到秘密授权交易和合成内容

苹果设备端和服务器端基础语言模型的更新

豆包团队开源多语言代码修复基准 Multi-SWE-bench

Meta 推出 SeamlessM4T，可转录和翻译近 100 种语言

Meta 开发了实时翻译闽南语的 AI

多语言语料库万卷·丝路 2.0 开源

Meta 开源 LlamaFirewall，面向 AI 智能体的安全框架

11Labs 发布对话式 AI 2.0，集成话轮转换和知识库，多语言多角色多模态

Meta 开源 AI 语言模型，维基百科都说好

Mistral AI 发布 1230 亿参数 Large 2 大模型 —— 狙击 Llama 3.1

RWKV7-G1 2.9B 推理模型开源发布，展示数学/代码/全球语言能力，已适配手机 App

Meta 发布新一代开源大模型 Llama 3.1