阿联酋研究团队近日宣布开源阿拉伯语大模型 Jais。
Jais 是一个经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型,在包含 720 亿个阿拉伯语词块和 2790 亿个英语/代码词块的数据集上进行训练。该模型由 Cerebras、阿联酋人工智能大学和 G42 旗下子公司 Inception 合作研发。
Jais 的命名来自阿联酋的最高峰,阿联酋人工智能大学教授 Timothy Baldwin 表示,由于没有足够的阿拉伯语数据来训练 Jais 大小的模型,因此英语数据中的计算机代码有助于训练模型的推理能力。
目前这款模型现已开源,用户可以从 HuggingFace 获取。
https://huggingface.co/inception-mbzuai/jais-13b