1000 多名研究人员参与,BigScience 开源迄今最大规模语言模型


BigScience 的研究人员近日发布了一个名为 Bloom 的自然语言处理模型,该模型具有 1760 亿个参数,一举超越市面上的所有竞争对手,成为目前规模最大的语言模型。

该项目始于去年,由人工智能初创公司 Hugging Face Inc.(最近融资了 1 亿美元)与法国研究机构 CNRS 和 GENCI 合作,他们共同成立了一个名为 BigScience 的研究小组来领导 Bloom 的开发。该项目汇集了 70 多个国家/地区、250 多个机构、1000 多名研究人员参与开发。

语言模型的开发成本历来很高,以现在知名度很高的 GPT-3 为例,其成本高达 2760 万美元。这也是这类模型通常被牢牢掌握在微软、Meta、Google 和 OpenAI 等大型科技公司手中的原因。

除此之外,这类大型科技公司开发的语言模型在使用上也有一些限制条件,比如 OpenAI 开发的 GPT-3 并不开源;Meta 开发的 OPT-175B 虽然开源,但完整的模型只有在提出申请后才能获得,并且只能用于非商业用途。而 Bloom 就完全不同,并没有这些限制,任何个人或机构都可以免费获得 1760 亿个参数的完整模型。

Bloom 拥有 1760 亿个参数,一个人工智能系统包含的此类参数越多,它能够执行的任务就越高级。所以 Bloom 目前支持 46 种语言(包括中文)和 13 种编程语言,可以用来回答问题、翻译文本、从文件中提取信息片段,还能像 GitHub Copilot 一样用于生成代码。

BigScience 的研究人员使用巴黎附近的 Jean Zay 超级计算机对 Bloom 进行了训练。这台超级计算机配备了英伟达专为 AI 优化的显卡,其最高速度超过 28 petaflops,其中 1 petaflop 等于每秒 1 千万亿次的计算量。

在未来,该研究小组计划开发一个具有更先进功能的新版 Bloom。BigScience 还打算增加对更多语言的支持,优化人工智能,使其更容易在公司自己的基础设施上运行。除此之外,他么还会积极研究并消除这类模型对宗教、性别、种族和残障人士所怀有的偏见。

Bloom 项目的代码放在了 Hugging Face 的官网上(链接),并没有放在常见的 GitHub 等代码托管平台。


相关文章

2022-11-15

与过去相比,Web 开发人员能接受的框架数量日益减少;研究人员认为,开发者正在减少实验,变得更加坚持使用他们所已知和有效的东西。React 是目前使用最广泛的客户端框架;在过去两年中,React 的采用率一直保持稳定。相

2023-04-03

LP 任务,这些任务将受益于新的金融感知语言模型。彭博研究人员开创了一种混合方法,将金融数据与通用数据集相结合,以训练一个在金融基准上取得优异成绩的模型,同时在通用 LLM 基准上保持有竞争力的表现。" 彭博的 ML

2023-09-05

以及可能引入的错误。 LLaSM 的模型架构如上图所示。研究人员首先使用 Whisper 将原始音频数据编码为嵌入词,然后在预训练阶段训练模态适配器,以对齐音频嵌入词和文本嵌入词。音频嵌入式和文本嵌入式连接在一起,形成

2023-06-10

基于 Base 模型针对 few-shot prompts 微调的结果,通过对 P3 (BigScience) 和 Natural Instruction (AI2) 的各种 NLP 任务进行训练,针对少样本性能进行了优化。Instruct 版本在少数几个任务上表现出优异的性能,超过了类似规模的领先开放模

2023-09-22

都能四世同堂,凭什么开发 30 岁就要被干掉? 36氪从多名独立信源处获悉,大模型公司“智谱AI”于近日完成 B-4 轮融资。其中,腾讯战投、阿里巴巴战投等多家机构参与投资。该轮融资完成后,智谱AI的估值达到约10亿美金。

2023-07-27

GLM 技术团队宣布开源最新的代码模型 CodeGeeX2-6B。CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型,基于 ChatGLM2 架构注入代码实现。 我们希望每一位程序员,都能在自己机器上跑上一个自己的编程助手。为实现这一目标

2022-05-19

国桌面操作系统根社区正当其时。希望有更多的优秀企业参与开源,为我国网信事业发展贡献力量。”沈昌祥院士表示。 开放原子开源基金会秘书长孙文龙在致辞中表示,操作系统生态发展需要开放多元的社区环境、共享共建

2023-06-29

与全球开源 AI 游戏开发挑战赛 还有 11 天,已经有 900 多名参与者报名!借助人工智能工具释放你的创造力,一起打破游戏开发的边界。本挑战赛将在北京时间 2023 年 7 月 8 日凌晨 1 点到 10 日凌晨 1 点间举行,限时 48 小时,

2023-04-04

okens,最大限度地减少所有模型大小的单位计算损失。 研究人员评估了 Cerebras-GPT 在几个任务特定的语言任务上的表现,例如句子完成和问答。结果表明,Cerebras-GPT 为大多数常见的下游任务保持了最先进的训练效率。 Cerebras

2023-03-02

动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。 北京

2023-08-05

卫星星座 Sentinel-2 的测量结果。 IBM 称,新模型旨在帮助研究人员识别美国大陆可能面临洪水和野火风险的地区;迄今为止,该模型分析地理空间数据的速度相较最先进的神经网络提高了 15%。“通过进一步的微调,基础模型可

2022-05-21

;2021 年 12 月至 2022 年 2 月期间对 166 个国家/地区的 20,000 多名开发者进行调查的数据。 报告指出,JavaScript 已经连续十次在该调查中占据最受欢迎的语言位置;社区持续增长,目前全球共有近 1750 万开发人员在使用。自两年前

2023-07-22

AI 由清华大学计算机系唐杰教授创立,团队核心成员曾参与清华大学与智源研究院合作项目"悟道"的研发工作。 2022 年 8 月,清华大学知识工程实验室与智谱 AI 合作研发的高精度双语稠密千亿大模型 GLM-130B 正式上线,是同年

2023-03-30

波因ReScript在 Meta Messenger项目的使用破例受聘,成为公司迄今唯一一位有常驻中国大陆工作经验的软件工程师。张宏波本科毕业于清华大学电子系,在大三时荣获全系专业成绩第一名及国家最高奖学金,后在美国宾夕法尼亚大学