1000 多名研究人员参与,BigScience 开源迄今最大规模语言模型


BigScience 的研究人员近日发布了一个名为 Bloom 的自然语言处理模型,该模型具有 1760 亿个参数,一举超越市面上的所有竞争对手,成为目前规模最大的语言模型。

该项目始于去年,由人工智能初创公司 Hugging Face Inc.(最近融资了 1 亿美元)与法国研究机构 CNRS 和 GENCI 合作,他们共同成立了一个名为 BigScience 的研究小组来领导 Bloom 的开发。该项目汇集了 70 多个国家/地区、250 多个机构、1000 多名研究人员参与开发。

语言模型的开发成本历来很高,以现在知名度很高的 GPT-3 为例,其成本高达 2760 万美元。这也是这类模型通常被牢牢掌握在微软、Meta、Google 和 OpenAI 等大型科技公司手中的原因。

除此之外,这类大型科技公司开发的语言模型在使用上也有一些限制条件,比如 OpenAI 开发的 GPT-3 并不开源;Meta 开发的 OPT-175B 虽然开源,但完整的模型只有在提出申请后才能获得,并且只能用于非商业用途。而 Bloom 就完全不同,并没有这些限制,任何个人或机构都可以免费获得 1760 亿个参数的完整模型。

Bloom 拥有 1760 亿个参数,一个人工智能系统包含的此类参数越多,它能够执行的任务就越高级。所以 Bloom 目前支持 46 种语言(包括中文)和 13 种编程语言,可以用来回答问题、翻译文本、从文件中提取信息片段,还能像 GitHub Copilot 一样用于生成代码。

BigScience 的研究人员使用巴黎附近的 Jean Zay 超级计算机对 Bloom 进行了训练。这台超级计算机配备了英伟达专为 AI 优化的显卡,其最高速度超过 28 petaflops,其中 1 petaflop 等于每秒 1 千万亿次的计算量。

在未来,该研究小组计划开发一个具有更先进功能的新版 Bloom。BigScience 还打算增加对更多语言的支持,优化人工智能,使其更容易在公司自己的基础设施上运行。除此之外,他么还会积极研究并消除这类模型对宗教、性别、种族和残障人士所怀有的偏见。

Bloom 项目的代码放在了 Hugging Face 的官网上(链接),并没有放在常见的 GitHub 等代码托管平台。


相關推薦

2022-11-15

与过去相比,Web 开发人员能接受的框架数量日益减少;研究人员认为,开发者正在减少实验,变得更加坚持使用他们所已知和有效的东西。React 是目前使用最广泛的客户端框架;在过去两年中,React 的采用率一直保持稳定。相

2023-04-03

LP 任务,这些任务将受益于新的金融感知语言模型。彭博研究人员开创了一种混合方法,将金融数据与通用数据集相结合,以训练一个在金融基准上取得优异成绩的模型,同时在通用 LLM 基准上保持有竞争力的表现。" 彭博的 ML

2023-06-10

基于 Base 模型针对 few-shot prompts 微调的结果,通过对 P3 (BigScience) 和 Natural Instruction (AI2) 的各种 NLP 任务进行训练,针对少样本性能进行了优化。Instruct 版本在少数几个任务上表现出优异的性能,超过了类似规模的领先开放模

2023-09-05

以及可能引入的错误。 LLaSM 的模型架构如上图所示。研究人员首先使用 Whisper 将原始音频数据编码为嵌入词,然后在预训练阶段训练模态适配器,以对齐音频嵌入词和文本嵌入词。音频嵌入式和文本嵌入式连接在一起,形成

2023-10-27

自世界各地附属于学术机构、研究机构和初创公司的独立研究人员。初始资金来自 Anthropic、谷歌、微软和 OpenAI,以及其他慈善合作伙伴。 基金的主要重点将在于,支持开发新的模型评估技术,以帮助开发和测试前沿系统潜在

2023-09-30

为止同规模产品中最强大的语言模型;在 Apache-2.0 许可下开源,可完全免费使用,不受任何限制。 Mistral AI 是一个成立仅六个月的初创公司,于 6 月份筹集了 1.18 亿美元的巨额种子轮资金,据称是欧洲历史上最大的种子轮融资

2023-09-22

都能四世同堂,凭什么开发 30 岁就要被干掉? 36氪从多名独立信源处获悉,大模型公司“智谱AI”于近日完成 B-4 轮融资。其中,腾讯战投、阿里巴巴战投等多家机构参与投资。该轮融资完成后,智谱AI的估值达到约10亿美金。

2023-10-21

智谱AI”)宣布,今年已累计获得超 25 亿人民币融资。 参与方主要包括社保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等多家机构及包括

2023-07-27

GLM 技术团队宣布开源最新的代码模型 CodeGeeX2-6B。CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型,基于 ChatGLM2 架构注入代码实现。 我们希望每一位程序员,都能在自己机器上跑上一个自己的编程助手。为实现这一目标

2022-05-19

国桌面操作系统根社区正当其时。希望有更多的优秀企业参与开源,为我国网信事业发展贡献力量。”沈昌祥院士表示。 开放原子开源基金会秘书长孙文龙在致辞中表示,操作系统生态发展需要开放多元的社区环境、共享共建

2023-06-29

与全球开源 AI 游戏开发挑战赛 还有 11 天,已经有 900 多名参与者报名!借助人工智能工具释放你的创造力,一起打破游戏开发的边界。本挑战赛将在北京时间 2023 年 7 月 8 日凌晨 1 点到 10 日凌晨 1 点间举行,限时 48 小时,

2023-10-26

语言处理模型。AgentTuning:通过多智能体任务调整语言模型研究人员在GitHub上开源的AgentTuning项目提供了一种创新方法,通过多智能体任务的交互轨迹来训练和调整语言模型,以提高效果、泛化能力,减少手动调整工作。项目地址:

2023-11-17

GitHub 发布了 2023 年度 Octoverse 开源状态报告。主要研究了围绕 AI、云和 Git 的开源活动如何改变开发人员体验,以及如何在开发者和企业中产生越来越大的影响。 报告发现了三大趋势: 开发人员正在大量使用生成式 AI 进

2023-04-04

okens,最大限度地减少所有模型大小的单位计算损失。 研究人员评估了 Cerebras-GPT 在几个任务特定的语言任务上的表现,例如句子完成和问答。结果表明,Cerebras-GPT 为大多数常见的下游任务保持了最先进的训练效率。 Cerebras