FlagOpen 大模型技术开源体系,开启大模型时代“新 Linux”生态


“大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。

智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新,在“科技创新2030”新一代人工智能重大科技项目支持下,2023年初,智源研究院联合30多家产学研单位共同承担的旗舰项目“人工智能基础模型支撑平台与评测技术”全面启动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。

北京市副市长于英杰和科技部高新司副司长梅建平出席工作会并致辞。

于英杰副市长指出,大模型的研发是一项体系化工作,涉及数据、算法、算力及训练基础设施等。智源研究院发布的FlagOpen大模型技术开源体系,是智源及上下游生态合作机构联合开展技术攻关的成果展现,为大模型技术创新提供了北京贡献。同时,他对于大模型的发展提出了三点期望:一是要抓住大模型发展机会,保持定力,强化基础。要聚焦源头,创新底层技术,大力突破核心关键技术,抢占制高点。二是应用导向,推动大模型应用生态建设。要加快大模型创新应用开发及API服务开放,形成数据飞轮效应,发挥模型的通用泛化能力,赋智经济社会发展。三是科研机构、企业等要围绕算法及技术研究、数据等加强协同创新,建立开源开放的合作生态。

▲ 于英杰 北京市副市长

梅建平副司长指出,面对大模型引发的人工智能技术范式变革趋势,科技部从2021年开始超前布局大模型旗舰项目群,着力打造开源开放的大模型创新生态体系。人工智能基础模型支撑平台与评测技术旗舰项目是整个项目群的核心,由智源研究院联合30多家产学研单位共同承担。FlagOpen大模型技术开源体系即是旗舰项目的阶段性成果,将对我国大模型技术创新能力的提升提供重要支撑。另外,为满足大模型发展所需的算力需求,科技部正在推动建设国家公共算力平台中国算力网,为科技创新和产业智能化转型提供普惠算力。他同时指出,大模型发展需要技术创新与伦理治理并重,科技部也将组织探索研究大模型的伦理治理问题,让大模型技术趋利避害,更好地发挥前沿技术的赋能作用。

▲ 梅建平 科技部高新司副司长

FlagOpen(飞智)大模型技术开源体系是由智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放软件体系,包括大模型算法、模型、数据、工具、评测等重要组成部分,旨在建设大模型领域的Linux

基于FlagOpen,国内外开发者可以快速开启各种大模型的尝试、开发和研究工作,企业可以低门槛进行大模型研发。同时,FlagOpen大模型基础软件开源体系正逐步实现对多种深度学习框架、多种AI芯片的完整支持,支撑AI大模型软硬件生态的百花齐放。

FlagOpen将通过Linux基金会、启智社区等开源组织,推动国内外开发者协同创新。通过开源开放方式,全球开发者可以自由探索、共同贡献、协同创新。未来,FlagOpen也将支撑全球AI企业、机构基于FlagOpen构建AI大模型软件发行版本、平台、商业软件等。

FlagOpen开源平台入口:https://flagopen.baai.ac.cn 

 

FlagOpen飞智大模型技术开源体系

开启大模型时代“新Linux”生态建设

1. FlagAI :大模型算法、模型及工具一站式开源项目

为降低大模型开发和应用的门槛,提高大模型的开发效率,智源研究院打造了大模型算法、模型,及各种优化工具的一站式、高质量开源项目FlagAI

FlagAI集成全球各种主流大模型算法技术,以及多种大模型并行处理和训练加速技术,支持高效训练和微调。

FlagAI涵盖多个领域明星模型,如语言大模型OPTT5,视觉大模型ViTSwin Transformer,多模态大模型CLIP等。

坚持开源开放路线,智源研究院也持续将悟道大模型项目成果开源至FlagAI,包括悟道2.0”通用语言大模型GLM悟道3.0”视觉预训练大模型EVA,视觉通用多任务模型Painter,文生图大模型AltDiffusion(多语言),文图表征预训练大模型(多语言)、EVA-CLIP(英文),阿拉伯语大模型ALM,百亿语言基础模型CPM3等。

目前,FlagAI 已经加入 Linux 基金会,吸引全球科研力量对大模型技术共同创新、共同贡献。

项目地址:https://github.com/FlagAI-Open/FlagAI

2. FlagPerf:面向多种AI硬件的一体化评测引擎

AI硬件评测对AI生态有重要价值,但由于AI软硬件技术栈异构程度高、兼容性差,应用场景复杂多变,给评测本身带来了很多挑战。

FlagPerf希望共同探索开源、开放、灵活、公正、客观的AI硬件评测体系,建立支持多种深度学习框架、最新主流模型评测需求、易于AI芯片厂商插入底层支撑工具的AI系统评测生态。不以排名为核心目标,而以提供行业价值、促进AI产业生态发展为愿景。

目前该项目已和天数智芯、百度PaddlePaddle、昆仑芯科技、中国移动等深度合作,共同推进AI硬件评测建设。围绕FlagPerf,也将有更多厂商和团队加入共同贡献的大家庭。

项目地址:https://github.com/FlagOpen/FlagPerf

3. FlagEval:多领域、多维度的基础大模型评测开源项目

大模型时代需要科学、公正、开放的评测基准及工具来帮助人们更深刻的理解和认识模型,但在学术界一直缺乏能涵盖多种模态领域、多种评测维度的统一化评测体系和项目。尤其在AIGC的发展浪潮下,如何对生成任务进行更高效、更客观的评价,是阻碍大模型落地的重要制约。

智源研究院将联合多个高校团队,共同打造覆盖多个模态领域、包含评测维度的评测工具FlagEval,探索大模型自动评测技术,推动大模型技术创新和产业应用。

FlagEval首先开放近期备受关注的多模态领域-CLIP系列模型评测工具,支持多语言多任务、开箱即用。之后,更多领域、更多维度的评测工具陆续发布。

项目地址:https://github.com/FlagOpen/FlagEval

4. FlagData:开箱即用、易于扩展的数据工具开源项目

数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得日益重要。

智源研究院长期投入数据建设工作,构建了全球最大 WuDaoCorpora语料库,同时开发了一批数据处理的高效工具。

FlagData数据工具开源项目集成包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法,为自然语言处理、计算机视觉等领域的模型训练与部署提供了数据层面的有力支撑,有助于推动大模型的快速发展。

项目地址:https://github.com/FlagOpen/FlagData

▲林咏华 智源研究院副院长兼总工程师

FlagOpen 大模型技术开源体系正在与Linux基金会等全球开源代表组织与机构积极合作,加快建设面向全球的大模型技术开源生态。

全球最大的AI领域开源基金会- Linux AI & DATA 基金会主席堵俊平认为:FlagOpen大模型技术开源体系的发布,是人工智能大模型时代开源创新生态建设的重要一步:未来,大模型领域一定会出现类似Linux的开源生态体系,开源开放加速AI技术创新。

▲堵俊平 Linux AI & DATA 基金会主席

Stability AI 全球产品副总裁Christian Cantrell说:“我们在开源社区中与智源团队合作,基于FlagAI开源的多语言文图模型能力,合作打造支持更多语言的扩散生成模型。很高兴看到智源研究院把大模型技术体系开源,这对全球大模型创新的推动和开放合作十分重要”

 

“数据飞轮”开源数据互助计划启动

大模型前沿训练营推动顶尖人才培养

时不我待,十年一遇信息技术产业变革席卷世界。

高质量数据与系统性人才是这一轮计算机范式转变的关键要素。

本次发布会上,智源研究院开放中文世界首个开放数据标注平台OpenLabel,与CSDN合作启动数据飞轮开放数据互助公益计划。计划以我们的数据,我们的AI”为宗旨,让广大人民产生的数据,造福于广大人民。

数据飞轮计划的目标是建设动态开放的重要大型数据集,为大模型、AIGC发展创建丰富权威的大模型训练数据来源。智源研究院希望通过公益合作,夯实数据基础建设,促进数据创新,推动国内外大模型训练研究发展。

加速迈向人工智能大模型时代,必然伴随着大模型从精英学者到大众开发者的技术普及。

为推动优秀大模型技术人才培养,智源研究院与中国移动研究院、中科曙光、国家先进计算太原中心合作,与多所顶尖高校联动,面向交叉学科背景学生与相关领域学者推出大模型前沿训练营,通过举办系列人工智能前沿公开课、创新应用大赛与前沿讲习班,为大模型技术研究和产业发展培养具有实战经验的系统性人才。

 

大模型是智能时代生态核心

FlagOpen建设大模型技术体系根基

智源研究院院长黄铁军发表题为《加快建设人工智能开源开放生态》的主旨演讲,他认为开源开放是智能时代的必然选择。

大模型通过同一模型完成多场景任务,成为支撑无数智能应用的基础平台,使得人工智能技术的大规模应用变为可能,加速了智能时代的真正到来。当前深度学习阶段的人工智能系统具有难以透彻理解的技术特性,智能时代不应封闭、必须开放、最好开源,特别是作为基础平台的大模型需要全面开源、接受监督,才能得到信任、采纳和广泛应用。

▲黄铁军 智源研究院院长

结合当下ChatGPT热潮,黄铁军认为,此类AI现象只是大模型技术“海平面以上”的冰山一角,深藏于“海平面以下”的大模型技术体系才是更值得关注的部分。从长远考虑,打好根基,形成完整的大模型技术体系及强大的资源能力,未来才能产生更多的“ChatGPT级”的现场级应用。

FlagOpen正是为了建立大模型技术体系而开展的基础性工作,通过开源开放的形式促进各类机构共创共享,形成良好生态,共同打牢大模型发展根基。未来将面向各类企业提供大模型相关技术服务,支撑各行业智能应用开发,赋能经济社会智能化升级。

 

FlagOpen开源生态合作

推动大模型产业价值提升

为推动大模型技术在更广泛的范围得到应用,在产业中发挥大模型的价值和作用,FlagOpen大模型技术开源体系已与中国移动、浪潮信息、昆仑芯科技、天数等多家知名企业达成生态合作,并将FlagAI开源工具部署在中国移动九天毕昇教育平台、浪潮AI Station等平台。

为促进人工智能与经济社会发展深度融合,智源联合多家单位开展大模型行业应用探索,主要有:

  • 联合中国移动研究院建立AI基础模型服务开放实验室,面向行业应用场景的听觉内容分析等领域进行大模型研究与应用;
  • 联合浪潮信息建立大模型开源生态联合实验室,共同推动国产AI硬件底层软件的完善;
  • 联合中国电子云建立大模型国产算力云平台开放实验室,探索国产CPU的大模型适配部署;
  • 联合航天信息建立智慧政企人工智能开放实验室,探索税务、政务领域的模型能力调优、模型研发、算法研究等;
  • 联合工商银行共建数字金融开放实验室,致力于运用AI技术提升金融生态垂直领域智能化能力;
  • 联合启元世界建立认知决策大模型开放实验室,探索AI NPC、数字人AI等场景的大模型应用;
  • 联合核桃科技建立国产3D图形化AI编程平台开放实验室,共同开展基于开源体系的国产化编程平台工具研发。

为推动AI底层基础软硬件生态的共建共享和共同繁荣,智源研究院联合浪潮信息、昆仑芯科技、壁仞科技、天数智芯、燧原科技、摩尔线程等硬件企业,清华大学、北京大学、中科院计算所优势团队,共建北京国家新一代人工智能创新发展试验区AI开放生态实验室,共同开展基础软硬件适配、评测等工作,实现拉动基础软硬件对AI重大科研计算范式的优化,加速完善软硬件生态建设。


相關推薦

2024-08-16

、深度学习平台、企业引入开源、开源 AI 发展、垂域大模型技术等话题展开主题演讲。 2024 GOTC × GOGC 将 GOTC(全球开源技术峰会)与 GOGC(全球开源极客嘉年华)进行品牌联名,旨在集结全球范围内对开源技术充满热情的开发

2023-10-11

合作单位、标准核心参编单位,共同编订发布全球首个AI模型开发管理标准、全国首个商用人工智能开发平台等多项人工智能基础软件领域、大模型领域的标准。作为大模型生态共同体中的通用大模型代表企业,模型伙伴成员单

2023-06-17

昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启动及首批22家单位入驻、全模态大模型“紫东·太初2.0”正式发布等。 本次峰会以“一起昇思 无尽创新”为主题,全面聚焦人工智能框架生态发展,推

2024-10-19

大成律师事务所的秦琳律师等就开源许可证的合规性、大模型开源的数据开放与许可等问题进行了深入剖析。 孙明律师在论文分享中详细探讨了大模型开源许可证的合规性问题,指出随着开源大模型数量的急剧增加,传统的开

2022-09-10

要素,也是人工智能的三大基石。AI算法持续突破创新,模型复杂度指数级提升的同时,准确率和效率也在不断提高,在各个细分领域应用加速落地。随着芯片处理能力提升、硬件价格下降、神经网络模型优化,AI 算力也在大幅

2024-07-27

上海市多媒体行业协会 AIGC 专委会秘书长董道国将介绍大模型在媒体行业的应用实践 华为编译器技术专家,openEuler 社区 TC 委员赵川峰将分享“LLVM 平行宇宙计划:LLVM 与 openEuler 协同进展与展望” 百度区块链部副总监荆博

2024-04-19

础关键技术,夯实应用赋能的底座。围绕算法、算力等大模型底层技术,加快推动智能芯片、大模型算法、框架等基础性关键核心技术和产品的突破,加快智能物联终端和工业云部署,提升面向制造业的算力供给运营管理能力,

2022-09-22

2022 将于在杭州举行。大会由一个主论坛以及“AI 框架与模型”“AI+数据”“AI 工程化”“昇思生态论坛”四个分论坛组成,聚焦 AI 前沿技术、产业化和商业化的动态。 届时,来自全球的 AI 领域顶尖科学家、行业专家及著名

2024-09-26

接入7000+高质量数据集,开源更多高质量中文数据集。在模型方面,提供免费的模型托管服务,已托管开源模型2000+,并逐步吸纳更多的模型厂家共建社区。 天翼云智算产品线总监张安发表示,魔乐(Modelers)开发者社区致力于团

2024-08-28

“8+4”产业生态创新行动。现场还达成了AI场景、旅游大模型等多项签约,落实“8+4”,助力贵州数智产业繁荣发展。 基于行动,贵州省政府与华为及生态伙伴共同筑巢引凤,针对贵州省昇腾算力生态、行业大模型生态、人工

2023-07-08

演讲中,华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中,盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向,持续打造核心竞争力,为行业客户、伙伴及开发者提供更好的服

2023-02-24

及实践成果,公布了 OSS Compass 开源社区治理架构、评估模型以及首份开源项目评估白皮书。 OSS Compass 是一个用于开源生态健康评估的平台,面向 GitHub、Gitee 等平台所有开源项目开放。中国科学院院士吕建、华为开源软件管理

2023-09-08

下紫东太初、百川智能、智谱华章等 8 家企业 / 机构的大模型产品已经首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。 具体包括: 五家北京企业机构:百度(文心一言)、抖音(云雀

2023-10-21

人工智能技术底座。通过科技创新重大项目,着力推动大模型算法、框架等基础性原创性的技术突破,提升智能芯片算力水平,释放数据价值,强化“根”技术研发。 二是推动重点行业智能化升级。加快制造业全流程智能化。