昆仑万维开源「天工」Skywork-13B 系列大模型,0 门槛商用


昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型。

除模型开源外,Skywork-13B系列大模型还将开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B。公告称,这是目前最大的开源中文数据集之一。同时,昆仑万维「天工」Skywork-13B系列大模型即将全面开放商用;开发者无需申请,即可商用。

“此次Skywork-13B系列大模型将全面开放商用许可,用户在下载模型并同意并遵守《Skywork模型社区许可协议》后,无需再次申请授权即可将大模型进行商业用途。希望用户能够更便捷地探索Skywork-13B系列大模型技术能力,探索在不同场景下的商业化应用。”

Skywork-13B-Base模型

Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL、CMMLU、MMLUGSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。

Skywork-13B-Math模型 

Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。 

Skypile/Chinese-Web-Text-150B数据集 

该数据集是根据昆仑天工团队方面经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总token数量约为150B,目前开源最大的中文数据集之一。

一些评测结果如下所示:

 

更多详情可查看官方公告。


相關推薦

2023-11-06

重塑中文搜索体验。 2023年9月,昆仑万维多模态大模型Skywork-MM在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评MME中,综合得分排名第一。该评测首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,

2023-12-02

12月1日,昆仑万维正式发布「天工SkyAgents」平台,助力大模型走入千家万户。「天工SkyAgents」是国内领先的AI Agents开发平台,基于昆仑万维「天工大模型」打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用

2024-08-14

成员!近日,豆包、通义、360AI搜索、360智脑、360智绘、昆仑万维天工AI、澜舟智库等重磅AI产品登陆麒麟软件商店人工智能专区,涵盖了AI对话、AI写作、AI绘图、AI搜索等多个领域,为用户带来更加丰富、智能的应用体验。 阿

2023-10-28

昆仑万维发布了2023年第三季度报告。据报告披露,昆仑万维第三季度全面加速推进“All in” AGI与AIGC的战略布局,在多个方向均取得了突破性进展。截至本报告期末,昆仑万维实现营业收入36.8亿元,同比增长8%。实现经营性现金

2024-10-31

10月29日,昆仑万维发布了2024年第三季度报告。截至本报告期末,公司实现营业收入38.3亿元,同比增长4%。今年前三季度,公司海外业务收入占比进一步提升至89.7%,同比增加5.6个百分点;整体毛利率达76.9%,继续保持在较高水平

2023-09-07

表现来全面评估它们。昆仑万维天工大模型多模态团队的Skywork-MM模型位列综合榜单第一,其中,感知榜单排名第一、认知榜单排名第二. 感知榜单排名第一 认知榜单排名第二 昆仑万维天工大模型多模态团队最新一篇论文指

2024-08-20

昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体,旨在让创作者“一键成剧”,轻松制作高质量AI视频。 SkyReels平台集成了昆仑万维自研剧

2023-11-07

能(“面壁露卡 Luca”)、出门问问(“序列猴子”)、昆仑万维(“天工”大模型)、美团(模型)、知乎(“知海图 AI”模型)、月之暗面(moonshot)、金山办公(WPS AI)、好未来(MathGPT 大模型)等。 8 月 31 日首批通过备

2023-08-19

水木分子联合清华大学智能产业研究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。

2023-06-10

其 RedPajama 7B 已完成所有训练,并在 Apache 2.0 许可下全部开源。 RedPajama 是一个开源可商用大模型项目,由 TOGETHER 联合蒙特利尔大学的 AAI CERC 实验室、EleutherAI 和 LAION 共同发起。目前包括一个基于 LLaMA 论文的 RedPajama 基础数据

2023-03-02

展为愿景。 目前该项目已和天数智芯、百度PaddlePaddle、昆仑芯科技、中国移动等深度合作,共同推进AI硬件评测建设。围绕FlagPerf,也将有更多厂商和团队加入共同贡献的大家庭。 项目地址:https://github.com/FlagOpen/FlagPerf 3. FlagE

2023-06-29

们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧! 重要更新 最新音频课程现已发布 近期,我们发布了一个音频

2023-07-27

OpenBuddy-LLaMA2-13B 是一个基于 Llama 2 的全新跨语言对话模型。 Llama 2 是 Meta 最新发布的模型基座,它的数据比前一代模型更为充分,且对月活7亿以下的商用予以支持。这意味着,更多的公司和团队可以使用这个模型进行商业开发

2023-08-16

上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联