360 开源升级自研 7B 参数模型 360Zhinao3-7B


360集团宣布对其自研的7B参数模型360Zhinao3-7B进行了开源升级,可免费商用。

公告称,模型各项能力得到全面提升,在多个benchmark上表现优秀。本次开源推出的360Zhinao3-7B-O1.5模型,不止是数学和科学的单点模型,在通用能力上表现优秀,可以在端侧应用上发挥更大价值。

本次升级的360Zhinao3-7B模型,在模型参数量不变的情况下,仅增量训练了700B的高质量token(相比360Zhinao2-7B的10.1T token成本小得多),模型效果取得了显著提升。

360 方面表示,其在内部实践中的多个版本,增量训练了更多的token,但是模型效果大多增益不明显,效果不达预期。因此得到一条启示:训练数据的质量重要性,远大于训练数据的token量,不断提升训练数据的质量,是一条有前途的Scaling Law发展方向,而且模型的训练成本大幅降低,且也不会增加模型推理成本。

在数据筛选方面,项目团队加大了筛选力度,离线训练了多种数据筛选模型,对不同种类的数据进行分档打分,显著提升了数据质量。其次还进一步加大了数学、代码、指令这三种数据的占比,大幅降低网页和书籍的占比,从而进一步提升了模型的指令遵循和推理能力。

360Zhinao3-7B模型还增加了长文本预训练阶段,将最大窗口长度从4k提升至32k,ROPE的base从1w改为100w。在长文本预训练阶段,团队增加了超长文本和长代码的比例,进一步优化了模型的长文本处理能力。

基础模型效果

在模型效果方面,360方面使用开源工具opencompass对模型进行了多维度评估。结果显示,模型的benchmark平均分在10B尺寸附近的模型中,具备竞争力。

Instruct模型效果

在IFEval、MT-bench、CF-Bench三个流行的评测上对360Zhinao3-7B-Instruct模型进行了评测比较,MT-bench 和CFBench,IFEval 均在同级别开源模型中表现抢眼,具备较强竞争力。

长思维链模型效果

从以下结果可以看出,在math和science数据上,360zhinao3-7B-O1.5 模型与从0训练的7B推理模型具备一定竞争力,但可以看到目前较火的推理模型在通用多轮对话,角色扮演及复杂指令遵循上效果较差,而360zhinao3-7B-O1.5 综合效果更佳,不止是数学和科学的单点模型,可以在端侧应用上发挥更大价值。


相關推薦

2024-08-14

业知识生产力新范式。 麒麟软件商店人工智能专区持续升级,目前上线应用近20款,为用户提供了更加丰富、智能的应用选择,也为麒麟软件生态建设注入了新的活力。未来,麒麟软件将继续与合作伙伴携手,不断创新,为用

2023-09-22

AI 数字员工等大模型服务。 据介绍,360 智脑拥有千亿参数规模,预训练超万亿 tokens,具备生成创作、多轮对话、逻辑推理等十大核心能力、数百项细分功能,能够覆盖大模型应用的所有场景。基于 360 智脑的企业级垂直大模

2024-08-01

具,让每个企业都 " 用得起、用得好 "。 相关阅读:“开源信徒”周鸿祎开源360智脑大模型

2023-11-08

于 POE,它是一款集成了主流大语言模型以及绘图模型的开源 APP。如果你还不知道它,那么可以简单看看这篇文章 花了小半年开发了一个 AI 套壳 APP,然而大势已过,直接开源了。 AIdea 项目前后端所有代码均采用 MIT 协议开源。

2025-04-25

方便自身生活。 纳米AI产品负责人梁志辉介绍,MCP让大模型可调用工具,大家熟悉的Deepseek大模型过去只能做文本理解、内容生成的事情,但现在在纳米AI客户端里给DeepSeek 加上MCP 工具,DeepSeek 能帮你作图、编辑视频,或者调

2022-10-27

RePlugin v3.0.0 现已发布。RePlugin 是一套完整的、稳定的、适合全面使用的,占坑类插件化方案,由 360 手机卫士的 RePlugin Team 研发,也是业内首个提出” 全面插件化 “(全面特性、全面兼容、全面使用)的方案。 此版本更新内

2023-04-18

2023年4月16日,著名开源贡献者贺师俊在github仓库中(https://github.com/hax/heshijun_v_360)公开了与360的劳动争议诉讼中相关法律文件的内容,以及其个人对于相关事件的思考。目前尚未知悉360对此有何评论。 贺师俊公开本案的法律

2023-07-22

tGLM(内测版)发布。 相关阅读: 清华系公司智谱 AI 开源 ChatGLM-6B 大模型,千亿基座对话模型开启内测 360 合作智谱 AI,共研千亿级大语言模型 360GLM 智谱 AI 官宣:ChatGLM2-6B 可免费商用

2023-11-30

号更新了与周鸿祎的采访对话。对话中双方聊到了大众对360的误解,周鸿祎表示,360不能卸载是一个彻底的谣言。 来源:https://mp.weixin.qq.com/s/pd2R8Y5Q6HtYODNfRvcbnA 周鸿祎称,因为360提供了完整的卸载过程。有的小朋友总是

2022-09-29

商 Opera Limited 近日宣布,它计划以全现金交易的方式从 360 手中回购其全部股份。此次交易一旦达成,Opera Limited 将从 360 那里获得 20.6% 的股份。 在公告中,Opera Limited 表示将以每美国存托股份 5.50 美元的价格回购,由于 360 目

2022-08-23

容包括优化调整、功能改进、更新翻译等。 将 Opera 90 升级到稳定版 在中国,将 360 设置为默认搜索引擎 更新 Chromium 至 104.0.5112.81 移除 flow client_capabilities 中的空字符串 [同步设置] 确认您的身份以启用加密信息的 flicker

2025-04-23

(版本2.8.9,百度手机助手)、《城泊通》(版本3.2.1,360手机助手)、《e万源》(版本3.5.1,应用宝)、《赢海云管船》(版本2.12.6,应用宝)、《口袋家教学生》(版本3.3.32,应用宝)、《约驾校》(版本2.1.88,应用宝)、

2021-12-24

之一。 对此,360CERT建议广大用户及时将Apache HTTP Server升级到最新版本。与此同时,请做好资产自查以及预防工作,以免遭受黑客攻击。 风险等级 360CERT 对该漏洞的评定结果如下 评定方式等级威胁等级高危影响面广泛

2024-07-23

360创始人周鸿祎连发三条视频,以日前发生的因Crowdstrike更新导致全球Windows大面积蓝屏死机事件为主题,谈论了国产安全软件的重要性以及这场史上最大IT事故所带来的启发。 “这次的事件也再次展露了微软在整个市场中的占