蚂蚁回应 AI 训练降本:基于不同芯片持续调优,将逐步开源


彭博社援引知情人士报道称,蚂蚁集团使用中国制造的半导体开发训练人工智能模型的技术,可将成本降低20%。对此,蚂蚁方面回应称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。

事件背景:

蚂蚁集团的 Ling 团队近日在预印版 Arxiv 平台上发布了题为《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》的技术论文,介绍了他们研发的两款新型大语言模型:百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。这两款模型在设计上采用了多项创新,能够在低性能硬件上高效训练,显著降低了成本。

百灵轻量版的参数规模为168亿,其中激活参数为27.5亿。而增强版的基座模型则拥有高达2900亿的参数,激活参数为288亿。这两款模型的性能均达到行业领先水平,尤其是增强版,其3000亿参数的 MoE 模型在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。

通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环境中的应用。为此,蚂蚁集团 Ling 团队提出了一个全新的目标 ——“不使用高级 GPU” 扩展模型,突破了资源和预算的限制。他们的创新训练策略包括动态参数分配、混合精度调度、以及升级的训练异常处理机制,这些策略有效地缩短了中断响应时间,并且优化了模型评估流程,压缩了验证周期超过50%。

在实验中,Ling 团队对9万亿个 token 进行了 Ling-Plus 的预训练。结果显示,使用高性能硬件配置训练1万亿 token 的成本约为635万元人民币,而采用蚂蚁的优化方法后,低规格硬件训练成本降至508万元左右,节省了近20%。同时,性能与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。


相關推薦

2024-06-26

进AI处理器。针对该消息,字节跳动方面对第一财经记者回应称:消息不实。 据媒体报道,字节跳动与博通合作开发的处理器为5nm ASIC(专用集成电路),ASIC是一种面向特定应用场景的专用芯片,通过算法固化实现性能和能效

2023-10-28

发一款可编程的、具有高性能的NPU产品,同时应用于模型训练及推理。 此外,昆仑万维在“华为全联接大会2023”举办期间,发布“天工大模型端云一体化方案”。该方案具备开箱即用、定制调优、服务保障三大优势,企业可以

2023-03-02

模型的研发是一项体系化工作,涉及数据、算法、算力及训练基础设施等。智源研究院发布的FlagOpen大模型技术开源体系,是智源及上下游生态合作机构联合开展技术攻关的成果展现,为大模型技术创新提供了“北京贡献”。同

2023-06-22

根据《科创板日报》的独家消息,蚂蚁集团技术研发团队正在自研语言和多模态大模型——内部命名为“贞仪”,该项目获得了蚂蚁集团管理层高度重视,已启动数月。 多模态大模型指的是将文本、图像、视频、音频等多模态

2023-11-10

伟达求证该消息的真实性,但截至发稿,英伟达方面暂无回应。 2023年10月17日,CNBC 报道称,美国商务部计划在未来几周内限制向中国出售更先进的人工智能芯片。高级政府官员表示,新政策将限制 NVIDIA A800 和 H800 芯片的出口

2024-08-02

态图的灵活性与静态图的高效性,并支持模型的混合并行训练;再到近日,为大模型时代而锤炼的3.0版本的正式出炉!飞桨正式开启了新一代框架技术创新之路! 设计思想 深度学习框架的设计对于推动人工智能技术的发展至

2023-10-25

。 不过,对于此次故障原因,官方暂未作说明。 蚂蚁集团旗下的在线文档编辑与协同工具语雀出现服务器故障,在线文档、客户端和官网目前均无法打开。 官方微博回应称,语雀出现网络故障,导致无法访问,此故

2024-07-05

间层,相当于大模型时代的“操作系统”。如何让大模型训练与推理更高效,充分释放底层硬件的潜力,降低生成式AI应用开发的门槛与成本,正是AI Infra需要解决的关键问题。 大模型训练包括对模型进行参数调优、数据训练等

2025-03-27

质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。 何为“测试时缩放”? 在大型语言模型 (LLMs) 领域,研究人员已经发现,通过在测试阶段增加计算量可以

2023-07-08

好的服务。昇腾AI云服务单集群提供2000P Flops算力,千卡训练30天长稳率达到90%,为业界提供稳定可靠的AI算力,让大模型触手可及。 华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0 张平安表示:“盘古大模型要让每个

2024-08-16

度飞桨深度学习平台总架构师于佃海认为,高性能大规模训练推理能力是关键,以实现极致性能和训推一体的目标。从 MLOps 视角来看,该平台应该实现从开发到预训练、精调、压缩再到推理服务的全流程支撑,并与数据、评估

2024-11-01

造更适合推理的 AI 芯片。目前市场的主流产品是偏重于训练任务的芯片,但业内分析认为,市场对推理芯片的需求将会超过训练芯片。 同时,台积电也确认将为 OpenAI 的芯片提供足够产能,预计 OpenAI 的首款芯片将于 2026 年投

2023-11-07

11月6日,界面新闻从蚂蚁集团获悉,根据国家七部委联合公布的《生成式人工智能服务管理暂行办法》指导要求,蚂蚁百灵大模型已完成备案,基于百灵大模型的多款产品已陆续完成内测,将向公众开放。 本次通过备案的是蚂

2023-10-26

大学和中国科学技术大学宣布共同推出 PonderV2 通用 3D 预训练方法与模型。 Ponder系列在通用3D方面实现三个“首次”:首次同时支持室内外使用场景;首次同时支持点云、体素和多视角图像输入;首次在不同语义层级的下游任务