苹果公开 AI 模型训练策略:从大规模网络抓取到秘密授权交易和合成内容


近日,苹果发布了一份关于其基础模型的详细报告,名为《Apple Intelligence基础语言模型2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素,几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何对模型进行微调。报告还探讨了用于确保模型技术改进的方法,以提高模型效率,同时避免隐私泄露。

报告介绍了一款约30亿参数的端侧模型,该模型通过KV 缓存共享和 2-bit量化感知训练等架构创新,针对苹果芯片进行了优化。

另一款是基于新颖的“并行轨道混合专家”(Parallel-Track Mixture-of-Experts, PT-MoE)Transformer 架构的可扩展服务器模型,该模型在苹果的私有云计算平台(Private Cloud Compute)上运行,结合了轨道并行、稀疏计算和交错的全局-局部注意力机制。

两款模型均在通过负责任的网络爬取、授权语料库和高质量合成数据构建的大规模多语言、多模态数据集上进行训练,并利用一个新的异步平台进行监督微调和强化学习。

报告指出,在公开基准测试和人类评估中,这两款模型都达到或超过了同等规模的开源基线模型。此外,苹果还推出了一个以 Swift 为中心的全新基础模型框架,支持引导式生成、约束性工具调用和 LoRA 适配器微调。

凭借新模型,苹果显著提升了多语言能力。为了扩展语言支持,苹果将训练过程中非英语数据的比例从 8% 提升至 30%,涵盖真实内容和 AI 生成的内容,从而提升模型的理解能力,并支持更广泛的语言。这将使写作工具等功能更好地发挥作用。

在训练新的 AI 系统时,苹果大量依赖其自主研发的网络爬虫 Applebot 收集的网络数据,这些数据也已在之前的模型中使用。有趣的是,由于苹果尊重隐私,如果网站不想被爬取,就不会使用其内容。

该公司使用多种技术来训练其模型,主要使用公共网络数据作为训练材料。苹果倾向于过滤不相关的内容,并专注于有用且切题的数据集。同样,这家科技巨头也依赖出版商的授权内容,尽管它确实透露了其所依赖的媒体公司的名称。该公司还使用较小的模型来收集合成数据,尤其是在涉及图像语言任务、代码或指令执行时,以便更好地进行微调。

这种多方法也涉及视觉数据,因为这家巨头拥有超过 100 亿个图像-字幕对,包括屏幕截图和手写笔记。它还使用自己的模型来生成更丰富的字幕。所有这些训练方法都有助于 Apple 构建更智能、更强大的模型。Apple 训练其 AI 模型的方法非常清晰。这是一种平衡的策略,既能确保系统保持强大和多功能性,又不会损害其核心价值:隐私。


相關推薦

2025-06-11

保持模型质量。 为了启用视觉能力,我们开发了一个在大规模图像数据上训练的视觉编码器。它由一个用于提取丰富特征的视觉主干网络和一个将特征与LLM的标记表示对齐的视觉-语言适配器组成。我们使用标准的Vision Transformer

2025-07-23

提升近一倍(450条/小时 vs 传统250条/小时);其三,融合公开可用的图文数据,让模型理解“大”“小”“左右”等抽象概念,并识别未见过物体的特征。这种多样性数据融合策略,使GR-3在未见过的物体抓取任务中成功率较基

2025-03-26

据的爬虫机器人。这些爬虫通常抓取免费内容,以训练AI模型。 Cloudflare介绍称,当系统识别到异常爬虫行为时,「AI迷宫」就会启动,将这些机器人引向由AI自动生成的虚假页面。这些页面毫无实际价值,仅用于消耗机器人的

2023-07-25

示能力,能够学习到更为复杂的数据特征。为提升模型在大规模数据处理中的可扩展性,知未智能重新调整了注意力层的Bias,进一步提高了模型性能。 值得一提的是,知未智能还引入了Flash Attention技术,这种优化的注意力机制

2024-10-15

苹果近日发布多模态大模型 MM1.5,旨在增强对文本丰富的图像的理解、视觉指代和接地,以及多图像推理的能力。 据悉, MM1.5在在 MM1 架构的基础上训练而成,MM1.5 采用了以数据为中心的模型训练方法,在整个模型训练生命周

2023-04-14

要求用户提供真实身份信息。 第十条 提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。 第十一条 提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务

2025-06-06

创公司 Anthropic 未经授权使用其网站数据训练 AI 模型,且未支付相应费用。Reddit 认为,Anthropic 的行为违反了其用户协议,且未经授权将 Reddit 数据用于商业用途是违法的。 https://redditinc.com/hubfs/Reddit Inc/Co

2025-05-16

低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。 网络优化:采用多平面两层 Fat-Tree 网络拓扑,相比传统的三层 Fat-Tree 拓扑,显著降低了

2022-04-20

一直以来,HiQ 都依赖于爬取 LinkedIn 用户在网络上可公开访问的信息来实现商业模式。但随着越来越多的企业开始爬取 LinkedIn 的数据,该公司开始试图采用一些技术阻碍手段及法律手段,来禁止竞争对手的数据爬取行为

2023-04-01

马斯克 (Elon Musk)、苹果联合创始人 Steve Wozniak、图灵奖得主 Yoshua Bengio 等上千名行业高管和专家签署了一封公开信,呼吁所有 AI 实验室立即暂停对比 GPT-4 更强大的 AI 系统的训练至少 6 个月。并表示,这种暂停应该是公开

2025-05-07

关键项目的支持。Gecko 是唯一一个仍在与Google Chromium 和苹果 WebKit 竞争的浏览器引擎。 谷歌自己此前也提出过同样的论点。 然而,不仅仅是资金本身会损害 Mozilla 及其开发浏览器的能力;默认搜索引擎本身也会发挥重要作用

2025-06-11

。它是构建稳健、可扩展AI系统,使其能处理复杂任务并大规模有效运作的基石,最终通过驱动更明智决策、提升运营效率、降低成本和增强市场竞争力,为企业创造切实的商业价值。同时,清晰、可溯源且管理良好的数据还有

2025-07-08

开源网络智能体榜单。 在构建数据集阶段,通义实验室大规模合成了具有高不确定性的复杂任务数据SailorFog-QA,并基于Qwen模型进行冷启动微调,让模型学到超越人类的复杂推理模式;该团队还提出了高效的强化学习算法 DUPO,

2025-05-13

INTELLECT-2 已正式发布,该项目展示了一种新的大模型训练方式:利用全球分布的、无需许可的计算贡献者组成的动态、异构网络,以完全异步的方式进行强化学习训练。 INTELLECT-2 具备前沿的推理性能,支持异构计算节点,并允