近日,苹果发布了一份关于其基础模型的详细报告,名为《Apple Intelligence基础语言模型2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素,几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何对模型进行微调。报告还探讨了用于确保模型技术改进的方法,以提高模型效率,同时避免隐私泄露。
报告介绍了一款约30亿参数的端侧模型,该模型通过KV 缓存共享和 2-bit量化感知训练等架构创新,针对苹果芯片进行了优化。
另一款是基于新颖的“并行轨道混合专家”(Parallel-Track Mixture-of-Experts, PT-MoE)Transformer 架构的可扩展服务器模型,该模型在苹果的私有云计算平台(Private Cloud Compute)上运行,结合了轨道并行、稀疏计算和交错的全局-局部注意力机制。
两款模型均在通过负责任的网络爬取、授权语料库和高质量合成数据构建的大规模多语言、多模态数据集上进行训练,并利用一个新的异步平台进行监督微调和强化学习。
报告指出,在公开基准测试和人类评估中,这两款模型都达到或超过了同等规模的开源基线模型。此外,苹果还推出了一个以 Swift 为中心的全新基础模型框架,支持引导式生成、约束性工具调用和 LoRA 适配器微调。
凭借新模型,苹果显著提升了多语言能力。为了扩展语言支持,苹果将训练过程中非英语数据的比例从 8% 提升至 30%,涵盖真实内容和 AI 生成的内容,从而提升模型的理解能力,并支持更广泛的语言。这将使写作工具等功能更好地发挥作用。
在训练新的 AI 系统时,苹果大量依赖其自主研发的网络爬虫 Applebot 收集的网络数据,这些数据也已在之前的模型中使用。有趣的是,由于苹果尊重隐私,如果网站不想被爬取,就不会使用其内容。
该公司使用多种技术来训练其模型,主要使用公共网络数据作为训练材料。苹果倾向于过滤不相关的内容,并专注于有用且切题的数据集。同样,这家科技巨头也依赖出版商的授权内容,尽管它确实透露了其所依赖的媒体公司的名称。该公司还使用较小的模型来收集合成数据,尤其是在涉及图像语言任务、代码或指令执行时,以便更好地进行微调。
这种多方法也涉及视觉数据,因为这家巨头拥有超过 100 亿个图像-字幕对,包括屏幕截图和手写笔记。它还使用自己的模型来生成更丰富的字幕。所有这些训练方法都有助于 Apple 构建更智能、更强大的模型。Apple 训练其 AI 模型的方法非常清晰。这是一种平衡的策略,既能确保系统保持强大和多功能性,又不会损害其核心价值:隐私。