苹果发布 300 亿参数多模态大模型 MM1.5

2024-10-15 發表於开源资讯

苹果近日发布多模态大模型 MM1.5，旨在增强对文本丰富的图像的理解、视觉指代和接地，以及多图像推理的能力。

据悉， MM1.5在在 MM1 架构的基础上训练而成，MM1.5 采用了以数据为中心的模型训练方法，在整个模型训练生命周期中系统地探索各种数据混合物的影响。其中包括用于持续预训练的高质量 OCR 数据和合成字幕，以及用于监督微调的优化视觉指令调整数据混合物。

MM1.5 的模型参数范围从 1B 到 30B，包括密集型和专家混合型（MoE）变体，并证明了精心的数据整理和训练策略即使在小范围内也能产生强大的性能（1B 和 3B）。

值得关注的是，苹果公司本次还推出了专门用于视频理解的 MM1.5-Video 模型和专门处理移动设备用户界面（UI）理解的 MM1.5-UI 模型，其中 MM1.5-UI 模型未来有望作为 iOS 幕后的“苹果牌”AI，其能够处理各种视觉引用与定位任务、总结屏幕上的功能，或者通过与用户的对话进行交互。

尽管 MM1.5 模型在多项基准测试中取得了优秀表现，苹果团队仍计划通过进一步融合文本、图像和用户交互数据，设计更复杂的架构，来提升模型对移动设备 UI 的理解能力，加强“苹果牌”AI 的实力。

论文地址：https://arxiv.org/abs/2409.20566
Hugging Face：https://huggingface.co/papers/2409.20566

苹果发布 300 亿参数多模态大模型 MM1.5

相關推薦

苹果 WWDC 25 视觉智能 AI 升级开放，微美全息以多模态模型驱动场景革新提升竞争力

清华系创企推出千亿参数生物医药大模型

蚂蚁集团证实正研发语言和多模态大模型，命名“贞仪”

挑战 ChatGPT，国产有这 8 款 AI 大模型产品

开源多模态大模型“书生·万象 3.0”发布

阿里云开源通义千问 720 亿参数模型 Qwen-72B

MosaicML 推出 300 亿参数模型，训练成本 70 万

阿里云开源通义千问多模态大模型 Qwen-VL

Qwen3 正式发布！模力方舟首发上线体验，昇腾算力全面适配

小红书开源多模态大模型 dots.vlm1

苹果公开 AI 模型训练策略：从大规模网络抓取到秘密授权交易和合成内容

中国电信星辰 AI 大模型开源

智谱今晚发布最新 SOTA 开源模型 GLM-4.5

Jina AI 开源全新多模态多语言重排器 jina-reranker-m0