苹果发布 300 亿参数多模态大模型 MM1.5


苹果近日发布多模态大模型 MM1.5,旨在增强对文本丰富的图像的理解、视觉指代和接地,以及多图像推理的能力。

据悉, MM1.5在在 MM1 架构的基础上训练而成,MM1.5 采用了以数据为中心的模型训练方法,在整个模型训练生命周期中系统地探索各种数据混合物的影响。其中包括用于持续预训练的高质量 OCR 数据和合成字幕,以及用于监督微调的优化视觉指令调整数据混合物。

MM1.5 的模型参数范围从 1B 到 30B,包括密集型和专家混合型(MoE)变体,并证明了精心的数据整理和训练策略即使在小范围内也能产生强大的性能(1B 和 3B)。

值得关注的是,苹果公司本次还推出了专门用于视频理解的 MM1.5-Video 模型和专门处理移动设备用户界面(UI)理解的 MM1.5-UI 模型,其中 MM1.5-UI 模型未来有望作为 iOS 幕后的“苹果牌”AI,其能够处理各种视觉引用与定位任务、总结屏幕上的功能,或者通过与用户的对话进行交互。

尽管 MM1.5 模型在多项基准测试中取得了优秀表现,苹果团队仍计划通过进一步融合文本、图像和用户交互数据,设计更复杂的架构,来提升模型对移动设备 UI 的理解能力,加强“苹果牌”AI 的实力。

论文地址:https://arxiv.org/abs/2409.20566
Hugging Face:https://huggingface.co/papers/2409.20566


相關推薦

2023-09-25

清华系创企水木分子宣布发布新一代对话式药物研发助手 ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B。水木分子成立于今年6月,由清华大学智能产业研究院(AIR)孵化,专注于生物医药垂直行业

2023-06-22

天使轮融资,由蚂蚁集团领投。这是自去年 11 月 ChatGPT 发布至今,蚂蚁集团投资的第一个 AIGC 项目。 目前业内比较知名的多模态大模型有 VisualGLM-6B 和 ImageBind。VisualGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开

2023-09-08

“智谱清言”,现已在各大应用商店上线,用户可通过苹果商店 App Store、安卓主流商店(包括华为、OPPO、vivo 及小米等)进行下载,或在微信小程序中搜索 “智谱清言” 体验其功能。 该助手基于智谱 AI 自主研发的中英双语

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-08-26

: https://arxiv.org/abs/2308.12966 Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的

2023-06-25

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广

2024-01-13

多模态大模型完备的基础框架。其中语义大模型于11月份发布千亿参数版本,在大模型知名榜单CSL排名第五、GAOKAO排名第七、AGIEval排名第八。 视觉大模型赋能100+城市治理下游任务,算法日均调用量达3.3亿次;多模态大模型聚焦

2023-08-19

究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。 此外,该模型在生物医药专业领域

2023-11-06

等领域。 2022年12月15日,昆仑万维在北京举行AIGC技术发布会,发布自研AIGC全系列算法与模型,覆盖了图像、音乐、文本、编程等多模态的AI内容生成能力。 2023年4月17日,昆仑万维正式发布自研千亿级大语言模型“天工”,

2023-06-17

行业用户与伙伴带来人工智能框架的最新进展与系列重磅发布,包括18家AI顶尖企业、学会、高校与科研院所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启

2023-07-08

的大会主题演讲中,华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中,盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向,持续打造核心竞争力,为行业客户、伙伴及开发者提

2022-09-06

EasyNLP 的中文 CLUE/FewCLUE 等的 Benchmark 知识预训练技术: 发布一系列知识预训练模型,致力于提升预训练模型的常识性和知识性 中文预训练模型:发布针对中文的 SOTA 的预训练模型,降低中文预训练技术门槛 多模态预训练:

2023-10-11

国信通院的战略合作单位、标准核心参编单位,共同编订发布全球首个AI模型开发管理标准、全国首个商用人工智能开发平台等多项人工智能基础软件领域、大模型领域的标准。作为大模型生态共同体中的通用大模型代表企业,

2024-07-07

(可图、可灵)为核心的大模型矩阵。其中,推荐模型SIM参数规模已达到十万亿的参数规模,下一代推荐大模型架构ACT预估每天可为快手App带来4亿分钟的时长增长。