苹果开源 FastViT：快速卷积 Transformer 的混合视觉架构

2023-08-17 發表於开源资讯

苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。

论文地址：https://arxiv.org/pdf/2303.14189.pdf
代码仓库：https://github.com/apple/ml-fastvit

FastViT 有机地结合了 CNN 和 Transformer 的优势，无论在精度或者运行效率上均有了稳定的提升。FastViT 引入了一种新的 Token 混合算子，命名为 RepMixer。从名字来看，它结合了结构重新参数化技术。该算子的作用原理是通过消除网络中的 skip connection 来降低内存访问成本。

FastViT 整体框架图：

实验结果表明，FastViT：

在移动设备上的速度比混合 Transformer 架构 CMT 快 3.5 倍
在 ImageNet 数据集上的精度相同，但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍
在相似的延迟下，FastViT 在 ImageNet 上的 Top-1 精度比 MobileOne 高出 4.2％

参考：https://mp.weixin.qq.com/s/poJur-vOtU2-h2tUe89shA、https://mp.weixin.qq.com/s/uqcWy4sx1NQuqOplsGDUlg

相關推薦

Goose 起飞！RWKV 社区三月新增 14 篇学术论文和若干多模态项目

2025-03-29

SoTA 水平，计算效率、任务表现和模型表达力全面超越 Transformer 和过去的 RWKV-6 架构。 ChemRB 论文名称：ChemRB: a novel generative model based on bidirectional molecular ring constraints 论文链接：https://jsnu.magtech.com.cn/CN/10.15983/j.cnki.jsnu.2025

苹果公开 AI 模型训练策略：从大规模网络抓取到秘密授权交易和合成内容

2025-07-23

并行轨道混合专家”（Parallel-Track Mixture-of-Experts, PT-MoE）Transformer 架构的可扩展服务器模型，该模型在苹果的私有云计算平台（Private Cloud Compute）上运行，结合了轨道并行、稀疏计算和交错的全局-局部注意力机制。两款模型均

苹果设备端和服务器端基础语言模型的更新

2025-06-11

混合专家（PT-MoE）设计（见图2）。该模型由多个较小的Transformer组成，称为轨道，这些轨道独立处理令牌，仅在每个轨道块的输入和输出边界进行同步。每个轨道块还具有自己的MoE层。结合轨道独立性带来的轨道级并行性，这种

苹果发布 300 亿参数多模态大模型 MM1.5

2024-10-15

苹果近日发布多模态大模型 MM1.5，旨在增强对文本丰富的图像的理解、视觉指代和接地，以及多图像推理的能力。据悉， MM1.5在在 MM1 架构的基础上训练而成，MM1.5 采用了以数据为中心的模型训练方法，在整个模型训练生命周

RWKV 社区近期新增科研项目

2024-07-30

处理多个子任务。与此同时， Decision-RWKV 相比 DT（Decision-Transformer）显著地减少了推理时间和内存占用，使其成为现实应用（尤其是机器人领域）的更佳选择。图像处理 Restore-RWKV 论文名称： Restore-RWKV: Efficient and Effective Medi

EasyCV 开源｜开箱即用的视觉自监督+Transformer算法库

2022-09-08

作者：谦言、临在一导读近年来，自监督学习和Transformer在视觉领域大放异彩。图像自监督预训练极大降低了图像任务繁重的标注工作，节省大量人力成本，而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供

Jina AI 开源全新多模态多语言重排器 jina-reranker-m0

2025-04-10

高达 4K 分辨率的图片都没问题。处理图片时，ViT（Vision Transformer）和投影器协同工作，把相邻的 2×2 token 压缩成单个视觉 token，再输入给大语言模型。像 <|vision_start|> 和 <|vision_end|> 这样的特殊 token 用

NebulaFlow 重构边缘计算：分布式 AI 推理框架正式开源，低延迟赋能工业物联网

2025-06-05

在工业物联网(IIoT)与边缘计算深度融合的今天，NebulaFlow开源框架的发布标志着分布式AI推理技术迈入新阶段。本文深度解析该框架如何通过创新的数据流编排机制，在工业质检、设备预测性维护等场景中实现毫秒级响应，同时揭

RWKV 社区七月动态：RWKV7-G0 7.2B 模型发布，8 篇高质量论文

2025-08-01

理效率。AURORA LONG 在多个视频基准测试中表现出与基于 Transformer 的模型相当的性能，同时降低了算力消耗。该论文的模型十分精妙，已入选 ICCV 2025。 RWKVFusion 论文名称：An Efficient Image Fusion Network Exploiting Unifying Language and

一键式 RWKV RAG、RWKV-Keras、新论文...RWKV 社区 7 月动态速览！

2024-08-01

招募前端贡献者 RWKV 的新学术研究： GoldFinch：RWKV/Transformer 混合模型架构 Restore-RWKV：RWKV 医学图像修复模型 Decision-RWKV：基于 RWKV 模型的机器人终身学习算法 8 月预告：RWKV 的小说微调模型（7B、14B）正在训练中，有

苹果发布 M3 系列芯片，采用 3nm 工艺、支持“动态缓存”技术

2023-11-01

例如 AI 开发者现可运行包含数十亿个参数的规模更大的 Transformer 模型。 M3、M3 Pro 和 M3 Max 芯片还引入增强型神经网络引擎，用于加速强大的机器学习（ML）模型。与 M1 系列芯片相比，新的神经网络引擎带来最高达 60% 的速度

腾讯混元 TurboS 技术报告发布：560B 参数混合 Mamba 架构、自适应长短链融合

2025-05-23

架构协同：巧妙地融合了Mamba架构处理长序列的高效性与Transformer架构卓越的上下文理解能力。这两种架构的结合，旨在取长补短，实现性能与效率的最大化。模型包含128层，采用了创新的“AMF”（Attention → Mamba2 → FFN）和“MF

Compiz 0.9.14.2 发布，混合窗口管理器

2022-08-26

，或是 KDE Plasma 环境下的 KWin。Compiz 拥有类似苹果电脑的 Mac OS X 操作系统中所提供的许多桌面特效，例如 Exposé。 Compiz 使用 OpenGL 绘图层 Glitz 架构在 Xgl 这个新的 X 环境上。 Compiz 最早是由 Novell 在2006年1月时公布

腾讯开源可控视频生成框架 MimicMotion

2024-07-17

腾讯宣布开源可控视频生成框架 MimicMotion，该框架可以通过提供参考人像及由骨骼序列表示的动作，来产生平滑的高质量人体动作视频。公告称，大量的实验结果和用户调研表明MimicMotion在各种方面都显著优于以往的方法。目

熱門推薦

Kimi K2 和 Qwen-3 Coder 针对编程任务的详细对比 07-25
微语 0.8.9 发布，开源智能客服 07-26
Qwen3-Coder 和 Kimi-K2 均已上线模力方舟 07-26
开源 AI 客户端 Cherry Studio v1.5.3 发布 07-26
阶跃星辰发布最强开源多模态推理模型 Step3 07-26
阿里巴巴 1688 发布“AI 版”App 与“88 查” 07-31
Ruby 3.2.9 发布 07-25
“给予”超越“莲花”，支持图片在线编辑 07-27