苹果开源 FastViT:快速卷积 Transformer 的混合视觉架构


苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。

论文地址:https://arxiv.org/pdf/2303.14189.pdf
代码仓库:https://github.com/apple/ml-fastvit

FastViT 有机地结合了 CNN 和 Transformer 的优势,无论在精度或者运行效率上均有了稳定的提升。FastViT 引入了一种新的 Token 混合算子,命名为 RepMixer。从名字来看,它结合了结构重新参数化技术。该算子的作用原理是通过消除网络中的 skip connection 来降低内存访问成本。

FastViT 整体框架图:

实验结果表明,FastViT:

  • 在移动设备上的速度比混合 Transformer 架构 CMT 快 3.5 倍
  • 在 ImageNet 数据集上的精度相同,但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍
  • 在相似的延迟下,FastViT 在 ImageNet 上的 Top-1 精度比 MobileOne 高出 4.2%

参考:https://mp.weixin.qq.com/s/poJur-vOtU2-h2tUe89shA、https://mp.weixin.qq.com/s/uqcWy4sx1NQuqOplsGDUlg


相關推薦

2024-10-15

苹果近日发布多模态大模型 MM1.5,旨在增强对文本丰富的图像的理解、视觉指代和接地,以及多图像推理的能力。 据悉, MM1.5在在 MM1 架构的基础上训练而成,MM1.5 采用了以数据为中心的模型训练方法,在整个模型训练生命周

2024-07-30

处理多个子任务。与此同时, Decision-RWKV 相比 DT(Decision-Transformer)显著地减少了推理时间和内存占用,使其成为现实应用(尤其是机器人领域)的更佳选择。 图像处理 Restore-RWKV 论文名称: Restore-RWKV: Efficient and Effective Medi

2022-09-08

作者:谦言、临在 一 导读 近年来,自监督学习和Transformer在视觉领域大放异彩。图像自监督预训练极大降低了图像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供

2023-11-01

例如 AI 开发者现可运行包含数十亿个参数的规模更大的 Transformer 模型。 M3、M3 Pro 和 M3 Max 芯片还引入增强型神经网络引擎,用于加速强大的机器学习(ML)模型。与 M1 系列芯片相比,新的神经网络引擎带来最高达 60% 的速度

2024-08-01

招募前端贡献者 RWKV 的新学术研究: GoldFinch:RWKV/Transformer 混合模型架构 Restore-RWKV:RWKV 医学图像修复模型 Decision-RWKV:基于 RWKV 模型的机器人终身学习算法 8 月预告:RWKV 的小说微调模型(7B、14B)正在训练中,有

2024-07-17

腾讯宣布开源可控视频生成框架 MimicMotion,该框架可以通过提供参考人像及由骨骼序列表示的动作,来产生平滑的高质量人体动作视频。 公告称,大量的实验结果和用户调研表明MimicMotion在各种方面都显著优于以往的方法。目

2022-08-26

,或是 KDE Plasma 环境下的 KWin。Compiz 拥有类似苹果电脑的 Mac OS X 操作系统中所提供的许多桌面特效,例如 Exposé。 Compiz 使用 OpenGL 绘图层 Glitz 架构在 Xgl 这个新的 X 环境上。 Compiz 最早是由 Novell 在2006年1月时公布

2024-07-02

多层循环神经网络,残差网络,多层残差循环神经网络,卷积神经网络,决策树,随机森林,k最近邻等 启发式算法: 粒子群,蚁群,模拟退火 强化学习 动态规划,蒙特卡洛分析,马尔可夫,时序差分 常用上层算法模

2023-06-08

今天凌晨,WWDC23 全球开发者大会正式开幕。 大会上,苹果展示了包括 iOS 17、iPadOS 17、watchOS 10 和 macOS Sonoma 在内的新系统。硬件方面,苹果发布了 15 英寸的 MacBook Air、搭载 M2 Ultra 的 Mac Studio 以及 Mac Pro。 此外,苹果还发布了

2024-06-04

是现在深度学习领域中最核心的计算,无论普通卷积还是Transformer中的Attention模块,都是矩阵乘法计算。矩阵乘法的计算量在大多数深度学习模型中占90%以上的比重。矩阵乘法的基本实现很简单,只需要不到10行代码,但将之优

2024-07-25

数据进行训练。 架构方面,该模型选择标准的仅解码器 transformer 模型架构进行调整,而不是混合专家模型,以最大化训练稳定性。 此外,Llama 3 采用了迭代的后训练程序,每一轮使用监督微调和直接偏好优化。 Meta 表示,Ll

2022-02-14

软件开发者在 App Store 的上传日志和苹果使用的 GitHub 仓库中发现了多次提及"realityOS"的代码。从曝光的信息来看,realityOS 极有可能是苹果打造的新 AR/VR 操作系统,将搭载于苹果传闻中的混合现实设备。 对一个名为 "re

2023-06-30

OpenCV 是 Intel 开源计算机视觉库,它实现了图像处理和计算机视觉方面的很多通用算法。OpenCV 4.8 版本的主要更新内容如下: DNN module patches: #23161、#23409 TFLite 模型支持,包括 int8 量化模型。 #23604 启用 DNN 模

2023-06-29

,我们发布了一个音频处理课程,旨在让学员学习使用 transformers 处理音频,涵盖了包括音频数据处理技术、不同任务的 transformers 模型应用(如音频分类和语音识别)、音频 transformers 模型的架构和音频任务实践等一系列内容。