苹果开源 FastViT:快速卷积 Transformer 的混合视觉架构


苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。

论文地址:https://arxiv.org/pdf/2303.14189.pdf
代码仓库:https://github.com/apple/ml-fastvit

FastViT 有机地结合了 CNN 和 Transformer 的优势,无论在精度或者运行效率上均有了稳定的提升。FastViT 引入了一种新的 Token 混合算子,命名为 RepMixer。从名字来看,它结合了结构重新参数化技术。该算子的作用原理是通过消除网络中的 skip connection 来降低内存访问成本。

FastViT 整体框架图:

实验结果表明,FastViT:

  • 在移动设备上的速度比混合 Transformer 架构 CMT 快 3.5 倍
  • 在 ImageNet 数据集上的精度相同,但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍
  • 在相似的延迟下,FastViT 在 ImageNet 上的 Top-1 精度比 MobileOne 高出 4.2%

参考:https://mp.weixin.qq.com/s/poJur-vOtU2-h2tUe89shA、https://mp.weixin.qq.com/s/uqcWy4sx1NQuqOplsGDUlg


相關推薦

2022-09-08

作者:谦言、临在 一 导读 近年来,自监督学习和Transformer在视觉领域大放异彩。图像自监督预训练极大降低了图像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供

2023-11-01

例如 AI 开发者现可运行包含数十亿个参数的规模更大的 Transformer 模型。 M3、M3 Pro 和 M3 Max 芯片还引入增强型神经网络引擎,用于加速强大的机器学习(ML)模型。与 M1 系列芯片相比,新的神经网络引擎带来最高达 60% 的速度

2022-08-26

,或是 KDE Plasma 环境下的 KWin。Compiz 拥有类似苹果电脑的 Mac OS X 操作系统中所提供的许多桌面特效,例如 Exposé。 Compiz 使用 OpenGL 绘图层 Glitz 架构在 Xgl 这个新的 X 环境上。 Compiz 最早是由 Novell 在2006年1月时公布

2023-06-08

今天凌晨,WWDC23 全球开发者大会正式开幕。 大会上,苹果展示了包括 iOS 17、iPadOS 17、watchOS 10 和 macOS Sonoma 在内的新系统。硬件方面,苹果发布了 15 英寸的 MacBook Air、搭载 M2 Ultra 的 Mac Studio 以及 Mac Pro。 此外,苹果还发布了

2023-06-30

OpenCV 是 Intel 开源计算机视觉库,它实现了图像处理和计算机视觉方面的很多通用算法。OpenCV 4.8 版本的主要更新内容如下: DNN module patches: #23161、#23409 TFLite 模型支持,包括 int8 量化模型。 #23604 启用 DNN 模

2022-02-14

软件开发者在 App Store 的上传日志和苹果使用的 GitHub 仓库中发现了多次提及"realityOS"的代码。从曝光的信息来看,realityOS 极有可能是苹果打造的新 AR/VR 操作系统,将搭载于苹果传闻中的混合现实设备。 对一个名为 "re

2023-06-29

,我们发布了一个音频处理课程,旨在让学员学习使用 transformers 处理音频,涵盖了包括音频数据处理技术、不同任务的 transformers 模型应用(如音频分类和语音识别)、音频 transformers 模型的架构和音频任务实践等一系列内容。

2023-03-23

创公司的信息。 在加入英特尔之前,Raja 曾在 ATI/AMD 及苹果公司工作多年。维基百科介绍,Raja 在 2001 年担任 ATI 技术公司的高级技术发展总监,并在 2006 年 Advanced Micro Devices 收购 ATI 后担任 AMD 的图形首席技术官,直到 2009 年

2023-06-08

6 月 5 日,苹果 WWDC23 全球开发者大会正式开幕。大会上,苹果展示了包括 iOS 17、iPadOS 17、watchOS 10 和 macOS Sonoma 在内的新系统。 硬件方面,苹果发布了 15 英寸的 MacBook Air、搭载 M2 Ultra 的 Mac Studio 以及 Mac Pro。此外,苹果还发布

2023-04-08

但又与其他一些主题格格不入。虽然欢迎屏幕提供了一种快速从浅色到深色、从一种颜色到另一种颜色的切换方法,但它有自己的局限性:这些设置只适用于 Mint-Y 主题,而且只适用于 Linux Mint 自己的发行版。 考虑到这一点,Li

2023-11-16

am 应用采用了半透明设计,与周围区域融为一体,这也是苹果为 visionOS 所采用的设计语言。 该应用的侧边栏列出了用户正在进行的所有可用对话。播放的视频会从界面中跳出,变得更加身临其境,而 emoji 字符则会占据显示

2023-03-07

个用 Rust 构建的数据驱动游戏引擎,Bevy 承诺永远免费和开源,开发者可以查看 Bevy Assets —— 这是社区开发的插件、游戏和学习资源的集合。 经过 173 位贡献者共 689 个 PR,时隔 4 个月,Bevy 0.10 版本正式发布。这个版本增加了

2023-08-26

>>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary 模型体验:https://modelscope.c

2023-11-09

B 站 up 主 @林亦 LYi 最近采访了苹果全球产品营销副总裁 Bob Borchers,期间聊到了大家关心的“祖传黄金 8GB 内存”问题。 针对苹果入门级 MacBook Pro 只给 8GB 内存的问题,Bob Borchers 表示苹果 MacBook Pro 采用了统一内存架构,所以它