Meta 开源创新大模型架构 AU-Nets


Meta 开源了创新大模型架构 AU-Nets(Autoregressive U-Nets),其通过自回归 U-Net 架构彻底改变了传统语言模型的分词和处理模式,能够直接从原始字节开始学习,动态将字节组合成单词、词对甚至多达四个单词的组合,形成多尺度序列表示。

https://arxiv.org/pdf/2506.14761

AU-Nets 的设计灵感来源于医学图像分割领域的 U-Net 架构,包含独特的收缩路径(压缩字节序列为高层次语义单元,提取宏观语义信息)和扩张路径(逐步还原高层次信息到原始序列长度,融合局部细节),并通过跳跃连接确保信息不丢失,提升生成能力和预测准确性 。在推理阶段,AU-Nets 采用自回归生成机制,确保文本生成的连贯性和准确性,同时提高推理效率。

该架构已开源,相关代码和研究成果已发布在 GitHub:https://github.com/facebookresearch/lingua/tree/main/apps/aunet


相關推薦

2024-07-25

今天凌晨,Meta 正式发布新一代开源大模型 Llama 3.1 系列,提供 8B、70B 及 405B  参数版本。 Llama 3 使用了超过 1.6 万个 H100 GPU、以及超过 15T token 的公开数据进行训练。 架构方面,该模型选择标准的仅解码器 transformer 模型架

2024-02-04

季度财报电话会议中,马克 - 扎克伯格解释 Meta 为什么要开源其 AI 技术。 Meta开源其 AI 技术是出于推动技术创新、提升模型质量、建立行业标准、吸引人才、增加透明度和支持其长期战略的考虑。这不仅有助于 Meta 在竞争激烈

2025-06-13

Meta发布了最新的开源世界模型V-JEPA 2,称其在物理世界中实现了最先进的视觉理解和预测,从而提高了AI agents的物理推理能力。 开源地址:https://github.com/facebookresearch/vjepa2 官网地址:https://ai.meta.com/vjepa/ 论文地址:https://ai.me

2024-07-25

Meta 在今天凌晨正式发布新一代开源大模型 Llama 3.1 系列。与此同时,Meta 创始人兼首席执行官马克·扎克伯格也发布了一封名为“Open Source AI Is the Path Forward”的公开信,描绘了 AI 发展的未来愿景。 他以闭源版 Unix 和开源 Linux

2025-04-11

英伟达开源了 NVIDIA Llama Nemotron 中最大尺寸的推理模型 Llama-3.1-Nemotron-Ultra-253B-v1,可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。 根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,

2023-03-17

是由华为云数据库创新实验室自行设计、研发并面向全球开源的一款云原生分布式时序数据库。主要面向物联网和运维监控等场景,提供海量时序数据库处理和分析的开源解决方案,以进一步降低企业运营和运维成本,提升产品

2025-07-16

perion 将延续其在开放计算(Open Compute Project)和 PyTorch 等开源生态中的承诺。集群设计基于 Grand Teton 平台,支持 RoCE 和 InfiniBand 两种网络架构,展示了 Meta 在硬件灵活性和可扩展性上的探索。 此外,Meta 承诺在数据隐私方面采

2023-10-28

关人员转向从事AI工作。 上月曾报道过,Meta 正在构建新开源大模型,据称性能超越 Llama 2、比肩 GPT-4,最终目标是加速开发下一代生成式人工智能模型,使其能够生成更多类似人类的表达。 长期以来,Meta 一直在采用开源方

2023-09-12

正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终功能尚

2023-08-26

创会」北京站,聊聊 AI 大模型与底层技术 >>> Meta 刚刚开源了号称是编程领域“最先进的大语言模型”——Code Llama,可根据代码和自然语言提示生成代码和有关代码的自然语言,支持多种主流编程语言,包括 Python、C++、Java、PH

2024-08-16

8 月 15 日,2024 全球开源技术峰会 GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主

2023-07-14

根据英国《金融时报》的报道,Meta 准备发布其人工智能模型 LLaMA 的商用版本,允许初创公司和企业在该技术的基础上构建定制软件。 此举将使 Meta 与微软支持的 OpenAI 和谷歌展开竞争。今年早些时候,Meta 面向研究人员和学

2025-06-11

头同业陆续已展开军备竞赛,如Meta主要依赖自主研发与开源策略推进AI技术发展,微软向OpenAI注资逾130亿美元,谷歌母公司Alphabet则向竞争对手Anthropic投入数十亿美元。       与此同时,资料

2025-08-08

并行计算架构。官方近日宣布 MUSA 已正式完成与开源推理框架 llama.cpp 的适配,进一步融入全球 AI 生态。 llama.cpp 作为纯 C/C++ 实现的大语言模型推理工具,以轻量化部署和跨硬件兼容性著称,支持 LLaMA、Mistral 等主流模