小米大模型团队开源对角蛇形自回归图像生成方式


小米大模型团队宣布,其最新提出了一种新的生成方法,即具有方向感知的对角蛇形(diagonal snake-likeorder)自回归图像生成方式(DAR)。目前,相关的论文、训练代码、模型权重已经开源。

根据介绍,它不是一行一行地画,而是沿着图像的对角线、像蛇一样灵活地生成每个像素。这样的方式比传统方法更自然,也更接近人类绘画时的直觉。

我们提出了一种具有方向感知的对角蛇形扫描自回归图像生成框架(DAR),有效地确保相邻索引的 token 在空间上紧密相邻。此外,方向感知模块显著增强了模型在处理频繁变化的生成方向上的表现。我们开发了一系列不同规模的模型,参数量从485M到2.0B不等。在实验中,我们的DAR模型在256×256的ImageNet基准测试中取得了突破性的FID分数(1.37),超越了此前所有自回归方法。

整个模型是decoder-only的结构,保持了和LLM兼容的next token prediction的训练和推理方法,decoder的网络结构跟LlamaGen一致。小米大模型团队选择IBQ工作中的image tokenizer的codebook作为图像token embedding。并创新地提出了4D-RoPE以及Direction Embedding来控制图像的生成方式。

实验结果:

小米大模型团队方面表示,接下来将进一步支持更灵活的多种分辨率图像生成。鉴于本方法与LLM的训练和推理方式高度兼容,还将持续探索更加统一的多模态理解与生成技术方案。


相關推薦

2025-04-24

立的 Sand.AI,公布了一款名为「Magi-1」的自回归视频生成模型,其主打两个能力: 无限长度扩展:通过前一段生成的内容进行后一段视频的制作,从而实现跨时间的无缝连贯叙事; 生成时长控制精准到每一秒。 而从公

2025-04-17

HiDream 智象未来团队宣布正式开源图像生成大模型 HiDream-I1 与交互编辑模型 HiDream-E1。 HiDream-I1 在权威榜单 Artificial Analysis 中 24 小时内登顶,成为首个跻身全球第一梯队的中国自研生成式 AI 模型,并在图像质量、语义理解、艺

2023-10-18

布已完成A1轮战略融资,融资金额3亿美元,阿里、腾讯、小米等科技巨头及多家顶级投资机构均参与了本轮融资。加上天使轮的5000万美元,百川智能的融资金额已达3.5亿美元。 百川智能成立于2023年4月10日,由前搜狗公司CEO王

2025-03-26

-V3迎来一波更新,升级至「DeepSeek-V3-0324」版本。 不仅将模型参数量由原版的671B提升至685B,编程、数学等推理思考能力大幅提升,性能表现可以与Claude 3.5/3.7 Sonnet相媲美。同时,模型的开源协议升级为更宽松的MIT许可,进一步

2024-07-07

裁、主站业务与社区科学负责人盖坤宣布,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,技术细节参考技术报告。 地址:https://github.com/Kwai-Kolors/Kolors

2025-03-27

昆仑万维宣布推出 Mureka O1 模型与 Mureka V6 模型。“Mureka O1作为全球首款音乐推理大模型,性能超越Suno、模型登顶SOTA,中国科技创新再次在AI音乐领域领跑全球。” 2024年4月,昆仑万维发布了第一代音乐生成模型:Mureka V1(SkyMus

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2025-03-27

频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。 何为“测试时缩放”? 在大型语言模型 (LLMs) 领域,研究人员已经发现,通过在测试阶段增加计算量

2025-04-18

字节跳动近日公布了一个仅 70 亿参数的视频生成基础大模型「Seaweed-7B」。 https://seaweed.video/ 令人惊喜的是,该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1,具体来看:

2023-04-22

复旦大学自然语言处理实验室开发的新版 MOSS 模型今日正式上线,成为国内首个插件增强的开源对话大语言模型。MOSS 相关代码、数据、模型参数已在 GitHub 和 Hugging Face 等平台开放,供科研人员下载。 体验地址:https://moss.fastnl

2024-08-27

不一样罢了。 如今各个国产厂商都推出了自己的 AI 大模型,并且各类评测指标纷纷以大模型的通用能力好、参数量大、精确度高来衡量模型的表面能力,但若寻求大模型的本质,实际都是源自同根。如果用取经之路来类比 dee

2024-10-23

智源研究院宣布正式发布原生多模态世界模型 Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。 目前 Emu3 已开源了关键技术和模型。 公告称,Emu3在图像

2022-09-08

大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供了非常大的想象空间。为推进自监督学习和视觉Transformer在阿里集团、阿里云上的落地,阿里云机器学习平台PAI 打造了 EasyCV all-in-one视觉建模工具

2024-08-20

增页眉页脚内容垂直对齐方式 新增表格单元格设置上下对角线 新增文本组件设置上升值 优化线条绘制逻辑 优化默认字体 【fop模块】 修复自动扫描字体无线递归问题