阿里通义实验室发布 OmniAudio,可从 360° 视频生成空间音频


阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio,它能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。

为了解决「如何利用全景视频生成与之匹配的空间音频」这一问题,通义实验室语音团队提出了 360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从 360° 视频生成 FOA(First-order Ambisonics)音频。

据悉,FOA 是一种标准的 3D 空间音频格式,能够捕捉声音的方向性,实现真实的 3D 音频再现。

受限于现有的配对 360° 视频和空间音频数据极为稀缺,通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集,涵盖 288 种音频事件,总时长达到 288 小时。

另外,OmniAudio 的训练方法分为了「自监督的 coarse-to-fine 流匹配预训练」以及「基于双分支视频表示的有监督微调」两个阶段。

目前,OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库,以及相关技术论文。

  • 项目主页:https://omniaudio-360v2sa.github.io/
  • 代码和数据开源仓库:https://github.com/liuhuadai/OmniAudio
  • 论文地址:https://arxiv.org/abs/2504.14906

相關推薦

2024-08-14

等多个领域,为用户带来更加丰富、智能的应用体验。 阿里通义 通义是一款超大规模与训练模型,为您提供全方位协助,包括知识问答、AI创作、文档作画、涂鸦绘画、AI搜索、千万字长文档解析、AI翻译、AI会议纪要等等,

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2024-08-14

通义千问团队开源音频语言模型 Qwen2-Audio。这是 Qwen-Audio 的下一代版本,它能够接受音频和文本输入,并生成文本输出。具有以下特点: 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。据阿里云CTO周靖人介绍,Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2025-04-25

集成了国内16家大模型厂商的50多款大模型,Deep Seek- R1和阿里通义千问都在其中,用户能选择不同的大模型基座驱动工具乃至智能体。”梁志辉称,纳米AI还精心打磨了知识库产品,可以让AI更懂企业和个人,“纳米AI万能工具箱

2025-03-25

国内 AI 图像创作平台 LiblibAI 近日宣布接入阿里通义系列大模型。 此次接入后,基于万相最新开源模型,LiblibAI推出了文生视频和图生视频功能。用户只需输入文本提示词,或者上传图片,就能快速生成10秒短视频。这一功能的

2025-03-27

为何开源大模型成为中国当前的发展潮流?FutureLabs未来实验室首席专家胡延平对中新社记者表示,大模型厂商普遍选择开源,且有强劲的市场爆发力,是因为人工智能发展处在四个重要时刻。 一是端侧智能的需求崛起,包括

2024-09-26

阿里通义实验室发布了一个用于可控角色视频合成的通用模型 MIMO,能够模仿任何人在复杂动作和物体交互的场景中的表现。简单讲,用户只要给定一个图像和视频或者动作序列,它就能把给定图像的人物直接替换成视频里面

2023-08-26

26 日「源创会」北京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/m

2025-05-08

知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰已于4月30日低调离职。 有消息称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 薄列锋2007年博士毕业于西安

2024-08-22

阿里大语言模型通义千问宣布启用新域名「tongyi.ai」,并带来多项新功能。 除了域名更新,网页版通义千问还在聊天页面中增加了深度搜索功能,该功能支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬

2022-06-11

PipeWire 是用于处理多媒体管道的服务器和用户空间 API 的多媒体处理工具,包括提供视频源(例如来自捕获设备或应用程序提供的流)并将其与客户端复用、访问视频源进行消费、生成用于音频和视频处理的图形。 PipeWire 0.3.52

2023-03-01

在 FFmpeg 5.1 发布约 6 个月后,FFmpeg 6.0 "Von Neumann" 现已正式发布。该版本包含了许多新的编码器和解码器、过滤器以及 FFmpeg CLI 工具方面的改进。 同时改变了发行方式,所有主要版本现在都会增加 ABI 版本;官方计划每年推出一