苹果联合复旦大学提出端侧视频大语言模型框架 StreamBridge


苹果公司联合复旦大学,推出 StreamBridge 端侧视频大语言模型(Video-LLMs)框架,助力 AI 理解直播流视频。该框架通过内存缓冲区和轮次衰减压缩策略,支持长上下文交互。

该框架还引入了一个轻量化的独立激活模型,无缝集成现有视频大语言模型,实现主动响应功能。研究团队还推出了 Stream-IT 数据集,包含约 60 万个样本,融合了视频与文本序列,支持多样化的指令格式,旨在提升流式视频理解能力。

StreamBridge 在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上进行了测试。结果显示,Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04,超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。

论文简介如下:

视频大语言模型(Video - LLMs)通常一次性处理整个预录制视频。然而,新兴应用,如机器人技术和自动驾驶,需要在线对视觉信息进行因果感知和解释。这种根本不匹配凸显了当前视频大语言模型(Video - LLMs)的一个关键局限性,因为它们本质上不具备在及时理解和响应至关重要的流式场景中运行的能力。

我们提出了流桥(StreamBridge),这是一个简单而有效的框架,可将离线视频大语言模型(Video - LLMs)无缝转换为具备流式处理能力的模型。它解决了将现有模型应用于在线场景时的两个基本挑战:(1)多轮实时理解能力有限;(2)缺乏主动响应机制。

具体而言,流桥(StreamBridge)包含:

(1)一个结合了轮次衰减压缩策略的内存缓冲区,支持长上下文多轮交互;

(2)一个解耦的轻量级激活模型,可轻松集成到现有的视频大语言模型(Video - LLMs)中,实现持续的主动响应。

为了进一步支持流桥(StreamBridge),我们构建了流信息技术(Stream - IT),这是一个专门用于流式视频理解的大规模数据集,具有交错的视频文本序列和多样化的指令格式。

大量实验表明,流桥(StreamBridge)显著提高了离线视频大语言模型(Video - LLMs)在各种任务中的流式理解能力,甚至优于GPT - 4o和Gemini 1.5 Pro等专有模型。同时,它在标准视频理解基准测试中也取得了有竞争力或更优的性能。

论文链接:https://arxiv.org/pdf/2505.05467


相關推薦

2023-06-22

态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。此前,OpenAI 联合创始人伊尔亚・苏茨克维 (Ilya Sutskever) 曾表示,“人工智能的长期目标是构建多模态神经网络,即 AI 能够学习不同模态之间的

2023-09-08

“智谱清言”,现已在各大应用商店上线,用户可通过苹果商店 App Store、安卓主流商店(包括华为、OPPO、vivo 及小米等)进行下载,或在微信小程序中搜索 “智谱清言” 体验其功能。 该助手基于智谱 AI 自主研发的中英双语

2023-03-28

3 月 27 日消息,据“亲爱的数据”独家获悉,前美团联合创始人王慧文团队“正在收购”国产 AI 框架 OneFlow。 OneFlow 是一个采用全新架构设计的工业级通用开源深度学习框架,采用了 Apache 2.0 License。OneFlow 率先提出了静态调度

2024-08-08

面壁智能表示,MiniCPM-V 2.6 模型将实时视频理解、多图联合理解、多图 ICL 等能力首次搬上端侧多模态模型,更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界,更能充分发挥端侧 AI 传感器富集、贴近用户的优势

2024-08-24

态适配超千款》,很多用户在评论区也纷纷留言,给我们提出了很多好的建议。今天我们继续和大家聊一聊deepin 23的UOS AI在多模型对接、个人AI助手、操作系统管理、AI赋能应用上的技术亮点和功能应用。另外,如果大家在使用UO

2025-06-08

经销领域的巨大潜力正被资本市场高度关注。Toma 的两位联合创始人 Monik 和 Anthony 是资深 AI 工程师,曾在 Scale AI、Uber、Lyft 和亚马逊等科技巨头积累了超过十年的产品与 AI 研发经验。 Toma 的解法:不仅仅是语音 AI,更是「AI 员

2023-11-04

深言科技与清华大学 NLP 实验室共同研发的语鲸LingoWhale-8B模型已面向社会开源。 深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发

2023-09-13

者大会精彩演讲回顾 新加坡国立大学下一代搜索技术联合研究中心(NExT++)近日公布新计划——开发一款可以突破输入端多模态理解限制的大模型 NExT-GPT。 项目主页:https://next-gpt.github.io/ 论文地址:https://arxiv.org/pdf/2309.055

2025-05-15

近日,清华大学联合面壁智能团队发布了 AgentCPM-GUI —— 一个面向中文 APP 的端侧 GUI Agent,已在中文 Android 场景和开源 Benchmark 取得 SOTA 性能。 据介绍,与传统 Agent 相比,GUI Agent 更强调通过图形界面的窗口、按钮而非文本去

2023-03-02

代人工智能重大科技项目支持下,2023年初,智源研究院联合30多家产学研单位共同承担的旗舰项目“人工智能基础模型支撑平台与评测技术”全面启动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全

2025-06-21

日前,OpenAI 联合创始人、特斯拉前 AI 负责人 Andrej Karpathy 在 Y Combinator 的 AI 创业学院活动上,进行了个人演讲。 本次演讲中,Karpathy 提出了「软件 3.0 时代」这一概念,他认为自然语言正在取代传统代码,而大型语言模型(LL

2025-05-14

智源研究院宣布已开源与南开大学共同构建的 Chinese-LiPS 中文多模态语音识别数据集。 作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集,Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂

2024-08-27

更重要的使命,帮助人类解决生产力的问题。这个概念一提出,上至七旬老者、下至八岁学童,都在侃侃而谈一个词:新质生产力。 能够让 AI 工具帮助人类完成日常的工作,比如流程化执行、代码编写、文章写作、绘画创作等

2023-10-24

OSC 请你来轰趴啦!1028 苏州源创会,一起寻宝 AI 时代 澳大利亚国立大学、牛津大学和北京人工智能研究院的研究人员,合作开发了一种名为“3D-GPT”的新型人工智能系统,该系统可以简单地根据用户提供的基于文本的描述生成