快手开源多模态大模型 Kwai Keye-VL


快手宣布并开源其最新自研的多模态大语言模型 Kwai Keye-VL。

根据介绍,Kwai Keye-VL 以 Qwen3-8B 语言模型为基础,引入了基于开源 SigLIP 初始化的 VisionEncoder,能够深度融合并处理文本、图像、视频等多模态信息,凭借其创新的自适应交互机制与动态推理能力,旨在为用户提供更智能、全面的多模态交互体验。

Kwai Keye-VL 支持动态分辨率输入,按原始比例将图像切分为 14x14  patch 序列,由一个 MLP 层将视觉 Token 进行映射与合并。模型采用 3D RoPE (旋转位置编码)统一处理文本、图像和视频,并通过位置编码与时间戳对齐,精准捕捉视频时序变化。

在视觉理解与逻辑推理能力方面,Kwai Keye-VL 的综合感知能力媲美同规模顶尖模型,并在复杂推理任务中展现出显著优势。尤其是逻辑推理方面,Kwai Keye-VL 在最新的 2025 年高考全国数学卷中取得了140分的成绩。

为突破公开数据集的数据污染、语言覆盖局限及任务单一性等问题,快手构建了内部评测集KC-MMBench。结果显示:该模型在VideoMME等权威公开Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)与InternVL-3-8B(65.5);在内部短视频场景评测中优势进一步扩大,综合得分领先SOTA模型超10%。

更多详情可查看官方公告。


相關推薦

2024-07-07

在2024世界人工智能大会上,快手高级副总裁、主站业务与社区科学负责人盖坤宣布,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,技术细节参考技术报告

2025-05-10

快手推出了基于多模态大模型的创新方案 KuaiMod,旨在优化短视频平台生态并提升用户体验。 KuaiMod 的核心在于其对短视频内容的质量判别。传统的内容判别方法往往依赖于静态规则和人工标注,成本高且难以应对用户偏好的动

2024-08-15

!本周爆火的文生图模型 FLUX.1 系列,支持中文提示词的快手生图,还有 SenseVoice 语音识别,都在本版本得到支持。 图一、图二:由FLUX.1-dev生成 - 新增内置支持模型 📦   - flux.1-schnell 和 flux.1-dev 🌟   - llama-3.1-instruct 4

2025-06-04

模型发布,拥有卓越的动态效果表现,更强的语义响应 快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉,可灵 2.1 系列拥有标准版和大师版两个版本模型: 标准版支持标准(720P)和高品质(1080P)两种模式。价格方面,标准

2025-06-05

快手 Kwaipilot 团队宣布开源 KwaiCoder-AutoThink-preview 自动思考大模型,针对近期深度思考大模型存在的“过度思考”问题进行了深入研究。 团队不仅提出了一种全新的自动思考模型训练范式,还基于传统强化学习算法(GRPO),创

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2023-08-16

上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联

2023-06-22

alGLM-6B 由清华大学知识工程和数据挖掘小组发布,是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模

2023-08-26

>>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary 模型体验:https://modelscope.c

2023-09-05

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均

2025-06-11

头同业陆续已展开军备竞赛,如Meta主要依赖自主研发与开源策略推进AI技术发展,微软向OpenAI注资逾130亿美元,谷歌母公司Alphabet则向竞争对手Anthropic投入数十亿美元。       与此同时,资料

2024-01-13

中国电信宣布将自研星辰 AI 大型模型全面开源,公开其底层代码、算法逻辑及其预制的各种基础大模型、开发模块、训练工具等核心产品能力。 用户既可以直接调用大模型,也可以根据自身业务需求对大模型进行微调或个性化

2023-08-19

水木分子联合清华大学智能产业研究院(AIR)宣布开源全球首个可商用多模态生物医药百亿参数大模型 BioMedGPT-10B,可用于提升药物研发各个环节的效率,包括新药立项评估、药物设计和优化、临床试验设计、适应症拓展等。

2023-06-17

所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启动及首批22家单位入驻、全模态大模型“紫东·太初2.0”正式发布等。 本次峰会以“一起昇思 无尽创新”