Jina AI 开源全新多模态多语言重排器 jina-reranker-m0


Jina AI 正式发布jina-reranker-m0,一款多模态、多语言重排器(reranker),核心能力在于 含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景

根据介绍,当用户输入一个查询(query)以及一堆包含文本、图表、表格、信息图或复杂布局的文档时,模型会根据文档与查询的相关性,输出一个排序好的文档列表。模型支持超过 29 种语言及多种图形文档样式,例如自然照片、截图、扫描件、表格、海报、幻灯片、印刷品等等。

相较于前代纯文本的重排器 jina-reranker-v2-base-multilingualjina-reranker-m0 不仅新增了处理视觉信息的能力,在纯文本重排场景下,针对多语言内容、长文档及代码搜索等任务,其性能也得到了进一步提升。

全新架构

jina-reranker-m0 的模型架构基于 Qwen2-VL-2B 构建的,总参数量达到 24 亿。该模型采用成对比较(pairwise comparison)机制,能够同时评估输入文档里的视觉和文本元素与查询的相关性,进而实现高效的文档排序。

跟 jina-reranker-v2-base-multilingual 不一样,jina-reranker-m0 不再使用经典的交叉编码器(cross-encoder)架构,而是转向了仅解码器(decoder-only)的视觉语言模型。

它复用了 Qwen2-VL 预训练模型中的视觉编码器(vision encoder)和映射(projector),用 LoRA 对其中的大语言模型(LLM)部分进行了微调,并且在之后额外训练了一个多层感知机(MLP),专门用于生成表征查询-文档相关性的排序分数(ranking logits)。通过这种设计,我们构建了一个专门针对排序任务优化的判别式模型(discriminative model)。

特性

jina-reranker-m0 jina-reranker-v2

架构

视觉语言模型 (Vision Language Model)

交叉编码器 (Cross-Encoder)

基础模型

Qwen2-VL-2B

Jina-XLM-RoBERTa

参数量

24 亿

2.78 亿

最大上下文长度 (查询 + 文档)

10,240 tokens

8,192 tokens

最大图像块数 (动态分辨率,每个块 28x28)

768

❌ (不支持)

多语言支持

支持的任务类型

文搜文, 文搜图, 图搜文, 文搜混合模态

文搜文

这个新架构让 jina-reranker-m0 能处理长达 32K token 的输入,并且能无缝地结合图片和文本输入。模型支持的图片尺寸范围很广,从最小的 56×56 像素到高达 4K 分辨率的图片都没问题。处理图片时,ViT(Vision Transformer)和投影器协同工作,把相邻的 2×2 token 压缩成单个视觉 token,再输入给大语言模型。

像 <|vision_start|> 和 <|vision_end|> 这样的特殊 token 用来明确标示出视觉 token 的边界,让语言模型能准确解析视觉信息,并把视觉和文本元素整合起来,进行复杂的多模态推理。

架构还有效地缓解了模态鸿沟(modality gap)问题。这一问题曾困扰如 jina-clip-v1 和 jina-clip-v2 等早期模型。在那些模型中,图像向量倾向于与图像向量聚集,文本向量则与文本向量扎堆,导致两者在表征空间中形成分离,存在一道鸿沟。这就导致当你的候选文档既有图片又有文本时,用文本查询来检索图片效果就不好。有了 jina-reranker-m0,你现在可以放心把图像和文档放在一起排序,不需要担心模态鸿沟,实现真正的统一多模态搜索体验。

jina-reranker-m0 支持多种查询和文档输入组合来进行重排。经过显式训练与优化,在以下任务上达到了行业顶尖(state-of-the-art,SOTA)水平:

  • 文本到文本 (Text-to-Text)
  • 文本到图像 (Text-to-Image)
  • 图像到文本 (Image-to-Text) 
  • 文本到混合单模态文档 (Text-to-Mixed-Unimodal):指使用文本查询对一个同时包含纯文本文档和纯图像文档的候选集进行统一排序

对于其他的输入组合(如图像到图像、图像到多模态文档、文本到多模态文档),模型也具备零样本(zero-shot)处理能力,底层架构兼容这些模态组合的输入,只是训练阶段没有针对这些模态组合进行优化设计。


相關推薦

2025-03-28

上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库。 在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类

2023-10-27

这款模型现在是唯一支持 8K(8192个 token)上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002 相当。 与OpenAI的8K模型 text-embedding-ada-002 进行比较,jina-embedding-v2 在分类平均值、重排平均值、检

2023-09-08

大语言模型。百川智能称,截止今日,Baichuan-7B/13B 两款开源模型在 Huggingface 下载量已突破三百万。 Baichuan-53B 在线体验:https://www.baichuan-ai.com/home 商汤(日日新大模型) 商汤大模型应用 “商量 SenseChat” 也于 8 月 31 日宣

2025-04-18

上海人工智能实验室(上海 AI 实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。 根据介绍,通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面

2025-04-09

Cherry Studio 是一款支持多个大语言模型(LLM)服务商的开源桌面客户端,兼容 Windows、Mac 和 Linux 系统。 Cherry Studio 昨天发布了最新的 1.1.19 版本,此次更新带来了全新的 QuickPanel 功能、对gpt-4o-mini及网页搜索引用的支持、多项 MCP

2023-03-02

动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。 北京

2023-03-20

终于亮相了。昨天下午,文心一言 (ERNIE Bot)—— 百度全新一代知识增强大语言模型、文心大模型家族的新成员,正式在百度总部 “挥手点江山” 会议室里发布。 发布会一开场,百度 CEO 李彦宏先给大家打了一剂预防针:

2024-10-04

rence,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。   Xinference 的功

2023-11-09

DBCart 企业级开源 (多语言) 商城系统,使用 PHP 语言基于 Laminas + Doctrine 2 组合框架开发完成。可定制、多终端、多场景、多支付、多语言、多货币等特性。 严谨的安全机制,可靠稳定; 方便的操作管理,节约时间; 清晰

2022-06-09

Jina 是一个神经搜索框架,它使任何人都可以在云上构建可扩展且可持续的神经搜索系统,且在几分钟内即可完成。目前 Jina 已发布 3.5.0 版本,带来如下更新: 新的功能 [ 6fa5342d] - 使用上下文管理器进行自定义监

2024-08-16

8 月 15 日,2024 全球开源技术峰会 GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主

2024-08-09

不可磨灭的贡献!未来,让我们继续努力,携手共创,在开源的世界里落地生花~ openKylin 2.0现已正式发布,欢迎大家下载体验,系统使用过程中如有任何问题或建议,欢迎大家点击前openKylin小程序或openKylin Gitee仓库提交反馈。

2023-02-08

MyCms 是一款基于 Laravel 开发的开源免费的开源多语言商城 CMS 企业建站系统。 MyCms 基于 Apache2.0 开源协议发布,免费且可商业使用,欢迎持续关注我们。 v4.3 更新内容 1、优化后台模板 2、新增公众号微信支付 3、优化广告插

2023-09-05

Meta AI 宣布推出一款涵盖 122 种语言变体的多语言阅读理解数据集,名为 Belebele。“我们希望这项工作能够引发围绕 LLM 多语言性的新讨论”。 BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵