Jina AI 发布全球首个开源 8K 文本嵌入模型，超越 OpenAI

2023-10-27 發表於开源资讯

人工智能公司Jina AI 宣布推出其第二代文本嵌入模型： jina-embeddings-v2 。这款模型现在是唯一支持 8K（8192个 token）上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002 相当。

与OpenAI的8K模型 text-embedding-ada-002 进行比较，jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面超越了 OpenAI 的 text-embedding-ada-002。

Rank	Model	Model Size (GB)	Embedding Dimensions	Sequence Length	Average (56 datasets)	Classification Average (12 datasets)	Reranking Average (4 datasets)	Retrieval Average (15 datasets)	Summarization Average (1 dataset)
15	text-embedding-ada-002	Unknown	1536	8191	60.99	70.93	84.89	56.32	30.8
17	jina-embeddings-v2-base-en	0.27	768	8192	60.38	73.45	85.38	56.98	31.6

text-embedding-ada-002 的特点：

从零到卓越：这个 jina-embeddings-v2 是从头开始构建的。在过去的三个月里，Jina AI的团队进行了密集的研发、数据收集和调整。
利用8K解锁扩展上下文潜力： jina-embeddings-v2 8K的上下文长度为新的行业应用开启了大门：
- 法律文件分析：确保对大量法律文本中的每一个细节进行捕捉和分析。
- 医学研究：为了进行高级分析和发现，全面地嵌入科学论文。
- 文学分析：深入研究长篇内容，捕捉微妙的主题元素。
- 财务预测：通过详细的财务报告获得卓越的洞察力。
- 会话式AI：提升聊天机器人对复杂用户查询的响应能力。

同时，基准测试显示，在多个数据集中，这种 8K 上下文长度的扩展使得jina-embeddings-v2超越了其它领先的嵌入模型：

接下来，Jina 将会有一篇相关的学术洞察文章发表。同时团队正在开发类似OpenAI的嵌入式API平台的产品；语言方面，正在进入多语种嵌入领域，目标是推出德英模型。

相關推薦

Jina AI 开源多模态多语言向量模型 Jina Embeddings V4

2025-06-27

sp;是我们迄今为止最具突破性的一款向量模型。作为一款开源模型，它的性能表现已全面超越来自主流供应商的顶尖闭源模型。” 在多语言检索方面，其性能比 OpenAI 的 text-embedding-3-large 高出 12%（66.49 vs 59.27）。在长文档

清华博士带队，发布全球首个自回归视频生成大模型「Magi-1」

2025-04-24

日前，由清华博士曹越创立的 Sand.AI，公布了一款名为「Magi-1」的自回归视频生成模型，其主打两个能力：无限长度扩展：通过前一段生成的内容进行后一段视频的制作，从而实现跨时间的无缝连贯叙事；生成时长控制精

Mistral AI 开源 AI 音频模型系列 Voxtral

2025-07-17

和边缘部署的 3B 版本。两个版本均基于 Apache 2.0 许可证发布。公告称，Voxtral 解决了开发者需要在低成本的开源系统和高效但封闭的解决方案之间做选择的问题。该模型以不到同类 API 一半的价格，在开放环境中提供最先进的

欧洲 AI 创企发布"鸡脑"和"蝇脑"模型

2025-08-20

欧洲知名AI初创公司Multiverse Computing近日发布了两款极其微小的AI模型，小到可以用鸡脑和蝇脑来命名。该公司声称这是全球最小但仍保持高性能的模型，能够处理聊天、语音识别，其中一款甚至具备推理能力。这些超小型模型

Jina AI 开源全新多模态多语言重排器 jina-reranker-m0

2025-04-10

Jina AI 正式发布jina-reranker-m0，一款多模态、多语言重排器（reranker），核心能力在于对包含丰富视觉元素的文档进行重排和精排，同时兼容跨语言场景。根据介绍，当用户输入一个查询（query）以及一堆包含文本、图表

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 (MoE)

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘，其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。文章作

昆仑万维「天工」大模型正式向全社会开放

2023-11-06

等领域。 2022年12月15日，昆仑万维在北京举行AIGC技术发布会，发布自研AIGC全系列算法与模型，覆盖了图像、音乐、文本、编程等多模态的AI内容生成能力。 2023年4月17日，昆仑万维正式发布自研千亿级大语言模型“天工”，

法国 AI 初创公司 Mistral 将发布推理模型 Magistral

2025-06-11

破了美国和中国模型的语言局限性。今年3月，Mistral已发布240亿参数的Mistral Small 3.1模型，该模型以低成本实现本地运行，部分性能甚至超越OpenAI的GPT-4o mini。5月，Mistral进一步推出了Medium 3模型，这款中量级模型在保持前沿性能

韩国 LG 开源 EXAONE Deep：争夺下一代 AI 推理主导地位

2025-03-21

越了 OpenAI 的 GPT 模型、谷歌 DeepMind 的 Gemini 和 DeepSeek 等全球竞争对手。共包括三个不同的尺寸：具有 320 亿个参数的 Exaone Deep 32B、具有 78 亿个参数的 Exaone Deep 7.8B 和具有 24 亿个参数的 Exaone Deep 2.4B。 LG 表示，韩国 AI 模型

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合 MIT 发布超长文本扩展技术

2023-10-10

能力。这个局面如今被打破。近日，贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜：hugging face热榜第一、paperwithcode热度第一，Github全部python项目热度第五、github stars一周内破千，Twitter上的相关技术帖

昆仑万维发布全球首款音乐推理大模型 Mureka O1

2025-03-27

创新再次在AI音乐领域领跑全球。” 2024年4月，昆仑万维发布了第一代音乐生成模型：Mureka V1（SkyMusic）。Mureka V6是当前Mureka的基座模型，支持纯音乐生成，还支持10种语言的AI音乐创作，包括英语、中文、日语、韩语、法语、西

阿里发布 Qwen2-Math，超越 GPT-4o

2024-08-10

阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。 Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、

Meta 正在构建新开源大模型，性能超越 Llama 2、比肩 GPT-4

2023-09-12

道，Meta 正在寻求在生成式 AI 领域与 OpenAI 展开竞争，将发布新的开源大模型，其性能或将与GPT-4 不相上下。报道称，这款新模型比 Llama 2 强大数倍，将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中，最终

Stripe 报告：AI 经济火箭式增长，营收速度超越 SaaS 三倍

2025-08-12

金融服务平台 Stripe 发布最新分析报告，深入剖析其平台上排名前100位的 AI 企业的支付数据，揭示了人工智能经济正以前所未有的速度蓬勃发展，并在营收增长、全球市场拓展和商业模式创新方面呈现出显著趋势。作为 OpenAI

熱門推薦