人工智能公司Jina AI 宣布推出其第二代文本嵌入模型: jina-embeddings-v2
。这款模型现在是唯一支持 8K(8192个 token)上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002
相当。
与OpenAI的8K模型 text-embedding-ada-002
进行比较,jina-embedding-v2
在分类平均值、重排平均值、检索平均值和摘要平均值方面超越了 OpenAI 的 text-embedding-ada-002
。
Rank | Model | Model Size (GB) | Embedding Dimensions | Sequence Length | Average (56 datasets) | Classification Average (12 datasets) | Reranking Average (4 datasets) | Retrieval Average (15 datasets) | Summarization Average (1 dataset) |
---|---|---|---|---|---|---|---|---|---|
15 | text-embedding-ada-002 | Unknown | 1536 | 8191 | 60.99 | 70.93 | 84.89 | 56.32 | 30.8 |
17 | jina-embeddings-v2-base-en | 0.27 | 768 | 8192 | 60.38 | 73.45 | 85.38 | 56.98 | 31.6 |
text-embedding-ada-002
的特点:
- 从零到卓越:这个
jina-embeddings-v2
是从头开始构建的。在过去的三个月里,Jina AI的团队进行了密集的研发、数据收集和调整。 - 利用8K解锁扩展上下文潜力:
jina-embeddings-v2
8K的上下文长度为新的行业应用开启了大门:- 法律文件分析:确保对大量法律文本中的每一个细节进行捕捉和分析。
- 医学研究:为了进行高级分析和发现,全面地嵌入科学论文。
- 文学分析:深入研究长篇内容,捕捉微妙的主题元素。
- 财务预测:通过详细的财务报告获得卓越的洞察力。
- 会话式AI:提升聊天机器人对复杂用户查询的响应能力。
同时,基准测试显示,在多个数据集中,这种 8K 上下文长度的扩展使得jina-embeddings-v2超越了其它领先的嵌入模型:
接下来,Jina 将会有一篇相关的学术洞察文章发表。同时团队正在开发类似OpenAI的嵌入式API平台的产品;语言方面,正在进入多语种嵌入领域,目标是推出德英模型。