Jina AI 发布全球首个开源 8K 文本嵌入模型,超越 OpenAI


人工智能公司Jina AI 宣布推出其第二代文本嵌入模型: jina-embeddings-v2 。这款模型现在是唯一支持 8K(8192个 token)上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002 相当。

与OpenAI的8K模型 text-embedding-ada-002 进行比较,jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面超越了 OpenAI 的 text-embedding-ada-002

Rank Model Model Size (GB) Embedding Dimensions Sequence Length Average (56 datasets) Classification Average (12 datasets) Reranking Average (4 datasets) Retrieval Average (15 datasets) Summarization Average (1 dataset)
15 text-embedding-ada-002 Unknown 1536 8191 60.99 70.93 84.89 56.32 30.8
17 jina-embeddings-v2-base-en 0.27 768 8192 60.38 73.45 85.38 56.98 31.6

 

text-embedding-ada-002 的特点:

  • 从零到卓越:这个 jina-embeddings-v2 是从头开始构建的。在过去的三个月里,Jina AI的团队进行了密集的研发、数据收集和调整。
  • 利用8K解锁扩展上下文潜力: jina-embeddings-v2 8K的上下文长度为新的行业应用开启了大门:
    • 法律文件分析:确保对大量法律文本中的每一个细节进行捕捉和分析。
    • 医学研究:为了进行高级分析和发现,全面地嵌入科学论文。
    • 文学分析:深入研究长篇内容,捕捉微妙的主题元素。
    • 财务预测:通过详细的财务报告获得卓越的洞察力。
    • 会话式AI:提升聊天机器人对复杂用户查询的响应能力。

同时,基准测试显示,在多个数据集中,这种 8K 上下文长度的扩展使得jina-embeddings-v2超越了其它领先的嵌入模型:

接下来,Jina 将会有一篇相关的学术洞察文章发表。同时团队正在开发类似OpenAI的嵌入式API平台的产品;语言方面,正在进入多语种嵌入领域,目标是推出德英模型。


相關推薦

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作

2023-11-06

等领域。 2022年12月15日,昆仑万维在北京举行AIGC技术发布会,发布自研AIGC全系列算法与模型,覆盖了图像、音乐、文本、编程等多模态的AI内容生成能力。 2023年4月17日,昆仑万维正式发布自研千亿级大语言模型“天工”,

2023-09-12

道,Meta 正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终

2023-10-26

开放文心4.0开发权限申请在2023年百度世界大会上,百度发布了文心大模型4.0,提升了理解、生成、逻辑、记忆等四个方面,现在开发者可以申请使用 ERNIE Bot SDK 开发与接入该模型的应用。申请地址:https://aistudio.baidu.com/community/cha

2023-10-10

能力。这个局面如今被打破。 近日,贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜:hugging face热榜第一、paperwithcode热度第一,Github全部python项目热度第五、github stars一周内破千,Twitter上的相关技术帖

2023-06-28

器人。Hassabis 一月份透露称,他们考虑将在今年某个时候发布 Sparrow 的私人测试版;但目前上不清楚这些计划是否仍在按计划进行。 除了推动谷歌的 AI 工作进展外,Hassabis 同时也身兼管理未知和潜在严重风险的责任。针对最近

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2023-10-11

国信通院的战略合作单位、标准核心参编单位,共同编订发布全球首个AI模型开发管理标准、全国首个商用人工智能开发平台等多项人工智能基础软件领域、大模型领域的标准。作为大模型生态共同体中的通用大模型代表企业,

2023-06-15

OpenAI 昨晚宣布为其生成式 AI 模型 GPT-3.5 Turbo 和 GPT-4 发布重磅更新。 值得关注的亮点: Chat Completions API 中新的函数调用功能 更新并增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比

2022-07-16

BigScience 的研究人员近日发布了一个名为 Bloom 的自然语言处理模型,该模型具有 1760 亿个参数,一举超越市面上的所有竞争对手,成为目前规模最大的语言模型。 该项目始于去年,由人工智能初创公司 Hugging Face Inc.(最近融

2023-02-09

亿美元的微软就做出了回应。在今天凌晨举行的一场小型发布会上,微软展示了必应(Bing)中由 AI 驱动的新搜索功能,以及内置了相同 AI 技术的新版本 Edge 浏览器。 微软认为通过使用 AI 技术,全新的 Bing 和 Edge 可以重塑网

2023-06-14

准确的检测。里希·苏纳克还强调了国家和实验室之间的全球合作的重要性,并表示,英国准备在今年晚些时候主办有史以来第一次全球人工智能安全峰会,并将此次峰会比喻为联合国气候变化会议的 AI 版本。 现在仅仅是公布

2023-07-08

的大会主题演讲中,华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中,盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向,持续打造核心竞争力,为行业客户、伙伴及开发者提

2023-11-17

GitHub 发布了 2023 年度 Octoverse 开源状态报告。主要研究了围绕 AI、云和 Git 的开源活动如何改变开发人员体验,以及如何在开发者和企业中产生越来越大的影响。 报告发现了三大趋势: 开发人员正在大量使用生成式 AI 进