Jina AI 发布全球首个开源 8K 文本嵌入模型,超越 OpenAI


人工智能公司Jina AI 宣布推出其第二代文本嵌入模型: jina-embeddings-v2 。这款模型现在是唯一支持 8K(8192个 token)上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002 相当。

与OpenAI的8K模型 text-embedding-ada-002 进行比较,jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面超越了 OpenAI 的 text-embedding-ada-002

Rank Model Model Size (GB) Embedding Dimensions Sequence Length Average (56 datasets) Classification Average (12 datasets) Reranking Average (4 datasets) Retrieval Average (15 datasets) Summarization Average (1 dataset)
15 text-embedding-ada-002 Unknown 1536 8191 60.99 70.93 84.89 56.32 30.8
17 jina-embeddings-v2-base-en 0.27 768 8192 60.38 73.45 85.38 56.98 31.6

 

text-embedding-ada-002 的特点:

  • 从零到卓越:这个 jina-embeddings-v2 是从头开始构建的。在过去的三个月里,Jina AI的团队进行了密集的研发、数据收集和调整。
  • 利用8K解锁扩展上下文潜力: jina-embeddings-v2 8K的上下文长度为新的行业应用开启了大门:
    • 法律文件分析:确保对大量法律文本中的每一个细节进行捕捉和分析。
    • 医学研究:为了进行高级分析和发现,全面地嵌入科学论文。
    • 文学分析:深入研究长篇内容,捕捉微妙的主题元素。
    • 财务预测:通过详细的财务报告获得卓越的洞察力。
    • 会话式AI:提升聊天机器人对复杂用户查询的响应能力。

同时,基准测试显示,在多个数据集中,这种 8K 上下文长度的扩展使得jina-embeddings-v2超越了其它领先的嵌入模型:

接下来,Jina 将会有一篇相关的学术洞察文章发表。同时团队正在开发类似OpenAI的嵌入式API平台的产品;语言方面,正在进入多语种嵌入领域,目标是推出德英模型。


相關推薦

2023-07-13

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。 文章作

2023-11-06

等领域。 2022年12月15日,昆仑万维在北京举行AIGC技术发布会,发布自研AIGC全系列算法与模型,覆盖了图像、音乐、文本、编程等多模态的AI内容生成能力。 2023年4月17日,昆仑万维正式发布自研千亿级大语言模型“天工”,

2023-10-10

能力。这个局面如今被打破。 近日,贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜:hugging face热榜第一、paperwithcode热度第一,Github全部python项目热度第五、github stars一周内破千,Twitter上的相关技术帖

2023-09-12

道,Meta 正在寻求在生成式 AI 领域与 OpenAI 展开竞争,将发布新的开源大模型,其性能或将与GPT-4 不相上下。 报道称,这款新模型比 Llama 2 强大数倍,将提供文本、图像生成以及分析等功能。目前该模型正处于开发之中,最终

2023-10-26

开放文心4.0开发权限申请在2023年百度世界大会上,百度发布了文心大模型4.0,提升了理解、生成、逻辑、记忆等四个方面,现在开发者可以申请使用 ERNIE Bot SDK 开发与接入该模型的应用。申请地址:https://aistudio.baidu.com/community/cha

2023-06-28

器人。Hassabis 一月份透露称,他们考虑将在今年某个时候发布 Sparrow 的私人测试版;但目前上不清楚这些计划是否仍在按计划进行。 除了推动谷歌的 AI 工作进展外,Hassabis 同时也身兼管理未知和潜在严重风险的责任。针对最近

2024-08-10

阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。 Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、

2024-07-05

入在线模型 目前,UOS AI 1.3.0版已在deepin V23 RC2应用商店发布,新版支持用户添加自定义模型。 接入条件 UOS AI的自定义模型的接口规范为OpenAI的/v1/chat/completions。因此只有提供了OpenAI兼容接口的模型服务才可以被添加到UOS AI中

2023-09-05

文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。 LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 L

2024-08-16

8 月 15 日,2024 全球开源技术峰会 GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主

2023-10-11

国信通院的战略合作单位、标准核心参编单位,共同编订发布全球首个AI模型开发管理标准、全国首个商用人工智能开发平台等多项人工智能基础软件领域、大模型领域的标准。作为大模型生态共同体中的通用大模型代表企业,

2023-06-15

OpenAI 昨晚宣布为其生成式 AI 模型 GPT-3.5 Turbo 和 GPT-4 发布重磅更新。 值得关注的亮点: Chat Completions API 中新的函数调用功能 更新并增加可控制性的gpt-4和gpt-3.5-turbo版本 gpt-3.5-turbo的新 16k 上下文版本(与标准 4k 版本对比

2024-08-17

8月15日晚间,阿里巴巴集团发布最新季度业绩,AI推动阿里云重回增长,季度营收增长6%至265.49亿元,其中AI相关产品收入实现三位数增长,公共云业务实现两位数增长。同时,阿里云利润大涨,经调整EBITA利润同比增长155%,单季

2024-07-05

基础模型的能力得到了提升。 “去年10月我宣布文心4.0发布的时候,说文心4.0的能力跟GPT4相比毫不逊色,好多的同行还不以为然,今天大家可以看到国内已经有多款闭源模型声称他们已经追平或者是超越了GPT4的水平。”李彦宏