Mistral AI 发布了其首款专门针对代码的嵌入模型 Codestral Embed。该模型在处理真实世界代码数据的检索用例时表现尤为出色,据称其性能显著优于市场上领先的代码嵌入器,包括 Voyage Code 3、Cohere Embed v4.0 以及 OpenAI 的大型嵌入模型。
该模型的核心应用场景广泛。它可以为代码补全、编辑或解释任务提供快速高效的上下文检索,支持 AI 驱动的软件工程,例如 copilots 或编码代理框架。同时,它能通过自然语言或代码查询准确搜索相关代码片段,适用于开发者工具、文档系统和 copilots。
此外,Codestral Embed 能够识别功能相似或接近重复的代码段,即便是词汇差异较大的情况,这有助于识别可重用代码以避免重复,或检测复制粘贴以执行许可策略。它还能基于功能或结构对代码进行无监督分组,用于分析存储库组成、识别新兴架构模式或为自动化文档和分类系统提供支持。
Codestral Embed 目前通过 Mistral AI 的 API 提供,名称为 codestral-embed-2505。其价格为每百万 tokens 0.15 美元,批量 API 调用可享受 50% 的折扣。
来源:https://mp.weixin.qq.com/s/92OEt-XuAxwtaBukkDAZbw