Arthur 发布开源 AI 模型评估工具,为特定用例确定最佳 LLM


机器学习监控初创公司 Arthur 一直在开发一些旨在帮助公司更有效地使用 LLM 的工具。该公司最新发布了一款开源工具 Arthur Bench,以帮助用户为特定数据集找到最佳 LLM。

Arthur 首席执行官兼联合创始人 Adam Wenchel 表示,他们看到了大众对生成式 AI 和 LLM 的浓厚兴趣,因此在产品创造上投入了大量精力。考虑到 ChatGPT 发布还不到一年,目前尚未出现一种有组织的方法来衡量一种工具相对于另一种工具的有效性;在此种背景下,Arthur Bench 应运而生。

“Arthur Bench 解决了我们从每个客户那里都听到过的一个关键性问题,那就是 [在所有的型号选择中],哪一款最适合你的特定应用。”

Arthur Bench 附带了一套工具,你可以使用它来系统地测试性能;但其真正的价值在于,允许你测试和测量用户用于特定应用程序的提示类型在不同的 LLM 上的表现。

根据介绍,Bench 可以帮助评估:

  • 通过跨任务和用例的通用界面标准化 LLM 评估的工作流程
  • 测试开源 LLM 是否能与顶级闭源 LLM API 供应商一样出色地处理你的特定数据
  • 将 LLM 排行榜和基准的排名转化为你关心的实际用例的分数

Wenchel 指出,你可以测试 100 种不同的提示,然后看看两种不同的 LLM--比如 Anthropic 与 OpenAI--在用户可能使用的提示类型上有什么不同。更重要的是,你可以大规模地进行测试,从而更好地决定哪种模式最适合你的特定用例。


相關推薦

2025-06-17

的可观测性以及高效反馈循环。具体可参考我们Cookbook中开源的系统提示词示例。 生产环境下的可靠性与工程挑战 在传统软件中,漏洞可能导致功能失效、性能下降或服务中断。而在智能体系统中,微小的改动可能引发大范围

2025-06-18

我们深知社区的力量是其生命力的源泉 。 我们不仅发布评测结果,更开放所有评测脚本、数据集和方法论。我们诚挚地邀请您探索 SCALE 的评测结果,利用这一工具为您的研究和工作做出更精准的技术判断。更重要的是,我

2023-06-16

大语言模型 (LLM) 的可观察性和安全标准。LangKit 能够检测开源和专有 LLM 中的风险和安全问题,包括有毒语言、越狱、敏感数据泄露和幻觉。 根据介绍,LangKit 的一个核心卖点是它能够检测所谓的 AI 幻觉;还可以检测有毒的 AI

2023-10-26

Language Model Evaluation Harness 当一个新的大语言模型(LLM)发布时,通常都会被进行评估,将该模型与 ChatGPT 在某个基准上进行比较,很多公司可能会使用 lm-eval-harness 来生成评估分数。lm-eval-harness 由分布式人工智能研究所 Eleuther

2025-05-23

发问题。更重要的是,Devstral 基于宽松的 Apache2.0许可证发布,允许开发者和组织自由地部署、修改和商业化该模型。 Mistral AI 研究科学家 Baptiste Rozière 强调,他们希望为开发者社区提供一款可以在本地私下运行并根据需求修改

2024-08-01

对来自 OpenAI、Anthropic、Google 和 Meta 等品牌的 22 个(12 个开源 LLM 和 10 个专有 LLM)领先的生成式 AI 大语言模型性能进行了比较排名。 Hallucination Index 使用 Galileo 专有的评估指标“context adherence”对开源和闭源模型进行了测试。

2025-06-17

域框架、平台及整体解决方案欠缺,Spring AI Alibaba 1.0 的发布,让 Java 智能体开发迎来一款生产可用的企业级框架与解决方案,助力企业智能体开发进入一个新阶段。 上半年,以 Manus 为代表的通用智能体的火爆,让具备自主规

2023-08-10

MetaGPT 截至目前,总共产生57个Pull Requests。   论文发布 MetaGPT为什么有效,背后的原理是什么?近期,深度赋智 联合 厦大、港中深、南京大学、宾夕法尼亚大学、及UC伯克利联合发布相关论文。 论文探讨了通过使用由大

2025-06-11

最佳实践,包括遵循广泛采用的robots.txt协议,允许网页发布者选择性地退出其内容被用于训练Apple的生成基础模型。网页发布者可以对Applebot可以查看的页面以及这些页面如何被使用进行精细控制,同时这些页面仍会出现在Siri和

2025-04-10

程,并实现对提示(Prompt)的快速迭代优化。这一功能的发布,不仅将模型评估从手动操作推向了高度自动化的新阶段,也为开发者提供了更灵活、高效的工具,以加速AI应用的开发与优化。 Evals API的核心在于其程序化特性。

2023-10-08

PT-4,以快速启动 AI 项目。 Ollama 管理:Ollama 简化了开源 LLM 的本地管理,让你的 AI 开发过程更加顺畅。 Neo4j 作为默认数据库:Neo4j 作为默认数据库,提供图形和原生向量搜索功能。这有助于揭示数据模式和关系,最终提

2023-06-29

文档 命名建议 生成 commit 信息 详情查看发布公告。

2023-08-17

Redis 7.2.0 现已发布,这是首个 Unified Redis Release。此版本包含一系列广泛的新功能,以及对人工智能计划功能支持的重大投资。 公告称,这是“影响最深远的版本。在每一项增强功能中,你都能感受到一个强烈的主题:让开发人

2023-07-22

间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。 研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现,分别为:解决数学问题、回答敏感/危险问题