Arthur 发布开源 AI 模型评估工具,为特定用例确定最佳 LLM


机器学习监控初创公司 Arthur 一直在开发一些旨在帮助公司更有效地使用 LLM 的工具。该公司最新发布了一款开源工具 Arthur Bench,以帮助用户为特定数据集找到最佳 LLM。

Arthur 首席执行官兼联合创始人 Adam Wenchel 表示,他们看到了大众对生成式 AI 和 LLM 的浓厚兴趣,因此在产品创造上投入了大量精力。考虑到 ChatGPT 发布还不到一年,目前尚未出现一种有组织的方法来衡量一种工具相对于另一种工具的有效性;在此种背景下,Arthur Bench 应运而生。

“Arthur Bench 解决了我们从每个客户那里都听到过的一个关键性问题,那就是 [在所有的型号选择中],哪一款最适合你的特定应用。”

Arthur Bench 附带了一套工具,你可以使用它来系统地测试性能;但其真正的价值在于,允许你测试和测量用户用于特定应用程序的提示类型在不同的 LLM 上的表现。

根据介绍,Bench 可以帮助评估:

  • 通过跨任务和用例的通用界面标准化 LLM 评估的工作流程
  • 测试开源 LLM 是否能与顶级闭源 LLM API 供应商一样出色地处理你的特定数据
  • 将 LLM 排行榜和基准的排名转化为你关心的实际用例的分数

Wenchel 指出,你可以测试 100 种不同的提示,然后看看两种不同的 LLM--比如 Anthropic 与 OpenAI--在用户可能使用的提示类型上有什么不同。更重要的是,你可以大规模地进行测试,从而更好地决定哪种模式最适合你的特定用例。


相關推薦

2023-06-16

大语言模型 (LLM) 的可观察性和安全标准。LangKit 能够检测开源和专有 LLM 中的风险和安全问题,包括有毒语言、越狱、敏感数据泄露和幻觉。 根据介绍,LangKit 的一个核心卖点是它能够检测所谓的 AI 幻觉;还可以检测有毒的 AI

2023-10-26

Language Model Evaluation Harness 当一个新的大语言模型(LLM)发布时,通常都会被进行评估,将该模型与 ChatGPT 在某个基准上进行比较,很多公司可能会使用 lm-eval-harness 来生成评估分数。lm-eval-harness 由分布式人工智能研究所 Eleuther

2024-08-01

对来自 OpenAI、Anthropic、Google 和 Meta 等品牌的 22 个(12 个开源 LLM 和 10 个专有 LLM)领先的生成式 AI 大语言模型性能进行了比较排名。 Hallucination Index 使用 Galileo 专有的评估指标“context adherence”对开源和闭源模型进行了测试。

2023-10-08

PT-4,以快速启动 AI 项目。 Ollama 管理:Ollama 简化了开源 LLM 的本地管理,让你的 AI 开发过程更加顺畅。 Neo4j 作为默认数据库:Neo4j 作为默认数据库,提供图形和原生向量搜索功能。这有助于揭示数据模式和关系,最终提

2023-08-10

MetaGPT 截至目前,总共产生57个Pull Requests。   论文发布 MetaGPT为什么有效,背后的原理是什么?近期,深度赋智 联合 厦大、港中深、南京大学、宾夕法尼亚大学、及UC伯克利联合发布相关论文。 论文探讨了通过使用由大

2023-06-29

文档 命名建议 生成 commit 信息 详情查看发布公告。

2023-08-17

Redis 7.2.0 现已发布,这是首个 Unified Redis Release。此版本包含一系列广泛的新功能,以及对人工智能计划功能支持的重大投资。 公告称,这是“影响最深远的版本。在每一项增强功能中,你都能感受到一个强烈的主题:让开发人

2023-04-03

彭博 (Bloomberg) 发布了一篇研究报告,详细介绍了新型的大规模生成式 AI 模型 BloombergGPT 的开发。这种大型语言模型(LLM)专门针对各种金融数据进行了训练,以支持金融行业内多样化的自然语言处理(NLP)任务。 公告称,基于

2023-07-22

间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。 研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现,分别为:解决数学问题、回答敏感/危险问题

2023-09-22

能四世同堂,凭什么开发 30 岁就要被干掉? 红杉资本发布一份报告,总结了这一年生成式AI突飞猛进的发展,探讨了生成式AI的发展趋势和市场表现。 一年前他们发布了一份预测,一年后红杉总结之前的预测,发现了他们预

2023-08-10

议的完美助手。 该模型旨在一次处理更多代码(比之前发布的具有 16,000 个 token 的上下文窗口的开放模型多 2-4 倍),允许用户同时查看或编辑相当于最多 5 个平均大小的 Python 文件。使其成为初学者想要迎接更大挑战的理想学

2024-07-27

洞见。 此高峰论坛上: openKylin 园区运营战略将会发布,并且举办全球首个园区站-浦软站成立仪式; 麒麟软件高级副总裁朱晨也将带来 openKylin 2.0 的最新进展; 国家地方共建人形机器人创新中心首席科学家江磊将分

2023-10-27

谷歌、微软、OpenAI 和 Anthropic 发布联合声明,任命美国智库学会高管 Chris Meserole 为前沿模型论坛 (Frontier Model Forum) 首任执行董事。并宣布设立 1000 万美元的 AI 安全基金,“以推动正在进行的工具开发研究,帮助社会能够有效地

2023-09-05

EBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵盖了 29 种脚本和 27 个语系中不同类型的高、中、低资源语言。此外,还有 7 种语言包含在两种不同的脚本中,从而为印地语、乌尔都语、孟加拉语