OpenAI 发布 Evals API:AI 模型测试进入程序化新时代


OpenAI 宣布推出 Evals API。根据介绍,Evals API支持用户通过编程方式定义测试、自动化运行评估流程,并实现对提示(Prompt)的快速迭代优化。这一功能的发布,不仅将模型评估从手动操作推向了高度自动化的新阶段,也为开发者提供了更灵活、高效的工具,以加速AI应用的开发与优化。

Evals API的核心在于其程序化特性。过去,开发者在测试和评估AI模型时,往往依赖OpenAI提供的仪表板(Dashboard)界面,手动输入测试用例并记录结果。而现在,通过Evals API,开发者能够直接在代码中定义测试逻辑,利用脚本自动化运行评估任务,并实时获取结果反馈。

这种方式不仅大幅提升了效率,还允许将评估流程无缝嵌入到现有的开发工作流中。例如,一个团队可以在持续集成/持续部署(CI/CD)管道中加入Evals API,自动验证模型更新后的性能表现,确保每次迭代都达到预期标准。

此外,Evals API的推出还为提示工程(Prompt Engineering)带来了新的可能性。开发者可以通过快速迭代提示,测试不同输入对模型输出的影响,从而找到最优的指令组合。这一功能特别适合需要精细调整模型行为的场景,例如智能客服、教育助手或代码生成工具。业内人士指出,这种程序化的测试方法将显著缩短优化周期,帮助开发者更快地将AI模型推向生产环境。

技术分析显示,Evals API的背后依托了OpenAI在模型评估框架上的深厚积累。此前,OpenAI曾开源其Evals框架,用于内部测试GPT系列模型的性能,而此次API的发布则是这一技术向外部开发者的进一步开放。结合API的强大功能,开发者不仅能够评估模型的准确性,还可以通过自定义指标追踪其在特定任务上的表现,例如语言生成的质量、逻辑推理的严谨性或多模态任务的协同能力。

值得注意的是,Evals API并未取代原有的仪表板功能,而是作为一种补充,为用户提供了更多选择。对于习惯图形界面的用户,仪表板依然是直观易用的评估工具;而对于需要深度定制和自动化的大型项目,API则展现出无可比拟的优势。有专家预测,这一双轨并行的策略将进一步扩大OpenAI平台的用户基础,从个人开发者到企业团队都能从中受益。

然而,这一技术的推出也伴随着一些潜在挑战。自动化评估虽然高效,但如何设计科学合理的测试用例,以及如何解读复杂的评估结果,仍需开发者具备一定的专业知识。此外,频繁调用API可能增加计算成本,尤其是对于大规模测试项目而言,资源管理将成为需要关注的重点。


相關推薦

2024-07-05

持更多的大模型,我们开放了UOS AI的模型接入接口,所有OpenAI接口格式的大模型均可以接入到UOS AI,你可以根据自身需求,自行接入自己喜欢的大模型,让UOS AI成为更个性化的智能伙伴。为了让更多用户了解如何配置专属模型,

2024-07-18

API 上免费使用,可处理多达 256000 个词元的输入,是 OpenAI 的 GPT-4o 的两倍。 在基准测试中,Mistral 显示 Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。 开发人员可以从 GitHub

2023-10-27

8192个 token)上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002 相当。 与OpenAI的8K模型 text-embedding-ada-002 进行比较,jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面超

2023-10-26

智能生成内容,但不包括总结书籍等用途的应用。微软、OpenAI等投入1000万美元用于增强生成式AI产品的安全微软、OpenAI等公司合资1000万美元,任命Chris Meserole为“前沿模型论坛”的执行董事,旨在提高生成式AI产品的安全,并建

2024-05-31

rock Anthropic Claude 3 - ben-gineer Watson AI - PabloSanchi OpenAI Speech - hemeda3 Multi-modality support for OpenAI AWS Bedrock claude3 MiniMax - mxsl-gr ZhiPu - mxsl-gr Azure Open AI image generation - bmoussaud 更新模型 OpenAI - 支持 GPT4

2025-04-08

有双子座系列此前各模型所具有的全部功能。 同一天,OpenAI也正式推出了基于GPT-4o模型的原生图像生成功能,能够直接从文本提示生成图像,同时支持多轮迭代优化图像时保持角色形象一致。 作为AI领域的新兴竞争者,DeepSeek3

2025-04-16

4月15日,可灵AI在“灵感成真”2.0模型发布会上宣布,基座模型再次升级,面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。可灵2.0模型在动态质量、语义响应、画面美学等维度,保持全球领先;可图2.0模型在指令

2023-06-07

p;ChatGPT 本地终端来使用,只要在 .env 文件中配置 OpenAI API Key 即可。 参考应用: 应用 介绍 仓库地址 Neo 给 AI 助手 添加自定义指令的应用示例 https://github.com/YaoApp/yao-examples/tree/main/neo Knowledge AI

2025-04-19

为了更积极地与 Google 等竞争对手的人工智能公司竞争,OpenAI 推出了 Flex 处理 (Flex processing),这是一种 API 选项,它提供更低的人工智能模型使用价格,但响应时间较慢且“偶尔资源不可用”。 「Flex processing 」可以显

2024-09-30

今年以来,由于公司价值观的争议和领导层之间的斗争,OpenAI 的高管和研究人员纷纷离职。 不到两年的时间里,OpenAI 从一个鲜为人知的非营利实验室,迅速转型为一个举世闻名的企业,其首席执行官已成为人工智能革命的代

2024-08-16

制造出能够理解人类的计算机,而如今我们正在进入一个新时代,就像摩尔定律推动了信息革命一样,深度神经网络的扩展定律也将推动智能革命。”张磊表示,展望未来,deepin将加速构建AI与操作系统的融合,从AI FOR OS 到 OS FO

2023-03-16

OpenAI 刚刚宣布正式推出 GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4。 公告写道,GPT-4 是一个多模态大型语言模型(支持接受图像和文本输入,以文本形式输出),也是 OpenAI 努力扩展深度学

2024-08-02

式发布v1.4.0版本。在这一版本中,MaxKB的社区版支持对接OpenAI、Ollama和本地的向量模型,并且支持设置模型的使用权限,同时MaxKB还支持知识库自定义向量模型。 自v1.4.0版本开始,MaxKB正式推出专业版。MaxKB专业版在社区版基础

2023-10-27

谷歌、微软、OpenAI 和 Anthropic 发布联合声明,任命美国智库学会高管 Chris Meserole 为前沿模型论坛 (Frontier Model Forum) 首任执行董事。并宣布设立 1000 万美元的 AI 安全基金,“以推动正在进行的工具开发研究,帮助社会能够有效地