LangKit:首个专为 LLM 构建的监控解决方案


初创公司 WhyLabs 宣布推出 LangKi,一个大语言模型 (LLM) 的可观察性和安全标准。LangKit 能够检测开源和专有 LLM 中的风险和安全问题,包括有毒语言、越狱、敏感数据泄露和幻觉。

根据介绍,LangKit 的一个核心卖点是它能够检测所谓的 AI 幻觉;还可以检测有毒的 AI 输出,以及发现模型可能不小心从其训练数据集中泄漏敏感业务信息的情况。LangKit 中的另一组监控功能侧重于帮助公司跟踪模型的可用性。WhyLabs 方面称,该工具包可以监控 AI 响应与用户问题的相关性,并且可以评估这些响应的可读性。

LangKit 使组织能够:

  • 验证和保护个别提示和响应:检测提示或回应是否符合政策,并采取纠正措施。
  • 评估 LLM 行为是否符合政策:根据一组黄金提示跟踪 LLM 的性能,以检测行为变化或违反政策的情况
  • 监控 LLM 驱动的应用程序内的用户交互:监控提示、响应和用户交互,以便对整体用户体验的下降发出警报
  • 跨不同的 LLM 和提示版本进行比较和 A/B 测试:确保对 LLM API 的更改不会导致客户体验下降

具体来说,由于 LangKit 是开源的,有高级需求的用户可以通过添加自定义监控指标来扩展它。用户可以将 LangKit 配置为在出现某些类型的技术问题时生成警报。该软件还将其收集的错误信息以图表的形式可视化,管理员可以查阅图表以确定语言模型的准确性是否会随着时间的推移而下降,这种现象称为 AI drift。

使用该工具包,软件团队可以在代码更改之前和之后立即将一组测试提示输入到模型中。通过比较 AI 生成的响应,开发人员可以确定更新是提高了还是无意中降低了响应质量。

更多详情可查看官方博客。


相關推薦

2023-09-05

工作能够引发围绕 LLM 多语言性的新讨论”。 BELEBELE 是首个跨语言并行数据集,可以直接比较所有语言的模型性能。该数据集涵盖了 29 种脚本和 27 个语系中不同类型的高、中、低资源语言。此外,还有 7 种语言包含在两种不

2023-10-08

enAI Stack 简化了 AI/ML 集成,旨在帮助开发人员快速轻松地构建生成式 AI 应用程序,而无需搜索和配置各种技术。 根据介绍,GenAI Stack 中包含的内容包括有: 预配置的 LLM:提供预配置的大语言模型 (LLM),例如 Llama2、GPT-3.5

2023-08-19

机器学习监控初创公司 Arthur 一直在开发一些旨在帮助公司更有效地使用 LLM 的工具。该公司最新发布了一款开源工具 Arthur Bench,以帮助用户为特定数据集找到最佳 LLM。 Arthur 首席执行官兼联合创始人 Adam Wenchel 表示,他们看到

2023-04-03

如小样本学习、文本生成、对话系统等;我们看到了开发首个专注于金融领域的 LLM 的巨大价值。BloombergGPT 将使我们能够处理许多新型应用程序,同时它为每个应用程序提供比定制模型更高的开箱即用性能,并且上市时间更快。

2023-08-17

Redis 7.2.0 现已发布,这是首个 Unified Redis Release。此版本包含一系列广泛的新功能,以及对人工智能计划功能支持的重大投资。 公告称,这是“影响最深远的版本。在每一项增强功能中,你都能感受到一个强烈的主题:让开发人

2023-11-07

马斯克旗下 xAI 团队发布其首个 AI 大模型产品 —— Grok;目前只训练了 2 个月左右的时间,因此尚处于非常早期的测试阶段。 Grok 是一款仿照《银河系漫游指南》设计的人工智能,可以回答几乎任何问题,更难能可贵的是,

2023-07-22

较短的时间内发生重大变化,凸显了对 LLM 质量进行持续监控的必要性。 “我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现,在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作

2022-08-11

中发挥着越来越重要的作用,进化算法是一种有吸引力的解决方案,可以应对伴随自动化流程复杂性和规模增加的级联挑战。与标准的基于梯度的替代方案相比,进化算法不需要可微的成本函数,并且更适合现代硬件上的大规模

2024-07-18

迎。 Mistral 推出的第二个模型是Mathstral 7B,这是一个专为数学推理和科学发现而设计的人工智能模型。Mistral 与 Numina 项目共同开发了 Mathstral。 Mathstral 的上下文窗口为 32K,将采用 Apache 2.0 开源许可。Mistral 表示,该模型的

2023-07-11

bsp; 能力变化 列出流水线 查找流水线 触发流水线构建:支持当流水线构建失败后,使用LLM分析构建失败的原因以及修复方法 触发流水线构建,当流水线构建失败之后,使用GPT的能力,给出原因以及修复建议  

2023-05-16

且易用的 LLMOps 平台,旨在帮助开发者更简单、更快速地构建 AI 应用。Dify 提供了可视化的 Prompt 编排、运营、数据集管理等功能。你能在几分钟内创建一个 AI 应用,或将 LLM 快速集成到现有应用中,进行持续运营和改进,创造

2023-09-05

以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。 LLaSM 的模型架构如上图所示。研究人员首先使用 Whisper 将原始音频数据编码为嵌入词,然后在预训练阶段训练模态适配器,以

2023-10-26

库都不符合要求,RAPIDS 还包括 RAFT,这是用于构建自己的解决方案的 GPU-accelerated primitives 的集合。RRAPIDS 还可与 Dask 携手跨多个节点进行扩展,并与 Slurm 一起在高性能计算环境中运行。 Spark NLP Spark NLP 是一个自然语言处理库,

2024-01-16

在成为中国开源领域和软件开发领域的新变革者,推出的首个大模型原生托管平台,这一举措标志着中国大模型开源社区发展已经迈入新的里程碑。加入我们的社区,共同创造更美好的未来! CSGHub 官网:https://portal.opencsg.com/ C