最佳开源模型:Qwen2- 72B -Instruct


AI 初创公司 Galileo 宣布推出其最新的 Hallucination Index,一个以检索增强生成 (RAG) 为重点的评估框架,对来自 OpenAI、Anthropic、Google 和 Meta 等品牌的 22 个(12 个开源 LLM 和 10 个专有 LLM)领先的生成式 AI 大语言模型性能进行了比较排名。

Hallucination Index 使用 Galileo 专有的评估指标“context adherence”对开源和闭源模型进行了测试。测试模型的输入量从 1,000 到 100,000 token 不等,以了解短语境(少于 5k token)、中等语境(5k 到 25k token)和长语境(40k 到 100k token)的性能。

  • 综合表现最佳模型: Anthropic 的 Claude 3.5 Sonnet。该闭源模型在短、中、长上下文场景中的表现均优于竞争模型。Anthropic 的 Claude 3.5 Sonnet 和 Claude 3 Opus 在各个类别中的得分始终接近满分,击败了去年的冠军 GPT-4o 和 GPT-3.5。在短语境中得分为 0.97(满分 1 分)。
  • 成本表现最佳模型: Google 的 Gemini 1.5 Flash。Google 模型在所有任务上均表现出色,在短、中、长上下文场景中分别获得了 0.94、1 和 0.92 的准确率,因此成为性价比最高的机型。
  • 最佳开源模型:阿里巴巴的 Qwen2- 72B -Instruct。该开源模型在短和中语境背景下表现最佳,得分最高。

Galileo 联合创始人兼首席执行官 Vikram Chatterji 表示:“由于幻觉仍然是一个主要障碍,我们的目标不仅仅是对模型进行排名,而是为 AI 团队和领导者提供他们所需的真实数据,以便他们以合适的价格采用合适的模型,完成合适的任务。”

主要发现和趋势:

  • 开源缩小差距:由于专有训练数据,Claude-3.5 Sonnet 和 Gemini 1.5 Flash 等闭源模型仍然表现最佳,但 Qwen1.5- 32B -Chat 和 Llama-3- 70b -chat 等开源模型正在通过幻觉性能的改进和比闭源模型更低的成本壁垒迅速缩小差距。
  • 长上下文长度的整体改进:当前的 RAG LLM,如 Claude 3.5 Sonnet、Claude-3-opus 和 Gemini 1.5 pro 001 在扩展上下文长度的情况下表现尤为出色 - 不会损失质量或准确性 - 反映了模型训练和架构方面所取得的进展。
  • 大模型并不总是更好:在某些情况下,小模型的表现优于大模型。例如,Gemini-1.5-flash-001 的表现优于大模型,这表明模型设计的效率有时比规模更重要。
  • 从国家到全球焦点:美国以外的法学硕士,例如 Mistral 的 Mistral-large 和阿里巴巴的 qwen2- 72b -instruct,是该领域的新兴参与者,并且越来越受欢迎,代表了全球创建有效语言模型的努力。
  • 改进空间:虽然 Google 的开源 Gemma-7b 表现最差,但他们的闭源 Gemini 1.5 Flash 模型始终名列前茅。

详情可查看 :https://www.rungalileo.io/hallucinationindex


相關推薦

2024-08-17

技术进展方面,该季度内阿里云发布了全球性能最强的开源模型Qwen2-72B,该模型提升了代码、数学、推理、指令遵循、多语言理解等能力。Qwen2-72B发布后即登顶HuggingFace 的Open LLM Leaderboard开源模型榜单。中文大模型测评基准Super

2024-07-05

其每一次的更新与变革都牵动着无数用户的心弦。近日,开源操作系统deepin迎来了一次重大更新,这次更新不仅在性能上进行了全面优化,更在AI智能化方面迈出了划时代的步伐:内置AI助理,并成功兼容多个千亿级大模型,为

2023-11-01

下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源通义千问70亿参数模型Qwen7B和140

2024-07-10

拉取 docker 的痛点。详细更新内容如下: - 新增内置支持模型 📦   - qwen2 gguf格式 📝   - gemma-2-it 💻 - 新功能 🚀     - transformers推理后端支持开启continuous batching(连续批处理),优化LLM同时服务多请求的吞

2023-08-19

一款开源工具 Arthur Bench,以帮助用户为特定数据集找到最佳 LLM。 Arthur 首席执行官兼联合创始人 Adam Wenchel 表示,他们看到了大众对生成式 AI 和 LLM 的浓厚兴趣,因此在产品创造上投入了大量精力。考虑到 ChatGPT 发布还不到一

2024-08-24

sp; UOS AI 技术亮点 大语言模型 UOS AI 接入qwen2、llama2等开源大语言模型,提供聊天对话功能,通过提示词工程可做文档总结、翻译功能。模型由llama.cpp与OpenVINO推理。 自定义语言模型集成 UOS AI遵循OpenAI的模型通信协议,实现

2023-10-31

MLU、MMLUGSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Math模型  Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。  Skypile/Chinese-Web-Text-150B

2024-07-27

专题论坛:全球开源人才及教育论坛 专题论坛:LLMOps 最佳实践 专题论坛:硬核 AI 技术创新与实践 专题论坛:开源数据库与 AI 协同创新 专题论坛:云原生与微服务架构 专题论坛:数据基础与 GenAI 开发范式 - 开源

2023-10-26

InfoWorld 公布了 2023 年最佳开源软件榜单,旨在表彰年度领先的软件开发、数据管理、分析、人工智能和机器学习开源工具。 InfoWorld 是致力于引领 IT 决策者走在科技前沿的国际科技媒体品牌,每年 InfoWorld 都会根据软件对开源

2024-07-25

这意味着开源任何给定模型并不会失去当时相对于下一个最佳模型的巨大优势。Llama 成为行业标准的道路是一代又一代地保持竞争力、高效和开放。 第三,Meta 与封闭模型供应商之间的一个关键区别是,出售 AI 模型访问权限不

2024-08-13

论坛:全球开源人才及教育论坛 专题论坛:LLMOps 最佳实践 专题论坛:硬核 AI 技术创新与实践 专题论坛:开源数据库与 AI 协同创新 专题论坛:云原生与微服务架构 专题论坛:数据基础与 GenAI 开

2024-08-27

,国内已有180家公司正式推出了自己的AI大模型服务。在开源社区中,用户可部署使用的大模型更是多如繁星,数不胜数。 这些模型按照功能可以分为通用语言处理、语音处理、图像处理以及向量化处理等多个类别,琳琅满目

2023-02-24

源。通过分析大量公开来源项目的实际数据,并参照行业最佳实践和学术界的研究结果,在不断地改进和优化之后,才形成了现在的 OSS Compass。OSS Compass 最终的数据和结果也会反哺开源社区。 同时,开源指南针 OSS Compass 本身

2023-07-27

的模型基座,因为它是个人用户可部署且具备涌现潜力的最佳模型大小。 在经过多轮微调和反复试验后,OpenBuddy团队成功完成了OpenBuddy-LLaMA2-13B的首个版本的训练工作。 OpenBuddy-LLaMA2-13B 在测试OpenBuddy-LLaMA2-13B的过程中,团队发

2023-08-24

用交付领域的深切痛点。 借助 Walrus 将云原生的能力和最佳实践扩展到非容器化环境,并支持任意应用形态统一编排部署,降低使用基础设施的复杂度,为研发和运维团队提供易用、一致的应用管理和部署体验,进而构建无缝