最佳开源模型:Qwen2- 72B -Instruct


AI 初创公司 Galileo 宣布推出其最新的 Hallucination Index,一个以检索增强生成 (RAG) 为重点的评估框架,对来自 OpenAI、Anthropic、Google 和 Meta 等品牌的 22 个(12 个开源 LLM 和 10 个专有 LLM)领先的生成式 AI 大语言模型性能进行了比较排名。

Hallucination Index 使用 Galileo 专有的评估指标“context adherence”对开源和闭源模型进行了测试。测试模型的输入量从 1,000 到 100,000 token 不等,以了解短语境(少于 5k token)、中等语境(5k 到 25k token)和长语境(40k 到 100k token)的性能。

  • 综合表现最佳模型: Anthropic 的 Claude 3.5 Sonnet。该闭源模型在短、中、长上下文场景中的表现均优于竞争模型。Anthropic 的 Claude 3.5 Sonnet 和 Claude 3 Opus 在各个类别中的得分始终接近满分,击败了去年的冠军 GPT-4o 和 GPT-3.5。在短语境中得分为 0.97(满分 1 分)。
  • 成本表现最佳模型: Google 的 Gemini 1.5 Flash。Google 模型在所有任务上均表现出色,在短、中、长上下文场景中分别获得了 0.94、1 和 0.92 的准确率,因此成为性价比最高的机型。
  • 最佳开源模型:阿里巴巴的 Qwen2- 72B -Instruct。该开源模型在短和中语境背景下表现最佳,得分最高。

Galileo 联合创始人兼首席执行官 Vikram Chatterji 表示:“由于幻觉仍然是一个主要障碍,我们的目标不仅仅是对模型进行排名,而是为 AI 团队和领导者提供他们所需的真实数据,以便他们以合适的价格采用合适的模型,完成合适的任务。”

主要发现和趋势:

  • 开源缩小差距:由于专有训练数据,Claude-3.5 Sonnet 和 Gemini 1.5 Flash 等闭源模型仍然表现最佳,但 Qwen1.5- 32B -Chat 和 Llama-3- 70b -chat 等开源模型正在通过幻觉性能的改进和比闭源模型更低的成本壁垒迅速缩小差距。
  • 长上下文长度的整体改进:当前的 RAG LLM,如 Claude 3.5 Sonnet、Claude-3-opus 和 Gemini 1.5 pro 001 在扩展上下文长度的情况下表现尤为出色 - 不会损失质量或准确性 - 反映了模型训练和架构方面所取得的进展。
  • 大模型并不总是更好:在某些情况下,小模型的表现优于大模型。例如,Gemini-1.5-flash-001 的表现优于大模型,这表明模型设计的效率有时比规模更重要。
  • 从国家到全球焦点:美国以外的法学硕士,例如 Mistral 的 Mistral-large 和阿里巴巴的 qwen2- 72b -instruct,是该领域的新兴参与者,并且越来越受欢迎,代表了全球创建有效语言模型的努力。
  • 改进空间:虽然 Google 的开源 Gemma-7b 表现最差,但他们的闭源 Gemini 1.5 Flash 模型始终名列前茅。

详情可查看 :https://www.rungalileo.io/hallucinationindex


相關推薦

2025-04-03

成多种模态的任务(例如 OmniBench)中,Qwen2.5-Omni 实现了最佳性能。此外,在单模态任务中,它在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval

2025-04-12

企业级多租户团队协作工具,免费开源8件套:企业IM、在线客服、企业知识库/帮助文档、客户之声、工单系统、AI对话、工作流、项目管理。 语言 English 中文 介绍 企业IM 局域网即时通讯 企业成员管理 聊天记

2023-11-01

下载相关APP进行体验。 阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。 阿里云是国内最早开源自研大模型的头部科技企业,已先后开源通义千问70亿参数模型Qwen7B和140

2024-08-17

技术进展方面,该季度内阿里云发布了全球性能最强的开源模型Qwen2-72B,该模型提升了代码、数学、推理、指令遵循、多语言理解等能力。Qwen2-72B发布后即登顶HuggingFace 的Open LLM Leaderboard开源模型榜单。中文大模型测评基准Super

2024-07-05

其每一次的更新与变革都牵动着无数用户的心弦。近日,开源操作系统deepin迎来了一次重大更新,这次更新不仅在性能上进行了全面优化,更在AI智能化方面迈出了划时代的步伐:内置AI助理,并成功兼容多个千亿级大模型,为

2025-04-10

Jina AI 正式发布jina-reranker-m0,一款多模态、多语言重排器(reranker),核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。 根据介绍,当用户输入一个查询(query)以及一堆包含文本、图表

2025-04-09

rence,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。 Xinference 的功能和

2024-07-10

拉取 docker 的痛点。详细更新内容如下: - 新增内置支持模型 📦   - qwen2 gguf格式 📝   - gemma-2-it 💻 - 新功能 🚀     - transformers推理后端支持开启continuous batching(连续批处理),优化LLM同时服务多请求的吞

2025-04-22

近日宣布,其专为本地生成式AI设计的AI Playground软件正式开源,为Intel Arc GPU用户提供了一个强大的AI模型运行平台。AI Playground支持多种图像、视频生成模型以及大型语言模型(LLMs),通过优化本地计算资源,显著降低了AI应用

2025-03-27

今年以来,中国大模型开源的消息一个接一个。 阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 DeepSeek(深度求索)

2023-08-19

一款开源工具 Arthur Bench,以帮助用户为特定数据集找到最佳 LLM。 Arthur 首席执行官兼联合创始人 Adam Wenchel 表示,他们看到了大众对生成式 AI 和 LLM 的浓厚兴趣,因此在产品创造上投入了大量精力。考虑到 ChatGPT 发布还不到一

2024-09-25

rence,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。   Xinference 的功

2025-04-11

复旦大学和阶跃星辰将要出一款端到端多模态 SVG 生成模型:OmniSVG,核心是支持从简单图标到复杂动漫角色的生成。 OmniSVG 主页:https://omnisvg.github.io/ 论文地址:https://arxiv.org/abs/2504.06263v1 OmniSVG 支持三种生成模式:

2025-04-12

信标准分局(ITU-T)于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准:基准测试/ Assessment criteria for foundation models: Benchmark。 该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指

2025-03-25

rence,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。
 
Xinference 的