阿里发布 Qwen2-Math,超越 GPT-4o


阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题。

项目团队在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基模型。以及评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

按照Qwen团队的说法,他们在预训练和微调数据集上都进行了去污染处理。具体来说,对于预训练数据,针对数学数据集,包括 GSM8K、MATH,并移除与测试集有显著重叠的样本。移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。对于微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法

Qwen2-Math还计划推出支持英文和中文的双语模型,并开发多语言模型,这一举措将进一步扩大Qwen2-Math的应用范围。


相關推薦

2025-04-03

OpenDeepSearch 在 frames-benchmark 上超过了 GPT-4o 的 Search 功能,成为最强的开源 AI 搜索框架。 这个框架结合语义搜索,并提供了快速和深度搜索两种模式,允许多跳搜索(即不断检索以得到理想答案),并且专门为 AI Agent 优化。&n

2025-03-28

数据智能公司 Databricks 近日推出了一种全新的大语言模型微调方法 ——TAO(Test-time Adaptive Optimization)。通过运用无标注数据和强化学习,TAO 不仅在降低企业成本方面表现出色,更是在一系列基准测试中取得了令人瞩目的成绩。

2024-07-11

中文大模型测评基准SuperCLUE发布2024上半年报告,披露针对国内外33个大模型的综合测评结果。 从代表通用能力的一级总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为7

2025-04-16

4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。 OpenAI 发布 GPT-4.1 系列模型 这次更新的焦点并非面向大众用户,仅通过API接口提供服务,OpenAI官方文档直言不讳地指出,这批新模型在各项能力上全面超越了此前的GPT-4o和GPT-4

2024-07-26

在 Meta 推出开源 Llama 3.1 模型之后不久,OpenAI 宣布对其 GPT-4o Mini 模型提供免费微调,允许用户免费使用额外数据训练模型,以便在特定用例中获得更高的性能。 GPT-4o mini 微调适用于 OpenAI 的 Tier 4 和 5 使用层级的开发人员,这

2024-08-08

对复杂 JSON 模式进行评估时,具有结构化输出的新模型 gpt-4o-2024-08-06 得分为 100%。相比之下,gpt-4-0613 得分不到 40%。 这一功能包括两种形式: 函数调用:通过在函数定义中设置 strict: true可以使用工具的结构化输出。此功

2025-03-22

天凌晨,OpenAI 上线了全新语音模型 API,具体包括: gpt-4o-transcribe (语音转文本):单词错误率 (WER) 显著降低,在多个基准测试中优于现有 Whisper 模型 gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效

2024-08-01

准确率,因此成为性价比最高的机型。 最佳开源模型:阿里巴巴的 Qwen2- 72B -Instruct。该开源模型在短和中语境背景下表现最佳,得分最高。 Galileo 联合创始人兼首席执行官 Vikram Chatterji 表示:“由于幻觉仍然是一个

2024-08-14

ChatGPT Mirror 后台是一个 ChatGPT 镜像站,允许多账号共享管理。实现多人同时使用 ChatGPT 服务,同时还支持 API 对外开放,方便开发者进行对接。 GitHub 地址:https://github.com/dairoot/ChatGPT-Mirror 功能简介 提供与官网同等的极致体

2024-08-07

求法院宣布 OpenAI 对微软的独家授权无效,否则就裁定 "GPT-4、GPT-4T、GPT-4o 和其他 OpenAI 下一代大型语言模型是否构成 AGI,从而被排除在微软的授权之外"。 “马斯克为启动和维持OpenAI公司贡献了大量资金和资源,但条件是该公

2025-04-12

计划介绍 免费版本 每月 50 次使用慢速高级模型(GPT-4o、Claude 3.5 Sonnet、Claude 3.7 Sonnet等),使用完,只能换账号了。 使用限制:每月 2000 次代码生成。 Pro专业版 每月20美元(折合人民币145¥),年付:192/年(1393¥

2025-04-16

据最新报道,中国电商巨头阿里巴巴集团人工智能应用 Quark(夸克) 在三月份的月活跃用户数(MAU)达到了近1.5亿,成功超越了字节跳动的 Doubao,成为中国最受欢迎的 AI 应用。 根据南华早报的报道,紧随其后的是 Doubao(豆包),

2024-09-30

几位联合创始人。 现任和前任员工认为,OpenAI 过于急于发布产品公告和进行安全测试,并且已经失去了对竞争对手 AI 开发者的领先优势。他们认为 Altman 大多游离于日常事务之外——公司对此表示异议——因为他一直在全球奔

2025-04-09

客户端,兼容 Windows、Mac 和 Linux 系统。 Cherry Studio 昨天发布了最新的 1.1.19 版本,此次更新带来了全新的 QuickPanel 功能、对gpt-4o-mini及网页搜索引用的支持、多项 MCP(模型计算提供商)相关的功能增强和问题修复,以及性能优