阿里发布 Qwen2-Math，超越 GPT-4o

2024-08-10 發表於开源资讯

阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题。

项目团队在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基模型。以及评估了三个中国数学基准 CMATH，GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

按照Qwen团队的说法，他们在预训练和微调数据集上都进行了去污染处理。具体来说，对于预训练数据，针对数学数据集，包括 GSM8K、MATH，并移除与测试集有显著重叠的样本。移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。对于微调数据，移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本，使用了同样的过滤方法

Qwen2-Math还计划推出支持英文和中文的双语模型，并开发多语言模型，这一举措将进一步扩大Qwen2-Math的应用范围。

相關推薦

最强开源 AI 搜索框架 —— OpenDeepSearch 超越 GPT-4o

2025-04-03

OpenDeepSearch 在 frames-benchmark 上超过了 GPT-4o 的 Search 功能，成为最强的开源 AI 搜索框架。这个框架结合语义搜索，并提供了快速和深度搜索两种模式，允许多跳搜索（即不断检索以得到理想答案），并且专门为 AI Agent 优化。&n

开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

2025-03-28

数据智能公司 Databricks 近日推出了一种全新的大语言模型微调方法 ——TAO（Test-time Adaptive Optimization）。通过运用无标注数据和强化学习，TAO 不仅在降低企业成本方面表现出色，更是在一系列基准测试中取得了令人瞩目的成绩。

首个 AI 翻译实战榜单发布，GPT-4o 领跑市场

2025-05-24

应用型 AI 翻译测评榜单 TransBench 正式发布。这一榜单由阿里国际 AI Business 团队、上海人工智能实验室和北京语言大学联合推出，旨在为行业提供标准化的翻译质量评估。传统翻译评测不同，TransBench 引入了幻觉率、文化禁忌词

中文大模型基准测评上半年报告：GPT-4o 排名第一、通义千问“国服最强”

2024-07-11

中文大模型测评基准SuperCLUE发布2024上半年报告，披露针对国内外33个大模型的综合测评结果。从代表通用能力的一级总分来看，OpenAI的GPT-4o以81分高居榜首，Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二，得分均为7

OpenAI 发布 GPT-4.1 提示工程指南

2025-04-16

4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。 OpenAI 发布 GPT-4.1 系列模型这次更新的焦点并非面向大众用户，仅通过API接口提供服务，OpenAI官方文档直言不讳地指出，这批新模型在各项能力上全面超越了此前的GPT-4o和GPT-4

昆仑万维开源 Skywork-R1V 3.0

2025-07-10

昆仑万维宣布发布并开源Skywork-R1V 3.0版本。其在后训练阶段通过强化学习策略深度激发模型的跨模态推理能力，在复杂逻辑建模与跨学科泛化方面实现双重飞跃。公告介绍称，Skywork-R1V 3.0是昆仑万维多模态模型体系的关键节点

OpenAI 改进 GPT-4o 模型，带来更强的智能和个性

2025-04-29

本月初，OpenAI 发布了多个新的 AI 模型。面向开发者的 GPT-4.1 模型引入了对 100 万个 Token 上下文窗口的支持，并在指令遵循、编码和智能方面进行了改进。o3 和 o4-mini推理模型在多个 AI 基准测试中取得了最佳结果。即使在发布

商汤发布“日日新SenseNova V6.5”大模型体系

2025-07-31

商汤科技在WAIC 2025上发布了“日日新SenseNova V6.5”大模型体系，其推理和多模态能力超越多个主流模型，且性价比提升3倍。日日新V6.5重点升级了强推理、高效率和智能体三大能力。该模型在国内率先突破图文交错思维链技

OpenAI 对 GPT-4o Mini 模型进行免费微调

2024-07-26

在 Meta 推出开源 Llama 3.1 模型之后不久，OpenAI 宣布对其 GPT-4o Mini 模型提供免费微调，允许用户免费使用额外数据训练模型，以便在特定用例中获得更高的性能。 GPT-4o mini 微调适用于 OpenAI 的 Tier 4 和 5 使用层级的开发人员，这

GPT-4o 出现“谄媚烦人”倾向，突变“赛博舔狗”，奥尔特曼称在一周内修复

2025-04-30

说明显示，GPT-4o在3月27日迎来了全面更新，而且在4月25日发布了进一步的更新，重点改进其记忆存储时机的选择机制，并显著增强其在科学、技术、工程及数学（STEM）领域的问题解决能力。OpenAI在此期间对GPT-4o的对话响应模式

苹果联合复旦大学提出端侧视频大语言模型框架 StreamBridge

2025-05-14

Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04，超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。论文简介如下：视频大语言模型（Video - LLMs）通常一次性处理整个预录制视频。然而，新兴应用，如机器人技术和自动驾驶

阿里通义发布 Qwen3-30B-A3B-Instruct-2507 模型

2025-07-31

Qwen3-30B-A3B 模型迎来了新版本：Qwen3-30B-A3B-Instruct-2507。这是一个非思考模式（non-thinking mode）的新模型，仅激活3B参数，就能取得可媲美 Gemini 2.5-Flash（non-thinking）、GPT-4o等顶尖闭源模型的超强性能。 Qwen3-30B-A3B-Instruct-2507&nb

Mistral AI 开源 AI 音频模型系列 Voxtral

2025-07-17

和边缘部署的 3B 版本。两个版本均基于 Apache 2.0 许可证发布。公告称，Voxtral 解决了开发者需要在低成本的开源系统和高效但封闭的解决方案之间做选择的问题。该模型以不到同类 API 一半的价格，在开放环境中提供最先进的

原生的来了！OpenAI 在 API 中引入 JSON 结构化输出功能

2024-08-08

对复杂 JSON 模式进行评估时，具有结构化输出的新模型 gpt-4o-2024-08-06 得分为 100%。相比之下，gpt-4-0613 得分不到 40%。这一功能包括两种形式：函数调用：通过在函数定义中设置 strict: true可以使用工具的结构化输出。此功

熱門推薦