阿里发布 Qwen2-Math,超越 GPT-4o


阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题。

项目团队在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基模型。以及评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

按照Qwen团队的说法,他们在预训练和微调数据集上都进行了去污染处理。具体来说,对于预训练数据,针对数学数据集,包括 GSM8K、MATH,并移除与测试集有显著重叠的样本。移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。对于微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法

Qwen2-Math还计划推出支持英文和中文的双语模型,并开发多语言模型,这一举措将进一步扩大Qwen2-Math的应用范围。


相關推薦

2024-07-11

中文大模型测评基准SuperCLUE发布2024上半年报告,披露针对国内外33个大模型的综合测评结果。 从代表通用能力的一级总分来看,OpenAI的GPT-4o以81分高居榜首,Claude-3.5-Sonnet与通义千问开源模型Qwen2-72B-Instruct并列第二,得分均为7

2024-07-26

在 Meta 推出开源 Llama 3.1 模型之后不久,OpenAI 宣布对其 GPT-4o Mini 模型提供免费微调,允许用户免费使用额外数据训练模型,以便在特定用例中获得更高的性能。 GPT-4o mini 微调适用于 OpenAI 的 Tier 4 和 5 使用层级的开发人员,这

2024-08-08

对复杂 JSON 模式进行评估时,具有结构化输出的新模型 gpt-4o-2024-08-06 得分为 100%。相比之下,gpt-4-0613 得分不到 40%。 这一功能包括两种形式: 函数调用:通过在函数定义中设置 strict: true可以使用工具的结构化输出。此功

2024-08-14

ChatGPT Mirror 后台是一个 ChatGPT 镜像站,允许多账号共享管理。实现多人同时使用 ChatGPT 服务,同时还支持 API 对外开放,方便开发者进行对接。 GitHub 地址:https://github.com/dairoot/ChatGPT-Mirror 功能简介 提供与官网同等的极致体

2024-08-01

准确率,因此成为性价比最高的机型。 最佳开源模型:阿里巴巴的 Qwen2- 72B -Instruct。该开源模型在短和中语境背景下表现最佳,得分最高。 Galileo 联合创始人兼首席执行官 Vikram Chatterji 表示:“由于幻觉仍然是一个

2024-08-07

求法院宣布 OpenAI 对微软的独家授权无效,否则就裁定 "GPT-4、GPT-4T、GPT-4o 和其他 OpenAI 下一代大型语言模型是否构成 AGI,从而被排除在微软的授权之外"。 “马斯克为启动和维持OpenAI公司贡献了大量资金和资源,但条件是该公

2023-12-02

今天,阿里云举办通义千问发布会,开源通义千问720亿参数模型Qwen-72B。 地址:https://modelscope.cn/models/qwen/Qwen-72B/ 据介绍,Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70

2023-09-26

阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。据阿里云CTO周靖人介绍,Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。 Qwen-14B是一款支持多种语言的高性能开源模

2024-06-26

下文窗口和高级推理为 AI Assistant 解锁大量新用例。最近发布的 Gemini 1.5 Flash 将有助于解决高容量和低延迟下成本效益至关重要的用例。 这些更新预计将在未来几周内推出。 详情可查看官方博客。

2024-08-17

8月15日晚间,阿里巴巴集团发布最新季度业绩,AI推动阿里云重回增长,季度营收增长6%至265.49亿元,其中AI相关产品收入实现三位数增长,公共云业务实现两位数增长。同时,阿里云利润大涨,经调整EBITA利润同比增长155%,单季

2024-07-30

花费 70 亿美元,以及在人员配备上花费 15 亿美元。 - ChatGPT 开发商获得的大约 35 亿美元的收入并不能满足其运营成本。 蓬勃发展的 AI 商业战略正在使投资这一领域的主要科技公司走上盈利的道路。在过去的几个月里,我们

2024-07-18

下文时间更长。 包括 AI21 在内的其他公司和开发者已经发布了基于 Mamba 的新人工智能模型。 现在,Mistral 的 Codestral Mamba 7B 采用了这种新架构,即使输入文本较长,也能提供快速的响应时间。Codestral Mamba 非常适合代码

2022-10-11

呈现给大家,欢迎大家申请体验测试。 当前 SelectDB 已与阿里云、腾讯云、亚马逊云科技等知名云厂商开展了深入合作,后续也将进一步拓宽与全球知名云厂商的合作。另外,11 月我们将推出 SelectDB Cloud 2.0 版本,新的版本会有

2023-08-11

清华大学新闻与传播学院沈阳团队近日发布的《大语言模型综合性能评估报告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。 据了解,报告本