高考数学大赛：六大 AI 模型争锋，豆包与元宝双双夺冠

2025-06-10 發表於开源资讯

随着高考的到来，数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中，六大人工智能模型也参与了挑战，分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。

此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题，总分为73分，涵盖了单选题、多选题和填空题。

为了确保测试的公平性，所有模型在答题时都没有系统提示和联网搜索的支持，每个模型只能进行一次答题。经过一番较量，最终结果出乎意料，豆包和元宝同以68分的成绩并列第一，展现了出色的推理能力。

相对而言，DeepSeek 和通义则稍显逊色，分别以63分和62分完赛。而文心 X1和 o3的表现则令人失望，尤其是 o3，仅获得34分，显现出对国内高考题目的适应性不足。

在具体题型的表现上，豆包、通义和元宝在单选题的表现颇为亮眼，各自得分35分。DeepSeek 因两道题失误拿下30分，而 o3则惨遭滑铁卢，单选题的得分仅为20分，错了一半的题目。

而在多选题方面，豆包、DeepSeek 和元宝均表现完美，三道题全对。相对来说，通义的表现虽然快速，但在关键时刻的判断失误也导致得分不理想。

相關推薦

中国 AIGC APP 月活 TOP10 出炉：DeepSeek 第一、豆包第二

2025-03-27

44.7%，净增量超9200万，领跑移动互联网行业。随着AI大模型的不断升级，深度思考和推理能力显著提升，AIGC已成为全网增速最快赛道，DeepSeek APP上线次月活跃用户规模突破1.8亿，豆包APP破亿，腾讯元宝、纳米AI搜索在DeepSeek大

网友发帖赞马化腾对元宝开发内容和节奏非常了解，凌晨回应其产品建议

2025-03-21

好用好玩的功能。 6. 图片生成功能藏太深，要选hunyuan模型，然后把底部的深度思考以及联网模式，都取消，就可以按此前一样，画图了。 7. 希望可以增加收藏和笔记等分类功能，并且和微信搜索 ima打通 8. 腾讯元宝识别表

腾讯元宝成为中国 DAU 排名第三的 AI 原生移动应用

2025-03-20

透露，腾讯于数月前重组AI团队，聚焦产品创新及深度的模型研发，并加大了对原生AI产品的研发和营销力度。马化腾表示：“数月前，我们重组了AI团队以聚焦于快速的产品创新及深度的模型研发、增加了AI相关的资本开支、

Skywork-R1V 2.0 版本再开源，最强高考数理解题利器

2025-04-25

视觉与文本推理能力的开源多模态模型，该多模态模型在高考理科难题的深度推理与通用任务场景中均表现优异，真正实现多模态大模型的“深度 + 广度”统一。 R1V 2.0 模型亮点：中文场景领跑：理科学科题目（数学/物理/

夸克 AI 月活跃用户达 1.5 亿，超越节跳动豆包

2025-04-16

・霍洛维茨在三月份发布的报告中，将 Quark 排在全球第六大 AI 应用，仅次于百度的 AI 搜索和 OpenAI 的 ChatGPT 及微软增强的 Edge 浏览器。阿里巴巴在三月份对 Quark 进行了重组，该应用利用公司最新的 Qwen 推理模型，拥有一个简

火山引擎总裁谭待：豆包大模型“地板价”，仍有盈利空间

2024-09-26

三款模型。字节跳动对豆包通用模型 pro 进行了升级，数学能力提升了 36%，专业知识能力提升了 35%，上下文窗口 token 数由128k 增加到了256K。对于大型语言模型，上下文窗口的大小是一个重要的参数，它决定了模型能

昆仑万维开源 Skywork-R1V 3.0

2025-07-10

kywork-R1V 3.0取得了 76.0 的开源模型最高成绩，并且在2025年高考数学新一卷上，R1V 3.0更是取得了142分的突出成绩。R1V 3.0的高考数学突出成绩，接近多款顶尖闭源模型，达到了开源多模态推理模型的最优结果。 R1V 3.0 MMMU达到了7

B 站成 AI 内容生态第一平台，月活跃 AI 用户超 1.4 亿

2025-07-29

用"榜单。该榜单基于B站大数据平台的哔哩指数（Z-Index）模型，综合稿件量、相关UP主数量、播放量、互动量、搜索量等多维度数据，筛选出B站用户最关注的AI应用。 Deepseek、夸克、豆包、腾讯元宝、Kimi位居榜单前五。除专业

四款 AI 原生 App 月活破亿

2025-05-14

3月份，移动端原生App月度活跃用户规模为5.91亿。其中由六大手机厂商主导的AI原生应用异军突起，以4.81亿月活规模构筑起行业竞争新壁垒。具体玩家来看，截止到3月份，活跃用户规模TOP15原生App中，六大手机厂商均榜上有名

豆包大模型 1.6 发布

2025-06-12

豆包大模型1.6系列在深度思考方面的强化版本；在代码、数学、逻辑推理等基础能力上进一步提升；支持256K 上下文。 doubao-seed-1.6-flash：豆包大模型1.6系列的极速版本，支持深度思考、多模态理解、256K 上下文；延迟极低，TOPT

豆包 1.5 · 深度思考模型上线边缘大模型网关

2025-04-26

模型参数规模的 50%，具备显著的推理成本优势。据称在数学、代码、科学等专业领域推理任务中表现出色，已经达到或接近全球第一梯队水平；在创意写作等非推理任务中，模型也展示出优秀的泛化能力，能够胜任更广泛和复

宇树王兴兴为高考生送上报考建议

2025-06-24

随着高考成绩、分数线陆续公布，对于那些想投身具身智能行业的考生，宇树科技创始人王兴兴发文结合自身的经历给出一些专业报考建议。如果你从小喜欢拆解维修一些电子产品，或者动手DIY做点东西，推荐学习机械或

腾讯混元大模型矩阵全面升级并推出多款新品

2025-05-23

上已跻身前八名，在国内排名仅次于DeepSeek。其在代码和数学等理科领域的能力显著提升，得益于创新的预训练和后训练技术。深度思考模型混元T1近期也迎来了新升级，在竞赛数学、常识问答和复杂任务的Agent能力上均有提

腾讯元宝电脑版上线AI编程模式

2025-06-19

元宝电脑版2.25版本中推出。用户在电脑版选择 DeepSeek 模型并关闭深度思考后，输入「@AI 编程」后，即可通过双栏界面，在左侧对话生成代码，右侧实时展示并支持预览运行。据介绍，除此前已支持直接运行 HTML 外，在腾讯

熱門推薦