高考数学大赛:六大 AI 模型争锋,豆包与元宝双双夺冠


随着高考的到来,数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中,六大人工智能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。

此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题,总分为73分,涵盖了单选题、多选题和填空题。

为了确保测试的公平性,所有模型在答题时都没有系统提示和联网搜索的支持,每个模型只能进行一次答题。经过一番较量,最终结果出乎意料,豆包和元宝同以68分的成绩并列第一,展现了出色的推理能力。

相对而言,DeepSeek 和通义则稍显逊色,分别以63分和62分完赛。而文心 X1和 o3的表现则令人失望,尤其是 o3,仅获得34分,显现出对国内高考题目的适应性不足。

在具体题型的表现上,豆包、通义和元宝在单选题的表现颇为亮眼,各自得分35分。DeepSeek 因两道题失误拿下30分,而 o3则惨遭滑铁卢,单选题的得分仅为20分,错了一半的题目。

而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对。相对来说,通义的表现虽然快速,但在关键时刻的判断失误也导致得分不理想。


相關推薦

2025-03-27

44.7%,净增量超9200万,领跑移动互联网行业。 随着AI大模型的不断升级,深度思考和推理能力显著提升,AIGC已成为全网增速最快赛道,DeepSeek APP上线次月活跃用户规模突破1.8亿,豆包APP破亿,腾讯元宝、纳米AI搜索在DeepSeek大

2025-03-21

好用好玩的功能。 6. 图片生成功能藏太深,要选hunyuan模型,然后把底部的深度思考以及联网模式,都取消,就可以按此前一样,画图了。 7. 希望可以增加收藏和笔记等分类功能,并且和微信搜索 ima打通 8. 腾讯元宝识别表

2025-03-20

透露,腾讯于数月前重组AI团队,聚焦产品创新及深度的模型研发,并加大了对原生AI产品的研发和营销力度。 马化腾表示:“数月前,我们重组了AI团队以聚焦于快速的产品创新及深度的模型研发、增加了AI相关的资本开支、

2025-04-25

视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度推理与通用任务场景中均表现优异,真正实现多模态大模型的“深度 + 广度”统一。 R1V 2.0 模型亮点: 中文场景领跑:理科学科题目(数学/物理/

2025-04-16

・霍洛维茨在三月份发布的报告中,将 Quark 排在全球第六大 AI 应用,仅次于百度的 AI 搜索和 OpenAI 的 ChatGPT 及微软增强的 Edge 浏览器。 阿里巴巴在三月份对 Quark 进行了重组,该应用利用公司最新的 Qwen 推理模型,拥有一个简

2024-09-26

三款模型。 字节跳动对豆包通用模型 pro 进行了升级,数学能力提升了 36%,专业知识能力提升了 35%,上下文窗口 token 数由128k 增加到了256K。对于大型语言模型,上下文窗口的大小是一个重要的参数,它决定了模型能

2025-06-12

豆包大模型1.6系列在深度思考方面的强化版本;在代码、数学、逻辑推理等基础能力上进一步提升;支持256K 上下文。 doubao-seed-1.6-flash:豆包大模型1.6系列的极速版本,支持深度思考、多模态理解、256K 上下文;延迟极低,TOPT

2025-04-26

模型参数规模的 50%,具备显著的推理成本优势。 据称在数学、代码、科学等专业领域推理任务中表现出色,已经达到或接近全球第一梯队水平;在创意写作等非推理任务中,模型也展示出优秀的泛化能力,能够胜任更广泛和复

2025-05-14

3月份,移动端原生App月度活跃用户规模为5.91亿。其中由六大手机厂商主导的AI原生应用异军突起,以4.81亿月活规模构筑起行业竞争新壁垒。 具体玩家来看,截止到3月份,活跃用户规模TOP15原生App中,六大手机厂商均榜上有名

2025-05-23

上已跻身前八名,在国内排名仅次于DeepSeek。其在代码和数学等理科领域的能力显著提升,得益于创新的预训练和后训练技术。 深度思考模型混元T1近期也迎来了新升级,在竞赛数学、常识问答和复杂任务的Agent能力上均有提

2025-06-06

国,DeepSeek、阿里Qwen、百度文心一言等模型在代码生成与数学推理等核心任务中表现优异。斯坦福HAI发布的Chatbot Arena数据显示,截至2025年2月,中国顶尖模型评分已达1362分,仅次于美国模型的1385分,差距进一步缩小。 与此同

2024-08-14

能的应用体验。 阿里通义 通义是一款超大规模与训练模型,为您提供全方位协助,包括知识问答、AI创作、文档作画、涂鸦绘画、AI搜索、千万字长文档解析、AI翻译、AI会议纪要等等,学习办公,效率翻倍。 豆包 抖音旗

2024-09-25

圳举办2024火山引擎 AI 创新巡展,并发布豆包·视频生成模型以及豆包·音乐模型、豆包·同声传译模型等产品。 据悉,豆包·视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能力。 据火山引擎介

2025-05-27

由中央广播电视总台主办的《CMG 世界机器人大赛・系列赛》机甲格斗擂台赛于5月25日晚在浙江杭州举行,这是全球首个以人形机器人为参赛主体的格斗竞技赛事。 正式开赛前,四台宇树G1人形机器人戴着不同颜色的护具亮相,