“问小白”发布第四代开源大模型 XBai o4，擅长复杂推理

2025-08-05 發表於开源资讯

“问小白”发布了第四代开源大模型XBai o4（其中“o”代表“open”），该模型在复杂推理能力方面表现出色，在Medium模式下已全面超越OpenAI-o3-mini，并在部分基准测试中优于Anthropic Claude Opus。

XBai o4基于创新的“反思型生成范式”（reflective generative form），融合了Long-CoT强化学习与过程评分学习（Process Reward Learning），使单个模型同时具备深度推理和高质量推理链路筛选的能力。通过共享过程评分模型（PRMs）和策略模型的主干网络，XBai o4显著降低了99%的过程评分推理耗时。

该模型提供三种模式（low、medium、high），在多个基准测试（如AIME24、AIME25、LiveCodeBench v5、C-EVAL等）中均展现出强大性能，相关训练和评估代码已在GitHub开源。

https://github.com/MetaStone-AI/XBai-o4

相關推薦

国产大模型“问小白5”发布，声称实力对标 GPT-5

2025-08-30

元石科技宣布推出“问小白5”，并表示其综合性能接近GPT-5，成为当前国产大模型的标杆产品。该模型采用"动态思维模式"，能智能判断何时快速响应或深入思考，在STEM能力、前沿知识和代码编程等细分领域表现突出，AA-Index

代码生成大模型 CodeGeeX 第四代正式发布，同期开源

2024-07-09

据智谱清言官方消息，旗下代码生成大模型 CodeGeeX正式发布CodeGeeX4系列模型的开源版本：CodeGeeX4-ALL-9B。 CodeGeeX4-ALL-9B作为最新一代CodeGeeX4系列模型的开源版本，在GLM-4强大语言能力的基础上继续迭代，大幅增强代码生成能力。

昆仑万维开源 Skywork-R1V 3.0

2025-07-10

昆仑万维宣布发布并开源Skywork-R1V 3.0版本。其在后训练阶段通过强化学习策略深度激发模型的跨模态推理能力，在复杂逻辑建模与跨学科泛化方面实现双重飞跃。公告介绍称，Skywork-R1V 3.0是昆仑万维多模态模型体系的关键节点

月之暗面发布并开源 Kimi K2：擅长代码与 Agentic 任务

2025-07-15

入价格（缓存未命中）4 元输出价格 16 元详情查看发布公告。

中国移动“九天”3.0 发布，多项核心技术同步开源

2025-07-30

中国移动发布了其自主研发的 “九天”基础大模型3.0。根据介绍，“九天众擎语言大模型”实现了架构上的突破性创新，采用可扩展至万亿级的 MoE 架构。通过15T token 的多阶段配比预训练数据与全流程治理体系，其推理能力

Google Kaggle 举办 AI 国际象棋锦标赛，评估领先模型的推理能力

2025-08-06

将拥有专属页面，列出排名模型的排行榜、比赛结果以及开源游戏环境及其规则的具体细节。随着每个模型玩更多比赛，以及更新的模型添加到排名中，排行榜将动态更新。未来，Kaggle Game Arena 将扩展到包括更复杂的多人视频

新华网大模型评测：文心一言多项第一

2023-08-06

线有 100 多款大模型产品。对此，新华网与权威机构联合发布了一份《国内 LLM 产品测试报告》，为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。报告以文心一言、GPT-3.5等四大知名

谷歌 Gemini 2.5 Pro 新增“深度思考”模式，Gemini 2.5 Flash 模型全面上线

2025-05-22

Context Protocol, MCP）定义的原生 SDK 支持，以便更轻松地与开源工具集成。详情查看：https://mp.weixin.qq.com/s/NCcmWcgZGEY6Qrg3yZSRCg

李彦宏：下一代旗舰 ERNIE 大模型正在开发中

2025-08-22

百度发布了截至6月30日的2025年第二季度财报：总营收为327亿元，同比下滑4%。归属于百度的净利润为73亿元，而上年同期净利润为55亿元。不按美国通用会计准则，归属于百度的净利润为48亿元，而上年同期净利润为74亿元。

豆包 1.5 · 深度思考模型上线边缘大模型网关

2025-04-26

与调用。豆包 1.5・深度思考模型是该公司于日前全新发布的一个模型，采用 MoE 架构，总参数 200B，激活参数为 20B，低于业界同类模型参数规模的 50%，具备显著的推理成本优势。据称在数学、代码、科学等专业领域推理任

百度 CTO 王海峰解读文心大模型 3.5 最新进展

2023-08-01

和长文本摘要，拓展了大模型能力边界。根据 IDC 最新发布的《AI 大模型技术能力评估报告，2023》，百度文心大模型3.5在14个参评模型中拿下12项指标的7个满分，得到“综合评分第一，算法模型第一，行业覆盖第一”三个绝对

Kimi 长思考模型 API 正式发布

2025-05-07

月之暗面发布了 Kimi 长思考模型 API kimi-thinking-preview。据介绍，kimi-thinking-preview 模型是月之暗面提供的具有多模态推理能力和通用推理能力的多模态思考模型，它擅长深度推理，帮助解决更多更难的事情，当你遇到难解的

OpenAI 详解 o3、o4-mini 和 o3-mini 使用限制

2025-04-22

这种情况时，我们会通知您。” 该公司预计将在几周内发布 OpenAI o3‑pro，并提供全面的工具支持。目前，Pro 用户仍然可以使用 o1‑pro。所有付费使用套餐的 API 用户均可使用 o1、o3 和 o4-mini 模型。可参阅平台文档，查看

讯飞星火 V4.0 发布，全面对标 GPT-4 Turbo

2024-06-29

科大讯飞在北京发布基于全国首个国产万卡算力集群“飞星一号”的讯飞星火大模型 V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。据介绍，讯飞星火V4.0在8个国际主流测试集中排名第一，并在文本生成、语言理解

熱門推薦