“问小白”发布第四代开源大模型 XBai o4,擅长复杂推理


“问小白”发布了第四代开源大模型XBai o4(其中“o”代表“open”),该模型在复杂推理能力方面表现出色,在Medium模式下已全面超越OpenAI-o3-mini,并在部分基准测试中优于Anthropic Claude Opus

XBai o4基于创新的“反思型生成范式”(reflective generative form),融合了Long-CoT强化学习过程评分学习(Process Reward Learning),使单个模型同时具备深度推理和高质量推理链路筛选的能力。通过共享过程评分模型(PRMs)和策略模型的主干网络,XBai o4显著降低了99%的过程评分推理耗时。

该模型提供三种模式(low、medium、high),在多个基准测试(如AIME24、AIME25、LiveCodeBench v5、C-EVAL等)中均展现出强大性能,相关训练和评估代码已在GitHub开源。

https://github.com/MetaStone-AI/XBai-o4


相關推薦

2024-07-09

据智谱清言官方消息,旗下代码生成大模型 CodeGeeX正式发布CodeGeeX4系列模型的开源版本:CodeGeeX4-ALL-9B。 CodeGeeX4-ALL-9B作为最新一代CodeGeeX4系列模型的开源版本,在GLM-4强大语言能力的基础上继续迭代,大幅增强代码生成能力。

2025-07-10

昆仑万维宣布发布并开源Skywork-R1V 3.0版本。其在后训练阶段通过强化学习策略深度激发模型的跨模态推理能力,在复杂逻辑建模与跨学科泛化方面实现双重飞跃。 公告介绍称,Skywork-R1V 3.0是昆仑万维多模态模型体系的关键节点

2025-07-15

入价格(缓存未命中)4 元 输出价格 16 元 详情查看发布公告。

2025-07-30

中国移动发布了其自主研发的 “九天”基础大模型3.0。根据介绍,“九天众擎语言大模型”实现了架构上的突破性创新,采用可扩展至万亿级的 MoE 架构。通过15T token 的多阶段配比预训练数据与全流程治理体系,其推理能力

2025-08-06

将拥有专属页面,列出排名模型的排行榜、比赛结果以及开源游戏环境及其规则的具体细节。随着每个模型玩更多比赛,以及更新的模型添加到排名中,排行榜将动态更新。 未来,Kaggle Game Arena 将扩展到包括更复杂的多人视频

2023-08-06

线有 100 多款大模型产品。对此,新华网与权威机构联合发布了一份《国内 LLM 产品测试报告》,为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。 报告以文心一言、GPT-3.5等四大知名

2025-05-22

Context Protocol, MCP)定义的原生 SDK 支持,以便更轻松地与开源工具集成。 详情查看:https://mp.weixin.qq.com/s/NCcmWcgZGEY6Qrg3yZSRCg

2025-04-26

与调用。 豆包 1.5・深度思考模型是该公司于日前全新发布的一个模型,采用 MoE 架构,总参数 200B,激活参数为 20B,低于业界同类模型参数规模的 50%,具备显著的推理成本优势。 据称在数学、代码、科学等专业领域推理任

2023-08-01

和长文本摘要,拓展了大模型能力边界。 根据 IDC 最新发布的《AI 大模型技术能力评估报告,2023》,百度文心大模型3.5在14个参评模型中拿下12项指标的7个满分,得到“综合评分第一,算法模型第一,行业覆盖第一”三个绝对

2025-05-07

月之暗面发布了 Kimi 长思考模型 API kimi-thinking-preview。 据介绍,kimi-thinking-preview 模型是月之暗面提供的具有多模态推理能力和通用推理能力的多模态思考模型,它擅长深度推理,帮助解决更多更难的事情,当你遇到难解的

2024-06-29

科大讯飞在北京发布基于全国首个国产万卡算力集群“飞星一号”的讯飞星火大模型 V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。 据介绍,讯飞星火V4.0在8个国际主流测试集中排名第一,并在文本生成、语言理解

2025-04-22

这种情况时,我们会通知您。” 该公司预计将在几周内发布 OpenAI o3‑pro,并提供全面的工具支持。目前,Pro 用户仍然可以使用 o1‑pro。  所有付费使用套餐的 API 用户均可使用 o1、o3 和 o4-mini 模型。可参阅平台文档,查看

2025-08-05

域最具影响力的榜单之一。 此次 Qwen3 的 1433 分,是全球开源大模型和中国大模型的历史最高分。同时,Qwen3 还在 5 个关键能力子项中摘得「全球第一」,包括数学(math)、代码(coding)、复杂提示(hard prompts)、长文本检索

2025-05-07

5月6日,本源量子计算科技(合肥)股份有限公司正式推出支持500+量子比特的中国第四代自主量子计算测控系统“本源天机4.0”,标志着我国量子计算产业已具备可复制、可迭代的工程化生产能力,为百比特级量子计算机量产奠