“问小白”发布了第四代开源大模型XBai o4(其中“o”代表“open”),该模型在复杂推理能力方面表现出色,在Medium模式下已全面超越OpenAI-o3-mini,并在部分基准测试中优于Anthropic Claude Opus。
XBai o4基于创新的“反思型生成范式”(reflective generative form),融合了Long-CoT强化学习与过程评分学习(Process Reward Learning),使单个模型同时具备深度推理和高质量推理链路筛选的能力。通过共享过程评分模型(PRMs)和策略模型的主干网络,XBai o4显著降低了99%的过程评分推理耗时。
该模型提供三种模式(low、medium、high),在多个基准测试(如AIME24、AIME25、LiveCodeBench v5、C-EVAL等)中均展现出强大性能,相关训练和评估代码已在GitHub开源。
https://github.com/MetaStone-AI/XBai-o4