知名大模型训练平台Together AI和智能体平台Agentica联合开源了新模型DeepCoder-14B-Preview。
DeepCoder在Deepseek-R1-Distilled-Qwen-14B基础之上,通过分布式强化学习(RL)进行了微调。该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces、AIME2024上的评测数据同样非常出色,几乎与o1、o3-mini差不多。
值得一提的是,Together AI不仅开源了DeepCoder-14B模型权重,还把训练数据集、训练方法、训练日志和优化方法全部公开,帮助开发者更深度的了解这个模型所有开发流程。
- 开源地址:https://huggingface.co/agentica-org/DeepCoder-14B-Preview
- GItHub:https://github.com/agentica-project/rllm