百度开源最新思考模型 ERNIE-4.5-21B-A3B-Thinking


9月9日,由深度学习技术及应用国家工程研究中心主办,百度飞桨、文心大模型联合承办的WAVE SUMMIT 深度学习开发者大会2025在京举行。

大会现场,百度开源了最新思考模型ERNIE-4.5-21B-A3B-Thinking,该模型是在ERNIE-4.5-21B-A3B基础上训练的深度思考模型,在内容创作、逻辑推理、数学计算、代码生成与工具调用等多个任务中表现优异。

https://huggingface.co/baidu/ERNIE-4.5-21B-A3B-Thinking

此外,ERNIEKit文心大模型开发套件提供了更加便捷的模型后训练方案,仅需4张GPU即可对ERNIE-4.5-300B-A47B模型进行高效调优,进一步降低开发者将模型落地到实际应用的门槛;开源了大规模计算图数据集GraphNet,提供了超2700个模型计算图及标准化评测体系,填补了AI编译器测试基准的空白,助力优化设计与性能提升。


相關推薦

2025-08-05

B-Instruct、Qwen3-Coder-480B-A35B-Instruct,深度思考模型Qwen3-30B-A3B-Thinking-2507、Qwen3-235B-A22B-Thinking-2507,基础模型Qwen3-235B-A22B-Instruct-2507、Qwen3-30B-A3B-Instruct-2507,CoT音频模型ThinkSound,统一视频生成模型Wan2.2-TI2V-5B,文生视频Wan2.2-T2V-A14B。

2025-04-30

模型:包括Qwen3-32B、14B、8B、4B、1.7B、0.6B,均为Apache 2.0开源协议。 2. 上下文长度:密集模型中,0.6B、1.7B、4B为32K,8B及以上为128K;MoE模型均为128K。 模力方舟上的昇腾算力已为您准备好首批0.6B、8B、30B三款模型,其中 30B 为

2025-07-31

力提升至256K。 通义团队已在魔搭社区和HuggingFace等平台开源这一新模型,可前往QwenChat(chat.qwen.ai)直接体验。

2025-07-29

方媒体报道,智谱将于今晚(7月28日) 正式发布其最新开源大模型 GLM-4.5 系列,该系列采用全新的混合专家(MoE)架构,定位为多模态可扩展大模型,具备高吞吐推理、结构化工具调用、可解释推理追踪、分布式负载均衡等特

2025-08-05

域最具影响力的榜单之一。 此次 Qwen3 的 1433 分,是全球开源大模型和中国大模型的历史最高分。同时,Qwen3 还在 5 个关键能力子项中摘得「全球第一」,包括数学(math)、代码(coding)、复杂提示(hard prompts)、长文本检索

2025-08-13

型。 360智脑团队表示,Light-IF系列模型的推出,不仅为开源社区提供了一套可复现的完整路线和配套的开源代码,而且全系模型将陆续开放,供社区使用、对比与复现。同时,训练中使用的冷启动数据集也将同步开放。 此外,

2025-08-12

阿里通义Qwen团队宣布,Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 系列模型现已支持高达100万token的超长上下文处理。 此次升级集成了两项关键技术:Dual Chunk Attention (DCA) 和 MInference。 DCA 是一种长度外推方法,

2025-08-07

深度分析 专题 1:Claude Sonnet 4 首秀评测 作为 Anthropic 的最新力作,Claude Sonnet 4 在本月的评测中展现了均衡但尚未登顶的实力。其在 SQL 优化、方言转换、SQL 理解 三大维度的得分分别为 70.9、77.1、79.3,位列总榜中上游。 SQL

2025-08-27

百度旗下的 AI 搜索 App“Tizzy.ai”完成了前期的测试,正式更名为“梯子AI”。这款应用发布于 8 月 10 日,当时名称仍为“Tizzy.ai”,直到 8 月 21 日更新后改名为“梯子AI”,版本号也直接从 1.0.0 跳到 1.2.0(官网https://tizzy.baidu.com

2025-03-25

百度今日宣布,其国内首创的对话式应用开发平台“秒哒”已全面上线。该平台允许用户通过自然语言直接描述需求,系统即可自动生成具备完整功能的应用代码,标志着无代码开发工具领域的一大突破。 在秒哒的官方网页上

2025-04-15

字节跳动 Seed 最新思考模型 Seed-Thinking-v1.5 技术报告发布,涵盖在数据体系、奖励模型、RL 算法、基础设施等维度的探索: 通过数据层面的精细化处理提升推理能力,融合可验证数据和非可验证数据,并提出全新的评测基准

2025-06-19

20 美元 / 百万 token,输出 80 美元 / 百万 token。 Genspark 由百度前高管景鲲创立,今年 4 月宣布推出通用 AI 智能体 "Genspark Super Agent",号称是一款 "快速、准确、可控" 的通用 AI 代理。这一消息迅速在技术社区引发热议,众多专业

2025-07-06

nbsp; 会上,中心联合Linux基金会、CNCF基金会、开源PHP、百度、腾讯等十余家国内外开源机构,共同发起《人工智能开源创新北京宣言(Beijing Declaration on Open Source Innovation of AI),从开源无国界、技术开源、生态共建、开源安全

2025-06-21

Ollama 最新版本已支持 RWKV7-G1 和 RWKV-7-World 系列模型。 3 月初,随着 RWKV 社区成员 @MollySophia 的 PR 被合并,llama.cpp 正式支持 RWKV-7 模型。Ollama 近期更新了最新版 llama.cpp,因此同步支持 RWKV-7 架构和对应模型。 Ollama 官方模型仓库