字节跳动开源 Godel-Rescheduler


字节跳动宣布开源 Godel-Rescheduler,一个基于全局最优调度策略的重调度框架。不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。

Godel-Rescheduler 由两个核心模块组成:Policy Manager 和 Movement Manager。其中,Policy Manager 负责输出重调度决策,而 Movement Manager 则负责拆解并执行这些决策。整个框架的目标是通过重调度,使集群朝向全局最优状态发展。

目前,字节跳动已经成功将 Godel-Rescheduler 应用到多个内部项目中,支持多种重调度策略的协同工作。例如:

  • 合并部署重调度:优化上下游应用实例在相同节点上的调度。
  • 负载均衡重调度:在负载、内存带宽、网络带宽等方面进行优化。
  • 碎片整理重调度:有效减少 CPU、GPU 等资源的碎片率等。

在实际应用中,Godel-Rescheduler 已帮助字节跳动的数万卡 GPU 集群将碎片率控制在 5% 以下,同时在大规模混合部署集群中,热点节点比例控制在 0.1% 以下。

接下来,Godel-Rescheduler 将持续扩展和优化:

  • 更多重调度策略:引入更多实时数据,以丰富调度策略的多样性。
  • 稳定性建设:在优化调度效果的同时,持续降低重调度对集群稳定性的影响。
  • 扩展性优化:进一步简化策略接入方式,提升插件化能力。
  • 通用指标构建:制定通用的重调度评价指标,以全面评估调度效果。
  • 优化可解释性:增强重调度算法的可解释性,帮助用户更好地理解调度决策的依据。

相關推薦

2025-06-04

    ​​字节跳动开源Computer Use Agent:引领人机交互新革命​​ 在人工智能技术日新月异的今天,字节跳动再次以创新者的姿态,宣布开源其自主研发的Computer Use Agent(以下简称CUA)。这一举措不仅标志着字节跳动

2022-10-28

10月26日,字节跳动宣布开源BitSail数据集成引擎。BitSail意为“数据航行”,可支持二十余种异构数据源间的数据同步,提供离线、实时、全量、增量场景下的全域数据集成解决方案,从而打通困扰企业数字化转型的“数据孤岛”

2025-05-10

字节跳动宣布正式开源其全新研发的社区驱动深度研究框架 DeerFlow。作为一款基于LangChain和LangGraph框架构建的智能研究助手,DeerFlow 深度整合了语言模型与网络搜索、爬虫、Python代码执行等专业工具。 DeerFlow旨在通过AI技术提

2025-05-15

字节跳动正式开源了全新图像定制框架DreamO。该框架集成了图像换装、换脸、造型调整、风格迁移以及多主体组合等多种功能,旨在通过单一模型完成各种定制化任务。 https://github.com/bytedance/DreamO DreamO基于DiT(Diffusion Transform

2023-03-10

3月7日,由字节跳动主办,英特尔、OCP-OSF(Open System Firmware)、OSFF(Open System Firmware Foundation) 社区联合举办的“云固件交流沙龙”在北京召开。会上,字节跳动正式发布了新一代云固件 Cloud Firmware 2.0,这是首次在 X86 服务器中产品化

2025-05-24

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2

2023-04-27

为 Primus 解决的问题。   日均作业百万核的字节跳动实践 经过字节跳动在不断实践中调整打磨的 Primus,拥有以下能力支撑业务需求: 自研训练框架:目前除了业界开源的 Tensorflow、Pytorch,为了满足用户的

2023-03-25

Katalyst 是字节跳动对多年大规模业务云原生化场景中资源管理能力的抽象和总结,我们期望通过 Katalyst 的开源直接或间接的帮助用户做好资源管理,实现降本增效。 当下互联网应用以天为单位,在线业务的资源使用情况往

2022-10-20

近日,CNCF 发布了最新版本的云原生全景图。字节跳动多租户网关项目 KubeZoo 被收录,在 Provisioning-Automation & Configuration 领域占有一席之地。这意味着 KubeZoo 正式成为 CNCF 认可的构建云原生最佳实践中的一环。 Landscape

2024-06-26

有消息称字节跳动为削减采购成本并确保高端 AI 芯片供应稳定,与美国博通(Broadcom)合作开发先进AI处理器。针对该消息,字节跳动方面对第一财经记者回应称:消息不实。 据媒体报道,字节跳动与博通合作开发的处理器为

2023-03-12

字节跳动开源了一款采用 Rust 开发的前端模块打包工具:Rspack(读音为/'ɑrspæk/)。 据介绍,Rspack 是一个基于 Rust 的高性能构建引擎,具备与 Webpack 生态系统的互操作性,可以被 Webpack 项目低成本集成,并提供更好的构建性

2024-06-25

字节跳动正在与美国芯片设计公司博通公司(Broadcom)合作开发一款先进的人工智能处理器,此举将有助于TikTok的所有者在中美关系紧张之际确保高端芯片的充足供应。 消息人士补充说,5纳米芯片是一种定制产品,被称为特

2024-10-21

近日,有消息称字节跳动发生大模型训练被实习生“投毒”事件。 据悉,该事件发生在字节跳动商业化团队,因实习生田某某对团队资源分配不满,利用HF(huggingface)的漏洞,通过共享模型注入破坏代码,导致团队模型训练成

2025-05-30

5月28日,根据蓝鲸新闻的独家报道,字节跳动安全与风控部门发布邮件称,出于对防范数据泄露风险的考虑,自6月30日起,内部分批次禁用第三方AI开发软件,包括AI编程工具Cursor、Windsurf等,将字节旗下编程助手Trae作为替代方