​Volcano 社区 v1.12 版本正式发布


Volcano社区现已正式发布 v1.12 版本 ,新版本聚焦于AI与大数据等前沿场景的核心需求,带来了一系列关键特性与体验优化。

“我们相信,v1.12版本的这些更新将进一步提升任务调度的智能化水平、资源利用效率和系统的整体性能,帮助用户更好地应对AI和大数据时代的挑战。”

亮点一览

  • 网络拓扑感知调度 (Alpha):优化大规模AI训练与推理任务部署,通过感知网络拓扑减少跨交换机通信,提升运行效率。
  • GPU虚拟化方案增强:在原有vCUDA方案基础上,新增对NVIDIA GPU动态MIG切分的支持,为用户提供软件与硬件两种虚拟化选择,实现更灵活、高效的GPU资源共享。
  • DRA支持:增强异构资源管理的灵活性与能力。
  • Volcano Global支持队列容量管理:在多集群环境下,支持对租户队列的资源配额(capability)进行统一限制和管理。
  • 安全性全面增强:从API访问控制到容器运行时权限,实施多维度安全加固,提升系统稳健性。
  • 大规模场景性能优化:通过减少不必要的Webhook调用等手段,有效提升高并发任务处理效率。
  • 增强通用工作负载的Gang调度控制:现已支持通过Annotation为Deployment、StatefulSet等通用工作负载自定义Gang调度所需的最小成员数(minAvailable),提供了更精细的Gang Scheduling调度策略。
  • Job Flow功能增强:提升了内置工作流编排引擎的健壮性与可观测性。
  • 以及更多稳定性与易用性改进。

在接下来的版本迭代中,项目团队计划重点投入以下方向:

  1. 深化网络拓扑感知调度能力:在v1.12 Alpha版本的基础上,将持续演进网络拓扑感知能力。重点包括提供对RoCE网络的自动发现支持、节点标签的智能识别与利用,并向更细粒度的任务级(Task-level)拓扑感知调度迈进。同时,也将积极探索和实现更多高级调度特性,以应对复杂AI训练等场景的极致性能需求。

  2. 引入高级资源管理机制:重点开发和完善作业重调度(Rescheduling)与资源预留(Resource Reservation)功能。这将有助于更灵活地应对集群动态负载变化,保障关键任务的资源确定性,并进一步提升整体集群的资源利用效率。

  3. 增强队列调度灵活性:提供队列级别的调度策略(Queue-level Scheduling Policy)精细化配置能力。用户将能根据不同业务队列的特性、优先级和SLA需求,更灵活地定制其调度行为和资源分配策略。

  4. 深化生态协同与集成:将积极推进与Kubernetes上游社区及其他云原生项目的协作。例如,推动LWS(Leader Worker Set)与Volcano的集成,以便更好地为分布式应用提供Gang Scheduling能力。

  5. 拓展异构硬件支持与合作:加强与硬件生态伙伴的合作,如昇腾(Ascend)的Device Plugin和DRA Driver的适配与优化,以及与主流GPU厂商在DRA Driver上的协作,确保Volcano能高效、稳定地调度和管理各类前沿异构加速器资源。

  6. JobFlow工作流能力提升:持续优化Volcano内置的轻量级工作流引擎JobFlow。计划增强其在复杂作业依赖管理、状态监控、错误处理及用户自定义扩展等方面的能力,为用户提供更强大、更易用的工作流编排解决方案。

  7. 引入Volcano调度模拟器,提升调度透明度与可测试性:为提升调度过程的透明度并简化测试验证,Volcano计划引入调度模拟器。这一工具将允许用户在轻量级环境中,通过灵活配置模拟集群状态(节点、Pod、队列配置等),精准复现Volcano核心调度流程——从队列选择、节点过滤与打分到最终绑定。通过输出详尽的调度日志及可选的性能分析,模拟器将极大地便利开发者测试新特性,帮助用户深入理解和验证Volcano在不同场景下的调度行为,并高效评估各类调度策略的实际影响。


相關推薦

2023-08-23

Volcano 社区 v1.8.0 版本正式发布,此次版本增加了以下新特性: 支持vGPU调度及隔离 支持vGPU和用户自定义资源的抢占能力 新增JobFlow工作流编排引擎 节点负载感知调度与重调度支持多样化的监控系统 优化Volcano对

2022-06-19

Volcano社区v1.6.0版本已正式发布。此次版本增加了弹性作业管理、基于真实负载的动态调度、 基于真实负载的重调度、Volcano Job插件——MPI等多个新特性。 Volcano v1.6.0 关键特性介绍 1.弹性作业调度 v1.6.0版本新增了弹性作业

2023-09-23

务实现,应用一跳入云,实现业务敏捷、高效创新。 2.Volcano特性升级,新能力释放大模型计算潜力 大模型时代,以GPU为核心的算力供给已成为大模型产业发展的关键基础设施,用户对于GPU资源的使用存在资源利用率低、资源

2023-04-27

position 已经被证明是 Crossplane 的一个强大的功能。我们从社区了解到,采用 Composition 的功能集的学习曲线有点陡峭。 在 Crossplane 以前的版本中,有一个具体的问题是,在运行时才会对你的 Composition 中的错误进行反馈,而这些错

2023-11-18

面的一大步。这些更新和改进预期将使Bun在JavaScript开发社区中的作用更为重要,为开发者提供更高效、更可靠的编程体验。

2023-02-22

方法,集成 Omnipay 在线支付。 Sylius 1.12.5 正式发布,该版本更新内容如下: #12752 [ADR] API 中的资源国际化策略 #13044 [维护] 在 UPGRADE-1.9.md 中添加了促销表单主题覆盖 #13313 [Behat] 为禁用的管理员添加场景 #13913 [架构] 确保

2025-05-24

主要更新内容如下: Features and enhancements Chore:将 Go 版本升级至 1.24.3 #105101 Dependencies:将 github.com/openfga/openfga 从 v1.8.6 升级到 v1.8.12 #105368 Dependencies:Unpin 并将 github.com/getkin/kin-openapi 从 v0.126.0 升级至 v0.132.0 #10

2023-01-13

发布了FeatureProbe V1.12.0版本 新功能包括:  1.新增「人群组」板块的新用户引导 2.完成API和UI项目合并 3.完成小程序和JS sdk的优化 4.完成部分页面卡片缩放逻辑的优化 bug修复包括: 1.开关的「发布」按钮点击异常问题 2.中英文

2023-07-06

上运行,从而为 Kubernetes 集群提供网络和安全服务。 此版本的更新内容: 升级 libOpenflow 和 ofnet 版本以修复 PacketIn2 响应解析错误。 #5154 修复 OpenFlow 客户端 modifyFlows 函数中传递错误的 FlowMod 消息,避免出现意

2025-05-08

Bun v1.2.12 已发布。 此版本为bun ./index.html新增了--consoleflag,用于将浏览器控制台日志流式传输到终端。 此外,Bun 的前端开发服务器现在使用更少内存,并改进了 Node.js 兼容性,包括计时器、vm、net、http 的改进,以及 TextDeco

2023-07-02

云版本 官方地址 演示账号:[email protected] 密:Password1! 演示账号:[email protected] 密:Password1! 注:当前版本为 beta 版,不保证数据安全并且随时回滚 更新日志 通用 GET接口资源未找到返回400, Query接口资源

2024-04-08

转功能 优化(Vscode): 优化 setting 配置 更新: 更新系统版本及依赖 Goctls v1.6.33 更新 介绍 Goctls 是一个基于 Go Zero 官方生成工具 Goctl 开发的针对 Simple Admin 适配优化的生成工具。提供强大的代码生成功能,同时集成了许多定

2022-11-03

方法,集成 Omnipay 在线支付。 Sylius 1.12.0 正式发布,该版本更新内容如下: 特性 支持 Symfony 6 [UX][Attribute] 对 Date&DateTime 属性表单类型使用 single_text widget 默认情况下使 URL 安全 [DX] 为 ResetPasswordHandler 添加有用的错误

2024-02-02

Docker 25.0.2 现已发布,具体更新内容如下: 安全 此版本包含以下影响 Docker Engine 及其组件的 CVE 的安全修复程序。 CVE Component Fix version Severity CVE-2024-21626 runc 1.1.12 High, CVSS 8.6 CVE-2024-23651 BuildKit