Kubeflow v1.7 可以利用开发者的 Python 知识来构建无缝的工作流程,而不需要 Kubernetes CLI 命令,也不需要为每次迭代构建容器镜像。通过多个组件中的新 UI,开发人员可以将配置参数与日志联系起来,这使他们能够快速分析结果。当与 Kubeflow 的 pythonic 工作流程和 Kubernetes 的运行效率相结合时,这些改进可以为模型开发人员节省大量的时间和精力。
Katib
Katib 包括对用户界面和 SDK 的新的改进。新的 Katib 用户界面提供了简化的细粒度配置和日志关联性。此外,还增加了排序和过滤功能,允许对你的许多实验进行更有组织的查看。此外,这些功能最大限度地减少了手动使用低级别的命令来定位和关联日志与 HyperParameter Experiment 配置的必要性。这简化了深入的性能分析和后续的模型参数迭代过程。
在 1.7 中,Katib SDK 提供了新的功能,包括 Tune API 和从 Katib 数据库中检索试验指标的能力。模型开发者或数据科学家可以执行 Tune API 来启动一个 HyperParameter Experiment,而不需要对底层系统(如 Kubernetes、Docker)有任何了解。它可以自动将用户训练脚本转换为 Katib Experiment。
Training operator
Kubeflow 的统一分布式 Training operator 的增强功能包括用于微调资源扩展的配置选项(处理器、内存、存储)。它现在包括对 Pytorch Elastic 工作负载的 HPA 支持,用户可以在 Job Spec 中指定目标指标/利用率。这用于自动扩大/缩小 Pytorch 作业的规模,以满足需求,同时确保用户配置的弹性策略。这些改进大大简化了用户的工作流程,并减少了操作上的繁琐和成本。
Pipelines
在 Kubeflow 1.7 中,Pipelines Working Group 通过最新的 2.0.0-alpha.7 版本继续努力实现 KFP v2。该版本包括以下主要改进:
- 管线作为组件: 管线本身可以作为其他管线的组件使用,就像你在管线中使用任何其他单步组件一样
- Sub-DAG 可视化,允许管道用户深入了解其管线的子图组件
- 错误和漏洞的修复
更多详情可查看:https://github.com/kubeflow/kubeflow/releases/tag/v1.7.0