Ray 2.2 发布,机器学习框架


Ray 是一个统一的框架,用于扩展人工智能和 Python 应用程序。Ray 由一个核心的分布式运行时和一个用于加速 ML 工作负载的工具包(Ray AIR)组成。

Ray 2.2 正式发布,该版本增强了可观察性、提高了数据密集型人工智能应用的性能、提高了稳定性,并为 RLlib 提供了更好的用户体验。

改善整个 Ray 生态的可观察性

Ray Jobs API 现在是 GA。Ray Jobs API 允许你将本地开发的应用程序提交给远程 Ray Cluster 执行,旨在简化打包、部署和管理 Ray 应用程序的体验。

为了观察和衡量 Ray 作业在执行过程中的资源使用情况,Ray 2.2 在 Ray Dashboard 中增加了一些功能,包括可视化 Ray 工作进程的 CPU Flame Graph 和不同内存使用情况的额外指标的功能。

提高数据密集型 AI 应用的性能

在 Ray 2.0版本中,发布了 Ray AI 运行时的测试版。自从测试版发布以来,Ray 团队已经推动了各种性能和可用性的改进,特别是针对数据密集型的 ML 应用。

在这个版本中,Ray 团队集中精力通过避免不必要的数据转换来减少深度学习模型批量预测的延迟和内存占用。Ray 2.2 为基于图像的工作负载的批量推理提供了近 50% 的吞吐性能和 100 倍的 GPU 内存占用率的改善。

此外,Ray 团队加强了对 ML 数据生态的支持,包括但不限于扩大与 Apache Arrow 的版本兼容性,为 Ray Data 提供完整的 TensorFlow TF 记录读/写支持,以及 TF 和 Torch 数据集的新连接器方法( from_tf, from_torch)。

针对内存外崩溃的稳定性改进

内存不足(OOM)是有害的错误,它不仅扰乱了长期运行的 Ray 应用程序,而且还降低了 Ray 集群中的其他服务。在这个版本中,默认启用了 Ray Out-Of-Memory(OOM)监控器。这个组件定期检查内存使用情况,该监控器使用内存使用统计数据来防御性地释放内存,防止 Ray 完全崩溃。

对于数据密集型的工作负载,Ray 团队听到许多用户报告说,当文件太大,Ray Data 会出现内存不足或性能问题。因此 Ray 2.2 默认启用了动态块分割,这将通过避免在内存中保留过多的数据来解决上述问题。

RLlib API 的增强

RLlib 团队一直在为 RLlib 做一些基本的用户体验改进。Ray 2.2 已经引入了一个增强的 RLlib 命令行界面(CLI),允许自动下载示例配置文件、基于 Python 的配置文件,训练和评估运行之间更好的互操作性。

未来计划

计划在后续的 Ray 版本中进行大量令人兴奋的改进,重点是加强稳定性,提高性能,扩展与更大的 Python 和 ML 生态的集成,以及为 Ray 作业和集群提供可观察性。

更多详情可查看:https://www.anyscale.com/blog/ray-2-2-improved-developer-experience-performance-and-stability


相關推薦

2022-08-25

推理图的一种新的、更简单的方法,在 2.0 中作为 Beta 版发布。 更多详情可查看:https://github.com/ray-project/ray/releases/tag/ray-2.0.0  

2022-08-11

父 Juergen Schmidhuber 创办的人工智能公司 NNAISENSE 宣布正式发布其 EvoTorch 开源进化算法库。根据介绍,这是同类中的首个开源平台,为工业界提供了一个进化算法包 (evolutionary algorithm,EA);当与机器学习专业知识相结合时,可以在

2023-10-21

施,实现超高性能、无缝访问和便捷管理。” 此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI 和 Alluxio Enterprise Data,全面满足分析和 AI 的多样化需求。Alluxio Enterprise AI 作为一款全新产品,建立

2022-11-01

以及数学一起工作。结果是在 1955 年 11 月,进行了一场机器翻译演示。 除了为第一台机器构建硬件外,她还为 ARC2 和 SEC 机器编写了所有软件,在此过程中发明了她所谓的“Contracted Notation”,后来被称为汇编语言。她还发表了

2023-12-01

微软近日正式发布 ML.NET 3.0,带来了许多新功能和改进。 ML.NET 是一个开源、跨平台的机器学习框架,专为 .NET 开发者设计,可以将自定义的机器学习模型集成到 .NET 应用程序中。 在这个版本中,深度学习方案得到了大幅

2023-09-07

更新内容 消费队列常驻任务增加保持数据库链接逻辑 课程和时间增加标签属性 修正邮箱注册提交按钮不可用问题 去除删除远程COS文件逻辑 优化课程课件资料相关逻辑 修正后台添加问题标签为空报错问题 修正课

2023-11-09

Simple Admin Go 语言分布式后台管理系统 v1.2.2 更新 项目介绍 Simple Admin 是一个开箱即用的分布式微服务后端管理系统,基于go-zero开发,为开发中大型后台提供了丰富的功能,支持三端代码生成。 官方自带多种扩展,助力中小企

2024-03-27

9年积累,沉淀出来的高性能通用通讯服务,支持即时通讯,站内/系统消息,消息中台,物联网通讯,音视频信令,直播弹幕,客服系统,AI通讯,即时社区等场景 特点 📚 完全自研:自研消息数据库,消息分区永久存储,

2023-02-14

Embree 是英特尔开发的高性能光线追踪库,Embree 支持 Linux、macOS 和 Windows 下的 x86 CPU;macOS 下的 ARM CPU;以及 Linux 和 Windows 下的英特尔 GPU。 Embree 通过 SYCL 增加了对 Intel Arc GPU 的支持 Embree 的 SYCL 支持处于测试阶段。目前的功

2023-06-20

了更高的性能与更低的资源消耗。 Cphalcon v5.2.2 正式发布,该版本更新内容如下: 修复了 Encryption\Crypt::checkCipherHashIsAvailable ,以允许正确设置哈希 #16314 从流存储适配器和 Json 序列化程序的 if 语句中删除

2022-05-08

,包含大量微服务相关框架及工具。目前 Kratos v2..2.2 已发布,带来如下改动: feat: 支持 consul 注册表中的非 kratos 实例 #1892 fix: starter parent ctx   #1895 feat(contrib): 添加 eureka 注册表 (#1792)  #1793 feat(log): 仅在 Debu

2023-04-27

项目地址: https://github.com/bytedance/primus 随着机器学习的发展,模型及训练模型所需的数据量越来越大,也都趋向于通过分布式训练实现。而算法工程师通常需要对这些分布式框架涉及到的底层文件存储和调度系统有较深

2024-01-14

Spring Data 2023.1.2 和 2023.0.8 现已发布,附带了依赖项升级、回归修复和选定的改进。 2023.1.2 Spring Data Commons3.2.2-Javadoc-Documentation-Changelog Spring Data JPA3.2.2-Javadoc-Documentation-Changelog Spring Data for Apache Cassandra4.2.2-Javadoc-Documentation-Ch

2022-09-06

EasyNLP 的中文 CLUE/FewCLUE 等的 Benchmark 知识预训练技术: 发布一系列知识预训练模型,致力于提升预训练模型的常识性和知识性 中文预训练模型:发布针对中文的 SOTA 的预训练模型,降低中文预训练技术门槛 多模态预训练: