Alluxio AI 全新产品发布:无缝对接低成本对象存储 AI 训练解决方案


【源创会预告】1024 程序员节(的前两天),相约开源PHP办公室,我们一起聊 AI!>>>

(2023 年 10 月 19 日,北京)Alluxio 作为一家承载各类数据驱动型工作负载的数据平台公司,现推出全新的 Alluxio Enterprise AI 高性能数据平台, 旨在满足人工智能 (AI) 和机器学习 (ML) 负载对于企业数据基础设施不断增长的需求。 Alluxio Enterprise AI 平台可综合优化企业 AI 和分析基础设施的性能、数据可访问性、可扩展性和成本效益,助力生成式 AI、计算机视觉、自然语言处理、大语言模型和高性能数据分析等下一代数据密集型应用的发展。

为保持竞争力并在竞争中脱颖而出,各家企业都在全力推进数据和 AI 基础设施的现代化。在此过程中,企业家们也意识到传统的数据基础设施已经无法匹配下一代数据密集型 AI 负载的需求。在 AI 项目推进中经常遭遇的各类挑战,诸如性能低下、数据可访问性差、GPU 稀缺、数据工程复杂以及资源未充分利用等,都严重妨碍了企业获取数据价值。 Gartner® 研究称,“可操作 AI 的价值在于能够在企业的各种环境下进行快速开发、部署、调整和维护。考虑到工程复杂性和更快的市场响应需求,开发较为灵活的 AI 工程数据流,构建能够在生产中进行自适应的 AI 模型均至关重要” ,“到 2026 年,采用 AI 工程来构建和管理自适应 AI 系统的企业,将在 AI 模型可操作性方面至少超越同行 25%。”

Alluxio 创始人兼 CEO 李浩源表示:“Alluxio 用最先进的大数据和 Al 平台为全球头部企业客户赋能,今天我们又向前迈出了一大步”, “Alluxio Enterprise AI 为客户提供高效的 AI 解决方案,帮助企业加速 AI 工作负载并最大限度地获取数据价值。未来的企业领导者将知道如何利用变革性 AI 来推进数据驱动,通过最新技术来构建和维护 AI 基础设施,实现超高性能、无缝访问和便捷管理。”

此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI 和 Alluxio Enterprise Data,全面满足分析和 AI 的多样化需求。Alluxio Enterprise AI 作为一款全新产品,建立在 Alluxio 企业版多年积累的分布式系统经验上,采用了针对 AI/ML 负载优化的新架构。 Alluxio Enterprise Data 是 Alluxio 企业版大数据方向的下一代版本(与 Alluxio Enterprise AI 平行),并将继续成为专注分析负载企业的理想选择。

加速端到端机器学习工作流

Alluxio Enterprise AI 使得企业的 AI 基础设施能够在现有数据湖上实现高性能运行、无缝数据访问、可扩展且经济高效。它能帮助数据和 AI 领域的领导者和从业者实现 AI 项目的四个关键目标:

  1. 高性能模型训练和部署,快速产生业务成效;
  2. 跨区域和跨云负载可无缝访问数据;
  3. 可无限扩展,已经互联网巨头内部严格测试;
  4. 无需使用昂贵的专用存储,在现有技术栈上即可部署,确保投资回报最大化。

企业使用 Alluxio Enterprise AI 后,预期训练速度可比使用提供商业服务的对象存储快达 20 倍,模型服务速度提升高达 10 倍,GPU 利用率达 90%以上,AI 基础设施成本节约高达 90%。

Alluxio Enterprise AI 拥有包含去中心化元数据的分布式系统架构,可消除访问海量小文件(常见于 AI 负载)时的性能瓶颈。无论文件大小或数量如何,都能确保具备超越传统架构的无限扩展性。与传统分析不同,分布式缓存是根据 AI 负载 I/O 模式量身定制的。此外,还支持分析负载以及从数据摄取到 ETL(提取、转换、加载)、预处理、训练和服务的完整机器学习工作流 。

Alluxio Enterprise AI 包含以下重要特性:

  • 性能出色的模型训练和模型服务——Alluxio Enterprise AI 显著提升企业在现有数据湖上的模型训练和服务性能。用于模型训练的强化 API 集可实现优于商业化对象存储 20 倍的性能。对于模型服务,Alluxio 提供超高并发性,在将离线训练集群中的模型用于在线推理时实现高达 10 倍的速度提升。
  • 适合 AI 工作负载 I/O 模式的智能分布式缓存——Alluxio Enterprise AI 的分布式缓存功能使得 AI 引擎能够通过高性能 Alluxio 缓存(而非缓慢的数据湖存储)来读写数据。 Alluxio 的智能缓存策略专门针对 AI 引擎的 I/O 模式量身定制,包括大文件顺序访问、大文件随机访问和海量小文件访问。该优化帮助需要大量数据的 GPU 实现高吞吐和低延迟。训练集群持续从高性能分布式缓存中获取数据,可实现 90%以上的 GPU 利用率。
  • 跨本地和云环境的 AI 工作负载实现无缝数据访问 - Alluxio Enterprise AI 为企业提供了统一的管理界面,可以轻松管理跨不同基础设施环境的 AI 工作负载。该产品为机器学习工作流提供了真实的数据源,从根本上消除了大型企业数据湖孤岛的瓶颈。通过 Alluxio Enterprise AI 这一标准数据访问层,企业可以在不同业务部门和地理位置之间实现数据的无缝共享。
  • 经过大规模严格测试的全新分布式系统架构- Alluxio Enterprise AI 平台构建在创新的去中心化架构 DORA(去中心化对象存储库架构)之上。该架构为 AI 工作负载提供了无限扩展的基础,允许 AI 平台通过包括 Amazon S3 在内的商业化对象存储处理多达 1000 亿个对象。该新架构借助 Alluxio 在分布式系统方面的成熟专业知识,解决了系统可扩展性、元数据管理、高可用性和性能方面不断增长的挑战。

Enterprise Strategy Group 分析师 Mike Leone 表示:“随着组织在整个业务范围内扩展 AI 的应用,优化下一代工作负载过程中的性能、成本和 GPU 利用率变得至关重要” ,“Alluxio 拥有极具优势的产品,能真正帮助数据和 AI 团队实现更高的性能、无缝的数据访问,以及模型训练和模型服务的便捷管理。”

“我们与 Alluxio 合作密切,Allxuio 平台对我们的数据基础设施至关重要,”Aunalytics 分析云工程总监 Rob Collins 表示, “Aunalytics 对于 Alluxio 新推出的针对企业 AI 的分布式系统十分期待,并看好新产品在 AI 行业的巨大潜力。”

“公司内部训练的大语言模型为我们的问答应用和推荐引擎提供支持,极大地增强了用户体验和参与度”,知乎数据平台团队软件工程师胡梦宇表示, “在我们的 AI 基础设施中,Alluxio 处于核心地位。在使用 Alluxio 作为数据访问层后,我们的模型训练性能提升了 3 倍,部署性能提升了 10 倍,GPU 利用率翻倍。Alluxio 的 Enterprise AI 平台采用全新的 DORA 架构,能支持访问海量小文件,对此我们十分期待。在 AI 浪潮即将到来的时刻,Alluxio 新产品让我们在支持 AI 应用方面更有信心。”

在机器学习工作流中部署 Alluxio

Gartner 研究显示,数据可访问性和数据量/复杂性是组织应用 AI 技术中遇到的三大难题之一。 Alluxio Enterprise AI 可以添加到由 AI 计算引擎和数据湖存储组成的已有 AI 基础设施中。 Alluxio 位于计算和存储中间,可以在机器学习工作流中跨模型训练和模型服务工作,从而实现最大速度和最优成本。例如,将 PyTorch 作为训练和服务引擎, Amazon S3 为现有数据湖:

  • 模型训练:当用户训练模型时,PyTorch 数据加载器从虚拟本地路径/mnt/alluxio_fuse/training_datasets 加载数据集。数据加载器不会直接从 S3 加载数据,而是从 Alluxio 缓存加载。在训练过程中,缓存的数据集将在多个 epoch 中使用,因此整个训练速度不再受制于访问 S3 而产生的瓶颈。也就是说,Alluxio 通过缩短数据加载来加速训练,消除 GPU 空闲等待时间,提高 GPU 利用率。模型训练完成后,PyTorch 通过 Alluxio 将模型文件写入 S3。
  • 模型服务:最新训练的模型需要部署到推理集群。多个 TorchServe 实例同时从 S3 并发读取模型文件。Alluxio 会缓存这些来自 S3 的最新模型文件,并以低延迟提供给推理集群。因此,最新模型一旦可用时,下游的 AI 应用即可将其用于推理。

平台与现有系统集成

要将 Alluxio 与现有平台集成,用户可以在计算引擎和存储系统之间部署 Alluxio 集群。在计算引擎侧,Alluxio 可与 PyTorch、Apache Spark、TensorFlow 和 Ray 等流行的机器学习框架无缝集成。企业可以通过 REST API、POSIX API 或 S3 API 将 Alluxio 与这些计算框架集成。

在存储侧,Alluxio 可连接位于任何位置(本地、云端或两者兼有)的各类文件系统或对象存储。支持的存储系统包括 OSS、COS、BOS、OBS、Amazon S3、Google GCS、Azure Blob Storage、MinIO、Ceph、HDFS 等。

Alluxio 可在本地和云端、物理机或容器化环境中运行。支持的云平台包括阿里云、腾讯云、百度云、华为云、AWS、GCP、Azure Cloud 等。

下载资源

Alluxio Enterprise AI 下载链接:https://www.alluxio.io/download/

AI Infra Day

在美西时间 10 月 25 日的 AI Infra Day 上,Alluxio 将首次公开展示其最新发布的 Alluxio Enterprise AI 平台。AI Infra Day 是面向开发者的线上活动,主要探讨构建高性能、可扩展且经济高效的 AI 基础设施中的挑战及各种方案。特邀嘉宾包括 Wanchao Liang(Meta )、 Sally (Mihyoung) Lee(Uber) 和范斌(Alluxio)。活动现已开放报名:https://www.alluxio.io/ai-infra-day-2023/。

关于 Alluxio

Alluxio 是全球领先的针对分析和 AI 的高性能数据平台提供商,可加速企业 AI 产品价值变现,并最大化基础设施的投资回报率。Alluxio 数据平台位于计算与存储系统之间,能够在数据工作流的各个阶段为数据平台上的工作负载提供统一视图。无论数据位于何处,该平台均可提供高性能的数据访问,简化数据工程,提高 GPU 利用率,并降低云计算和存储成本。企业无需使用专用存储,即可大幅加速模型训练和模型服务,并在现有数据湖上构建 AI 基础设施。

Alluxio 在头部投资者的支持下, 为全球科技、互联网、金融和电信企业提供服务,目前全球排名前 10 的互联网公司中有 9 家在使用 Alluxio。了解更多信息,请访问  http://www.alluxio.com.cn

相關推薦

2023-03-01

一代云原生大数据底座,旨在提供一套整体的、标准化的解决方案,使企业快速、高效应用数据存储、计算、数仓建模和元数据治理服务,从而在云原生环境下构建和管理高可靠、高性能、可扩展和安全的数据基础设施。同时,

2023-12-02

致。「天工SkyAgents」正是为了解决这一痛点而研发的一款产品。 「天工SkyAgents」通过将Agent-to-Agent,Human-to-Agent的交互模式集成在高度模块化的大语言模型构件中,实现完全无代码化操作,并通过简单直观的图形界面进行任务设

2023-06-07

,万千应用正在升级或重构,Yao 提供了一个开箱即用的解决方案,可以快速开发具备 AIGC 能力的应用。 新特性介绍 开箱即用的 AI 助手 AI 助手将成为新一代企业应用的标配,更多功能将通过聊天会话的方式,呈现给用户

2023-08-17

者生态系统 随着 Redis 7.2 的发布,为 Redis 客户端提供了全新的指导和支持。其目前正在与五个客户端库(Jedis (Java)、node-redis (NodeJS)、redis-py (Python)、NRedisStack (.Net) 和 Go-Redis (Go))的社区维护人员直接合作,建立文档、用户界面

2023-11-18

为 πDataCS 首款计算引擎,PieCloudDB Database 再度升级,推出全新社区版本。 目前,PieCloudDB 云原生虚拟数仓全面支持 πDataCS 云上云版、社区版、企业版及一体机多个产品版本,提供公有云、私有云以及裸硬件三种部署方式,满足

2023-07-15

线上。滔搏运动首席架构师洪亮介绍了 MySQL、Oracle 传统解决方案面临的挑战,并分享了其零售系统从集中式单库向分布式数据库演进的历程。通过引入 TiDB ,滔搏运动解决了聚合库分析时效性差、无法扩展等问题。目前,滔搏

2023-07-08

、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参

2023-07-05

们的愿景离现实更进一步! 盲测性能 10 倍以上提升! 全新的查询优化器 高性能是 Apache Doris 不断追求的目标。过去一年在 Clickbench、TPC-H 等公开测试数据集上的优异表现,已经证明了其在执行层以及算子优化方面做到了业界

2022-12-22

开发及运营微服务的门槛。北极星为服务治理提供一站式解决方案,覆盖服务注册中心、服务网格和配置中心的功能。用户只需要部署一套北极星,即可在任意的基础设施上,完整的使用北极星提供的路由灰度、熔断降级、限流

2023-10-26

推出生意助手Smart Assistant,利用AI技术提供外贸商家更优解决方案,包括智能优化商品信息和智能分析市场。📈 这款工具依托了阿里巴巴国际站的24年外贸实践经验,旨在提高运营效率和帮助商家快速成交。🌐 阿里巴巴国际站

2023-10-14

集成到vSphere私有云环境中。  多数据中心灾难恢复解决方案: 作为多数据中心灾难恢复解决方案的一部分,数据通过事务日志归档进行复制,从而实现比 Greenplum 以前版本更高效、更低的恢复点目标(RPO)和恢复时间目

2023-07-13

外部上千个项目,是一个千锤百炼、稳定可靠的前端开发解决方案。 核心亮点: 支持跨端、跨框架:采用Renderless无渲染组件设计架构,将组件逻辑抽离成框架无关的纯函数,针对不同框架增加适配层,实现跨端、跨框架、

2022-09-06

内部支持 10 多个 BU 的业务,同时在阿里云上提供了 NLP 解决方案和 ModelHub 模型帮助用户解决业务问题,也提供用户自定义模型服务方便用户打造自研模型。在经过内部业务打磨之后,我们将EasyNLP 推向开源社区,希望能够服务

2023-09-14

幕,40+专场活动展示了腾讯最新的前沿技术、核心产品、解决方案。 腾讯云消息队列 RocketMQ 5.x 系列商业化产品作为 TDMQ 产品家族的新成员在本次大会上重磅发布。 TDMQ RocketMQ 版是一款分布式高可用的消息队列服务,兼容 Ap