红帽 AI 推理服务器正式发布


红帽公司宣布推出红帽AI推理服务器(Red Hat AI Inference Server),由vLLM驱动,并通过Neural Magic技术进一步增强,可在混合云环境中提供速度更快、性能更优且成本效益更高的AI推理。

公告称,红帽AI推理服务器是一款专为高性能设计的开放推理解决方案,配备先进的模型压缩和优化工具。将vLLM的前沿创新整合进自身的企业级能力中,可以作为独立的容器化产品交付,也可以作为RHEL AI和红帽OpenShift AI的一部分提供。

无论在何种部署环境中,红帽AI推理服务器均向用户提供经过加固且具备支持的vLLM发行版,并包含以下功能:

  • 智能LLM压缩工具,可大幅缩减基础AI模型与微调AI模型大小,在保持甚至可能进一步提升模型准确性的同时,最小化计算资源消耗。
  • 优化的模型存储库,托管在红帽AI组织的Hugging Face中,提供对经过验证和优化的前沿AI模型集合的即时访问,这些模型已准备好用于推理部署,可助力效率提升2-4倍,同时不影响模型准确性。
  • 红帽的企业支持,以及在将社区项目带入生产环境方面数十年的专业经验。
  • 第三方支持,实现更大的部署灵活性,支持红帽AI推理服务器在非红帽Linux和Kubernetes平台上部署,具体遵循红帽第三方支持政策。

红帽AI业务部门副总裁兼总经理Joe Fernandes表示,“推理是生成式AI的真正价值所在,即在用户进行交互时,特定模型会迅速给出准确回复,但这必须以高效和具有成本效益的方式实现。红帽AI推理服务器旨在满足大规模高性能、快速响应的推理需求,同时保持低资源需求,提供一个通用推理层,支持任意模型在任意环境中的任意加速器上运行。” 


相關推薦

2024-08-16

国内首个 BMC 开源社区。此外中国电子还积极参与 Linux、红帽等国际开源社区建设,以开放共赢姿态成为全球开源生态的一个重要力量。 开放原子开源基金会理事长程晓明指出了开源的重要地位和作用。他表示,开源是新一

2022-04-12

红帽上个月正式发布了 OpenShift 4.10,新版本使用 CRI-O 1.23 运行时和 Kubernetes 1.23、增加了对 AI 的支持以及 NVIDIA AI Enterprise 2.0 认证、使用更智能的 OpenShift 控制台、支持 Arm 架构和更多的公私有云平台、沙盒容器 (OpenShift Sandboxed

2025-06-05

觉模型的卷积层部署在网关设备,而全连接层下沉至边缘服务器。这种混合精度推理机制使得汽车焊接质量检测的端到端延迟从传统方案的800ms降至惊人的93ms,同时保持99.2%的缺陷识别准确率。 三层异构架构的算力编排奥秘 Neb

2025-04-08

伦理合规,依然是学界和决策者需深度思考的问题。 AI推理时代即将到来? 今年年初,中国AI公司DeepSeek模型的横空出世在AI领域掀起巨浪,R1模型因其高效推理能力和低成本训练受到全球关注,也对英伟达等芯片企业形成了前

2025-04-30

B 为 Mixture-of-Experts(MoE)模型,覆盖从轻量部署到高性能推理的多元应用需求,助力开发者轻松拥抱新一代大模型能力。 在线体验:https://ai.gitee.com/serverless-api?model=Qwen3-30B-A3B 全面升级的 Qwen3 模型性能表现 1. 基准测试结果

2024-09-26

模型社区提供支持,提供海量模型/数据托管能力、在线推理体验服务,还支持接入内容审核、病毒扫描等服务,可以帮助平台伙伴快速构建社区,对外提供海量模型/数据集托管、在线推理体验服务。同时,openMind应用使能工具

2025-04-09

nference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - ht

2023-10-20

without Red Hat code",介绍了 AlmaLinux 发行版如何在没有任何红帽代码的情况下,仍保持兼容 RHEL。 今年 6 月份,红帽执行新政策限制了 RHEL 的代码访问,此举导致基于 RHEL 的衍生发行版(比如 AlmaLinux,Rocky Linux,Oracle Linux 等

2023-06-25

EL)的克隆版本,由 CloudLinux 公司发起创建。AlmaLinux 是在红帽决定停止开发 CentOS(非 Stream 版本)之后才建立的,它的开发始于 2020 年 12 月,第一个正式版本在 2021 年 3 月发布。 AlmaLinux 采用 RHEL 8 作为其基础,AlmaLinux 的源代

2025-03-27

Mureka O1 模型与 Mureka V6 模型。“Mureka O1作为全球首款音乐推理大模型,性能超越Suno、模型登顶SOTA,中国科技创新再次在AI音乐领域领跑全球。” 2024年4月,昆仑万维发布了第一代音乐生成模型:Mureka V1(SkyMusic)。Mureka V6是当

2025-04-05

AI CEO Sam Altman 正式宣布,将在未来几个月内推出一款具备推理能力的强大开放权重语言模型,并期待与开发者共同探索如何最大化其潜力。 据 Altman 透露,这是自 GPT-2 以来 OpenAI 首次计划发布开放权重语言模型。他坦言,虽然

2025-04-01

AutoGLM沉思」的技术演进路径包括:GLM-4基座模型 → GLM-Z1推理模型 → GLM-Z1-Rumination沉思模型 → AutoGLM模型。其中核心链路的模型和技术,智谱将于4月14日正式开源。 「AutoGLM沉思」体现了智谱对AI Agent的核心理解:让机器不仅能

2024-10-24

nference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - ht

2025-05-13

全异步的方式进行强化学习训练。 INTELLECT-2 具备前沿的推理性能,支持异构计算节点,并允许无需授权的贡献,能对 32B 参数模型进行去中心化 RL 训练: prime-RL:新推出的开源库,用于完全异步的去中心化RL,基于具备容错