红帽公司宣布推出红帽AI推理服务器(Red Hat AI Inference Server),由vLLM驱动,并通过Neural Magic技术进一步增强,可在混合云环境中提供速度更快、性能更优且成本效益更高的AI推理。
公告称,红帽AI推理服务器是一款专为高性能设计的开放推理解决方案,配备先进的模型压缩和优化工具。将vLLM的前沿创新整合进自身的企业级能力中,可以作为独立的容器化产品交付,也可以作为RHEL AI和红帽OpenShift AI的一部分提供。
无论在何种部署环境中,红帽AI推理服务器均向用户提供经过加固且具备支持的vLLM发行版,并包含以下功能:
- 智能LLM压缩工具,可大幅缩减基础AI模型与微调AI模型大小,在保持甚至可能进一步提升模型准确性的同时,最小化计算资源消耗。
- 优化的模型存储库,托管在红帽AI组织的Hugging Face中,提供对经过验证和优化的前沿AI模型集合的即时访问,这些模型已准备好用于推理部署,可助力效率提升2-4倍,同时不影响模型准确性。
- 红帽的企业支持,以及在将社区项目带入生产环境方面数十年的专业经验。
- 第三方支持,实现更大的部署灵活性,支持红帽AI推理服务器在非红帽Linux和Kubernetes平台上部署,具体遵循红帽第三方支持政策。
红帽AI业务部门副总裁兼总经理Joe Fernandes表示,“推理是生成式AI的真正价值所在,即在用户进行交互时,特定模型会迅速给出准确回复,但这必须以高效和具有成本效益的方式实现。红帽AI推理服务器旨在满足大规模高性能、快速响应的推理需求,同时保持低资源需求,提供一个通用推理层,支持任意模型在任意环境中的任意加速器上运行。”