Ollama 推出了名为“Turbo”的付费服务,旨在解决本地运行超大模型的性能瓶颈,让用户在数据中心级的硬件上运行大型开源模型,服务月费为 20 美元。
Ollama “Turbo”适用场景:
-
本地显卡显存不足,无法加载 120B 级别模型
-
需要快速原型验证、批量推理或高并发调用
-
希望保持本地环境简洁,同时获得接近数据中心的性能
据介绍,Ollama “Turbo”服务主要解决新模型体积过大、在普通 GPU 上难以运行或运行缓慢的问题。通过将模型运行负载转移到云端,用户可以释放本地计算机(Mac, Windows, Linux)的性能。在预览阶段,Turbo 支持 gpt-oss-20b 和 gpt-oss-120b 模型。
该服务与 Ollama 的 CLI、API 以及 JavaScript/Python 库完全兼容。Ollama 承诺不会记录或保留通过 Turbo 模式进行的任何查询,所有硬件均位于美国。