英伟达最新研究:SLM(小型语言模型)才是 Agentic AI 的未来


英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文,提出了一个极具颠覆性的观点:SLM(小型语言模型)才是智能代理(Agentic AI)的未来。

https://arxiv.org/pdf/2506.02153

论文核心观点总结:

  1. 能力与需求匹配:当前主流的 AI 代理系统(如 AutoGPT、Open Interpreter 等)普遍采用 大型语言模型(LLM) 作为“大脑”,但这些代理的任务场景往往高度结构化、重复性强。
    英伟达指出,7B 级别的 SLM 在代理任务上的表现已接近 70B+ 的 LLM,而资源消耗却低得多。

  2. 经济性与可持续性:使用 LLM 构建代理系统的成本是 SLM 的 10-30 倍,且能耗巨大。SLM 的轻量级特性使其更适合边缘设备、本地部署,推动 AI 从“展示品”走向“生产力工具”。

  3. 系统架构优化:论文提出一种 “混合型代理架构”,即由多个小型专用模型(SLM)分工协作,必要时再调用 LLM 处理复杂任务,避免“杀鸡用牛刀”的资源浪费。

研究人员在文中表示,与业界普遍追捧的大型语言模型(LLMs)相比,SLMs 不仅在特定任务上已具备足够的处理能力,其固有的经济性和适用性也更为出色,为构建高效、可持续的 AI Agent 奠定了基础。

而据研究团队透露,尽管 LLMs 在处理通用和复杂任务上取得了突破,但此类模型在许多 Agent 的专用场景中存在明显的资源冗余问题,未能达到理想的成本效益标准。

而通过将重心转向 SLMs,研究者发现模型在执行重复性、专业化的任务时表现却更加高效,并极大地降低了运算和部署成本。

论文作者强调,经济性是推动 AI 从展示品迈向生产力工具必不可少的因素,而 AI Agent 的规模化应用依赖于更精细的成本与效能的平衡。

此外,该论文还提到,从 LLM 到 SLM 的转变背后,是整个行业对 AI 资源有效利用的战略性思考。提出这一观点不仅是为了推动技术路线的演进,更旨在确保整个行业对 AI 发展的经济现实有更清醒的认识,帮助我们在性能和成本之间找到最佳平衡点。


相關推薦

2025-03-26

英特尔首席执行官帕特・盖尔辛格(Pat Gelsinger)近日在英伟达2025年 GPU 技术大会的《Acquired》播客中表示,英伟达的人工智能(AI)图形处理器(GPU)定价策略过高,难以支持大规模的 AI 推理任务。盖尔辛格指出,推理是部署 AI 模型

2025-07-22

英伟达发布了 Audio Flamingo 3 (AF3),一个完全开源的大型音频-语言模型 (LALM),在超过 20 个音频理解和推理基准测试中达到最新最优性能。 该模型旨在推动音频、语音和音乐领域的 AI 研究,但仅限用于非商业研究目的,并依据&n

2023-11-10

据《科创板日报》报道,产业链人士称英伟达现已开发出针对中国区的最新改良版 AI 芯片:HGX H20、L20 PCle和 L2 PCle。 知情人士称,最新三款芯片是由 H100 改良而来,英伟达最快或将于本月 16 号之后公布,国内厂商最快将在这

2025-08-13

据英伟达官方消息,英伟达在技术领域再推新进展。其推出的 NVIDIA Cosmos 平台,整合前沿生成式世界基础模型(WFM)、先进分词器、护栏以及高效数据处理和管理工作流,旨在加速物理 AI 开发。该平台的世界基础模型经 2000 万

2025-06-13

北京时间6月12日,英伟达CEO黄仁勋在法国巴黎召开的VivaTech2025上表示,对量子计算越来越看好。   “量子计算正迎来拐点,我们即将能够在一些有趣的领域应用量子计算。”黄仁勋在在本次演讲中表示,英伟达会以多

2024-07-31

在美国丹佛举行的第51届SIGGRAPH图形大会上,英伟达创始人 CEO 黄仁勋和 Meta 创始人 CEO 马克·扎克伯格举行炉边谈话,讨论了讨论了开源 AI 和 AI 助手的未来。 黄仁勋称赞了Meta的开源大模型,他与扎克伯格都同意应坚持大模型

2025-05-20

的科研深度与前沿探索。 问:关于芯片,外界普遍认为英伟达几乎垄断了AI市场。谷歌自研的TPU是否能完全替代英伟达GPU? 皮查伊:我们和英伟达的合作非常紧密,Gemini的大量推理任务仍运行在GPU上,我们也为客户提供多种

2025-07-30

发布了 Llama-3.3-Nemotron-Super-49B-v1.5,这是一款专为推理和 Agentic 任务优化的开源模型,在单个 H100 GPU 上实现高吞吐量。 模型介绍 Llama Nemotron Super v1.5 是 Llama-3.3-Nemotron-Super-49B-V1.5 的简称。它是 Llama-3.3-Nemotron-Super-49B-V1 的升级版

2025-04-08

模型因其高效推理能力和低成本训练受到全球关注,也对英伟达等芯片企业形成了前所未有的冲击。 英伟达公司年度开发者大会于3月17日至21日在美国加利福尼亚州圣何塞召开。公司首席执行官黄仁勋在主题演讲中说,随着AI行

2023-10-19

(的前两天),相约开源PHP办公室,我们一起聊 AI!>>> 英伟达发布了 Windows 版本的 TensorRT-LLM 库,称其将大模型在 RTX 上的运行速度提升 4 倍。 GeForce RTX 和 NVIDIA RTX GPU 配备了名为 Tensor Core 的专用 AI 处理器,正在为超过 1 亿

2022-07-16

y 超级计算机对 Bloom 进行了训练。这台超级计算机配备了英伟达专为 AI 优化的显卡,其最高速度超过 28 petaflops,其中 1 petaflop 等于每秒 1 千万亿次的计算量。 在未来,该研究小组计划开发一个具有更先进功能的新版 Bloom。BigSc

2025-04-09

在近期的 GTC 2025 大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。 CUDA 架构师 Stephen Jones 在 GTC 技术演讲中对此表示,“我们一直在努力让加速计算与 Python 深度融合,使其成为 CUDA 技术栈中的‘

2025-08-15

英伟达发布了一个包含300万高质量样本的视觉语言模型训练数据集,以支持OCR、VQA和图像字幕生成等多种应用。 数据集构成 67.0% 视觉问答(VQA)样本 28.4% OCR 样本 4.6% 图像描述(Captioning)样本 主要用途 文档理解

2025-04-17

4月16日,英伟达向美国证监会(SEC)提交一份正式文件。 文件显示,自4月9日起,美国政府已通知英伟达,公司“对华特供版”AI芯片产品H20 GPU(人工智能加速计算处理器)出口至中国及D:5国家(包括中国大陆及香港、澳门等