
NVIDIA 在 2026 年 6 月 12 日公布 Artificial Analysis 的 AgentPerf 结果。重点不是单纯「新 GPU 更快」,而是 agentic AI 开始有一套更接近真实工作流的基建 benchmark。对准备大规模部署 AI agents 的企业来说,这比单次 LLM 回应速度更有参考价值。
NVIDIA 指出,agentic AI workload 与一般聊天式 AI 很不同。一次 chat completion 像短跑,一个大型语言模型 call 产生一次回应;agent 则像接力赛,会把目标拆成多个步骤,反复观察、推理、使用工具、再继续下一步。实际任务可能包含数十到数百次 LLM calls,再加上编译、代码执行、数据库查询和 web browsing 等工具延迟。
因此,传统 inference benchmark 不一定能反映 agent 在 production 里的压力。企业真正关心的是 agent 是否 responsive、同时能跑多少个 agentic tasks、以及每一美元和每一 watt 可以换到多少有用工作量。AgentPerf 正是尝试量度这一层。
在第一轮结果中,NVIDIA GB300 NVL72 在 DeepSeek V4 Pro 的 agentic workload 上取得领先表现。NVIDIA 表示,相比 HGX H200 系统,GB300 NVL72 每 megawatt 可运行的 agent 数量最高可达 20 倍。这个差距来自 rack-scale 系统设计、72 GPUs 连接、CUDA kernels、TensorRT LLM,以及对 MoE 模型并行推理的全栈优化。
AgentPerf 的方法亦值得留意。它以真实 coding agent trajectories 建立测试:agent 会收到任务、读文件、写和改代码、执行命令,再根据结果迭代。工具 calls 不会真的执行,而是用代表性的 CPU processing time 模拟,令结果主要反映 accelerated computing performance。
这类 benchmark 对企业采购 AI 基建有实际意义。当 agent 由 demo 变成日常工作流,成本瓶颈未必只是模型价格,而是同一套基建能否承受大量长上下文、多工具、多步骤任务。每个 accelerator、每个 rack、每 megawatt 能支持多少 concurrent agents,会直接影响 AI automation 的经济性。
整体而言,NVIDIA 这次 AgentPerf 讯号说明 agentic AI 正进入基建竞争阶段。模型能力仍然重要,但真正落地时,企业要同时考虑 latency、吞吐量、能源效率、工具延迟和系统可扩展性。AI agent 越像工作流程,基建 benchmark 就越不能只看一次回答有多快。



