NVIDIA 在 2026 年 6 月 12 日公布 Artificial Analysis 的 AgentPerf 结果。重点不是单纯「新 GPU 更快」，而是 agentic AI 开始有一套更接近真实工作流的基建 benchmark。对准备大规模部署 AI agents 的企业来说，这比单次 LLM 回应速度更有参考价值。

NVIDIA 指出，agentic AI workload 与一般聊天式 AI 很不同。一次 chat completion 像短跑，一个大型语言模型 call 产生一次回应；agent 则像接力赛，会把目标拆成多个步骤，反复观察、推理、使用工具、再继续下一步。实际任务可能包含数十到数百次 LLM calls，再加上编译、代码执行、数据库查询和 web browsing 等工具延迟。

因此，传统 inference benchmark 不一定能反映 agent 在 production 里的压力。企业真正关心的是 agent 是否 responsive、同时能跑多少个 agentic tasks、以及每一美元和每一 watt 可以换到多少有用工作量。AgentPerf 正是尝试量度这一层。

在第一轮结果中，NVIDIA GB300 NVL72 在 DeepSeek V4 Pro 的 agentic workload 上取得领先表现。NVIDIA 表示，相比 HGX H200 系统，GB300 NVL72 每 megawatt 可运行的 agent 数量最高可达 20 倍。这个差距来自 rack-scale 系统设计、72 GPUs 连接、CUDA kernels、TensorRT LLM，以及对 MoE 模型并行推理的全栈优化。

AgentPerf 的方法亦值得留意。它以真实 coding agent trajectories 建立测试：agent 会收到任务、读文件、写和改代码、执行命令，再根据结果迭代。工具 calls 不会真的执行，而是用代表性的 CPU processing time 模拟，令结果主要反映 accelerated computing performance。

这类 benchmark 对企业采购 AI 基建有实际意义。当 agent 由 demo 变成日常工作流，成本瓶颈未必只是模型价格，而是同一套基建能否承受大量长上下文、多工具、多步骤任务。每个 accelerator、每个 rack、每 megawatt 能支持多少 concurrent agents，会直接影响 AI automation 的经济性。

整体而言，NVIDIA 这次 AgentPerf 讯号说明 agentic AI 正进入基建竞争阶段。模型能力仍然重要，但真正落地时，企业要同时考虑 latency、吞吐量、能源效率、工具延迟和系统可扩展性。AI agent 越像工作流程，基建 benchmark 就越不能只看一次回答有多快。

NVIDIA Blackwell 在 AgentPerf 领先：AI agent 规模化开始有新的基建量度方法

更多 Insights

ChatGPT memory 更新：OpenAI 让长期上下文更自动、也更需要治理

Microsoft Foundry：Build 2026 将 agent 平台推向 build、deploy、operate 三层架构

Qwen3.7-Plus：multimodal agent 开始同时理解画面、操作 GUI 与写 code