
NVIDIA 在 2026 年 6 月 12 日公布 Artificial Analysis 的 AgentPerf 結果。重點不是單純「新 GPU 更快」,而是 agentic AI 開始有一套更接近真實工作流的基建 benchmark。對準備大規模部署 AI agents 的企業來說,這比單次 LLM 回應速度更有參考價值。
NVIDIA 指出,agentic AI workload 與一般聊天式 AI 很不同。一次 chat completion 像短跑,一個大型語言模型 call 產生一次回應;agent 則像接力賽,會把目標拆成多個步驟,反覆觀察、推理、使用工具、再繼續下一步。實際任務可能包含數十到數百次 LLM calls,再加上編譯、程式執行、資料庫查詢和 web browsing 等工具延遲。
因此,傳統 inference benchmark 不一定能反映 agent 在 production 裏的壓力。企業真正關心的是 agent 是否 responsive、同時能跑多少個 agentic tasks、以及每一美元和每一 watt 可以換到多少有用工作量。AgentPerf 正是嘗試量度這一層。
在第一輪結果中,NVIDIA GB300 NVL72 在 DeepSeek V4 Pro 的 agentic workload 上取得領先表現。NVIDIA 表示,相比 HGX H200 系統,GB300 NVL72 每 megawatt 可運行的 agent 數量最高可達 20 倍。這個差距來自 rack-scale 系統設計、72 GPUs 連接、CUDA kernels、TensorRT LLM,以及對 MoE 模型並行推理的全棧優化。
AgentPerf 的方法亦值得留意。它以真實 coding agent trajectories 建立測試:agent 會收到任務、讀文件、寫和改代碼、執行命令,再根據結果迭代。工具 calls 不會真的執行,而是用代表性的 CPU processing time 模擬,令結果主要反映 accelerated computing performance。
這類 benchmark 對企業採購 AI 基建有實際意義。當 agent 由 demo 變成日常工作流,成本瓶頸未必只是模型價格,而是同一套基建能否承受大量長上下文、多工具、多步驟任務。每個 accelerator、每個 rack、每 megawatt 能支援多少 concurrent agents,會直接影響 AI automation 的經濟性。
整體而言,NVIDIA 這次 AgentPerf 訊號說明 agentic AI 正進入基建競爭階段。模型能力仍然重要,但真正落地時,企業要同時考慮 latency、吞吐量、能源效率、工具延遲和系統可擴展性。AI agent 越像工作流程,基建 benchmark 就越不能只看一次回答有多快。



