NVIDIA 在 2026 年 6 月 12 日公布 Artificial Analysis 的 AgentPerf 結果。重點不是單純「新 GPU 更快」，而是 agentic AI 開始有一套更接近真實工作流的基建 benchmark。對準備大規模部署 AI agents 的企業來說，這比單次 LLM 回應速度更有參考價值。

NVIDIA 指出，agentic AI workload 與一般聊天式 AI 很不同。一次 chat completion 像短跑，一個大型語言模型 call 產生一次回應；agent 則像接力賽，會把目標拆成多個步驟，反覆觀察、推理、使用工具、再繼續下一步。實際任務可能包含數十到數百次 LLM calls，再加上編譯、程式執行、資料庫查詢和 web browsing 等工具延遲。

因此，傳統 inference benchmark 不一定能反映 agent 在 production 裏的壓力。企業真正關心的是 agent 是否 responsive、同時能跑多少個 agentic tasks、以及每一美元和每一 watt 可以換到多少有用工作量。AgentPerf 正是嘗試量度這一層。

在第一輪結果中，NVIDIA GB300 NVL72 在 DeepSeek V4 Pro 的 agentic workload 上取得領先表現。NVIDIA 表示，相比 HGX H200 系統，GB300 NVL72 每 megawatt 可運行的 agent 數量最高可達 20 倍。這個差距來自 rack-scale 系統設計、72 GPUs 連接、CUDA kernels、TensorRT LLM，以及對 MoE 模型並行推理的全棧優化。

AgentPerf 的方法亦值得留意。它以真實 coding agent trajectories 建立測試：agent 會收到任務、讀文件、寫和改代碼、執行命令，再根據結果迭代。工具 calls 不會真的執行，而是用代表性的 CPU processing time 模擬，令結果主要反映 accelerated computing performance。

這類 benchmark 對企業採購 AI 基建有實際意義。當 agent 由 demo 變成日常工作流，成本瓶頸未必只是模型價格，而是同一套基建能否承受大量長上下文、多工具、多步驟任務。每個 accelerator、每個 rack、每 megawatt 能支援多少 concurrent agents，會直接影響 AI automation 的經濟性。

整體而言，NVIDIA 這次 AgentPerf 訊號說明 agentic AI 正進入基建競爭階段。模型能力仍然重要，但真正落地時，企業要同時考慮 latency、吞吐量、能源效率、工具延遲和系統可擴展性。AI agent 越像工作流程，基建 benchmark 就越不能只看一次回答有多快。

NVIDIA Blackwell 在 AgentPerf 領先：AI agent 規模化開始有新的基建量度方法

更多 Insights

OpenAI 收購 Ona：Codex 正走向可長時間運作的雲端代理工作區

Claude Fable 5 進入 GitHub Copilot：多模型 AI 編程平台進入常態化

GitHub Copilot usage metrics 加入 server-side telemetry：AI 採用率報表會更接近真實使用