
NVIDIA 在 2026 年 6 月 12 日介紹 Artificial Analysis 的 AgentPerf 首輪結果,指出 Blackwell 系統在首個 agentic AI infrastructure benchmark 中領先。這條新聞的重點,不只是某個 GPU 系統更快,而是 AI agent 開始需要一套不同於傳統 inference benchmark 的效能語言。
傳統 benchmark 多數量度單次 LLM 回應速度和同時請求量。但 agentic workload 並不是單次請求。NVIDIA 指出,代理任務會串連數十至數百次 LLM call,期間有工具調用、程式編譯與執行、資料庫搜尋和網頁瀏覽,每一步都會令上下文增長。
AgentPerf 正是針對這種形態而設計。它用真實 coding agent trajectories 做基礎,模擬 agent 接收任務、讀檔、寫 code、執行命令、根據結果迭代。這比固定長度的合成 prompt 更接近企業實際部署 coding agents 時遇到的壓力。
首輪測試使用 DeepSeek V4 Pro,NVIDIA 表示 GB300 NVL72 在該工作負載上達到最高表現,每兆瓦可運行的 agents 數量最高可達 HGX H200 的 20 倍。對企業和雲端服務商來說,這類「每兆瓦 agent 數量」比單純 tokens per second 更接近容量規劃問題。
這也說明 AI agent 成本結構正在改變。長上下文、KV cache、並發 session、短輸出 burst、工具等待時間和可接受延遲,會共同決定實際使用體驗。基建選型不能只看模型 benchmark,而要看整個 serving stack 在 agent 工作流下能否維持 responsiveness。
整體而言,AgentPerf 和 Blackwell 首輪結果標誌 agentic AI 進入基建量化階段。當企業開始同時運行大量 coding agents、客服 agents 或營運 agents,真正需要回答的問題是:在可接受速度和能源成本下,一套系統到底能支持多少有效工作。



