NVIDIA 在 2026 年 6 月 12 日介绍 Artificial Analysis 的 AgentPerf 首轮结果，指出 Blackwell 系统在首个 agentic AI infrastructure benchmark 中领先。这条新闻的重点，不只是某个 GPU 系统更快，而是 AI agent 开始需要一套不同于传统 inference benchmark 的效能语言。

传统 benchmark 多数量度单次 LLM 回应速度和同时请求量。但 agentic workload 并不是单次请求。NVIDIA 指出，代理任务会串连数十至数百次 LLM call，期间有工具调用、代码编译与执行、数据库搜索和网页浏览，每一步都会令上下文增长。

AgentPerf 正是针对这种形态而设计。它用真实 coding agent trajectories 做基础，模拟 agent 接收任务、读文件、写 code、执行命令、根据结果迭代。这比固定长度的合成 prompt 更接近企业实际部署 coding agents 时遇到的压力。

首轮测试使用 DeepSeek V4 Pro，NVIDIA 表示 GB300 NVL72 在该工作负载上达到最高表现，每兆瓦可运行的 agents 数量最高可达 HGX H200 的 20 倍。对企业和云端服务商来说，这类「每兆瓦 agent 数量」比单纯 tokens per second 更接近容量规划问题。

这也说明 AI agent 成本结构正在改变。长上下文、KV cache、并发 session、短输出 burst、工具等待时间和可接受延迟，会共同决定实际使用体验。基建选型不能只看模型 benchmark，而要看整个 serving stack 在 agent 工作流下能否维持 responsiveness。

整体而言，AgentPerf 和 Blackwell 首轮结果标志 agentic AI 进入基建量化阶段。当企业开始同时运行大量 coding agents、客服 agents 或营运 agents，真正需要回答的问题是：在可接受速度和能源成本下，一套系统到底能支持多少有效工作。

NVIDIA Blackwell 领先 AgentPerf：AI agent 基建开始有专用效能指标

更多 Insights

Microsoft Foundry：Build 2026 将 agent 平台推向 build、deploy、operate 三层架构

TCS 与 Anthropic 建立全球合作：Claude 正进入受监管行业交付

GitHub Copilot 改用按用量计费：代理式编程开始面对真实成本