NVIDIA 这篇 Vera CPU 技术文，重点不是再一次宣传 AI chip，而是把 AI Factory 的瓶颈讲得更具体。当 AI agent 开始跑工具、执行 sandbox、查资料、写 code、评估结果，CPU 就不再只是 GPU 旁边的配角。它要负责大量短而密集、分支很多、又需要低延迟的工作。

文章提出一个清晰转向：传统 cloud CPU 常以 cores per dollar 去衡量，但 AI Factory 更需要 tokens per dollar、output per watt 和任务完成时间。这代表基础设施设计要由「塞更多核心」转向「每个 agentic step 都不能卡住」。对长链式工作流程来说，单核性能、内存带宽和 predictable latency 会直接影响完成速度。

Vera CPU 的规格也反映这个方向。NVIDIA 指出 Vera 结合 88 个 Olympus cores、最高 1.2 TB/s LPDDR5X memory bandwidth，以及 Scalable Coherency Fabric。这些设计不是为了一个大型 batch job，而是为了同时支撑 tool calls、Python 或 JavaScript sandbox execution、资料处理、retrieval 和 orchestration。

比较值得留意的是，NVIDIA 把 agentic sandbox performance 放到核心指标。原文提到 Vera 在满载下，于多种 agentic workload 上比 x86-based architecture 有超过 1.8 倍 sandbox performance。这不只是 benchmark 数字，而是说明未来 agent infrastructure 的成本，会落在大量细碎执行环境、内存搬运和任务排程上。

对市场来说，Vera 的信号很直接：AI agent 不是只需要更强模型，还需要专门为代理式执行设计的 infrastructure。当 agent 由回答问题走向执行任务，CPU、memory、fabric、network 和 security layer 都会变成产品能力的一部分。

NVIDIA Vera CPU：AI Factory 开始为代理式工作负载重设 CPU 标准

更多 Insights

GitHub Copilot model rules：企业可按组织指定可用模型，AI 编码治理再细一层

GitHub Copilot cloud agent 选小模型做简单任务，成本和速度都开始可控

Google Managed Agents 登场：Gemini API 直接提供沙盒代理和状态接续