2026 年 5 月 13 日，NVIDIA 公布与伦敦 AI 实验室 Ineffable Intelligence 展开工程级合作，目标是建立下一代强化学习基础设施。这则消息不只是另一个 AI 实验室合作，而是指出代理发展的一个重要方向：模型不再只靠固定数据集预训练，而是要通过模拟、经验和反馈持续学习。

NVIDIA 在文章中形容强化学习代理是通过反覆試驗学习的 AI 系统，可以把运算资源转化成新知识。Ineffable 的背景亦令这个讯号更值得留意，因为公司由 AlphaGo 架构师 David Silver 创立，而 Silver 长期专注强化学习如何推动 AI 研究突破。

这次合作的技术焦点，是训练管线本身。传统预训练多数是让固定人类数据流过系统；强化学习则会在运行过程中即时产生数据，因此需要完全不同的数据、模拟、评估和运算资源编排能力。NVIDIA 与 Ineffable 会由 Grace Blackwell 起步，并探索即將推出 Vera Rubin 平台需要支持哪些下一代硬件和软件能力。

对企业 AI 代理来说，这个方向很重要。今日很多代理仍然像工作流程包装器：它们接工具、读资料、按指令做任务，但本身未必能从大量任务经验中可靠地改善。当强化学习基础设施成熟，代理的价值会由「懂得执行既定流程」推向「可以在受控环境中尝试、学习、调整策略」。

这并不代表企业明天就要把所有流程交给自学代理。相反，这条新闻提醒管理层：未来 AI 工作流程的设计要预留反馈循环。查询分类、报价、客服、内容审核、营运报表等流程，如果没有明确成功指标、例外记录和人工评估资料，就很难变成可学习的系统。

从 VMTS 角度看，这是企业自动化的下一层基础。网站、CRM、内部知识库和代理编排不应只是把资料串起来，而要把每次任务结果、人工修改和批准原因变成可追踪讯号。今天先建立干净的工作流程遥测，明天才有条件接入更强的学习代理。

NVIDIA x Ineffable：AI 代理下一步由预训练走向持续学习基建

更多 Insights

Google AI Studio 走进 I/O 2026：手机、Workspace、Android 都可以直接开工

Anthropic 在米兰开新办公室：Claude 正由产品扩展走向欧洲企业落地

Microsoft Edge for Business 加入 agentic browsing：企业浏览器开始变成受管 AI 工作台