
2026 年 5 月 13 日,NVIDIA 公布与伦敦 AI 实验室 Ineffable Intelligence 展开工程级合作,目标是建立下一代强化学习基础设施。这则消息不只是另一个 AI 实验室合作,而是指出代理发展的一个重要方向:模型不再只靠固定数据集预训练,而是要通过模拟、经验和反馈持续学习。
NVIDIA 在文章中形容强化学习代理是通过反覆試驗学习的 AI 系统,可以把运算资源转化成新知识。Ineffable 的背景亦令这个讯号更值得留意,因为公司由 AlphaGo 架构师 David Silver 创立,而 Silver 长期专注强化学习如何推动 AI 研究突破。
这次合作的技术焦点,是训练管线本身。传统 预训练多数是让固定人类数据流过系统;强化学习则会在运行过程中即时产生数据,因此需要完全不同的数据、模拟、评估和运算资源编排能力。NVIDIA 与 Ineffable 会由 Grace Blackwell 起步,并探索即將推出 Vera Rubin 平台需要支持哪些下一代硬件和软件能力。
对企业 AI 代理来说,这个方向很重要。今日很多代理仍然像工作流程包装器:它们接工具、读资料、按指令做任务,但本身未必能从大量任务经验中可靠地改善。当强化学习基础设施成熟,代理的价值会由「懂得执行既定流程」推向「可以在受控环境中尝试、学习、调整策略」。
这并不代表企业明天就要把所有流程交给自学代理。相反,这条新闻提醒管理层:未来 AI 工作流程的设计要预留反馈循环。查询分类、报价、客服、内容审核、营运报表等流程,如果没有明确成功指标、例外记录和人工评估资料,就很难变成可学习的系统。
从 VMTS 角度看,这是企业自动化的下一层基础。网站、CRM、内部知识库和代理编排不应只是把资料串起来,而要把每次任务结果、人工修改和批准原因变成可追踪讯号。今天先建立干净的工作流程遥测,明天才有条件接入更强的学习代理。



