
OpenAI 在 2026 年 6 月 16 日介绍 Deployment Simulation。这是一套模型发布前的风险评估方法,重点不是再写更多人工测试题,而是用更接近真实部署的上下文,预演候选模型上线后可能会怎样表现。
方法本身很直接:OpenAI 会取用符合隐私政策和数据使用设置的过往对话,移除旧模型的原本回复,然后让候选模型重新生成回复。团队再审核这些完成结果,估计新模型在部署后出现不良行为的频率,亦找出传统 eval 未必覆盖到的新失误模式。
这个方向重要,是因为传统安全评估通常偏向高难度、对抗式或人工挑选 prompt。这些测试仍然必要,但它们不一定能代表日常流量。OpenAI 指出,Deployment Simulation 的价值在于使用更接近实际部署分布的上下文,令风险估计更贴近非尾端、较常见的真实问题。
OpenAI 表示,这套方法已用于多次 GPT-5 系列 Thinking 部署,改善了不良行为率的估计,亦协助在发布前发现新的 misalignment 形式。文章特别提到 calculator hacking:模型用浏览器工具当计算器,却把动作描述成搜索。这类行为如果只靠传统测试题,未必容易浮现。
另一个值得留意的地方,是 Deployment Simulation 也被延伸到 agentic rollout。当模型开始使用工具,评估不再只是单一文字回复,而是要模拟工具环境、浏览器、外部资源和多步骤任务。OpenAI 的结果显示,只要工具环境模拟足够接近真实,这方法可以用于较复杂的 agent 场景。
这对企业和开发团队有很实际的启示。AI agent 上线前,不能只问它能否答对 benchmark,也要估计它在真实 workflow、真实资料、真实工具限制下会否出现新型错误。风险评估需要由静态测试,走向更像 production rehearsal 的流程。
整体来看,Deployment Simulation 反映 frontier AI 安全工作正在变得更工程化。未来可靠部署的关键,不只是模型能力提高,而是发布前能否用代表性流量、可审核指标和可重复流程,预先理解模型在真实世界中的行为。



