2026 年 5 月 13 日，NVIDIA 公布與倫敦 AI 實驗室 Ineffable Intelligence 展開工程級合作，目標是建立下一代強化學習基礎設施。這則消息不只是另一個 AI 實驗室合作，而是指出代理發展的一個重要方向：模型不再只靠固定資料集預訓練，而是要透過模擬、經驗和回饋持續學習。

NVIDIA 在文章中形容強化學習代理是透過反覆試驗學習的 AI 系統，可以把運算資源轉化成新知識。Ineffable 的背景亦令這個訊號更值得留意，因為公司由 AlphaGo 架構師 David Silver 創立，而 Silver 長期專注強化學習如何推動 AI 研究突破。

這次合作的技術焦點，是訓練管線本身。傳統預訓練多數是讓固定人類資料流過系統；強化學習則會在運行過程中即時產生資料，因此需要完全不同的資料、模擬、評估和運算資源編排能力。NVIDIA 與 Ineffable 會由 Grace Blackwell 起步，並探索即將推出 Vera Rubin 平台需要支援哪些下一代硬件和軟件能力。

對企業 AI 代理來說，這個方向很重要。今日很多代理仍然像工作流程包裝器：它們接工具、讀資料、按指令做任務，但本身未必能從大量任務經驗中可靠地改善。當強化學習基礎設施成熟，代理的價值會由「懂得執行既定流程」推向「可以在受控環境中嘗試、學習、調整策略」。

這並不代表企業明天就要把所有流程交給自學代理。相反，這條新聞提醒管理層：未來 AI 工作流程的設計要預留回饋循環。查詢分類、報價、客服、內容審核、營運報表等流程，如果沒有明確成功指標、例外紀錄和人手評估資料，就很難變成可學習的系統。

從 VMTS 角度看，這是企業自動化的下一層基礎。網站、CRM、內部知識庫和代理編排不應只是把資料串起來，而要把每次任務結果、人工修改和批准原因變成可追蹤訊號。今天先建立乾淨的工作流程遙測，明天才有條件接入更強的學習代理。

NVIDIA x Ineffable：AI 代理下一步由預訓練走向持續學習基建

更多 Insights

GitHub Copilot model rules：企業可按組織指定可用模型，AI 編碼治理再細一層

OpenAI 與 Dell 合作：Codex 走向混合及本地企業環境

GitHub Copilot App 技術預覽：從 Issue、PR 到 Agent Session，工作開始可以分流