
2026 年 5 月 13 日,NVIDIA 公布與倫敦 AI 實驗室 Ineffable Intelligence 展開工程級合作,目標是建立下一代強化學習基礎設施。這則消息不只是另一個 AI 實驗室合作,而是指出代理發展的一個重要方向:模型不再只靠固定資料集預訓練,而是要透過模擬、經驗和回饋持續學習。
NVIDIA 在文章中形容強化學習代理是透過反覆試驗學習的 AI 系統,可以把運算資源轉化成新知識。Ineffable 的背景亦令這個訊號更值得留意,因為公司由 AlphaGo 架構師 David Silver 創立,而 Silver 長期專注強化學習如何推動 AI 研究突破。
這次合作的技術焦點,是訓練管線本身。傳統 預訓練多數是讓固定人類資料流過系統;強化學習則會在運行過程中即時產生資料,因此需要完全不同的資料、模擬、評估和運算資源編排能力。NVIDIA 與 Ineffable 會由 Grace Blackwell 起步,並探索即將推出 Vera Rubin 平台需要支援哪些下一代硬件和軟件能力。
對企業 AI 代理來說,這個方向很重要。今日很多代理仍然像工作流程包裝器:它們接工具、讀資料、按指令做任務,但本身未必能從大量任務經驗中可靠地改善。當強化學習基礎設施成熟,代理的價值會由「懂得執行既定流程」推向「可以在受控環境中嘗試、學習、調整策略」。
這並不代表企業明天就要把所有流程交給自學代理。相反,這條新聞提醒管理層:未來 AI 工作流程的設計要預留回饋循環。查詢分類、報價、客服、內容審核、營運報表等流程,如果沒有明確成功指標、例外紀錄和人手評估資料,就很難變成可學習的系統。
從 VMTS 角度看,這是企業自動化的下一層基礎。網站、CRM、內部知識庫和代理編排不應只是把資料串起來,而要把每次任務結果、人工修改和批准原因變成可追蹤訊號。今天先建立乾淨的工作流程遙測,明天才有條件接入更強的學習代理。



