Google 在 2026 年 6 月 10 日介紹 DiffusionGemma，一個開放的實驗文字生成模型。它最值得留意的地方，是不再完全依賴傳統 autoregressive LLM 一個 token 接一個 token 生成，而是把 diffusion 思路帶入文字生成。

傳統大型語言模型通常由左至右逐步產生下一個 token。DiffusionGemma 則以文字 diffusion 生成整個文字區塊，再逐步去噪和修正。Google 表示，在專用 GPU 上，這種方式可帶來最高 4 倍文字生成速度，特別適合低延遲、本地、互動式工作流。

這不是要立即取代 Gemma 4 的 production output。Google 明確把 DiffusionGemma 定位為實驗模型，適合研究者和開發者探索速度敏感場景，例如 in-line editing、快速迭代、非線性文字結構，以及需要即時回應的本地工具。

技術上，DiffusionGemma 建基於 Gemma 4 family 的 26B Mixture of Experts 架構，加入 diffusion head。它的重點不是單純追求 benchmark 分數，而是測試另一種生成路徑：由 memory-bandwidth bottleneck 轉向更 compute-bound 的平行生成。

這對 AI workflow 有實際意義。很多 agent 或 assistant 場景的瓶頸不是模型完全不懂，而是等待時間太長。若一些草稿、摘要、快速修訂或互動式編輯可以在本地 GPU 以更低延遲完成，使用者就更容易把 AI 放進頻繁操作的工作環節。

Google 亦提到 DiffusionGemma 的 bidirectional context 和 self-correction。因為模型在生成時可以看見整個文字區塊，它有機會修正早前位置，而不是像傳統自回歸模型那樣生成後就固定。這個特性在 Sudoku 等需要全局約束的示範中尤其明顯。

整體而言，DiffusionGemma 是一個值得開發者跟進的研究型開放模型。它提醒市場，AI 生成不只有一條路。當 agent workflow 越來越需要即時互動、本地部署和快速多輪修正，text diffusion 可能會成為下一批工具的重要實驗方向。

Google 發布 DiffusionGemma：用文字 diffusion 探索更快的本地互動式 AI

更多 Insights

GitHub Copilot Chat 可查看 agent sessions：AI 編程工作流開始保留可查紀錄

GitHub enterprise-managed plugins 進入 VS Code：企業開始統一管理 agent skills 與 MCP

GitHub Agentic Workflows 6 月更新：skills、agents、WIF 同 token guardrail 開始成形