
Google 在 2026 年 6 月 10 日介绍 DiffusionGemma,一个开放的实验文字生成模型。它最值得留意的地方,是不再完全依赖传统 autoregressive LLM 一个 token 接一个 token 生成,而是把 diffusion 思路带入文字生成。
传统大型语言模型通常由左至右逐步产生下一个 token。DiffusionGemma 则以文字 diffusion 生成整个文字区块,再逐步去噪和修正。Google 表示,在专用 GPU 上,这种方式可带来最高 4 倍文字生成速度,特别适合低延迟、本地、互动式工作流。
这不是要立即取代 Gemma 4 的 production output。Google 明确把 DiffusionGemma 定位为实验模型,适合研究者和开发者探索速度敏感场景,例如 in-line editing、快速迭代、非线性文字结构,以及需要即时回应的本地工具。
技术上,DiffusionGemma 建基于 Gemma 4 family 的 26B Mixture of Experts 架构,加入 diffusion head。它的重点不是单纯追求 benchmark 分数,而是测试另一种生成路径:由 memory-bandwidth bottleneck 转向更 compute-bound 的平行生成。
这对 AI workflow 有实际意义。很多 agent 或 assistant 场景的瓶颈不是模型完全不懂,而是等待时间太长。若一些草稿、摘要、快速修订或互动式编辑可以在本地 GPU 以更低延迟完成,用户就更容易把 AI 放进频繁操作的工作环节。
Google 亦提到 DiffusionGemma 的 bidirectional context 和 self-correction。因为模型在生成时可以看见整个文字区块,它有机会修正早前位置,而不是像传统自回归模型那样生成后就固定。这个特性在 Sudoku 等需要全局约束的示范中尤其明显。
整体而言,DiffusionGemma 是一个值得开发者跟进的研究型开放模型。它提醒市场,AI 生成不只有一条路。当 agent workflow 越来越需要即时互动、本地部署和快速多轮修正,text diffusion 可能会成为下一批工具的重要实验方向。



