Gemini 3.5 Live Translate 登场:实时语音翻译走进 API、Meet 与 Translate

Google 于 2026 年 6 月 10 日推出 Gemini 3.5 Live Translate,把低延迟语音翻译带到 Gemini Live API、Google Meet 和 Google Translate。

Google 在 2026 年 6 月 10 日公布 Gemini 3.5 Live Translate,将接近实时、自然语音翻译带到多个产品:开发者可透过 Gemini Live API 和 Google AI Studio 使用 public preview,企业可于本月开始在 Google Meet private preview 测试,一般用户则会在 Android 和 iOS 的 Google Translate 逐步看到新体验。

这次更新的重点,是语音翻译由「一句句处理」走向串流式互动。Gemini 3.5 Live Translate 会在语音输入持续进来时处理内容,降低等待感,并支持多语言输入,不需要用户手动设置语言。Google 亦强调模型在嘈杂和不可预测环境中更稳定,这对真实会议、课堂、直播和客户支持场景很重要。

在 Google Meet 里,这项能力会把语音翻译由过去较有限的语言组合,扩展至 70 多种语言和 2,000 多种语言组合。更关键的是,它不再只围绕英文来回翻译。对跨地区团队来说,这会令多语会议更接近自然对话,而不是每个人都要把英文当作中转站。

对开发者而言,Gemini Live API 是另一个值得留意的入口。实时语音翻译不只可用于会议,也可以嵌入教育、客服、医疗接待、跨境销售、活动直播和社群产品。当模型可以处理持续音频、语言侦测和自然语音输出,翻译就不再只是文字功能,而是互动界面的一部分。

企业采用时仍要处理实际边界。实时翻译会碰到专业词汇、口音、背景噪音、私隐、录音政策和责任归属等问题。若用于客户沟通或内部决策,最好保留人工确认、关键摘要和原文记录,避免把翻译输出当作唯一事实来源。

整体而言,Gemini 3.5 Live Translate 显示多模态 AI 正由内容生成走向沟通基建。当同一模型能力可以进入 API、会议和消费级翻译工具,语言障碍会逐渐由人工流程问题,变成可嵌入产品和工作流的实时服务。

MODULE.002 //

更多 Insights

分享网站、AI automation、数码营销、AI news 和 VMTS 公司新闻。