Qwen3.7-Plus:multimodal agent 開始同時理解畫面、操作 GUI 與寫 code

Alibaba Cloud Community 於 2026 年 6 月 3 日介紹 Qwen3.7-Plus,主打視覺語言統一、GUI/CLI 混合操作、視覺 coding 和跨 agent framework 泛化。

Qwen3.7-Plus 的重點,是把 multimodal capability 直接放到 agent workflow 入面,而不是只提升圖像問答分數。Alibaba Cloud Community 將它定位成一個 multimodal agent model,能把 vision 和 language 放在同一個 agent foundation,面向 coding、tool use、productivity workflow、GUI 操作和視覺推理。

文章最值得留意的描述,是 Qwen3.7-Plus 作為 multimodal interactive hybrid agent,可以理解真實畫面、閱讀 screen content、操作 graphical interfaces、執行 CLI operations,並利用環境回饋做 code generation、application manipulation、testing、validation 和 iterative optimization。換句話說,agent loop 不再只是「讀文字、寫文字」,而是更接近「看、想、寫、行動、驗證」。

官方範例也反映這個方向。Hybrid-Agent system 曾連續穩定運作超過 11 小時,自動完成一個英文詞彙學習 app 的研發週期,涵蓋需求文件、coding、安裝部署、test case、GUI 自動測試、平行場景測試、產品文件更新和版本演進。另一個桌面 app 範例,則由 agent 互動理解 macOS Stocks app 介面,生成 SwiftUI code,接入 market API,編譯啟動,再完成 10 項功能驗證。

視覺能力亦不只是辨識圖片。文章提到 Qwen3.7-Plus 可用 code interpreter 處理找不同、拼圖、迷宮、滑塊等任務,將視覺輸入轉成可計算表示,再透過程式搜尋、驗證和解題。對實際企業場景來說,這代表 agent 有機會處理 screenshot、收據、表格、報告、poster、產品圖片和複雜 UI page,而不只是回答圖片中有什麼。

另一個關鍵訊號是 cross-harness generalization。文章列出 Claude Code、OpenClaw 和 Qwen Code 等整合方式,並強調同一模型可在不同 agent scaffolds 中保持一致表現。這對開發團隊很實際,因為未來 agent stack 很可能不是單一供應商工具,而是模型、CLI、IDE、browser automation、MCP 和內部系統混合而成。

Qwen3.7-Plus 顯示 multimodal agent 的競爭正在由「看懂畫面」推向「操作介面並交付結果」。當模型能在 GUI 和 CLI 之間移動,能從視覺參考寫 code,能跑測試和驗證,企業對 agent 的期待就會從內容生成轉向端到端 workflow automation。

MODULE.002 //

更多 Insights

分享網站、AI automation、數碼營銷、AI news 和 VMTS 公司新聞。