Qwen3.7-Max 面向 Agent 時代:阿里雲把長任務、自動工具調用與跨框架泛化放到核心

Alibaba Cloud Community 於 2026 年 5 月 21 日介紹 Qwen3.7-Max,強調 coding agent、MCP、辦公自動化、長時間自主執行和跨 agent harness 泛化能力。

Alibaba Cloud Community 在 2026 年 5 月 21 日發布《Qwen3.7: The Agent Frontier》,介紹 Qwen3.7-Max。這次更新的重點不是單純聊天能力,而是把模型定位成 agent foundation:能寫 code、debug、處理辦公流程,並在很長的工具調用序列中保持任務連貫。

文章最突出的是「長時間自主執行」這個方向。Qwen 團隊提到一個約 35 小時的 kernel optimization run,模型在 1,158 次 tool calls 之間持續編寫、編譯、profiling 和重構,最後在指定工作負載上取得 10 倍 geometric mean speedup。這類案例不只是展示 benchmark 分數,而是說明 agent 是否能在多輪失敗、修正和重新驗證中維持策略。

Qwen3.7-Max 亦強調跨框架泛化。原文提到它可以在 Claude Code、OpenClaw、Qwen Code 和其他 tool-use frameworks 中保持表現,背後方法是把訓練環境拆成 Task、Harness 和 Verifier 三個維度,再透過不同組合訓練模型。這代表模型不應只適應某一個固定工具外殼,而要學會在不同執行環境中解決任務。

從數字看,Qwen 團隊列出多個 coding、MCP、技能、推理與多語 benchmark,例如 SWE-Verified、MCP-Mark、SkillsBench、Kernel Bench、GPQA Diamond 和 WMT24++。這些分數需要由實際用例再驗證,但它們反映一個清晰方向:模型供應商正用 agent-specific benchmark 重新定義能力,而不再只看一般聊天測試。

對企業和開發團隊來說,Qwen3.7-Max 的訊號是 agent 能力正在拆成幾個更具體的層面:能否跨工具工作、能否長時間保持上下文、能否在失敗後修正、能否調用 MCP 或其他工具、能否在多種 harness 中仍然可靠。這些條件比「一次回答是否漂亮」更接近生產環境。

文章亦提到 Model Studio 支援類 OpenAI chat completions、responses API,以及相容 Anthropic 的 API 介面。這種相容性很重要,因為企業不想為每個模型重寫 agent 框架。若模型可以接入既有工具鏈,團隊就能在不同模型之間比較成本、速度、可靠性和地區部署選項。

整體來看,Qwen3.7-Max 代表中國大模型競爭正由通用模型擴展到 agent execution layer。下一階段值得觀察的,不只是模型分數,而是實際 API 可用性、企業資料治理、工具權限、長任務成本,以及這些 agent 在真實業務流程中能否穩定完成任務。

MODULE.002 //

更多 Insights

分享網站、AI automation、數碼營銷、AI news 和 VMTS 公司新聞。