Alibaba Cloud Community 在 2026 年 5 月 21 日發布《Qwen3.7: The Agent Frontier》，介紹 Qwen3.7-Max。這次更新的重點不是單純聊天能力，而是把模型定位成 agent foundation：能寫 code、debug、處理辦公流程，並在很長的工具調用序列中保持任務連貫。

文章最突出的是「長時間自主執行」這個方向。Qwen 團隊提到一個約 35 小時的 kernel optimization run，模型在 1,158 次 tool calls 之間持續編寫、編譯、profiling 和重構，最後在指定工作負載上取得 10 倍 geometric mean speedup。這類案例不只是展示 benchmark 分數，而是說明 agent 是否能在多輪失敗、修正和重新驗證中維持策略。

Qwen3.7-Max 亦強調跨框架泛化。原文提到它可以在 Claude Code、OpenClaw、Qwen Code 和其他 tool-use frameworks 中保持表現，背後方法是把訓練環境拆成 Task、Harness 和 Verifier 三個維度，再透過不同組合訓練模型。這代表模型不應只適應某一個固定工具外殼，而要學會在不同執行環境中解決任務。

從數字看，Qwen 團隊列出多個 coding、MCP、技能、推理與多語 benchmark，例如 SWE-Verified、MCP-Mark、SkillsBench、Kernel Bench、GPQA Diamond 和 WMT24++。這些分數需要由實際用例再驗證，但它們反映一個清晰方向：模型供應商正用 agent-specific benchmark 重新定義能力，而不再只看一般聊天測試。

對企業和開發團隊來說，Qwen3.7-Max 的訊號是 agent 能力正在拆成幾個更具體的層面：能否跨工具工作、能否長時間保持上下文、能否在失敗後修正、能否調用 MCP 或其他工具、能否在多種 harness 中仍然可靠。這些條件比「一次回答是否漂亮」更接近生產環境。

文章亦提到 Model Studio 支援類 OpenAI chat completions、responses API，以及相容 Anthropic 的 API 介面。這種相容性很重要，因為企業不想為每個模型重寫 agent 框架。若模型可以接入既有工具鏈，團隊就能在不同模型之間比較成本、速度、可靠性和地區部署選項。

整體來看，Qwen3.7-Max 代表中國大模型競爭正由通用模型擴展到 agent execution layer。下一階段值得觀察的，不只是模型分數，而是實際 API 可用性、企業資料治理、工具權限、長任務成本，以及這些 agent 在真實業務流程中能否穩定完成任務。

Qwen3.7-Max 面向 Agent 時代：阿里雲把長任務、自動工具調用與跨框架泛化放到核心

更多 Insights

Anthropic Project Glasswing 初步更新：AI 找漏洞速度開始超過人類修補能力

GitHub Copilot for Eclipse 開源：AI coding 工具開始把代理流程和 prompt 架構攤開

CrowdStrike + NVIDIA：AI Factory security 要做到資料路徑同代理行為層