Alibaba Cloud Community 在 2026 年 5 月 21 日发布《Qwen3.7: The Agent Frontier》，介绍 Qwen3.7-Max。这次更新的重点不是单纯聊天能力，而是把模型定位成 agent foundation：能写代码、debug、处理办公流程，并在很长的工具调用序列中保持任务连贯。

文章最突出的是「长时间自主执行」这个方向。Qwen 团队提到一个约 35 小时的 kernel optimization run，模型在 1,158 次 tool calls 之间持续编写、编译、profiling 和重构，最后在指定工作负载上取得 10 倍 geometric mean speedup。这类案例不只是展示 benchmark 分数，而是说明 agent 是否能在多轮失败、修正和重新验证中维持策略。

Qwen3.7-Max 亦强调跨框架泛化。原文提到它可以在 Claude Code、OpenClaw、Qwen Code 和其他 tool-use frameworks 中保持表现，背后方法是把训练环境拆成 Task、Harness 和 Verifier 三个维度，再透过不同组合训练模型。这代表模型不应只适应某一个固定工具外壳，而要学会在不同执行环境中解决任务。

从数字看，Qwen 团队列出多个 coding、MCP、技能、推理与多语 benchmark，例如 SWE-Verified、MCP-Mark、SkillsBench、Kernel Bench、GPQA Diamond 和 WMT24++。这些分数需要由实际用例再验证，但它们反映一个清晰方向：模型供应商正用 agent-specific benchmark 重新定义能力，而不再只看一般聊天测试。

对企业和开发团队来说，Qwen3.7-Max 的讯号是 agent 能力正在拆成几个更具体的层面：能否跨工具工作、能否长时间保持上下文、能否在失败后修正、能否调用 MCP 或其他工具、能否在多种 harness 中仍然可靠。这些条件比「一次回答是否漂亮」更接近生产环境。

文章亦提到 Model Studio 支持类 OpenAI chat completions、responses API，以及兼容 Anthropic 的 API 接口。这种兼容性很重要，因为企业不想为每个模型重写 agent 框架。若模型可以接入既有工具链，团队就能在不同模型之间比较成本、速度、可靠性和地区部署选项。

整体来看，Qwen3.7-Max 代表中国大模型竞争正由通用模型扩展到 agent execution layer。下一阶段值得观察的，不只是模型分数，而是实际 API 可用性、企业资料治理、工具权限、长任务成本，以及这些 agent 在真实业务流程中能否稳定完成任务。

Qwen3.7-Max 面向 Agent 时代：阿里云把长任务、自动工具调用与跨框架泛化放到核心

更多 Insights

GitHub Copilot App 技术预览：工作从 Issue 出发，再用独立 session 收口

OpenAI ChatGPT Release Notes 更新 Codex：Goal mode、Appshots、锁机远端执行一次到位

Anthropic Project Glasswing 初步更新：AI 找漏洞速度开始超过人类修补能力