
Alibaba Cloud Community 在 2026 年 5 月 21 日发布《Qwen3.7: The Agent Frontier》,介绍 Qwen3.7-Max。这次更新的重点不是单纯聊天能力,而是把模型定位成 agent foundation:能写代码、debug、处理办公流程,并在很长的工具调用序列中保持任务连贯。
文章最突出的是「长时间自主执行」这个方向。Qwen 团队提到一个约 35 小时的 kernel optimization run,模型在 1,158 次 tool calls 之间持续编写、编译、profiling 和重构,最后在指定工作负载上取得 10 倍 geometric mean speedup。这类案例不只是展示 benchmark 分数,而是说明 agent 是否能在多轮失败、修正和重新验证中维持策略。
Qwen3.7-Max 亦强调跨框架泛化。原文提到它可以在 Claude Code、OpenClaw、Qwen Code 和其他 tool-use frameworks 中保持表现,背后方法是把训练环境拆成 Task、Harness 和 Verifier 三个维度,再透过不同组合训练模型。这代表模型不应只适应某一个固定工具外壳,而要学会在不同执行环境中解决任务。
从数字看,Qwen 团队列出多个 coding、MCP、技能、推理与多语 benchmark,例如 SWE-Verified、MCP-Mark、SkillsBench、Kernel Bench、GPQA Diamond 和 WMT24++。这些分数需要由实际用例再验证,但它们反映一个清晰方向:模型供应商正用 agent-specific benchmark 重新定义能力,而不再只看一般聊天测试。
对企业和开发团队来说,Qwen3.7-Max 的讯号是 agent 能力正在拆成几个更具体的层面:能否跨工具工作、能否长时间保持上下文、能否在失败后修正、能否调用 MCP 或其他工具、能否在多种 harness 中仍然可靠。这些条件比「一次回答是否漂亮」更接近生产环境。
文章亦提到 Model Studio 支持类 OpenAI chat completions、responses API,以及兼容 Anthropic 的 API 接口。这种兼容性很重要,因为企业不想为每个模型重写 agent 框架。若模型可以接入既有工具链,团队就能在不同模型之间比较成本、速度、可靠性和地区部署选项。
整体来看,Qwen3.7-Max 代表中国大模型竞争正由通用模型扩展到 agent execution layer。下一阶段值得观察的,不只是模型分数,而是实际 API 可用性、企业资料治理、工具权限、长任务成本,以及这些 agent 在真实业务流程中能否稳定完成任务。



