1541分!阿里千问3.7编程力登顶国产第一,全球仅次Claude,GPT-5.5被超越
摘要: 5月26日凌晨,全球权威编程榜单Code Arena放榜,阿里Qwen3.7-Max以1541分超越GPT-5.5、Gemini 3.5 Flash,仅次于Claude系列。更惊人的是,Qwen3.7-Max仅用$1.32的token成本就击败了Opus 4.7和GPT-5.5,性能提升56%。开发者实测:接入Hermes Agent后,基本可以替代GPT-5.5。
一、Code Arena放榜:中国AI闯入全球编程前二
5月26日凌晨,Code Arena公布最新榜单,阿里通义千问Qwen3.7-Max以1541分位列全球前四——前五名中唯一的非Claude模型。在大模型厂商排名中,千问3.7位居全球第二,仅次于Anthropic。
这意味着什么?Code Arena不同于传统代码基准测试,它不考孤立代码片段,而是由开发者出题,要求模型从零生成完整的、可交互的Web应用程序,然后由全球用户对匿名模型两两PK投票。这是目前全球最具公信力的AI编程能力评测之一。
被Qwen3.7-Max甩在身后的包括:GPT-5.5(OpenAI最新旗舰)、Gemini 3.5 Flash(Google)、GLM-5.1(智谱)、Kimi-K2.6(月之暗面)。
在Claude-Opus-4.7和4.6统治已久的前四格局中,Qwen3.7-Max是唯一打破这道壁垒的国产大模型,也是榜单中唯一突破1540分大关的中国模型。
当中国大模型在真实编程场景中击败GPT-5.5,这不是"追赶"的故事,这是"超越"的信号。
二、$1.32击败百倍对手:成本效率的降维打击
Code Arena的测试结果揭示了一个更震撼的维度:成本效率。
Qwen3.7-Max仅用$1.32的token成本就超越了Opus 4.7和GPT-5.5,性能提升56%。作为对比:
| 模型 | Code Arena得分 | 完成任务Token成本 |
|---|---|---|
| Claude Opus 4.7 | ~1560 | ~$80-120 |
| Qwen3.7-Max | 1541 | ~$1.32 |
| GPT-5.5 | <1541 | ~$50-80 |
| Gemini 3.5 Flash | <1540 | ~$5-15 |
Qwen3.7-Max用不到对手1/50的成本,实现了接近甚至超越的性能。这不是"够用就好",而是"又好又便宜"。
开发者Paul Couvert评价:"Qwen3.7-Max接入Hermes Agent和OpenCode后,基本可以替掉GPT-5.5和Opus 4.7。"

三、面向Agent打造:不只是代码生成
Qwen3.7-Max的定位不只是"会写代码的模型"——它是阿里面向智能体(Agent)时代打造的新一代旗舰。5月20日在阿里云峰会上正式发布,是通义千问系列近三个月迭代(3.5→3.6→3.7)的最强形态。
核心能力突破:
3.1 百万级上下文
Qwen3.7-Max支持100万Token上下文窗口。对于编程场景,这意味着可以一次性加载整个大型项目的代码库,进行跨文件理解和重构。
3.2 长程任务执行
最令人印象深刻的是:Qwen3.7-Max可以持续运行35小时、累计超1000次工具调用,完成复杂长程任务。在测试中,它甚至可以自我编程优化芯片内核——这不是简单的代码补全,而是端到端的项目交付。
3.3 全链路智能体执行
面向Agent的设计意味着Qwen3.7-Max不只能写代码,还能:理解需求→拆分任务→调用工具→验证结果→迭代优化。在数小时内独立完成专业团队耗时2周的复杂项目端到端交付。
这对铠盒智能体计算机的用户来说意义重大。A1/B1产品的核心场景就是7×24小时运行Agent任务——当底层模型具备35小时长程执行能力,智能体计算机从"辅助工具"升级为"自主工作者"。
四、实测:3D赛车游戏一气呵成
测试人员让Qwen3.7-Max生成一款3D赛车游戏。这不是简单的demo——需要完整的游戏逻辑、物理引擎、UI交互和3D渲染。
结果:Qwen3.7-Max从零生成了可运行的3D赛车游戏,画面流畅,交互完整。在实际编程任务中,Qwen3.7-Max的稳定性和细节表现尤为突出——不会在中途"跑偏"或遗漏关键逻辑。
相比之下,同级别的模型在类似长程生成任务中更容易出现前后不一致、逻辑断裂或遗漏功能的问题。
五、开源生态的飞轮效应
Qwen3.7-Max的另一个杀手锏是开源生态。与GPT-5.5和Claude的闭源策略不同,阿里持续开源Qwen系列模型(包括3.7的轻量版),这意味着:
- 开发者可以本地部署,不依赖云API,数据不出本地
- 社区可以微调优化,针对特定场景定制专属模型
- 工具链整合更快,Hermes Agent、OpenCode等开源工具第一时间适配
当Qwen3.7-Max接入Hermes Agent后,开发者反馈"基本可以替代GPT-5.5"——这个组合(开源模型+开源Agent框架)正在成为闭源方案的有力替代。
对于铠盒这类智能体计算机,开源模型意味着:用户不绑定单一API供应商,可以随时切换模型;本地部署的轻量版Qwen提供离线能力,云端调用完整版获得最强性能。
六、中国AI的"编程时刻"
Qwen3.7-Max在Code Arena上的表现,是中国AI产业的一个标志性时刻:
- 不再是"追赶者":在编程这个核心能力上,中国模型已经超越OpenAI旗舰
- 成本优势持续扩大:$1.32 vs $50-120,这不是微小的价格差,而是量级的差距
- Agent能力成为新战场:编程只是入口,长程任务执行才是未来
凤凰网的标题一针见血:"中国AI闯入全球编程前二,前面只剩Claude。"
结语
Qwen3.7-Max用1541分和$1.32的成本,向全球证明了一件事:在AI编程领域,中国不再是追赶者,而是竞争者。当开源模型+开源Agent框架的组合可以替代闭源旗舰,AI的民主化进程就真的不可逆了。
对于每个在考虑AI部署方案的开发者和企业:现在可能是最好的时代——模型又强又便宜,工具链又开放又好用。门槛在降低,可能性在膨胀。
铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI前沿追踪