
当一个模型可以无人值守连续运行、自发上千次工具调用,把两周的活压进几小时,企业要判断的就不再是用哪个模型,而是任务拆解、回归测试、合并验收这些原本由人把守的环节,哪些必须留人、哪些可以交给Agent。
当一个模型可以无人值守连续运行、自发上千次工具调用,把两周的活压进几小时,企业要判断的就不再是用哪个模型,而是任务拆解、回归测试、合并验收这些原本由人把守的环节,哪些必须留人、哪些可以交给Agent。
先说一个容易被排名热闹盖过去的细节。
在平头哥真武 M890 这块没有文档、也没有参考代码的新芯片上,Qwen3.7-Max 据国内媒体披露,在大约 35 小时里自己完成了内核编写、编译、性能分析和迭代优化,全程没有人接管,期间跑了上千次工具调用。这不是「又快了多少」那种进步,而是一个模型第一次把「长时间无人值守、自主交付一个完整工程任务」摆到了开发团队面前。
几乎同一周,它在第三方编程榜单 Code Arena 上以 1541 分被称作「全球第二编程模型」,紧随 Claude 之后。名次当然好看,但更值得追的是那块芯片案例代表的工作方式——把过去需要两个高级工程师两周才能交付的活,压进几个小时,全程无人值守。
如果这件事能稳定兑现,那么团队里那条「人该做什么、机器做什么」的分界线,恐怕要重画一次。过去我们熟悉的是代码补全、对话式 Copilot:人写一段、它接一段,人始终在每一步里。而「长时自主交付」意味着模型不再只对齐你这一句提问的偏好,而是对齐一个被定义好的任务目标,自己拆解、自己执行、自己迭代——人退到了任务定义和交付审核这一端。
「上千次工具调用」改写的,是模型对齐的对象
代码补全也好,对话式 Copilot 也好,本质都是一种「人在环里」的协作:你提一句需求,它给一段代码,你看一眼、改一改、再问下一句。模型对齐的是你这一次提问的偏好——答得像不像、合不合你的口味。它的能力边界,被框在「一问一答」这个回合制里。
而连续 35 小时、上千次工具调用意味着完全不同的东西。据国内媒体披露,432 次内核评估、1158 次工具调用,整个过程没有人接管。模型对齐的不再是某一句提问,而是一个被定义好的任务结果。
这正好对上了阿里巴巴通义大模型事业部负责人周靖人在 5 月 20 日阿里云峰会上发布 Qwen3.7 系列时给出的那句判断:大模型正在从「对齐人类偏好」转向「对齐任务目标」。当时这话听起来像一个战略口号,等 Code Arena 在 5 月下旬放榜、平头哥案例被披露出来,它才落到了一个能被讨论的具体场景上。
这是一句容易被排名盖过去、但更要紧的变化:竞争焦点正在从「单次问答质量」移到「能不能独立跑完一个长程任务」。
Code Arena 由 LMArena 发起,评测方式不是做静态代码题,而是让模型从零构建一个完整、可交互的 Web 应用,再交给真实开发者盲测投票。它衡量的不是「这道题答得对不对」,而是「这个模型能不能交付一个能用的东西」。Qwen3.7-Max 在这个榜单上拿到 1541 分、在大模型厂商中位列第二,紧随 Claude 之后,超过了 GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6——这个位置真正的含义不是名次,而是它进入了「能跑长程任务」的第一梯队。
那么人该退到哪一步,又必须守在哪一步
过去的研发流程,是把一个大需求拆成若干小任务,每个环节都有人把守:有人做任务拆解,有人写代码,有人在中途 review,有人跑回归测试,有人最后做合并验收。长时自主交付的诱惑在于,它能把中间那一大段「写代码—自测—迭代」打包交给 Agent,让人从执行端整体上移。
但一个能连续跑几十个小时的 Agent,最大的风险恰恰也在「连续」二字上。它在第 3 小时跑得很好,不代表第 20 小时不会沿着一个错误的方向越走越远。长程任务的价值在于无人值守,长程任务的风险也在于无人值守。 这就决定了人不能简单地全退出去,而要换一个站位——从「在每一步里」变成「守在几个关键闸口上」。
哪些闸口必须留人,其实有迹可循。任务定义这一端必须留人,目标定歪了,它会非常高效地交付一个错的东西。交付验收这一端必须留人,合并进主干前的回归测试、安全审查、性能确认,是机器跑分回答不了的。中间还要留至少一个可中断、可回滚的检查点,让人能在 Agent 跑偏时把它拦下来、把状态恢复回去。
这套站位,决定了企业不能把「35 小时自主运行」直接理解成「省掉一支团队」,而要理解成「把工作重心从写,挪到定义和审」。能挪多少,取决于任务本身有多可验证——内核优化、Web 应用从零构建这类有明确成功标准、能自动化测试的工程任务,最容易先跑通;而验收标准模糊、依赖业务判断的活,人工兜底的比重还会很高。
选型时,榜单分数其实排在后面
正因为风险集中在长程和无人值守上,企业真要把这种能力用进生产,选型的决策变量就和「谁榜单分高」不完全是一回事。
榜单能告诉你的,是这个模型有没有进入第一梯队。Qwen3.7-Max 的成绩并不只来自 Code Arena 一处——据公开报道,它在 TerminalBench 2.0 得 69.7、SWE-Pro 得 60.6、SciCode 得 53.5、办公自动化的 SpreadsheetBench-V1 得 87.0;按 Artificial Analysis 的数据,其综合能力得分 56.6,排在全球第五、国产第一。这些跨榜单的成绩交叉起来,说明它的编程能力不是单一榜单的孤证。但这些数字证明的是「答得准」,而企业要赌的是「能不能稳定跑完」,这两件事并不自动等价。
对采购方真正要紧的,是几个榜单不直接告诉你的变量:长程任务在多次调用下的稳定性和失败率、工具调用的可靠性、中断之后能不能恢复、以及把它接进现有研发体系的迁移成本。
迁移成本这一点,Qwen3.7-Max 的 API 同时兼容 OpenAI 与 Anthropic 协议,已经基于这两套协议搭好工具链的团队,可以用很低的改造成本把模型换进来试,而不必为了试一个新模型重写整套调用层。在企业普遍采取多模型策略、不愿被单一供应商锁死的当下,协议兼容本质上是在争一个「可被默认调用」的位置:迁移门槛越低,它越容易成为团队工具箱里随手就能换上的那一个。
成本同样是绕不开的变量。综合报道提到 Qwen3.7-Max 的调用成本约为 GPT-5.5 的 1/28,阿里云也针对它放出了 100 万 Token 免费试用和新用户限时五折。这类数字有很强的时效性,但它指向的方向是清楚的:长程任务动辄上千次工具调用,单位调用成本会被规模急剧放大,成本结构直接决定了一家企业敢不敢把 Agent 用在高频、长程的场景里,而不只是拿来做个 demo。
更务实的选型逻辑,是先用可控的试点任务去验证稳定性、失败率和单位成本这几个真实变量,再决定把多大比例的工程量交出去——榜单分数是入场券,落地条件才是决策变量。
从「模型能跑」到「企业敢交付」,中间缺的那一块
把上面几件事连起来看,一个强模型解决的只是「能不能跑」,离「企业敢不敢把交付压上去」还隔着一段距离。这段距离,正是阿里云这一轮布局想补的地方。
任务怎么定义、检查点怎么设、产出怎么进审核流程、调用怎么计量和分发——这些都不在模型里,而在模型之外的工具链和平台里。据阿里云官方布局,Qwen3.7-Max 之外还有桌面AI智能体 QoderWork,以及承担模型 API 服务与分发的百炼平台;峰会上阿里云也提到针对 Agent 负载特点调整了云服务架构,并推出了面向 Agent 的「千问云」。这条链路想讲的,是把一次性的模型能力,沉淀成企业可重复调用、可管理、可交付的基础设施。
模型层负责「能跑完长程任务」,工具链层负责「让团队能定义任务、管理流程、审核交付」,平台层负责「让能力可计量、可调用、可规模化」。一个企业要从「模型能跑」走到「敢把交付压上去」,缺的从来不是某一个更高的分数,而是这三层能不能在自己真实的研发组织里串起来。这也是阿里云这次最值得对外建立认知的地方——它把话题从「我家模型又拿了第二」,往「企业怎么接住长时自主交付」这个更难、也更有价值的方向上引了一步。
这条从模型到工具链到平台的链路,最终要在真实研发团队里跑顺,交付质量、兜底成本和流程责任都要被纳入试点任务。决定权其实回到了企业自己手上:能把流程、检查点和验收标准重建到什么程度,决定了这套能力能为你兑现多少。
要换的不是模型,是团队的默认动作
把这件事放回组织层面,结论其实比「换哪个模型」更重。
当一个 AI 能顶两周的工作量,工程师这个岗位的重心会被往上推——从「写代码的人」变成「定义任务、审核交付、为长程 Agent 兜底的人」。所谓 AI 原生工程团队,和今天的研发团队差别不在用不用 AI,而在默认动作:今天的默认是人写、AI 辅助;AI 原生团队的默认会反过来,是 Agent 交付、人审核。这条线一旦反转,团队的角色配置、考核方式、质量责任的归属,都得跟着重排。
企业现在要回答的,已经不是「用不用 Qwen3.7-Max 或别的什么模型」,而是「要不要、以及如何重建一支以人审核、以 Agent 交付为默认的工程团队」。Qwen3.7-Max 进入 Code Arena 第一梯队、平头哥案例里那 35 小时无人值守,给的是一个明确信号:长时自主交付已经从厂商口号,变成了有第三方榜单、有具体工程场景佐证的当下议题。
真正悬而未决的,是这场组织变革的节奏。长时自主交付会先在内核优化、Web 应用构建这类标准化、可验证的工程任务里跑通,还是会长期卡在「最后一公里」的人工兜底上——前者意味着变革以季度计,后者意味着它以年计。这条分界线落在哪,不取决于哪个模型再多拿几分,而取决于企业把任务定义、检查点和验收标准重建到了什么精度。能力的门已经推开,接得住的是那些先动手重画分工线的团队。
极客一问
当编程模型从「答得准」转向「能独立跑完一个长程任务」,企业开发流程里哪些节点必须留人兜底,哪些可以默认交给Agent?



