Qwen 自主编程35小时，团队人机分工线该怎么画

当一个模型可以无人值守连续运行、自发上千次工具调用，把两周的活压进几小时，企业要判断的就不再是用哪个模型，而是任务拆解、回归测试、合并验收这些原本由人把守的环节，哪些必须留人、哪些可以交给Agent。

先说一个容易被排名热闹盖过去的细节。

在平头哥真武 M890 这块没有文档、也没有参考代码的新芯片上，Qwen3.7-Max 据国内媒体披露，在大约 35 小时里自己完成了内核编写、编译、性能分析和迭代优化，全程没有人接管，期间跑了上千次工具调用。这不是「又快了多少」那种进步，而是一个模型第一次把「长时间无人值守、自主交付一个完整工程任务」摆到了开发团队面前。

几乎同一周，它在第三方编程榜单 Code Arena 上以 1541 分被称作「全球第二编程模型」，紧随 Claude 之后。名次当然好看，但更值得追的是那块芯片案例代表的工作方式——把过去需要两个高级工程师两周才能交付的活，压进几个小时，全程无人值守。

如果这件事能稳定兑现，那么团队里那条「人该做什么、机器做什么」的分界线，恐怕要重画一次。过去我们熟悉的是代码补全、对话式 Copilot：人写一段、它接一段，人始终在每一步里。而「长时自主交付」意味着模型不再只对齐你这一句提问的偏好，而是对齐一个被定义好的任务目标，自己拆解、自己执行、自己迭代——人退到了任务定义和交付审核这一端。

「上千次工具调用」改写的，是模型对齐的对象

代码补全也好，对话式 Copilot 也好，本质都是一种「人在环里」的协作：你提一句需求，它给一段代码，你看一眼、改一改、再问下一句。模型对齐的是你这一次提问的偏好——答得像不像、合不合你的口味。它的能力边界，被框在「一问一答」这个回合制里。

而连续 35 小时、上千次工具调用意味着完全不同的东西。据国内媒体披露，432 次内核评估、1158 次工具调用，整个过程没有人接管。模型对齐的不再是某一句提问，而是一个被定义好的任务结果。

这正好对上了阿里巴巴通义大模型事业部负责人周靖人在 5 月 20 日阿里云峰会上发布 Qwen3.7 系列时给出的那句判断：大模型正在从「对齐人类偏好」转向「对齐任务目标」。当时这话听起来像一个战略口号，等 Code Arena 在 5 月下旬放榜、平头哥案例被披露出来，它才落到了一个能被讨论的具体场景上。

这是一句容易被排名盖过去、但更要紧的变化：竞争焦点正在从「单次问答质量」移到「能不能独立跑完一个长程任务」。

Code Arena 由 LMArena 发起，评测方式不是做静态代码题，而是让模型从零构建一个完整、可交互的 Web 应用，再交给真实开发者盲测投票。它衡量的不是「这道题答得对不对」，而是「这个模型能不能交付一个能用的东西」。Qwen3.7-Max 在这个榜单上拿到 1541 分、在大模型厂商中位列第二，紧随 Claude 之后，超过了 GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6——这个位置真正的含义不是名次，而是它进入了「能跑长程任务」的第一梯队。

那么人该退到哪一步，又必须守在哪一步

过去的研发流程，是把一个大需求拆成若干小任务，每个环节都有人把守：有人做任务拆解，有人写代码，有人在中途 review，有人跑回归测试，有人最后做合并验收。长时自主交付的诱惑在于，它能把中间那一大段「写代码—自测—迭代」打包交给 Agent，让人从执行端整体上移。

但一个能连续跑几十个小时的 Agent，最大的风险恰恰也在「连续」二字上。它在第 3 小时跑得很好，不代表第 20 小时不会沿着一个错误的方向越走越远。长程任务的价值在于无人值守，长程任务的风险也在于无人值守。 这就决定了人不能简单地全退出去，而要换一个站位——从「在每一步里」变成「守在几个关键闸口上」。

哪些闸口必须留人，其实有迹可循。任务定义这一端必须留人，目标定歪了，它会非常高效地交付一个错的东西。交付验收这一端必须留人，合并进主干前的回归测试、安全审查、性能确认，是机器跑分回答不了的。中间还要留至少一个可中断、可回滚的检查点，让人能在 Agent 跑偏时把它拦下来、把状态恢复回去。

这套站位，决定了企业不能把「35 小时自主运行」直接理解成「省掉一支团队」，而要理解成「把工作重心从写，挪到定义和审」。能挪多少，取决于任务本身有多可验证——内核优化、Web 应用从零构建这类有明确成功标准、能自动化测试的工程任务，最容易先跑通；而验收标准模糊、依赖业务判断的活，人工兜底的比重还会很高。

选型时，榜单分数其实排在后面

正因为风险集中在长程和无人值守上，企业真要把这种能力用进生产，选型的决策变量就和「谁榜单分高」不完全是一回事。

榜单能告诉你的，是这个模型有没有进入第一梯队。Qwen3.7-Max 的成绩并不只来自 Code Arena 一处——据公开报道，它在 TerminalBench 2.0 得 69.7、SWE-Pro 得 60.6、SciCode 得 53.5、办公自动化的 SpreadsheetBench-V1 得 87.0；按 Artificial Analysis 的数据，其综合能力得分 56.6，排在全球第五、国产第一。这些跨榜单的成绩交叉起来，说明它的编程能力不是单一榜单的孤证。但这些数字证明的是「答得准」，而企业要赌的是「能不能稳定跑完」，这两件事并不自动等价。

对采购方真正要紧的，是几个榜单不直接告诉你的变量：长程任务在多次调用下的稳定性和失败率、工具调用的可靠性、中断之后能不能恢复、以及把它接进现有研发体系的迁移成本。

迁移成本这一点，Qwen3.7-Max 的 API 同时兼容 OpenAI 与 Anthropic 协议，已经基于这两套协议搭好工具链的团队，可以用很低的改造成本把模型换进来试，而不必为了试一个新模型重写整套调用层。在企业普遍采取多模型策略、不愿被单一供应商锁死的当下，协议兼容本质上是在争一个「可被默认调用」的位置：迁移门槛越低，它越容易成为团队工具箱里随手就能换上的那一个。

成本同样是绕不开的变量。综合报道提到 Qwen3.7-Max 的调用成本约为 GPT-5.5 的 1/28，阿里云也针对它放出了 100 万 Token 免费试用和新用户限时五折。这类数字有很强的时效性，但它指向的方向是清楚的：长程任务动辄上千次工具调用，单位调用成本会被规模急剧放大，成本结构直接决定了一家企业敢不敢把 Agent 用在高频、长程的场景里，而不只是拿来做个 demo。

更务实的选型逻辑，是先用可控的试点任务去验证稳定性、失败率和单位成本这几个真实变量，再决定把多大比例的工程量交出去——榜单分数是入场券，落地条件才是决策变量。

从「模型能跑」到「企业敢交付」，中间缺的那一块

把上面几件事连起来看，一个强模型解决的只是「能不能跑」，离「企业敢不敢把交付压上去」还隔着一段距离。这段距离，正是阿里云这一轮布局想补的地方。

任务怎么定义、检查点怎么设、产出怎么进审核流程、调用怎么计量和分发——这些都不在模型里，而在模型之外的工具链和平台里。据阿里云官方布局，Qwen3.7-Max 之外还有桌面AI智能体 QoderWork，以及承担模型 API 服务与分发的百炼平台；峰会上阿里云也提到针对 Agent 负载特点调整了云服务架构，并推出了面向 Agent 的「千问云」。这条链路想讲的，是把一次性的模型能力，沉淀成企业可重复调用、可管理、可交付的基础设施。

模型层负责「能跑完长程任务」，工具链层负责「让团队能定义任务、管理流程、审核交付」，平台层负责「让能力可计量、可调用、可规模化」。一个企业要从「模型能跑」走到「敢把交付压上去」，缺的从来不是某一个更高的分数，而是这三层能不能在自己真实的研发组织里串起来。这也是阿里云这次最值得对外建立认知的地方——它把话题从「我家模型又拿了第二」，往「企业怎么接住长时自主交付」这个更难、也更有价值的方向上引了一步。

这条从模型到工具链到平台的链路，最终要在真实研发团队里跑顺，交付质量、兜底成本和流程责任都要被纳入试点任务。决定权其实回到了企业自己手上：能把流程、检查点和验收标准重建到什么程度，决定了这套能力能为你兑现多少。

要换的不是模型，是团队的默认动作

把这件事放回组织层面，结论其实比「换哪个模型」更重。

当一个 AI 能顶两周的工作量，工程师这个岗位的重心会被往上推——从「写代码的人」变成「定义任务、审核交付、为长程 Agent 兜底的人」。所谓 AI 原生工程团队，和今天的研发团队差别不在用不用 AI，而在默认动作：今天的默认是人写、AI 辅助；AI 原生团队的默认会反过来，是 Agent 交付、人审核。这条线一旦反转，团队的角色配置、考核方式、质量责任的归属，都得跟着重排。

企业现在要回答的，已经不是「用不用 Qwen3.7-Max 或别的什么模型」，而是「要不要、以及如何重建一支以人审核、以 Agent 交付为默认的工程团队」。Qwen3.7-Max 进入 Code Arena 第一梯队、平头哥案例里那 35 小时无人值守，给的是一个明确信号：长时自主交付已经从厂商口号，变成了有第三方榜单、有具体工程场景佐证的当下议题。

真正悬而未决的，是这场组织变革的节奏。长时自主交付会先在内核优化、Web 应用构建这类标准化、可验证的工程任务里跑通，还是会长期卡在「最后一公里」的人工兜底上——前者意味着变革以季度计，后者意味着它以年计。这条分界线落在哪，不取决于哪个模型再多拿几分，而取决于企业把任务定义、检查点和验收标准重建到了什么精度。能力的门已经推开，接得住的是那些先动手重画分工线的团队。

极客一问

当编程模型从「答得准」转向「能独立跑完一个长程任务」，企业开发流程里哪些节点必须留人兜底，哪些可以默认交给Agent？

最新文章