日均 120 万亿 Token,火山引擎两年前的赌注开始兑现

摘要

带着 Seedance 2.0 和 ArkClaw 两件新武器,火山引擎开始席卷 MaaS 市场。

两年前,火山引擎说要 All in Token 的时候,很多人觉得这是一句正确但空洞的口号。彼时大模型的商业化还停留在「有没有用」、「用不用得起」的争论里,Token 这个词对大多数企业来说,更像是一个技术名词而非商业单位。

两年后的今天,国家数据局局长在中国发展高层论坛上说,中国日均 Token 调用量两年增长超千倍,全国科学技术名词审定委员会也给了 Token 中文译名(词元),一套以 Token 计费为基础的商业模式正在加速成型。

火山引擎无疑是这个模式的「领先者」。4 月 2 日,火山引擎在武汉举办了 2026 年 AI 创新巡展的第一站。会上,谭待宣布截至今年 3 月,豆包大模型日均 Token 使用量突破 120 万亿——三个月翻了一倍,两年增长了 1000 倍。同时,他在台上宣布了 Seedance 2.0 API 正式面向企业公测,并介绍了龙虾类智能体产品 ArkClaw 的全面升级。

火山引擎总裁谭待丨来自:火山引擎 AI 创新巡展·武汉站

火山引擎两年押注的那条路,今天被证明是对的。而今天的巡演,是它带着验证过的战略和两件新武器,加速向全行业推进的开始。

Seedance 2.0:不只是「生成视频」,而是「生产视频」

春节以来,Seedance 2.0 席卷全球。

这可能是真正第一个公认的国产 SOTA 模型。与之前的视频模型相比,Seedance 2.0 带来的是质的变化:不是谁的画质更好,生成时间长了几秒,或者在对口型、吃面这样某几个动作上表现更好——而是视频生成终于从「能玩」变成了「能赚钱」。

火山方舟试用 Seedance 2.0丨来自:火山引擎官网

Seedance 2.0 的技术突破集中在两个方向。

第一个是「多模态参考」能力。火山引擎大模型解决方案负责人张天劼在演讲中提了一个很朴素的判断:人类语言对图像和声音的描述永远是不充分的。创作者脑子里的画面,很难靠一段文字 prompt 完全传达给模型。Seedance 2.0 的做法是,让模型不只看 prompt,还看图片、看视频、听声音——在充分理解各种素材之后再去创造。

创作者扔几张参考图、一些过往视频、一段背景音乐进去,模型就能产出电影级画质的作品。更有意思的是,模型看多了参考素材之后,甚至会冒出自己的「创意想法」。现场展示了一段由 Seedance 2.0 自主编排脚本、自主生成的品牌素材,从创意到执行全程没有人工介入。

这个能力也顺带解锁了一种全新的创作方式:视频编辑。好的创作从来不是一蹴而就的,基于视频素材的参考,Seedance 2.0 可以对已有素材进行精准修改——改变风格、切换环境、增减角色。这甚至改变了「抽卡」这个概念的含义:过去抽卡是在多次生成中挑一个合格的;而 Seedance 2.0 抽卡,是让创作者在不同的创意之间做选择。

第二个突破是对物理世界的理解。通过在训练中统一建模「理解」和「生成」,Seedance 2.0 学会了物理规律。即使创作者没有精细描述生成细节,模型也会自动让画面「合理」——动漫打斗场景里的碰撞和反弹很自然,一镜到底的长镜头里多个人物与环境之间的交互很精准,油脂飞溅、彩带飘舞这些细节都处理得很到位。

技术好不好,最终还是要看能不能赚钱。火山引擎给了几个数据:今年春晚是 Seedance 交付的首个企业级大客户,屏幕上那些国风画面和视觉特效都由它生成;首批标杆客户福建奇想做精品动漫,每分钟成本从超过 1 万元降到 4000-5000 元,人力从 20 多人天降到 3 人天,综合效率提升近 10 倍。短剧领域更直接,3-5 人的小团队一周完成一部作品,上线几小时就能回本。广告团队用它批量生成千人千面的素材,点击率和转化率都有明显提升。

安全合规是 Seedance 2.0 敢放出来给企业用的另一个底气。Seedance 2.0 刚发布的时候曾因版权问题引起争议,甚至影响了其全球发布。而火山引擎推出的企业版搭了一套覆盖全流程、全模态的版权和肖像安全体系,从创作前、创作中到创作后全链路防护,对侵权和深度伪造行为进行检测和防御。

火山引擎在会上引用的第三方评测显示,行业平均异常率(VEO 3.1)大约为 20%,Seedance 的综合异常率只有 1.8%——远超行业水平。

还有一个容易被忽略但非常关键的数字:视频生成对 Token 的消耗量极大。火山引擎透露,生成 1 分钟 720P 视频,Token 消耗在百万级以上,而目前火山官网的定位,Seedance 2.0 生成模式的售价为 46 元/百万 Tokens。谭待也在采访中承认,视频生成已经成为驱动 MaaS 收入增长的超级引擎——随着 AI 视频创作从实验走向产业化,视频正在成为 Token 消耗的新主力。

ArkClaw:解决龙虾「用起来很爽、用下去很难」的问题

如果说 Seedance 2.0 释放的是人类的创造力,ArkClaw 要解决的就是 AI 的执行力。

龙虾是 2026 年最热的技术叙事。OpenClaw 让 AI 第一次能够连接真实世界、调用工具、执行任务,吸引了海量开发者涌入。但热归热,真正在企业里跑通的案例并不多。火山引擎云基础产品负责人涛涛在演讲中的总结很直接:OpenClaw 解决了「能不能用 AI」的问题,但没有解决「AI 能不能把事做完」的问题。

他把企业用龙虾的痛点归纳成四个词:不敢用、用不起、用不好、记不住。

不敢用,是因为龙虾直接操作系统和数据,一旦权限失控,后果很严重——你让龙虾帮你改个密码,它可能真的就改了,连确认都不带的。用不起,不只是说 Token 贵,更是配置门槛太高,需要大量手动操作,只有技术背景很强的人才搞得定,普通用户的上手成本很高。用不好,是因为龙虾有能力但不能闭环,做到一半就卡住了,缺少平台层面的上下游连接,后面还是得人工接手,整体体验像一堆散装零件而不是一个系统。记不住,是最大的隐痛——你今天花几个小时调教好的龙虾,明天可能就忘了你的偏好和要求,沟通成本一点没减少。田涛涛说,养好一只龙虾需要每天投入 4-5 个小时,持续 5-7 天。

ArkClaw 官网页面丨来自:火山引擎官网

ArkClaw 是火山引擎对这四个痛点的系统性回应。

安全方面,ArkClaw 从底层架构就做了原生安全设计。每个用户有独立的隔离环境,默认无公网 IP,所有通信走统一网关和强制认证。飞书、微信、钉钉过来的消息都要签名校验,内置信息防护机制可识别和拦截恶意指令。运行过程中持续做安全检测,高危操作需要人工二次确认。火山引擎还拿到了信通院关于龙虾类产品的两项权威认证——「智能助理智能体产品可信能力认证」和「安全防护产品有效性认证」,是国内唯一一家同时拿到这两项的厂商。

易用性方面,ArkClaw 做到了开箱即用。秒级配对飞书,也支持微信、钉钉、微博等多渠道。升级了网盘功能,本地和云端文件无缝同步,AI 可以直接批量处理云端的简历、报表、海报。加了浏览器智能控制能力,龙虾可以像真人一样操作网页——比如有公司把视频标注工作安排在夜间,让龙虾在凌晨自动打开标注平台完成任务,第二天早上直接拿到成品。

ArkClaw 还引入了 Skill,不仅接入了 SkillHub,还可以自我封装。如果一件事你需要做三次以上,就可以把它封装成一个 Skill,让龙虾自动执行。这些 Skill 可以在团队内共享,沉淀为企业的能力资产。田涛涛的说法是,「上一个时代我们说装一套软件,这个时代我们说养一只龙虾。」当企业里的 Skill 越来越多,就形成了一个专属的能力库,人在用 AI 而不是 AI 在用人。

在长期记忆这个最难的问题上,火山引擎联合开源项目 OpenViking 给出了方案。OpenViking 是专门为 Agent 设计的长期记忆系统,今年 1 月开源后在 GitHub 上一度登上榜首。它的核心思路是「统一和极简」——把龙虾需要的所有信息(知识、工具、任务、历史决策)按三层分级存储:L0 是摘要,L1 是概要,L2 是详细内容。执行任务时按需加载必要信息,既避免上下文噪声,又大幅降低 Token 消耗。它还会把 Agent 的决策过程、检索记录、犯过的错误都保存下来,实现记忆偏好、认知纠错、经验沉淀,让龙虾越用越聪明。

效果很显著:搭载 OpenWriting 后,OpenClaw 的任务成功率提升超过 40%,Token 成本降低约 80%。一周后再执行同类任务,龙虾依然会按照用户偏好和历史经验来操作。

谭待还提出了一个值得关注的企业级 Agent 实践模式:他认为企业 Agent 建设应该「敏态」和「稳态」并行。敏态以 ArkClaw 为代表,鼓励一线员工自由探索、激发创新,解决「怎么成为一个更好的销售」「怎么成为一个市场高手」这类个人生产力问题。稳态由 HiAgent 承载,当找到 AI 最佳实践后,把它流程化、规范化、规模化落地。敏态是创新实验场,稳态是生产车间,两条线互补共生,形成从探索到转型的进化飞轮。

两年前就想清楚了的事,今天开始兑现

把视角拉远来看,这次武汉站活动最值得玩味的,可能不是某一个具体产品,而是火山引擎过去两年战略的「兑现时刻」。

回到 2024 年 5 月,豆包大模型第一次发布。当时行业里的普遍讨论还在「模型能力」层面打转,而火山引擎已经把 MaaS 确立为最高优先级。谭待那时说了一句话:「只有大的调用量,才能打磨出好模型。只有在真实场景中落地,用的人越多,调用量越大,模型才会越来越好。」

这句话暗含了火山引擎整个竞争策略的三根支柱:模型能力是根基,基础设施是保障,成本是撬动用户的杠杆。

模型能力方面,从豆包 1.0 到 2.0,火山引擎保持了高频迭代节奏。最新的 2.0 系列在多模态理解、视觉推理、复杂任务执行等核心能力上跻身全球第一梯队。而 Seedance 2.0 这个 SOTA 模型的推出,更是帮助火山在视频场景拉开了竞争差距。

基础设施方面,MaaS 的核心逻辑是用户不需要关心底层部署——不用自己买卡、自己维护机房、自己跟着模型每半个月的更新节奏调整部署方案。以 Token 为单位按需调用、按量付费,这种「Token 工厂」模式是模型最经济、最便捷的使用方式。火山引擎用自身的推理基础设施,把这个工厂的效率和稳定性推到了行业前沿。

成本方面,2024 年率先打响大模型价格战,用极具竞争力的 Token 定价迅速扩大市场份额。低成本不是目的,而是做大调用量的手段——调用量大了模型更好,模型更好场景更多,场景更多调用量更大,飞轮就转起来了。

两年下来,飞轮转出了什么成果?MaaS 调用量增长 1000 倍。累计 Token 消耗超万亿的企业从 100 家增长到 140 家。在所有云厂商中,火山引擎也是唯一一家从 2024 年 5 月起就持续追踪并公布 Token 公有云调用量的平台。这不仅出于信息同步,更是在用 Token 调用量来定义自己的业务健康度。

而现在,两个新变量的叠加,让火山引擎的先手优势被进一步放大。

Seedance 2.0 带来了视频生成的产业化。1 分钟视频就消耗百万级 Token,当 AI 视频从实验走向量产,它就是 MaaS 收入增长最强劲的引擎。火山引擎不仅有全球领先的视频生成模型,还为它配好了安全合规体系,在商业化落地的速度和深度上都跑在了前面。

龙虾的爆发带来了 Agent 场景的井喷。每一次 Agent 任务可能涉及几十上百轮工具调用,消耗数十万 Token。龙虾让更多人第一次体验到了购买模型 API、感受 Token 这个「新货币」的过程。此外,龙虾的出现,也让 AI 应用的单元从前两年的「行业」变成「职能」,任何行业公司的 HR、销售、人力岗位,都可以通过龙虾解决问题,这极大加速了 Agent ToB 的应用落地。

Seedance 2.0 加上 ArkClaw 与飞书的深度整合,构成了火山引擎在 2026 年最重要的两件武器。一个释放创造力,一个释放执行力,两者共同驱动 Token 消耗的爆发式增长。

采访中有一个很有趣的细节:当被问到更多大厂开始重视 MaaS,火山引擎如何应对时,谭待说对于火山引擎,因为两年前其实就把这事想得比较清楚,在组织上,在产品上就针对性地做了很多优化,所以现在反而不需要做什么调整。

回头看,火山引擎可能是国内最早想清楚 MaaS 这件事的云厂商。它不是走一步看一步,而是在两年前就看到了终局——模型能力、基础设施、成本三位一体,Token 就是 AI 时代的水电煤。今天 120 万亿日均 Token、带着两个新武器杀向更广阔的市场,这些不是偶然堆出来的成果,而是一条一以贯之的战略在时间维度上的兑现。

武汉只是第一站。谭待在开场就明确说了,这是「2026 年火山引擎 AI 城市创新发展的第一站」。接下来,火山引擎会以巡演的方式,把 Seedance 2.0 和龙虾这两件利器带到全国各个城市,深入各行各业的毛细血管。

这场席卷,才刚刚开始。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。