当硅谷转向「世界模型」，中国视频公司选择先把钱赚了丨对话 Sand.ai

整理 | 曹思颀

采访 | 张鹏、曹思颀

2026 年，在以 OpenClaw 为代表的 Agentic AI 成为整个 AI 圈「超级共识」的同时，视频模型却开始走向另一种分化。

在美国，OpenAI 已关闭 Sora 的独立产品形态，视频生成在其当前优先级里明显后撤；Runway、Luma AI 等创业公司也开始把叙事的中心转向「世界模型」。

而国内则呈现另一番景象：视频模型正在成为大厂下一阶段必争的多模态能力。无论是字节旗下的即梦，还是快手旗下的可灵，这类视频生成产品正在从大众娱乐场景，进一步渗透进付费意愿更强的专业创作者群体。

Sand.ai 是这轮分化里一个值得观察的创业样本。他们的核心产品 VidMuse 主打「Music in，Video Out」的产品形态，把音频放到产品最核心的输入位置。据了解，VidMuse 自年初上线以来，ARR（年度经常性收入）已超千万美金。

近期，Sand.ai 宣布完成了新一轮约 5000 万美元的融资，极客公园也和 Sand.ai 创始人曹越、VidMuse 产品负责人张子贺Zake 进行了当面沟通。在 Sand.ai 看来，音乐的重要性并不因为它对应某一类内容或用户，而在于它可能成为 AI 时代视频创作更底层的输入起点，也天然连接着更强的创作意愿。

与此同时，Sand.ai 还坚定地选择了既做产品又做模型的「双轮驱动」路径：先用市场上效果最好的模型为产品找到 PMF，再用自家的模型回到关键节点换效果、换成本、换毛利。无论从精力、能力还是资源上看，这都不是一条轻松的路。但在曹越看来，这恰恰是创业公司相对巨头的一种优势：在这里，模型和产品更容易服务于同一个目标，而不会彼此分裂。

而这条路径真正指向的，不只是一个更强的视频生成工具，而是一个能够长期协作的「数字制片团队」。在 Video Agent 这种新的产品形态下，用户更像一个「出资方」：不再需要充当导演反复 prompt 奖戏，而是可以把创作目标安心托付给一个能够长期信赖、持续调用的创作伙伴。

以下是整理后的访谈内容：

Part.1：视频模型生成的「中美分野」

极客公园：你们关注到最近很火那个 HappyHorse 了吗？

曹越：看到了，还挺有意思的，好多人拿推特上一个分析的帖子来问这个是不是我们的模型。我后来发现，是有个网站上面就直接把我们 Magihuman tech report（Sand.ai 最新开源的模型）内容转成网页，名字是 HappyHorse。（笑）不过我们的新模型在训练中，会尽快推出，很大概率会直接开源出来，希望整个行业一起加速推动。

极客公园：所以是个 fake news。但最近你们一边内测新产品 VidMuse 2.0，一边开源了一个基模，在外部看来是个有点反共识的决定。今天大家都在强调商业化和闭源，你们为什么选择开源？

曹越：我觉得开源的本质之一是提升品牌价值，有的时候也能够降低获客成本。比如 DeepSeek-R1 那次开源，大家一开始也未必能想到带来了那么好的效果，起到了很好的作用。

对我们来说，去年 4 月我们发布 Magi-1 的时候，就开源了那个模型，子贺当时还在北欧读书，也是看到这个开源模型之后找到我们的。

极客公园：今天很多投资机构也是在 GitHub 上通过开源项目找创业者。所以视频模型这个赛道，今天发展到了什么阶段？

曹越：这件事已经进入了一个「节奏分化」的阶段：有些方向会先成熟，有些方向会更晚成熟。现在最明确已经成立的，是用视频模型来替代实拍。

过去如果要做一段内容，需要租场地、灯光、演员，再进入拍摄流程；现在则越来越多地变成「写好 prompt，点击生成」。这一能力首先服务的是一群本来就在做内容生产的专业创作者，帮助他们替代过去的实拍环节。

因此，现阶段最成熟的不是泛娱乐消费，而是有明确目标的内容生产。随着模型能力变强，这部分创作者使用 AI 的比例在持续提高，而且这类人本来就有生产需求、也更愿意付费。过去接近两年里，可灵、Runway、Seedance 的增长，都是建立在这类场景之上，典型应用包括短视频内容、广告电商、短剧等泛内容生产。

极客公园：中美对待视频模型的整体态度，有什么不同？

曹越：我认为，中美团队的差异实质上来自过去十年的产业和产品环境不同。

在北美，过去十年 C 端的大钱更多被 Meta 这样的巨头拿走，真正以 C 端产品为核心的创业公司相对少，因此大量创业公司更习惯在 ToB SaaS 上挣钱。

而过去十年，微信、短视频等产品形态是中国最热的产品，因此整个市场对 ToC 场景的感知更强。所以，在视频生成这件事上，中国公司会更重视它的价值，也更相信它能很快产生商业回报。

某种程度上，我理解 OpenAI 停掉 Sora，可以看成把更多算力资源倾斜到了 coding 这个方向。相较之下，中国公司看起来更重视视频生成，因为它已经是除 coding 之外最明确的大场景之一，而且商业价值也更容易被验证。

Sand.ai 创始人曹越，此前曾任光年之外联合创始人 | 图片由受访者提供

极客公园：具体到大公司和创业者，他们都做了什么？你有关注美国那边 Runway 最近的动作吗？

曹越：我们其实没有特别关注 Runway。因为看起来，他们在「面向创作者的纯视频生成」产品层面，似乎没有再进行特别大规模的投入，整体叙事越来越偏向「世界模型」，包括 Luma AI 也是这样的。相比继续强化产品，美国的创业者更聚焦在强化模型，以及模型继续演进的方向。

极客公园：所以他们是「弱化产品、强化模型」？

曹越：对，硅谷我认为是这个趋势。

在中国，产品则会更快地进入商业化阶段。以 Seedance、可灵为代表，中国的视频模型可以更快实现付费的闭环。不过，虽然在语言模型上，国内和国际最领先水平仍有 gap，但在视频这个方向上，我认为中国公司的模型能力已经处在世界第一梯队了，这也是它们更容易率先把商业场景打出来的原因。

Part.2：为数不多的技术共识：音画同出、多镜头叙事

极客公园：视频模型的技术路线，今天收敛了吗？

曹越：没有收敛。至少现在还没出现像语言模型里 coding 那样，所有人都必须死磕、不能落后的统一方向。

目前视频模型的竞争，更像是不同团队在不同方向上做强化选择。例如多镜头叙事这件事，目前 Seedance 是处于领先地位的，但我们认为这并不来自不可复制的绝对技术壁垒，更是「更早选择了这个方向，并更早把它做好」的判断，从而获得了大约三个月左右的领先周期。

其实，从过去两三年模型能力的进展看，一家公司做出的能力，其他公司往往会在很短时间内跟进，快则两三个月，慢则三到六个月。所以，竞争核心不完全是长期技术壁垒，也包括阶段性的判断和选择。

极客公园：那么过去一年，视频模型层面最关键的技术突破是什么？

曹越：我认为是音画同出和多镜头叙事。

Google Veo 3 是最早做出音画同出的模型之一，我们后来也很快跟进了。它的关键价值在于：人物的基础表演会变得更细腻、更逼真，尤其是口型、声音、动作之间的同步，会让人物看起来没那么像一个 AI 合成的人，而更像真实表演。

极客公园：那多镜头叙事呢？

曹越：多镜头叙事的重要性，其实更多是在它被做出来之后，行业内才突然意识到。因为它显著提升了叙事型视频的质量和真实感。

如果只是单镜头生成，即便画面本身很好，人依然会隐约觉得「不太对劲」。因为人天然生活在 3D 空间里，对空间是否真实有非常敏锐的感受。多镜头叙事能在一段短视频里，让同一个场景从不同视角被表现出来。比如先从一个角度拍一个人说话，再切到另一个角度拍另一个人回应。这样一来，观众会迅速建立起对这个场景的空间感，整体也就显得更真实、更舒服。

另外，现实世界里本来就存在大量天然对齐的信息。画面和声音是对齐的；同一个空间里的不同视角也是对齐的。过去如果模型只处理单镜头、无声音的内容，其实就等于没有利用这些现实中天然存在的信息。一旦把这些不同维度的信息一起灌进同一个模型里，生成效果就会显著提高。

极客公园：听起来是一个不断升维的过程，从静态画面，到动态画面加声音，再到同一空间内的多视角表达，能力是一层层往上叠加的。叠到某个临界点后，用户才会突然觉得「这个东西真能用了」。

曹越：这其实就是多模态的本质：把物理世界里原本已经对齐的信息，用同一个模型统一起来。

极客公园：视频模型领域，会不会出现一个类似 coding 之于语言模型那种「皇冠上的明珠」？如果会，它是什么？

曹越：如果现在就让我给一个已经完全收敛的答案，我觉得还没有。但我认为视频模型下一步非常关键的方向，很可能是更强的上下文理解、thinking，以及由此带来的更细腻的表演能力。

今天的模型已经能做到一部分事情。比如你给一张照片，再给一个比较具体的描述，它已经可以让这个人带着某种情绪去说一段台词，而且画面和声音是一起生成的，所以对齐度会比较高，你会觉得它比较真。

但这还只是比较粗的层面。如果想要更细腻地表达一段音画同出的内容，我觉得模型需要的不是更简单的一对一映射，而是 thinking。也就是它看到一整段 prompt 之后，不是直接把「愤怒地说」映射成一个表情，而是先理解上下文：这个角色是谁，之前发生了什么，这个场景是什么，他应该怎样表达。只有这样，表演才会更细腻，也更贴合场景。

现在，还没有模型能真正做到这一点，但我觉得这会来得很快，而且会是下一个非常关键的 breakthrough。

Part.3：从创作者到「视频投资人」

极客公园：聊聊你们在内测的新产品 VidMuse 2.0 吧。我看了你们的介绍，交互逻辑是「Music in，Video Out」，这次核心的升级是什么？

张子贺：VidMuse 2.0 的核心，不是多了几个功能，而是重新做了 agent 的框架。

之前市面上的很多 Video Agent，包括我们自己 1.0 的状态，都会更像一个「带着脚镣」的 agent：它只能按你预设好的 workflow，一步一步往下走。

但视频创作本身不是一个线性的流程，它是一个很发散的过程。所以 2.0 的核心升级，就是从这种 Workflow 式、强编排的工具，转向一个更开放的 Video Agent。我们想做的是，尽量把原来加在 AI 身上的那些手链、脚链放开，让它自己去发挥智能，顺着用户需求和创作过程流动。

极客公园：现在大家都开始放开缰绳、少编排，更多交给 agent 创造好环境，VidMuse 2.0 基本就是往这个思路走的，对吗？

张子贺：是的，因为视频创作这件事本身非常社区驱动。社区里会不断冒出新的玩法、新的创作习惯、新的表达方式。如果每次社区冒出一个新想法，如果我都要靠人力、物力再去迭代一个新功能，那这个产品是永远追不上的。哪怕有各类 coding agent 提效，你也不可能真的 24 小时在线去手工支持所有这些变化。

所以，从产品角度看，把 AI 绑在固定 workflow 里，是追不上创作演化速度的。

极客公园：既然你认为它是一个 Video Agent，那它对标的是什么？

张子贺：我们从一开始就不是把它当成一个单点工具，而是把它当成一个「完整的乙方」或者「制片团队」。我们看到很多 AI 时代的创作者，为了做一个完整视频，要在 DeepSeek、Midjourney、生图工具、生视频工具之间来回穿梭，自己搭管线，门槛很高。我们当时看到的机会就是：能不能在这些工具之上架一个 agent，把它变成一个完整的制片团队。用户不需要再自己穿梭在各种工具里，只需要说目标，agent 去组织流程、调度 agent，最后把视频交付出来。

极客公园：这个形态下，用户其实就成为了制片人或者投资方。「烧」Token，然后得到满意的成片。

张子贺：是的。

VidMuse 产品负责人张子贺Zake | 图片由受访者提供

Part.4：音乐是 AI 时代的视频创作起点

极客公园：我听说有人把 VidMuse 看成一个 MV 场景的垂类产品？你们肯定是奔着一个通用目标去的吧？

张子贺：我想专门澄清一下。我们内部从来没有说过自己只做 MV，也从来没有把自己定位成一个 MV Video Agent。

一开始我们也走过一些弯路。最初的想法是，模型能力本来是通用的，那产品也应该尽量通用，不要给模型太多预设。但真正做的时候你会发现，如果所有场景都想覆盖，产品很难跨过那个「用户愿意付费」的阈值，所以它必须收敛。

问题在于，怎么收敛。很多人会按内容类型去切：音乐、漫剧、广告，分别做成不同产品。但我不太认同这种切法。因为如果你按内容类型把产品框死，它后面一旦要辐射更多场景，往往就得重构。我们最后选择的不是按内容类型切，而是按创作链路去切。也就是说，我不是先定义「我做的是 MV」，而是先定义：AI 时代的视频创作，到底是沿着什么链路往前走的。

极客公园：所以你们是会顺着「创作意愿」去找用户？音乐为什么会成为更好的切入口？

张子贺：我越来越觉得，音频是一个比图片和文字更适合切入的连续信息。图片和文字更像是离散的，但音频，尤其是音乐，是连续流动的。

我们刷了很多 Twitter、YouTube 火的纯 AI 生成视频，发现它们有一个很明显的共性：很多作品其实都是通过音乐或者音频去 drive 整个创作链路。所以我当时才会说，音乐其实像这个视频的骨架。

所以我会觉得：AI 时代的视频，不一定还需要传统剪映式的软件逻辑，而更可能是沿着音频驱动的链路往前走。我们后来选择从音乐切，不是因为「MV 这个品类本身」，而是因为我觉得在音频里，音乐占了一个非常大的部分，它是最自然的入口。

极客公园：如果顺着这个逻辑往外延展？MV 之外还可能是什么？

张子贺：这套理解后来又延伸到广告。我觉得，广告里很多真正让人记住的东西，不只是画面和文案，还有旋律。一个词配上一段洗脑的音乐，再配上简单但强记忆点的画面，信息传递会被明显放大。

极客公园：所以从更长远的角度看，你们会认为「文字、画面、旋律」看成一种更高维的内容格式，而不是把音乐只当成一个附属元素。

张子贺：是的。

VidMuse 的产品界面

极客公园：选择「Music in」，跟用户画像有关系吗？

张子贺：有，而且关系很大。

我们有一个很明确的判断：很多 Video Agent 在增长上会遇到瓶颈，因为你很难凭空创造用户的「创作意愿」。一个人如果本来没有生产视频的意愿，你很难让他突然开始做这件事，ROI 也很难算正。但从音乐切就不一样。因为有音乐的人，天然已经有创作意愿，让他从音乐顺理成章地过渡到视频，投放和增长的 ROI 会更正，这也是我们增长比较快的一个原因。

所以，音乐不是随便选的流量入口，而是和「创作意愿」直接相关。

极客公园：你们现在的用户画像，大概是怎样的？

张子贺：我会把他们大致分成两类。

第一类就是音乐相关用户，不管是传统音乐人，还是 AI 音乐人。后者其实占了很大一部分——比如 Suno 赋予了他们创作能力，他们从原来只是音乐爱好者，慢慢成长到会频繁发布自己的歌，希望有更多人听到。

但光有音乐还不够。你把音乐发在 Spotify 或 SoundCloud 上，真正能听到的人还是有限；流量更大的地方是 TikTok、Instagram、YouTube。这样一来，他们就天然需要一个视频媒介。所以我看到的第一批核心用户，其实就是：他们很会做音乐，但不会做音乐视频。他们本来就在音乐这个模态里很专业，来到 VidMuse，是为了补上「从音乐到视频」这一步。

极客公园：那么另一类呢？

张子贺：我们内部把他们叫做泛生活化创作的人。

这类人的创作内容更偏生活和个人表达，比如年会视频、孩子成长、朋友生日、家庭纪念日，这些都算。这个方向本身就是一个新发现，因为过去这类人其实很容易被忽视。

更让我们印象深的是，里面还有一部分是非常强的个人情绪表达。有人会用它创作一些关于童年、家庭关系等等题材的视频。他们很多时候其实已经有一首自己的歌，然后用这个产品去把那首歌对应成自己心里真正想要的画面，一遍一遍调。这里面有些内容甚至不会发到任何平台上，它不是为了传播，而是为了表达和宣泄。

这类用户很重要的一点是：他们上传的往往是非常隐私的照片和故事。他们未必愿意把这些内容交给一个人类创作者，但愿意交给一个工具或 agent 去完成。所以我会觉得，这里已经不只是普通的内容生产，它更接近一种个人纪念、情绪整理，甚至某种自我疗愈式的创作。

Part.5：创业公司更容易搞定「双轮驱动」

极客公园：如果通过编排和加 skill 的方式，用 OpenClaw 做一个类似的产品，那你们自己的模型在 VidMuse 里到底扮演什么角色？你们的模型和产品之间，是强耦合还是弱耦合？

曹越：我们内部从一开始就是双轮驱动。

产品不应该被模型掣肘，产品的目标是服务用户、把规模做大，所以不应该带着镣铐跳舞，哪怕这个镣铐是金的。对我们来说，哪个模型能让产品跑得更快，就应该调用哪个模型；我们从一开始就没有要求产品必须用自家模型。

但换一个角度，模型团队在很多场景下又确实要支持产品。比如我们做 Music Video，第一步就需要更准确地分析音乐，识别节奏、卡点这些细颗粒度信息，这时候模型团队就可以过来支持，把音乐分析做得更准。再比如在视频生成里，有些场景用我们自己的模型效果更好，或者成本更低，这些也都能直接支持产品。

所以这不是简单的强耦合或者弱耦合。更准确地说，产品先按自己的节奏跑，模型在关键环节提供支持：一方面提升效果，另一方面降低调用 API 的成本，提高毛利，帮助产品跑得更大。

极客公园：双轮驱动肯定好，但也肯定难。

曹越：我的感受是，创业公司更容易把双轮驱动搞定。原因不是团队小本身，而是创业公司里更容易有一批真正处在 founder mode 的人。无论是做业务、做产品，还是做模型的人，只要他们心里的目标和公司的目标是对齐的，这件事就好推动。

反过来，如果一个做模型的人心里想的是「我要做一个特别的模型，公司好坏跟我关系不大」，那他的目标其实只对齐在模型这条线上，这就不是双轮驱动，而是单轮驱动。

所以真正决定双轮驱动能不能成立的，不是形式上公司里同时有模型和产品，而是两边负责人是不是都相信：同时拥有模型和产品，对公司整体是更有利的。

极客公园：具体来说，你们是怎么处理「先用最好模型把产品跑起来，再把关键能力收回来」这个问题的？

曹越：从产品 0 到 1 去找 PMF 的阶段，如果一开始就和自家模型绑得太死，验证周期会被拉长，不利于快速验证、快速找到 PMF。所以我们过去这段时间的做法是，先拿效果最好的模型把产品搭起来。

这个阶段我们不会先优先考虑成本，而是先看它能跑到什么状态，这个产物能不能交付，能不能形成商业闭环。等这条链路先跑通以后，我们再看有哪些地方值得优化、值得收回来。

所以这件事不是一开始就要求产品必须用自家模型，而是先让产品按自己的节奏跑起来；模型团队在关键环节提供支持。一方面把效果做得更好，另一方面把调用 API 的成本降下来，提高毛利，帮助产品跑得更大。

Part.6：信任关系才是最深的护城河

极客公园：你们现在商业收入跑到什么程度了？

张子贺：VidMuse 从 1 月中旬上线开始，大概两个月时间，跑到了 1000 万美金的 ARR，而且还在涨。基本上是单周 20 多万美金的收入，并且已经比较稳定。

收费方式上，我们现在是订阅+加油包。注册用户有免费 1000 积分，可以先起一个项目。

极客公园：1000 积分是什么概念？

张子贺：大概能把一个 30 秒左右的视频项目推进到比较后面的阶段。

极客公园：付费转化率、客单价怎么样？

张子贺：注册到付费的转化大约在 5%-7%。客单价一直比较高，因为用户需要先订阅，再买加油包，有些人最后会直接升级到更高阶版本。

极客公园：继续往后走呢？VidMuse 3.0、4.0 还要补齐什么能力？产品边界会怎么变？

曹越：3.0 或 4.0 应该是一个更彻底释放的状态：用户提一个原来产品里没有的功能，它也能想办法调动自己拥有的资源，把这个问题解决掉。

这件事会越来越依赖更通用的 agent 能力，尤其是 coding agent 的能力。因为社区里会不断冒出千奇百怪的需求。你得有一种能力，能顺着用户的需求流动，用户给你一个链接、一个帖子、一个教程，你能理解里面的方法，然后把它实现出来。产品会更少依赖预设功能，而是更顺着用户需求流动。

极客公园：听起来，未来的产品会越来越「无为」。从长期看，Sand.ai 的护城河是什么？怎么留住用户、沉淀长期价值？我相信不止是模型能力吧？

曹越：现在 AI agent 产品最大的问题之一，是稳定性很差，很难和用户建立可信赖的关系。

所以我们的思路是：先解决各种幻觉，尤其是多轮对话里小幻觉被不断放大的问题，让用户敢信你。我们希望用户在创作结束时，留下的是「thank you」、「good night」这样的情绪，而不是被激怒、被消耗。第一步先是建立信任感。

第二步，是让用户愿意留在这里。好的产品要在使用过程中不断认识这个人、了解这个人、理解他喜欢什么。比如用户已经明确说过自己喜欢诺兰，就不要再给他推别的导演风格；用户说过自己不喜欢紫色，后面的场景、分镜、脚本设计就不该再往这个方向走。

所以，memory（长期记忆）和信任关系是我们 Video Agent 的灵魂。