大模型卷算力，vivo 悄悄押注了「看懂世界」

当算力开始同质化，感知才是真正的护城河。

作者｜张勇毅

编辑｜靖宇

失明九年的宝哥，把手机举向南澳渔船上的陌生人。

他什么都看不见。但耳机里传来了 AI 的声音：「面前是你的朋友章喜德，他双臂交叉，面带微笑，穿着一件深色长袖。」

这是 vivo 总裁、首席运营官，vivo 中央研究院院长胡柏山在今年博鳌现场的演讲中提到的一个故事。

vivo 总裁胡柏山｜图片来源：vivo

在这个用户使用场景中，手机替他看见了世界。不是「拍了一张照片」，而是真正地看见——识别出了一个人，读出了他的姿势、表情和穿着，然后把这一切翻译成宝哥能接收的信号。这是一台手机在做的事，2025 年，在一艘普通的渔船上。

这件事让我重新想了一个问题：AI 发展这么多年，为什么感知物理世界的能力还这么初级？

OpenClaw 火了，机器人打醉拳、翻跟斗上了春晚，人们开始说「科幻走进了现实」。但胡柏山不这么看。在他眼里，这两件事之间有一道真实的鸿沟——具身智能机器人活在物理世界，OpenClaw 这类 AI 活在数字世界，而连接两者的那座桥，目前几乎还不存在。

他给这座桥「起」了一个名字：感知。

今年博鳌论坛，胡柏山上台抛出了一个在 AI 满天飞的 2026 博鳌现场，一个颇为独特判断——

vivo 总裁胡柏山在博鳌 2026 年会现场演讲｜图片来源：vivo

算力会被同质化，感知才是护城河。真正能让一个智能设备『懂你』的，是它对这个世界的感知能力。

这句话背后，是 vivo 近千人的 AI 团队在十年探索中得来的阶段性判断。

AI 的真正盲区，不在算力，在感知

先说一个容易被忽略的事实：人类 60% 到 70% 的感知来自视觉，10% 到 20% 来自听觉，剩下才是触觉、温度这些。我们所有关于「理解世界」的能力，绝大多数建立在「先看见」这个前提上。

现在的大模型，用的是互联网上积累了几十年的数字资产——文字、图片、视频。它能写代码、能生成方案、能回答几乎所有你能用语言描述的问题。但有一件事它做不到：感知此刻正在你面前发生的事情。

这不是算力不够，是结构上缺了一环。

这里有一个很多人会提的反驳：GPT-4o 不是已经有了多模态能力吗？把照片发给它，它不就「看见了」？

这个反驳看起来很有力。但有一个关键的区别——那是「你主动上传、然后等待云端处理」的过程，延迟是秒级的，而且每一次感知都需要一次网络往返。胡柏山说的感知，是另一种形态：端侧实时的、主动的、持续的。

就像你不需要拍照给大脑看、大脑才能处理视觉信号一样。感知应该是实时发生的，不是「发送—等待—接收」的任务。

胡柏山在采访中说了一句话，我觉得最准确地定义了这个问题：

没有感知能力，AI 就像是困在黑屋子里的大师，算力再强，也看不见咫尺之外的世界。

这不是诗意，是一个工程问题的精确描述。大模型再强，如果缺乏对当前物理世界的实时感知，它的「聪明」就只能在被动触发的那一刻才得以释放，其余时间，它对你身边发生的一切一无所知。

这是为什么 vivo 今年在内部正式成立了一级技术支撑赛道—「感知赛道」——把视觉、听觉、触觉等多模态感知，通过传感器结合感知大模型，统一转化为设备可以理解的物理世界信号。

更关键的判断在后面——大模型之间的差异，未来可能没有那么大；但感知数据，是有真实差异化的。

面对不同物理场景积累下来的，是不同的场景数据。做家庭机器人的积累室内环境数据，做手机影像的积累亿万用户在真实生活里留下的视觉信号。谁的场景数据更丰富、更准确，谁的智能体验就更好。这是胡柏山对「感知护城河」的具体解释，也是为什么他认为这条赛道「五年、十年甚至更长」都值得持续押注。

但判断是判断。vivo 手里有什么？准备怎么做？

影像，就是AI的眼睛

我第一次听到「没有影像，AI 是失明的天才」这句话，感觉有点像公关稿里的比喻。但仔细想了想，这其实是一个挺精准的工程判断。

影像技术的本质，是完成物理世界的数字化投射——通过光学系统、成像处理和空间计算，把光影、空间、表情、动作全部转化成 AI 可以处理的数字信号。vivo 做了快十年的影像大模型算法，积累的正是这套转化能力。

有意思的是，vivo 的影像领先，和大多数人想象的路径不太一样。胡柏山说，他们的影像目前在行业里领先幅度比较大，关键原因在于：算法是大模型算法，但模组是针对这套算法定制做过硬件开发的。软硬结合，才是真正难被复制的部分。「硬件上的镜头、模组、马达，容易被复制；但算法与认知强相关，对手很难快速跟上。」

这个逻辑，同样适用于感知赛道。

所以，接下来发布的 vivo X300 Ultra 和 X300s，搭载了第一代「影像 Agent」。胡柏山描述了一个具体的使用场景，我觉得比任何功能说明都讲得清楚：

博鳌现场摄影师使用 X300Ultra 摄影｜图片来源：vivo

过去拍照，长焦和微距在不同模式下呈现效果差异很大，用户要提前手动切换——但大多数人根本不知道要提前选。影像 Agent 上线后，它会根据拍摄对象、光线和距离，自动弹出「它认为最佳的呈现效果」，用户点一下就完成了。

随便都能出片。人人都是摄影师。

这听起来像一个聪明的相机助手。但胡柏山想说的比这大——这是手机从被动工具向「数字伙伴」进化的第一步。

按他的规划，不同产品线对应不同的 Agent 能力。折叠旗舰 X Fold 系列主打办公和出行——开会时默默记录，出差时主动规划航班和酒店；iQOO 系列聚焦游戏 Agent，自动优化性能，抓住高光时刻；相册 Agent 在 X300 Ultra 上已经初步落地，能快速编辑剪辑。采访时他随口说了一句：「本来回去要做两小时，结果二十分钟就搞定了。」

作为一个经常要在采访后马上赶稿的人，这里不得不说，确实让我心动了一下。

技术路径上，vivo 的选择是聚焦端侧。原因不复杂：端侧能做到云端做不到的事——实时感知周边环境，不依赖网络往返，隐私数据留在本地。但端侧有硬件瓶颈，算力和带宽双重限制。

为此，vivo 两年前就开始和合作伙伴一起定制专用算力芯片，计划在后续旗舰产品中上线。旗舰机配专用芯片、端侧能力全开；中端靠 SoC 加云侧补充；其他产品以云侧为主。分级是真实的，不是随便说说的。

关于数据和隐私，胡柏山说了一句让我印象深的话：「懂用户、知人心，但不越边界——这是技术的伦理，更是 vivo 不可逾越的底线。」

这里有一个具体的设计选择值得说：vivo 做的 Agent，所有关键用户数据存在本地，换手机时，这些数据可以整体迁移——「用户不需要和手机重新建立认知」。这跟 OpenClaw 这类产品有一个本质区别，云端 AI 的数据用完就散，你的手机 Agent 却在积累真正属于你的东西。

他把这个东西叫「数字 DNA」——影像留住的是记忆，Agent 学习的是习惯，两者融合形成的是一份独一无二的「个人资产」。听起来有点科幻，但底层逻辑是实在的。

手机这条线，走得相对清晰。但 vivo 押的不只是手机。

从手机到机器人：这条路有多难走

去年，vivo 成立了机器人 Lab。

很多人的第一反应是：手机公司做机器人，是不是有点想多了？

这个质疑乍看挺有道理的。家电厂商做机器人有协同逻辑，互联网公司做机器人有数据逻辑，手机公司做机器人，凭什么？

胡柏山的回答是：「这是回归本原。视觉是所有智能设备最自然的第一感知方式。」手机做了多年影像，本质上积累的就是这套感知能力——只是现在要把它延伸到另一个形态上。

但他说得也很清楚：机器人不是手机的迭代，是从零开始。2026 年，vivo 机器人 Lab 最重要的任务，是把整条路径想清楚——目标用户是谁，解决什么场景问题，关键技术什么时候能成熟到可以落地。

方向上，vivo 准备先聚焦年轻用户。策略上，他们不打算上来就做「全场景通用机器人」，而是「沿途下蛋」——先把容错率高、技术上能搞定的场景做到六七十分，比如宠物喂养或收纳整理，然后让能力自然泛化。

「一开始就做通用场景的机器人不现实，」胡柏山说，「场景数据是逐步积累的。比如机器人把鸡蛋百分之百打成功，十年之内都很难做到。但收纳的容错性就高很多，夹紧一点或松一点都没事。先聚焦这类场景，把体验做好再说。」

手机和机器人之间，他也给出了一个具体的协同设想：

一开始，机器人能力有限，干不好的事情由手机来遥控补位。就像驾驶一样，一开始全靠人介入，场景数据积累多了，才慢慢可以自己来。「手机是最懂你的随身助理，你所有的习惯、偏好都在里面。机器人刚开始能力不够的事，由手机来帮它补——两者之间数据是打通的。」

这是一条务实的路，不是一个大饼。

MR 头显那边，已经有了实物。2025 年 8 月，vivo Vision 混合现实头显探索版发布，国内 28 家体验店上架，东南亚同步开放，体验人数超过五万。胡柏山说，下一代的目标是商业化，时间窗口是 2027 年下半年到 2028 年初。「这一代站在探索的角度，已经达到了它的使命。下一步要搞清楚卡商业化脖子的那个技术环节，把它攻克掉。」

感知赛道的投入逻辑，他说得很直白：「我们所谓的长赛道，是指天花板比较高的。一开始是小团队先建立认知，认知到了才加油门，不希望一脚油门一脚刹车——那样对组织伤害太大。我们公司这么多年公司组织架构相对稳定，就是因为我们控制好了投入的合理性，螺旋式上升，不是波浪式前进。」

这句话背后有一个判断：感知赛道不会是短期爆发、快速见顶的那种，而是五年十年持续有价值的长坡厚雪。跟 vivo 做了十几年的通信研究院逻辑一样——先种因，认知到位了再加速。

博鳌采访结束的时候，我又想到了胡柏山故事中的那个宝哥。

他在南澳渔船上举起手机，AI 告诉他面前的朋友在微笑。那个场景里，技术做的事情很简单——把光信号转化成语言信号。但对宝哥来说，那是他九年来第一次「看见」一个新朋友的样子。

胡柏山说，「科技的高度，终须回归人的尺度。」我越来越觉得这句话不是漂亮话，而是一个做产品的人经过很长时间才想清楚的一件事。

算力会同质化。模型会趋同。但那个决定「你的手机到底有多懂你」的东西——它对物理世界的感知深度，它积累的关于你这个人的场景数据——那个东西，是不一样的。

也许这就是 vivo 押注的答案。