大模型卷算力,vivo 悄悄押注了「看懂世界」

摘要

当算力开始同质化,感知才是真正的护城河。

图片
当算力开始同质化,感知才是真正的护城河。

作者|张勇毅

编辑|靖宇
 

失明九年的宝哥,把手机举向南澳渔船上的陌生人。

他什么都看不见。但耳机里传来了 AI 的声音:「面前是你的朋友章喜德,他双臂交叉,面带微笑,穿着一件深色长袖。」

这是 vivo 总裁、首席运营官,vivo 中央研究院院长胡柏山在今年博鳌现场的演讲中提到的一个故事。

图片

vivo 总裁胡柏山 | 图片来源:vivo

在这个用户使用场景中,手机替他看见了世界。不是「拍了一张照片」,而是真正地看见——识别出了一个人,读出了他的姿势、表情和穿着,然后把这一切翻译成宝哥能接收的信号。这是一台手机在做的事,2025 年,在一艘普通的渔船上。

这件事让我重新想了一个问题:AI 发展这么多年,为什么感知物理世界的能力还这么初级?

OpenClaw 火了,机器人打醉拳、翻跟斗上了春晚,人们开始说「科幻走进了现实」。但胡柏山不这么看。在他眼里,这两件事之间有一道真实的鸿沟——具身智能机器人活在物理世界,OpenClaw 这类 AI 活在数字世界,而连接两者的那座桥,目前几乎还不存在。

他给这座桥「起」了一个名字:感知。

今年博鳌论坛,胡柏山上台抛出了一个在 AI 满天飞的 2026 博鳌现场,一个颇为独特判断——

图片

vivo 总裁胡柏山在博鳌 2026 年会现场演讲 | 图片来源:vivo

算力会被同质化,感知才是护城河。真正能让一个智能设备『懂你』的,是它对这个世界的感知能力。

这句话背后,是 vivo 近千人的 AI 团队在十年探索中得来的阶段性判断。

 

01

AI 的真正盲区,不在算力,在感知

 

先说一个容易被忽略的事实:人类 60% 到 70% 的感知来自视觉,10% 到 20% 来自听觉,剩下才是触觉、温度这些。我们所有关于「理解世界」的能力,绝大多数建立在「先看见」这个前提上。

现在的大模型,用的是互联网上积累了几十年的数字资产——文字、图片、视频。它能写代码、能生成方案、能回答几乎所有你能用语言描述的问题。但有一件事它做不到:感知此刻正在你面前发生的事情。

这不是算力不够,是结构上缺了一环。

这里有一个很多人会提的反驳:GPT-4o 不是已经有了多模态能力吗?把照片发给它,它不就「看见了」?

这个反驳看起来很有力。但有一个关键的区别——那是「你主动上传、然后等待云端处理」的过程,延迟是秒级的,而且每一次感知都需要一次网络往返。胡柏山说的感知,是另一种形态:端侧实时的、主动的、持续的。

就像你不需要拍照给大脑看、大脑才能处理视觉信号一样。感知应该是实时发生的,不是「发送—等待—接收」的任务。

胡柏山在采访中说了一句话,我觉得最准确地定义了这个问题:

没有感知能力,AI 就像是困在黑屋子里的大师,算力再强,也看不见咫尺之外的世界。

这不是诗意,是一个工程问题的精确描述。大模型再强,如果缺乏对当前物理世界的实时感知,它的「聪明」就只能在被动触发的那一刻才得以释放,其余时间,它对你身边发生的一切一无所知。

这是为什么 vivo 今年在内部正式成立了一级技术支撑赛道—「感知赛道」——把视觉、听觉、触觉等多模态感知,通过传感器结合感知大模型,统一转化为设备可以理解的物理世界信号。

更关键的判断在后面——大模型之间的差异,未来可能没有那么大;但感知数据,是有真实差异化的。

面对不同物理场景积累下来的,是不同的场景数据。做家庭机器人的积累室内环境数据,做手机影像的积累亿万用户在真实生活里留下的视觉信号。谁的场景数据更丰富、更准确,谁的智能体验就更好。这是胡柏山对「感知护城河」的具体解释,也是为什么他认为这条赛道「五年、十年甚至更长」都值得持续押注。

但判断是判断。vivo 手里有什么?准备怎么做?

02

影像,就是AI的眼睛

 

我第一次听到「没有影像,AI 是失明的天才」这句话,感觉有点像公关稿里的比喻。但仔细想了想,这其实是一个挺精准的工程判断。

影像技术的本质,是完成物理世界的数字化投射——通过光学系统、成像处理和空间计算,把光影、空间、表情、动作全部转化成 AI 可以处理的数字信号。vivo 做了快十年的影像大模型算法,积累的正是这套转化能力。

有意思的是,vivo 的影像领先,和大多数人想象的路径不太一样。胡柏山说,他们的影像目前在行业里领先幅度比较大,关键原因在于:算法是大模型算法,但模组是针对这套算法定制做过硬件开发的。软硬结合,才是真正难被复制的部分。「硬件上的镜头、模组、马达,容易被复制;但算法与认知强相关,对手很难快速跟上。」

这个逻辑,同样适用于感知赛道。

所以,接下来发布的 vivo X300 Ultra 和 X300s,搭载了第一代「影像 Agent」。胡柏山描述了一个具体的使用场景,我觉得比任何功能说明都讲得清楚:

图片

博鳌现场摄影师使用 X300Ultra 摄影 | 图片来源:vivo

过去拍照,长焦和微距在不同模式下呈现效果差异很大,用户要提前手动切换——但大多数人根本不知道要提前选。影像 Agent 上线后,它会根据拍摄对象、光线和距离,自动弹出「它认为最佳的呈现效果」,用户点一下就完成了。

随便都能出片。人人都是摄影师。

这听起来像一个聪明的相机助手。但胡柏山想说的比这大——这是手机从被动工具向「数字伙伴」进化的第一步。

按他的规划,不同产品线对应不同的 Agent 能力。折叠旗舰 X Fold 系列主打办公和出行——开会时默默记录,出差时主动规划航班和酒店;iQOO 系列聚焦游戏 Agent,自动优化性能,抓住高光时刻;相册 Agent 在 X300 Ultra 上已经初步落地,能快速编辑剪辑。采访时他随口说了一句:「本来回去要做两小时,结果二十分钟就搞定了。」

作为一个经常要在采访后马上赶稿的人,这里不得不说,确实让我心动了一下。

技术路径上,vivo 的选择是聚焦端侧。原因不复杂:端侧能做到云端做不到的事——实时感知周边环境,不依赖网络往返,隐私数据留在本地。但端侧有硬件瓶颈,算力和带宽双重限制。

为此,vivo 两年前就开始和合作伙伴一起定制专用算力芯片,计划在后续旗舰产品中上线。旗舰机配专用芯片、端侧能力全开;中端靠 SoC 加云侧补充;其他产品以云侧为主。分级是真实的,不是随便说说的。

关于数据和隐私,胡柏山说了一句让我印象深的话:「懂用户、知人心,但不越边界——这是技术的伦理,更是 vivo 不可逾越的底线。」

这里有一个具体的设计选择值得说:vivo 做的 Agent,所有关键用户数据存在本地,换手机时,这些数据可以整体迁移——「用户不需要和手机重新建立认知」。这跟 OpenClaw 这类产品有一个本质区别,云端 AI 的数据用完就散,你的手机 Agent 却在积累真正属于你的东西。

他把这个东西叫「数字 DNA」——影像留住的是记忆,Agent 学习的是习惯,两者融合形成的是一份独一无二的「个人资产」。听起来有点科幻,但底层逻辑是实在的。

手机这条线,走得相对清晰。但 vivo 押的不只是手机。

03

从手机到机器人:这条路有多难走

 

去年,vivo 成立了机器人 Lab。

很多人的第一反应是:手机公司做机器人,是不是有点想多了?

这个质疑乍看挺有道理的。家电厂商做机器人有协同逻辑,互联网公司做机器人有数据逻辑,手机公司做机器人,凭什么?

胡柏山的回答是:「这是回归本原。视觉是所有智能设备最自然的第一感知方式。」手机做了多年影像,本质上积累的就是这套感知能力——只是现在要把它延伸到另一个形态上。

但他说得也很清楚:机器人不是手机的迭代,是从零开始。2026 年,vivo 机器人 Lab 最重要的任务,是把整条路径想清楚——目标用户是谁,解决什么场景问题,关键技术什么时候能成熟到可以落地。

方向上,vivo 准备先聚焦年轻用户。策略上,他们不打算上来就做「全场景通用机器人」,而是「沿途下蛋」——先把容错率高、技术上能搞定的场景做到六七十分,比如宠物喂养或收纳整理,然后让能力自然泛化。

「一开始就做通用场景的机器人不现实,」胡柏山说,「场景数据是逐步积累的。比如机器人把鸡蛋百分之百打成功,十年之内都很难做到。但收纳的容错性就高很多,夹紧一点或松一点都没事。先聚焦这类场景,把体验做好再说。」

手机和机器人之间,他也给出了一个具体的协同设想:

一开始,机器人能力有限,干不好的事情由手机来遥控补位。就像驾驶一样,一开始全靠人介入,场景数据积累多了,才慢慢可以自己来。「手机是最懂你的随身助理,你所有的习惯、偏好都在里面。机器人刚开始能力不够的事,由手机来帮它补——两者之间数据是打通的。」

这是一条务实的路,不是一个大饼。

MR 头显那边,已经有了实物。2025 年 8 月,vivo Vision 混合现实头显探索版发布,国内 28 家体验店上架,东南亚同步开放,体验人数超过五万。胡柏山说,下一代的目标是商业化,时间窗口是 2027 年下半年到 2028 年初。「这一代站在探索的角度,已经达到了它的使命。下一步要搞清楚卡商业化脖子的那个技术环节,把它攻克掉。」

感知赛道的投入逻辑,他说得很直白:「我们所谓的长赛道,是指天花板比较高的。一开始是小团队先建立认知,认知到了才加油门,不希望一脚油门一脚刹车——那样对组织伤害太大。我们公司这么多年公司组织架构相对稳定,就是因为我们控制好了投入的合理性,螺旋式上升,不是波浪式前进。」

这句话背后有一个判断:感知赛道不会是短期爆发、快速见顶的那种,而是五年十年持续有价值的长坡厚雪。跟 vivo 做了十几年的通信研究院逻辑一样——先种因,认知到位了再加速。

博鳌采访结束的时候,我又想到了胡柏山故事中的那个宝哥。

他在南澳渔船上举起手机,AI 告诉他面前的朋友在微笑。那个场景里,技术做的事情很简单——把光信号转化成语言信号。但对宝哥来说,那是他九年来第一次「看见」一个新朋友的样子。

胡柏山说,「科技的高度,终须回归人的尺度。」我越来越觉得这句话不是漂亮话,而是一个做产品的人经过很长时间才想清楚的一件事。

算力会同质化。模型会趋同。但那个决定「你的手机到底有多懂你」的东西——它对物理世界的感知深度,它积累的关于你这个人的场景数据——那个东西,是不一样的。

也许这就是 vivo 押注的答案。

图片

vivo 在博鳌 2026 现场展台 | 图片来源:vivo

也许还不是。

但至少有一件事是确定的:下一代智能终端的战场,不会只在参数表上。

*头图来源:vivo博鳌
极客一问
你觉得,决定下一代 AI 终端体验上限的,是模型参数,还是感知物理世界的能力?
图片
图片
图片
图片

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。