大厂年度模型收官之际,创业者们的商业回顾与技术野望

摘要

已经有人尝到了技术的红利,更多的能力将逐渐被释放。

大模型已由最初模糊的前沿科技,在 2024 年逐步演变为即将可量化评估的具体技术能力,同时一些应用场景也初露头角。GenAI 被视作未来十年最为关键的技术变革力量,又将会以何种方式对当下的商业模式进行重塑?
AWS re:Invent 作为亚马逊年度技术实力展示大会,将在年末继续推进 GenAI 的新一轮进展,在为今年行业收官定调的同时,开启明年技术和商业演进的新航道。
以下整理了 AWS re:Invent 2024 GCR Startup Workshop 中的部分对话及思考,希望能给你一些灵感和启发。
 

模型的商业化已经从局部开始渗透

在生成式 AI 时代,商业化与技术创新同等重要。目前,市场呈现出明显的行业化趋势,以 B2B to C 模式最具商业潜力。随着技术不断进步,AI 应用场景持续拓展,正在重塑传统产业链,催生新型商业模式。尤其在内容创作领域,AI 正在降低创作门槛,重构生产流程。
 
对话嘉宾:
  • 李奔|亚马逊云科技中国区技术合作伙伴总监
  • 唐家渝|生数科技 CEO
  • 林群书| 整数智能 创始人

李奔:我们对今年的 AI 应用一些观察可以分享。首先,行业化趋势明显。在中国本土和中国企业出海这两个主战场,我们观察到两个应用最广泛的行业是制造业和电商。
制造业方面,考虑到大语言模型早期存在「幻觉」等缺陷,企业最初主要将其用作 Copilot(协作助手),服务于企业内部专业人员,比如帮助文档写作、翻译和辅助设计等。但目前能创造营收的是 B2B to C 模式,即用 AI 技术服务于 B 端客户,再由 B 端将产品推向 C 端消费者。
举个成功案例:深圳一家公司开发的智能录音笔,集成了会议整理和翻译功能,在亚马逊平台上成为爆款,短期内销售额就突破了一亿。另外,涂鸦作为全球领先的 IoT 品牌,利用 AI 技术增强智能家居解决方案,特别是在宠物产品领域。这种 B2B to C 模式之所以成功,部分原因是消费者对 AI 偶尔的小失误容忍度相对较高。
在电商领域,特别是跨境电商,我们看到更多样化的应用场景。这是个竞争极其激烈的市场,深圳的企业家们反应特别快。去年初 ChatGPT 刚推出时,许多跨境电商企业就开始应用,覆盖了整个业务链条:营销端:广告和营销素材生成;运营端:售后的用户反馈分析(VOC);决策端:数据分析,特别是选品决策。
 
林群书:在杭州,电商加大模型的结合就特别多,包括电商导购、创意营销方面的设计等,这一波会消耗大量的大模型需求。
因为这个行业已经存在很久了,包括制作图片,更细一点比如产品演示的小视频,他们可能接入一些 API 接口,用生成式 AI 来制作 30 秒到 60 秒的视频。这些开发成本可能不高,但确实是每一家做产品的公司,或在电商平台上卖产品的公司都非常需要的产品。
而法国出现了 AI 加 Fashion 这块的创业企业,因为大家都知道它的奢侈品产业,像 LVMH 他们也在公司内部成立了 AI 部门,做 AI 加艺术、AI 加奢侈品的结合。
在日本,我们发现了一个很有趣的现象,那边有人将 AI 与成人用品结合,因为这个领域本身就有很强的需求,加上 AI 确实能够提升用户体验。
 
极客公园:生数科技是跟影视行业更加相关,更直接。在目前生成视频内容的情况下,谁愿意去尝试这些事情?这个产业链现在是一个什么状态?
唐家渝:目前主要有几类用户在使用这项技术。第一类是普通互联网用户,他们能用 AI 创造有趣内容。比如我们发现一个全球流行的应用:用户上传两张照片,可能是自己和明星,或与已故亲人的合影,只需输入「让照片中的人拥抱」,AI 就能让他们自然互动。这个功能承载的情感诉求跨越了文化界限,从拉美开始,经由印尼、东南亚,传播到欧美和日韩等地区。
第二类是想尝试专业内容创作的非专业用户。比如动画制作,传统方式需要掌握复杂工具和逐帧渲染,现在只需输入文字描述或参考图就能生成动画。这让许多普通爱好者开始尝试创作动画和特效,我们的模型在这方面表现突出,网上大多数 AI 生成的动画都来自我们的平台。
在专业领域,广告营销客户用我们的技术大幅提升了效率。只需提供产品照片,比如一个话筒,就能通过简单指令生成所需画面,极大降低了制作成本。
对于影视行业,虽然 AI 生成画面的质量还不足以用于大银幕,但已经在两个方面得到应用:一是制作预览片,帮助团队快速展示拍摄内容;二是电影宣发,比如我们与《熊猫计划》的合作,通过 AI 快速生成虚拟角色的短视频内容,满足了日更的宣发需求。另外 10 月上映的《毒液:最后一舞》所采用的中国区水墨风宣传片,也是使用我们的产品 Vidu 生成制作的。
 
唐家渝:我们跟短剧包括影视行业交流后发现,现在真正缺的是好的剧本。虽然大家觉得语言模型可以帮助写剧本,很快可以自动化写很多,但真正能抓住人心,或者说从商业角度能保证很好 ROI 的剧本还是非常缺乏的。所以我觉得这些公司至少在一段时间内,在剧本创作、把握用户心理这些方面还是很关键的。但确实在拍摄流程上,甚至演员的需求上可能会越来越少。
 
极客公园:你能预期一下可能会出现哪些新的场景吗?
林群书:随着模型逻辑推理能力的提升,此前困扰我们的「幻觉」问题也得到了一定程度的缓解。这种进步首先可能影响数据标注行业。以智能驾驶的数据标注为例,由于对准确性要求极高(需要 99%以上),加上算力消耗大的问题,我们过去很少直接使用大模型进行标注。我们的常规做法是先用大模型对新场景进行初步标注,然后用这些数据去训练专门的小模型,这样既能提高计算速度,又能获得更多准确率达到 96%以上的数据集。但随着模型推理能力的显著提升,我认为数据标注行业将率先发生变革。我们可能会更多地利用这些具备强大推理能力的模型来提升数据标注质量,从而加速整个行业的发展。
顺着这个思路,那些对准确率要求极高、容错率极低的领域,比如法律行业,很可能成为下一波大规模应用的重点。回顾 2023 年初,确实涌现出许多专注于法律大模型的创业公司,但到年底时有些公司已经默默退场了,主要是因为当时的技术还不够成熟。不过,这个领域的业务需求依然存在。随着技术的进一步完善,我预计会出现新一波创业者,他们将有机会把这个领域做得更加成熟。
 
极客公园:今天在座的有很多创业公司,对于想要站在巨人肩膀上做事情的创业者来说,你觉得在哪些层面大家应该跟 AWS 合作,而不是去竞争呢?
李奔:在基础设施和工具链层我们都欢迎大家一起合作。在工具链层面,我们希望招募和发展更多的伙伴,来支持客户快速构建 GenAI 应用。在应用层,我们也希望大力发展伙伴。我们面对的客户有两种属性:一种是 Buyer 属性,一种是 Builder 属性。Builder 公司可能更喜欢用工具链自己去构建。
但还有很多客户群是 Buyer 属性的,就像唐家渝刚才说的,企业里做营销的市场部门,他们不大会去自己 build,他们更愿意直接购买好的应用产品来提升能力。
 

技术依然可期,数据&产品的价值开始凸显

在大模型技术发展趋缓之际,产业重心正在从技术突破转向应用落地与商业化探索,企业的数据资产与数据基座将成为核心竞争力。而随着交互形态从单一对话向多模态演进,自然语言正成为连接人机交互的核心桥梁,但真正的突破在于如何将语言、视觉、触觉等多维感知无缝整合,打造更符合人类认知习惯的交互体验。
 
对话嘉宾:
  • 陈晓建|亚马逊云科技大中华区产品部总经理
  • 周昌印|Vozo AI 创始人
  • 白实|iServe Robotics CEO
 
陈晓建:这其实并不是亚马逊第一次在这些领域提供产品。我们之前就有 Titan 这样的嵌入式模型,在开发者工具方面也有一系列产品。只是现在有了生成式 AI 后,我们通过这个能力完全重塑了产品形态,推出了 Amazon Q Developer 这样的工具。实际上,在 GenAI 技术发展的早期,我们内部就达成共识,认为开发者场景会是 AI 最先落地的领域之一。
 
极客公园:AWS 投资了 Anthropic,又自己做模型和模型开发平台,能不能分享一下其中的关联?
陈晓建:在亚马逊云科技内部,我们有高度共识认为要做大模型。虽然 Anthropic 确实是业界领先的,但大模型技术远未成熟,还不到不需要新玩家入局的阶段。作为基础设施提供商,补充大模型这个技术板块是很自然的事。实际上,所有主要云服务商都在做自研大模型或与第三方密切合作。
 
极客公园:从技术角度,如何看待企业数据资产的价值?在模型时代,什么样的数据会更有价值?
陈晓建在大模型时代,选择合适的模型和平台只是其中一环,你的数据资产和数据基座才是真正的差异化能力。我们最近发布了很多数据相关产品,比如 Amazon Kendra AI Index 可以连接外部数据源,还有结构化和非结构化数据的自动化集成等。
同时,我们今天发布的 Amazon SageMaker Unified Studio 是个重要产品,它整合了常用的大数据和人工智能服务如 EMR、Glue、Athena、Redshift 和 Bedrock、SageMaker AI 到一个框架下。这是因为客户需要处理大量业务数据,需要数据注入和处理,这些都需要与 AI 后端良好结合。
 
极客公园:近期业界对大模型的 Scaling Law 是否碰到了天花板有各种争论,你们作为经常使各家模型的产品公司,感受是怎么样的?
周昌印 :我是深度的 ChatGPT 用户,我的体验是从 GPT-3 到 GPT-4 的提升很明显,但 4 到 O1 的提升可能不那么直观。这就像智商从 50 到 80 的提升很容易感知,但从 80 到 90 就不那么明显了。但这种提升其实非常关键,特别是在深度思考和复杂任务处理上。
比如在解决 24 点这样的数学问题上,GPT-4 Turbo 的表现已经接近小学生水平。假设 GPT-4 用了约 20T 的训练数据,如果按 scaling law,GPT-5 可能需要 200T,这会是个大问题。但 O1 给了另一个方向:在同样数据量上做更深入的思考。
 
周昌印 :这个词还比较模糊。之前有 Cloud Native,现在说 AI Native,每个人理解可能不太一样。一般认为产品的核心功能需要基于 AI,而且最好能通过数据不断迭代增强 AI 模型。
但我觉得也不一定要这么严格。比如 Intercom 这样的客服产品,在原有功能上加入 AI 回答能力,虽然按传统定义可能不算 AI Native,但它正在逐渐把 AI 变成核心能力。如果它能通过用户使用不断优化模型,提升用户体验,我觉得也可以算是 AI Native。
 
极客公园:从硬件角度看,明年 CES 上可能会有上百家 AI 眼镜厂商,你长期和硬件打交道,怎么看大模型和硬件的结合,看好 AI 眼镜这个品类吗?
白实:眼镜确实是一个很好的形态。从谷歌眼镜到 Meta、苹果的 VR/AR 设备,这个方向一直在发展。最近的趋势是向轻量化、开放式发展,更注重实用性。但主要限制还在于算力、能耗和重量。
目前主要应用还是围绕拍照录像,虽然可以把计算放在手机或外接设备上,但本质上还是边缘计算的问题。机器人领域也面临类似挑战,受限于网络延迟,但纯边缘计算的能力(几百 TOPS)又远不如云端。
我个人比较看好多模态交互的发展。现在设备主要集中在视觉和听觉,但人类的感知是多维度的,特别是触觉。比如材质、温度、摩擦力等,这些都是现有传感器难以完整捕捉的。大部分传感器还停留在实验室阶段,距离工业化还有距离
 
极客公园:对话是最好的交互形态吗,还是我们今天受到 ChatGPT 影响太深了?
白实:交互远不止于对话。我之前在亚马逊做过家用机器人项目 Astro,目标是让用户回家后能放下手机,通过机器人完成各种任务。五年前没有 ChatGPT 时,这种人机交互还停留在硬编码阶段,功能很有限。
周昌印 :以视频处理为例,传统上我们都是通过各种按钮来实现主要功能,但这种方式有时候并不够便捷。比如当你想要将视频中某个说话者的语速提高 1.25 倍时,用按钮操作会相当繁琐。而如果使用自然语言交互,只需要输入一句「请将说话者 A 的语速提高 1.25 倍」就能轻松完成。虽然交互的基本形态可能不会有太大改变,但自然语言交互在整个交互方式中的比重会越来越大,并发挥越来越重要的作用。
 
极客公园:最后请晓建展望一下明年的发展,特别是关于 Agent 的发展?
陈晓建:明年肯定会有很多新产品。目前 AI 还处于早期阶段,从概念验证到生产的转化率不到 50%。正如 AWS 所说,做一个 AI 应用的难度可能超出很多人想象。
在 Agent 方面,我们看到很多客户已经开始尝试。比如 Rocket Mortgage 用智能 Agent 服务客户,转化率比人工高 30%。我们今天也发布了 Multi-agent 协作能力。未来会有更多客户从单个 Agent 解决简单问题,转向多个 Agent 协作解决复杂业务问题。
 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。