ChatGPT 引爆行业开始已经接近两年了,AI 行业也在「百模大战」后开始寻找技术的落地场景。
ChatGPT 引爆行业开始已经接近两年了,AI 行业也在「百模大战」后开始寻找技术的落地场景, 而「AI+社交」、「AI+游戏」、「AI+短剧」等泛娱乐领域的应用, 是开发者们最感兴趣的热门方向。叠加上「不出海, 就出局」的市场大环境,「AI+泛娱乐出海」也成为了业内最受关注的话题。
在刚刚过去的 RTE2024 大会, 声网音频娱乐产品负责人杨帆就泛娱乐行业近一年的发展、未来趋势及声网在这一领域的创新进行了分享。本篇内容在不改变其原意的基础上, 为方便阅读进行了删改, 希望能给各位泛娱乐领域从业者带来不一样的思考。以下为分享原文:
大家好, 我叫杨帆, 是声网音频娱乐产品负责人, 欢迎大家来到泛娱乐专场。我今天分享的专题也是今年 2024 整个行业的解读, 大概的分享内容分为三块:前两块主要是我准备了很多来自于声网和第三方最新的数据, 是整个行业的一个洞察。以及我也会挑一些相对来说近些年表现比较亮眼的行业, 分为国内和出海, 大家可以看得到我这个目录上的, 就是语聊房等等几个行业, 我来给大家解析一下整个行业玩法的变迁, 包括今年还适合做什么、有什么新的方向、有什么玩法之类的。最后也会给大家介绍一些声网现在做的, 跟合作伙伴共同携手在做的, 以及我们看到的一些新的方向。
先从第一 part 开始看看整个行业的形势。我这拉了最新到今年 7 月份的数据,整个来说泛娱乐无论从出海而言还是在国内做泛娱乐的业务, 整体来看增长都是不错的, 无论从 APP 数量, 整个的 MAU 以及整体营收来看, 各方面都非常不错, 所以目前这也是出海的最佳选择。
另外, 我这列举了包括全球以及全球不同的国家和地区大概泛娱乐当中用RTE 整体的增比情况。大家可以看到紫色的 2024 年, 整体 7 月相对于去年 9 月来说增长比例都还是不错的,各个地区都有相应的增长。
对于声网而言, 我们整体覆盖基本占到 60% 以上, 这也分不同的大区, 有大家很多很熟悉的像中东、拉美等比较热门的出海地区。刚才是一些全球的情况, 接下来我会把具体的场景里面大家比较关心的, 因为在座可能有做游戏的, 有做语聊的, 都有。
先说国内, 我放了两张图, 第一张图是国内泛娱乐的月均使用量, 去年受到政策各方面的影响, 但是从今年春节过后,整体趋势都在慢慢回暖, 以至于到今年 8 月份的时候我们整个增量非常不错, 相对于去年增长可以。右边是我分了一些热门的场景, 前五名的场景基本上排名没有变化, 就是主流的场景还是语聊、狼人杀、视频群聊、秀场直播、1V1。蓝色是去年的, 紫色是今年的。大家可以看一下对比, 语聊其实相对来说为什么会造成整个趋势增长? 其实主要还是在于语聊房本身的增长。
首先说一下语聊房, 目前来看它是整体增长最快的, 整体大概增长 21%, 相对于去年来说其实流量逐步在向头部靠拢。因为我昨天在声网展台也碰到很多包括国内做语聊做直播的朋友在问, 问的最多的问题就是接下来这个方向还值不值得做, 以及整体国内的形势怎么样, 他是要继续转型做出海, 还是要尝试一些其他玩法, 比如做互动游戏、K 歌, 往一些其他的营收方案试一试。整体语聊不错, 市场在复苏, 我放了一些结论, 同时我也看到很多在去年整个政策监管情况下有很多优秀的企业, 也都是我对接过的企业, 开始在转型和出海。转型有几个主流方向, 一个是做陪玩, 因为做语聊出来之后, 这些主播相对做陪玩比较对口, 相对比较容易转型, 以及做 K 歌、做互动游戏, 这都是比较热门的, 各方面做的好的挺多的。
但是出海可能对于我们很多传统做国内企业的泛娱乐公司来说确实挑战很大, 无论是应用市场上架, 整个支付体系和监管, 因为海外也有自己的监管, 不同国家都不一样, 也都是有很多挑战。
因此我们看到了这个趋势, 大家如果关注声网新闻会知道, 我们发布了整个出海泛娱乐的地图, 基本上现在中东、东南亚、拉美、日韩这些核心出海策略, 就是你该怎么去应付当地的问题, 它的特性是什么, 是年轻人居多, 它的消费水平如何? 一张图就有, 大家可以关注声网的公众号, 上面有一些购买的活动, 以及有一些活动我们也会送。
刚才提到这个行业语聊行业在转型, 我们看到一个趋势就是这个行业需要更多的玩法。因为除了语聊之外, 他需要有更多的营收途径, 或者能够给他促活的途径,今年我们也为这些开发者推出了包括 AIGC+社交玩法, 这种大家平常也都玩过, 比如像一些聊天软件, 以及包括狼人杀里面家人的 AI 角色等玩法。其实大家会发现在各种领域里面都出现了, 以及像 K 歌这种, 我们现在全平台的玩法, 目前大小合唱, 单唱这种, 大家如果做这一行可能比较熟, 这些相对来说都比较成熟。
另外就是跨平台, 因为除了玩法能获取更多的增量, 另外就是不同的平台。特别是你做出海的话, 国内基本上生态还是以移动端为主, 因为 APP 生态相对整个国人来说用起来还是非常广泛。你做出海的话, 很多地区, 比如像欧美地区, 它还是在向 web 时代占比非常多, 而比如美国地区对 web 的需求非常大。整个行业大家全平台的需求非常多, 可能主播向外部开播, 国内很多做语聊房的, 他的主播是通过安卓模拟器在 PC 上开播, 因为 PC 有时候需要处理一些操作之类的。像全平台的高音质我们今年也是做适配做的比较好, 现在所有的端我们能保证所有的高音质。
再说一下视频这一块,视频这一块整体是微降的。因为视频在国内有游一个特性, 整个头部的影响非常大, 整个抖快的影响, 所以很多做视频社交的平台这一块被吸走的流量很多。但是有些垂直类的玩法, 比如像 LGBT 或者恋爱社区之类的, 相对我看数据还是活的不错的, 所以整体来看整体会有微降。因此我觉得这个行业下一阶段他们也需要寻找新的盈利方向、商业模式和玩法, 因此我们看到像这种做视频社交的也会尝试语音社交的玩法, 因为愿意视频社交的人, 他相应不太愿意露脸的可能对音频也有一些诉求。
另外一个, 今年大家都知道的出圈的, 在各大直播平台, 媒体今年 8 月底、9 月初的事件, 就是游戏社交。我给大家一些数据, 我副标题写的, 我也看了一下三方市场数据, 国内主流的开黑平台, 在今年黑神话出圈以后, 我这定了一个「平稳级用户增量」, 用户在游戏发售的一周之内都会涌入这个平台, 这是最高峰, 但是它热度消退之后基本上两周时间会进入平稳, 但是我们看到这些平台整个流量增幅很大。而且大家如果关注这个圈子能看到,2025 年我看到至少 5 到 6 家跟黑神话一个级别的国产 3A 都在路上, 各个工作室在 B 站也放出了他们实时的演示视频。所以2025 年如果再能出一向款, 对于整个游戏社交平台助力都非常大。
我这也放了一些数据, 有些是三方的, 是 steam 官方的数据, 包括现在中国区玩家的数量, 因为这些平台用户基本上都是像 steam、Vgame 等平台的用户。光 steam 而言, 在中国的玩家已经 3200 万了, 他们的增量相对来说都是 100% 增长的, 这一块用户非常多。右侧我放了一个折线图, 这个我自己列举的是国内的热点事件, 国内的电子经济以及 steam 的热游, 像「幻兽帕鲁」游戏的出圈, 整个来说对于平台的增量非常大。
刚才国内说完了, 接下来说一下出海。出海其实整个趋势就是非常乐观了, 从大家看到的这条曲线而言持续在增长, 只是我们的增幅接下来还有多大的问题。整体来看, 中国企业出海最大的占比, 它跟国内不太一样, 国内相对来说还是比较百花齐放的, 无论做视频、做音频以及做各种各样的玩法其实很多, 但是出海基本上是以语聊房为主, 今年还稍微降了一点点, 就是语聊房的整个占比。不是说语聊房本身降了, 是因为其他的像 1V1 的区块更多, 导致整个语聊房的下降。所以整个出海而言 9 成都是做语聊的, 做语聊最大的市场就是在中东, 盈利最大的也是在中东。
再接下来说一下这几个赛道,语聊房是最成熟的赛道, 目前在中东最赚钱, 这是大家有的共识。而且相对来说在中东而言也是最卷的, 号称得有 200 个 APP, 就是中国企业出海做语聊这一块的。整个玩法跟中国大差不差, 都是以主播带着大家一起玩的模式。
出海大家都比较关心, 我经常在很多活动上, 下来之后跟参与者交流, 都会问一个问题, 比如说我去中东, 比如去约旦哪个地方做语聊, 有没有潜力? 其实有些地区, 一些高净值地区很饱和, 但是有些地区增长的不错。大家看右边的折线图紫色的线, 其实有些可能不是最热门的, 不是像土耳其等很热门的地区, 它增长率很不错, 因为地缘的缘故。因为中东在地缘上其实跟欧洲这些地区很近, 所以很多企业在出海的时候会选择比如我从中东入手的话, 会往其他的地区拓, 比如往北非、欧洲地区拓。所以整体而言大家如果去做出海, 比如你现在的语聊房还是主要还是在沙特做, 你想拓到其他的过程, 完全是可以的, 你可以瞄准一些在用户体量上不会像土耳其、印度用户体量大的地区, 但是它整体的潜力那边还是蓝海的市场, 我觉得大家可以关注一下。
因此我们在这一年跟出海的语聊企业打磨的过程中发现了几个比较好的趋势, 首先大家的诉求, 如果大家去过东南亚地区玩过会有一个很大的感受, 以做语聊为例, 它在马来西亚的街头房子都挨着街道, 很吵。像国内用户社交都会选择在家里, 你不会在大街上边走边跟人语聊, 但是大家去海外玩一玩, 其实这种在海外很常见, 这种对降噪要求很高。我列了两个, 算是今年打磨的很好的场景,第一个是 AI 降噪, 我从后台看的数据有 260 多个项目在应用, 基本上全场景, 语聊房、直播、1V1, 全场景都覆盖。比如我在会场里面, 刚开场有点吵, 或者我在街道上, 有一些汽车的鸣笛, 能够做一些智能降噪, 这一块我们打磨很多。后来也有一些用户提出来, 如果大家经常看直播会有一个感触, 有一些户外直播的, 比如我弹吉他、钢琴, 弹乐器旁边架着麦克风在直播的才艺展示, 但是大家看乐器经常会很糊, 因为比如你用 iPhone 直播,iPhone 会做降噪, 它对噪音进行了处理, 导致了会糊。所以这一块我们针对有这种场景的客户做了很多打磨, 叫做AI 音乐保护和 AI 人声保护, 它主要面向户外直播, 就是可能外面很吵, 旁边又要放 BGM 和音乐的演奏。
接下来说一下1V1 和 Dating, 这一块算是海外近一两年最火、增长率最快的了。我这放了一个榜单, 这个榜单我是从应用市场直接截取的。整个而言, 中国的开发者大家应该有非常多的熟悉和对标了, 你们做这一块对标的产品。整个而言相对来说增长率非常快, 整个玩法我也列了一下, 就是匹配的效率等等这一块的诉求, 我就不详细介绍。1V1 整个的增长来看在海外其实是最快的, 我放了不同场景的增长率, 整体而言, 因为像在海外也是有些头部应用的, 比如像 tinder 等应用, 但是在不同的国家, 比如像中东地区做 1V1 的话, 不会像国内的状况, 可能头部基本上把用户吸的差不多, 能够给中部和尾部的空间不多了。
最后是视频社交, 视频社交在海外分两种玩法, 一种是视频群聊, 就是九宫格似的, 像连麦似的, 比如像相亲等。另外就是大家开着视频去连麦。做这种直播类型的,在海外目前像东南亚南美这种地区比较受欢迎, 因为宗教各方面的缘故。我这也放了大概的榜单, 现在也有很多做的非常不错, 像国内广州那边的 bigo, 他们都做的不错。
上面是做的出海介绍。最后第三 part, 关于新趋势、新方向。我准备了一些, 会分三个维度, 第一, 跟大家聊一聊泛娱乐跟 AI 结合的新趋势。第二, 声网大家如果逛过展台也体验过我们的产品, 就是泛娱乐+AI 语音助手的解决方案, 包括昨天在主论坛首席科学家也演示我过整个的对话, 大家如果看直播或者现场听过的话, 现场延时效果解决的都不错, 以及我会介绍泛娱乐+AI 落地的案例。
相信大家用 AI 已经很成熟了, 刚才我在线下跟嘉宾交流, 我今天的 PPT 上其实刚才有些图都是通过我的 AI 助手生成的, 我会告诉它我需要有一个游戏加社交的概念图, 里面需要有多少人堆站什么的, 这种已经深入到大家生活的各个方面了。我大概列举了一下, 现在整个泛娱乐+AI 包括应用的途径, 我大概画了一个象限, 这是两个象限, 分为创造力、准确性和实时性, 就是大家应该也有很多接触过或者知道的一些方向, 包括陪聊, 包括一些客服, 这种相对来说现在已经用的比较成熟了。
整体来说, 我觉得 AI 对于整个行业改变很大, 虽然可能现在每天或者每个月都有很多新的应用出现, 大家都在尝试新的方向, 但是可能某一天的时候, 你生活中工作都会充斥着不同的玩法。
第一, 现在大家通常的方案, 现在主流你做语音助手的话, 你接各家厂商是串行的处理形式。比如我现在跟你说一句你好, 你需要跟语音助手打招呼, 它是先需要通过语音转文字, 转成文字大模型处理, 处理之后大模型转成文字, 文字再经过转语音, 最后再转成文字, 由这个 APP 给你输出出来, 这个过程很漫长, 那能不能加速呢? 所以这个大家玩起来, 半年前语音助手大家都有这种体验, 就是你说一句话可能要等好一会儿, 作为开发者我相信对这个感触非常深。
为什么要采用这种整合的方案? 原因是首先从开发者的应用性而言, 你不需要对接那么多厂商。第二, 我们能大幅度降低延迟, 延迟太高你就只能做 1V1, 而且是多存感很强, 这没有办法, 为什么现在产品拘泥于这种, 它没有往更多的形式走, 这是原因。我右边放了大的架构图, 整个文字转语音, 语音的处理, 以及我们后面做支持多模态的模式, 就是支持实时的语音和实时的视频输入的话, 其实整个过程会更快, 以及效率更高, 所以整个相当于是一整套方案。所以大家如果关注一下外面的展台, 包括我们跟 MiniMax 合作的一些方案, 可以看得出有很多的整合方案, 这种对于延时的降低非常高。那这种意味着什么? 意味着我们可以做实时互动, 最起码你做多人的互动, 你的延时有一个及格线, 最起码得及格, 要不然你的延迟太高了, 你就只能做直播了。
现在泛娱乐行业大家用语音助手的落地案例, 大家可以参考一下, 包括语音助手、口语老师, 我自己练口语也是在用 AI 语音助手, 跟他一起开视频对话。我觉得整体体验不错, 相对来说跟真人心里压力各方面也会少了很多。以及现在在海外出海做的比较火的, 像 Talkie, 以及刚才跟芒果融创的吴红老师也在聊, 就是类似于互动式游戏加入, 相对来说比较有逻辑性的, 像剧本杀、狼人杀这种, 让 AI 的角色加入进去, 以及互动小游戏之类的。
这就是列举几个案例, 这都是我自己玩的, 截了一些图, 拿了一些数据。首先这是目前第一个出圈的, 大家玩这一块都比较熟, 整个发展还是以恋爱养成为主, 所以恋爱养成主要以宅男为主。大家可以看看第一张图, 最受欢迎的都是元神的角色, 而且都是元神的女性角色, 就是跟她谈恋爱, 很简单的一件事。但是在国内可能有监管的问题, 但是海外还是不错的。以及放在动漫、游戏上, 这个比较多。
另外一个就是 Talkie, 它是国内出海做的非常出色的, 我对它的评价就是各项能力的集大成者。它的整个商业模式就是出海加上充会员, 整体还是很不错的, 整体的体验大家可以试一下。
另外一个是叫语音助手应用案例, 叫「AI 共播」, 这是我们自己做的 demo, 是一个 APP。这种场景就是真人主播跟虚拟主播共播, 左侧是真人主播, 右侧头上有一个青蛙的漫画人物是虚拟主播, 可以线上聊。目前在 ACG 二次元的圈子还是很火的。
左边是一个聊天的视频, 偏向于语聊场景。刚才其实就相当于这种玩法, 现在有很多主播已经很出圈了, 粉丝量都不错。我们认为这未来是一个很好的方向, 让两个人共播, 这个过程中我们很多的语料大模型的训练找了很多的相声, 因为它其实就是一个聊天, 就是说相声, 大家聊一些很奇怪的话题, 当然在国内要稍微注意一下话题, 在海外可能聊恐怖一点的或者黑色幽默的话题, 很搞笑。
另外就是合唱, 就是真人合唱, 包括大合唱, 五六十人的合唱。但是我们也可以跟 AI 合唱, 整体我觉得唱歌还是挺真实的。刚才语聊可能大家听声音稍微有一点像变声的效果, 可能是稍微有一点, 但是整个唱歌的效果还是不错的。这一块未来我们在很多平台做这一块的打磨, 大家可以关注这个方向。其实这一块的延展空间非常大, 就是真人和虚拟人一起, 包括玩游戏等各方面都是可以扩展的。
跟这些客户打磨的过程中我们也收到了相对的诉求, 我列了两个:第一,智能人声过滤, 大家如果玩大模型的软件, 其实都有一个特点, 你最好去一个会议室, 不要去人太多的地方。比如我旁边有个同事打电话, 可能他的声音传进来大模型就把他的声音进行了误判。现在大家都面临这个问题, 我们怎么解决? 就是做智能人声过滤,比如我在说话的时候周围即使有人声我能把它过滤掉, 保证大模型接收到的是最纯净的语聊,这样整个处理起来更精准。我这大概列了一些, 有些场景对于这种诉求非常强烈, 比如 AI 辅助面试、狼人杀的 AI 角色等等。另外一个是属于变声类的, 这也是我们声网今年推出的虚拟声卡 2.0, 它属于一个高阶美声和电声。因为现在基本上大家玩大模型的基本都是在移动端, 我们希望在移动端就能实现你花五千块钱买个声卡, 再花两千多块钱买个麦克风的效果。目前我们推出了很多音效, 在很多客户这做打磨。
最后一个模块是聊一聊 AI+游戏, 也是另外的一个应用方向。在游戏行业的应用而言, 其实已经很多方面了, 内容的生成最常见, 应用的很广。我今天主要分享一下游戏互动这一块,游戏互动目前在 NPC 的应用和智能 NPC 应用很多, 如果大家玩过最近出的手游, 它的特点是有很多 NPC 加持, 可以一起组对打本, 其实这一块应用已经很多。目前来看通过玩家的语音输入, 语音会转成文字, 大模型识别之后会去驱使 AI 的 NPC 进行游戏类, 比如你帮我捡一下装备, 快过来支援我, 给我加血, 类似这样的, 整体是这样的模式, 跟我们刚才的语音助手差不多。
下一个阶段, 跟圈内很多人聊过, 游戏能给人带来的是什么? 游戏放松、社交、情感价值以及挑战。AI 如果未来在游戏行业大家开始去尝试的话, 我觉得能改变的是中间的这两块, 第一个是陪伴的问题。因为我们做行业调研的时候也跟很多包括游戏制作人和玩家聊过, 其实很多比如像相对硬核的手游, 比如吃鸡等, 门槛还是挺高的, 我相信很多的女性玩家玩的少, 以及如果你没有队友, 你更不愿意去玩。如果让更多的 AI 加入进去陪伴他一起玩儿, 在降低游戏本身的门槛。
我们之前做过一个访谈, 有一个女孩说她为什么会去玩儿手游? 因为她觉得她以前自己玩端游试过, 但是发现太难了, 根本玩不转, 她扔个钩子都扔不准。后来她玩手游, 各方面的辅助, 有人帮她捡装备, 告诉她怎么弄, 她可以很快就融入进去了, 我觉得这就是一个很好的方向。另外就是互动化, 我相信有很多玩网游, 比如玩儿魔兽世界的, 是因为自己的朋友还在。在这个过程中无论是 AI NPC 还是真人 NPC, 可以达到陪伴的作用, 所以游戏下一阶段会在这两个层面, 如果 AI 广泛应用会有一些质的改变。
因此, 这一块也做一下我们的介绍, 声网在游戏这一块的布局今年的动作比较大, 今年我们也是协同 Unity 中国发布了 UOS Hello, 就是现在在 Unity 里面可以直接加载语音。我们希望 Unity 的开发者能够更快速、更快捷的直接在 Unity 里面就完成语音的接入, 因为多人联机的游戏和多人语音的接入, 对于游戏开发者而言门槛是很高的, 我们希望大幅度降低这部分的门槛。以及我们推出了 Wwise 的插件, 做这个圈的人大家都很熟悉,Wwise 是做游戏的音频引擎这一块的, 整个做各种真实的音效都需要这个, 我们也推出了相应的解决方案。
来源:互联网