孤独的人是可耻的 ,歌手张楚在 1994 年推出的同名专辑如是唱道。然而 30 年后的互联网,人们反复甄别,相遇到相知依然是件困难的事情。
相比 80 后、90 后,00 后会更多地为个性化和能够彰显自己独特的数字产品和服务买单,这使得做年轻社交越来越像一门玄学 从QQ、探探、Soul、积目再到小众化的轻语、Dots、Falo,交互体验往往决定着产品的上限。
年轻人的社交需求在不断演化,关系链发现、建立、活跃等维度会影响用户数据,但 UI 设计、AI 能力、运营策略则会直接关系用户体验。 一位资深产品经理向虎嗅表示。
上周,Soul 刚刚在 GITEX GLOBAL 上(全球三大 IT 展之一)亮出了 AIGC+ 社交融合的新进展:用户不仅能利用 AI 创建 3D 数字人,还可以实时进行沉浸式语言、肢体互动。
以前多模态交互是一个连续生成过程,会有延时,Soul 现在语音对话延迟不到 200 毫秒,因为我们已经推出了端到端大模型能力 过去先生成文本/图像再转换为语音,现在能将语音与 NLP 统一到一个集成流程中,从而消除了滞后问题。 Soul CTO 陶明解释称,这背后是一个数百人的技术团队在支撑,而 AI 人员配置占了一半。
事实上,2022 年底 ChatGPT 横空出世让整个互联网都为之躁动,心有猛虎的公司都在寻找向上攀爬的入口 豆包之于字节、元宝之于腾讯、文小言之于百度、通义千问之于阿里,互联网企业接连躬身入局。
形势不等人,Soul 也纵身一跃跳入了这股时代浪潮 一方面,中国移动互联网走到用户、流量趋于见顶的成熟期,监管会更侧重产业互联网的推进与建设;另一方面,在大模型浪潮的推动之下,AI 正为企业打开新的增长空间,这意味着技术走到平台重构生态的关键时期,互联网公司必须敢于纵身跳入 AI 浪潮(包括技术生态迭代、研发投入等)博一张未来的船票。
于是,越来越多开发者试图为用户构筑出一个丰饶的精神乐园、赛博分身,默默打磨着产品和团队,日拱一卒推动着产业齿轮缓慢前行。
而当 AIGC 的子弹射中社交时,往往要具备两个条件,一是持续推进产品快速迭代;二是持续探索新业务与场景融合方式。 Soul拥有 人机对话 的基础原子能力,但用户与业务之间存在鸿沟,不能直接把原子能力推向用户,而要构建一个AI being 和 Human being 共存的社区。包括大模型六小强做的一些 AI 聊天产品都支持单点聊天能力,但社区无法仅靠单点聊天维持。
陶明介绍, Soul 正从技术层面利用规则和策略,让人与 AI 交互变得更沉浸、真实。 人与 AI 在同一时空下不仅是单纯聊天,还要一起参与、创造场景,才能不断丰富用户体验。
顺着这个逻辑,AI 不能只具备认知能力,还应当具备超强的感知能力 纯认知能力给用户带来的价值有限,用户更希望表达被感知和理解。
社交产品要善于创造场景,在人与 AI 的交互过程中打造更多场景,前阵子我们发布了一个 demo,智能体在跟我们用户打电话的过程当中,如果你咳了几声,AI 会思考你是否感冒,这个互动过程用户获得 AI 的关心,是一种情绪价值。 陶明说到。
他认为,要加快 AI 的感知效率,必须要在语音和 NLP 的融合上下功夫,但很多大模型公司更多在打造基座能力,Soul 是为数不多去趟这个方向的企业,就是为了让用户能实时与具备形象、表情、记忆的 AI 多模态交互。
如此发展下去,年轻人好友列表会扩列越来越多 AI 与 80 后、90 后社交基于某些物理连接(现实身份信息)不同,00 后社交更倾向构建一个赛博分身 他们对于互联网怀着一种热烈的期待,渴望被看见,却又固执地选择画地为牢、圈地自萌(圈层化)成为这个世代赛博社交最显性社交共性。
为什么赛博社交更容易掳获年轻人的心?
多位社交赛道从业者向虎嗅表示,市面上大多数传统社交产品与现实关系绑定、强调颜值、中心化分发内容,反而使自在表达、注重个性化的产品凸显出差异化优势:
首先,以探探为代表的滑动匹配,通过产品设计放大颜值、真人照片带来的视觉刺激。优势在于,极高的匹配效率;劣势在于,用户关系维护、沉淀环节缺失,容易转移到其他主流社交平台,长期留存不理想。
其次,与传统社交产品唯颜值论、强调荷尔蒙源动力不同,赛博社交以审美、兴趣为出发点,重塑形象进行社交沟通;赛博社交倡导 注意力普惠 ,鼓励每一个用户参与到内容创造与社交互动中,并通过机制保证每个用户的发声被 同好 看到。
与此同时,主张个性表达是 00 后身上的显著标签,因为没有权威崇拜,反而可以更坦然面对自我 他们并不 care 你现实中的身份,对交友质量特别在意,更注重深度自我表达、平等沟通、包容性,有更强的群体认同感 汉服、语 C、Pia 戏等亚文化圈子莫不如是。
对此,Soul 产品负责人车斌曾向虎嗅表示, 从产品功能角度来看,赛博社交核心服务是无压力社交互动,并以多样的产品功能满足各个圈层个性化的社交需求。尤其 00 后,更依赖 赛博好友 ,彼此不需要成为线下好友。
以下为虎嗅与 Soul CTO 陶明在迪拜沟通对谈实录,部分内容为方便阅读有所删减和调整:
赛博社交被 AI 拿捏了
Q:从用户需求来说,开发虚拟数字人大模型的前景如何?
陶明:人机对话是产品基础的原子能力,但不能直接把原子能力推向用户,而要构建一个 AI being 和 Human being 共存的社区,大模型六小强现在的一些 AI 聊天产品都支持单点聊天能力,但一个社区无法仅靠单点聊天维持住,需要更多 AI 与人共处的场景,比如语聊房场景让 AI 融合人的模拟情境去交流,类似现实世界的仿真。
所以,产品要善于创造场景,在人与AI 的交互过程打造更多场景。我们前阵子发布的 demo 中智能体就有感知能力,聊天中用户咳几声,AI 会围绕是否生病这个 topic 展开话题,再比如用户跟 AI 语音对话,AI 听到周边是咖啡馆或音乐派对,便会主动切入话题。
当然,AI 只具备认知能力并不够人格化,还必须要有感知能力,所以很多公司会认为加大 o1 认知能力,才能给用户带来更多的体验。
Q:你们产品多模态与 o1 呈现效果差距如何?
陶明:对于 AI 的进化来讲,感知能力不仅是听得到声音,还要听到环境。所以,加快 AI 的感知效率必须要在语音与 NLP 的融合上下功夫。但这并非多数大模型公司的方向,他们更多是要打造基座能力,我们是为数不多去趟这个方向的公司,目前效果反馈不错,马上就可以发布视频能力,届时 AI 不仅听得见还能实时与用户视频聊天,它有形象、表情和语言逻辑。
而且,端到端延迟在 200 毫秒以内,它不是原来模型的串行,而是把语音和 NLP 的 talking 统一化了,延时得到极大改善,用户才能真正 实时 得到交互反馈 这对业务会是一个极大拓展,未来类似直播或露脸的功能就可以做了,可探索空间被极大延展。
Q:这个感知包括 AI 场景搭建,有哪些关键的指标?
陶明:今年上半年整个战略方向做了调整,重点聚焦在 AI 手段得提效上,让 AI 增强现有的社交网络,站内数据反馈很不错。渗透来讲的话,AI 相关场景/功能应该大几百万日活,原来很多场景是产品策略去承接,然后打造一些产品功能,现在都慢慢有AI自主去承接。
不过,目前并没有全量去铺 AI 功能,而是一点点去渗透,因为每个人接受程度、适应能力不同,有些人愿意尝试新事物,有些人则不一定,所以只能循序渐进。
Q:交互需要对用户建立很多标签,如何实现 AI 的长记忆能力?
陶明:最开始是搜索思路,回答之前搜机库把答案存下来;后来做了个 AI 小模型,在进入对话大模型之前,小模型会帮用户提炼记忆点,可能有数百个记忆点,时间越长记忆点所涉及范围会越广。
现在设想的是对长记忆数据直接输入进去,但这是一个大的技术方向,里面还有很多细节,比如记忆不能说完全是持续的,比如整个记忆里面某个点重复多次,不同时间点感冒应该取哪一次?不同场景是不一样的,这需要人工去做一些标注辅助,不是一个模型就能解决的。所以,端到端去解决用户体验还有改进空间,抛开产品、运营,很难纯技术解决端到端。
Q:这一轮 AI 技术浪潮,你们是产品推着技术往前走还是技术研发推着产品发展?
陶明:原来逻辑是产品出需求,然后技术实现;现在情况会有一些不同,在内部需求群里 AI 算法工程师与产品都可以提需求。现阶段来看,技术工程师知道 AI 现在能做什么、需求能实现的确定性高,但产品是创意驱动,提的需求可能现在做不了。不过,这种错位是阶段性的,最终产品与技术的认知会逐渐拉平。
当 AI 的子弹击中社交
Q:关于社交出海,是否有具体的推进计划?
陶明:海外一直在探索,Soul 不仅是社交,也要在 AIGC 有独特生态位,但考虑到体验层面及用户端粘性,现在没有正式把海外产品放出来,依旧是主平台传递 AIGC + 社交的概念,即面向不同市场,有不同产品表现形式,不同功能及场景,但底层已经彻底打通。
当 AIGC 的子弹射中社交时,往往要具备两个条件,一是持续推进产品快速迭代;二是持续探索新业务与场景融合方式,后者现在还不是很明朗,所以面对这样一个不确定性的探索,我们还没设计具体的时间表。
Q:你们训练了两个 AI 模型,在降本增效上有所体现吗?
陶明:降本增效这个话题是绕不开的。我们有两个模型,一个是基于形象层面的3D大模型,从2020年开始探索,希望用户在产品中打造另外一个人设,同时能一键生成形象;另一个是多模态大模型,希望用户不仅在 Soul 里面能跟真人进行对话,还能跟 AI 进行对话。这两条线一直努力往前走,AI 大模型感知层面已经蛮成熟。
具体而言,组织层面正将各个职能架构进行重组,分 NLP、3D、CV、语音等,团队把面向单模态模型的所有工作全部 close 掉,打造一个融合团队来构建多模态模型。
至于技术层面,组织一定会带来技术方向的改变,所以现在整个技术上只有两条线:一条线是围绕类似 GPU 融合去打造 3D、CV、语音的多模态模型;另外一条线是围绕最近 OpenAI 发布的 o1 模型这个思路去尝试,因为语言模型是驱动底层模型更通用、更智能的方向,所以业内会保留 NLP 类似 与 o1 在推理端进行强化学习的技术方向走,只是快和慢的问题。
Q:大模型开闭源之争,您怎么看待这个问题?
陶明:大模型从发展之初就存在开源与闭源两条路线,背后是两个不同的商业模式。有企业一直说闭源最好,因为它要打造闭源生态,这是最佳路径,所以必须要强调这个方向,让潜在客户伙伴不要去自研模型;选择将大模型闭源的有 OpenAI 的 ChatGPT、百度的文心一言、华为的盘古、商汤的日日新等;而选择开源的 meta、谷歌、百川、360、阿里等企业,希望借助 Linux 模式 ,聚合生态力量,让自己在 AI 市场占据一席之地,肯定会不遗余力让潜在客户用他的模型训练垂类模型。
从技术鄙视链条来看,企业产品训练用的开源,但内心其实也很想去打造一个闭源,这是工程师的一个执念,去打造一个完全闭源从 0~1 训练的大模型,而不是站在开源的基础上展示技术能力。
Q:中国互联网公司训练现在租卡和买卡投入上如何平衡?
陶明:很多公司没钱建专门的 GPU 机房,会去各个云平台买独占的卡,也会储备一些弹性的卡,这主要是从成本角度去考量。
但是囤卡风险太大,比如去年囤几千张卡到现在,整个卡的价值今年可能只剩下百分之三四十,价格波动太大。所以,大模型训练不要头脑发热去囤卡,现在跟供应商去聊,不管软件还是硬件,技术层面的商务交付方案必须可变,如果含固定就没有空间了。
Q:今年大模型行业似乎在降温,主要源于什么?套用开源模型与自研哪个好?
陶明:技术方向其实已经逐渐明朗,面对确定性的东西大家心态就会不那么焦虑,大概知道每家最后的底牌是什么。最近行业又有点焦躁,因为 AI 的推理能力的提升,大家又看到一个新的不确定东西,或许行业瓶颈是在英伟达,但现在还是 OpenAI 在引领。
至于是否自研,国内资源现在没有那么缺,去年开源的模型越来越多,在开源的基础上打造自己的基座并不是坏事 因为给业务赋能其实比自己埋头去做 Api 更重要。其实从产品角度来说,要的是快速交付,可能一天就要进行微调,但对 B 端公司很难交付,所以自研也会同步进行。