a16z: AI 虚拟人发展趋势
当 AI 不再只是生成内容,而是能“化身”内容,会发生什么?
AI 已经可以生成逼真的照片、视频和声音,甚至能在视觉和听觉层面通过“图灵测试”。下一个重大飞跃就在 AI 虚拟人(AI avatars):将一张面孔与声音结合,创造出一个会说话的角色。
有人可能会问:“难道不能直接生成一张脸,再给它加上动画和配音吗?”其实没那么简单。真正的挑战不仅仅是对好口型,还要让面部表情和肢体语言同步。如果你的嘴巴表现出惊讶,而脸颊和下巴却纹丝不动,这就会很怪异!如果声音听起来很兴奋,可对应的脸却面无表情,逼真感瞬间就破灭了。
不过,这方面已经出现了实质性进展。AI 虚拟人已经开始应用于内容创作、广告和企业沟通。虽然当前大部分产品还停留在“会说话的头部”阶段——功能性大于精细度——但最近几个月也有不少令人眼前一亮的进展,足见未来前景可期。
在这篇文章里,我们将分析当前有哪些可用的技术、未来可能的发展方向,以及当下最令人印象深刻的 AI 虚拟人产品(基于我对 20 多款产品的亲身测试)。
我测试了 20 多款用来生成 AI 角色的产品。作为一个多年一直在尝试这些工具的人,我对如今能做出的效果感到震撼。
研究是如何演进的?
AI 虚拟人是一个独特又富有挑战的研究课题。要让一张脸开口说话,模型需要学会逼真的“音素(phoneme)-视素(viseme)”映射:即语音中的音素如何对应到口部的可视化形态。如果对不准,嘴型和声音就会显得不同步,甚至完全脱节。
更复杂的是,开口说话时并不只有嘴巴在动。整张脸会随之变化,上半身甚至有时还会带动双手。此外,每个人说话都有自己独特的风格。想想你自己说话的方式,和你最喜欢的明星说话方式是不同的——即便是同一句话,两个人的口型也会大相径庭。如果你把自己的口型硬套到明星脸上,就会非常别扭。
过去几年,从研究角度看,这个领域已经取得了长足进步。我查阅了自 2017 年以来的 70 多篇与 AI 会说话的头部(talking heads)相关的论文,可以看到模型架构上的显著变化:从 CNN、GAN,一直到基于三维的 NeRF、3D 可变形模型(3D Morphable Models),随后是 Transformers、扩散模型(diffusion models),再到最近基于 Transformer 架构的 DiT(Diffusion in Transformer)。下面的时间线展示了每年引用率最高的几篇论文:
无论是生成质量还是模型能力都有了巨大的提升。早期方法局限性很大。想象一下,只用某人的一张照片,遮住脸的下半部分,再根据音频输入的目标面部关键点来生成新的嘴部运动。这些模型通常依赖数量有限且高质量的对嘴数据进行训练,大多数训练素材还都是人脸特写。更逼真的结果(比如“与奥巴马口型同步的实验”)通常需要大量目标人物视频素材,而且生成的结果也比较单一。
如今的模型更加灵活且功能更强大。它们可以生成半身甚至全身动作,以及逼真的说话面孔和动态背景——都在同一个视频里!这些新模型更像传统的文本转视频模型(text-to-video),在更大规模的数据集上进行训练,并运用多种技术来确保嘴型在大量动作下依然准确。
最早出现的例子之一是字节跳动在 2 月份推出的 OmniHuman-1 (最近已在 Dreamina 开放使用),给我们带来了初步预览。随后在 3 月份, Hedra 发布了 Character-3,我们在对比测试后发现它如今在大多数用例里表现最佳。Hedra 也能用于非人类角色(比如 这个会说话的 Waymo),并允许用户通过文字来提示角色的情感和动作。
同时,围绕 AI 动画的新需求也不断涌现,比如“宫崎骏风”的动画潮流。下面这个视频是从一张起始图片和一段音频生成的。Hedra 负责生成角色的口型以及面部和上半身的动作。注意看看后景里的人物也是会动的!
AI 虚拟人的实际应用
其实,AI 虚拟人的应用场景数不胜数——只要场合中会有一个角色或视频中有人在说话,都有想象空间。从个人到中小企业,再到大企业,都已出现了各种具体用途。

上图是一个早期的市场示意图。这个领域变化迅猛,产品间的界限也比较模糊。理论上,很多产品_都_能制作出适用于以上大部分场景的虚拟人,但在实际使用中,要针对不同需求和工作流程进行调整并非易事。以下是一些不同市场领域在使用 AI 虚拟人的示例:
消费者:角色创作
如今,任何人都可以用一张图片就生成带动画的角色,这对于创作力来说是一个_巨大的_解放。对于普通用户想用 AI 讲故事来说,这简直太有意义了。此前,很多人诟病早期 AI 视频是“几张图的幻灯片”,一个重要原因就是没有会说话的角色(或者就算有,也只是简单的旁白配音)。
但当你能让角色开口说话时,你的内容就更鲜活。除了传统的叙事视频,你还能创造像 AI 虚拟主播、播客主持人或者 音乐视频。这里举的例子都是用 Hedra 制作的:用户只需要提供一张起始图片和一段音频(或脚本),Hedra 就能生成生动、有动态表情的角色。
如果你有一段视频想重新对口型,Sync 可以帮你让角色的面部更好地匹配你的音频。如果你想通过真人表演来驱动角色动作, Runway Act-One 和 Viggle 都能实现类似功能。
我个人非常喜欢的一个 AI 动画创作者是 Neural Viz,他们的系列“Monoverse”描述了一个后人类时代的宇宙,被名为 Glurons 的生物所填满。随着角色动画的门槛进一步降低,我们很可能会看到更多用 AI 制作的剧集,甚至 AI 生成的独立网红。

Unanswered Oddities – 第 1 集: Humans (youtube.com/@NeuralViz)
随着实时交互技术的不断进步,想象一下在应用里直接与实时 AI 角色“对话”的场景也将成为可能。比如学语言时,你不仅能听到“教练”的声音,还能看到对方面孔和丰富的个性,这会比传统的声音助手更生动。目前已有公司 Praktika 在尝试。未来这类交互只会越来越自然。
中小企业(SMBs):线索获取(Lead Generation)
广告正成为 AI 虚拟人的首个爆款应用场景之一。无需雇演员和制作团队,企业只要用 AI 角色就能推广产品。例如 Creatify 或 Arcads 等平台,只要你提供产品链接,它们就能自动生成广告:从写脚本、找素材、挑演员(AI 角色)全都涵盖。
对许多本就无力承担传统广告拍摄成本的企业来说,这尤其有用。这类功能在电商、游戏和消费类应用里尤其受欢迎。或许你在 YouTube 或 TikTok 已经看过 AI 生成的广告。如今,to B 公司也在尝试用 AI 虚拟人做内容营销或个性化营销,比如 Yuzu Labs 和 Vidyard。
不少这类产品会把 AI 角色(不论是真人克隆还是全新角色)与产品照片、视频片段、音乐等素材结合在一起。用户可以选择在何处插入这些素材,也可以让产品自动组合一条视频。脚本则可以自己写,也可以用 AI 自动生成。
企业级用户:规模化内容创作
除了营销之外,AI 虚拟人在大企业里还有诸多应用。以下是几个常见场景:
学习与发展(L&D)
多数大公司都会制作培训或教学视频,涵盖新人培训、合规要求、产品使用或技能提升等。像 Synthesia 这样的 AI 工具能极大加速这些视频的制作流程。某些需要定期进行视频培训的岗位(例如销售需要不断练习谈判技巧)也能利用像 Anam 这样的产品,让员工随时与 AI 虚拟人对练。
本地化(Localization)
如果企业有全球化需求,就可能需要针对不同国家的文化习惯、本土语言进行内容本地化。通过 AI 生成角色,可以快速生成不同国家/地区版本的视频。借助 ElevenLabs 这样的 AI 语音翻译 技术,可以用自然流畅的声音生成几十种语言版本。
高管影响力(Executive presence)
AI 虚拟人能让高管大幅提升他们与员工或客户之间的互动效率。比如,可以用 CEO 或产品负责人的 AI 分身来制作产品发布视频或感谢致辞,而无需真人亲自录制。公司如 Delphi 和 Cicero 也在致力于让拥有众多追随者的“思想领袖”们更好地在线上与他人一对一互动,回答问题。
AI 虚拟人的关键要素

想要打造一个逼真的 AI 虚拟人,需要克服很多技术难点。并不是只要躲开“恐怖谷”就行,还得解决动画、语音合成和实时渲染等一系列复杂问题。以下是构成一个 AI 虚拟人的基本要素,以及它们为什么难、又有哪些最新进展:
脸部(Face)
无论是克隆真实人物还是塑造新角色,都要保证角色在帧与帧之间的一致性,并能在说话时做出逼真的表情。让角色根据上下文做出合适的表情依旧困难(例如在说“我很累”时能配合打哈欠)。声音(Voice)
声音必须听起来真实,并与角色形象匹配;一个少女角色可不能配上老年妇女的声音。目前绝大多数 AI 虚拟人产品都在用 ElevenLabs,它拥有丰富的声音库,并允许你克隆自己的声音。口型同步(Lip sync)
要做好高质量的口型同步并不容易。像 Sync 这样的公司就是专门研究这个问题。而其他比如 MoCha(Meta 出品)或 OmniHuman 这样的模型,则是在更大规模的数据集上训练,但会想办法在生成面部帧时强力绑定音频,让口型更精准。身体(Body)
角色不能只是一颗“会说话的头”!更先进的模型可以让角色出现全身并动态移动,不过在规模化和面向用户交付层面还很初期。背景(Background)
虚拟人不可能存在于真空里。背景中的光照、深度以及角色与场景间的互动都要匹配。如果能做到角色与背景中的物体有更多互动(比如手握产品等),逼真度会更上一个台阶。
如果希望 AI 虚拟人能实时对话(比如参加一个 Zoom 会议),还需要额外的功能:
大脑(Brain)
角色得能“思考”。目前支持对话的产品一般允许你上传或接入一个知识库。未来更复杂的形态或许还会融入更多记忆和个性,让角色能记住你们过去的对话,并展现独特的“风格”。流媒体(Streaming)
要以极低的时延实现上述所有功能并不容易。LiveKit 和 Agora 在这方面有所进展,但要将多个大模型实时部署且保持低延迟依旧很难。已有少数产品做到了相对好的效果,比如 Tolan 这款有声音和面部的 AI 外星人伴侣,但整体上仍有不少提升空间。
我们还想看到哪些进步?
在这个领域,还有很多可以继续改进和创新的地方。以下几点是我目前最感兴趣的方向:
角色的稳定性与可变形
过去,AI 虚拟人往往只有一种固定外貌,服装、姿势和环境都很难变。现在有些产品开始提供更多可选方案。比如 HeyGen 旗下的角色 Raul 就提供了 20 种不同的造型!但要能随心所欲地“捏”角色,甚至在同一个视频里变装、变场景,目前还不够成熟。
更自然的面部动作与表情
长久以来,AI 虚拟人的面部往往显得生硬,这一点正在逐渐被改进。比如 Captions 的新模型 Mirage,就能表现更自然的面部表情和更广泛的情绪变化。期待能出现能真正理解脚本情感并做出恰当表情的 AI 角色,比如在逃离怪物时脸上能呈现恐惧感。
身体动作
目前绝大多数虚拟人都只有脸部以下的一点点活动——例如简单的手势都不常见。手势控制依旧主要是程序化的,比如 Argil 允许用户在视频段落之间切换不同的肢体语言选项。未来我们希望能看到更自然的、自动推断的动作。
与“现实世界”的互动
现阶段,AI 虚拟人无法真正与周围环境交互。短期内可见的目标是让虚拟人在广告中能够拿起或展示产品。Topview 在这方面已有一些尝试(可以看下他们展示的视频演示),我们也对模型继续进化后的更高级交互充满期待。
更多实时应用
想象一些潜在场景:用 AI 医生视频问诊、在电商平台与 AI 销售顾问聊天选购商品,或用 FaceTime 跟你最爱的影视角色对话。尽管时延和稳定性距离真人还差一点,但已经越来越接近了。可以看看我和 Tavus 最新模型的实时聊天演示。
未来会怎样?
从我们过去几年投资基础模型公司和 AI 应用的经验来看,很难准确预测一个领域的具体走向。但可以肯定的是:随着底层模型质量已足够支撑逼真的“会说话的头部”,AI 虚拟人的应用层极有可能会迎来快速增长。
我们相信这一领域会诞生多家价值数十亿美元的公司,针对不同用例和用户群(比如消费者、中小企业和大型企业)各有分工。举例来说,如果一个 CEO 想克隆自己来录制对客户的视频,TA 对画面质量和逼真度的要求会很高,也愿意为此支付更高费用。而如果只是粉丝想生成自己喜爱的动漫角色跟朋友分享,那可能不需要那么高的“真实性”标准。
工作流程同样重要。做 AI 网红来打广告,需要的功能包括自动抓取产品信息、写脚本、插入 B-roll、上传社交平台并监测效果。而如果想利用 AI 角色讲故事,则更注重保存和复用角色与场景、方便剪辑不同片段等功能。
眼下,AI 虚拟人领域似乎正处于一个“爆发前夕”的关键点。我们对接下来的发展充满期待,相信未来会出现更多令人惊叹的创意和应用。