数字人——定义数字世界中的你序言算法驱动的数字人数字人的构造数字人的躯壳数字人的灵魂结语序言数字人运用数字技术创造出来的人。目前还没有一个完全属于数字人的准确定义因为AIGC以及相关技术的发展预计数字人会在不久的将来成为一个科技大爆点如果说人性机器人的具身智能还有很长的路要走那么数字人就是这中间触手可及的过度产物很多电影里的桥段终将照进现实。算法驱动的数字人这是一个算法驱动的时代从2015年AlphaGo围棋战胜人类开始AI这一词普遍进入大众的视野后就再也没有消失过各行各业都开始了算法革命。经过这么多年的各种算法沉淀算法驱动的数字人开始崭露头角。这里可以将数字人区分为两个大类别一个是真人驱动的数字人一个是算法驱动的数字人。真人驱动的数字人就不得不提到当前风靡全球的《阿凡达》通过一套先进的动捕设备在模型上精细还原了真人的动作以及面部表情。数字人的构造怎样定义一个数字人我们构造一个数字人的目的就是希望可以在数字世界构造一个像人一样的数字生命那么我们就应该按照一个“真正的人”去构造他。人员由什么构成的给一个玄学但是我觉得很酷的答案肉体和灵魂。同样数字人也可以由这两部分组成数字人的躯壳就像我们的身体一样首先得有一个好看的皮囊数字人的灵魂好看的皮囊千篇一律有趣的灵魂万里挑一躯壳和灵魂两部分可以独立出来部署躯壳关注好展示部分灵魂关注好交互实现部分。数字人的躯壳数字人的躯壳起始就是建模过程建模由很多种方式2D引擎这一类更偏向于二次元不过很多人喜欢这样的风格比如说可以将一个你喜欢的动漫人物变成数字人的躯壳。2D引擎的代表就是Live2D Cubism。3D引擎这一类更加偏向于超写实的人物建模3D引擎的代表是UEUnreal Engine和Unity。虚幻引擎的MetaHuman可以实现用户通过手机摄像头快速创建一个自己的虚拟人身体例如NextHuman。AIGC这个方向还在快速发展相比以上两个减少了建模的流程但是弊端也非常明显算法生成的每一帧连贯性上总会给人一种一眼假的感觉对于一些任务模型真实度要去没有那么高的项目可以使用这种方案典型的项目有wav2lip、video-retalking。数字人的灵魂有了数字人的躯壳就需要“灵魂”来驱动前面已经讲了最简单的数字人需要三部分算法。这三部分算法开源的代码有很多ASR语音识别openau的whisperwenetspeech_recognitionAI Agent大模型部分就比较多了包括ChatGPT、Claude、ChatGLMS、文星一言、千帆大模型、通义千问等Agent部分可用使用LANgChain的模块去自定义里面基本包含了Agent实现的几个组件TTS微软的edge-tts只能使用里面预设的任务声音VITS还有很多分支版本,VITS系列可用自己训练出想要的人声so-vits-svc专注到唱歌上面前段时间很火的AI孙燕姿。此外数字人的灵魂不仅仅在于算法实现工程实现至关重要其中工程实现又包含几个重要部分AI Agent我们想要数字人可以像人一样思考就需要写一个像人一样的Agent工程实现上怎样去构思记忆模块怎样去使用各种工具等是一个具有挑战性的问题。驱动躯壳的实现灵魂部分怎样去驱动躯壳部分我们可以将灵魂部分的所有接口定义出来然后躯壳部分通过API调用调用方式可以是HTTP、webSocket等等视躯壳部分的实现而定。另外包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音同步及匹配也是一个很大的挑战性问题目前主流的方案基本上只能做一些预设表情动作然后做一些逻辑上的判断来播放预设语言驱动口型相对来说成熟一些但是基本上都是闭源的。实时性由于整个数字人的算法部分组成庞大几乎不能实现单机部署特别是大模型部分所以算法一般会部署到额外的集群或调用提供出来的API这里就会涉及到网络耗时和建模推理耗时如果响应太慢就会体验很差所以低时延是数字人需要解决的一个问题。多源跨模态仅仅是语音交互的数字人是远远不够的人有五感听觉指示其中一种其他的感官可以根据实际需求来做比如视觉可以通过添加摄像头数据来获取数据再通过系列CV算法做图像分析等。拟人化场景我们正常和人交流的时候会突然打断发表个人观点等操作都需要工程上做出丝滑的处理。结语相信数字人会在接下来的几年里渗透到各行各业也有可能会是一次新的产业升级相信这会是一个很酷的项目未来可期