大模型应用于AI数字人什么是数字人数字人一般设计流程真人驱动的数字人计算驱动的数字人大模型赋能数字人数字人的评估指标数字人产业链数字人类型与应用领域端应用C端应用数字人应用示例品牌IP化数字人面临的问题与挑战技术挑战人类友好问题伦理问题法律问题小节大模型会改变整个软件行业其中具有代表性产品之一是数字人那么什么是数字人呢数字人涉及了哪些关键技术呢大模型对数字人的发展带来了哪些影响呢什么是数字人数字人目前还缺乏一个相对统一的定义有人把人类的数字孪生体定义为数字人有人把虚拟世界中具有人类行为的实体定义为数字人有人将3D人体模型成为数字人例如韩国学界对数字人的定义是用数字化技术打造具有逼真人类长相、语言、动作姿态、身体特征的虚拟3D人体模型。市场调研结构IDC将数字人定义为“采用人工智能技术驱动生成的数字化的虚拟人物——具备人的外观、感知互动能力以及表达能力”。、一般地人们把数字人成为数字人是通过聚合科技创造的存在于虚拟世界且具有类“人”特质的数字形象。它是元宇宙中自然人进行虚拟时空感知的主要载体是实现人机融合交互的组成部分也是元宇宙的经济增值板块。数字人与自然人、机器人共同组成了元宇宙的“三元”。数字人能感知不同环境根据人的需求形成“化身”形象。人机交互将被赋予智能化、情感性和思想性特征数字人将复制人类的知识、记忆、思维和情感从而在社交系统、生产系统、经济系统上实现与自然人的虚拟共生。数字人的三大特征是虚拟化、拟人化和智能化。从技术上看数字人指存在于非物理世界中由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机技术锻造并具有多重人类特征外貌特征、人类表演能力、人类交互能力等的综合产物。数字人一般设计流程数字人在技术上分为灵活的真人驱动型和基于深度学习的计算型驱动。真人驱动的数字人真人驱动型在动作灵活度、互动效果等方面有明显优势一方面能够在影视内容的创作中减低生产升本为影视行业降低门槛推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中帮助数字人完成大型直播、现场路演等互动性、碎片化活动。其一般设计流程如下形象设计及建模绘制原画、面部及3D建模建模绑定关键点绑定的数量及位置影响最终效果。表现捕捉捕捉在形体、表情、眼神、手势等方面的关键点变化。驱动及渲染根据制作实时驱动数字人表演特定设置语音。生成内容进行互动进行直播或录制其动作生成内容。计算驱动的数字人计算驱动的数字人最终高效果收到语音合成、NLP技术、语音识别等技术的共同影响。尽管在特定方向上各感知类技术已有的商业化能力已足以支撑然而但要达成理想的综合效果需要该公司在三个方面同时具有较强的综合能力。其一般设计流程如下设计形象采集数据形象建模进行绑定设计形象模型进行关键点绑定训练各类驱动模型利用深度学习、学习语音、形象、表情参数的潜在映射关系内容制作基于输入的语音预测唇动、表情等参数利用GAN选出最佳帧将语音和每帧的数字人图片进行结合进行渲染生活最终内容。大模型赋能数字人生活式AI的崛起给数字人产业带来了根本性变化。传统的数字人技术主要依靠预设参数和有限的模型训练但大模型技术则为其提供了近乎无限的训练参数和自主生成能力使数字人更为真实多样。大模型包含了数字人形象、动作、表情、口型、声音等要素每个用户可以结合个人数据对数字人进行训练。大模型对2D数字人的提效显著。AI的生成能力天然适配2D数字人。市面上出现了许多2D数字人定制工作逻辑基本一致只要你输入文本素材就能生成数字人形象。3D数字人的工作流比2D的要复杂非常多大模型能让数字人制作成本十倍、百倍地下降还能让虚拟数字人生产周期从动辄几个月缩短到小时级别。数字人的制作成本将从百万级降低到万元级别。大模型不仅直接降低了3D数字人的制作难度更为数字人注入了灵魂。过去3D建模依赖传统CG技术动作捕捉需要采集真人大量数据现在依托视频大模型的数字人工具平台上算法可以高效生成3D模型处理面部细节也更加逼真提升了面部表情以及蠢形同步的质量。更重要的是大模型在很大程度上解决了数字人的自然语言处理能力多模态大模型是数字人真正的灵魂。然而创意边界毋容置疑将会依靠大模型的语料库、算里储备以及其所迸发的涌现能力来提升效果仁者见仁智者见智。数字人的评估指标社会学中人类身体研究分为两条主要途径自然主义身体观和社会构建论身体观。自然主义身体观重点强调人类的躯体属性“肉身”而社会构建论身体观则重点强调人类的社会属性“社身”从功能角度分析两种身体观都关注了人类的工具属性“具身”。数字人综合指数从此为基础将社会学中自然人的“身体观”引入数字人的评估思想中形成数字人“三身”指数评价体系。数字人产业链国内外在细分市场上的竞争差异较大国内外目前共同市场是自动生成虚拟内容但在外表细节、预设模板、配套系统等方面的差异较大。国外更关注情感关怀的顾问/助手类数字人和用于打造数字人的应用国内更关注虚拟客服类商家对虚拟直播的高度关注是我国特有方向。数字人类型与应用领域数字人的应用可分为服务型数字人和身份型数字人替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的试产热点。端应用目前数字人产品大多应用于端场景例如帮助互联网商家实现全天候轮播的虚拟主播、办事大厅内自主办理业务的虚拟前台、自动处理诉求的虚拟客服等B端消费者仍是市场的主要组成部分。重构内容生产模式提升数字内容生产效率和质量重新定义粉丝经济助理品牌传播转变品牌形象拉近品牌和用户的关系新型带货赋能电商推动数字化转型助理企业提质增效。C端应用数字人产品的C端应用场景包括上传照片重现逝去亲友的虚拟亲友、服务于儿童教育的虚拟陪读、监管自媒体公众号的虚拟小编等。C端应用场景仍有较大挖掘潜力。参与用户的生活追求更真实、更理想的自我缓解真人手语主持人稀缺问题有效解决听障人士沟通问题成为人们的助理、朋友甚至伴侣。数字人应用示例品牌IP化IP的呈现是抽象化的品牌理念被具象化后的产物承载了品牌希望消费者被唤起的感性共鸣并以独特的特质将该品牌与其他品牌进行区分。企业品牌往往以IP形象进行传播动态的IP形象更能传递亲切感引发受众的共情使品牌形象更加鲜活生动例如若干年前的海尔兄弟。如今品牌方开始推出人形IP并从2D的动画进化为3D的立体呈现追求更加拟人化的效果以拉近和受众的距离。但是单向传播无法充分调动受众的参与感。品牌方推出加入语言交互的数字人IP使之成为帮助用户处理具体事务的虚拟助手角色或是陪伴角色。长时陪伴的IP使得用户产生更深层次的情感甚至形成“养成”体验增强IP的定制感。数字人IP的身份可以是宠物、伴侣、子女、同学等用户不仅能够见证虚拟IP被自己塑造而发生的改变也能洞见自身在这一过程中的成长。数字人面临的问题与挑战数字人同样存在技术瓶颈也出现了一些新的问题。技术挑战尤其是计算型数字人受限于大批量、高质量的训练数据样本实现泛化性仍然是当前存在的挑战。写实风格的数字人在越来越像人的同时仍需突破“恐怖谷效应”。情感传达是技术瓶颈。当前仍然主要运用动作捕捉技术数字人的表情基准还是无法传达类似于眉毛的弯曲度肌肉颤动等微表情细节所以很难将人所表达的情感完全传达出来。在人与数字人的在交流过程中智能单纯的传达文字而背后的情感语义和情绪则没有办法直接传达出来。另外数字人缺少情感AI算法的应用没有办法通过判断人说话的情感来转变回复进而改进情感倾向实现更人性化的交互基于多模态的大模型获取可用部分解决这一问题。人类友好问题数字人所营造的新型人机关系可能成为人类组织活动中强行嵌入的某种“异物”人类组织对这类智能嵌入物是否有排异反应目前还很难从个别的孤例中获取足够的数据做出有效的判断。也就是说当大量数字人处于工作岗位、担当工作职责的时候组织行为将会出现何种变化尚待考虑。伦理问题智能技术的核心算法将技术与伦理问题紧密结合在一起。某种智能算法支撑下的数字人在深度学习、大数据浸染之下可能具备某种价值倾向、伦理倾向甚至可能带有某种“邪恶”倾向。法律问题隐私保护是不变的主题制作有真人原型的数字人需要抓取大量信息而大量地、非法地提供这些信息反映出漠视或忽略隐私保护的现象。隐私安全的权利一部分属于现实用户另一部分属于产生了自我意识的数字人。利用深度合成技术可以实现人脸再现但随着网络技术逐步发展以及对肖像权保护力度的不足大量抓取网络视频、图像的深度合成问题成为一种法律隐患。虚拟空间是制作数字人的底层结构因此虚拟网络的管辖权就是客观规划数字人的基础。法律的管辖首先需要确定网络犯罪的所在地而虚拟空间中的犯罪行为最初和最终发生在什么地方难以确定。对应开发者而言“避风港原则”是一种针对网络服务提供者的责任豁免原则具体指网络服务提供者接到权利人的通知以后根据法律法规定断开与侵权的作品、表演、录音录像制品的链接的不承担赔偿责任。小节数字人是未来人工智能大模型最重要的应用入口。通过大模型的赋能数字人的产品发展首先要提升自主创新能力有赖于数字资产的确权、自有技术运营、IP的持续迭代与进化。同时需要打造全媒体的多模态传播体系和持续性事件营销体系为数字人的传播内容的生产、呈现、自传播提供圆圈不断提升传播影响力。挖掘个性化传播内容通过个性化吸引目标用户并保持用户粘性、提升忠诚度与口碑。另外重视社会价值传播赋予虚拟数字人社会服务属性提升行业影响力得到自身公信力。