【AI数字人系列】三、数字人——定义数字世界中的你
数字人——定义数字世界中的你序言算法驱动的数字人数字人的构造数字人的躯壳数字人的灵魂结语序言数字人运用数字技术创造出来的人。目前还没有一个完全属于数字人的准确定义因为AIGC以及相关技术的发展预计数字人会在不久的将来成为一个科技大爆点如果说人性机器人的具身智能还有很长的路要走那么数字人就是这中间触手可及的过度产物很多电影里的桥段终将照进现实。算法驱动的数字人这是一个算法驱动的时代从2015年AlphaGo围棋战胜人类开始AI这一词普遍进入大众的视野后就再也没有消失过各行各业都开始了算法革命。经过这么多年的各种算法沉淀算法驱动的数字人开始崭露头角。这里可以将数字人区分为两个大类别一个是真人驱动的数字人一个是算法驱动的数字人。真人驱动的数字人就不得不提到当前风靡全球的《阿凡达》通过一套先进的动捕设备在模型上精细还原了真人的动作以及面部表情。数字人的构造怎样定义一个数字人我们构造一个数字人的目的就是希望可以在数字世界构造一个像人一样的数字生命那么我们就应该按照一个“真正的人”去构造他。人员由什么构成的给一个玄学但是我觉得很酷的答案肉体和灵魂。同样数字人也可以由这两部分组成数字人的躯壳就像我们的身体一样首先得有一个好看的皮囊数字人的灵魂好看的皮囊千篇一律有趣的灵魂万里挑一躯壳和灵魂两部分可以独立出来部署躯壳关注好展示部分灵魂关注好交互实现部分。数字人的躯壳数字人的躯壳起始就是建模过程建模由很多种方式2D引擎这一类更偏向于二次元不过很多人喜欢这样的风格比如说可以将一个你喜欢的动漫人物变成数字人的躯壳。2D引擎的代表就是Live2D Cubism。3D引擎这一类更加偏向于超写实的人物建模3D引擎的代表是UEUnreal Engine和Unity。虚幻引擎的MetaHuman可以实现用户通过手机摄像头快速创建一个自己的虚拟人身体例如NextHuman。AIGC这个方向还在快速发展相比以上两个减少了建模的流程但是弊端也非常明显算法生成的每一帧连贯性上总会给人一种一眼假的感觉对于一些任务模型真实度要去没有那么高的项目可以使用这种方案典型的项目有wav2lip、video-retalking。数字人的灵魂有了数字人的躯壳就需要“灵魂”来驱动前面已经讲了最简单的数字人需要三部分算法。这三部分算法开源的代码有很多ASR语音识别openau的whisperwenetspeech_recognitionAI Agent大模型部分就比较多了包括ChatGPT、Claude、ChatGLMS、文星一言、千帆大模型、通义千问等Agent部分可用使用LANgChain的模块去自定义里面基本包含了Agent实现的几个组件TTS微软的edge-tts只能使用里面预设的任务声音VITS还有很多分支版本,VITS系列可用自己训练出想要的人声so-vits-svc专注到唱歌上面前段时间很火的AI孙燕姿。此外数字人的灵魂不仅仅在于算法实现工程实现至关重要其中工程实现又包含几个重要部分AI Agent我们想要数字人可以像人一样思考就需要写一个像人一样的Agent工程实现上怎样去构思记忆模块怎样去使用各种工具等是一个具有挑战性的问题。驱动躯壳的实现灵魂部分怎样去驱动躯壳部分我们可以将灵魂部分的所有接口定义出来然后躯壳部分通过API调用调用方式可以是HTTP、webSocket等等视躯壳部分的实现而定。另外包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音同步及匹配也是一个很大的挑战性问题目前主流的方案基本上只能做一些预设表情动作然后做一些逻辑上的判断来播放预设语言驱动口型相对来说成熟一些但是基本上都是闭源的。实时性由于整个数字人的算法部分组成庞大几乎不能实现单机部署特别是大模型部分所以算法一般会部署到额外的集群或调用提供出来的API这里就会涉及到网络耗时和建模推理耗时如果响应太慢就会体验很差所以低时延是数字人需要解决的一个问题。多源跨模态仅仅是语音交互的数字人是远远不够的人有五感听觉指示其中一种其他的感官可以根据实际需求来做比如视觉可以通过添加摄像头数据来获取数据再通过系列CV算法做图像分析等。拟人化场景我们正常和人交流的时候会突然打断发表个人观点等操作都需要工程上做出丝滑的处理。结语相信数字人会在接下来的几年里渗透到各行各业也有可能会是一次新的产业升级相信这会是一个很酷的项目未来可期

相关新闻

图片隐写小题训练

图片隐写小题训练

Practice1-基础图片隐写数据提取 资源链接: https://pan.baidu.com/s/1y_6xPexIqbtqO4HOaOloRA?pwd2duc 提取码: 2duc 题目描述: 将test.ping中的隐写数据提取出来 操作: Step1。直接bash指令zsteg test.png,可看到下面代码块中…

2026/7/4 22:53:46 阅读更多 →
【hello-agent】环境配置

【hello-agent】环境配置

本节将指导您配置运行 FirstAgentTest.py 所需的完整环境。该代码实现了一个智能旅行助手,展示了基于工具调用的 Agent 实现模式。 一、环境要求 1.1 Python 版本要求 Python 3.10 (推荐使用 Python 3.10 或更高版本)支持的操作系统&#…

2026/5/17 10:24:02 阅读更多 →
【ACM出版、郑州大学主办】第二届生物信息学与计算生物学国际学术会议(ISBCB 2026)

【ACM出版、郑州大学主办】第二届生物信息学与计算生物学国际学术会议(ISBCB 2026)

第二届生物信息学与计算生物学国际学术会议(ISBCB 2026)将于2026年4月17-19日在中国郑州召开。 生物信息学与计算生物学作为现代生命科学中不可或缺的重要组成部分,通过整合计算机科学、数学、统计学等多学科知识,推动了生物学领…

2026/7/4 20:50:59 阅读更多 →

最新新闻

ChatGPT插件API密钥安全管理实战:从架构设计到自动化轮换

ChatGPT插件API密钥安全管理实战:从架构设计到自动化轮换

1. 项目概述:为什么ChatGPT插件密钥安全是生死线最近在折腾各种AI工具和插件,发现一个挺普遍但又被很多人忽视的问题:ChatGPT插件的API密钥管理。无论是自己开发插件,还是使用别人的,密钥泄露的风险都像悬在头顶的达摩…

2026/7/4 22:52:53 阅读更多 →
基于YOLOv8-seg的高精度道路缺陷检测系统开发

基于YOLOv8-seg的高精度道路缺陷检测系统开发

1. 项目背景与核心价值道路缺陷检测是智慧交通和市政养护领域的关键技术痛点。传统人工巡检方式存在效率低、漏检率高、主观性强等问题,尤其在夜间或恶劣天气条件下表现更差。我们团队基于YOLOv8-seg框架,融合EfficientRepBiPAN、AFPN-P345等50余项创新改…

2026/7/4 22:50:52 阅读更多 →
AI技术决策指南:从信息过载到可执行落地

AI技术决策指南:从信息过载到可执行落地

1. 项目概述:一份AI领域 Newsletter 的真实价值拆解“This AI newsletter is all you need #60”——看到这个标题,你第一反应可能是:又一份泛泛而谈的AI资讯合集?点开就看三行摘要、五个链接、一个ChatGPT新插件预告,…

2026/7/4 22:46:48 阅读更多 →
TC78H660FTG与PIC18F86J10的直流电机驱动优化方案

TC78H660FTG与PIC18F86J10的直流电机驱动优化方案

1. 项目背景与核心器件选型在工业自动化和消费电子领域,直流电机驱动系统的效率优化一直是工程师面临的关键挑战。TC78H660FTG作为东芝新一代H桥驱动器,与Microchip的PIC18F86J10微控制器组合,为解决这一问题提供了高性价比方案。TC78H660FTG…

2026/7/4 22:46:48 阅读更多 →
AntiDupl终极指南:三步快速清理重复照片,释放磁盘空间

AntiDupl终极指南:三步快速清理重复照片,释放磁盘空间

AntiDupl终极指南:三步快速清理重复照片,释放磁盘空间 【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl AntiDupl是一款专业的开源图片去重工具&a…

2026/7/4 22:42:44 阅读更多 →
基于STM32和MAX9744的高效D类音频放大器设计

基于STM32和MAX9744的高效D类音频放大器设计

1. 项目背景与核心器件选型在音频系统设计中,功率放大环节直接决定了最终的声音表现。传统AB类放大器虽然音质优秀,但效率普遍低于50%,导致发热严重、能耗高。而D类放大器采用PWM调制技术,理论效率可达90%以上,特别适合…

2026/7/4 22:40:42 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻