Soul 开源实时数字人模型，0.87s 亚秒级延时；DeepL 发布 Voice API，支持实时语音到语音翻译丨日报-尧图手机网站定制

开发者朋友们大家好这里是「RTE 开发者日报」每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTEReal-Time Engagement 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」但内容仅代表编辑的个人观点欢迎大家留言、跟帖、讨论。本期编辑瓒an、鲍勃01 有话题的技术1、Soul App 旗下 AI 团队开源 SoulX-FlashTalk首个 14B 参数亚秒级实时数字人模型Soul App AI 团队Soul AI Lab昨天正式开源实时数字人生成模型 SoulX-FlashTalk。该模型被描述为首个能够实现 0.87 秒亚秒级超低延时、32 FPS 高帧率并支持超长视频稳定生成的 14B 参数级数字人模型。Soul App 方面表示新模型不仅技术指标出色更具备商用落地潜力有望推动大参数量实时生成式数字人进入实际应用阶段。SoulX-FlashTalk 通过以下四大关键指标重塑了实时互动体验0.87s 亚秒级延时凭借全栈加速引擎将首帧延时降至 0.87 秒赋予 14B 模型即时反应能力消除滞后感适配直播与客服等全场景。32 FPS 高帧率模型推理吞吐量达 32 FPS超越 25 FPS 的直播标准兼顾高性能与画面流畅度。超长视频稳定生成采用自纠正双向蒸馏技术与回溯机制有效抑制身份漂移确保长时间直播中面部、口型与背景一致。全身动作交互突破单一“对口型”局限支持音频驱动全身动作并消除手部畸形在维持高身份一致性的同时实现自然动态。在技术实现上团队采用两阶段训练策略先进行延迟感知时空适配再结合 DMD 框架利用自纠正双向蒸馏进行优化。推理端则依托针对 8-H800 设计的全栈加速引擎整合了混合序列并行、FlashAttention3 及 3D VAE 并行化技术。根据 TalkBench-Short 和 TalkBench-Long 数据集评测该模型在长短视频生成中均表现出优异的视觉保真度和口型同步精度。基于此SoulX-FlashTalk 有望落地于电商直播、短视频制作、AI 教育及 NPC 交互等领域。继开源语音合成模型 SoulX-Podcast 后该模型的发布标志着 Soul AI 在开源领域的进一步拓展。目前该项目的技术报告、源代码及模型权重已全面公开。GitHub:https://github.com/Soul-AILab/SoulX-FlashTalkHuggingFace:https://huggingface.co/Soul-AILab/SoulX-FlashTalk-14BSoul 社交2、智谱 GLM-5、MiniMax M2.2 将至春节成大模型发布高峰据《南华早报》报道在春节前的最后冲刺阶段国内多家前沿人工智能实验室正密集推出新一代大模型试图在节日期间抢占曝光度与用户心智。阿里与月之暗面上周率先发布 Qwen3-Max-Thinking 与 Kimi 2.5 后智谱 AI 与 MiniMax 也被曝将于未来两周内更新旗舰模型。知情人士称智谱 AI 计划在春节前推出 GLM-5这是 GLM 系列的第五代迭代预计在创意写作、编程、推理与智能 Agent 能力方面带来「全方位且显著」升级。MiniMax 则将发布 M2.2这是在 M2.1 基础上的小幅更新重点强化编程能力。与此形成对比的是DeepSeek 今年春节档并不会推出外界期待的「大招」。多位消息人士透露DeepSeek 更可能只会对 V3 系列进行一次小幅更新。其下一代旗舰模型预计为万亿参数级基础模型但由于规模膨胀导致训练速度放缓发布时间被推迟。此外字节跳动也将在春节期间推出「三件套」大语言模型 Doubao 2.0、图像生成模型 Seedream 5.0 与视频生成模型 SeedDance 2.0。阿里预计在春节期间发布旗舰模型 Qwen 3.5重点强化复杂推理、数学与编码能力。与此同时春节科技巨头争夺用户的竞争已进入白热化阶段。阿里、腾讯、百度等巨头正投入巨额资源推动 AI 应用增长腾讯的「元宝」将发放 10 亿元数字红包百度则通过文心 App 派发 5 亿元红包阿里也于昨日宣布投入 30 亿元推广千问 App。( APPSO)3、ElevenLabs 发布 v3 正式版综合错误率降低 68%实现符号与专业术语的上下文解析优化ElevenLabs 宣布其最新 TTS 模型「Eleven v3」结束 Alpha 测试正式进入 GA 阶段。该版本重点解决了 TTS 模型在处理非标准文本如符号、数字序列、专业术语时的发音逻辑问题显著提升了模型在多语言环境下的语义理解精度。大幅降低综合错误率在涵盖 8 种语言、27 个类别的内部基准测试中整体错误率从 15.3% 降至 4.9%降幅达 68%用户侧偏好度较 Alpha 版本提升 72%。精准化处理专业术语序列针对高复杂度文本实现突破性改进其中 ISBN 识别错误率降至 0%化学公式与电话号码的错误率均降至 0.6%错误缩减率达 99%。深度优化上下文感知逻辑模型增强了对同一符号在不同语境下的辨析能力。例如能准确根据上下文将冒号「」识别为体育比分读作「to」、时间或比例而非机械播报。强化数值量级与符号保护修正了长数字序列如电话号码与大额货币的播报逻辑避免了将电话号码误读为整数或在货币换算中出现量级错误如将 250,000 误读为 25,000。高效解析复杂非文本信息显著提升了对 URL、电子邮件地址、地理坐标和数学表达式的解析效率URL 错误率从 45.6% 降至 3.9%。Eleven v3 现已在 ElevenLabs 全平台包括网页端与 API正式上线支持所有订阅层级用户使用。相关链接https://elevenlabs.io/v3( ElevenLabs Blog)4、苹果公布 PCG 技术质量零妥协、AI 语音生成提速 40%科技媒体 9to5Mac 今天发布博文报道称苹果公司携手特拉维夫大学联合发表论文提出名为「原则性粗粒度」PCG的语音生成新方法从而解决 AI 文本转语音TTS技术的速度瓶颈。目前行业主流的语音生成多采用「自回归模型」即通过「逐个预测」的方式基于已有 token 预测下一个。然而这种机制要求预测结果与预设 token 必须实现「精确匹配」导致模型经常拒绝听感差异极小、实际完全可用的预测结果。这种严苛的验证标准直接拖慢了整体生成速度。为了解决这一痛点研究团队开发的 PCG 技术核心在于「求同存异」。研究人员发现不同的声学 token 往往能产生几乎相同的听觉效果。PCG 不再将每个声音视为完全独立的个体而是建立了「声学相似组」。只要模型生成的预测 token 落在正确的「相似组」范围内系统即予以采纳。这种逻辑将严苛的「单点验证」升级为了容错率更高的「范围验证」。在实际运行层面该方案采用了「投机解码」策略构建了双模型协作架构快速预测由轻量级小模型先行快速「猜测」并提出候选语音 token高效审核由参数更大的「裁判模型」进行审核只要候选 token 属于正确的声学组大模型便会「放行」。这种分工在保留小模型高速度的同时利用大模型保障了输出质量。实验数据显示应用 PCG 技术后性能提升语音生成速度提升了约 40%且并未牺牲音频质量音质表现在 5 分制的自然度评分中取得了 4.09 的高分高稳定性在极限压力测试中即使将 91.4% 的语音 token 替换为同组其他成员词错率仅增加 0.007说话人相似度仅下降 0.027人耳几乎无法察觉差异。由于 PCG 属于「推理阶段」的优化方案它无需对现有模型进行重新训练即可直接应用且存储声学相似组仅需约 37MB 的额外内存。相关链接https://machinelearning.apple.com/research/coarse-grainedIT 之家02 有亮点的产品1、AI 翻译公司 DeepL 发布 Voice API支持端到端实时音频流式翻译同步生成 5 种语言翻译DeepL 宣布正式上线 Voice API支持开发者在应用程序中集成实时语音转录与翻译功能。该产品主要面向联络中心Contact Centers与业务流程外包BPO提供商旨在通过低延迟的流式处理解决多语言语音交互的瓶颈。多路同步翻译输出支持实时接收音频流并在返回原语转录文本的同时同步提供至多 5 种目标语言的翻译结果。Voice-to-Voice 早期访问同步开启为期 6 周的「语音到语音」功能内测计划2 月中旬开始允许接收端直接收听合成后的翻译音频。结构化合规审计支持API 提供清晰的转录与翻译对齐文本可直接集成至企业现有的质检QA、坐席评估及合规性检查流程。人力资本解耦允许企业根据业务专长而非语言覆盖进行招聘通过 API 实现全球 24/7 的多语言服务覆盖降低特定语言坐席的运营成本。相关链接https://www.deepl.com/zh/products/voice( MultiLingual)2、语音 AI 平台 Speechify 升级 AI 助手集成 ChatGPT 并引入 Snoop Dogg 等名人语音昨天Speechify 宣布为其 AI 语音助手新增了名人语音选项并同步上线了 ChatGPT 集成功能。Speechify 的 AI 语音助手现已支持模仿 Snoop Dogg、Gwyneth Paltrow 和 MrBeast 等名人声音。几周前Speechify 在 iOS 端推出了 Voice AI Assistant用户可通过结合第三方模型及 Speechify 自研 AI 模型在 iPhone 上通过多轮对话实现与文档交互、语音网络搜索以及生成摘要、播客乃至讲座内容。此次引入名人语音是 Speechify 推动其成为 ChatGPT、Gemini 和 Siri 之外「语音优先」替代方案的又一举措。自即日起用户可将 Snoop Dogg、MrBeast 或 Gwyneth Paltrow 设置为 AI 助手的语音这一功能在定制化方面领先了竞争对手一步。Speechify 首席财务官 Pankaj Agarwal 称公司目前与 Gemini、ChatGPT 和 Grok 并列为 App Store 四大 AI 助手之一。他表示通过与全球最具辨识度的声音建立合作关系Speechify 将为用户带来前所未有的 AI 助手体验。**此外Speechify 当日还正式推出了与 ChatGPT 的集成。**这一系列动作反映了当前 AI 实验室和生产力平台正日益关注将语音优先交互引入日常工作流覆盖从无障碍辅助到免提生产力的广泛场景。相关链接https://speechify.com/( 9to5mac)03 有态度的观点1、iPod 之父当爹之后重新开始审视隐私风险据《商业内幕》报道「iPod 之父」托尼 · 法德尔Tony Fadell近日在播客访谈中表示成为父母后他本人以及硅谷多位科技创始人对隐私问题的看法出现明显转变。他指出在拥有孩子之前许多科技从业者对隐私的态度更为激进愿意在技术创新的推动下牺牲个人数据但在面对深度伪造、社会工程学等风险后这种态度正在发生变化。法德尔提到Meta CEO 马克 · 扎克伯格、Google 联合创始人拉里 · 佩奇与谢尔盖 · 布林在成为父母后对世界的理解方式「完全不一样」。他表示许多创始人如今会重新思考自己愿意交出多少数据以及如何保护家庭与孩子的隐私。法德尔特别强调了 AI 时代的隐私挑战。他认为未来真正具有革命性的 AI 设备往往需要大量个人数据与实时输入这将迫使社会与企业领导者在创新与隐私之间做出更艰难的取舍。他透露部分科技创始人甚至产生了「如果能重来就好了」的反思但过去的决策已无法逆转。与此同时全球监管机构正加强对 AI 与隐私议题的审查。xAI 因其模型生成未授权的真实人物包括未成年人性化图像而遭到多地调查Meta 也因聊天机器人与未成年人互动方式受到质询。隐私保护与 AI 技术发展之间的张力正在加速显现。( APPSO) Voice Agent 学习笔记了解最懂 AI 语音的头脑都在思考什么写在最后我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创感兴趣的朋友请通过开发者社区或公众号留言联系记得报暗号「共创」。对于任何反馈包括但不限于内容上、形式上我们不胜感激、并有小惊喜回馈例如你希望从日报中看到哪些内容自己推荐的信源、项目、话题、活动等或者列举几个你喜欢看、平时常看的内容渠道内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点仅供参考

Soul 开源实时数字人模型，0.87s 亚秒级延时；DeepL 发布 Voice API，支持实时语音到语音翻译丨日报

相关新闻

花15分钟搭一套国产AI系统，把Clawdbot巨额token成本干到0

五种IO模型与非阻塞IO

log-lottery：不只是炫酷的3D抽奖，更是学习前端开发的最佳实践

最新新闻

Qwen3.5全面升级：解耦架构与认知蒸馏驱动的企业级AI落地

LongDocURL：面向长文档理解的大模型多模态推理评测基准

Umi-OCR终极指南：免费离线文字识别软件的完整配置与优化教程

postcss-write-svg：革命性CSS SVG编写工具，让图形开发效率提升10倍！

3大架构优化策略：如何构建高可用AI网关服务

Agent Skills技能发现机制：如何让AI助手智能匹配任务与技能

日新闻

Memcached 1.6.43 发布：关键安全修复版本，多项问题得到解决

终极指南：使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

周新闻

月新闻