跨话语重评分实现更具包容性的语音识别
跨话语重评分实现更具包容性的语音识别在一篇入选ICASSP前3%的优秀论文中某中心的研究人员通过改进基于图的标签传播技术提升了针对非标准发音的语音识别性能。自动语音识别模型通常用于语音助手中将语音转换为文本通常包含两个阶段。第一阶段一个深度神经网络将代表话语的声学信息映射到关于所说话词的多个假设。第二阶段一个语言模型评估重新评分这些假设词序列的合理性。第一阶段——声学模型——针对大量说话者的平均性能进行了优化因此它在训练集中代表性不足的语音变体上例如地方口音中的发音表现往往不佳。标准的重评分方法无法纠正第一阶段语音识别器中存在的这种多数性偏见。在今年的声学、语音与信号处理国际会议上我们提出了一种新的语音识别假设重评分方法有助于纠正对训练数据中代表性不足或失配的语音所产生的错误。该方法从具有不同说话者但具有相似假设的语音样本构建一个图并在听起来相似的语音片段之间创建边。然后它会提升图中相邻节点所共享的假设的概率这意味着听起来相似的语音片段会使相似的假设得到提升。其效果是即使某些单词的发音在孤立情况下可能性很低但如果它们在多个语音片段中保持一致这些发音可以相互支持。在实验中我们在一个区域性口音英语数据库上测试了跨话语重评分方法。该语音识别器主要在北美英语上训练因此对来自英格兰、苏格兰、爱尔兰、印度等地的说话者显示出较高的错误率。我们的方法全面降低了词错误率平均降低了44%。该算法需要比较整组语音片段因此目前主要在半监督学习场景中直接有用。在这种设置下通常一个大型的教师ASR模型为另一个通常计算效率更高的学生模型标注训练数据。通过为包含代表性不足语音模式的语音样本附加更准确的标签我们可以使训练所用数据多样化并最终帮助克服多数性偏见。今年ICASSP组织者将最佳论文奖的概念泛化认可了会议接收论文中排名前3%的论文。我们很荣幸我们的论文位列其中。图构建我们考虑的情况是初始的转录假设由一个完全训练的递归神经网络转录器ASR模型生成。RNN-T模型是一种编码器-解码器模型这意味着它有一个编码器模块将输入映射到表示空间以及一个解码器模块利用这些映射称为嵌入来生成ASR假设。为了对这些假设进行重评分我们采用了基于图的标签传播技术将标签从已标注的示例传播到未标注的示例。在我们的案例中图节点代表语音嵌入标签是第一次识别过程产生的ASR假设。我们图构建方法的第一步是选择要纳入图中的数据。我们将数据分成若干组每组内的语音片段在其ASR假设上有实质性的重叠并为每个这样的组构建一个单独的图。例如单个图可能主要由关于天气的类似措辞的查询构成。一旦确定了哪些语音片段要包含在图中我们就测量它们嵌入之间的距离。我们尝试了几种不同的距离度量但最终确定了一种基于动态时间规整的距离度量。DTW最初设计用于测量时间序列之间的距离但我们将嵌入向量中的每个值本质上视为一个单独的时间步长。基于DTW的距离度量在此应用中效果良好因为经验上它与语音片段转录本之间的距离以编辑距离衡量有很好的相关性。基于距离测量我们计算图节点之间的边。我们尝试了根据节点之间的DTW距离对边进行加权但再次根据经验我们发现二元边效果最好。我们从数据中学习一个距离阈值所有彼此距离低于该阈值的节点通过边连接距离超过该阈值的节点则保持未连接。标签传播在半监督学习的设置中图中包含一些标注数据其转录本高度准确和大量未标注数据。我们使用标准的基于图的标签传播算法将不同ASR假设的“优劣分数”分布到整个图中。本质上这些算法旨在最小化连接即相似图节点之间标签值的剧烈不连续性。其思想是即使ASR模型对具有非标准发音的语音片段的正确转录赋予了较低置信度分数该语音片段的嵌入也会与正确转录获得高置信度分数的语音片段共享边。然后正确的转录将传播到图的该区域从而增加具有非标准发音的语音片段被正确转录的几率。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

相关新闻

编剧爆款密码:跟着创一AI的剧本原石,创作不踩雷

编剧爆款密码:跟着创一AI的剧本原石,创作不踩雷

作为写了 4 年短剧的编剧,2026年的行业竞争让我陷入到了双重焦虑:一方面是 “无米下锅”,每天对着空白文档发呆,刷遍各大平台去找灵感,却越看越迷茫,不知道下一个爆款选题到底在哪里;另一方面是…

2026/7/4 22:44:49 阅读更多 →
《计算机网络》深入学:IPv4 协议架构与演进

《计算机网络》深入学:IPv4 协议架构与演进

1 引言:互联网的基石 互联网之所以能够将全球数十亿台设备连接在一起,核心在于网络层(Network Layer)提供的主机到主机(Host-to-Host)的通信服务。而在网络层中,网际协议版本4(Inter…

2026/7/3 14:41:15 阅读更多 →
2026年AI热点预测:智能体工程全解析(小白到专家都值得收藏)

2026年AI热点预测:智能体工程全解析(小白到专家都值得收藏)

技术层面的突破让AI智能体(Agent)成为当前绝对的AI热点。但随着Agent应用走向真实业务,也逐渐暴露出其工程瓶颈:不确定性、幻觉、不可观测、性能、安全、成本等多方面存在挑战…这些问题不会因为模型更强而自动消失。“打造一个Ag…

2026/7/3 14:41:15 阅读更多 →

最新新闻

AntiDupl终极指南:三步快速清理重复照片,释放磁盘空间

AntiDupl终极指南:三步快速清理重复照片,释放磁盘空间

AntiDupl终极指南:三步快速清理重复照片,释放磁盘空间 【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl AntiDupl是一款专业的开源图片去重工具&a…

2026/7/4 22:42:44 阅读更多 →
基于STM32和MAX9744的高效D类音频放大器设计

基于STM32和MAX9744的高效D类音频放大器设计

1. 项目背景与核心器件选型在音频系统设计中,功率放大环节直接决定了最终的声音表现。传统AB类放大器虽然音质优秀,但效率普遍低于50%,导致发热严重、能耗高。而D类放大器采用PWM调制技术,理论效率可达90%以上,特别适合…

2026/7/4 22:40:42 阅读更多 →
Java毕设选题推荐:景观设计作品展示与项目管理系统的设计与实现 基于 SpringBoot 的园林素材资源管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

Java毕设选题推荐:景观设计作品展示与项目管理系统的设计与实现 基于 SpringBoot 的园林素材资源管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/4 22:38:41 阅读更多 →
Halcon图像滤波实战:均值、中值与高斯滤波的噪声抑制与边缘保护权衡

Halcon图像滤波实战:均值、中值与高斯滤波的噪声抑制与边缘保护权衡

1. 工业视觉中的图像噪声挑战在工业视觉检测项目中,图像噪声就像不请自来的"第三者",总是干扰着我们对产品缺陷的准确判断。我处理过一个典型的案例:某汽车零部件生产线需要检测金属表面的微小划痕,但采集到的图像总是布…

2026/7/4 22:36:38 阅读更多 →
如何安全绕过iOS 15-16激活锁?applera1n工具实战指南

如何安全绕过iOS 15-16激活锁?applera1n工具实战指南

如何安全绕过iOS 15-16激活锁?applera1n工具实战指南 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 你是否曾购买二手iPhone却发现设备被原主人的Apple ID锁定?或者忘记了Appl…

2026/7/4 22:32:36 阅读更多 →
Python+CNN疲劳检测系统设计与实现

Python+CNN疲劳检测系统设计与实现

1. 项目概述这个基于Python和CNN的疲劳识别系统是一个典型的计算机视觉应用项目,特别适合作为计算机相关专业的毕业设计选题。系统通过摄像头捕捉人脸图像,利用卷积神经网络(CNN)模型实时分析眼部特征,判断用户是否处于疲劳状态。作为一名在计…

2026/7/4 22:32:36 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻