近年来,深度学习技术在众多语言和图像处理任务中取得了显著成果。这包括视觉语音识别(VSR),它需要仅通过分析说话者的嘴唇运动来识别语音内容。

一种可以从说话者的嘴唇运动中识别不同语言语音的模型

虽然一些深度学习算法在VSR任务上取得了非常有前途的结果,但它们主要被训练来检测英语语音,因为大多数现有的训练数据集只包含英语语音。这将他们的潜在用户群限制为在英语环境中生活或工作的人。

伦敦帝国理工学院的研究人员最近开发了一种新模型,可以处理多种语言的VSR任务。该模型在《自然机器智能》(NatureMachineIntelligence)上发表的一篇论文中介绍,被发现优于一些先前提出的在更大的数据集上训练的模型。

“视觉语音识别(VSR)是我博士论文的主要课题之一,”PingchuanMa博士说。进行这项研究的帝国理工学院毕业生告诉TechXplore。“在我的研究期间,我研究了几个主题,例如探索如何将视觉信息与音频结合起来进行视听语音识别,以及如何独立于参与者的头部姿势识别视觉语音。我意识到绝大多数现有文献只处理英语演讲。”

Ma和他的同事最近研究的主要目标是训练一个深度学习模型,从说话者的嘴唇运动中识别英语以外语言的语音,然后将其性能与其他经过训练以识别英语语音的模型的性能进行比较。研究人员创建的模型与过去其他团队引入的模型相似,但它的一些超参数得到了优化,数据集得到了扩充(即通过添加合成的、略微修改的数据版本来增加大小)和使用了额外的损失函数。

“我们证明了我们可以使用相同的模型来训练其他语言的VSR模型,”Ma解释道。“我们的模型将原始图像作为输入,不提取任何特征,然后自动学习从这些图像中提取哪些有用的特征来完成VSR任务。这项工作的主要新颖之处在于我们训练了一个模型来执行VSR,并且还添加了一些额外的数据增强方法和损失函数。”

在初始评估中,Ma和他的同事创建的模型表现非常出色,优于在更大数据集上训练的其他VSR模型,即使它需要更少的原始训练数据。然而,正如预期的那样,它的表现不如英语语音识别模型,这主要是由于可用于训练的数据集较小。

“我们通过精心设计模型,而不是简单地使用更大的数据集或更大的模型,在多种语言中取得了最先进的结果,这是文献中当前的趋势,”马说。“换句话说,我们表明,模型的设计方式对其性能的影响与增加模型的大小或使用更多的训练数据同样重要。这可能会导致研究人员尝试改进VSR模型的方式发生转变。”

Ma和他的同事表明,通过精心设计深度学习模型,而不是使用同一模型的更大版本或收集额外的训练数据,可以在VSR任务中实现最先进的性能,这既昂贵又耗时。将来,他们的工作可能会激励其他研究团队开发替代的VSR模型,这些模型可以有效地识别除英语以外的其他语言的嘴唇运动语音。

“我感兴趣的主要研究领域之一是我们如何将VSR模型与现有的(纯音频)语音识别相结合,”Ma补充道。“我对这些模型如何动态加权特别感兴趣,即模型如何根据噪声学习应该依赖哪个模型。换句话说,在嘈杂的环境中,视听模型应该更多地依赖于视觉流,但当嘴巴区域被遮挡时,它应该更多地依赖音频流。现有模型一旦训练基本上就被冻结了,它们无法适应环境的变化。”