近年来,机器学习技术加速并创新了包括神经科学在内的众多领域的研究。通过识别实验数据中的模式,这些模型可以预测与特定体验或与感官刺激处理相关的神经过程。

使用深度神经网络预测大脑如何处理自然声音

CNRS、艾克斯马赛大学和马斯特里赫特大学的研究人员最近尝试使用计算模型来预测人脑如何将声音转化为周围环境中发生的事情的语义表示。他们发表在《自然神经科学》(NatureNeuroscience)上的论文表明,一些基于深度神经网络(DNN)的模型可能更擅长根据神经成像和实验数据预测神经过程。

“我们的主要兴趣是对自然声音如何在大脑中被感知和表示进行数值预测,并使用计算模型来理解我们如何将听到的声学信号转化为听觉环境中对象和事件的语义表示,”进行这项研究的研究人员之一布鲁诺·焦尔达诺(BrunoGiordano)告诉MedicalXpress。“这方面的一大障碍不是缺乏计算模型——新模型会定期发布——而是缺乏对它们解释行为或神经影像数据的能力的系统比较。”

Giordano和他的同事最近工作的主要目标是系统地比较不同计算模型在预测自然声音的神经表征方面的性能。在他们的实验中,该团队评估了三类计算模型,即声学、语义和声音事件DNN。

“我们开始讨论在COVID大流行的头几个月对计算模型进行系统比较的必要性,”佐丹奴解释说。“经过几次远程头脑风暴会议后,我们意识到我们已经有了回答问题所需的数据:2009年收集的行为数据集,20名加拿大参与者估计了一组80种自然声音的感知差异,以及fMRI2016年收集的数据集,五名荷兰参与者在我们记录他们的fMRI反应时听到了一组不同的288种自然声音。”

具有多维尺度的可视化显示了自然声音如何在计算模型和大脑中表示,并证明了声音事件DNN和后初级听觉皮层(pSTG)中的表示之间的强烈相似性。图片来源:Giordano等

因此,无需在实验室收集新数据,研究人员便着手使用先前实验中收集的数据来测试他们选择的三种计算建模方法的性能。具体来说,他们将呈现给人类参与者的声音刺激映射到不同的计算模型上,然后测量他们可以预测参与者对刺激的反应方式以及大脑中发生的事情的程度。

Giordano说:“谷歌最近开发的声音事件DNN优于竞争性声学和语义模型的程度让我们感到震惊。”“他们很好地预测了我们的行为和fMRI数据,以至于通过将声音映射到DNN,我们可以根据荷兰参与者2016年的fMRI反应来预测2009年加拿大参与者的行为,即使他们听到的声音完全不同。”

Giordano和他的同事发现,基于DNN的模型大大超越了基于声学的计算方法和通过将声音置于不同类别(例如,声音、街道声音等)来表征大脑对声音的反应的技术。与这些更传统的计算方法相比,DNN可以更准确地预测神经活动和参与者行为。

根据他们的观察和基于DNN的模型产生的输出,研究人员还假设人脑理解自然声音的方式与处理文字的方式类似。虽然单词的含义是通过处理单个字母、现象和音节来推断的,但是,声音的含义可能是通过组合一组不同的基本单元来提取的。

EliaFormisano补充说:“我们现在正致力于收集新的神经影像数据,以检验我们的研究提出的关于这些基本单元可能是什么的具体假设。”“我们还致力于为自然声音处理训练新颖且更‘类脑’的神经网络。例如,我们的合著者米歇尔·埃斯波西托(MicheleEsposito)开发了一种神经网络,可以学习语言声音描述符的数字表示(语义嵌入),而不是声音事件类别。该网络将在声学、语音和信号处理国际会议上展示(ICASSP)2023,在预测自然声音感知方面优于谷歌网络。”