想象自己在美丽的海滩上。您可能会看到沙滩和大海,但也会听到阵风、海浪拍打和海鸥鸣叫的交响乐。在这个场景中,以及在邻居说话、狗叫和交通呼啸声的城市环境中,声音是一个地方整体感觉的重要组成部分。

工程师开发框架来预测在某些位置可能听到的声音类型

事实上,声音是帮助人类了解环境的基本感官之一,并且环境声音条件已被证明与人的身心健康有很强的相关性。因此,了解给定地理区域的声景的可靠方法对于从围绕城市规划和噪声管理的集体决策到关于在哪里买房或建立企业的个人决策等应用都很有价值。

圣路易斯华盛顿大学麦凯维工程学院计算机科学与工程教授NathanJacobs与研究生SubashKhanal、SrikumarSastry和AayushDhakal一起研究计算机科学与工程,开发了Geography-AwareContrastive语言音频预训练(GeoCLAP),一种新颖的音景映射框架,可应用于世界任何地方。

他们于11月22日在英国阿伯丁举行的英国机器视觉会议上展示了他们的研究成果。该论文还发布到arXiv预印本服务器。

该团队的关键创新来自于他们在框架中使用了三种不同的模式或数据类型,其中包含地理标记的音频、文本描述和俯视图像。与以前仅关注两种模式的声景映射方法不同,GeoCLAP更丰富的理解允许用户根据任何地理位置的文本或音频查询创建可能的声景。

“我们开发了一种简单且可扩展的方法来为任何地理区域创建音景地图,”雅各布斯说。“我们的方法克服了以前基于规则的声景测绘方法的局限性,这些方法通常会丢失重要的声源,或者依赖于直接的人类观察,而这些声音很难在远离热门旅游目的地的地方获得足够的数量。

“通过利用声音和局部视觉线索之间的内在关系,我们的多模式工具和免费提供的俯视图像使我们能够为世界上任何区域创建音景地图。”