从单个图像准确估计3D姿势和身体形状对于行为分析和安全警报等多种应用至关重要。不幸的是,许多现有的多人重建方法要求在场的人在照片中清晰可见,以提供足够的信息。当相机的分辨率有限并且视野增加以捕获远处区域的个人时,这会成为一个问题,从而导致提供的信息很少的低分辨率图像。

从低分辨率图像估计多人3D姿势和形状

为了解决这一局限性,天津大学和卡迪夫大学的一个研究团队试图调和图像分辨率和估计精度之间的冲突。据KeAi期刊FundamentalResearch报道,该团队提出了一种称为MILI(低分辨率图像多人推理)的端到端多任务机器学习框架,可实现准确的多人3D姿势和形状表示来自低分辨率图像。

此外,为了解决多人场景中的遮挡问题,研究人员设计了一个遮挡感知蒙版预测网络,用于在回归过程中估计每个人的网格的蒙版。具有高分辨率和低分辨率的成对图像也用于训练。

“在小规模和大规模场景中,MILI在数量和质量上都优于最先进的方法,”该研究的第一作者KunLi说。“与现有工作不同,MILI作为一个端到端网络,即使是低分辨率图像也鼓励多人重建,并通过改进检测阶段显着提高遮挡感知掩模预测网络对遮挡的鲁棒性与细分。”

该代码可在此处获得。

“为监控场景中的个人重建3D姿势和形状将允许更好地识别动作/活动,包括人与人之间的互动,为模拟和安全监控建模人群行为,以及随着时间的推移更好地跟踪个人,”李总结道.

更多信息:KunLi等人,MILI:低分辨率图像的多人推理,基础研究(2023)。DOI: