Meta本周向前迈出了一大步,推出了一个模型,该模型可以检测和隔离图像中的对象,即使它以前从未见过它们。该技术在arXiv预打印服务器上的一篇文章中进行了介绍和描述。

强大的新MetaAI工具可以识别图像中的单个项目

AI工具代表了技术面临的更严峻挑战之一的重大进步:允许计算机检测和理解以前看不见的图像的元素,并将它们隔离以供用户交互。

它让人想起国家人工智能安全委员会前主席罗伯特O.沃克曾经描述过的一个概念:“人工智能和机器学习让你做的就是大海捞针。”

在这种情况下,Meta的SegmentAnythingModel(SAM)寻找图像中的相关像素并识别构成图片所有部分的公共组件。

“SAM已经了解了物体是什么的一般概念,它可以为任何图像或任何视频中的任何物体生成掩码,甚至包括它在训练期间没有遇到的物体和图像类型,”MetaAI在周三的一篇博客文章中宣布.

识别任务称为分割。我们每天都在不假思索地这样做。我们认得办公桌上的物品,如智能手机、电缆、电脑屏幕、一盏灯、一块融化的糖果、一杯咖啡。

但如果没有事先编程,计算机必须努力区分二维图像中的所有组件,直至最后一个像素,当存在重叠项目、阴影或不规则或分区形状时,情况会更加复杂。

先前的分割方法通常需要人工干预来定义掩码。早期的自动分割允许检测对象,但根据MetaAI的说法,这需要“数千甚至数万个对象示例”以及“计算机资源和技术专长来训练分割模型”。

SAM将这两种方法整合到一个全自动系统中。它使用超过10亿个掩码来识别新型对象。

“这种概括能力意味着,总的来说,从业者将不再需要收集他们自己的细分数据并为他们的用例微调模型,”Meta博客说。

一位评论者称SAM为“Photoshop的‘魔法棒’工具,效果非常棒。”

SAM可以通过用户点击或文本提示来激活。Meta研究人员设想SAM在AR/VR领域的进一步利用。当用户专注于一个对象时,它可以被描绘、定义和“提升”到3D图像中,并融入电影、游戏或演示中。

在线提供免费工作模型。用户可以从图片库中选择或上传自己的照片。然后,他们可以点击屏幕上的任意位置或在感兴趣的项目周围画一个矩形,然后观看SAM定义鼻子、面部或整个身体的轮廓等。另一个选项指示SAM识别图像中的每个对象。

尽管SAM尚未应用于Facebook,但类似的技术已应用于熟悉的流程,例如照片标记、审核和标记不允许的内容,以及在Facebook和Instagram上生成推荐帖子。