类星体是极其明亮的星系核,气体和尘埃落入中心的超大质量黑洞后会发出巨大的光。由于其异常明亮,这些天体可以在高红移(即很远的距离)下被看到。

天文学家应用机器学习技术在数据海洋中寻找早期宇宙的类星体

红移越大,不仅表明类星体距离更远,而且时间也更久远。天文学家对这些古老天体的研究很感兴趣,因为它们蕴含着有关宇宙早期演化的线索。

高红移类星体候选者最初是通过其颜色(它们非常红)来识别的,然后必须通过观察它们的光谱来确认。然而,一些高红移候选者可能会因为引力透镜效应导致其外观扭曲而被错误地排除在进一步调查之外。

这是当巨大物体(例如星系)位于我们和远处物体之间时发生的现象。星系的质量使空间弯曲,其作用有点像放大镜,导致远处物体的光线路径弯曲,从而导致物体图像扭曲。

虽然这种排列是有益的——引力透镜放大了类星体的图像,使其更明亮、更容易探测——但它也可能欺骗性地改变类星体的外观。

中间透镜星系恒星发出的干扰光会使类星体看起来更蓝,而时空弯曲会使它看起来模糊或倍增。这两种效应都使它很可能被排除在类星体候选者之外。

因此,由剑桥大学天文学家 Xander Byrne(《皇家天文学会月刊》上发表这些结果的论文的主要作者)领导的一个天文学家团队着手恢复之前的调查中被忽视的透镜类星体。

伯恩在暗能量调查 (DES) 的大量数据档案中寻找这些失踪的宝藏。DES 是由美国能源部制造的暗能量相机进行的,该相机安装在美国国家科学基金会塞罗托洛洛美洲天文台的维克多·M·布兰科 4 米望远镜上,该望远镜是 NSF NOIRLab 的一个项目。

那么,挑战就在于设计一种方法来从浩瀚的数据海洋中发现这些宇宙宝石。

完整的 DES 数据集包含超过 7 亿个物体。Byrne 通过将数据与其他调查的图像进行比较来精简此档案,以筛选出不太可能的候选者,包括可能是棕矮星的物体,尽管棕矮星在几乎所有方面都与类星体完全不同,但在图像中看起来却与类星体惊人地相似。这个过程产生了一个更易于管理的数据集,其中包含 7,438 个物体。

伯恩需要最大限度地提高效率,因为他要搜索这 7,438 个天体,但他知道传统技术很可能会错过他所寻找的高红移透镜类星体。“为了避免过早地排除透镜类星体,我们采用了对比学习算法,效果非常好。”

对比学习是一种人工智能 (AI) 算法,其中顺序决策根据每个数据点是什么或不是什么将其归入一个组。“这看起来像魔术,”伯恩说,“但该算法使用的信息不会超过数据中已有的信息。机器学习就是要找出哪些数据是有用的。”

伯恩决定不依赖人类的视觉解释,这使他考虑采用无监督的人工智能过程,这意味着算法本身而不是人类来驱动学习过程。

监督式机器学习算法基于人类程序员定义的所谓基本事实。例如,该过程可能从对猫的描述开始,然后进行诸如“这是/不是猫的图像。这是/不是黑猫的图像”之类的决策。

相比之下,无监督算法不依赖最初的人类指定定义作为决策的基础。相反,算法根据与集合中其他数据点的相似性对每个数据点进行排序。在这里,算法会在多只动物的图像中找到相似之处,并将它们归类为猫、狗、长颈鹿、企鹅等。

从伯恩的 7,438 个物体开始,无监督算法将这些物体分成几组。团队采用了地理类比,将数据分组称为群岛。(这个术语并不意味着物体之间在空间上有任何接近性。是它们的特征将它们“紧密”地分组在一起,而不是它们在天空中的位置。)

在这个群岛中,一小部分“岛屿”物体被归类为可能的类星体候选者。在这些候选者中,有四个像鹅卵石中的宝石一样脱颖而出。

伯恩利用双子座南望远镜(国际双子座天文台的一半,由美国国家科学基金会 NOIRLab 运营)的档案数据,证实“类星体岛”上的 4 个候选者中有 3 个确实是高红移类星体。其中一个很可能就是伯恩希望找到的宇宙宝藏——引力透镜高红移类星体。该团队目前正计划进行后续成像,以确认该类星体的透镜性质。

“如果得到证实,在四个目标样本中发现一个透镜类星体的成功率将非常高!如果这次搜索使用标准搜索方法进行,那么这颗宝石很可能仍被隐藏着。”

伯恩的工作是一个巧妙的例子,说明人工智能如何帮助天文学家搜索越来越大的数据宝库。随着暗能量光谱仪正在进行的五年调查以及即将于 2025 年开始的遗产调查和空间与时间调查,预计未来几年将有大量天文数据涌入。