当水结冰时,它会从液相转变为固相,导致密度和体积等特性发生巨大变化。水中的相变非常常见,我们大多数人可能甚至没有想到它们,但新型材料或复杂物理系统中的相变是一个重要的研究领域。

科学家使用生成式人工智能来回答复杂的物理问题

为了充分理解这些系统,科学家必须能够识别阶段并检测之间的转变。但如何量化未知系统中的相变通常是不清楚的,尤其是在数据稀缺的情况下。

麻省理工学院和瑞士巴塞尔大学的研究人员将生成应用于这个问题,开发了一种新的机器学习框架,可以自动绘制新颖物理系统的相图。

他们基于物理的机器学习方法比依赖理论专业知识的费力的手动技术更有效。重要的是,由于他们的方法利用生成模型,因此不需要其他机器学习技术中使用的大量标记训练数据集。

例如,这样的框架可以帮助科学家研究新型材料的热力学性质或检测量子系统中的纠缠。最终,这项技术可以使科学家自主发现物质的未知相成为可能。

“如果你有一个特性完全未知的新系统,你会如何选择要研究的可观察量?希望,至少使用数据驱动的工具,您可以以自动化的方式扫描大型新系统,并且它将向您指出系统中的重要变化。这可能是自动科学发现新的、奇特的相特性的过程中的一个工具,”计算机科学和人工智能实验室(CSAIL)Julia实验室的博士后、一篇论文的合著者FrankSchäfer说道。这种方法。

与Schäfer一起撰写该论文的还有第一作者JulianArnold,他是巴塞尔大学的研究生。AlanEdelman,数学系应用数学教授、Julia实验室负责人;资深作者克里斯托夫·布鲁德(ChristophBruder),巴塞尔大学物理系教授。该研究今天发表在《物理评论快报》上。

使用AI检测相变

虽然水转变为冰可能是相变最明显的例子之一,但更奇特的相变,例如材料从普通导体转变为超导体,引起了科学家的浓厚兴趣。

这些转变可以通过识别“订单参数”来检测,“订单参数”是一个重要且预计会发生变化的数量。例如,当温度低于0摄氏度时,水会结冰并转变为固相(冰)。在这种情况下,适当的有序参数可以根据作为晶格一部分的水分子与保持无序状态的水分子的比例来定义。

过去,研究人员依靠物理专业知识手动构建相图,利用理论理解来了解哪些阶次参数很重要。这不仅对于复杂的系统来说是乏味的,对于具有新行为的未知系统来说也许是不可能的,而且它还在解决方案中引入了人为偏见。

最近,研究人员开始使用机器学习来构建判别性分类器,该分类器可以通过学习将测量统计数据分类为来自物理系统的特定阶段来解决此任务,就像此类模型将图像分类为猫或狗一样。

麻省理工学院的研究人员演示了如何使用生成模型以物理知情的方式更有效地解决此分类任务。

Schäfer补充道,Julia编程语言是一种流行的科学计算语言,也用于麻省理工学院的线性代数入门课程,它提供了许多工具,使其对于构建此类生成模型非常有价值。

生成模型(例如ChatGPT和Dall-E的基础模型)通常通过估计某些数据的概率分布来工作,并使用这些数据生成适合分布的新数据点(例如与现有猫图像相似的新猫图像)。

然而,当使用经过验证的科学技术对物理系统进行模拟时,研究人员可以免费获得其概率分布模型。该分布描述了物理系统的测量统计数据。

知识更丰富的模型

麻省理工学院团队的见解是,这种概率分布还定义了一个可以构建分类器的生成模型。他们将生成模型插入标准统计公式中,以直接构建分类器,而不是像判别方法那样从样本中学习。

“这是一种非常好的方法,可以将您对物理系统的了解深入到机器学习方案中。它远远超出了仅仅对数据样本执行特征工程或简单的归纳偏差,”Schäfer说。

该生成分类器可以确定系统在给定某些参数(例如温度或压力)下处于哪个阶段。由于研究人员直接近似物理系统测量结果的概率分布,因此分类器具有系统知识。

这使得他们的方法比其他机器学习技术表现得更好。而且由于它可以自动工作,无需进行大量培训,因此他们的方法显着提高了识别相变的计算效率。

最终,类似于人们要求ChatGPT解决数学问题的方式,研究人员可以向生成分类器询问诸如“这个样本属于第一阶段还是第二阶段?”之类的问题。或者“这个样本是在高温还是低温下生成的?”

科学家还可以使用这种方法来解决物理系统中不同的二元分类任务,可能检测量子系统中的纠缠(状态是否纠缠?)或确定理论A或B是否最适合解决特定问题。他们还可以使用这种方法,通过确定如何调整某些参数以便聊天机器人提供最佳输出,来更好地理解和改进ChatGPT等大型语言模型。

未来,研究人员还希望研究理论保证,了解他们需要多少次测量才能有效检测相变并估计所需的计算量。

这项工作部分由瑞士国家科学基金会、麻省理工学院-瑞士洛克希德·马丁种子基金和麻省理工学院国际科学技术计划资助。