科学家们为人工智能模型阐明了新的数据标准

2022-11-14 18:24:20生活专一的悟空

有抱负的面包师经常被要求根据不同的厨房设置来调整屡获殊荣的食谱。例如，有人可能会使用打蛋器而不是立式搅拌机来制作获奖的巧克力曲奇。

对于才华横溢的厨师和计算科学家来说，能够在不同的情况和不同的设置下复制食谱至关重要，后者在尝试验证和使用新的“食谱”时面临着适应和复制自己的“食谱”的类似问题人工智能模型。这些模型在从气候分析到大脑研究等科学领域都有应用。

“当我们谈论数据时，我们对我们处理的数字资产有实际的了解，”美国能源部(DOE)阿贡国家实验室的科学家兼转化人工智能负责人EliuHuerta说。“有了人工智能模型，就不太清楚了;我们是在谈论以智能方式构建的数据，还是计算、软件或混合?”

在一项新研究中，Huerta和他的同事阐明了一套用于管理AI模型的新标准。这些标准改编自最近对自动化数据管理的研究，被称为FAIR，代表可查找、可访问、可互操作和可重用。

“通过使AI模型公平，我们不再需要每次都从头开始构建每个系统，”Argonne计算科学家BenBlaiszik说。“重用来自不同群体的概念变得更容易，有助于在团队之间创造异花授粉。”

根据Huerta的说法，许多AI模型目前并不公平，这一事实对科学发现构成了挑战。“对于迄今为止已经完成的许多研究，很难获得和复制文献中引用的人工智能模型，”他说。“通过创建和共享FAIRAI模型，我们可以减少重复工作量，并分享如何使用这些模型来实现伟大科学的最佳实践。”

为了满足多样化用户社区的需求，Huerta和他的同事结合了一套独特的数据管理和高性能计算平台，建立了FAIR协议并量化AI模型的“FAIR-ness”。研究人员将在名为MaterialsDataFacility的在线存储库中发布的FAIR数据与在另一个名为DataandLearningHubforScience的在线存储库中发布的FAIRAI模型以及在ArgonneLeadershipComputingFacility(ALCF)的AI和超级计算资源配对)。

通过这种方式，研究人员能够创建一个计算框架，帮助连接各种硬件和软件，创建可以跨平台类似运行并产生可重复结果的AI模型。ALCF是美国能源部科学办公室用户设施。

创建此框架的两个关键是称为funcX和Globus的平台，它们允许研究人员直接从他们的笔记本电脑访问高性能计算资源。“FuncX和Globus可以帮助超越硬件架构的差异，”共同作者、Argonne数据科学与学习部门主管IanFoster说。“如果有人使用一种计算架构而其他人使用另一种计算架构，那么我们现在就有了一种使用通用AI语言的方式。这是使AI更具互操作性的重要组成部分。”

在这项研究中，研究人员使用了一个人工智能模型的示例数据集，该模型使用了来自美国能源部科学办公室用户设施的阿贡高级光子源的衍射数据。为了执行计算，该团队使用了ALCFAITestbed的SambaNova系统和Theta超级计算机的NVIDIAGPU(图形处理单元)。

NVIDIA解决方案架构与工程副总裁MarcHamilton表示：“我们很高兴看到模型和数据共享带来的FAIR生产力优势，让更多研究人员能够访问高性能计算资源。”“我们一起支持不断扩大的高性能计算领域，将边缘的实验数据和仪器操作与人工智能相结合，以加快科学发现的步伐。”

SambaNovaSystems客户工程副总裁JenniferGlore补充说：“SambaNova很高兴与阿贡国家实验室的研究人员合作，在人工智能和新兴硬件架构的接口上进行创新。”“人工智能将在科学计算的未来发挥重要作用，人工智能模型的公平原则以及新工具的发展将使研究人员能够实现大规模的自主发现。我们期待在ALCF继续合作和发展人工智能测试平台。”

2022年11月10日发表在《科学数据》上的一篇基于该研究的论文“AI模型的FAIR原则，在加速高能衍射显微镜中具有实际应用”。