在过去的二十年中,碳-氮键形成反应(称为Buchwald-Hartwig反应)已成为有机合成中最广泛使用的工具之一,特别是在制药工业中,因为氮在天然产物和药物中普遍存在。

机器学习工具简化了制药行业最广泛使用的反应之一

这种强大的反应彻底改变了学术和工业实验室制备含氮化合物的方式,但它需要漫长、耗时的实验来确定高效反应的最佳条件。

现在,伊利诺伊州的研究人员与瑞士霍夫曼罗氏制药公司的化学家合作开发了一种机器学习工具,可以在几分钟内预测高产反应的最佳条件,而无需进行长时间的实验。

在最近发表在《科学》杂志上的一篇文章中,伊利诺伊州化学教授斯科特·丹麦和最近获得博士学位的伊恩·莱因哈特。丹麦实验室的毕业生描述了他们如何开发、训练和测试他们的机器学习模型,以大大加快这种钯催化碳氮键形成反应的底物适应性条件的识别。

丹麦表示,这种反应是一种非常普遍的转变,因此反应物配对之间存在很大的结构多样性,并且有很多“拉动杠杆”来使其发挥作用。

“这就是我们已经弄清楚的,”丹麦说。

伊恩·莱因哈特(左)和斯科特·丹麦教授。图片来源:伊利诺伊大学厄巴纳-香槟分校文理学院

莱因哈特解释说,自从发现这种反应以来,用户指南和备忘单在近30年来不断发展,它们可以提供一些方向,但实验通常是必要的。基本上是在实验室中进行试错的过程。

“制药行业的每个人都认识到通过信息学方法干预这个问题的时机已经成熟,”丹麦说。“很多人都尝试使用美国专利商标局或化学文摘或其他大型数据库来尝试建模,为这一非常重要的反应制作预测工具。但他们并没有做得很好,因为信息文献中的说法不太可靠。”

他们的机器学习工具的设计和构建需要生成一个实验数据集,该数据集探索一组反应条件下反应物配对的多样化网络。通过使用系统过程设计实验,神经网络模型主动学习了大量的C-N耦合。

丹麦表示,此类项目面临的挑战是需要收集的潜在数据量以及建立建模信息数据库所需的成千上万次实验。

“Ian最大的贡献之一是弄清楚了工作流程,以决定进行哪些实验,从而通过大约3,500次实验获得有效的预测模型,并且仍然能够在没有庞大数据库的情况下进行预测,”Denmark说。

他们还通过实验验证了机器学习工具的预测。

“我们对它们进行了测试,并通过相当好的统计数据发现,这些条件正在按照我们的预期产生化合物,”丹麦说。

研究人员报告说,他们的模型在实验验证中表现出良好的性能:从一系列与旨在挑战模型的样品外反应物的偶联中分离出10种产物,产率超过85%。

莱因哈特说,他们教导机器学习模型具有一种像专家一样的化学直觉。

“所以,我们现在已经运行或讨论了如此多的耦合,以至于我们对将要发生的事情有很好的直觉,但没有运行过数百或数千个这样的人可能无法很好地进行初步猜测。我们已经教过“一个比用户指南更精细的模型,可以让你有直觉。它并不完美。但这就是重点。它不一定是这样。它只是让你更快地找到答案,”莱因哈特说。

莱因哈特解释说,最酷的部分是,随着越来越多的人使用机器学习工具,直觉会随着时间的推移而得到磨练。随着数据集的增长,开发的工作流程不断提高工具的预测能力。

“随着数据科学与化学的融合,这是一个激动人心的时刻,”丹麦说。“这是完美的婚姻。很多人都认识到这一点,但没有人做到这一点,至少没有以一种经过实验验证的有意义的方式做到这一点。”

丹麦小组正在创建基于云的工作流程版本,以使世界各地的科学家能够使用该工具,随着测试更多结构多样化的底物并将不同的催化剂和条件添加到数据库中,该工具将不断添加数据以改进模型。

莱因哈特表示,该代码是公开的,并且有开源许可证,因此任何人都可以下载和使用它。此外,他目前正在开发一个更加用户友好的界面,该界面将允许人们绘制他们想要反应的两个分子,将它们复制并粘贴到程序中,并根据反应的复杂性在几分钟而不是几小时内获得预测。分子。

“我认为做这样的事情真的很令人兴奋,”莱因哈特说。“我们通常不会发表论文并在公共领域推出人们可以在该领域使用的工具。像我们这样的学术实验室的人们可以使用这个工具,并在自己的研究中更快地得到答案。”