明斯特大学有机化学研究所的弗兰克·格洛里斯教授领导的团队开发了一种进化算法,可以识别分子中与各个问题特别相关的结构,并使用它们对分子的属性进行编码,以解决各种问题。机器学习模型。

进化算法生成定制的分子指纹

该方法还适用于量子化学性质和分子毒性的机器预测。它可以应用于任何分子数据集,并且不需要底层关系的专业知识。

人工智能和机器学习在日常生活中变得越来越重要——化学也是如此。例如,有机化学家对机器学习如何帮助发现和合成有效对抗疾病或以其他方式有用的新分子感兴趣。

Glorius团队开发的新算法根据进化原理,利用繁殖、突变和选择等机制来搜索最佳分子表示。根据模型和给定的问题,创建定制的“分子指纹”,化学家在他们的研究中使用它来以惊人的准确性预测化学反应。

该方法发表在《化学》杂志上,也适用于预测量子化学性质和分子的毒性。

为了使用机器学习,研究人员必须首先将分子转换成计算机可读的形式。许多研究小组已经解决了这个问题,因此有多种方法可以完成这项任务。然而,很难预测哪种可用方法最适合回答特定问题,例如确定某种化合物是否对人类有害。

新算法旨在帮助找到每种情况下的最佳分子指纹。为此,算法从许多随机生成的分子指纹中逐渐选择在预测中达到最佳结果的分子指纹。

“按照自然的例子,我们使用突变,即随机改变指纹的各个组成部分,或重新组合两个指纹的组成部分,”博士生菲利克斯·卡森伯格解释道。

“在其他研究中,分子通常通过人类选择和计算的可量化特性来描述,”格洛里斯补充道。

“由于我们开发的算法自动识别相关分子结构,因此不存在人类专家造成的系统偏差。”

另一个优点是编码方法可以理解为什么模型会做出某种预测。例如,可以得出关于分子的哪些部分对反应如何进行的预测产生积极或消极影响的结论,从而使研究人员能够有针对性地改变相关结构。

明斯特团队发现他们的新方法并不总是能达到最佳结果。

卡森伯格说:“当大量的人类专业知识用于选择特别相关的分子特性或可获得大量数据时,神经网络等其他方法有时会具有优势。”

然而,该研究的主要目标之一是开发一种分子编码方法,该方法可应用于任何分子数据集,并且不需要潜在关系的专业知识。