来自环境的信号引发了一系列变化,以不同方式影响不同的基因。因此,传统上很难研究这些信号如何影响生物体。在一项新研究中,研究人员开发了一种名为FUN-PROSE的机器学习方法来预测基因对不同环境条件的反应。

使用新的机器学习方法预测真菌基因的反应

无论生物体如何,细胞都会使用mRNA微调其对周围环境的反应。首先,他们使用称为转录因子的蛋白质来感知变化,然后与基因前面的DNA序列(称为启动子)结合。这种附着可以阻止基因mRNA的形成,也可以增加mRNA的生成量。

然后mRNA作为模板来产生负责细胞中各种功能的蛋白质。这种机制允许细胞快速地将资源重新分配给生存所需的进程。

研究启动子的控制方式是基因组学中最古老的挑战之一,但研究人员仍在继续努力解决这个问题。最大的问题是不同的转录因子可以结合相同的启动子序列,并且在不同的环境条件下以不同的排列方式结合。

此外,虽然有一些证据表明转录因子倾向于与启动子中的特定序列基序结合,但并非所有转录因子都得到了广泛的研究。近年来,研究人员转向人工智能来帮助他们解决这些挑战。

“基因具有平均表达水平,以前的机器学习模型无法测量不同条件下表达水平的变化,”生物工程和物理学教授谢尔盖·马斯洛夫(CAIM领导人/CABBI)说。“我们有兴趣了解特定基因如何对pH、温度和营养物质的变化做出反应。”

研究人员开发了一种名为“条件特异性表达真菌促进剂”(FUNgalPROmotertoCondition-SpecificExpression)或“FUN-PROSE”的模型,用于预测面包酵母(酿酒酵母)和较少研究的真菌粗糙脉孢菌和东方伊萨琴菌对环境变化的反应。

为了开发该模型,研究人员首先必须确定这三个物种的启动子序列和转录因子。然后,他们训练模型以了解转录因子在不同条件下识别哪些启动子基序。

“粗糙猪笼草和东方酵母的转录因子并不像酿酒酵母那样广为人知,因此我们必须推断这些物种中的转录因子可以识别哪些基因,”该大学的研究生AnanthanNambiar说。马斯洛夫集团。马斯洛夫小组前研究生、现格莱斯顿研究所博士后研究员维罗妮卡·杜宾金娜(VeronikaDubinkina)表示,这一过程涉及一种常用的扫描已知结合DNA的蛋白质区域的方法。

最后,该模型学会了如何整合所有信息来计算在特定条件下产生的mRNA量与mRNA的平均水平相比。然后,研究人员将FUN-PROSE获得的结果与RNA-seq数据进行了比较,后者测量了所有三种真菌的mRNA水平波动。每个生物体都有超过4000个基因和180个转录因子,根据研究的程度,在12-295种条件下对这些基因和转录因子进行了测量。

“预测哪些基因在一系列条件下很重要一直是一个难题。然而,我们发现我们的模型非常接近于预测这些生物体中实际发生的情况,”南比亚尔说。

除了评估其性能之外,研究人员还阐明了该模型如何进行预测。马斯洛夫小组的前本科生西蒙·刘(SimonLiu)表示:“即使具有黑盒性质,我们也能够理解我们的模型如何看待启动子,并发现它已经学会了搜索已知序列。”“能够解释经过训练的模型对于验证其逻辑以及使用它来发现新的监管知识至关重要。”

然而,该模型确实遇到了以前从未遇到过的发起人的困境。“这个模型在新条件下表现很好,但如果你给它一个新的基因或启动子序列,它就会出错,”南比亚尔说。

马斯洛夫表示,这些错误是由于可用数据有限造成的。“机器学习是一个黑匣子,你需要好好训练它,这样你才能学习生物学,”他说。“如果我们能够获得更多的数据,该模型将有更多的模式可供学习,并且将有更准确的预测。”

研究人员现在有兴趣在其他生物体上测试他们的模型。“原则上,我们的技术没有限制——它应该适用于任何生物体。然而,例如,在动物中,基因是以更复杂的方式控制的,这将需要模型架构的重大改变和更多的训练数据,“马斯洛夫说。“不过,看看这个模型的表现如何会很有趣。”