从智能聊天机器人到可以撰写整篇文章的应用程序,人工智能(AI)正在成为我们生活中越来越普遍的一部分。瓦赫宁根大学研究中心的助理研究员MichaelSchon正在设计一种人工智能工具,可以对植物基因组上的非编码RNA进行比较。例如,该工具预计将加速和简化未来植物新品种的开发,这些新品种具有更强的抗旱或抗病能力。

人工智能有望解开非编码基因的秘密

蛋白质是生物体细胞的组成部分。制造这些蛋白质的指令是由基因中的RNA发出(编码)的。除了这些编码RNA之外,一些基因还可以产生非编码RNA:换句话说,这些RNA不包含制造蛋白质的指令。

MichaelSchon说,这种类型的RNA在生物体的发育中也发挥着重要作用。“例如,它们可以激活基因,或者做相反的事情并关闭它们。这将影响植物的外观及其特性。某些重要的非编码RNA还决定植物是否完全成熟。”

同一家庭内的亲戚

非编码RNA还可能揭示为什么植物物种属于特定科但具有不同的特征。在之前的研究中,Schon鉴定了拟南芥(拟南芥)的非编码RNA。这种植物被植物科学家用作模式生物。

“拟南芥与西兰花、花椰菜和大头菜等重要作物都属于十字花科。该科也被称为芥菜科或十字花科科。然而,很难将拟南芥与其他植物的非编码RNA进行比较。芥菜家族,因为之前对这些物种的研究主要集中在蛋白质编码基因上。”

非编码RNA的有限注释

这意味着植物之间的比较需要对每种作物的非编码RNA进行单独的基因注释。通过他的Veni项目,Schon正在寻找利用相关物种的知识来识别非编码RNA的新方法。

“芥菜科植物有200多个基因组序列。每个基因组都存储为一个大型文本文件,由数百万个字母组成,代表DNA分子的碱基(A、C、T和G)。因为非-这些基因组中的编码位没有正确编目(注释),不可能比较分散在这堆数据中的所有非编码基因,我们需要为此开发新的策略和工具。”

每个基因组的一小部分

第一个问题是知道要寻找基因组中的哪个位置。Schon正在开发的工具之一是他称之为GeneSketch的工具。为了找到不同基因组的相应部分,他使用了一种称为“最小化草图”的方法。

“MinimizerSketch背后的想法是,你只需要查看一小段DNA(草图),而不是整个序列,”Schon说。“这意味着你只需关注每个基因组的几千个字符即可进行比较,而不是数百万个。

MinimizerSketch之前被用来构建灵长类进化树,其中包括人类及其近亲。事实证明,我们的祖先的家谱可以通过不到1%的整个基因组的草图来绘制。因此,最小化草图是估计DNA片段彼此相似程度的非常有效的方法,因此它对于比较芥菜家族内的基因组也应该很有用。”

与ChatGPT相同的技术

知道要看哪里后,下一步就是了解您在看什么。Schon计划在GeneSketch中使用的技术与目前在其他人工智能工具(例如ChatGPT)中使用的技术相同。

“这就是所谓的‘变压器’技术,”舍恩说。

“例如,你可以要求变压器填补句子中缺失的单词。最初,变压器会随机给你一个单词,因为它以前从未见过单词。但如果你用数百万个例句训练它,它会慢慢学习通过注意文本中的模式来猜测正确的单词。

“经过训练,像ChatGPT这样的大型语言模型变得非常擅长某些任务,比如回答问题或从一种语言翻译成另一种语言。变压器不仅可以被训练来学习人类语言,还可以学习DNA语言,DNA语言有其自身的特点。我正在研究一种模型来检测许多不同物种的DNA模式,并将这些模式翻译成我们人类可以理解的语言。”

模型必须经过训练

Schon将为GeneSketch训练变压器,以关注基因在不同物种之间的变化,尤其是非编码基因。但他预计一路上会遇到一些挑战。

“一个重要的问题是可靠性。变压器是一项相对较新的技术,它会犯错误。例如,ChatGPT接受了许多不同文本源的训练,但如果你问它一个在训练过程中从未见过的主题,它需要你希望它根据它所看到的模式做出一些合理的东西,但这永远不能保证你训练变压器越多,它产生的废话就越少。可能会花费大量时间和金钱。完全从头开始训练模型还是基于现有模型构建更好?我正在尝试这两种方法。”

GeneSketch的潜力

Schon希望在该项目于2023年10月启动的第一年后获得GeneSketch的原型。他计划用它来为整个芥菜家族创建基因注释。

Schon表示,该工具不仅对研究部门有用,而且对农业也有用。“例如,它可以为种子育种者提供一种快速了解作物及其野生近缘种DNA的方法。通过更多地了解作物在几个世纪以来如何发展出独特的性状,育种者可以做出更明智的决定改善性状,例如使作物更能适应气候变化,因此潜在的影响可能是巨大的。”