WellcomeSangerInstitute的研究人员开发了一种新工具,用于预测将基因编辑的DNA序列成功插入细胞基因组的可能性,该工具使用一种称为初级编辑的技术。PrimeEditing是CRISPR-Cas9基因编辑技术的进化,在治疗从癌症到囊性纤维化等人类遗传疾病方面具有巨大潜力。但到目前为止,决定编辑成功的因素还不是很清楚。

机器学习有助于确定高级基因组编辑的成功

该研究于今天(2月16日)发表在NatureBiotechnology上,使用主要编辑器评估了引入基因组的数千种不同DNA序列。这些数据随后被用于训练机器学习算法,以帮助研究人员设计针对给定遗传缺陷的最佳修复方案,这有望加快将prime编辑带入临床的努力。

CRISPR-Cas9于2012年开发,是第一个易于编程的基因编辑技术。这些“分子剪刀”使研究人员能够在基因组的任何位置切割DNA,以便移除、添加或改变DNA序列的部分。该技术已被用于研究哪些基因对从癌症到罕见疾病的各种疾病很重要,并用于开发修复或关闭有害突变或基因的治疗方法。

碱基编辑器是一项在CRISPR-Cas9基础上扩展的创新,因其替代DNA单个碱基的能力而被称为“分子铅笔”。2019年创建的最新基因编辑工具称为主要编辑器。它们能够以高精度直接在基因组上执行搜索和替换操作,这使它们被称为“分子文字处理器”。

这些技术的最终目的是纠正人类基因中的有害突变。超过16,000种小的缺失变异——其中少量DNA碱基已从基因组中移除——与疾病存在因果关系。这包括囊性纤维化,其中70%的病例是由仅三个DNA碱基缺失引起的。2022年,碱基编辑的T细胞成功用于治疗化疗和骨髓移植失败的白血病患者。

在这项新研究中,WellcomeSangerInstitute的研究人员设计了3,604个长度在1到69个DNA碱基之间的DNA序列。这些序列被插入到三种不同的人类细胞系中,在不同的DNA修复环境中使用不同的primeeditor传递系统。一周后,对细胞进行基因组测序,以确定编辑是否成功。

评估每个序列的插入效率或成功率以确定每次编辑成功的共同因素。发现序列的长度是一个关键因素,所涉及的DNA修复机制的类型也是如此。

惠康桑格研究所的JonasKoeppel和该研究的第一作者说:“成功进行基因组主要编辑的变量很多,但我们开始发现哪些因素可以提高成功的机会。序列长度是其中之一这些因素,但并不是序列越长越难插入那么简单。我们还发现,一种类型的DNA修复阻止了短序列的插入,而另一种类型的修复阻止了长序列的插入。

为了帮助理解这些数据,研究人员转向机器学习来检测决定插入成功的模式,例如长度和所涉及的DNA修复类型。在对现有数据进行训练后,该算法将在新数据上进行测试,并发现可以准确预测插入成功。

来自WellcomeSangerInstitute的JulianeWeller和该研究的第一作者说:“简而言之,三个DNA字母的几种不同组合可以编码蛋白质中的相同氨基酸。这就是为什么有数百种方法可以编辑基因以在蛋白质水平上实现相同的结果。通过将这些潜在的基因编辑输入机器学习算法,我们创建了一个模型来对它们起作用的可能性进行排名。我们希望这将消除许多涉及的试验和错误主要编辑并大大加快进度。”

该团队的下一步将是为所有已知的人类遗传疾病制作模型,以更好地了解是否以及如何使用primeediting来修复它们。这将涉及桑格研究所的其他研究小组及其合作者。

惠康桑格研究所的LeopoldParts博士和该研究的资深作者说,“原始编辑改善人类健康的潜力是巨大的,但首先我们需要了解进行这些编辑的最简单、最有效和最安全的方法。它是所有关于了解游戏规则,这项研究产生的数据和工具将帮助我们做到这一点。”