细胞重编程策略涉及使用有针对性的遗传干预将细胞改造为新状态。例如,该技术在免疫疗法中具有广阔的前景,研究人员可以对患者的T细胞进行重新编程,使它们成为更有效的癌症杀手。有一天,这种方法还可以帮助确定挽救生命的癌症治疗方法或修复遭受疾病蹂躏的器官的再生疗法。

一种更有效的实验设计可将细胞改造为新状态

但人体有大约20,000个基因,遗传扰动可能发生在基因组合上,也可能发生在调节基因的1,000多个转录因子中的任何一个上。由于搜索空间巨大且基因实验成本高昂,科学家们常常难以为其特定应用找到理想的扰动。

麻省理工学院和哈佛大学的研究人员开发了一种新的计算方法,可以基于比传统方法少得多的实验来有效地识别最佳遗传扰动。

他们的算法技术利用复杂系统中因素之间的因果关系(例如基因组调控)来优先考虑每轮连续实验中的最佳干预措施。

研究人员进行了严格的理论分析,以确定他们的技术确实确定了最佳干预措施。有了这个理论框架,他们将算法应用于真实的生物数据,旨在模拟细胞重编程实验。他们的算法是最高效、最有效的。

“大规模实验往往是根据经验设计的。顺序实验的仔细因果框架可能允许通过更少的试验确定最佳干预措施,从而降低实验成本,”共同高级作者、电气工程系教授卡罗琳·乌勒(CarolineUhler)说。计算机科学(EECS)博士,同时也是麻省理工学院和哈佛大学布罗德研究所Eric和WendySchmidt中心的联席主任,以及麻省理工学院信息与决策系统实验室(LIDS)和数据、系统与社会研究所的研究员(IDSS)。

这篇论文今天发表在《自然机器智能》杂志上,与Uhler一起撰写的论文的主要作者是研究生、Eric和WendySchmidt中心研究员JiaqiZhang;联合资深作者ThemistoklisP.Sapsis,麻省理工学院机械与海洋工程教授,IDSS成员;以及哈佛大学和麻省理工学院的其他人。

主动学习

当科学家试图为复杂系统(例如细胞重编程)设计有效的干预措施时,他们通常会按顺序进行实验。这样的设置非常适合使用称为主动学习的机器学习方法。收集数据样本并用于学习包含迄今为止收集的知识的系统模型。根据该模型,设计了一个获取函数——一个评估所有潜在干预措施并选择最佳干预措施在下一次试验中进行测试的方程。

重复此过程,直到确定最佳干预措施(或资助后续实验的资源耗尽)。

“虽然有几种通用采集函数可以按顺序设计实验,但这些函数对于如此复杂的问题并不有效,导致收敛速度非常慢,”Sapsis解释道。

获取函数通常考虑因素之间的相关性,例如哪些基因是共表达的。但仅关注相关性会忽略系统的调节关系或因果结构。例如,遗传干预只能影响下游基因的表达,但基于相关性的方法将无法区分上游或下游基因。

“你可以从数据中学习一些因果知识,并利用它来更有效地设计干预措施,”张解释道。

麻省理工学院和哈佛大学的研究人员在他们的技术中利用了这种潜在的因果结构。首先,他们精心构建了一个算法,使其只能学习解释因果关系的系统模型。

然后研究人员设计了获取函数,以便它使用这些因果关系的信息自动评估干预措施。他们精心设计了这个函数,以便优先考虑信息最丰富的干预措施,这意味着那些最有可能在后续实验中产生最佳干预措施的干预措施。

“通过考虑因果模型而不是基于相关性的模型,我们已经可以排除某些干预措施。然后,每当你获得新数据时,你就可以学习更准确的因果模型,从而进一步缩小干预空间,”Uhler解释道。

这种较小的搜索空间,加上获取功能对信息最丰富的干预措施的特别关注,使得他们的方法如此高效。

受到复杂系统中极端事件研究的启发,研究人员使用一种称为输出加权的技术进一步改进了他们的采集功能。该方法仔细强调可能更接近最佳干预的干预措施。

“本质上,我们将最佳干预视为所有可能的次优干预范围内的‘极端事件’,并使用我们针对这些问题开发的一些想法,”萨普西斯说。

提高效率

他们在模拟细胞重编程实验中使用真实的生物数据测试了他们的算法。在这项测试中,他们寻求一种基因扰动,从而导致平均基因表达发生所需的变化。在多阶段实验的每一步中,他们的采集功能始终识别出比基线方法更好的干预措施。

“如果你在任何阶段停止实验,我们的实验仍然会比基线更有效。这意味着你可以进行更少的实验并获得相同或更好的结果,”张说。

研究人员目前正在与实验人员合作,将他们的技术应用于实验室的细胞重编程。

他们的方法也可以应用于基因组学之外的问题,例如确定消费品的最佳价格或在流体力学应用中实现最佳反馈控制。

未来,他们计划增强优化技术,超越那些寻求匹配所需平均值的技术。此外,他们的方法假设科学家已经了解其系统中的因果关系,但未来的工作也可以探索如何使用人工智能来学习这些信息。