来自全球20个机构的研究人员已经编制了一个标准化目录,其中包含7,200多个可能编码蛋白质的人类基因片段。这些被称为开放阅读框(ORF)的基因片段是使用核糖体分析(Ribo-seq)进行识别的,该技术提供了细胞中蛋白质合成的全局快照。

社区资源为理解人类蛋白质奠定了基础

这些ORF几乎肯定会成为许多人类特征和疾病的影响因素,包括罕见疾病和癌症等常见疾病,”麻省理工学院和哈佛大学博德研究所的医生兼博士后JohnPrensner博士补充道。“现在的挑战是弄清楚哪些基因在哪些疾病中发挥哪些作用。”

这项工作发表在《自然生物技术》杂志上,题为“翻译开放阅读框架的标准化注释”。

近年来,Ribo-seq技术令人惊讶地发现,以前被认为不活跃的基因组区域中普遍存在翻译。这些区域包括假定的非翻译区(UTR)和长非编码RNA(lncRNA)的序列。识别出的ORF通常非常小。

当前论文的几位作者之前使用Ribo-seq识别了ORF,并在各种科学期刊上进行了描述,包括Cell、Science和NatureChemicalBiology。已知某些Ribo-seqORF可介导基因调控,其中一些具有医学意义。然而,这些ORF在首次发表后均未包含在参考数据库中。

“最终,标准化ORF注释的缺乏造成了一个循环问题:虽然Ribo-seqORF仍未被参考注释数据库识别,但这种识别的缺乏将阻碍研究其作用,”作者写道。

“在这里,作为这项工作的‘第一阶段’,我们提供了来自七篇出版物的Ribo-seqORF的综合目录,并注释在GENCODE版本35上,”他们继续说道。“我们希望社区对该目录的使用将有助于解决将这项工作推进‘第二阶段’所需的关键技术和生物学问题,我们的目标是创建更全面的资源。”

在第二阶段,研究人员计划纳入更多样化的人类细胞类型和组织,以便他们能够识别哪些Ribo-seqORF具有重要的功能。

“特别值得注意的是,这7,200个ORF中的大多数是灵长类动物所独有的,可能代表了我们物种独有的进化创新,”亥姆霍兹协会马克斯德尔布吕克分子医学中心的进化生物学家JorgeRuiz-Orera博士补充道。德国。“这些元素可以为我们人类的本质提供重要线索。”

这项工作由Prensner和Ruiz-Orera以及荷兰马克西玛公主儿科肿瘤中心的SebastiaanvanHeesch博士和欧洲分子生物学实验室-欧洲生物信息学研究所的JonathanMudge博士共同领导。英国的EMBL-EBI)。