自25年前推出以来,GenomesOnLineDatabase(GOLD)已经从电子表格上的六个项目发展成为旗舰基因组元数据存储库,使遵循社区标准的精选微生物组元数据免费可用,并支持大规模比较基因组学分析计划。

基因组在线数据库引入新功能

GOLD不仅管理在美国能源部(DOE)联合基因组研究所(JGI)开展的测序项目,这是位于劳伦斯伯克利国家实验室(BerkeleyLab)的美国能源部科学用户设施办公室,而且还管理从公共存储库导入的项目,以及外部用户输入的项目数据。

影响

最大化基因组数据使用的重大挑战之一是与它们一起存储适当的上下文信息或元数据。GOLD为生物体和环境样本提供人工精选的元数据资源。该数据库汇集了来自各种来源的相关元数据,并应用标准化的标签方案来更好地定义基因组信息和生态系统。

这些精选数据可在JGI数据门户网站上访问,包括集成微生物基因组和微生物组(IMG/M)系统,增强基因组注释并促进比较基因组分析。GOLD旨在遵循FAIR数据原则,以确保数字资产可查找、可访问、可互操作和可重用。

概括

GOLD获取在JGI处理过的样本、外部用户输入的样本以及从公共存储库导入的样本,并通过应用社区制定的标准来整理信息。GOLD还支持从提案接收到发布的广泛活动。还获取信息并与公共资源进行交叉检查,包括NCBI分类法和各种文化收藏,如美国典型文化收藏和莱布尼茨研究所DSMZ。GOLD将其标志性的标准化命名应用于所有环境样本,并且是世界上唯一拥有近200,000个具有规范名称的精选环境样本的资源。

自1997年推出以来,活跃的GOLD用户推动了它的发展以及新组件和功能的持续开发。最近的改进包括公共API和生态系统登录页面等新功能,以及不同实体的增长,这些在NucleicAcidsResearch期刊中有进一步概述。

GOLD的优势之一是在系统中的所有实体中实施元数据标准。管理GOLD的JGI基因组标准组会亲自与提交者沟通,以解决任何不一致之处。过去,GOLD依赖于自由文本字段,而现在它利用受控词汇表和基于单位的字段,例如以固定单位米记录的深度和海拔、以摄氏度为单位的温度等。

GOLD实施的四级项目组织系统包括:研究、生物样本/生物体、测序项目和分析项目。这些实体中的每一个都使用范围广泛的元数据进行管理。GOLD将五级生态系统分类应用于其隔离信息可用的所有环境样本和生物体——实现元数据驱动的科学发现。GOLD的公共应用程序编程接口允许用户以安全可靠的方式以编程方式访问精选的元数据。

管理GOLD的JGI团队已经与另外两个DOE资助的项目——国家微生物组数据协作(NMDC)和DOE系统生物学知识库(KBase)——密切合作,旨在扩展这些在元数据管理、建立元数据标准和样本元数据方面的合作交换。