生物学家使用机器学习对灭绝花粉化石进行分类

2024-03-21 14:34:08健康专一的悟空

在从化石中破译已灭绝生物体的进化关系的过程中，研究人员经常面临从风化化石中辨别关键特征的挑战，或者优先考虑生物体特征以便在系统发育树中最准确的放置。神经网络是当今图像识别技术的复杂算法。

虽然之前利用神经网络对系统发育树中灭绝生物进行分类的尝试一直很困难，但发表在PNAS Nexus上的一项新研究预示着一项重大突破。该模型经过训练，可以根据已知的系统发育信息识别生物体特征并对其进行排序，并且可以准确地将新生物体(包括已经灭绝的生物体)放置在进化树的复杂分支中。

该团队包括伊利诺伊大学厄巴纳-香槟分校植物生物学副教授 Surangi Punyasena (CAIM)、澳门大学科技助理教授 Shu Kong 和澳门大学研究生 Marc-Élie Adaimé。 Punyasena 的实验室和该研究的第一作者。

根据阿达梅的说法，神经网络之所以难以准确地对已灭绝的生物体和现存的生物体进行分类，往往与它们的训练方式有关。

“大多数古生物学人工智能研究通常侧重于简单的分类任务，例如区分不同的化石类型，”Adaimé 解释道。

“这种方法在明确定义的类别范围内效果很好，但对于不适合这些类别的数据则效果较差。想象一个仅经过训练以对狗或猫的图像进行分类的模型。如果向其呈现图像对于蛇，模型会尝试将其分类为狗或猫，因为它仅限于所接受的训练。

“同样，以前没有方法将先验的系统发育纳入模型中，因此模型无法学会理解进化或系统发育背景中的特征。我们研究的目标是创建一种新的建模方法在系统发育背景下对图像进行训练。”

为了在系统发育框架内准确定位生物体，必须训练神经网络，不仅能够识别不同生物体类别的定义特征，而且能够识别系统发育共源性——生物体之间由于共同祖先而共享的衍生特征。这使得网络能够确定生物体在系统发育树中的位置。

研究小组选择将他们的模型应用于花粉和孢子的分类——花粉和孢子是在整个化石记录中发现的普遍存在的古老实体，最早的化石可以追溯到数亿年前。

研究人员首先收集了在卡尔·R·沃斯基因组生物学核心设施拍摄的现代花粉和化石花粉的光学超分辨率图像。他们使用 30 种现存(活体)罗汉松物种的显微图像来训练模型。在此过程中，该模型识别了它认为对将花粉分类为不同类别很重要的特征。

随后，这些特征与已建立的物种系统发育数据一起输入到二级模型中，然后根据其系统发育意义重新加权这些特征。这种方法使模型能够生成系统发育信息的距离函数，适用于提供给模型的新花粉图像。

为了验证该模型的功效，研究人员在来自巴拿马、秘鲁和哥伦比亚的灭绝花粉的显微标本上进行了测试。虽然确切的系统发育关系尚不清楚，但古生态学家之前根据形态特征和地理分布将花粉置于罗汉松属中。

令人印象深刻的是，神经网络模型反映了古生态学家对几乎所有标本所做的放置，强调了其利用训练过程中学到的形态特征在系统发育背景下准确定位灭绝物种的能力。

Punyasena 指出，她的实验室正在与史密森尼国家自然历史博物馆和史密森尼热带研究所的同事合作，扩大这项工作并将其应用于更广泛的化石花粉数据集。

“国际大陆钻探项目目前正在生产数量难以想象的植物化石材料，”普尼亚塞纳说。

“充分利用这些新数据源意味着改变我们分析和解释化石花粉的方式。作为一个社区，我们需要利用深度学习和计算机视觉的进步。这项工作表明，花粉形态中捕获的进化信息量以前被低估了。植物物种的历史是通过其形状和形式来捕捉的。机器学习使我们能够发现这些新的系统发育特征。”

研究人员计划通过扩大用于训练的图像样本量来提高模型的准确性和适应性。此外，他们的目标是通过整合机器学习的新兴进步来确保模型保持最新状态。Adaimé 强调该模型在花粉分类之外的多功能性，并预见到其在对各种化石生物进行分类方面的潜在应用。

“机器学习模型可以更容易地找到信息丰富的特征，因为机器学习模型的思维方式显然与人类的思维方式有很大不同，”Adaimé 说。

“它将能够找到有意义但对人类来说可能不直观的模式。这种方法的好处不仅限于花粉，我们预计这些模型也将适用于对其他生物体的化石进行分类”。

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。