你的遗传密码有很多代表同一事物的单词信息论可能有助于解释这些冗余
几乎所有生命,从细菌到人类,都使用相同的遗传密码。该代码充当字典,将基因翻译成用于构建蛋白质的氨基酸。遗传密码的普遍性表明所有生物体都有共同的祖先,并且该密码在生物细胞的结构、功能和调节中发挥着重要作用。
了解遗传密码的工作原理是基因工程和合成生物学的基础。但仍有许多未解之谜,例如为什么该代码对于蛋白质折叠等各种生物过程很重要。
作为一名研究生物学和物理学交叉领域的学者,我应用信息论(信息如何存储和通信的数学)来研究其中一些有趣的问题。正如计算机需要二进制代码串才能运行一样,生物过程也依赖于信息位。
在我最近的研究中,我提出优化理论可能为氨基酸编码方式存在一定冗余的长期谜团提供潜在的解释。
同一件事用不同的词表达
遗传密码本由四个字母组成的“单词”组成:A、C、G和U。每个字母代表不同的化学结构单元,称为核苷酸:腺嘌呤、胞嘧啶、鸟嘌呤和尿嘧啶。一种称为核糖体的分子机器读取密码本,将基因翻译成蛋白质。
核糖体读取称为密码子的三字母单词,这四个字母有64种不同的可能组合,形成不同的密码子。在这个64个单词的列表中,61个编码氨基酸,其中3个向核糖体发出信号以停止细胞中的蛋白质合成。例如,“AUG”编码氨基酸甲硫氨酸,也表示蛋白质的起始位置。
但就像任何其他语言一样,也有同义词——不同的密码子可以编码相同的氨基酸。事实上,由于只有20个氨基酸,但有61个不同的单词来编码它们,因此存在相当多的重叠。氨基酸可以有一到六个不同的密码子对其进行编码。只有两种氨基酸只有一个密码子:甲硫氨酸和色氨酸。即使遗传密码存在拼写错误,这种冗余也有助于核糖体正确执行其任务。
工程性质的指导方针
为什么某些氨基酸比其他氨基酸有更多的同义词,这是一个困扰科学家数十年的谜团。这种变化有规律吗,还是随机的?为了回答这个问题,科学家研究了自然决策的规则。
如果人类工程师设计遗传密码,他们会希望确保每个氨基酸都具有相似程度的冗余,以防止错误并促进一致性。61个密码到20个氨基酸的映射大致相等,每个氨基酸分配三个密码子。
但大自然有不同的优先事项。细菌等自然系统的进化模型表明,大自然总是在努力优化。不仅蛋白质的最终形式需要优化,其中间形式也需要优化。优化确保自然系统能够适应不同的环境。
科学家了解自然界在设计遗传密码时遵循的一些准则。例如,遗传密码内部和周围的原子和分子的空间排列可以影响其功能,以及参与产生蛋白质的其他细胞结构的共同进化。
信息论和遗传学
我的研究表明,自然系统可能还考虑其他两个重要因素:遗传密码的信息论性质和最大熵原理。
与计算机处理由0和1组成的数据的方式类似,生命也根据由A、C、G和U四个字母组成的数据处理遗传密码。然而,从数学角度来看,表示数据的最节能的方式不是二进制(或以2为底)——使用0和1,就像计算机一样——而是以e为底。e是欧拉数的缩写,是一个无理数,这意味着无法使用分数或小数写出其精确值(尽管它大约为2.718)。
大自然对使用这种无理数进行优化的亲和力是造成锯齿状海岸线、蕨叶、雪花和树木中无限重复分形的原因。除了生物学之外,使用e进行信息优化还可以应用于数学和宇宙学。
自然界中运作的另一个原理是最大熵原理。熵是系统无序程度的衡量标准,最大熵原理指出系统会演变成更无序的状态。这一原理使研究人员能够从有限的数据中做出推论,并已被用来解释氨基酸如何在蛋白质中相互作用。
在密码子分组的背景下,最大熵原理意味着大自然正在尽可能地扰乱数据,这意味着描述密码子分组分布的函数在数学上应该很难撤销。研究如何最大化该函数的数学复杂性揭示了密码子分组背后的潜在模式。
我相信这两个原理可能有助于描述遗传密码中密码子组的分布,并指出数学在分析自然系统中的有用性。尽管科学家尚未解开许多生物学谜团,但信息论可以成为帮助破解遗传密码的强大工具。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。