生物的基因有没有可能是“祖传屎山”？

HaHa · 发表于 2024-9-14 15:03

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

从第一个DNA生物进化至人类，已经积累有46个染色体，30亿左右碱基对组合出了已知大概2~3万组基因编码。
那么假如基因编码=程序源码的话，现有高等生物庞大的基因库，有没有可能其实大部分都是“祖传屎山”？

原文地址：https://www.zhihu.com/question/426635186

检验医师 · 发表于 2024-9-14 15:03

辣椒辣味的起源真正诠释了所谓的，千淘万漉虽辛苦，吹尽黄沙“屎”到金。
辣椒的辣味来源于果实胎座中合成的辣椒素类物质。辣椒素是由苯丙素途径生成的香兰胺和通过脂肪酸途径产生的支链脂肪酸在辣椒果实胎座组织表皮层中合成。控制辣椒素合成的最后一步的关键基因是AT3，编码一种具有酰基转移酶活性的辣椒素合成酶[1]。

辣椒素类物质合成部位和合成途径

我们对辣椒素类物质的合成途径和参与的基因也已经比较全面和清晰的认识，但是有一个奇怪的地方就是，参与辣椒素合成的这些基因并不是辣椒特有的，在茄科其他亲缘物种中都存在。但是这条通路只在辣椒中被激活。
辣椒和亲缘关系最近的茄科兄弟番茄一样，都是12对染色体，而且基因组具有高度保守的共线性，编码蛋白质的基因数目也大致相同。

辣椒和番茄基因组比较

然而，辣椒基因组大约比番茄的基因组大四倍。辣椒基因组的膨胀主要来自大量LTR反转录转座子重复序列的积累。其中最多是Gypsy家族元件，其次是Copia和花椰菜花叶病毒科的反转录转座子[2]。
Gypsy家族主要成员是Del亚家族，主要在异染色质区域富集，Del元件的插入还能将常染色质转化为异染色质而形成异染色质岛。这些源源不断累积的异染色质岛就像一座座“屎山”，占据了辣椒基因组的大量空间。异染色质的变异会造成染色体配对异常，促进物种生殖隔离形成。因此，异染色质区域Gypsy家族元件的不均等积累可能是辣椒和番茄在1900万年前分化的一个重要原因[2]。
既然番茄具备辣椒素合成的全部基因，为啥番茄就不辣呢？

辣椒素合成途径的演化过程

辣椒和番茄AT3基因相似度超过70%，原始基因在辣椒中经历了5次不平等复制产生了7个拷贝，而在番茄中经历了2次复制产生了4个拷贝。而参与辣椒素合成的AT3则是在AT3基因最后一次复制后才分化出来的。这表明辣椒的辣味是在辣椒物种形成后才产生的[2]。
无独有偶，其他参与辣椒素合成的基因家族在番茄、马铃薯中均有同源基因，其中13个基因家族（包括KAS，COMT，ACL，β-CT，C3H，CCR和PAL等）在辣椒中都存在独立的特异性基因复制。这意味着辣椒基因组膨胀的过程中，众多关键基因都经历了不平等基因复制，出现功能上的分化。这些功能分化的基因通过再组合形成了一个完整的模块，可能才是辣椒素生物合成途径形成的真正原因[3]。

继续前进 · 发表于 2024-9-14 15:04

人喉返神经的飘逸走位（从鱼这个老祖宗开始喉返就从那走，然后改不了了）…
婴儿的囟门（某些两栖类老祖宗长第三只眼的地方）…
松果体（控制第三只眼感光的结构）…
人胚胎有很短的一段时间有鳃，然后退化掉（老祖宗的发育过程动不了，鸡胚也有一小段时间有鳃）…
蛇有腿骨残余（四足动物的基本结构）…
节肢动物基本结构“每个体节有两个附肢”（昆虫的头是好几节愈合在一起的，跟虾一样，每节上的附肢合并就成为嘴，知了蚊子蝴蝶那根管子都是一束好几根）…
总得来说，屎山满天飞，交配之前不会引起蓝屏的都算feature，交配之前会烧坏硬件无法重启的才算bug…

继续前进 · 发表于 2024-9-14 15:04

光合作用中有一个关键的酶叫RUBP羧化酶，他的作用是让CO2与1，5-二磷酸核酮糖(C5)加成，生成不稳定的6碳中间产物，最后再分解成3-磷酸甘油酸(C3)。然而，这个酶可能是出现在大氧化时期前的缘故吧，有一天生的bug，就是在氧气浓度高的时候，会催化C5与氧气的氧化还原反应，生成有毒物质乙醇酸(C2)，然后再经过线粒体的处理重新转变为CO2，再重新与RUBP(C5)结合，整个过程不仅没有产出能量反而还消耗了好多能量。
C3植物，直接躺平，上古代码咋都不改。
// TODO: 改变羧化酶的植物，目前没有，改变意味着光合作用的崩溃，植物个体死亡。
但是，植物界还是有英明的植物/*再拉一坨屎山*/优化光合作用过程的。
C4植物，我再加个机器，先预处理一下CO2，在叶肉细胞中CO2与磷酸烯醇式丙酮酸结合生成草酰乙酸在还原成苹果酸以收集CO2，然后运到维管束鞘细胞分解苹果酸获得CO2，直接进入卡尔文循环，剩下的部分回到叶肉细胞再生成磷酸烯醇式丙酮酸继续循环(有没有感觉像屎山代码里的 }}}}}}}}})。然而这套系统折腾下来剧耗能量，所以这也是非热带地区很少见C4植物和玉米为什么要夏天在种的原因。
CAM植物(景天科酸循环)，面向C端(荒漠)，环境多变恶劣，用不起多个机子，于是乎直接多线程，一个细胞干了C4两个细胞的事，只不过白天消耗储存的CO2，黑夜储存CO2，有股并发的味了。为了储存CO2，它们进化了富含大量液体的液泡，让整个植物看起来肉乎乎的，于是有了多肉植物一说。然而这互斥锁写的有点乱，进程乱了 (高温会影响CAM植物的代谢)直接关机重启(夏眠)，然后一浇水就烂根。
2022.8.3
然而，IT界有句话：程序能跑就不要改它。生物也将其贯彻到底，低级的海绵就是个例子。
同理，为什么相对低效C3植物不会自然界淘汰也有自己的原因。
首先要明白第一件事是光合作用会产生大量的NADPH，这样就会出现一个问题，当叶绿体消耗NADPH远小于NADPH的产生速度时，NADPH会趋向于与O2结合，产生出毒性很强的超氧化物，虽然叶绿体中超氧化物歧化酶和过氧化氢酶，在一定程度缓解危害，但也架不住由自由基攻击叶绿体DNA，导致叶绿体关键酶(像RUBP的大亚基)的合成受到干扰，甚至导致叶绿体被细胞分解回收。第二件事是叶绿体中的ATP有一个量，而且叶绿体与外界交换ATP和 ADP/Pi的效率很低，叶绿体以半自主复制的形式消耗ATP更是少见，所以当因光作用产生高浓度氧环境的情况下，往往也是ATP饱和的时候。综上所述：植物利用光呼吸提高CO2浓度，用卡尔文循环消耗ATP和NADPH，实现了过载保护。
但客观上讲，光合作用产生过量ATP/ NADPH实际上就是因为能量转化效率的低下，从而让无法转换的能量破坏光合系统。有人说是光呼吸保护了光合系统。对，这一点没错，但同时也是它是屎山的的一个要点，如果使RUBP酶变化，不容易与O2结合，是在一定程度上提高了CO2的转化率，但要冒着叶绿体被破坏的风险。就像你想处理屎山代码，在不细致了解的情况下乱改，最后屎山塌了，项目崩了，放在生物里就是灭绝了。如果你还是坚持要改变RUBP酶，那还要考虑干旱胁迫下，植物在气孔闭合时，如何保证CO2和水的稳定供应，正如评论中的伊眼拢鼻所说：生物的代码之屎，最简单的体现就是人类试图用cre语句调用某一个程序时，总有莫名其妙的野鸡程序也跟着响应。
C4和CAM植物的经典之处就是封装然后再模块化，把CO2的收集封装成一个模块，再把CO2的固定(卡尔文循环)封装另成一个模块，放在两个细胞或者两个时间段运行，但第一个模块相当耗能，这无异于把屎山分成一块一块的，再在里面精明的拉一泡，最后还是屎山，甚至在一定条件下比C3的效果更差。
因此大多数植物的选择是直接不改变原有的光合系统。
还有，基因和环境共同决定生物性状，光合系统的屎山逻辑同时也说明其对应的基因也是屎山。

检验医师 · 发表于 2024-9-14 15:05

别说屎山了，毒山都有
人类体内的基因有8%是曾经的逆转录类的病毒合入的，结果这些病毒已经忘记了自身繁衍表达的使命，跟着其它人类基因一起直到现在

清风寡欲 · 发表于 2024-9-14 15:05

我有时候会说人类基因组是代码屎山，人类之外也有许多生物的基因拥有“祖传代码”的低效特征[1]，但你是不能对所有生物一概而论的，演化更不是“从第一个 DNA 生物进化至人类，积累了很多祖传代码”这样抽象的情景。
大部分原核生物的基因组是没有内含子的，放眼望去所有的编码都可以发挥功能，尽管经常会有许多功能处在并不好使的状态。

远洋杆菌属（Pelagibacter）遍在远洋杆菌（P. ubique）可能是现代地球上数量最多的细菌，估计其数量级在万亿亿亿的程度，可以占据夏季温带海洋表层水中细胞总数的一半左右。该物种世界性分布，是革兰氏阴性菌，以溶解的有机碳为生，是已知的体型最小的独立生活的生物之一，比很多支原体的体型还要小：体长 370~890 纳米，直径 120~200 纳米。
2005 年测序表明遍在远洋杆菌 HTCC1062 菌株的基因组为 1308759bp，是已知的自由生活的物种中最小的基因组，只有 1354 个基因。它的基因组不含重复的基因拷贝，没有内含子和病毒基因（当然，正在被噬菌体攻击时例外），并适应缺氮的远海而减少了基因组中使用的氮。

人类已经亲自动手修改过一些生物的基因组，从里面剔除内含子和功能较弱的基因，生物仍然可以正常生存，例如克雷格·文特尔领导的研究组用自然界存在的支原体基因组删改出含有 525 个基因的支原体[2]。
人类基因组里的一些内含子和一些非编码序列是有功能的，目前估计人类基因组里至少 8% 到 15% 的碱基对是必需的。
美国国家人类基因组研究所的公共联合研究项目“DNA元件百科全书（ENCODE）”认为人类基因组的 80% 具有功能——他们对功能的定义过于宽泛，这里面有很多是低效的祖传代码。不过，你并不是总启动着它们的，人类现在的能量获取效率完全支持得起细胞复制时占用这么点核酸。

选择性剪切允许外显子和内含子的不同组合让同样的基因结构编码不同的蛋白，不同的基因还可以一起编码新蛋白。人类基因编码的蛋白质数量比基因数量高一个数量级，编码的RNA数量则比基因数量高两到三个数量级。
而且，你很快就会看到生活方式远比我们原始的生物在使用超过我们许多倍的庞大基因组。
2020 年，对整个人类基因组的研究有一定进展：基因型-组织表达项目相关的研究人员于九月上旬在《科学》、《细胞》等杂志上发表了 15 篇论文介绍他们的发现，《科学》杂志以封面报道的形式对此进行了介绍，你可以去看看。

根据过去几十年的观测事实，基因编码不是程序源码，而是有机体的工具箱，你无法从基因里看出器官排列的方式，多细胞生物的身体构造在很大程度上是细胞发生过程和环境互动的产物。演化也能随机地造成祖传基因的丢失或失去活性，现在每个人的基因组的两万来个基因里都有约 20 个完全沉默。
现代生物学已经放弃“高等生物”“低等生物”这样不准确的描述，“庞大的基因库”也是风趣的表达：

“基因库”是互相能产生可育后代的群体中的全部个体所含有的全部基因的集合。
个体数量极多、遗传多样性高的物种的基因库远比人类大，毕竟全人类的遗传多样性比东非的几千只猩猩的遗传多样性还要低。
个体的基因组不是基因库，人类基因组也并不庞大。

正常人染色体 46 条，碱基对约 30 亿个，基因 20000~26000 个，说难听点，够干啥的。

老鼠基因组含约 33 亿个碱基对，约 29000 个基因。
瓶尔小草属的植物拥有已知多细胞生物中最多的染色体，约 1260 到 1400 条染色体。
石花肺鱼拥有已知多细胞动物中最大的基因组，约 1300 亿个碱基对。
在 2024 年之前，衣笠草拥有已知多细胞生物中最大的基因组，约 1490 亿个碱基对。这种植物是八倍体，可能是 4 种不同植物的异源多倍体杂交种。

2024 年 5 月发表的一篇文章称，Tmesipteris truncata 的单倍体基因组包含 1604.5 亿个碱基对，是现代技术考察范围内真核生物里最多的[3]：

无恒变形虫 Polychaos dubium 拥有已知生物中最大的基因组，约 6700 亿个碱基对。不过，这是 1960 年代的分子生物学技术测出的，可能有很大的误差[4]：当年测定大变形虫拥有约 3000 亿个碱基对，现代技术重新测定则为约 400 亿个。但你瞧瞧咱们那 30 亿个的数据好了。
色藻界纤毛虫门旋毛纲的单细胞生物 Sterkiella histriomuscorum 拥有已知生物中最多的染色体，其二倍体大核装有约 16000 条染色体。

单细胞真核生物用一个细胞实现极度复杂的功能和丰富多样的行为，其身体构造的复杂程度和基因组的规模都和你我身上的细胞不是一个概念。谈人家是低等生物，很大程度是因为十九世纪的科研工具的性能太差，看不清楚人家在干什么。

图文播报

[分享] 生物的基因有没有可能是“祖传屎山”？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心