编者按:本文作者许喆博士,青学联成员,“亿科创新智库”研究员,博士毕业于中国科学院北京基因组研究所。现就职于首都医科大学附属北京天坛医院神经系统单基因病实验室,一直从事适应性进化和群体遗传方面的研究。
进化,是生物学的核心问题。对进化没有任何概念和认知的生物学家,是一个不合格的生物学家。而著名进化遗传学家Dobzhansky(图1)更是直言不讳地指出:“Nothing in Biology Makes Sense Except in the Light of Evolution”。
为什么进化的问题如此令人着迷,很大程度上是因为进化回答的是关于人的本源问题:我们是谁,我们从哪里来,我们要到哪里去。而进化论,以及从事进化研究的科学家,正是有意无意地从生物学的各个角度,去研究和回答人的本源问题。
图1:进化遗传学家Theodosius Dobzhansky(图片来自维基百科)。
今天首先介绍一些人类基因组学研究历程以及相关背景知识,然后以高原世居人群的低氧适应遗传机制的相关研究为例,介绍适应性进化研究的一些方法和结论。最后和大家分享一些进化理论的一些原则性观点,在讨论和互动中互相激发思维。
人类基因组学研究历程
自James Watson和Francis Crick破解了DNA双螺旋结构起,对遗传密码的破译和生命活动机理的深入研究从未中断过。随着Sanger测序的普及和人类对自身基因组信息破解需求的增强,人类越来越迫切需要完整的人类基因组DNA图谱。
(1)人类基因组计划
1990年起,由NIH和美国能源部主导的人类基因组计划正式启动,美、英、法、德、日、中六国科学家先后参与进来。而后,狂人Craig Venter成立的Celera公司,独立参与到人类基因组解析的工作中来。2001年,人类基因组计划草图发表。2003年,克林顿总统携的NIH负责人Francis Collins和Celera创始人Craig Venter共同宣布,人类基因组计划完成(图2)。
图2:克林顿总统(中)主持,Francis Collins(右)、Craig Venter(左)共同参加人类基因组计划完成新闻发布会(摄于2003年,图片来自网络)。
从技术上来说,人类基因组计划主要是通过Sanger测序,即使用ABI 3730测序仪,通过毛细管电泳,使用链末端终止发对PCR扩增和克隆的DNA片段进行测序。这种技术一个测序反应的读长最多800bp,每个毛细管泳道只能读一个DNA片段。这么低的通量,想测完3个G的人类基因组,只能“手工实现高通量”——不惜代价增加人力,完成人类基因组DNA的测序工作。
中国在1999年正式参加人类基因组计划,当时分配给中国的人基因组3号染色体短臂上30M的区域,占全基因组容量的1%。据当时参与1%项目的老师介绍,他们只用了半年时间,就把这30M的区域测完了,测序准确率高于参加的其他国同行,赢得其他合作方的一致好评。
人类基因组计划开展之初,本来是想通过测通全基因组达到了解人类疾病发病机制的目的。但是显然这个目的没有达到,科学家们低估了人类基因组的复杂程度。随着基因组序列问题的解决,产生了更多的新问题:为什么人的基因组上会有遗传多态,而且数量巨大?为什么人的基因组上99%的区域都不编码蛋白质?这些非编码的DNA到底都有什么用,它们是进化的垃圾吗?
(2)HapMap计划
对这些问题的回答,催生了一系列新的关于人类基因组的研究计划。为了研究人类基因组上的多态,首先开展的是HapMap计划。它的目的是在全基因组水平上定位人基因组上的常见的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点,对人类基因组上到底有多少常见遗传多态进行一个初步的评估。
SNP,即单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种(图3)。由于它数量非常多,遍布全基因组,且密度高(平均1kbDNA序列就有一个SNP),所以它是人类基因组上重要的遗传多态,在基因组学研究中经常被当做分子标记。
图3:SNP示意图。图示群体内四条染色体,后续字符串为染色体上的DNA序列,黑色核苷酸为群体中所有个体都一致的DNA序列,彩色核苷酸为SNP位点。图片来源:The International HapMap Consortium. The International HapMap Project. Nature 426, 789-796. 2003.
那么知道了人基因组上的SNP,又怎么使用它呢,或者说这种分子标记是怎样服务于群体遗传学和疾病基因组学研究呢?有一种方法叫全基因组关联分析(Genome-Wide Association Study,GWAS),通过比较遍布健康人和病人基因组的SNP,衡量不同样本群体之间SNP基因频率的差异,确定疾病的易感位点或者基因组区段。而GWAS应用于疾病基因组学研究以来,取得了丰硕的成果(图4)。
图4:GWAS确定的人类基因组上与疾病发生显著相关的位点。纵向黑白灰色块代表人基因组的每条染色体,彩色球代表与疾病发生显著相关的位点,右下角的figure legend显示的是相应的疾病分类。图片来源于EBI。
虽然GWAS成功定位了这么多和人类疾病发生显著相关的遗传多态,但是HapMap计划主要定位的是人群里常见遗传多态,即频率超过5%的多态。但是在GWAS的研究结果中,更多地是发现,与疾病显著相关的遗传多态,并不能完全解释疾病发生的遗传因素。这些没被发现的遗传因素,称为“丢失的遗传力”。
因为遗传力有丢失,所以就有人怀疑,那丢失的遗传力,是不是由于低频突变造成的,就是HapMap计划忽视的那些频率低于5%的突变?因此,在HapMap计划之后科学家又继续开展了千人基因组计划,旨在通过高通量测序的手段,发现人基因组上的低频突变。
(3)千人基因组计划
从数据量上看,HapMap计划定位的人基因组上常见多态为3.8M,大概是基因组的千分之一。而千人基因组发现的所有遗传多态,有77M之多,而且绝大多数遗传多态,在人群中所占的比例是相当低的。许多多态频率不仅低于5%,甚至会低于1%。有很多多态位点,在千人基因组的数据中,只有一个人携带。这种情况一般称之为singleton。由此可见,人类的群体遗传多态是相当丰富的。
前边简要介绍了人类基因组计划、HapMap计划、千人基因组计划,让大家对人基因组内的遗传多态有所认识。
遗传多态在群体遗传和进化方面的应用
下面结合人类高原适应机制的研究,给大家介绍一下遗传多态在群体遗传和进化方面的应用。
世界上有三大高海拔世居人群,分别是东非高原的埃塞俄比亚人、青藏高原上的藏族人,以及安第斯山脉的艾马拉人、盖丘亚人等。高海拔地区最典型的环境是缺氧,强光照,高寒。
人登上高原或者高海拔地区之后,最常见的应对低氧的反应就是血红蛋白浓度猛增。不管是欧洲人还是我们亚洲人,在这个反应上是一致的。
在平原地区,正常人的氧饱和度是97%,血红蛋白男的是120-160,女的是110-150.在高海拔地区,埃塞俄比亚人的平均血红蛋白水平,和平原人群在平原一样,氧饱和度也相差无几。藏族人的平均血氧饱和度低到89%了,血红蛋白也不升高。而南美的高海拔人群,他们的典型特征就是血红蛋白猛增,和平原人群上高原的反应一样。由此可见,不同高原世居人群,其低氧适应的表型,各有不同(图5)。
图5:不同高原世居人群的平均血氧饱和度和血红蛋白水平。图片节选自Integrative and comparative biology, 2006, 46(1): 18-24.
生物适应周围环境,这个适应过程伴随的自然选择过程叫做正选择。它是针对有利的遗传多态进行的选择,它使得携带有利多态的个体能够在选择压之下存活,它们的后代如果也携带这种有利多态,也能够存活。而没有携带这个有利突变的个体及其后代,在正选择的过程中被淘汰掉。因此,携带有利变异的个体数量在群体中逐渐增多,而有利变异在群体中的频率也缓慢升高。
检测该有利变异的基因频率,可以发现正选择过程。此外,如果这个正选择过程是近期内发生的,那么重组暂时还无法打断有利变异周围的区段,所以,通过比较不同基因组区段的重组率,就可以发现有利变异。通过基因频率和重组率的研究,可以确定正选择信号,进行推断生物的适应性进化过程和机制。
在高原世居人群的遗传机制研究中,主要采取的就是这样两种策略。具体来说,是比较高海拔人群和他们低海拔近缘人群之间,SNP等位基因频率差异,以及SNP所在区域重组率的情况,判定他们的基因组上哪些基因受到自然选择,这些基因和他们的高原适应又是什么关系。
研究采用的人群包括藏族人群,他们的对照是汉人。还研究了安第斯人的高原适应机制,采用的高海拔人群是艾马拉人、盖丘亚人,低海拔对照是玛雅人、阿兹台克人。
通过比较藏族人群和汉族人群的基因组,发现藏族人群的EPAS1基因和EGLN1基因受到强烈的正选择。同时,通过数量性状关联分析发现,EPAS1基因和藏族人的血红蛋白浓度相关,藏族人的major allele和血红蛋白浓度降低有关。也就是说,血红蛋白浓度低的藏族人,在他们的高原适应中更有选择优势。EPAS1和EGLN1都是低氧诱导因子(Hypoxia Inducible Factor,HIF)通路的重要转录因子,藏族人高原适应机制的研究结果表明他们的高原适应和低氧诱导因子通路有关。
而对于安第斯高海拔人群的自然选择信号扫描发现,他们的HIF通路也受到了自然选择,但受到选择的基因和藏族人不一样。
从这些结果可以推出以下几个推论:首先,人类进行低氧适应的时候,可能都要通过HIF通路才行。但是具体到每个民族,该民族使用这个通路的哪个基因去进行适应性进化,不同民族可能有不一样的策略和方式。其次,如果说生物适应是一个性状的话,那么这个性状一定是个多基因性状。因为在研究中发现,在藏族人和安第斯人群中,受到自然选择,且在功能上和低氧适应有关的基因都不只一个。
生物进化的三条规律
最后总结三条干货分享给大家:
第一条规律:人群中存在的绝大部分遗传多态,可能都是无所谓好,无所谓坏的。这样的多态在进化过程中并不是一无是处的,因为一旦当环境变化,这些多态有可能会突显出它的选择优势或者劣势。所以遗传多态不是我们基因组中的负担,而是让我们应对不同环境变化的多态库,即便在目前的环境下,它们并不能让携带者具有更大的选择优势。
第二条规律:虽然遗传多态的根本来源还是突变,但是自然选择往往倾向作用于已有的突变,而不是新发生的突变。因为突变发生是随机的,而生物适应需要的突变或者突变组合,却是有特定要求的。随机的突变恰好落在能决定适应性进化的位点上,这样的概率太低,需要等待突变积累的时间太长,不足以让种群在短期内适应环境的剧烈变化。所以,针对已有遗传多态进行正选择成本最低,效率也更高。一个种群把希望寄托在一个现在还没发生的新突变上,可能新突变还没产生,种群就已经灭绝了。
第三条规律:生物进化也遵循奥卡姆剃刀原则——“如无必要,勿增实体”:生物体其实是很懒的,他们不会主动去调整自己,主动应对各种现在还没发生的选择压。他们只会被动地适应环境。适应环境是生物的本能,对于生物而言,适应就像吃饭、睡觉一样正常。只是在个体层面,可能看不太明确,要上升到群体层面才能看见。
综合以上三条原则,生物进化的实质是这样一个过程:在环境相对稳定的时候,种群内部由突变积累大量的遗传多态,这些遗传多态大部分是中性突变,在环境没有剧烈变化的时候看不出来他们的作用。
而一旦环境发生变化,平时积累的中性突变中,那些有利的突变就会使得携带它们的个体经过选择压而得以存活。经过选择压的种群,又会在相对稳定的环境下积累遗传多态。这样周而复始,种群能够不断地扛过一次次自然选择,适应环境。虽然种群中的个体会由于不适应环境或者年龄老去而消亡,但是在进化过程中种群不灭,种群的基因得以一代代传递下去。
另外需要指出的是,自然选择,或者生物进化,是没有方向的,但是是有规律和原则可循的。生物被动地适应环境,而未来的环境如何变化,当下是无法预知的。所以,对于生物体来说,未来是不可知的,但是只要这个生物体还活着,明天就有无限种可能——一旦它携带的遗传多态恰好是有利突变,那么它不仅能顺利通过自然选择,还能比群体内其他个体繁衍出更多后代。
就像创业公司,一旦扛过了资本寒冬,就有可能迅速扩张。这遵循的就是适应性进化的规律。Future is unknown. Survive, then, boom!
(本文为许喆老师在青学联-生物与环境分会社群的在线讲座,内容有微调)
如若转载,请注明e科网。
如果你有好文章想发表or科研成果想展示推广,可以联系我们或免费注册拥有自己的主页
- 生物学
- 基因