BOB半岛入口
在中国,南方人与北方人在饮食、生活小习惯等方面都有很大的不同。例如,一个典型的差别是:北方人爱吃肉,而南方人偏爱蔬菜。究竟是什么机制导致了这样的差异?一项涵盖了14万中国人的基因组学大数据研究之后发现,这种不同饮食上的习惯背后有其特殊的基因规律:在一个影响动物脂肪代谢的基因上,促脂肪代谢的等位基因在蔬菜缺乏的北方省份明显富集。除此之外,这项研究还揭示了更多中国人群的基因特征。
这项研究成果近期发表在《细胞》(Cell)杂志上。除了上述饮食上的习惯的差异,研究还得出了大量有趣的结论。这支由中国科学家领导的合作团队,在对超过14万中国人的无创产前基因检验测试的数据进行深入研究后,首次揭秘了中国人群独特的基因遗传特征、南北方人群的遗传差异,甚至还发现了与生育双胞胎显著相关的基因位点。
自人类基因组计划完成以来,慢慢的变多的基因组计划被提上日程,比如英国针对癌症和罕见病患者的10万人基因组计划、英国50万人生物样本库,这对于了解特定人群的基因遗传特点、实现疾病的精准诊治都大有帮助。然而,在这项最新研究之前,公开数据库中仅包含来自千人基因组计划的301位中国人的基因组数据,这远远不能代表14亿中国人群的遗传背景。
“最近,英国的国家基因组计划又一次升级,宣布未来5年要做500万人的基因组,”华大生命科学研究院母婴研究所副所长、论文共同通讯作者金鑫说,“其其它国家的进展很快,但中国还停留在300个人,我们大家都希望快速追赶,在已有数据的基础上实现突破。”
此次研究的基因数据来自141431名孕妇,涵盖了31个省份、37个民族。
在数据分析中,研究人员发现6个在纬度上受到强烈自然选择的基因,也就是说这6个基因在南北方人群中存在遗传差异。其中三个与人体的免疫反应有关,一个与动物脂肪代谢有关。
“在人类演化中,免疫方面的基因很容易受自然选择影响。”金鑫说,如果免疫相关的功能不能提升或者不适应当地的环境,人就没有很好的方法生存下去。从历史上看,南方与北方的自然环境差别很大,所以在免疫层面上就会存在一定的差异,并且反应在与免疫有关的基因上。此前有新闻媒体报道称,这说明南方人的免疫力更强,金鑫对此解释说:“其实也不一定,应该说南方人对于南方环境的适应更佳,并在基因上留下了印记。”金鑫说:“船到郴州止,马到郴州死,人到郴州打摆子的古话,说的就是古时候北方人很难适应南方的环境。”
针对某些特殊的疾病,南方人确实比北方人具有更强的免疫力,但是这却可能增加患其它疾病的概率,以达到一种平衡。“疟疾曾经在中国南方肆虐,南方人群为了适应环境在基因层面发生了一些变化,使得南方人群更能够抵抗疟疾,”金鑫举例说,“但是反过来它也带来了一个副作用,突变的基因会导致地中海贫血或其他血红蛋白病,比如导致蚕豆病的突变基因G6PD在南方人群中频率明显高于北方。所以我们大家可以看到在中国南方人群中,血红蛋白病发生的比较多。”也就是说,中国南方人群在提高抵抗疟疾能力的同时也付出了代价。
在动物脂肪代谢方面,研究者发现C型促脂肪代谢等位基因在北方明显富集,尤其在蔬菜供应比较缺乏的省份。这一等位基因可以更好地促进动物脂肪的代谢,此前这一等位基因已经被确认在南亚、欧洲、非洲人群中比较多,“这个基因在其它人群中已经有过报道,”金鑫说,“但这次是第一次在中国人群中发现南北差异。”这与南北方的饮食习惯和当地能够获取的食物有关系。北方人爱吃肉,也有能力消化肉食不是没有原因的。
从基因分析中,还能够正常的看到人口的迁移规律在基因上留下的痕迹。比如,研究人员发现与北京的汉族人亲缘关系最近的不是北京人,而是更接近沿海省份的人口:山东、浙江、江苏、福建以及江西,这可能反映了人口向北京迁移的过程。
所有南方省份与南部沿海省份的亲缘关系更接近,而北部省份则与北部沿海省份关系紧密。研究者认为这一观察结果可能反映了自1949年以来政府组织的内部移民事件以及自1979年以来中国从内陆到沿海地区的劳动力转移。
“所以我们今天看到的基因分析结果都跟中国人祖先的迁徙和演化有关系,从数据中看到的其实是历史上我们先辈迁徙和与自然抗争的基因记录。”金鑫说。
由于此次研究的样本全部来源于孕妇,因此不但可以研究中国一般人群的基因情况,也是研究与孕产相关基因的好机会。
研究人员对两个与孕产有关的表型进行了研究,分别为怀孕年龄和多胎怀孕。他们发现了两个与怀孕年龄显著相关的基因位点,这两个位点的突变与生育力等因素密切相关。
另外,研究人员还发现了一个与怀双胞胎显著相关的基因突变位点,这一突变在怀有双胞胎的母亲中很常见。也就是说携带NRG1基因的突变,有高更的几率怀上双胞胎。“此前人们在小鼠模型中研究过这个基因,发现其突变与小鼠产仔数量有关系。”金鑫说。敲除这一基因会导致小鼠的产仔数减少。当然,携带这一基因会增加怀双胞胎的几率,但并不代表一定会生下双胞胎。
全世界已经有超过1000万人进行过无创产前基因检测,其中中国就有700~800万。无创产前基因检测采集孕妇的静脉血,对母体外周血浆中的游离基因片段进行测序,对胎儿染色体非正倍体进行筛查。人们比较熟知的是,这种办法能够比较准确地检测唐氏综合征。
通过这一检测积累的大量中国人基因数据,是一个巨大的基因宝库。“我们大家都认为,未来科研领域的大数据,一定不只是来源于假说驱动的有限的科研项目。大量的数据一定是来源于数据驱动的真实的应用场景,”金鑫说,“在临床的场景或者健康的场景下,产生的数据,如何在保障个人隐私和数据安全的基础上,合理合规有效率地用于科学研究,这对全人类来说都是很重要的事情。”
所以,当研究人员看到全球人群基因组快速的提升,尤其英国已完成了10万、50万,正在迈向500万人,而中国还停留在300人时,他们想到的追赶方式,是利用已经在临床场景中产生的大量数据。此次使用的样本量是14万人,几乎相当于中国人口的万分之一,是一个颇具代表性的大样本量。
然而,由于这一些数据原本只是满足临床所需,单个样本检测的基因组数据量比较少。据金鑫介绍,产前基因检测获得的个体基因组数据,还不到整个基因组的10%。“一般进行全基因组检测,会产生100G以上的数据量,但我们的数据只有几百兆。”这在某种程度上预示着,对于个人而言,全基因组测序数据量是无创产前基因检验测试的数据量的上千倍。“所以,这个历时两年的研究项目,大部分的攻关都花在如何在少量的数据下,也能体现整个人群的特征,”金鑫说,“我觉得这可能也是大数据的魅力,就是当所有样本放在一起分析的时候,缺失的部分可以互相弥补。”
未来,金鑫与他的团队还有更大的计划,他们预计在未来3年内,将中国人群样本量扩大到100万人。这又将是一个艰辛的过程,他们还将面对大量需要细致耐心的数据整理工作,以及呈指数级增长的计算量。