大数据首次揭示中国人基因特征，具有怎样的意义？

莺歌燕舞 · 发表于 2024-12-13 22:52

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

相关工作由华大基因团队发表在《Cell》：Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History

原文：中国人南北方 6 大遗传差异首次被揭示：南方人免疫力更强

10 月 10 日，华大在深圳国家基因库正式对外发布一项迄今为止最大规模的中国人基因组学大数据研究成果。这是由中国科学家主导，历时两年，对 14 余万中国人的无创产前基因检测数据进行深入研究后，首次揭秘中国人群基因遗传特征的科研成果，也是由华大主导的「百万人群基因大数据研究」项目的首秀。

原文：最大规模中国人基因组测序和分析完成有助于揭示基因与生育联系

这项研究的测序对象约占中国总人口的万分之一，除汉族外还覆盖了36个少数民族。研究确认了与身高和身体质量指数(BMI)等表型有关的新的遗传位点，还发现了中国人基因组中独特的病毒DNA分布。测序结果还显示，中国人拥有一些印度人、东南亚人和沿古丝绸之路上的欧洲人中常见的遗传变异。

原文地址：https://www.zhihu.com/question/297374505

同花顺 · 发表于 2024-12-13 22:53

不清自来，强答一波。
原文：中国人南北方 6 大遗传差异首次被揭示：南方人免疫力更强
仅就这个题目而言，一看这就是一个科学噱头，扯淡的。南方人免疫力更强，这是有可能的，理论上也是成立的，那位“查无此人”答友说得就很好。
但是这个结论，你需要拿出临床上的证据才能算真正成立。没有临床依据，仅凭理论计算，完全不靠谱。
举个栗子吧，一场禽流感下来，河北人跟湖南人相比，哪个省死亡率更低、用药量更少、康复期更短、费用更低，等等等，你要把所有指标拿出来，做一个综合分析，才能知道湖南人是不是真的比河北人免疫力更强。这还仅是就禽流感而言。
再比如，现在的孩子打疫苗，南方的孩子跟北方的孩子有区别吗？如果南方的孩子用药量能有效减少，那就算是有临床证据了。
你现在一条证据都没有，掐指一算，然后说“南方人免疫力更强”，这纯属胡说八道。

同花顺 · 发表于 2024-12-13 22:54

说明演化论正确。
南方温暖湿润，物种多样性高，所以各种病原体也多生命力也强。
在这样环境下，如果免疫力不增强，南方怎么可能聚居那么多人。

清风寡欲 · 发表于 2024-12-13 22:54

本文首发于微信公众号 BioArtReports
BioArt，一心关注生命科学，只分享更多有种、有趣、有料的信息。
关注请微信搜索公众号bioartreports。投稿、合作、转载授权事宜请联系微信ID：fullbellies
或邮箱：sinobioart@bioart.com.cn

撰文丨奚望
责编丨迦溆

中国是一个拥有14亿人口的多民族国家，针对全体中国人的群体遗传学研究具有重大的科学价值。然而由于基因测序成本和样本数量的限制，中国人口的群体遗传特征并未得到过充分的研究。

10月4日，深圳华大基因（BGI）的研究人员（徐迅、汪健等）与丹麦哥本哈根大学以及加州大学伯克利分校的研究人员合作在Cell期刊上发表了名为“Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History”的文章，借助非侵入性产前检测（NIPT）技术对超过14万来自中国各地的女性进行了基因组测序和分析。他们利用这份大规模数据揭示了中国人遗传历史与地理因素的关联，并发现了多个在中国人血液中富集的病毒类型。

非侵入性产前检测（NIPT）的目的，是通过提取怀孕母亲血液中的游离DNA对胎儿进行21三体综合征的筛查。世界范围内已有上千万女性接受过这项检测，其中6-7百万来自中国。虽然样本量巨大，但NIPT的测序深度通常只有0.06X-0.1X，与一般的全基因组测序（15X-30X）相差巨大。不过在相关研究的佐证下【1】，研究人员通过统计手段对基因型数据进行估计与填补，分析了来自中国31个省市自治区，36个民族女性的测序数据（由于华大基因拥有海量的NIPT的数据，所以大样本就不是问题了）。他们从中发现了约9百万可靠的单核苷酸突变位点，其中有超过20万不存在于已有的数据库中。

研究人员对所有样本的基因型进行了主成分分析（PCA），他们发现在汉族人口中，人们居住地纬度的不同伴随着显著的基因差异，而东西部人口间的差异则并不明显。这可能是因为我国存在大量人口向西部迁移造成的。相比汉族内部，各少数民族与汉族间的基因型差异更为明显，其中差别最大的包括来自新疆的维吾尔族、哈萨克族和来自内蒙古的蒙古族。来自中部的回族，西南的彝族和南方的壮族、布依族携带的基因变异也与汉族非常不同。而由于历史原因，满族人的遗传信息则和东北方汉族人接近。

作者接着比较了汉族和世界其它主要民族的基因相似度。他们发现西北和中西部中国人同欧洲人（CEU）较为相似，其中相似度最高的来自新疆、甘肃、青海和宁夏等地。作者认为这与河西走廊在汉代丝绸之路中扮演的重要地位有关。而新疆、西藏、海南、云南和广西等地的人口基因型同印度人存在相似性。作者还使用统计方法对汉族内部的基因型选择进行了推断。他们发现LILRA3、CR1、 FADS2、 DOCK9、 ABCC11和IGH基因簇伴随居住地纬度的不同存在明显的差异。这些基因同免疫反应，躁郁症和饮食相关。一些ClinVar数据库收录的疾病关联等位基因也呈不同的地域分布。

而后，作者使用全基因组关联（GWAS）分析对基因型和表型间的相关关系进行研究。他们首先选取身高和BMI指数作为目标表型，并分别发现了48个和13个基因组位点与之显著相关，其中有41个和10个都曾被报道过，证明了用低测序深度的大样本数据做关联分析也能得到可靠的结果。随后作者选用了生育年龄和双胞胎怀孕这两个表行来研究受孕与基因型的关联。他们发现了一个在EMB基因附近的位点与生育年龄呈强相关性，而NRG1基因上的一个SNP与双胞胎怀孕的相关性最强。EMB基因在胚胎发育中扮演着重要作用，NRG1基因则主要在甲状腺表达。这两个基因都曾被研究证明与受孕相关。

最后，作者对这些NIPT血液样本中的病毒组成进行了调查。血液病毒研究是病毒流行病学的重要部分。有趣的是，这些中国样本血液中的病毒种类和丰度同欧洲人很不一样。乙肝病毒（HBV）和B19微小病毒在这些样本中丰度很高，人类疱疹病毒7型则含量很少。作者发现基因组上MLC1- MOV10L1区域里的一个SNP同人类疱疹病毒-6A/B的存在具有很强的关联。MOV10L1基因是一个结合PIWI RNA的解旋酶，作者认为对这个基因活性的抑制可能会给人类疱疹病毒-6A/B的侵入提供更佳的环境。同时，血液病毒的分布也呈现出不小的地域差异，如HBV病毒在南方的分布相比北方更为广泛。

参考文献
1. Pasaniuc B, Rohland N, McLaren P J, et al. Extremely low-coverage sequencing and imputation increases power for genome-wide association studies[J].Nature genetics, 2012, 44(6): 631.

队长是我 · 发表于 2024-12-13 22:55

谢邀。
作为这个项目的核心成员之一，看到知乎朋友们谈及了这个项目的意义，我来回答一下。
对于意义，总的来说有如下几个：
1. 中国第一次真正意义上拥有了一个属于自己的大规模组学背景数据库

先说一下背景哈，我们来看一下下面这个图

全球主要的大规模基因组学计划

发现了吧？如我图中红字“缺少中国身影”！要知道差不多二十年前，中国曾是“人类基因组计划”的6个参与国家之一，自那之后，测序技术发展快速，成本也不断下降。
其带来的一个结果就是，世界上一些有远见的发达国家和地区——主要是美国和英国——曾经人类基因组计划的两个重要参与国，就不断由政府、研究机构或者企业推出一系列基因组学“大手笔”项目（上图），这里面比较有名的有：美国All of US（计划测100万美国人群）、英国UK biobank（50基因芯片数据，这一部分的数据已经可以授权给全球的研究者）、英国10万人基因组计划（GenomicsEngland）等，其中GenomicsEngland截至9月份已经测完了8.7万人！今年国庆期间听说他们又把第二期启动了！是惊人的500万人，并且要在5年内完成！就连最近的韩国、新加坡、澳大利亚也已经在积极发起属于他们自己的基因组学计划。可以说，全球大规模的组学计划，正在随着测序成本的下降，逐渐成为一种新的常态。
而走的最快的英国和美国，他们的一些项目的成果我们已经看到了，其带来的好处不仅是推动了本国的基因组学研究和精准医学的发展，我觉得更重要的还在于它们逐渐树立起了强大的国际影响力和领域话语权。
中国是世界上第一大人口国和第二大经济体，也是曾经人类基因组计划的参与者之一，拥有着至少56个不同的民族，遗传资源丰富，想必也很独特，但一直以来，由我们主导的中国人基因组学研究成果却比较有限。
好在这两年来，这个情况正在发生改变，咱们国家也开始推动大人群项目了，包括：哈工大“中国十万人基因组计划”，当时我还对这个计划做了一点评价，感兴趣的小伙伴可以移步到《我如何看，今日央视宣布我国启动“中国10万人基因组计划”》、金力教授发起的泰州人群队列项目（这也是一个10万级别的人群队列项目）等。另外，也有远在牛津大学的陈铮鸣教授发起的CKB项目——含有约10万人的基因芯片数据，还有就是企业机构发起的大人群项目，这其中就包括我们华大。
但由于很多项目才刚开始不久，因此，直到今日被广泛使用并作为中国人代表的基因组数据集依然仅有“国际千人基因组计划”中的三百余个样本。
不得不说，在国家级人群基因组学研究以及该领域的影响力方面，我们略有落后。精准医学计划也搞了好几年了，但起色甚微，其中很重要的一个方面是缺少大规模的地区性人群遗传基线数据研究——这是精准医学和基因诊断的基础。当然，这方面的原因有很多，包括：大型项目的设计、大规模样本采集相当困难、测序成本也还不是真正的“白菜价”，一个上万人规模的基因组学项目依然需要不小的经费支持。再次拿英国的GenomicsEngland来举例子，他们在几年前定下要测10万人——截至2018年9月已经测了8.7万人（10月份就全部完成了），前期的项目投资就高达7,800万英镑，折合人民币是7个亿！而它国庆期间宣布的二期项目更是一个500万人的组学计划，这里的资金投入将是多高，可见其决心！！
面对国际这样的形式，按照正常的路径我们其实是很难在短时间内赶上的，如果要实现一定程度的弯道超车就需要另辟蹊径。
我们国家很幸运，你如果回过头来看，会惊讶地发现中国在基因技术的应用方面走得很快。特别是近年来，无创产前基因检测（NIPT）技术的发展和推广，其实已经让中国成为了地球上拥有最多可分析基因数据资源的国家之一。那些数据已经产生了，它并不需要你重新去测序！如果能够以这样的数据为突破口，完成大规模的组学研究，那么不但有赶上的机会，还有机会开拓一个新的组学大数据研究思路——因为这个数据和通常高深度测序数据极为不同——数据条件也很恶劣，唯一的好处是数据已经存在了。
截至2018年，全球的NIPT测序数据估计已经超过了1200万例，其中大约70%的检测数据发生于我国。由于没有找到官方的报道，所以这个数字是我根据去年的情况推算的。
我们这篇文章中所完成的14万人组学项目正是源自于这样的一个数据，而且很巧的是这个数量大约为全国人口的万分之一，样本数据也广泛分布于全国各地（覆盖中国31个省级行政单位和36个少数民族）——如下图，再加上NIPT检测的样本来源的随机性是有保证的，所以不难看出这将会是一组很有代表性的中国人群体数据。

整个项目是在《人类遗传资源管理暂行办法》和生命伦理原则的规范下，以及充分重视知情同意和隐私保护的前提下所进行的。

14万人的分布

我们整个项目做了一系列的研究工作，包括：群体遗传学、医学基因组学相关的全基因组关联分析和病毒谱等方面的分析。并且建立了第一个大规模的中国人基因频率数据库，它将是一个良好的背景代表，我们把它命名为CMDB：
Chinese Millionome Database这是目前登顶国际学术期刊的最大规模中国人基因频率数据库。在以后的很多研究和应用的过程中，我们可以不再只是依赖于白种人的数据库，而是可以用属于中国人自己的，这样会更加具有针对性。
下面这篇文章是不久前我编写的一个可以在命令行进行cmdb数据查询和注释的工具，应用这个数据库时可以参考:
黄树嘉：如何有效使用CMDB基因频率数据库2. 开辟了一个新的组学大数据研究思路

按照以前的方式——包括国外或者少有的国内大型组学项目，研究思路大多会偏向于人群队列形式的研究，而且是高深度的全基因组测序。这样的项目往往都需要经历较长的时间周期和巨额的经费支撑。但我们则是尝试去使用已有的大规模超低深度测序数据，虽然前期没有严格的队列设计，但好处是样本数据足够多，而且来源随机，特别是随机性这个特点真是一个好事！因为这样我们就有机会去构建一个能够代表普通中国人的基线数据了，而且项目刚开始时，经过一些必要的数学推算之后，我们就发现只要能够把这些数据整合起来，并在数据质控方面多加点功夫，依然有机会解决很多问题！
这里我也多补充一点，其实业内并非只有华大拥有这个量级的数据，但是有能力把这个数据的价值发挥出来，做出成果，我想有两点很重要：
第一是数学模型的严谨性和合理性，这个非常重要，因为目前常用的算法不能适用于这个数据，如果没意识到这一点，最终可能不会有收获；
第二是质控的精细程度，特别是这类先天条件不是很好的数据，如果不做好质控，也同样可能一无所获。
最后，很幸运，我们成为了领域内第一个开辟超低深度（<1x）测序数据+大人群进行组学大数据研究的团队。这是一个性价比很高的策略，而且这样类型的数据在以后的临床基因检测中会很常见。
不过需要指出的是，我完全没有排斥大人群队列项目的意思，这是两个不同的研究思路，所要回答的问题也是有差别的。虽然我们开辟了这一个新的思路，但是很多与复杂疾病有关（包括肿瘤和罕见病）的研究只有针对性的人群队列并进行严格的随访之后才能更好地完成。
这个策略虽然是一个好策略，但后面的研究者如果要采取与我们类似的思路，应该考虑切入与我们不同的点，以免影响最后的创新性和先发优势。当然如果是集中在医学基因组方面，由于研究的性状有所不同，那么应该不必担心这个。
可能有同学会问，既然我们这里已经证明了0.06x-0.1x的测序数据同样很好用，那是否意味着以后的大人群队列也只需测到这个深度就行呢？绝对不是，这一点我要再强调一下！如果你能够测得更深一些，那么一定要测深，结果一定会更好，这是我们在项目刚开始时最憧憬的情况。但应该要多深呢，很多时候要看研究目的，如果同样是构建普通的人群遗传队列，样本规模也足够大，比如十万级别，那么可以适当浅一些——我认为3x-4x是足够的，但如果是疾病队列，那么需要另外计算，而且建议尽量网高深度测。此外，假如能够采用双末端测序（Pair-End）也请一定使用。
3. 突破的超低深度全基因组数据分析的局限和挑战

如果大家看过文章应该知道，这个项目中每个样本的数据深度只有0.06x-0.1x，原本用于组学数据研究的很多方法和软件在这里就失效了，只能从头开发，于是最后我们构建出了一套新的方法论，专门用于解决大规模超低深度全基因组测序数据的一系列遗传学研究。这些方法和策略在类似的基因组学研究中都可以被用到。
4. 这个课题所获得的一系列成果包括群体变异数据、群体遗传学、GWAS和病毒谱，以及已被验证和尚未被验证的结果——很多都很有意思，填补了不少国内外的研究空白，相信对后续的研究也会有启示作用。

关于这一块的内容，其实我在10.10晚上专门写了一篇文章解详细读了我们的成果和有关于中国人的发现，如果大家对于这个文章的内容感兴趣那么可以到以下链接查看，会更加全面：
黄树嘉：第一作者解读 | 我们这篇14万中国人基因组学研究的Cell文章都讲了什么？5. 第一次拥有充分的本土数据自主权利

这应该是最具战略意义的一条。按照之前的惯例，几乎所有的基因组学文章在发表之前，都需要把研究中所用的基因数据上传至海外的NCBI、EBI或者DDBJ组学数据库。这个做法源自于人类基因组计划传承下来的“共有、共为、共享”原则，这个原则也确实大大促进了整个现代基因组学的发展。
只是由于拥有组学数据备份和共享功能的数据库只有上述那3大家！所以全球包括咱们中国在内的国家，在以前这些组学数据只能传输到那里进行备份，同时供全球的科学家验证和二次研究。但是，这一次这个数据量大且重要，我们不打算这么做了，当我们的文章被《Cell》接收之后，直接和Cell的编辑进行了沟通，向他们反馈说鉴于中国的《人类遗传资源管理暂行办法》，我们不能把数据传输至海外数据库了，同时我们已经有了深圳国家基因库，这些数据只能放在这里。当然这个沟通并不容易，因为这是打破以前数据需要传到海外3大数据库这个做法的，文章也可能因此而被拒接，不过最后《Cell》同意了。

文章关于数据保护的截图

我们开了这个先例，就意味着，国际顶级学术杂志也开始认可数据在深圳国家基因本地化备份的情况。其实只要有第一次，就可以有第二次，直到最后成为和NCBI、EBI以及DDBJ一样的常态——甚至最后代替DDBJ成为全球三大基因组学数据库之一，也不是不可能的。

关于这个数据保护的情况，再多补充一段：下面这个是2018年11月15号，另一个国际顶级学术期刊《Nature》上刊登的一个新闻评论：https://www.nature.com/articles/d41586-018-07222-2，它直接批评了我们这篇Cell文章不共享数据是一个“坏”头，直接说这是有违科学共享原则的“一个很坏的案例”——相信很多科研同行也会有同感，但依据国家人遗我们不得不如此。国内媒体和大众竟然还不断谣传我们在外传数据（连崔永元也在传），并说这是卖国行为，支援外国人开发基因武器，你也可以见到评论区同样有这样的质疑，真是无知的可笑，而且还是睁眼瞎，对此还抱有疑问的人可以回头去看看Nature的那篇文章。

6. 从传统单个或者少量样本的检测到基因大数据研究的跨越。

如果说的更加文绉绉的样子，那就是很好地起了一个头，验证了基于大人群的精准医学研究将成为新的科研模式，并且至少我们的第一步也证明了这个模式。
P.S

最后，吐个槽，对于很多媒体来说起“南方人免疫力更强”或者“双胞胎基因”这一类的标题确实更容易传播。但其实如果真的读过我们这一篇文章的原文，你会觉得并不能理解得这么简单。免疫功能本身是一个复杂的系统，在某些方面，可能由于自然环境的原因，南方人会更有优势一些，但直接定义为更强并不严谨也不合适，而应该指明在某些方面更有优势，比如对抗疟疾和一些病原微生物方面。
P.P.S

看到不少网友发现我们竟然可以在2年的时间里完成14万人量级的研究，很好奇是怎么做到的。其实没有诀窍，只是少走了弯路。在开始这个项目之前，我和 @刘斯洋已经做过了丹麦人国家基因组项目等很多基因组学研究，也都分别在博士期间发过CNS级别的文章（我发过《Nature biotechnology》，刘斯洋是《Nature》）。在丹麦人的项目中她还连续发了三篇（一篇在Nature、一篇在Nature communication和一篇方法学的发在GigaScience），我们两都有9年的完整组学科研经历， @刘斯洋是毕业于哥本哈根大学的生物信息博士，金鑫更是在本科和博士阶段就包揽了《Cell》《Nature》和《Science》，目前是华南理工大学最年轻的正教授，小组里的核心成员都是9-10年以上的科研经历，我们也算是国内最早接触NGS技术的那一拨研究者。请问这样的团队自己还不能自己做出事情，还质疑我们，搞笑吗？！！
所以，尽管之前我们接触的都是高深度组学数据，但对于如何解决这样数据的难题，依然有经验可寻——而且我们也擅长统计学算法。所以在一开始的时候对于如何解决这个数据的难题刘斯洋和我就已经想得比较清楚了，知道应该用什么数学模型来构建算法，才可能在最大程度上解决这个数据的分析，这在很大程度上缩短了一系列的摸索时间，我们自己内心也会有底。
另一个就是我们小组很努力。这一点我不是在此说说而已，从2016年3月开始到2017年末就没停过，而且华大各部门之间的配合非常给力，包括我们如何快速进行实验验证，执行速度也是杠杠的。我们也知道业内已经有类似的项目早于我们启动了，虽然还不知道其他人的进展如何，但这种未知也是一种压力和动力，因为这等于是在说留给我们的时间并不多——科学只认第一不认第二，一旦落后心血也就白费了。所以后续的分析也基本是在急行军，并没有什么休息天不休息天的，只想快点做出来，一旦想/找到一个能够解决问题的方法，立刻就上。最后到2017年12月的时候就基本完成了，后面就是成果的投稿。

再说一句，要能够拥有这样的效率，就要求你必须完全知道要做什么以及应该怎么做。所有的这些思路就在我们自己的脑子里，不然你很难有这个速度。网上还要质疑外国学者接触数据参与分析，这真是替我们操碎了心，有必要吗？！这个速度必然是脑子想到，手上就要做到的速度，实际进行过这类组学研究的研究者应该多少能够体会到，哪里还有时间和外国学者分析流转（我甚至敢说，任何一个团队如果是这样做的，就一定没有我们的速度）！所谓顾问就是顾问，能够在会议上对我们的成果与方法做出评论和建议，对我们来说就已经足够了。

晒一下课题组研究团队核心成员的合影：

左起：刘斯洋博士(第一作者)，徐讯博士(通讯作者)，陈芳(共同第一作者)，金鑫博士(共同通讯作者), 黄树嘉博士(共同第一作者)

还有一张课题组主要生信团队的合影：

左起：刘荣，林珑，刘斯洋博士 (第一作者)，李子龙，黄树嘉博士 (并列第一作者)

做完这个项目之后，其实我们自己也发掘到了更多有意思的问题，只是限于数据的种类，我们自己也暂时没办法很快对其进行验证，这是接下来要解决的地方。
以上。

长长的路 · 发表于 2024-12-13 22:55

修改了一下原答案，整理了一些关于cfDNA的内容：
可能大家更关注于这篇文章揭示的，与表型相关的基因位点和南北差异。我觉得还有一点很值得关注：这个项目的数据来源，和「百万人群基因大数据研究」的进展速度。
Cell free DNA （cfDNA）是人体细胞排放到血液里的DNA片段，长度在167bp上下，在血液中含量很低，主要来自于死亡的体细胞。癌症患者血液内有更高的cfDNA含量，来自于他们体内死亡的肿瘤细胞，这些来自肿瘤的cfDNA被称为ctDNA，具有很高的特异性，因此也被作为biomarker，在早期进行癌症的检测。
最近，华大在Cell杂志上发表了文章：Genomic Analyses from Non-invasive Prenatal Testing Reveal Genetic Associations, Patterns of Viral Infections, and Chinese Population History，总结了「百万人群基因大数据研究」第一阶段，来自14余万中国人样本的基因组测序结果，并产生了很多有意思的发现：哪些基因位点和怀双胞胎有关？南方人比北方人的免疫力更强？这些数据正来自于cfDNA的另一个检测领域：无创产前检测，也就是NIPT。

研究团队

在过去，对三体综合征的检测方法主要有两种，分别是测量胎儿颈部皮肤透明带厚度和羊水穿刺。颈部皮肤透明带厚度测定准确度很低，羊水穿刺培养细胞准确度很高，但是会导致一定的流产风险（很低但是存在）。过去的无创检测准确度很低，因为检测的样本来源于母体的外周静脉血，根据各项激素含量进行综合计算得到检测结果，但是假阴性非常的高。
华大的NIPT则针对母体外周血中的胎儿cfDNA（Cell free fetal DNA，cffDNA）进行检测，人体胚胎的cffDNA通过胎盘组织脱落的凋亡滋养细胞进入母体的血液循环，因此可以在孕妈的外周血中检测到含量很低的cffDNA。

Cell free fetal DNA (cffDNA) migrating into the maternal blood stream via the apoptotic trophoblast cells shedding off the placental tissue.(from wiki)

华大的NIPT主要针对于21、18、13三对染色体的非整倍性进行检查，取样过程中得到的样品也就是母体的外周血液样本，就是「百万人群基因大数据研究」主要的数据来源。
全球无创产前基因检测超过1200万例，中国完成约700万例，其中华大基因完成逾350万例。华大基因、贝瑞和康、博奥生物以及安诺优达是目前NIPT产业链比较完善的四家企业，但在精准医疗行业内，恐怕只有华大有这样的能力完成如此庞大的工作。
再与其他国家的基因组计划比较一下，和NIH “All of US”项目通过捐赠人赠予的样品收集方式相比较，华大通过无创产检收集样本的速度明显更有优势。再换另一个例子：冰岛2015年发布冰岛人全基因组序列，17年间测序了2636人，华大的百万项目于2016年启动，2年不到的时间内有这样的发现，可以说是非常惊人的。
最后夸一下华大对数据提供者的隐私保护：

隐私保护办法

参考:
https://www.cell.com/action/showPdf?pii=S0092-8674%2818%2931032-8#%FE%FF%00b%00i%00b%006%008 https://en.wikipedia.org/wiki/File:Cell_free_fetal_DNA_shedding_into_maternal_bloodstream.pdf https://en.wikipedia.org/wiki/File:Cell_free_fetal_DNA_shedding_into_maternal_bloodstream.pdf

图文播报

[分享] 大数据首次揭示中国人基因特征，具有怎样的意义？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心