“女娲”基因组资源发布第三项成果:解析中国人群基因组微卫星变异图谱

发布时间:2023-04-23

  2023 年4月12日,中国科学院生物物理研究所徐涛院士团队和何顺民研究员团队在国际学术期刊《自然-通讯》(Nature Communications)发表论文(图1),介绍了该团队关于STR的最新工作。这项工作也是徐涛、何顺民牵头的 “女娲”(NyuWa)中国人群基因组计划的一部分。


图1. 文章发表于Nature Communications

  “女娲”(NyuWa)中国人群基因组计划旨在构建中国人群的全基因组数据资源,并全面解析中国人群基因组遗传变异。在此之前,该计划已经发布了两项工作:一是2021年发布中国人群SNP/Indel变异图谱、基因及非编码基因功能丧失型变异图谱,以及首个中国人群特异的大规模高深度单倍型参考面板 (Cell Reports, 2021, 徐涛/何顺民团队发布“女娲”基因组资源,提供中国人群遗传变异图谱和参考面板) ;二是2022年系统分析和挖掘了5675人的全基因组数据(含“女娲”中国人群数据2998例),发布全球人群移动元件变异图谱,构建了目前含中国人群数目最多的全球移动元件变异资源(Nucleic Acids Research, 2022, "女娲"基因组计划第2篇|徐涛/何顺民团队发布中国人群可移动元件插入变异图谱)。

  近期发布的第3项工作,聚焦的则是短串联重复序列(STR,又被称为“微卫星DNA”)。这是一类由1-6个碱基对的串联重复序列,尽管它们仅占人类基因组的3%,但与许多人类遗传疾病相关,如共济失调、肌萎缩性侧索硬化症、亨廷顿舞蹈症、额颞叶痴呆和各种神经系统疾病等。

  STR的一大特征在于特殊的重复结构,这让它们比基因组其他部分有更高的突变率。其中大多数突变表现为重复单元的扩增或收缩,导致了长度多态性。人们已经发现,大量多态性STR(pSTR)可以调节各种分子和细胞过程,如DNA甲基化、基因表达和选择性剪接,进而影响人类的复杂性状。

  然而长期以来,针对人群STR变异的大规模研究比较缺乏,再加上STR变异分析本身的难度很大,相关人类性状和疾病的研究一直面临较大阻碍。科学家迫切希望构建一个完整、准确的人类基因组pSTR变异图谱。

  最近发表的这项工作针对包含中国人群在内的世界人群构建了全基因组STR变异图谱,并对STR的基因组分布、突变特征、功能影响、基因调控效应、人群特征与人群差异等进行了系统分析,构建了一个全面的STR变异资源库。

  研究团队结合来自“女娲”基因组资源的3983个高深度全基因组测序数据和来自千人基因组计划的2504个高深度全基因组测序数据对STR变异进行了系统性地鉴定。经过严格的质量过滤,共鉴定到366,013个多态性STR位点(pSTR)上的超过155万个等位基因,其中约1/3(523,063个)等位基因为女娲数据集中特异发现的(图2)。


图2. 该研究鉴定的pSTR位点及pSTR allele数量

  基于上述pSTR数据资源,研究团队分析了STR位点的突变模式,发现STR突变受单元长度、染色体环境和表观遗传特征的影响。研究人员发现单元长度为6个碱基对的pSTR在亚端粒区域内富集,而其他pSTR或mSTR未发现在此区域内富集(图3)。


图3. pSTR的变异模式

  为分析pSTR潜在的基因调控效应,研究人员鉴定了3273个与基因表达相关的STR位点(eSTR)以及1117个与3'UTR选择性聚腺苷酸化相关的STR位点(3' aSTR)。研究人员发现,这些pSTR显著富集在具有活性组蛋白标记的基因组区域和染色质开放区(图4)。


图4. eSTR与3'aSTR在基因组区域中的富集

  基于不同人群中的pSTR变异集合,研究人员发现了大量在人群间存在显著长度差异的pSTR,这些位点可能影响了不同人群之间的表型差异。例如,E2泛素结合酶家族成员UBE2L3内含子中的一个pSTR位点主要在东亚人群中存在扩增,且与GWAS研究已经发现的与克罗恩病、系统性红斑狼疮等多个性状相关联的SNP存在强LD关联(图5)。


图5. 人群间差异的pSTR位点

  综上所述,该研究报道了一个构建于6487个基因组的366,013个多态性STR位点的变异图谱,包括3983个中国样本(~31.5x,NyuWa)和2504个来自千人基因组计划的样本(~33.3x,1KGP)。发现STR的突变受单元长度、染色体环境和表观遗传特征的影响。鉴定了3273个与基因表达相关的STR位点以及1117个与3'UTR选择性聚腺苷酸化相关的STR位点。该研究探索了STR的人群特征,鉴定了人群间以及人群内部差异性的STR位点,还提供了已知的致病STR位点在人群中的长度分布。

  这一工作是目前国际上最大规模的STR变异研究之一,对人类基因组中STR变异的多样性和潜在功能提供了新的见解,为未来STR相关的研究提供了参考与基础。

  中国科学院生物物理研究所的何顺民研究员、徐涛院士为该论文共同通讯作者,中国科学院生物物理研究所的博士研究生史忆戎、中国科学院大学生命科学学院的博士研究生牛仪伟为该文并列第一作者。该研究得到了中国科学院战略性先导科技专项、国家自然科学基金、国家重点研发计划、中国科学院信息化专项、国家基因组科学数据中心的支持。

  文章链接:https://www.nature.com/articles/s41467-023-37690-8

 

(供稿:何顺民研究组)

 


附件下载: