"女娲"基因组资源第七篇 |
何顺民/陈润生/徐涛团队构建人类基因组非编码变异解读系统

  徐涛/何顺民团队此前发布的"女娲"基因组资源(Cell Reports,2021)包含了7106万个SNP和819万个InDel,其中98%以上位于非编码区域。相较于编码区变异,非编码区变异的生物信息学注释与功能研究面临更大挑战,其在功能解析和疾病关联方面尚未得到充分表征。

  2024年12月25日,中国科学院生物物理研究所何顺民研究组在《Science Bulletin》发表了题为"TOAnnoPriDB: an integrative database for trans-omic annotation and prioritization of non-coding variants across human genome"的文章。该研究以"女娲"基因组资源为核心,结合团队此前开发的六大数据库(NyuWa、NONCODE、NPInter、piRBase、SmProt 和 LncVar),整合147项公共资源信息,系统解析了非编码区域的变异(图1)。"女娲"变异解析数据库,覆盖了约98%的基因组非编码区域,包含15个人群频率数据,并提供功能预测、疾病关联、调控元件、数量性状基因座、生物分子相互作用及小肽翻译表达等46类多组学注释信息。这一整合资源为深入解析非编码变异的功能及其与疾病的关联性提供了重要支持。

图1. 数据库资源概要

  此前"女娲"基因组项目基于大规模人群全基因组测序数据,已经发布和解析了人类基因组SNP/InDel变异图谱(Cell Reports,2021),移动元件变异图谱(MEI,Nucleic Acids Research,2022),微卫星变异图谱(STR,Nature Communications,2023)和小卫星变异图谱(VNTR,Cell Genomics,2024),并基于基因组中的近期正选择(Science Bulletin,2023)及非编码调控元件适应性选择(Molecular Biology and Evolution,2024),探讨了其对人类表型和疾病演化的影响。

  此次发布的"女娲"变异解析数据库,综合了多层次的变异注释信息,构建了一个系统化的优先级排序框架。通过整合人群等位基因频率、功能预测评分、调控元件/区域、功能相互作用区域、具有翻译潜力的非编码区域,以及变异-基因-疾病关联等信息,该框架将变异划分为六个层级(Level-1至Level-6)。这种分层策略基于多种证据支持,能够为研究人员在变异功能解析和实验验证中提供更明确的优先研究方向,从而提升研究效率并深入揭示变异的功能意义。该数据库还提供了一个用户友好的网页界面(http://bigdata.ibp.ac.cn/TOAnnoPriDB)来展示变异的注释信息。

  综上所述,"女娲"变异解析数据库,能够帮助用户更全面地理解变异的功能意义,为研究人员筛选和研究变异提供强有力的工具,为探索非编码变异与人类疾病之间的关联提供重要参考。

  中国科学院生物物理研究所副研究员宋廷瑞、博士研究生史忆戎为该文共同第一作者。中国科学院生物物理研究所何顺民研究员、陈润生院士、徐涛院士为该文的共同通讯作者。中国科学院生物物理研究所何顺民研究组的李燕燕、郝頔和占开欣等人也参与了该项研究工作。该研究得到了国家重点研发计划、中国科学院战略性先导科技专项(B类)、国家自然科学基金等经费的支持。

  文章链接:https://doi.org/10.1016/j.scib.2024.12.030

(供稿:何顺民研究组、陈润生研究组、徐涛研究组)