长非编码RNA(long non-coding RNAs)是一类长度大于200nt的非编码RNA。大量研究表明长非编码RNA具有重要的调控功能,在植物和动物的各种生物学过程中起重要的作用。此外,lncRNA还与人类各种疾病的发生发展密切相关。因此对于lncRNA的注释、探索lncRNA的功能具有非常重要的意义。近些年来,很多研究集中于lncRNA功能的探索,但是综合全面的lncRNA的注释仍需要不断更新维护。
NONCODE数据库于2005年创建,受到Science杂志专文推荐,由中科院计算所和生物物理所团队维护15年,累积访问过亿次,2013年受邀以专家数据库加入国际RNA联盟RNAcentral,数据库首次提出了非编码基因的分类体系,建立多项非编码领域标准,推动长非编码RNA研究发展。
近期,由中国科学院生物物理研究所陈润生院士课题组,中科院生物物理所健康大数据研究中心何顺民课题组和中国科学院计算技术研究所赵屹课题组合作,在国际学术期刊 《核酸研究》(Nucleic Acids Research)在线发表了题目为"NONCODEV6: an updated database dedicated to long non-coding RNA annotation in both animals and plants"的文章(图1)。该工作NONCODEV6(http://www.noncode.org/)(图2)是关于动植物多个物种的长非编码RNA综合注释数据库的升级,旨在提供关于动植物各个物种中lncRNA的全面综合的注释和分析。
图1 NONCODEV6在线发表
图2 NONCODEV6数据库
在此前积累的NONCODE版本基础上,研究团队通过关键词搜索近期发表文章并手工提取lncRNA及其在组织中的表达数据等信息。随后,对其相应的植物物种、动物物种、组织表达数据进行了收集、整理,之后进入NONCODE数据库更新的流程,进行数据的过滤、处理、注释。NONCODEV6中总共记录了644,510个lncRNA。此次新加入的植物物种数目达23种,包括常见植物拟南芥,水稻,小麦,玉米等。 植物物种的lncRNA注释包括基本位置信息、序列信息、长度、外显子个数、组织的表达量、功能注释等。同时,研究团队对人和小鼠的数据进行了更新,并加入lncRNA和肿瘤等疾病的关系注释,整合了多个lncRNA和肿瘤的数据源,提供了一个关于肿瘤等疾病和NONCODE数据库中lncRNA的综合注释。
此外,NONCODEV6数据库提供了一个用户友好的界面,可用于浏览各个物种的长非编码RNA的具体情况包括长度、序列、位置、功能注释、保守性注释等。除此之外,还提供了blast功能、功能注释查询、保守性查询。总体来说,NONCODEV6 (http://www.noncode.org/) 是一个业内较为认可的综合性lncRNA注释的知识库,为研究基于lncRNA的在动物和植物的相关注释提供了重要支撑。
中国科学院生物物理研究所陈润生院士、何顺民研究员和中国科学院计算技术研究所赵屹研究员为本文共同通讯作者。中国科学院计算技术研究所赵连鹤博士研究生和中国科学院生物物理研究所健康大数据研究中心王佳佳博士研究生、李燕燕博士研究生为本文并列第一作者。该文章获得国家重点研发项目、国家自然科学基金、中国科学院战略重点研究项目等项目资助。
文章链接:https://doi.org/10.1093/nar/gkaa1046
(供稿:健康大数据中心)