长链非编码RNA编码多肽的系统挖掘和鉴定研究取得重要进展

发布时间:2021-06-18

  2021年6月13日,国际蛋白质组学领域权威期刊《Molecular & Cellular Proteomics》在线发表了由中国科学院生物物理研究所杨福全研究员团队和陈润生院士团队在长链非编码RNA(lncRNA)编码多肽的系统挖掘和鉴定研究中所取得的重要进展"Deeply Mining a Universe of Peptides Encoded by Long Noncoding RNAs"。

  lncRNAs通常被认为是一类长度大于200个碱基且不编码蛋白的非编码RNAs转录本。然而,近年来,越来越多的研究表明,许多lncRNAs转录本中的小开放阅读框(small open reading frame,smORFs)可以编码多肽(smORF encoded polypeptides,SEPs),后者可广泛参与肌肉形成、粘膜免疫、RNA脱帽及肿瘤增殖等诸多生物学过程。考虑到lncRNAs 转录本及其smORFs 的庞大数量,我们有理由相信SEPs可能代表着一个被忽视并尚待开发的富含蛋白质活性调节因子的宝库。因此,大规模地发现和鉴定SEPs,并系统探索它的功能及其在生物进化中的作用,可以为揭示由非编码RNA 介导的遗传信息传递方式和表达调控网络的研究以及从一个不同于蛋白质编码基因的角度为基因组的结构与功能注释提供一个新的突破口。

  目前,SEPs的规模性发现和鉴定仍面临诸多的挑战,主要体现在以下几个方面:1) lncRNA在物种间的保守性相对较差,且具有组织特异性与时空特异性,使得lncRNA 编码多肽的组织和时空表达具有很强的动态性;2)由于目前发现和鉴定的SEPs数目仍相对有限,很难对lncRNA 编码多肽的生物特征,诸如序列信息,保守性,化学性质 (如RNA 和多肽的稳定性),结构特征,基因组位置信息和转录本自身结构等,进行系统分析和挖掘,导致基于生物信息学的SEPs发现和鉴定及功能研究仍具有很大的挑战性;3)目前,SEPs的翻译与调控机制尚不清楚,有研究报道SEPs的翻译并不完全遵循AUG 起始的规则,而是存在以非AUG 为起始的翻译,表明SEPs可能存在一些特有的翻译及其调控机制;4)lncRNA 编码多肽的高灵敏度、高通量发现与鉴定能力还有待提高。

  针对以上局限和挑战,杨福全课题组和陈润生院士课题组合作,通过对NONCODE数据库中人和小鼠的lncRNA转录本中的smORF进行系统挖掘,分别构建了含有397万和 871万条目的人和小鼠潜在SEP理论数据库,并系统整合了基于分子量截留膜过滤和固相萃取的多肽富集策略,成功建立了一个基于生物质谱的高灵敏、高通量lncRNA编码多肽的发现与鉴定技术平台。

基于生物质谱的lncRNA编码多肽(SEPs)的系统发现和鉴定

  利用该技术平台,研究团队取得如下研究成果:1)从8种人源肿瘤细胞系及3种鼠源细胞系和8种健康小鼠组织中的发现和鉴定了762个具有高可信度的SEP,是目前已知的鉴定数目最多的基于生物质谱技术的SEP数据集;2)研究结果显示部分SEP在多种细胞系或组织中均有表达,而多数SEP只在某类或某种细胞系和组织中鉴定到,具有细胞或组织特异性分布;3)编码SEP的人源lncRNA转录本主要来源于基因间lncRNA(48.6%),18.6%和17.7%则分别来源于外显子lncRNA和反义lncRNA,还有少部分来源于正义非外显子lncRNA(15.1%);4)起始密码子统计结果显示,仅有28%的人源lncRNA编码多肽的起始密码子为AUG,而 67% 的人源SPEs的起始密码子为non-AUG。以上结果将为SEPs翻译与调控机制的研究提供一定的数据基础,并为基因组中非编码RNA及其基因的系统发现和功能鉴定提供数据和理论支持。

  该项工作得到了国家自然科学基金重大研究计划"基因信息传递过程中非编码RNA的调控作用机制"培育项目和科技部重点研发计划等多项基金资助。生物物理所博士研究生张青,吴尔重,以及硕士研究生唐以恒为论文共同第一作者。生物物理所杨福全研究员、陈润生院士,蔡潭溪副研究员和骆健俊研究员为论文共同通讯作者。

  文章链接:https://www.mcponline.org/article/S1535-9476(21)00081-5/fulltext#secsectitle0035

 

(供稿:杨福全研究组)

 


附件下载: