曾经研究单个分子的时代渐渐远去,如今的科学研究慢慢的转向大数据,分子相互作用网络的研究,这样的研究越来越复杂,越来越有挑战性。今天给大家介绍一个ceRNA网络研究的常规思路。
本研究的数据来源于TCGA数据库,其中转录组数据含有癌症样本551个,癌旁样本35个;miRNA表达数据则包括546份癌症样本和33份癌旁组织样本。
有了表达数据,首先第一步就是进行差异表达分析。从转录组数据中分离出编码蛋白基因和长链非编码RNA基因以及miRNA的表达量,针对癌症样本和癌旁组织样本进行差异表达分析,筛选差异比较大,统计显著的差异表达分子。差异分子统计如下:
差异表达基因的聚类热图和火山图如下:
经过差异表达分析之后,获得了差异表达的gene, lncRNA和miRNA。需要将这三者联系起来,构建一个调控网络。其中miRNA是关键。通过miRcode数据库预测miRNA调控的lncRNA,通过starBase、miRDB、miRTarBase 等数据预测miRNA调控的靶基因;结合两者,最后构建一个含有97个lncRNA, 20个miRNA, 73个差异表达基因的ceRNA网络。 将该网络进行可视化展示如下:
有了ceRNA网络,可以多网络的拓扑结构进行一定的分析。分别从网络节点的度,中心性和最短路径等多个网络特征对构建的ceRNA网络进行分析,依据网络的度,筛选出那些度比较大的关键分子。其中MEG3,hsa-mir-195,ZEB1的度都比较大。
基于ceRNA网络作用的理论,受同一miRNA调控的基因和lncRNA之间应该存在正相关性。以miRNA分子hsa-mir-195为例,研究受其调控的lncRNA和基因,构建两者的表达相关性,不少分子的相关性还是比较高的,也说明ceRNA网络存在一定的可靠性。
构建出来的ceRNA网络是否真的比较关键,可以针对ceRNA网络中的lncRNA, 基因和miRNA分别进行生存分析。 基于K-M生存分析方法,发现ceRNA网络的中分子跟总生存期存在非常大的相关性。对应的生存曲线如下:
针对筛选出来的几个关键分子,采用GEO中的芯片数据,验证一下这些筛选出来的分子是否正确。分别比较这些分子在癌症组织和乘车组织中的表达水平,发现这些分子表达水平在不同组织中的确存在非常大的差别。
针对ceRNA网络中编码蛋白的基因,还可以研究这些基因的分子功能。分别从GO,KEGG富集等方面了解这些基因的功能。
从这些注释信息来看,这些基因对应的分子功能还是跟癌症的信号通路相关的。也说明这个网络能解释一些癌症发病的原因。
好了,今天的ceRNA网络研究的思路介绍完了,您是不是有所收获呢?如有需要请到QQ群(435244246)内讨论!
延伸阅读:
如何利用WGCNA筛选biomarker | GEO数据与WGCNA | WGCNA知识点详解 | GEO和TCGA数据库挖掘文章思路 | GEO数据库之芯片数据下载 | 你还没利用好WGCNA | 基因家族分析+?实验=2区期刊 TCGA-人类癌症数据库差异表达基因挖掘课程 | 基因家族分析后续实验