最近网络上充斥着关于FPKM / RPKM与TPM的帖子,显然TPM越来越流行了,但很多测序公司的分析团队还没反应过来,仍然在麻木地把FPKM提供给客户。所以弄得很多小伙伴内心十分纠结,它们差异有多大?公司给我的是FPKM,对差异基因筛选有没有影响?
呵呵,今天你来对了,本文专治各种纠结!
1. RPKM / FPKM与TPM的差异
前文已经说了,这个问题搜一把可以搜出一大把,我就不说了。
但,你可能比我还懒,我还是简单贴一下概念吧!
RPKM:Reads PerKilobase Per Million Reads
FPKM:Fragments Per Kilobase Per Million Reads
TPM:Transcripts Per Million Reads
可以看出,RPKM与FPKM根本就是一回事,只是前者用的是单端测序(所以称为Read),后者用的是双端测序(双端测的是同一Fragment)。但现在基本上全是双端测序了,所以RPKM早已辉煌不在了。
TPM并不是最近出来的,只不过流行的比较慢,但最近越来越多的分析人员开始接受它,许多分析软件里的新星也都选择了它。
为什么?这当然是有原因的!
因为,TPM更好!
有一个重要指标可以很好说明这个问题:FPKM的创造者Pachter已经更倾向于使用TPM了!
在同一个样本内,无论是用FPKM还是TPM都是一样的,它们的相关性是1,TPM对总的测序reads进一步做了均一化,所以它们的最直观的差别就是,不同样本间TPM的总和是相同的,而FPKM的总和不同!可以想象,TPM使得我们更容易去比较同一个基因在不同样本中所占的read数的比例。
哦!TPM更好?那我更纠结了!公司只给了我FPKM啊,这对差异基因筛选有没有影响?我筛选出的差异基因很少是不是和这个有关?
2. 主流差异表达分析软件从来不用TPM作为输入
鉴于TPM的流行势头,下文方中仅以TPM代表所有RPKM / FPKM或TPM等此类均一化表达数据。
大部分差异表达分析软件并不支持使用TPM进行差异表达基因筛选(当然也有极少数不推荐的软件例外,如Tuxedo),最主流的DE(differential expression)分析软件DESeq2 和 edgeR ,包括我强烈向大家推荐的sleuth包,都强调输入数据为:Raw read counts (not normalized) !
为什么说它们是最主流的?并且我也只推荐这几种工具(推荐顺序sleuth > DESeq2 > edgeR),是因为它们经受了更多的测试,并且也是引用人数最多的,空口无凭,当然有引文数据为证:
3. 用TPM的进行差异表达分析不是不好,是不可以!
那么为什么DE分析工具不用TPM呢?
首先,是没必要。不同样本间同一基因是否存在表达差异跟基因长短没有关系!简单化一点,假如AB两个样本测序特征相同(实际数据当然要经过一系列校正),那么无论某基因是1kb还是10kb,只要这个基因在A样本中map到的reads比B样本多,那么该基因在A样本中表达量就比B样品高,根本不需要考虑基因长度!
其次,是不能。因为差异表达分析软件要做的是多样本间同一特征比较前的均一化,而获得TPM时做的是样本内所有特征的均一化,两者目标不同,方法当然也不同,因此,如果用TPM等均一化后的数据进行差异表达分析不仅仅是画蛇添足,也不仅仅是丢失一些信息,它的后果很严重。
拿我自己的数据举个例子:两个样本,一个对照组,一个处理组,每组6个生物学重复,分别用Raw read counts与TPM做为输入,利用DESeq2进行差异表达分析(因为edgeR 通常筛选到的差异基因要少很多,而sleuth要输入其它数据,所以利用DESeq2简单作个例子),筛选标准为“log2FC > 0.5,padj < 0.05”,结果如下:
是不是很惊喜,是不是很意外?
用TPM只筛选到了不到4%的差异基因,但想一想,这还是很容易理解的,做完均一化,TPM在数值上变小了,样本间的差异也被缩小了,再做一遍校正,差异就没了,你用EXCEL算出来都比这多(但仍然不建议这么做)。
4. TPM,要你何用?
无论公司给你的结果用的是TPM还是FPKM,都不影响你的差异表达基因集,真正影响它的是差异分析软件!(提醒一下,不同软件,差异可能很大哦!)
估计有同学想拍桌子了,我做转录组就是来筛选差异表达基因的,既然你连这个都做不了,那还要你TPM干什么?
因为TPM是对样本内所有基因进行了均一化的,所以如果你想知道一个样本内A基因与B基因哪一个表达量高?或者A基因在这个样本所有mRNA中所点的比例等此类事情,TPM是个绝对必要的选择。实际上,除了差异表达基因筛选,后续的PCA、聚类分析、共表达分析、热图等都要用TPM。
TPM并不是万能的,如果两种组织中mRNA的总量本来就差得很多,怎么办?所以,参数的好坏关键要看用得合不合适。
所以,皇上,不是臣妾分内之事,臣妾做不到啊!
可能有同学会问:那我不用差异表达软件,我能不能利用TPM进行方差分析,筛选差异基因?这个工作用EXCEL就能完成,还开发啥软件啊?
答案当然是否定的!
为啥?想知道更多生信小趣闻,先关注吧!