cover_image

Kallisto | 点点点,从 测序数据 到 基因表达量矩阵 人人都可以!

CJchen 生信石头
2020年09月04日 07:41

写在前面

2020 年 07 月末,我立了 flag,提出通过写一系列的TBtools插件,进而让所有人(在笔记本上)完成常规的(非上百套数据)公开可获取的转录组数据分析。
转眼,约莫一个月就过去了。中间也跳票了两周。相信一路支持下来的朋友,看到我这一系列插件的上一个推文就知道,我多少已经有坚持不下去的样子。但既然说了要搞,那么一定要搞,主要出发点还是三个:

  1. 说话不算话,不是我的风格

  2. 现在不整,以后就更不会整了

  3. 多少我还是用的上

于是,我花了点时间,看了相关文献,也做了一些软件选择,最后确定并在今天写完了最后这个插件 - Kallisto Super Wrapper。本来想叫 Kallisto GUI Wrapper,但这个插件不仅仅是 Wrapper,还是比较便利,且有 TBtools 的结果整理,明显更有助于下游数据查看和分析。

插件安装

Kallisto Super Wrapper 支持 Windows 和 Mac 平台,插件为一个 .zip 压缩包(不要解压)。

图片

安装插件与其他插件类似。打开 TBtools 并跳转到插件安装菜单

图片

点击菜单项,即可弹出插件文件选择框

图片

随后即可看到插件安装完成(如果失败,那么必然是 TBtools 版本过老,先更新吧)

图片


插件的使用

从插件菜单,找到 Kallisto Super Wrapper 菜单项,点击即可

图片

具体按格式输入和操作即可

图片

其中存在一些参数可以注意一下,当然对于双端测序,往往保持默认也并没有问题,但还是具体说明下。

  1. Bias Correction 转录组测序往往会收到序列偏好影响,建议勾选

  2. Kmer Size Kallisto 本身定量基于 Kmer 分析,注意到,这个其实是一个关键参数,越大那么准确度往往越高,但也可能会由于测序错误(参考转录本或测序数据有差异)而丢失部分信息;越小则数据利用率越高,但也会带来更多多处匹配,影响定量准确(当然,Kallisto 文稿说明影响不是非常大)。最高是 31,可以降低,但不建议降得太低,个人观点,25 足够低了,也建议除非必要,不做调整

  3. Boot Strap Kallisto 基于 Kmer 信息估算转录本表达量,可以对测序数据进行重抽样,这样可以评估估算值的技术可重复性,个人认为除非是使用其下游套装做分析,否则,无需做这一步(Emmm,似乎 TBtools 这个 Wrapper 用不到,这个参数应该不做开放)。

  4. ThreadNum 运行时使用的线程数,感觉上这个主要还是用于 BootStrap,所以一般不做调整,从某种角度是越高越好,但似乎没必要

  5. StrandedS 链特异文库,其中包括 NS 即 非链特异,FR 即常见的 dUTP 建库(第一读段方向与转录本方向相反 Forward Reverse 的意思),以及 RF,其他类

  6. SingleOverhang 这个参数针对双端测序数据,个人认为还是勾选,主要处理一些读段,正向或者反向的一端匹配不到转录本上,这种应该比较常见

  7. FragLen 这个参数针对单端测序数据,事实上,用户需要根据自己测序数据的文库构建参数,即进行建库,确定出来的插入片段大小,常见的RNAseq大概是200,用作默认,但如果输入的是单端测序数据,还是要自己调整;对于双端数据,无需理会,kallisto会自行估算

  8. FragLenSD 即 单端测序数据的插入片段长度估计值,默认的 30 为经验值,但建议用户自己根据实验参数调整;双端数据,仍然无需理会

Done,其实对于我来说,啥也不管,反正现在几乎只有双端测序数据....

啥都设置好了,就点击运行

图片

这里是三个样品的双端测序数据(各两个 fsatq 文件)

OK,运行结束,我们看看输出

图片

可以看到,输出文件有且仅有两个,TPM 矩阵(基因表达量矩阵,这个是我们要的) 和 Counts 矩阵(有些人或许会拿到一些网页工具做差异表达分析)
打开看看

图片

完美!(其中数值偏大,可以理解哈,因为这个是 Demo Data,样品少,sum(TPM) = 1000000)
为什么我说完美?因为 TBtools 自动整合了多个样品的 Kallisto 输出结果,直接给你两个表格。

写在最后

突然想起了硕士延期的日子。现在和那会还是很想,一者是毕业相关的事情七七八八,二者手上积累的过去三四年一些想做的或者需要做的事情,三者都临时发生了一些事情,必须要去面对。
今天这个插件写完,也算是了解了一个小事情。目前看来,这一系列插件我自认为会很有用,但在观点上支持这个事情的人比较少,至少比我想象中的少,而从物质上支持这个事情的人比较多,比我预想的多。还是有趣。或许 TBtools 总是写下去,那么会引起一些误会,以至于动了一些朋友的蛋糕,最后,写到没朋友。
OK,无关痛痒的话说得太多。
打包非我意,但是,真香!
RNAseq系列插件,并非主流需求(封闭期 - 至少六个月 - 也可能永远都 不会进入主程序 - 或许不释放更好吧,起码我还有朋友);对这个插件,感兴趣的扫码添加我的微信,票价 30,进群领插件及半年答疑 ...

图片

TBtools · 目录
下一篇视频 | 生信小工具 TBtools 推介 (以实践为主)
继续滑动看下一个
生信石头
向上滑动看下一个