咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
NGS技术的进步催生了新的实验设计、分析类型和极高通量测序数据的生成。对于这些数据的质量评估,每一步分析结果的评估是后续结果可信度的衡量和保障。不少生信工具都可以给样品生成一个评估结果,如Fastqc
、Qualimap
和RSeQC
等。但是这时又出现了一个难题,那就是几乎所有的质控工具都是针对单个样本生成一个报告,这就要求用户自己去逐一查找各个QC结果,这无疑是个十分耗时、重复又复杂的事,而且还不能快速看出所有样本的异同。
但现在有了MultiQC
,基于Python的小工具很好地解决了这个繁琐的事情,其强大的功能主要体现在以下三个方面:
RNAseq
、Whole-Genome Seq
、Bisulfite Seq
、Hi-C
和MultiQC_NGI
;使用conda安装
conda install multiqc
安装完成以后,可以使用multiqc -h来查看命令帮助文档。
multiqc * -o ./ -n file
-n/--name # 更改输出文件的名称,默认输出文件名:multiqc_data、multiqc_report.html
-o/-outdir # 指定输出目录
nohup multiqc ./*.zip -o ./ &
命令参数解读:
./*.zip # 输入文件,例如fastqc生成报告的.zip文件
-o ./ #输出目录
每一个样本reads数量、比对层面的质量评估整合统计表,点击Configure Columns可以选择显示或不显示某些项。点击Plot可以绘图。
点击Configure Columns
选择展示哪些项
点击Plot
可以对任意两种属性的评估结果做交互式二维图,若各样本均一性好,散点会比较集中,反之会出现某些离散的点,这样方便查看某些指标异常的离群样本。
这里可以看到重复reads,我们可以看到一下样品中重复unique reads和Dupliaccte reads各站约50%
绿色区间——质量很好
橙色区间——质量合理
红色区间——质量不好
可以看出这几个样品序列的整体测序质量还是很不错,所有的都在绿色区域
绿色区间——质量很好、橙色区间——质量合理、红色区间——质量不好
结果显示除了开头几bp序列ATCG比例差别大,其他的序列ATCG比例均衡
从图中可以看出,大部分reads GC含量在44%左右,呈正态曲线,表明GC含量正常
说明测序仪器能辨别这四个序列中每条reads的每个位置的碱基
当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。
运行命令
multiqc all.name.txt.summary -o ./
multiqc hisat2.log -o ./