今天是生信星球陪你的第594天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于2020.4.13
首先是ChIP-seq分析的前言部分:
1:了解ChIP-seq的实验流程
2:继续了解ChIP-seq
3:关于ChIP-seq的实验对照与偏差来源
4:ChIP-seq的实验设计补充
然后是ChIP-seq分析的数据库及实战数据介绍:
5:ChIP-seq数据库及实战数据介绍
之前有朋友问过,这个学习资源从哪里获得的?
这里做一下回答:这个资源是来自~非常非常用心的一本ChIP-seq实战书:Practical guide to ChIP-seq data analysis!我会将书中的重点知识提炼出来并补充一些其他相关知识
认识一下书的主编吧:
好,一点点来,这次我们就先下载好数据吧,熟悉linux的话十几分钟就可以完成啦
系统:Debian GNU/Linux 8.6 distri- bution
CPU:10 cores, 20 threads, 2.2 GHz processor
内存:96GB
硬盘:50 GB
作者给出的脚本:http://chipseq.u-strasbg.fr:8080/script_chipseq_book.sh
配套资源:http://anaisbardet.cnrs.fr/practical-guide-to-chip-seq-data-analysis/
黑名单区域 (mm10 blacklist.bed.gz)
基因注释--来自ENSEMBL GTF(mm10 genomic features.bed, mm10 tss.bed)
染色体大小(mm10.chrom.sizes)
TF motifs--来自JASPAR 2018 (jaspar.genereg.net)
ChIPQC and DiffBind需要的sample sheet文件 (NRF1 sample sheet.csv and NRF1 sample sheet with peaks.csv)
sratoolkit 2.8.1 (ncbi.nlm.nih.gov/sra/docs/
toolkitsoft),
fastqc 0.11.5 (bioinformatics.babraham.ac.uk/
projects/fastqc),
cutadapt 1.12 (cutadapt.readthedocs.io/en/stable),
trim galore 0.4.4 (bioinformatics.babraham.ac.uk/ projects/trim_galore),
bowtie2 2.3.0 (bowtie-bio.sourceforge.net/bowtie2), samtools 1.3.1 (htslib.org),
bedtools 2.27.1 (bedtools.readthedocs.io/en/latest), peakzilla (github.com/steinmann/peakzilla), MACS2.1.1 (github.com/taoliu/MACS),
UCSC genome browser (genome.ucsc.edu/),
IGV 2.4.10(software.broadinstitute.org/software/igv), IDR 2.0.2 (github.com/nboley/idr),
HOMER 4.8 (homer.ucsd.edu/homer,
MAST 4.11.2 (meme-suite.org/doc/mast.html),
bwtool 1.0 (github.com/CRG-Barcelona/bwtool).
基于R 3.3.3 和 Bioconductor 3.4,使用的R包有:
ChIPQC 1.14.0
BiocParallel 1.12.0
NMF 0.21.0
DESeq2 1.20.0
DiffBind 2.6.6
gplots 3.0.1
TxDb.Mmusculus.UCSC.mm10.knownGene 3.4.0
org.Mm. eg.db 3.5.0
ChIPseeker 1.14.2
都能在genome-euro.ucsc.edu/FAQ/FAQformat.html 找到答案
BED文件必须的三列:染色体名称、起始位点、终止位点;可选的其他几列:name、score、strand、colors等等
FASTQ
SAM/BAM
bedGraph/bigWig/bidBed
GTF
关于排序sort:以BED文件为例,推荐使用sort -k1,1 -k2,2n
进行排序,首先对第一列(染色体)进行排序(-k:character sort),然后对第二列起始坐标排序(-n:numeric sort)。因此排序后的结果就是:chr1, chr10, chr11-19, chr2-9, chrM-X-Y
,许多软件会识别这种模式进而加快处理速度(例如:bedtools -sorted
)
1-based 与 0-based坐标系统:ENSEMBL采用的是1-based,见于它的GTF和SAM文件;UCSC采用0-based,见于它的BED和BAM文件
首先根据GSE号(https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE67867)下载数据
下面的代码结构可以作为参考,其中下载数据可以看:来吧,加速你的下载
创建项目目录结构
mkdir -p mm_nrf1/{sra,raw,qc,clean,align,reference,peaks,motifs,scripts}
cat >~/public/mm_nrf1/sra/0-config.txt
SRR2500883 NRF1_CHIP_WT_1
SRR2500884 NRF1_CHIP_WT_2
SRR2500885 NRF1_INPUT_WT
SRR2500886 NRF1_CHIP_TKO_1
SRR2500887 NRF1_CHIP_TKO_2
SRR2500888 NRF1_INPUT_TKO
SRR2500893 H3K27AC_CHIP_WT_1
SRR2500894 H3K27AC_CHIP_WT_2
SRR2500895 H3K27AC_CHIP_TKO_1
SRR2500896 H3K27AC_CHIP_TKO_2
下载数据
CONFIG=~/public/mm_nrf1/sra/0-config.txt
OUT_DIR=~/public/mm_nrf1/sra
cat $CONFIG | while read i;do
config=($i)
srr=${config[0]}
prefetch $srr -O $OUT_DIR
done
sra转fq
CONFIG=~/public/mm_nrf1/sra/0-config.txt
SRR_DIR=~/public/mm_nrf1/sra
OUT_DIR=~/public/mm_nrf1/raw
cat $CONFIG | while read i;do
config=($i)
srr=${config[0]}
name=${config[1]}
fastq-dump --gzip --split-3 -A $name -O $OUT_DIR $SRR_DIR/${srr}.sra && \
touch ${OUT_DIR}/${srr}.to.fq.done
done
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步
🤓生信星球 🌎~ 一个不拽术语、通俗易懂的生信知识平台