ChIP-seq计算资源准备与实战数据下载

原创豆豆花花生信星球

今天是生信星球陪你的第594天

大神一句话，菜鸟跑半年。我不是大神，但我可以缩短你走弯路的半年~

就像歌儿唱的那样，如果你不知道该往哪儿走，就留在这学点生信好不好~

这里有豆豆和花花的学习历程，从新手到进阶，生信路上有你有我！

豆豆写于2020.4.13
首先是ChIP-seq分析的前言部分：
1：了解ChIP-seq的实验流程
2：继续了解ChIP-seq
3：关于ChIP-seq的实验对照与偏差来源
4：ChIP-seq的实验设计补充
然后是ChIP-seq分析的数据库及实战数据介绍：
5：ChIP-seq数据库及实战数据介绍

之前有朋友问过，这个学习资源从哪里获得的？
这里做一下回答：这个资源是来自~非常非常用心的一本ChIP-seq实战书：Practical guide to ChIP-seq data analysis！我会将书中的重点知识提炼出来并补充一些其他相关知识
认识一下书的主编吧：

好，一点点来，这次我们就先下载好数据吧，熟悉linux的话十几分钟就可以完成啦

1 计算资源

1.1 计算环境

系统：Debian GNU/Linux 8.6 distri- bution
CPU：10 cores, 20 threads, 2.2 GHz processor
内存：96GB
硬盘：50 GB

1.2 数据

作者给出的脚本：http://chipseq.u-strasbg.fr:8080/script_chipseq_book.sh
配套资源：http://anaisbardet.cnrs.fr/practical-guide-to-chip-seq-data-analysis/
黑名单区域 (mm10 blacklist.bed.gz)
基因注释--来自ENSEMBL GTF（mm10 genomic features.bed, mm10 tss.bed）
染色体大小(mm10.chrom.sizes)
TF motifs--来自JASPAR 2018 (jaspar.genereg.net)
ChIPQC and DiffBind需要的sample sheet文件 (NRF1 sample sheet.csv and NRF1 sample sheet with peaks.csv)

1.3 软件

sratoolkit 2.8.1 (ncbi.nlm.nih.gov/sra/docs/
toolkitsoft),
fastqc 0.11.5 (bioinformatics.babraham.ac.uk/
projects/fastqc),
cutadapt 1.12 (cutadapt.readthedocs.io/en/stable),
trim galore 0.4.4 (bioinformatics.babraham.ac.uk/ projects/trim_galore),
bowtie2 2.3.0 (bowtie-bio.sourceforge.net/bowtie2), samtools 1.3.1 (htslib.org),
bedtools 2.27.1 (bedtools.readthedocs.io/en/latest), peakzilla (github.com/steinmann/peakzilla), MACS2.1.1 (github.com/taoliu/MACS),
UCSC genome browser (genome.ucsc.edu/),
IGV 2.4.10(software.broadinstitute.org/software/igv), IDR 2.0.2 (github.com/nboley/idr),
HOMER 4.8 (homer.ucsd.edu/homer,
MAST 4.11.2 (meme-suite.org/doc/mast.html),
bwtool 1.0 (github.com/CRG-Barcelona/bwtool).

基于R 3.3.3 和 Bioconductor 3.4，使用的R包有：

ChIPQC 1.14.0
BiocParallel 1.12.0
NMF 0.21.0
DESeq2 1.20.0
DiffBind 2.6.6
gplots 3.0.1
TxDb.Mmusculus.UCSC.mm10.knownGene 3.4.0
org.Mm. eg.db 3.5.0
ChIPseeker 1.14.2

1.4 文件格式

都能在genome-euro.ucsc.edu/FAQ/FAQformat.html 找到答案

BED文件必须的三列：染色体名称、起始位点、终止位点；可选的其他几列：name、score、strand、colors等等
FASTQ
SAM/BAM
bedGraph/bigWig/bidBed
GTF

1.5 需要注意的几点

关于排序sort：以BED文件为例，推荐使用sort -k1,1 -k2,2n进行排序，首先对第一列（染色体）进行排序（-k：character sort），然后对第二列起始坐标排序（-n：numeric sort）。因此排序后的结果就是：chr1, chr10, chr11-19, chr2-9, chrM-X-Y ，许多软件会识别这种模式进而加快处理速度（例如：bedtools -sorted）
1-based 与 0-based坐标系统：ENSEMBL采用的是1-based，见于它的GTF和SAM文件；UCSC采用0-based，见于它的BED和BAM文件

2 数据获取

首先根据GSE号(https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE67867)下载数据

下面的代码结构可以作为参考，其中下载数据可以看：来吧，加速你的下载

创建项目目录结构

mkdir -p mm_nrf1/{sra,raw,qc,clean,align,reference,peaks,motifs,scripts}

cat >~/public/mm_nrf1/sra/0-config.txt
SRR2500883 NRF1_CHIP_WT_1
SRR2500884 NRF1_CHIP_WT_2
SRR2500885 NRF1_INPUT_WT
SRR2500886 NRF1_CHIP_TKO_1
SRR2500887 NRF1_CHIP_TKO_2
SRR2500888 NRF1_INPUT_TKO
SRR2500893 H3K27AC_CHIP_WT_1
SRR2500894 H3K27AC_CHIP_WT_2
SRR2500895 H3K27AC_CHIP_TKO_1
SRR2500896 H3K27AC_CHIP_TKO_2

下载数据

CONFIG=~/public/mm_nrf1/sra/0-config.txt
OUT_DIR=~/public/mm_nrf1/sra
cat $CONFIG | while read i;do
    config=($i)
    srr=${config[0]}
    prefetch $srr -O $OUT_DIR 
done

sra转fq

CONFIG=~/public/mm_nrf1/sra/0-config.txt
SRR_DIR=~/public/mm_nrf1/sra
OUT_DIR=~/public/mm_nrf1/raw
cat $CONFIG | while read i;do
    config=($i)
    srr=${config[0]}
    name=${config[1]}
    fastq-dump --gzip --split-3 -A $name -O $OUT_DIR              $SRR_DIR/${srr}.sra && \
    touch ${OUT_DIR}/${srr}.to.fq.done 
done

点击底部的“阅读原文”，获得更好的阅读体验哦😻

初学生信，很荣幸带你迈出第一步

🤓生信星球 🌎~ 一个不拽术语、通俗易懂的生信知识平台

继续滑动看下一个