生信软件 | bowtie2(测序序列与参考序列比对)

生信软件 | bowtie2(测序序列与参考序列比对)

介绍

Bowtie2 是将测序reads与长参考序列比对工具。适用于将长度大约为50到100或1000字符的reads与相对较长的基因组(如哺乳动物)进行比对。Bowtie2使用FM索引(基于Burrows-Wheeler Transform 或 BWT)对基因组进行索引,以此来保持其占用较小内存。对于人类基因组来说,内存占用在3.2G左右。Bowtie2 支持间隔,局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。

Cufflinks:一种转录组装的工具和 SAM 中 Bowtie2 输出对齐的异构体定量格式,可以与使用 SAM 的大量其他工具(SAMtools, GATK)进行交互操作。

Bowtie2 通常是比较基因组学管道的第一步,包括识别变体(variation calling),ChIP-seq,RNA-seq,BS-seq。Bowtie2 和Bowtie 也高度整合在一些工具中,包括TopHat(快速拼接RNA-seq reads 的 mapper),Crossbow(重测序数据分析云的软件工具),Myrna(对齐RNA-seq reads和分析差异基因表达的云计算软件工具)

Bowtie 1和Bowtie 2不像MUMmerBLASTVmatch这样的通用对齐工具。Bowtie 2在与大型基因组比对时效果最佳,尽管它支持任意小的参考序列(例如扩增子)。它可以处理非常长的读数(即10s或100s的千字节),但它针对近期测序仪产生的读数长度和误差模式进行了优化,如Illumina HiSeq 2000,Roche 454和Ion Torrent仪器。

如果目的是对齐两个非常大的序列(例如两个基因组),请考虑使用MUMmer。如果目的是与相对较短的参考序列(如细菌基因组)非常灵敏的比对,可以使用Bowtie 2完成,但您可能需要考虑使用NUCmerBLATBLAST等工具。当参考基因组很长时,这些工具可能会非常缓慢,但当参考基因组很短时通常就足够了。

安装

Conda 安装

conda install -y bowtie2

这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件的依赖问题) : Conda 安装使用图文详解

传统安装

  • 下载
bowtie-bio.sourceforge.net

在Linux系统下将上述的链接下载到本地

sudo wget https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.3.4.1/bowtie2-2.3.4.1-linux-x86_64.zip
  • 解压
unzip bowtie2-2.3.4.1-linux-x86_64.zip
  • 设置环境变量
  • 打开环境变量设置文件
sudo vim /etc/environment
  • 添加软件 bin 目录的路径,并用 : 隔开,如下图
  • 执行source命令,使配置立即生效
sudo source /etc/enviroment

使用(比对)

示例

单末端

"bowtie2 -p 10 -x genome_index -U input.fq | samtools sort -O bam -@ 10 -o - > output.bam

双末端

bowtie2 -p 10 -x genome_index -1 input_1.fq -2 input_2.fq | samtools sort -O bam -@ 10 -o - > output.bam

需要注意的是:genome_index 指的是用于bowtie2的索引文件(如下图),而不是参考基因组本身,构建过程参考后文。genome_index 需要指定路径及其共用文件名,比如我的索引文件放在/data/ref/bowtie2/mm10目录下,但是需要输入的参数为/data/ref/bowtie2/mm10/mm10。最后一个mm10指的是共用文件名。


必需参数

可选参数(常用)

使用(构建索引)

官方索引

wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
unzip mm10.zip
rm mm10.zip make_mm10.sh

自建索引

这里以构建M. musculus, UCSC mm10 为例
wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz 
tar -zxvf chromFa.tar.gz 
cat *.fa > mm10.fa
bowtie2-build mm10.fa mm10

例子(M. musculus, UCSC mm10)

  • 构建参考基因组索引
wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz 
tar -zxvf chromFa.tar.gz 
cat *.fa > mm10.fa
bowtie2-build mm10.fa mm10
  • 运行bowtie2 获取 SAM 文件
bowtie2 -p 6 -3 5 --local -x mm10 -1 example_1.fastq -2 example_2.fastq -S SRR3208744.sam
这行命令表示使用--local的比对模式,使用 mm10 的索引;这里是双末端测序,所以将待比对文件 example_1.fq example_2.fa 分别输入,以 example.sam 的文件输出
如果为单末端测序的话,上述命令换为:
bowtie2 -p 6 -3 5 --local -x mm10 -U /opt/sdc/SRR/example.fastq -S example.sam
  • SAM 文件转为 BAM 文件
samtools sort example.sam > example.bam

参考:bowtie-bio.sourceforge.net

编辑于 2021-06-19 09:02