专栏/参考基因组&注释文件下载链接大总结

参考基因组&注释文件下载链接大总结

2021年03月24日 06:43--浏览 · --喜欢 · --评论
粉丝:2428文章:21


参考基因组&注释文件,这两大文件是转录组分析的必备文件,可以说没有它寸步难行。

需要者,可以直接从网站下载 



1.【小梦想在努力-2018-12-29】

http://www.360doc.com/content/18/1229/16/61186495_805301910.shtml

2.四种途径下载参考基因组

http://www.360doc.com/content/20/0827/13/19913717_932471349.shtml

 

哪些网址可以下载GTF、Fa、GFF文件(参考基因组和注释文件)?以小鼠为例。

 

一、Gencode 数据库下载基因注释文件; https://www.gencodegenes.org/mouse/

二、UCSC下载参考基因组http://hgdownload.soe.ucsc.edu

Sequence and Annotation Downloads  

    http://hgdownload.soe.ucsc.edu/downloads.html

三、NCBI下载参考基因组&注释文件

https://www.ncbi.nlm.nih.gov/genome/52?genome_assembly_id=992563

四、ENSEMBL下载注释文件

  http://ftp.ensembl.org/pub/release-103/gtf/mus_musculus/

【一】Gencode下载注释文件https://www.gencodegenes.org/


GENCODE网站首页
首页Mouse栏下Current release可得该截图

https://www.gencodegenes.org/mouse/

在2021年3月23日星期二21:22下载了gencode数据库中的GTF文件。第一个和第二个。

【二】UCSC下载参考基因组http://hgdownload.soe.ucsc.edu

 

UCSC首页


下载自己所需要的基因组文件


解释说明以上每个文件是干啥的(方面我们根据课题需要进行选择下载)


Files included in this directory:

mm10.2bit - contains the complete mouse/mm10 genome sequence

    in the 2bit file format.  Repeats from RepeatMasker and Tandem Repeats

    Finder (with period of 12 or less) are shown in lower case; non-repeating

    sequence is shown in upper case.  The utility program, twoBitToFa (available

    from the kent src tree), can be used to extract .fa file(s) from

this file.

  A pre-compiled version of the command line tool can be

    found at: http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/

     See also:

        http://genome.ucsc.edu/admin/git.html

        http://genome.ucsc.edu/admin/jk-install.html

包含完整的鼠标/mm10基因组序列的2bit文件格式。

重复掩蔽器和串联重复发现者的重复(周期为12或更少)用小写表示;

非重复序列以大写字母表示。

实用程序twoBitToFa(可从kent src树获得)可用于从该文件提取.fa文件。


 ChromeFa.tar.gz -

每条染色体在一个文件中的装配序列。

重复掩蔽器和串联重复发现者的重复(周期为12或更少)用小写表示;

非重复序列以大写字母表示。

下载链接:http://hgdownload.soe.ucsc.edu/goldenPath/mm10/bigZips/

我下载的有:

chromFa.tar.gz   2012-02-09 13:54  830M

 mm10.2bit       2012-02-07 10:52  682M  

     mm10.fa.gz      2020-01-23 02:22  830M  

【补充1】在UCSC首页Genomes栏中查看小鼠基因结构:

http://genome.ucsc.edu/index.html。


Genomes栏下的Mouse GRCm38/mm10

小鼠基因结构


【补充2】UCSC可以链接到NCBI中的参考基因组&注释文件

 

点击网站首页our tools下的Genome Brower即可进入该页


 

附带有下载方式


NCBI下载参考基因组&注释文件

https://www.ncbi.nlm.nih.gov/genome/52?genome_assembly_id=992563

 

NCBI下的Genome,输入Mus检索
点击genome & GFF便可下载

下载的是download sequences in FASTA formot for genome.&download genome annotation in GFF.

ensembl下载注释文件

http://ftp.ensembl.org/pub/release-103/gtf/mus_musculus/

 

ensemble首页选择物种-小鼠


下载小鼠注释文件界面-GTF/GFF3
下载链接界面,README有解释这三个文件有啥不同


我下载的是第三个文件:Mus_musculus.GRCm39.103.gtf.gz  

补充资料

 

不一样的数据库之间的对应关系

 

2021-03-24 周三

天马行空的坦克兵


投诉或建议