这章内容将介绍如何使用NCBI的常用数据库检索序列或查找基因。
一、基本生物学概念
在使用数据库之前,我们先来看看基因,基因组的生物学概念。
生物中基因都是核苷酸序列构成的,但是在原核和真核生物中,他们差别较大。
对于生信分析,原核生物和古细菌是很相似的(相比于真核生物),常常会把两个数据放在一个数据库。
(2)遗传物质是单一环状DNA分子。
(3)基因组大小约为几百万个碱基对。
(4)它们的基因密度大约为每1,000个碱基对一个基因。
(5)基因几乎没有冗余,70%可编码蛋白质。
(6)基因不重叠。
(7)启动子之后就是转录区域。
(8)无内含子。
(9)蛋白质序列从最长的开放阅读框翻译而来(从ATG到终止密码子)。
2. 真核生物
(1)基因组由多条染色体组成
(2)基因组非常大(1000万到6700亿碱基对)
(3)基因密度100,100碱基对一个基因
(4)在人类基因组中,小于5%的基因编码蛋白质
(5)基因可能重叠
(6)也是在启动子后开始转录,但是距离很远的一些序列也可能干扰这个过程。
(7)基因序列与产生的mRNA,蛋白质不一一对应,只有小部分外显子对应。
(8)基因通常编码一种以上的mRNA(蛋白质)。
下图简单的展示了细菌基因组,转录本(mRNA),开放阅读框(ORF)和蛋白质(核糖体结合位点(Ribosome Binding Site,RBS)),原核生物中它们的关系是线性的。mRNA序列中RBS之后的部分会被翻译为蛋白质。
由于这些特质,所以原核生物的数据库中,一般包含三个重要信息,即启动子、RBS、ORF边界的位置。而基于真核生物基因序列与mRNA,蛋白质之间复杂多变的对应关系(非线性),数据库中的条目会更多。
二、使用NCBI查询序列
1. 针对原核生物基因分析的GenBank使用介绍
原核生物基因组相对小,而且DNA序列,mRNA,ORFs,蛋白序列对应关系相对简单,所以数据库中原核生物的基因组注释等信息较为易懂。下面依旧以大肠杆菌dUTPase基因为例(GenBank ID X01714),介绍GenBank中原核生物基因的一些条目和操作。
(1)打开网页
https://www.ncbi.nlm.nih.gov/genbank/
(2)在检索栏里,选择Nucleotide库,输入GenBank ID X01714。
(3)这个页面差不多显示了全部的信息,默认格式是GenBank的,有一些方便的功能按钮,比如这里是format的选择,可以以FASTA格式显示。右侧send to可以下载文件。
(4)结果显示页面出现的名词介绍
在GenBank格式的结果显示页面左侧,有一系列条目,简单介绍一下它们是什么。
【LOCUS】
基础信息,包含名称代号(X01714),核苷酸序列大小(1609 bp),类型(DNA),拓扑结构(linear),上传/修改时间(BCT 23-OCT-2008)。
【DEFINITION】
对于该基因的简短定义。
【ACCESSION】
就是accession number,登记号。
【VERSION】
同义或过去使用过的ID号。
【KEYWORDS】
描述该序列的关键词,检索的时候如果设定了关键词,就可以搜到这些基因。
【SOURCE】
序列的来源。
【ORGANISM】
将序列来源生物体按照生物分类,详细的写出来。属于【SOURCE】条目的补充。
【REFERENCE】
这里面序列不同的部分归功于的不同AUTHORS,TITLE,JOURNAL和PUBMED(我看到的基因序列一般都不分,序列很多很大的,可能是工作分为几次完成的,这里就会注明)。
【COMMENT】
这里有一些致谢等不适合放在上面条目中的内容,属于补充说明。
【FEATURES】
这个条目下细致的展示了序列中确定的,有着不同生物学功能的基因区域。
[source]
显示的是基因序列中特殊区域的来源。当你想区分克隆载体序列和受体生物序列时,这个条目就比较重要,不过在我们的例子中,所有序列都来源于大肠杆菌。
[regulatory]
这里会注明什么类型的regulatory,比如RBS或者启动子,并且注明位置。
/regulatory_class="ribosome_binding_site"
/regulatory_class="promoter"
[misc_feature]
假定的转录开始区域,或者茎环结构区域等。
/note="put. transcription start region"
/note="put.stem-loop structure"
[CDS]
CDS:CoDing Segment,该条目描述了基因的开放阅读框ORF的信息。
首先是ORF的位置,从起始密码子的位置到终止密码子(343..798);下面是起始密码子开始的位置,“/codon_start=1”说明序列343位置的氨基酸是起始密码子的第一个氨基酸;/transl_table=11说明翻译的标准是序号11的那套标准,即针对“The Bacterial, Archaeal and Plant Plastid Code”的翻译标准。
接着显示了蛋白质的ID,以及这个蛋白在其他数据库中的信息的超链接。
最后 /translation,是按照上面介绍的起始密码子终止密码子位置和翻译标准,机器翻译的氨基酸序列。
2. 针对真核生物基因(mRNA)的GenBank使用介绍
真核生物的举例我们继续用dUTPase基因,GenBank序列号U90223(人的基因),因为它在真核和原核生物中都广泛存在。
有一些条目比如【KEYWORDS】还没有大肠杆菌的结果写的全。这情况在数据库中很常见,很多基因的注释可能不完整,所以用关键词检索的时候,不会显示所有相关基因。
按照上面的方法检索得到的结果页与大肠杆菌的没什么太大的差别,因为我们检索的是mRNA而非全基因组。与原核不同的是,一些真核生物的某个基因的【source】里会注明在哪条染色体上。
当然数据库里也有真核生物一段较长的序列信息,【features】里会分段标注从a到b核苷酸是哪个基因。
3. 关于GenBank的其他信息
在检索页面右侧的一栏中,可以找到检索序列相关其他序列、文章和蛋白等信息。
GenBank也可通过关键词检索,而不是序列号(不过Gene-centric Database更适合,后面就介绍)。关键词的高级检索方法和之前介绍的一样。比如 “human [organism] AND dUTPase [Protein name] ”这样的。
4. 其他数据库
NCBI-Gene:
如果想要直接获得感兴趣的基因的信息,即重点是基因而非序列,那么可以在NCBI-Gene的数据库中检索。可以看到基因缩写名称,全称,位置,别名等围绕基因的信息。
NCBI-genome:
全基因组数据库。
还有另一个微生物全基因组信息的数据库网站,我觉得有的图比NCBI的好看:
https://img.jgi.doe.gov/
以及人类基因组计划数据库Ensembl网站,没事儿的时候可以逛一逛,看看一些你知道的基因在哪个染色体上什么的:
http://www.ensembl.org/Homo_sapiens/Info/Index
前期相关推送