【陪你学·生信】三、核苷酸序列数据库的使用

原创毕苒番茄随笔

这章内容将介绍如何使用NCBI的常用数据库检索序列或查找基因。

一、基本生物学概念

在使用数据库之前，我们先来看看基因，基因组的生物学概念。

生物中基因都是核苷酸序列构成的，但是在原核和真核生物中，他们差别较大。

原核生物 VS 真核生物

对于生信分析，原核生物和古细菌是很相似的（相比于真核生物），常常会把两个数据放在一个数据库。

真核生物包括很多，小到酵母，大到树木、鲸鱼等。虽然真核生物体千差万别，但是它们的基因组也有一些共性。

‍‍‍‍

1. 原核生物和古细菌

（1）它们都是微生物。

（2）遗传物质是单一环状DNA分子。

（3）基因组大小约为几百万个碱基对。

（4）它们的基因密度大约为每1,000个碱基对一个基因。

（5）基因几乎没有冗余，70%可编码蛋白质。

（6）基因不重叠。

（7）启动子之后就是转录区域。

（8）无内含子。

（9）蛋白质序列从最长的开放阅读框翻译而来（从ATG到终止密码子）。‍‍‍‍

2. 真核生物

（1）基因组由多条染色体组成

（2）基因组非常大（1000万到6700亿碱基对）

（3）基因密度100,100碱基对一个基因

（4）在人类基因组中，小于5%的基因编码蛋白质

（5）基因可能重叠

（6）也是在启动子后开始转录，但是距离很远的一些序列也可能干扰这个过程。

（7）基因序列与产生的mRNA，蛋白质不一一对应，只有小部分外显子对应。

（8）基因通常编码一种以上的mRNA（蛋白质）。

下图简单的展示了细菌基因组，转录本（mRNA），开放阅读框（ORF）和蛋白质（核糖体结合位点（Ribosome Binding Site,RBS）），原核生物中它们的关系是线性的。mRNA序列中RBS之后的部分会被翻译为蛋白质。

由于这些特质，所以原核生物的数据库中，一般包含三个重要信息，即启动子、RBS、ORF边界的位置。而基于真核生物基因序列与mRNA，蛋白质之间复杂多变的对应关系（非线性），数据库中的条目会更多。

二、使用NCBI查询序列

1. 针对原核生物基因分析的GenBank使用介绍

原核生物基因组相对小，而且DNA序列，mRNA，ORFs，蛋白序列对应关系相对简单，所以数据库中原核生物的基因组注释等信息较为易懂。下面依旧以大肠杆菌dUTPase基因为例（GenBank ID X01714），介绍GenBank中原核生物基因的一些条目和操作。

（1）打开网页

https://www.ncbi.nlm.nih.gov/genbank/

（2）在检索栏里，选择Nucleotide库，输入GenBank ID X01714。

（3）这个页面差不多显示了全部的信息，默认格式是GenBank的，有一些方便的功能按钮，比如这里是format的选择，可以以FASTA格式显示。右侧send to可以下载文件。

（4）结果显示页面出现的名词介绍

在GenBank格式的结果显示页面左侧，有一系列条目，简单介绍一下它们是什么。

原核生物GenBank格式条目介绍

‍‍【LOCUS】

基础信息，包含名称代号（X01714），核苷酸序列大小（1609 bp），类型（DNA），拓扑结构（linear），上传/修改时间（BCT 23-OCT-2008）。

【DEFINITION】

对于该基因的简短定义。

【ACCESSION】

就是accession number，登记号。

【VERSION】

同义或过去使用过的ID号。

【KEYWORDS】

描述该序列的关键词，检索的时候如果设定了关键词，就可以搜到这些基因。

【SOURCE】

序列的来源。

【ORGANISM】

将序列来源生物体按照生物分类，详细的写出来。属于【SOURCE】条目的补充。

【REFERENCE】

这里面序列不同的部分归功于的不同AUTHORS，TITLE，JOURNAL和PUBMED（我看到的基因序列一般都不分，序列很多很大的，可能是工作分为几次完成的，这里就会注明）。

【COMMENT】

这里有一些致谢等不适合放在上面条目中的内容，属于补充说明。

【FEATURES】

这个条目下细致的展示了序列中确定的，有着不同生物学功能的基因区域。

[source]

显示的是基因序列中特殊区域的来源。当你想区分克隆载体序列和受体生物序列时，这个条目就比较重要，不过在我们的例子中，所有序列都来源于大肠杆菌。

[regulatory]

这里会注明什么类型的regulatory，比如RBS或者启动子，并且注明位置。

/regulatory_class="ribosome_binding_site"

/regulatory_class="promoter"

[misc_feature]

假定的转录开始区域，或者茎环结构区域等。

/note="put. transcription start region"

/note="put.stem-loop structure"

[CDS]

CDS：CoDing Segment，该条目描述了基因的开放阅读框ORF的信息。

首先是ORF的位置，从起始密码子的位置到终止密码子（343..798）；下面是起始密码子开始的位置，“/codon_start=1”说明序列343位置的氨基酸是起始密码子的第一个氨基酸；/transl_table=11说明翻译的标准是序号11的那套标准，即针对“The Bacterial, Archaeal and Plant Plastid Code”的翻译标准。

接着显示了蛋白质的ID，以及这个蛋白在其他数据库中的信息的超链接。

最后 /translation，是按照上面介绍的起始密码子终止密码子位置和翻译标准，机器翻译的氨基酸序列。‍‍

2. 针对真核生物基因（mRNA）的GenBank使用介绍

真核生物的举例我们继续用dUTPase基因，GenBank序列号U90223（人的基因），因为它在真核和原核生物中都广泛存在。

有一些条目比如【KEYWORDS】还没有大肠杆菌的结果写的全。这情况在数据库中很常见，很多基因的注释可能不完整，所以用关键词检索的时候，不会显示所有相关基因。

按照上面的方法检索得到的结果页与大肠杆菌的没什么太大的差别，因为我们检索的是mRNA而非全基因组。与原核不同的是，一些真核生物的某个基因的【source】里会注明在哪条染色体上。

当然数据库里也有真核生物一段较长的序列信息，【features】里会分段标注从a到b核苷酸是哪个基因。

3. 关于GenBank的其他信息