生物信息学可以当作分子生物学的一个计算机分支。生物学中,在活体上的实验叫做in vivo;人工环境离体实验叫做in vitro;延伸一下,生信又可以视为in silico的生物学实验(经常在论文中看到这个描述)。
下面是生信研究的一些基础方向,可以对它有个大概的了解。
1. 分析蛋白质序列
现在我们都知道,蛋白质是由氨基酸组成的,第一次确定蛋白质的氨基酸序列是在1951年。
insulin=MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
现在分析蛋白质序列仍是生信的一个主要研究内容。包括从数据库中提取蛋白质序列;计算氨基酸组成,分子质量,等电点等其他参数;判断蛋白质是亲水性还是疏水性蛋白,预测抗原位点和跨膜片段位置;预测蛋白质二级结构单元和结构域;通过序列预测其3D结构并生成蛋白质3D结构可视化模型;寻找所有具有相似序列的蛋白质,进行多序列比对,对蛋白质进行归类并研究亲缘关系。
一些关于蛋白质序列的小知识
(1)蛋白质序列的顺序:由N到C
(2)蛋白质3D结构:第一个蛋白质的3D模型是在1958年确立的,后来人们建立了“相似氨基酸序列→相似结构→相似功能”的逻辑链,也是分子生物学和生信的理论基础。
2. 分析DNA序列
利用生信工具可以从数据库中提取DNA序列;计算核苷酸组成;识别限制性酶切位点;设计PCR引物;识别开放阅读框(ORFs);预测DNA或RNA的二级结构元件;寻找序列中的重复;计算多序列的最佳比对方式;发现基因中的多态位点(单核苷酸多态性,SNPs);拼接组装(assembling)序列片段等。
一些关于DNA序列的小知识和注意
(1)顺序:由5‘端到3’端
(2)序列两端:5‘端有磷酸基团,3’端是羟基。
(3)DNA是双链,当我们处理序列的时候往往看其中一条链,但是要记得它是双链的。绝大多数工具在分析的时候都会将两条链考虑进去,但是有的工具只会分析你输入的序列,不会考虑它的互补链,这时候不要忘记手动分析另一条链,让结果更加完整。
3. 分析RNA序列
一些关于RNA的小知识
(1)与DNA在核苷酸组成上不同,DNA中的T,在RNA中对应U。但是有一些软件在分析RNA序列时,仍然出现T,其实是U的意思。而且因为RNA序列是DNA编码的,所以人们也更倾向直接分析它们对应的DNA序列,而不是RNA。
(2)虽然RNA是单链,但是它的碱基依然互补并形成各种不同的结构,从而发挥不同的功能。近年生信不断发展新的工具来预测RNA结构。
4. 分析全基因组序列
全基因组测序开启了基因组学,全基因图谱的时代。与早期逐个基因研究相比,现在无需任何前期知识依据,测序的同时就可以对其注释,通过一系列生信分析,了解生物的未知信息。
利用生信我们可以分析与特定基因组有关的序列;解析微生物基因组序列(ORFing);解析真核基因组序列(GenScan);寻找直系同源和旁系同源基因;寻找基因组中的重复并分析基因组基本特征等。