cover_image

转座子

义冠 AI写代码的DNA
2021年07月24日 14:56


转座子transposable elements(TEs) 是真核细胞基因组的重要组成部分。其对基因组进化以及某些基因相关的疾病有重要影响。

转座子分类

转座子是一类能够在基因组上移动其位置的DNA序列。

根据转座机制不同,可以将转座子分为两类:

Class I:逆转座子,以RNA为中间媒介,基因组->DNA-> RNA->cDNA->基因组,其中涉及到逆转录,其转座形式类似于复制粘贴。比如最常见的长末端重复逆转座子LTR,在“粘贴”整合过程中,使用到了逆转录病毒类似的整合酶。此外,还有非长末端重复转座子non-LTR,比如,LINESINE

Class II:DNA转座子,主要以DNA为媒介,不涉及RNA逆转录。转座形式类似于剪切黏贴

图片

【转座子的层级分类】


图片

【两大类转座子在不同物种中的占比。Sc: Saccharomyces cerevisiae; Sp: Schizosaccharomyces pombe; Hs: Homo sapiens; Mm: Mus musculus; Os: Oryza sativa; Ce: Caenorhabditis elegans; Dm: Drosophila melanogaster; Ag: Anopheles gambiae, malaria mosquito; Aa: Aedes aegypti, yellow fever mosquito; Eh: Entamoeba histolytica; Ei: Entamoeba invadens; Tv: Trichomonas vaginalis.】

图片

【DNA转座子,包含中间序列和末端重复序列。中间序列可以转录表达转座酶,转座酶可以识别末端重复序列,进而将转座序列切除,并转移到基因组其他位置】

转座子在基因组上的分布并不随机

对于不同类型的转座子,基因组可以看成是其生态系统,转座子通过与基因组环境以及和其他转座子之间复杂的相互作用,实现转座子自身的扩增。这种相互作用类似于生态学中的寄生、共生、竞争等关系。因而,转座子在基因组上的分布也并非完全随机分布。转座子插入会倾向发生在某些特定的基因组结构中。转座子的插入还会受到自然选择压力,如果插入对宿主细胞造成严重伤害,则这种转座插入不利于转座子本身。更有一些极端的转座子只能在特定的基因组序列中插入,以便在最大可能减少对宿主的伤害。

自然选择和遗传漂变对转座子的分布有重要影响。一般情况下,插入事件对宿主多是有害的,自然选择会将其从群体中移除。某些对宿主适应性影响不大的转座子在遗传漂变的作用下,可能会在群体中固定下来。这也解释了为什么基因组中有些区域富集转座子,有些区域则很少含有转座子。

比如,在人类基因组中,逆转座子LINE1 (L1)是能够发生在人类基因的外显子中的,但是人类基因外显子中却很少发现L1。究其原因,还是外显子的转座插入给宿主带来了较大的危害,自然选择倾向于将其淘汰。研究还发现,转座子在不同哺乳动物进化分支上的分布是相对保守的,即不同物种的基因组中,转座子的分布比较相似。这一系列的证据都在说明,转座子基因组上的分布受到转座子自身特性和宿主基因组选择压力的共同作用,从而使其在基因组上的分布并非随机。

转座子造成突变和基因多态

转座子在物种基因组中占有较大的比例。在人类基因组中,转座子占44%;在玉米中,其基因组有60%-70%是由LTR逆转座子组成的,有些还是物种独有的。

黑腹果蝇中的一些转座子在拟果蝇的同源位点却不存在,说明这些转座是新发的。可见很多转座子还很活跃,转座过程是导致基因组突变的一个重要原因。在实验室中,有超过一半的黑腹果蝇表型突变是由于各种不同的转座子转座插入导致的。同样的,在实验室小鼠群体中,也有10%-15%的表型突变是由于LTR转座子导致的。而且,这一估计可能还是比较保守的,研究显示,当物种在较大生存压力的条件下,转座的发生频率会更高。因而,对于野外自然种群,转座导致的突变可能比实验室种群更为普遍。

在群体中固定下来的转座子,随着时间的流逝,这些转座子会被各种点突变侵蚀,并且最终导致转座子失去转座能力。比如,在人类单倍体基因组中,有~500000个L1拷贝,但是其中的99.9%是在群体中固定下来的,并且由于各种突变的累积,这些L1转座子不再具有转座活性。犹如一座死火山存在于人类的基因组中。

研究估计,每个人还含有100个具有活性的L1拷贝,这些L1拷贝还很年轻,在人群中还没有进化固定下来。所以,人类的参考基因组并不能表示其含有人类所有的转座子。任何两个人类单倍体基因组大概都有1000个不同的转座插入,这些转座插入主要是L1转座子和Alu转座子。在其他物种,比如玉米,其各个基因组的转座差异可能更大。

另外,转座子的水平转移也是非常普遍的,几乎涉及到每一个物种。目前这种水平转移的机制还尚待进一步研究。

转座子影响基因重排

转座子会导致基因组的增大, 这在一定程度上抵消了基因组的删除变异导致的基因组变小。两个作用共同维持了真核生物基因组大小的相对稳定。但是转座子的插入并非精确,转座过程又是会影响到周边的宿主序列,从而导致宿主序列的重复和重排,而且可能会影响到功能基因或者其调控序列。比如,有研究发现在大米中,MULE的DNA转座子导致了1000个基因片段的重排。

除了上述转座直接带来的基因重排外,转座子还会给基因组带来很多散布的重复序列。即便是转座子本身失去转座能力,其带来的重复序列也是诱导基因组结构变异的因素之一。比如基因重组,重复序列使得非同一位置的交叉互换成为可能,因而导致较大规模的序列缺失、序列重复和序列倒位。

转座子可能形成特性的染色体结构。双翅目昆虫在进化过程中端粒酶丢失,但是在果蝇中,人们发现类似LINE的逆转座子起到了类似端粒酶的作用,形成并维持了果蝇染色体的端粒。事实上,很多人也认为端粒酶中的逆转录酶起源于逆转录元件的一个古老分支。

转座表达和转座抑制

为了在进化中得到持续,转座子必须在表达和抑制中寻找到平衡。转座子的过度表达可能会给宿主基因组带来过多的害处,从而也不利于转座子自身的维持。这也是为什么很多转座相关的酶并不处于其最活跃状态,也解释了为什么很多转座子含有自身调控机制。

此外,宿主本身也还有很多调控转座的机制,比如小RNA的形成,染色质的形成,DNA修饰,以及一些抑制转座的因子。但是宿主抑制转座的机制并不能长期存在,还要考虑到细胞本身基因表达的需要,比如在胚胎发育早期,宿主要避免过度的转座抑制,否则会影响到自身发育。再比如,在生殖系细胞形成过程中,基因组大量DNA去甲基化(去除“遗传印记”),这对转座子是一个千载难逢的好机会,去甲基化的DNA有利于转座的发生。

针对不同的组织和生命阶段,转座对宿主的影响也存在很大差异。在转座子看来,应该尽量避免在体细胞中表达,在体细胞中表达不能传递给下一代,对转座子自身的维持和进化无益。一些研究也确实如此,证明了转座更加倾向于在生殖系细胞中发生。

转座子在体细胞和生殖系细胞中导致的突变

和其他很多物种类似,在人类中,转座表达和转座抑制仍然是在一个动态竞争过程。比如L1逆转座子依赖于其编码的逆转座蛋白。这些逆转座在人类生殖系细胞中的插入是导致遗传病的原因之一。研究显示,有超过120个独立转座插入是和人类疾病相关的。对于L1转座子,其在人类生殖系新发生的概率是每95个新生儿中有1个,对于Alu转座子,其发生概率是每21个新生儿中有1个。

既往对转座子的研究多集中于生殖系细胞中,因为体细胞转座对进化意义不大。但是实际上,转座子在体细胞中仍然是比较活跃的。在人类中,L1的表达和转座在不同的体细胞中都有发生,包括早期胚胎细胞和某些干细胞。在哺乳动物大脑中,一些转座子也有发生。但是研究体细胞转座最大的挑战来自如何进行单细胞插入位点的识别。

体细胞中的转座活动和人类的肿瘤有关,某些肿瘤细胞可能会形成数百个新的转座插入。新转座的插入导致了肿瘤抑制因子的失活,从而促进了肿瘤的发生。

转座在带来的其他危害

转座子的直接危害是其导致的DNA断裂和插入。但是它并不是唯一(甚至不是最主要)危害宿主的方式。被激活的转座子可以通过多种方式危害宿主。比如,转座子的去抑制以及其发生的转录都可能会干扰到宿主自身mRNA的正常功能。再比如,转座子编码的蛋白(内切酶)会导致宿主DNA的断裂,影响基因组稳定。此外,RNA转录的累积和转座子带来的外源DNA序列可能激发机体固有免疫反应,从而导致自身免疫疾病和无菌性炎症。

转座子完成转录之后,要进行翻译,以及逆转录(对于逆转座子),该过程的发生会导致细胞质DNA的形成,以及DNA:RNA杂合序列的存在,这可能会诱导细胞炎症反应。

虽然并不是所有的转座子都编码蛋白,但是很多转座子的转座过程会翻译出蛋白,比如Gag蛋白,Pol蛋白,Env蛋白。其中Env蛋白具有细胞毒性,和神经元退行性疾病、肌萎缩性侧索硬化症等有关。

转座导致的编码和非编码RNA

转座插入给宿主带来的并非只是坏处,转座插入可能会给一些编码基因和非编码RNA的出现提供原始材料,并且发挥重要的细胞功能。这一过程也称之为转座子的驯化domestication

转座子驯化对细胞保守功能的形成具有重要作用。某些转座子编码的基因可能会被宿主驯化,使转座子失去独立转座的能力,成为宿主基因组的一部分。比如在脊椎动物免疫系统中,Rag1Rag2两个基因都是来源于5亿年前某个DNA转座子,其被宿主驯化之后,对宿主V(D)J体细胞重组有重要作用,从而促进了免疫系统的功能。

LTR逆转座子的gag基因和env基因以及内源性逆转录病毒(ERVs)也经历了宿主的驯化,对胎盘发育、外源逆转录病毒免疫、大脑发育等有重要作用。

多次独立对env基因的驯化,形成了syncytins基因,从而促进了胎盘中细胞的融合和合胞体兹养层的形成。syncytins基因几乎在所有的哺乳动物分支中都有发现,可见转座子对生物进化也是有积极意义的。

在四足脊椎动物祖先中,通过对LTR转座子的gag基因驯化,形成了Arc基因, 该基因对记忆的形成和突触的可塑性有重要意义,它保留了gag基因的大部分功能,比如对自身RNA的包装和胞间转运。同样,在果蝇中,也发现 类似的基因,其起源是对不同支系LTR逆转座子类似gag基因的驯化(类似于脊椎动物)。

上述例子都是转座子将自身基因贡献给了宿主基因组,有时,转座子可以作为外显子添加到宿主某些基因中。比如人类中,Alu常常容易被当做外显子而成为某个基因的一部分。

研究显示,L1转座子和人类基因组中成千上万的逆转录基因有关。其中很多逆转录基因仍然具有活性,并发挥着重要的细胞功能。有估计,每6000人中就有1人含有一个新的逆转录基因。

转座子还和很多非编码RNA有关。比如,IncRNA对保持干细胞全能性。包含在IncRNA和mRNA中的转座子序列能直接调节其RNA的稳定性等功能。

转座子对顺式调控元件的作用

转座子能够通过影响顺式调控元件来影响基因的表达。比如,通过影响启动子上游的转座子的甲基化水平,能够改变小鼠皮毛的颜色。在油棕榈中,位于一个控制开花基因中的转座子的甲基化水平,最终决定了该株植物是否产含油量高的果实。转座序列含有一个基因调控网中所需的所有要件。

研究转座子需要特殊工具

长期以来人们忽略了对转座子的研究,即便现在人们对转座子研究也很具挑战。特别是转座子高度重复性的序列,在分析这些转座子时往往需要特有的一些实验和分析工具。很多序列靶向工具,比如PCR或者CRISPR-Cas9,需要避免转座子导致的重读序列,保证靶向序列的唯一性。

同样的,这种重复序列对基因组比对也颇具挑战。不同物种重读序列比对难度也有所差异。比如在小鼠中,很多转座子是最新发生的,对这些重复序列的比对要比对人的比对困难。

此外,测序读长的增长,特别是三代长读长测序,在一定程度上解决了转座子带来的重复序列的比对。

最后

作为一种插入性致突变因素,转座子对宿主基因组既有积极的一面,也有有害的一面。在人类等大多数物种中(特别是有效群体数量较小的物种),转座子在遗传漂变的作用下,大都在群体中固定下来,其对宿主基因组的影响是近乎中性的。

转座子在基因组中的分布不是随机的。转座的发生是基因变异的重要诱因,同时也会有调控基因表达的作用。

读到最后,很多人会有一个想法,转座子不是和病毒很像吗?!确实如此,转座子和很多病毒有相似的基因组组成,所以也有假说认为转座子和某些病毒是有共同祖先的,或者病毒起源于转座子。


【感谢阅读,欢迎转发分享】



参考资料:Bourque, G., Burns, K. H., Gehring, M., Gorbunova, V., Seluanov, A., Hammell, M., ... & Feschotte, C. (2018). Ten things you should know about transposable elements. Genome biology, 19(1), 1-12.

https://www.nature.com/scitable/topicpage/transposons-the-jumping-genes-518/

Mustafin, R. N. (2018). Hypothesis on the Origin of Viruses from Transposons. Molecular Genetics, Microbiology and Virology, 33(4), 223-232.



继续滑动看下一个
AI写代码的DNA
向上滑动看下一个