cover_image

PBJ | 大麦端粒到端粒(T2T)高质量基因组组装前景分析:评估MorexV3参考基因组中的gaps

PBJ 植物生物技术Pbj
2022年04月01日 01:54

图片



基因组测序和组装方法学的最新进展使完整真核染色体序列的无缝隙组装成为可能。最近首次报道了植物染色体的无间隙、端粒到端粒(T2T)序列组装。然而,大多数植物的基因组序列仍然是碎片化的。只有最近在精确长阅读测序方面的突破才有可能实现每条染色体具有数十个重叠群的高度连续的序列组装,以允许系统地研究剩余序列空白的原因。

图片 


2022年3月25日,来自Leibniz Institute植物遗传和作物研究所的Martin Mascher团队在国际知名期刊“Plant Biotechnology Journal”上发表了题为“Prospects of telomere-to-telomere assembly in barley: analysis of sequence gaps in the MorexV3 reference genome”的研究论文。该论文分析了目前大麦MorexV3参考基因组中的序列差异,利用光学作图和序列原始数据,辅以着丝粒组蛋白CENH3的芯片序列数据,估计了大麦基因组中着丝粒、核糖体RNA和亚端粒重复序列的丰度。结果表明,大麦的功能基因座,如着丝粒和核糖体DNA簇,只有当序列阅读长度超过100kb甚至1Mb时才能组装。


评估基因组组装完整性的一种简单方法是将组装的大小与整个基因组的估计大小进行比较。到目前为止,用于估计植物基因组大小的唯一不依赖于DNA序列的方法是Feulgen显微分光光度法和流式细胞术。MorexV3组装的7条染色体大小为4.196Gb,其中29.1Mb位于未定位的重叠群中。之前的大麦基因组MorexV1和MorexV2分别为4.834Gb和4.343Gb。MorexV3基因组大小可能低于真实的基因组大小,因为长阅读序列可能会在长的低复杂性G/A或T/C丰富区域中丢失。另一种推断基因组大小的方法是基于对组装的序列比对中的平均覆盖率。作者将HiFi、PE450和ONT序列与MorexV3进行了比对,总结了序列深度并估计了基因组大小,最终估计基因组大小为4.7Gb。

图片



大麦染色体的端粒由数千个TTTAGGG重复拷贝组成。为了评估MorexV3染色体末端的完整性,作者将MorexV3染色体与Morex Bionano光学图谱进行比对,发现所有短臂和三个长染色体臂的末端缺少序列,而且短臂末端缺失的序列(17~220kb)一般大于长臂(10~80kb)。值得注意的是,染色体末端真正缺失的序列比估计的还要大,因为光学图谱在末端区域不完整。为了补充说明,作者研究了PacBio HiFi和ONT长读中的端粒卫星重复序列,具有长于1kb的TTTAGGG序列的ONT段数仅被映射到三个染色体臂(2HL、3HL、5HL)的远端。在3HS和7HL的2Mb末端也发现了TTTAGGG序列,但在MorexV3染色体的末端没有发现,这表明存在间隙序列或序列取向错误。



图片图片 



大多数物种的功能着丝粒独立于其潜在的DNA序列,由着丝粒特异组蛋白CENH3来定义。作者试图在不使用着丝粒序列的情况下,使用Hi-C和ChIP-seq在MorexV3中定位着丝粒。Hi-C研究表明所有大麦染色体的接触矩阵都表现出具有较强的主对角线和较弱的反对角线。ChIP-seq观察到CENH3芯片峰与方向性指数的跃升一起下降,并与所有染色体上的AGAGGG序列共同定位。

图片 



核内最重要的的功能区域之一是核仁组织者区域。它由45S rRNA组成,排列在高度保守的18S、5.8S、和26S rRNA基因簇组成的长阵列中。为了弄清楚参考基因组中包含了45S的哪一部分,作者利用用于生成DLE-1光学图谱的原始数据,全基因组图谱显示了三种主要的标记串联重复序列2.2-2.5kb、8.6-9.1kb和9.6-10kb。后两者的大小分别对应于5H和6H染色体上rRNA的大小,BLAST搜索分别在5H的52.6-53.7Mb和6H的81.9-82.4Mb之间,这些位置对应于Morex大麦的45S rRNA基因座。


最后,作者检查了ONT读数是否存在HiFi无法跨越的长(>20kb)重复序列。更长的ONT读数可以跨越整个间隙,或者至少能够通过在读取的至少一端存在单拷贝序列来定位长序列。TRF在ONT读数中鉴定出的最丰富的基序是三核苷酸微卫星AAC、AAG、ACT和ATC。共有7,655个读数包含长度超过20kb的三核苷酸阵列。具有50,473个AAG拷贝的最长阵列跨越153 kb。与重复序列相邻的独特序列使得有可能将包含重复序列的ONT读数分配给染色体位置。


图片 


综上所述,长的低复杂性序列的分辨将是大麦染色体T2T组装的最大挑战。大麦的功能基因座,如着丝粒和核糖体DNA簇,只有当序列阅读长度超过100kb甚至1Mb时才能组装。

原文链接:

https://onlinelibrary.wiley.com/doi/abs/10.1111/pbi.13816




图片

植物生物技术Pbj 交流群


为了能更有效地帮助广大的科研工作者获取相关信息,植物生物技术Pbj特建立微信群,Plant Biotechnology Journal投稿以及文献相关问题、公众号发布内容及公众号投稿问题都会集中在群内进行解答,同时鼓励在群内交流学术、碰撞思维。为了保证群内良好的讨论环境,请先添加小编微信,扫描二维码添加,之后我们会及时邀请您进群。小提示:添加小编微信时及进群后请务必备注学校或单位+姓名,PI在结尾注明,我们会邀请您进入PI群

图片

图片


继续滑动看下一个
植物生物技术Pbj
向上滑动看下一个