Hi-C的应用
目前的二代+三代测序技术只能将基因组组装至Contigs/Scaffolds水平,无法展示完整的基因组信息,需借助遗传图谱、Hi-C技术等对基因组草图进行进一步提升。Hi-C辅助组装由于操作简便,准确性高,已成为辅助基因组组装的主流技术。
那么,Hi-C究竟如何辅助基因组组装?今天,百迈客就和大家分享一些Hi-C辅助组装小知识,让你轻松看懂“Hi-C辅助组装”
1、Hi-C辅助组装实验和分析
Hi-C技术源于染色体构象捕获技术,利用高通量测序技术,结合实验原理和数据分析,将contigs或scaffolds水平的基因组挂载到染色体水平。
从原理来讲,你可以大致理解为:染色质被包裹在一种3D结构中,序列在同一染色体上相距越近,在空间上也就越靠近,所以如何确认哪些contigs在空间上更接近,那么就可以变相认为这些contigs在一条染色体内
(1)细胞交联:利用甲醛将样品固定,将细胞内蛋白与DNA、DNA与DNA之间进行交联,保存其相互作用关系,维持细胞内的3D结构;
(2)内切酶酶切:利用限制性内切酶将DNA进行酶切,使交联两侧产生粘性末端。
(3)末端修复:利用末端修复机制,引入生物素标记的碱基,便于后续DNA纯化和捕获;
(4)环化:将末端修复后的DNA进行环化,将含有互作的DNA片段之间进行环化,确保后续测序和分析过程中确定互作DNA的位置;
(5)DNA纯化和捕获:将DNA解交联,纯化DNA,破碎为300 bp - 700 bp的片段,利用链亲和素磁珠捕获含有互作关系的DNA片段进行文库构建;
实验示意图如下:
Hi-C数据分析流程
Valid Pairs:双端Reads分别来源于空间上相邻但线性上不相邻的两个酶切后的DNA片段,其能够提供有效的交互信息。
需要经过数据筛选,获取符合要求的valid pairs,用于后续比对和位置信号分析,最终才能用于contigs的染色体聚类。
筛选过程的示意图如下:
这种情况,你可以认为是环化reads打断后,两端的reads不能提供有效信息,具体可能是超声波打断的随机性,环化拼接的随机性等等,所以需要筛掉,因为这些信息只能提供错误的信号,导致无法合理分染色体,分方向。往往如果hic热图不合理,建议查看有效数据量是否达标以及可以尝试用该数据去挂载同源已发表的物种,以此判断是数据问题还是组装问题。
Hi-C组装
3.1 Hi-C组装
软件算法原理如下:
已发表文章的示意图:
(2021 木薯基因组)---多套染色体在hic上面显示出来的多倍体信号
(2021 肺鱼基因组)---在染色体末端和中部会有一些重复信号
3.2 Hi-C分型
文:打工人
排版:市场部
Servant N, Varoquaux N, Lajoie BR, Viara E, Chen CJ, Vert JP, Heard E, Dekker J, Barillot E. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing. Genome Biol. 2015 Dec 1;16:259. doi: 10.1186/s13059-015-0831-x. PMID: 26619908; PMCID: PMC4665391.
Garg S, Fungtammasan A, Carroll A, Chou M, Schmitt A, Zhou X, Mac S, Peluso P, Hatas E, Ghurye J, Maguire J, Mahmoud M, Cheng H, Heller D, Zook JM, Moemke T, Marschall T, Sedlazeck FJ, Aach J, Chin CS, Church GM, Li H. Chromosome-scale, haplotype-resolved assembly of human genomes. Nat Biotechnol. 2021 Mar;39(3):309-312. doi: 10.1038/s41587-020-0711-0. Epub 2020 Dec 7. PMID: 33288905; PMCID: PMC7954703.
Meyer A, Schloissnig S, Franchini P, Du K, Woltering JM, Irisarri I, Wong WY, Nowoshilow S, Kneitz S, Kawaguchi A, Fabrizius A, Xiong P, Dechaud C, Spaink HP, Volff JN, Simakov O, Burmester T, Tanaka EM, Schartl M. Giant lungfish genome elucidates the conquest of land by vertebrates. Nature. 2021 Feb;590(7845):284-289. doi: 10.1038/s41586-021-03198-8. Epub 2021 Jan 18. PMID: 33461212; PMCID: PMC7875771.
百迈客生物基于高通量测序技术、生物信息分析技术和生物云计算技术,为广大科研工作者提供以综合技术服务、生物云分析、三代高通量测序以及试剂、仪器等科研周边业务。
公司拥有Nanopore、PacBio、Illumina、Waters、10XGenomics等主流服务平台,以及基于云架构的生物云计算平台—百迈客云,提供涵盖人重外显子、三维基因组、单细胞与空间转录组、基因组组装、转录调控、微生物、群体遗传、质谱及表观遗传等研究方向的技术服务。目前百迈客云平台拥有200多款基因分析工具,分析结果可直接用于文章发表,更有近百部科研相关视频和8大基因数据库助力科研工作者深度数据挖掘。
自公司成立起先后在《Cell》、《Nature》、《Nature Genetics》、《Nature Communications》、《Plant Cell》等学术刊物发表论文数千篇,拥有国家发明专利技术40余项,软件著作权近200余项。
我们一直秉承”生物科技创新,服务社会,造福人民”的企业使命,致力于打造“生物科技创新中心”的发展愿景,让生物科技更快,更好的提高人类生活质量。