概念
ChIP-seq是一种基于染色质免疫共沉淀(ChIP)和二代测序(seq)的技术。通过ChIP-seq,可以确定蛋白质与DNA的相互作用情况。目前,ChIP-Seq研究主要包括两大类应用:转录因子(TF)ChIP和组蛋白(Histone)ChIP。
转录因子是能够结合在某基因上游5’端特异序列上的蛋白质,它们作为反式作用因子,与真核基因的顺式作用元件如启动子、增强子等发生特异性相互作用,从而激活或抑制基因的转录。通过转录因子的ChIP-seq,可以确定靶蛋白是否结合特定基因组区域(如启动子或其它DNA结合位点)。
另一方面,组蛋白是染色质的基本组成单位,通过组蛋白的修饰,可以调控基因的表达。通过组蛋白ChIP-seq,可以获取组蛋白结合的DNA,进而确定组蛋白在染色体上的分布情况,以及组蛋白修饰相关的特定位点。
应用场景
1.确定转录因子在整个基因组上的结合位点,进一步分析转录因子的结合motif、作用通路等;
2.确定组蛋白修饰情况,检查不同组蛋白之间结合相同的基因在TSS上的位置,以验证组蛋白的功能和意义;
3.比较组蛋白亚基之间在基因组上结合的基因的包含关系;
4.利用ChIP-seq得到核小体定位图谱;
5.研究DNA甲基化情况。
原理
1、Crosslinking:使用甲醛将目标蛋白与染色质交联固定起来(细胞具有通透性,生理状态下,转录因子和DNA的结合不稳定,所以需要用甲醛处理稳定结合,防止在后续打断DNA时lose binding。如果是研究核小体的位置和组蛋白修饰的位置,Histone的结合本身很稳定,可以免去Crosslinking这一步);
2、细胞裂解提取核DNA,通过超声打断DNA或者用核酸酶进行消化,DNA被打成小片段:
三分之一破碎产物解交联,凝胶电泳检测总DNA完整性和片段化情况,
三分之一破碎产物加抗体-磁珠为实验组,孵育形成磁珠-抗体-靶蛋白-DNA复合物,孵育后上磁力架,洗脱得到免疫结合复合体=抗体+靶蛋白+DNA
三分之一破碎产物直接解交联,纯化DNA作为control;
3、解交联,用蛋白酶消化蛋白,从而与DNA分开,纯化DNA即可得到染色质免疫沉淀的DNA片段
4、给这些DNA小片段加上接头,建库,然后进行二代测序,测出来的也就是靶蛋白结合的小片段。
这样测序得到的 DNA 片段匹配映射到参考基因组,这些DNA片段其实是随机的,靶蛋白结合的片段越多,测序获得的数据就越多,那么在该位置检测到 DNA 片段堆叠就会越高,反之如果没有蛋白结合,在该位置就会几乎没有DNA 片段堆叠,这些DNA片段堆叠叫做峰 (Peak)。下图中红色和蓝色的箭头代表在基因组中mapping的正负链,最后对两个peak进行merge之后,就会得到最终的peak,然后就会得到我们在文章里最常见的一种ChIP-seq峰图,y轴是映射上去的片段拷贝数,代表ChIP-seq的信号强度,x轴就是基因组坐标:
分析流程
一、测序数据质量控制
拿到数据之后用FastQC检查测序质量,这样就可以在后面序列比对的时候把质量差的碱基在设置参数时给去掉。
二、序列比对
比对的目的就是“推本溯源”,把我们的reads比对到参考基因组上,利用Bowtie2或这BWA看看我们过滤后的reads能匹配到基因组的什么位置
三、Peak calling
用MACS2寻找基因组中大量短读片段富集的区域。靶蛋白结合的片段越多,测序获得的数据就越多,那么在该位置检测到 DNA 片段堆叠就会越高,反之如果没有蛋白结合,在该位置就会几乎没有DNA 片段堆叠,将这些DNA片段堆叠用柱状图画出来,就会得到文章里出现的峰图 (Peak)
四、Peak annotation
包括基因组注释、GO分析、Pathway 分析、motif 查找等等。所谓Peak注释,就是得到了靶蛋白在基因组区域的结合峰位置后,对峰位置进行注释。注释有两类,genomic annotation和nearest gene annotation:
genomic annotation是看peak在基因组的位置,在各种基因组区域(基因上下游,5,3端UTR,启动子,内含子区)分布情况。
nearest gene annotation是peak相对于转录起始位点(TSS)的距离,不管这个peak是落在内含子或者别的什么位置上,都能够找到一个离它最近的基因(即使它可能非常远),这种主要是应用于基因表达调控,因为启动子区域是重点,所以离TSS最近的基因更有可能被调控,所以这些peak区域附近的基因就作为其候选的调控基因。
将前面分析得到的Peak注释基因,还可以进行后续富集分析包括GO分析、KEGG分析等,落脚到基因的功能上来
对 Peak 区域鉴定 motif 序列。在序列片段的每个位置上,得到不同碱基的数量,形成一个矩阵,将得到的 motif 序列与 JASPAR 数据库进行比对,根据碱基数量权重,形成这样的logo图,字母越大的,说明这个位置是这个碱基的可能性更大,从而鉴定出靶蛋白binding的 motif。
参考:
https://zhuanlan.zhihu.com/p/512151222
--END & THANK YOU--
推荐:最新的生信综合性平台
功能介绍
4. 生信专业期刊最新文献追踪
NewMer生信 感谢您的关注!!
www.bioinforw.com