ChIP-seq数据库及实战数据介绍

原创豆豆花花生信星球

今天是生信星球陪你的第592天

大神一句话，菜鸟跑半年。我不是大神，但我可以缩短你走弯路的半年~

就像歌儿唱的那样，如果你不知道该往哪儿走，就留在这学点生信好不好~

这里有豆豆和花花的学习历程，从新手到进阶，生信路上有你有我！

豆豆写于2020.4.11
【正文开始】昨天很巧，在优秀小分队中有云农的童鞋说到陈老师上课推荐了我们，真是缘分，很开心能在前进的道路上有一群志同道合的朋友👬。
昨天不知不觉又被花花怼了，不过没关系，怼也是一种爱。我比较喜欢早睡早起，所以忙到十一点就赶紧去睡觉，保证第二天七点能自然醒，这是一种很舒服的感觉，另外家里买的慕斯床垫真的是…躺上去就想睡觉，而且睡觉像考拉（还是盼着花花的家具攻略吧）。
【正文结束】
-------------------------------------------
之前介绍的算是ChIP-seq分析的前言部分：
1：了解ChIP-seq的实验流程
2：继续了解ChIP-seq
3：关于ChIP-seq的实验对照与偏差来源
4：ChIP-seq的实验设计补充
接下来，将逐步进行实战的练习，还是像以往一样，我会将重点部分多加一些介绍

1 数据库介绍

ENCODE数据库收录了成百上千个数据集，为了方便数据比较和整合，一般会有选择地选择细胞系和实验处理产生的数据

测序数据一般有两个地方下载：

从GEO 下载 NCBI Sequence Read Archive (SRA) ：ncbi.nlm.nih.gov/geo
从Array Express下载EBI Sequence Read Archive (ERA) ：ebi.ac.uk/arrayexpress

大型数据库：

ENCODE (encodeproject.org)
NIH Roadmap Epigenomics (roadmapepigenomics.org):
它的数据网站已经不维护了（因为资金到期），提供了两个ftp数据下载地址
ftp://ftp.genboree.org/EpigenomeAtlas/
ftp://ftp.genboree.org/EDACC-Result/
BLUEPRINT Epigenome (blueprint-epigenome.eu) 造血细胞数据库

不妨先简单了解一下几个数据库
IHEC 国际人类表观基因组联盟
International Human Epigenome Consortium成立于2010年，提供人类健康和复杂疾病相关的表观遗传调控（包括非编码DNA、信号通路重要细胞类型表观组）的高分辨率参考注释。共有>600组织样本中的>7,000表观遗传数据。数据主要包括：ENCODE、NIH Roadmap、CEEHRC、Blueprint、DEEP、AMED-CREST和KNIH这7个研究计划。
网站：http://epigenomesportal.ca/ihec 有一个特别的功能，可以利用Pearson系数的相关矩阵，对诸如细胞类型和属性数据进行相似性聚类，帮助识别和移除异常数据集
参考：公共数据库和大规模计划笔记6-IHEC国际人类表观基因组联盟（https://cloud.tencent.com/developer/news/396899）
ENCODE
Encyclopedia of DNA Elements（DNA元件百科全书计划），美国国家人类基因组研究所于2003年9月正式启动，吸引了来自美国、英国、西班牙、日本和新加坡五国32个研究机构的440多名研究人员的参与，经过了9年的努力，研究了147个组织类型，进行了1478次实验，获得并分析了超过15万亿字节的原始数据，确定了400万个基因开关，明确了哪些DNA片段能打开或关闭特定的基因，以及不同类型细胞之间的“开关”存在的差异，证明人体内没有一个DNA片段是无用的。。开始只是人类数据，后来小鼠、果蝇等模式生物也加进来，成立了 modENCODE
如何从Encode官网下载数据：
https://cloud.tencent.com/developer/article/1455984
6种方式下载ENCODE计划的所有数据：http://www.bio-info-trainee.com/1825.html 【ENCODE官网下载、UCSC下载、ENSEMBL下载、broad研究所数据、IHEC存放的数据、GEO下载】
Roadmap数据库
Roadmap Epigenomics Mapping Consortium（简称Roadmap，表观组学路线计划）它倾向于检测人类、动植物正常的组织样本，包括表达数据和各种类型的 ChIP-seq 的 data，包括甲基化的修饰，乙酰化的修饰。如果它测过了，你完全可以拿它的数据来用作为你的 control data。它的缺点也在于它只测了正常样本
综述：The NIH Roadmap Epigenomics Mapping Consortium - NCBI（https://www.ncbi.nlm.nih.gov/pubmed/20944595）
4种方式下载Roadmap计划的所有数据：http://www.bio-info-trainee.com/1830.html【Roadmap网站下载、broad研究所的下载、IHEC存放的数据、圣路易斯华盛顿大学下载】
BLUEPRINT数据库
选择血液系统作为研究目标，这就使研究发现可以快速应用于临床治疗，因为很多诊断测试都是建立在血样检验的基础上的。不同于其它组织，血液细胞会经常更新，因此血液是不同成熟期细胞的混合物。血细胞表观基因组可能会揭示细胞生长发育的一些基本规则
从60种不同类型的取自健康个体的血液细胞中得到参考表观基因组，每种表观基因组都包含一个全基因序列，以及基因组范围内9种不同表观遗传学标记发生和分布的定量数据。
BLUEPRINT联合了41个研究机构及欧洲50多名首席调查员，欧洲试图通过“蓝图”（BLUEPRINT）项目来成为IHEC的中流砥柱，是第一个专门与IHEC的使命相符合的大型表观基因组研究项目

2 实战练习的数据介绍

来自文章：Competition between DNA methylation and transcription factors determines binding of NRF1（https://www.nature.com/articles/nature16462）
文章解读：转录因子NRF1结合和DNA甲基化的竞争性抑制（https://cloud.tencent.com/developer/article/1538741）

使用Domcke et al., 2015的GSE67867数据，包括了转录因子NRF1（Nuclear factor E2-related factor 1，核內呼吸因子）和组蛋白标记H3K27ac（组蛋白 H3 的 K27 乙酰化，与活性基因的增强子和启动子有关）

实验取的是小鼠胚胎干细胞，分成两组：

野生型WT
处理组TKO（triple knockout for DNMT1, DNMT3a, DNMT3b）

野生型和处理组中的每个样本都有两个生物重复；野生型和处理组各设置一个input对照样本；测序使用的Hiseq2500-SE-50 方案；使用mm10参考基因组

这个数据集的研究目的是：探索转录因子和DNA甲基化的关系。假设DNA甲基化会阻碍转录因子的结合，那么在WT细胞中，一些转录因子在DNA甲基化区域是不能结合的；但去除甲基化后（在TKO细胞中），这些结合位点又会出现。

利用DNase-seq测定了开放染色质区域，就可以判断TKO比WT中新增的转录因子结合区域

DNase-seq：
来自：
https://vidotto.top/post/dnase-seq-%E5%88%86%E6%9E%90%E5%AE%9E%E6%88%98/
全称DNase I hypersensitive sites sequencing，是基于对DNase I切割敏感的区域的全基因组测序，用于鉴定基因调节区域。FAIRE-Seq是DNase-seq的继承者。DNase-seq信号在启动子区域较高，并且已显示DNase-seq甚至在非启动子区域具有比FAIRE-seq更好的灵敏度。DNase I 超敏感位点通常包括：启动子、增强子、沉默子、绝缘子和基因座控制区域
染色质变得开放，就意味着DNA和组蛋白的浓聚程度降低，就会有一部分DNA暴露出来。而一旦失去了蛋白质的保护，这部分DNA就可以被DNA酶（MNase或DNase I）所切割
然后，我们再把切割完的DNA拿来测序，和已知的全基因组序列相比较，就能发现被切掉的是哪些地方，没有被切掉的地方又在哪里，从而获知开放的染色质区域。

好，这次我们先了解需要用到的公共数据，接下来将会深入分析

点击底部的“阅读原文”，获得更好的阅读体验哦😻

初学生信，很荣幸带你迈出第一步

🤓生信星球 🌎~ 一个不拽术语、通俗易懂的生信知识平台

继续滑动看下一个