今天是生信星球陪你的第592天
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
豆豆写于2020.4.11
【正文开始】昨天很巧,在优秀小分队中有云农的童鞋说到陈老师上课推荐了我们,真是缘分,很开心能在前进的道路上有一群志同道合的朋友👬。
昨天不知不觉又被花花怼了,不过没关系,怼也是一种爱。我比较喜欢早睡早起,所以忙到十一点就赶紧去睡觉,保证第二天七点能自然醒,这是一种很舒服的感觉,另外家里买的慕斯床垫真的是…躺上去就想睡觉,而且睡觉像考拉(还是盼着花花的家具攻略吧)。
【正文结束】-------------------------------------------
之前介绍的算是ChIP-seq分析的前言部分:
1:了解ChIP-seq的实验流程
2:继续了解ChIP-seq
3:关于ChIP-seq的实验对照与偏差来源
4:ChIP-seq的实验设计补充
接下来,将逐步进行实战的练习,还是像以往一样,我会将重点部分多加一些介绍
ENCODE数据库收录了成百上千个数据集,为了方便数据比较和整合,一般会有选择地选择细胞系和实验处理产生的数据
测序数据一般有两个地方下载:
从GEO 下载 NCBI Sequence Read Archive (SRA) :ncbi.nlm.nih.gov/geo
从Array Express下载EBI Sequence Read Archive (ERA) :ebi.ac.uk/arrayexpress
大型数据库:
ENCODE (encodeproject.org)
NIH Roadmap Epigenomics (roadmapepigenomics.org):
它的数据网站已经不维护了(因为资金到期),提供了两个ftp数据下载地址
ftp://ftp.genboree.org/EpigenomeAtlas/
ftp://ftp.genboree.org/EDACC-Result/
BLUEPRINT Epigenome (blueprint-epigenome.eu) 造血细胞数据库
不妨先简单了解一下几个数据库
IHEC 国际人类表观基因组联盟
International Human Epigenome Consortium成立于2010年,提供人类健康和复杂疾病相关的表观遗传调控(包括非编码DNA、信号通路重要细胞类型表观组)的高分辨率参考注释。共有>600组织样本中的>7,000表观遗传数据。数据主要包括:ENCODE、NIH Roadmap、CEEHRC、Blueprint、DEEP、AMED-CREST和KNIH这7个研究计划。
网站:http://epigenomesportal.ca/ihec 有一个特别的功能,可以利用Pearson系数的相关矩阵,对诸如细胞类型和属性数据进行相似性聚类,帮助识别和移除异常数据集
参考:公共数据库和大规模计划笔记6-IHEC国际人类表观基因组联盟(https://cloud.tencent.com/developer/news/396899)
ENCODE
Encyclopedia of DNA Elements(DNA元件百科全书计划),美国国家人类基因组研究所于2003年9月正式启动,吸引了来自美国、英国、西班牙、日本和新加坡五国32个研究机构的440多名研究人员的参与,经过了9年的努力,研究了147个组织类型,进行了1478次实验,获得并分析了超过15万亿字节的原始数据,确定了400万个基因开关,明确了哪些DNA片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异,证明人体内没有一个DNA片段是无用的。。开始只是人类数据,后来小鼠、果蝇等模式生物也加进来,成立了 modENCODE
如何从Encode官网下载数据:
https://cloud.tencent.com/developer/article/14559846种方式下载ENCODE计划的所有数据:http://www.bio-info-trainee.com/1825.html 【ENCODE官网下载、UCSC下载、ENSEMBL下载、broad研究所数据、IHEC存放的数据、GEO下载】
Roadmap数据库
Roadmap Epigenomics Mapping Consortium(简称Roadmap,表观组学路线计划)它倾向于检测人类、动植物正常的组织样本,包括表达数据和各种类型的 ChIP-seq 的 data,包括甲基化的修饰,乙酰化的修饰。如果它测过了,你完全可以拿它的数据来用作为你的 control data。它的缺点也在于它只测了正常样本
综述:The NIH Roadmap Epigenomics Mapping Consortium - NCBI(https://www.ncbi.nlm.nih.gov/pubmed/20944595)
4种方式下载Roadmap计划的所有数据:http://www.bio-info-trainee.com/1830.html【Roadmap网站下载、broad研究所的下载、IHEC存放的数据、圣路易斯华盛顿大学下载】
BLUEPRINT数据库
选择血液系统作为研究目标,这就使研究发现可以快速应用于临床治疗,因为很多诊断测试都是建立在血样检验的基础上的。不同于其它组织,血液细胞会经常更新,因此血液是不同成熟期细胞的混合物。血细胞表观基因组可能会揭示细胞生长发育的一些基本规则
从60种不同类型的取自健康个体的血液细胞中得到参考表观基因组,每种表观基因组都包含一个全基因序列,以及基因组范围内9种不同表观遗传学标记发生和分布的定量数据。
BLUEPRINT联合了41个研究机构及欧洲50多名首席调查员,欧洲试图通过“蓝图”(BLUEPRINT)项目来成为IHEC的中流砥柱,是第一个专门与IHEC的使命相符合的大型表观基因组研究项目
来自文章:Competition between DNA methylation and transcription factors determines binding of NRF1(https://www.nature.com/articles/nature16462)
文章解读:转录因子NRF1结合和DNA甲基化的竞争性抑制(https://cloud.tencent.com/developer/article/1538741)
使用Domcke et al., 2015的GSE67867数据,包括了转录因子NRF1(Nuclear factor E2-related factor 1,核內呼吸因子)和组蛋白标记H3K27ac(组蛋白 H3 的 K27 乙酰化,与活性基因的增强子和启动子有关)
实验取的是小鼠胚胎干细胞,分成两组:
野生型WT
处理组TKO(triple knockout for DNMT1, DNMT3a, DNMT3b)
野生型和处理组中的每个样本都有两个生物重复;野生型和处理组各设置一个input对照样本;测序使用的Hiseq2500-SE-50 方案;使用mm10参考基因组
这个数据集的研究目的是:探索转录因子和DNA甲基化的关系。假设DNA甲基化会阻碍转录因子的结合,那么在WT细胞中,一些转录因子在DNA甲基化区域是不能结合的;但去除甲基化后(在TKO细胞中),这些结合位点又会出现。
利用DNase-seq测定了开放染色质区域,就可以判断TKO比WT中新增的转录因子结合区域
DNase-seq:
来自:
https://vidotto.top/post/dnase-seq-%E5%88%86%E6%9E%90%E5%AE%9E%E6%88%98/全称DNase I hypersensitive sites sequencing,是基于对DNase I切割敏感的区域的全基因组测序,用于鉴定基因调节区域。FAIRE-Seq是DNase-seq的继承者。DNase-seq信号在启动子区域较高,并且已显示DNase-seq甚至在非启动子区域具有比FAIRE-seq更好的灵敏度。DNase I 超敏感位点通常包括:启动子、增强子、沉默子、绝缘子和基因座控制区域
染色质变得开放,就意味着DNA和组蛋白的浓聚程度降低,就会有一部分DNA暴露出来。而一旦失去了蛋白质的保护,这部分DNA就可以被DNA酶(MNase或DNase I)所切割
然后,我们再把切割完的DNA拿来测序,和已知的全基因组序列相比较,就能发现被切掉的是哪些地方,没有被切掉的地方又在哪里,从而获知开放的染色质区域。
好,这次我们先了解需要用到的公共数据,接下来将会深入分析
点击底部的“阅读原文”,获得更好的阅读体验哦😻
初学生信,很荣幸带你迈出第一步
🤓生信星球 🌎~ 一个不拽术语、通俗易懂的生信知识平台