【原创】组蛋白ChIP分析要注意的2个要点 返回

大多数人都用过MACS软件分析过CHIP-seq数据了,那么大家知道组蛋白的CHIP数据分析有什么不一样吗?组蛋白的分析参数会与转录因子的有什么不同呢?
目前CHIP的peak检测, 使用比较广的是MACS 。以下是关于这个软件和参数的一些资料。

1. 一些参考文档
关于这个软件的参数,周老师推荐Plob的这篇文章:
http://www.plob.org/2014/05/08/7227.html
这篇文章非常详细介绍了MACS的使用方法和要注意的参数。

2. 方法学文章
如果关注更多细节,可以阅读这篇MACS的方法学文章:
【Zhang, Yong, et al. "Model-basedanalysis of ChIP-Seq (MACS)." Genome biology 9.9 (2008): R137.】

3. 参考的protocol
Nature protocol 有篇这个流程使用的文章
Feng, Jianxing, et al. "IdentifyingChIP-seq enrichment using MACS." Nature protocols 7.9 (2012): 1728-1740.】这篇文章值得详细阅读一下。这篇文章使用三种CHIP数据进行测试性分析,并强调了对应三种数据所需的分析参数的不同。

这三种CHIP类型分别是:
转录组因子FoxA1(
经典的转录因子);
组蛋白H3K4me3(
有较强的富集信号,但一般在局部富集);
H3K36me3(
广泛富集,但富集信号较弱)。
简要说来,在默认设置下,MACS的这个软件是通过判断某个区域的测序深度是否高于周边(如果没有input对照)或高于input对照。如果yes,说明这个区域存在信号峰(peak), 那么说明这个区域有蛋白结合对。但软件一般要先预估峰的宽度,以及由此找到峰的中心。如果是转录因子,使用双峰模型预估是没有问题的。但如果是组蛋白,一般peak可能很宽。因为转录因子结合是离散结合的,一般峰很窄。但如果组蛋白,连续几Kb或几十kb持续修饰是完全可能的。那么使用MACS的双峰模型,估算这个值就容易出错。

所以,有两个参数要特殊注意:

1. 预设峰跨度
–nomodel– shiftsize=73bp
如果是组蛋白数据,那么就放弃让软件去预估峰宽。所以声明:nomodel。而1个核小体的对应的DNA长度是146bp,所以组蛋白结合信号的最小距离单位也是146bp(146bp才可能出现一次),那么将shiftsize设定为这个长度的一半。


2. 显著性的P value
MACS的默认P value是:10E-5。但这个值应该根据实际情况调整。例如H3K36me3的富集信号较弱,显著性显然没有转录组因子那么强。所以在Nature protocol 那篇文章中,使用的P value 阈值是10E-3。
但是,在执行实际项目的时候,我们也发现对于某些转录组因子分子伴侣蛋白的CHIP数据(记住,这些蛋白是先与转录因子结合,而不是直接结合DNA),由于其结合能力较为弱,所以peak的显著性也比较弱,使用 10E-5 是不合理的。那么选用多大的参数合理呢? 可以查阅文献,看看是否有哪些promoter是已经报道这个蛋白可以结合的。然后查看这些已知可结合的promoter的结合强度(p value)。根据这些已知信息,来制定P value的阈值过滤标准,是更加合理的。


更多基迪奥的原创文章,可继续关注我们网站动态发布,同时关注基迪奥微信~扫一扫添加基迪奥好友~随时随地关注行业动态!