如何解决目标基因不显著的问题? 返回
简单说来,为了控制假阳性,无论是RNA-seq,还是CHIP-seq,还是GWAS的单次检验得到的P value都要经历多重检验校正后,变为adjusted p_value 或 FDR才可以用。而这样的处理会导致假阴性急剧上升。校正后,我们经常会面临的就是我们所关心的目标基因显著性信号不够强的问题。面对大量大于0.5%的FDR数据,我们该如何处理。
比如一个肿瘤细胞系处理的RNA-seq分析项目,结果发现期望中的EGFR基因和一个对应的GLIMOMA通路富集结果都不显著。那么也就不好地分析结果,这时候我们建议可以采取以下3种方法来应对。
第一招:降低检验的次
如果使用最严厉的“Bonferroni”矫正,那么检验多少次,P值就对应增长了多少倍。假设原始的P值为0.0001,检验次数是5000次,矫正后的p值也就是0.0001X5000=0.5。所以降低检验次数是有必要的。如果是GWAS,即可以在文章中指出由于检验次数太大,矫正后得到的P 值都不显著。于是我们挑选与XXXX相关的候选基因,进行了分析(这样有两大处理:将属于同一个基因的SNP合并,以及挑选某一类候选基因),统计次数就降低了。类似的还有MEDIP分析,我们可以把分析的区域,局限在 geneboy ± 2kb的区域,这样检验的区间数量也就下降了。
第二招:换用统计或矫正的方法。
一般而言数据分析,统计模型不同,得到的P值也不同。不同的RNA差异分析软件,使用的假设分布不同,例如,泊松分布,负二项分布,β负二项分布,得到的P值都不一样啊。当然矫正方法不同效果也不一样。例如, Bonferroni不灵,就用FDR啊。FDR再不灵,就用Storey的方法。
第三招:根据已知信息来筛选阈值
在统计检验中,如果阈值不确定的时候,可以修改已有的阈值信息适当调整阈值。例如,做CHIP分析。如果你的DNA结合蛋白是转录中介体亚基,那么它的peak信号肯定不如真正的转录因子强了,必须降低阈值标准。而针对于降低的程度,如果你已知这个蛋白可以结合在某个基因的启动子区,那么你可以以这个区域的peak信号强度为阈值,来找其他地方的peak。而已知基因可以通过www.gfsoso.com进行搜索。
阈值是可以适当灵活调整的,假设项目样本里EGFR的FDR是0.19。也就意味着,如果以EGFR的p值标准来筛选基因,那么将会有19%的假阳性,FDR小于19%的基因有450个,那么对应可能就有86个基因潜在为假阳性。而一般期刊可以最高接受0.25的FDR。但是前提是你的结果要有生物学意义,而且相关的关键基因使用其他定量技术进行了验证。
如果GLIOMA通路的富集分析不显著,我们也可以改用改用GSEA富集分析的方法来进行处理。
当高通量测序后,我们获得大量数据,而差异基因结果往往会呈现两种情况,一种是差异基因不显著,另外一种就是差异基因很多。
而对于差异基因很多又该如何处理,详情点击:http://www.genedenovo.com/news/238.html
更多基迪奥精彩原创文章,可继续关注我们网站动态发布,同时关注基迪奥微信~扫一扫添加基迪奥好友~随时随地关注行业动态!