如何对大量的差异基因进行处理? 返回

首先我们来明确一下, 差异基因很多的原因有2个方面,包括:

①生物调控是一个系统,是一个由点→面的级联放大过程,同时包括了正反馈与负反馈。

②然后一个基因包含了多种功能

其中最重要的是针对我们的研究目的而言,并非所有的差异都有意义。

所以差异基因很多怎么办?我们通过2个案例分析一下。

初级方法:首先找到正确的方向并排除非主要因素

比如我们曾经处理过的一个项目,用温度处理某种生物胚胎,然后通过RNA-seq结果可以观测到了大量与新陈代谢相关的基因表达量变化。结果显示新陈代谢与研究目标没有关联,那我们应该怎样进行后续的分析呢?这个时候我们应该放弃新陈代谢的研究方向,然后再设定目标,向你期望的并能与结果相结合的方向继续研究。

假设这篇研究作者想分析组蛋白通路,而我们都知道胚胎时期是决定表观遗传的关键时期,所以我们应该重点关注DNA甲基化酶和组蛋白修饰酶的差异变化。

进阶方法:差异基因趋势分析+通路逻辑

背景:荔枝书属热带、亚热带广泛种植的常绿木本树。在全球变暖、气候变化时导致的开花缺陷对于荔枝生产是主要挑战。以前的研究已经表明,高温条件可促进花蕾中早期叶的生长并且抑制荔枝开花,而甲基紫精二氯化物(MV)诱导的活性氧可以促进早期叶的衰老、脱落。为了解活性氧在荔枝开花过程中的分子功能,对荔枝进行了转录组测序并从头进行组装。

无独有偶,这项研究的差异基因也非常多,5000多个。于是我们将所有差异基因进行趋势分析(减少短时间基因随机波动的影响),逐步找到目标基因;然后将差异基因进行KEGG注释,找到具有代表性的10个通路。其实这个时候也可以发一篇SCI了,但是要让文章水准上一个台阶,就需要扯通路之间的逻辑关系了。比如某个信号转导通路表达量显著整体提高了,可能是因为上游某个信号传导的敏感性,这篇文章正是如此。

总结一下

差异基因很多可能是大家经常遇到的问题,但是将数据回归生物学问题本身是最基本也是最有效的方法。有时候我们需要果断弃掉一些非主要因素,然后再考虑内在的逻辑关系。

测序之后你可能得到了大量的数据,但是却不知从何下手挖掘有用信息,而我们正可以做这样的工作,并且积累了相当多的经验。
更多基迪奥精彩原创文章,可继续关注我们网站动态发布,同时关注基迪奥微信~扫一扫添加基迪奥好友~随时随地关注行业动态!