怎么找基因组上的次级代谢产物基因簇? 返回

对于微生物来说,生长到一定阶段才产生的化学结构十分复杂、对该生物无明显生理功能,或者并非是微生物生长和繁殖的必须物质,就是次级代谢产物。次级代谢产物的分类非常多,比如:

次级代谢产物一般由多基因控制,其编码基因通常在基因组中成簇存在,编码具有多种功能的复合酶,这个基因簇就是次级代谢产物合成基因簇。

其中PKS和NRPS是目前研究的最多的两类次级代谢产物,即聚酮合成酶和非核糖体肽合成酶。

PKS和NRPS复合酶的基因主要是由连续的模块(module)构成的,每个模块具有它各自的功能,含有对应的结构域(domain),一个基因可能会有多个模块,一种次级代谢产物的合成由多个基因共同控制。

PKS的主要结构是酰基转移酶(AT)、酮基合酶(KS)、酰基载体蛋白(ACP),另外可能还会有一些非必需的结构域,1~3个修饰酮基的结构域,酮基还原酶(KR)、脱水酶(DH)、烯酰基还原酶(ER)。

NPRS的主要结构域是由腺苷酰化结构域(A)、缩合结构域(C)、肽酰载体蛋白结构域(PCP/T),还会有些非必需的结构域:差向异构化(E)、N甲基化、氧化等修饰结构域。

2011年,研究人员构建了
antiSMASH这个工具网站,来寻找基因组上的次级代谢产物基因簇。

目前antiSMASH有三个版本,各自的引用量如下:

主要的流程是:

下面简单讲讲如何使用这个网站。

antiSMASH的主页:
http://antismash.secondarymetabolites.org/#!/start

首先,输入基因组序列,比如fa文件,然后会基于Glinmmer3(原核)或GlimmerHMM(真核)来进行基因预测,也可以自己将GFF文件输入。

分为细菌、真菌和植物,建议输入邮箱,输入后应该会有邮件提醒,因为在线比对时间比较久,网站上说需要几个小时的时间。

然后是数据输入,可以选择在NCBI上输入accession号,也可以自己提交数据。

还有分析的BGC寻找,设置一些参数。

下图是网站示例文件的比对结果界面。可以点击下载本地化网页版结果,跟基迪奥网页版的结题报告是一样的:

可以看到比对的次级代谢物基因簇的种类,起始、终止位点,以及比对最相近的簇和对应的BGC-ID。

点击具体的簇cluster,可以看到:

左侧分为三个部分。

第一部分:是该基因的模块显示,不同颜色代表不同的模块,棕红色代表核心的合成基因,浅红的额外的合成基因,蓝色的和运输相关的基因,绿色的是调节基因,灰色的是其他基因,淡黄色是预测的簇。

第二部分:具体模块的详细注释,通常NPRS簇是由三个主要部分形成(A-T/PCP-C,蓝色没标注的是PCP),这个图就是示意图。

第三个部分:是和同源基因簇比对的结果示意图,还有比对的相似度。如果有需要,可以把图片下载下来。

右侧是预测的核心基因的结构。

更多的原创文章,可继续关注我们网站动态发布,同时关注基迪奥微信~扫一扫添加基迪奥好友~随时随地关注行业动态!