重测序检验突变体点突变(2)——文献未必会告诉你的细节 返回

点突变检测,属于个体重测序。但在实验设计策略上,属于case-control[1] 比较 + BSA[2]的结合策略。以上3方面内容要注意的问题,在重测序类的其他项目设计上依然可以借鉴。

(1)测序深度:建议不低于30X——个体重测序的维度

30X,这是个体重测序的金标准,即测序量是基因组大小的30倍。主要还是要保证对全基因组有良好的覆盖,并对突变有良好的检出率。有时,有老师会无奈地问我们,经费进展,能不能先测15X看看效果再说?作为工程师,我也只能无奈地摇摇头:“如果只测15X,会可能会丢失30%的信息,而这丢失的30%,还是随机的。我们肯定都不想看到这样的剧情——得到一堆数据,验证了半天,最后其实真正的答案在未知的30%里面。那不是白忙活了吗?对于科研,有时候50%的投入,可能却难以得到50%的效果。所以,你还是找我们公司销售员好好谈谈,哪怕给你最低的折扣。即使我们公司少挣一点,也不建议你在必要的数据量上省钱啊。”

虽然,2012年在Nature biotechnology 上发表的Mutmap文章[2]说,只测10X也可成功。但我们还是呼吁不要完全相信文章,就如同我们从来不要太相信手机电池标称的续航时间一样(那都是理想条件下… … 你懂的)。

另外,还涉及到计算每一个位点的基因频率,当然也需要测序深度的保证。一个实际基因频率为50%的位点,如果测序深度只有4X,则期望值是2:2。但测序随机波动一下,就是可能变成1:3了,于是观测基因频率=75%, 走远了……但如果测到30X,则期望值是15:15,要随机波动到7:23,显然难度大很多。其实基因频率计算如同抛硬币,抛的次数越多(这里就是测序量越大),越接近真实频率。这也是为什么在肿瘤研究中,为了研究低频的突变,需要将测序深度提高到50X以上,主要为了提高低频突变检测的可靠性(包括减少测序错误的干扰)。、

(2)数据过滤——case-control的维度。

在此类研究中,我们一般需要使用野生型的样本【control】,来去除突变体【case】的背景变异,来找到真正的新突变。这里有个简单的原则:control应该尽量降低假阴性,即降低SNP过滤的阈值,最大限度地找到背景变异。case组应该尽量降低假阳性,即提高SNP过滤的阈值,保证新突变的检测尽可能真实。这些经验都是文献没有告诉我们的,我们是吐血分享啊。

(3)混合的样本数:建议不少于30个个体——BSA的维度。

类似的,还是涉及计算基因频率的问题。如果混合的样本过少,不良影响与测序深度不足类似,将导致随机误差对基因频率的影响非常巨大。例如只测混合了8个个体,无论是在DNA混合过程中的轻微误差,还是后续测序的随机波动,都会引入大量随机误差。30个,还是符合一个统计学上的大群体的概念,保证可靠性。当然,个体越多越好。另外,对于DNA提取,如果个体提取工作量太大,可以选择先混合组织再一起提取。

不过,有的老师会问:“如果我混样200株,只测30X,会不会导致测序深度不足。”这个大可不必担心。这里测序如同抽样调查。200个个体,我们抽样测30遍,依然具有群体代表性。就如同计算中国男人的比例,不需要将十几亿人统计一遍,抽样统计部分人群也就足够了。

备注:

[1]case-control,在多种实验涉及中涉及。这里特指重测序中,使用野生型对照个体来消除突变体背景的变异。
[2]BSA,全称Bulk segregant analysis,一种简单粗暴的,通过将群体样本混合,来计算群体基因频率的方法,有明显的优点和缺点。在重测序时代,又有了新的名字:pooling-seq。如果关注,可以阅读Nature review genetics 2014年的综述文章“Sequencing pools of individuals [mdash] mining genome-wide polymorphism data without big funding”。
[3]Abe A, Kosugi S, Yoshida K, et al. Genome sequencing reveals agronomically important loci in rice using MutMap[J]. Nature biotechnology, 2012, 30(2): 174-178.