无参三代全长转录组测序

完整的转录本包括了从5’端到3’端polyA尾的序列,长度集中分布在1-6kb。二代测序技术由于读长较短,得到的测序片段需要拼接,得到的转录本可能会产生拼接错误和较多的嵌合体,从而不能得到完整的转录本。第三代测序技术Pacbio利用单分子实时测序技术(SMRT),由于其超长的读长(平均15kb),无需拼接即可直接获取完整的全长转录本,因此可得到更高质量的转录本,有利于mRNA结构的研究,如可变剪切、融合基因、等位基因表达等。因此,全长转录本的研究越来越热门,发表的文章影响因子也比简单用二代测序RNA-seq要高。

目前第三代测序仪器最主要是美国太平洋生物技术公司( Pacific Biosciences)的RS II和Sequel。Sequel也是基于单分子实时测序技术的最新测序平台,其数据产出比RS II提高了约7倍,测序成本更低、项目周期更短。

利用Pacbio三代测序仪进行全长转录组的测序有以下优势:
1.超长读长:读长最长可达到约80kb,平均8~15kb,轻松解决二代测序所不能解决的重复序列问题;
2.通量高:RS II平台一个SMRT cell可产生约0.5~1Gb数据,而Sequel平台一个SMRT cell可产生5~10Gb数据;
3.无GC偏好性:
4.直接检测碱基修饰:可直接检测各种类型的DNA甲基化。

应用领域
获取无参考基因组物种较完整的参考编码序列
不同实验处理后引起的可变剪切事件变化
更准确的定量分析

技术路线

分析内容
1. 标准信息分析

1.1 原始测序数据统计及质控

1.2 Reads分类

1.3 Reads聚类和校正

1.4 全长isoform数据统计

1.5 基因基本功能注释
1.5.1 Nr注释
1.5.2 GO功能注释
1.5.3 COG/KOG注释
1.5.4 KEGG代谢通路注释
1.5.5 SwissProt蛋白注释

1.6 基因高级功能注释
1.6.1 预测编码蛋白框(CDS)
1.6.2 转录因子分析
1.6.3 R基因分析(植物)
1.6.4 蛋白结构域分析(Pfam, SMART)
1.6.5 TMHMM跨膜螺旋结构预测
1.6.6 SignalP信号肽结构预测
1.6.7 蛋白O-GlcNAc糖基化位点预测(哺乳动物)
1.6.8 ProP弗林蛋白酶裂解位点预测(真核生物)

1.7 结构分析
1.7.1 串联重复单元检测(SSR)
1.7.2 lncRNA分析
1.7.3可变剪切分析

2. 定制化信息分析
2.1 二代数据校正三代数据(需有Illumina数据)
2.2 基因定量及差异表达分析(需有Illumina数据)
2.3 多组学关联分析(如甲基化、蛋白组、miRNA)

样本要求
胶图检测:条带清晰,无明显降解,无DNA污染
2100检测:RIN值≥7.5,基线平整,200-1200bp 无峰带;总量≥10ug(两次建库);浓度≥300ng/ul
OD260/280:1.6~2.2,OD260/230:1.4~2.5

项目周期
标准流程的运转周期约为55个工作日。

参考文献
Li J , Haratalee Y , MD Denton, et al. Long read reference genome-free reconstruction of a full-length transcriptome from Astragalus membranaceus reveals transcript variants involved in bioactive compound biosynthesis.[J]. Cell Discovery, 2017, 3:17031.
Mi K , Jae-Sung R , Tae K , et al. Alternative Splicing Profile and Sex-Preferential Gene Expression in the Female and Male Pacific Abalone Haliotis discus hannai[J]. Genes, 2017, 8(3):99-.
Liu X , Mei W , Soltis P S , et al. Detecting alternatively spliced transcript isoforms from single‐molecule long‐read sequences without a reference genome[J]. Molecular Ecology Resources, 2017, 17(6).