蛋白质组和转录组 返回

在思考不同实验层次产出数据比较的问题时,有一个很重要的问题要首先考虑一下:就是蛋白组和转录组数据间的关系,这决定我们可不可以拿这两个不同层次的产出数据来相互比较并下结论。众所周知,就是同一种脏器甚至样品来源的蛋白组数据和转录组数据间定量对接都没有好的相关性。退一步说,不考虑定量而只考虑有无,蛋白组数据与转录组数据也很难对等。面对这种现象,极端地,无非有两种判断:


第一,认为这种蛋白组与转录组的数据不可对接性就反映了这两层次生物过程的在质上的不等价性,也就是有转录本不一定会接下来有蛋白产物,甚至蛋白也不一定来源于所在细胞的转录本。在这种情况下,以下两种数据产生的原因分别是:

⑴ 蛋白组有而转录组无——蛋白来源于外界合成后转运进来。
⑵ 转录组有而蛋白组无——转录本根本就没有表达成蛋白。

第二,认为这种蛋白组与转录组的数据不可对接性只反映了这两层次生物过程的在量上的不等价性以及检出技术的局限,也就是凡是到了转录本这步,通常一定会接下来继续得到对应的蛋白产物。在这种情况下,以下两种数据产生的原因分别是:

⑴ 蛋白组有而转录组无:转录本因为低丰度或其它技术原因未能被检出。
⑵ 转录组有而蛋白组无:蛋白因为低丰度、极端理化性质或其它技术原因未能被检出。


由于基因检测技术远远成熟于蛋白检测技术以及基因的可扩增性等原因,因而呈现出转录组数据远多于蛋白组数据的状况。
对于蛋白组数据与转录组数据的不对等性,这两种原因应该是都有可能存在的,但我个人认为第二种是决定性的,也就是是技术问题导致数据集的不对等性。试想生物体到了转录本这一步而不继续得到蛋白产物,是一种资源的浪费,是不符合效率的,即使在某些紧急调控和病理情况下存在,也绝对不会是主流行为。扩展开来:
 

⑴ 逐级调控是可以的,但一般是线性或级联放大的才符合经济有效的调控原则。
⑵ 那些在转录本水平高但蛋白水平低的产物,应该也是线性的或级联放大的,较低的放大系数可能用以稳定重要蛋白的量。在这种情况下,蛋白水平实际上与转录本水平持平更多是稍有放大,但由于基因检测技术远远成熟于蛋白检测技术以及基因的可扩增性等原因,因而转录本可被检出的阈值较低,呈现出表观上对应蛋白检测不出来的现象。
⑶ 至于第一级(转录)放大而第二级(翻译)抑制的情况,从生物学效率上怎么都说不过去。

如果承认以上的观点,也就是转录组有的,蛋白组也一定会有,只是技术所限而没被检出罢了。那么自然会有这样一个推论:除去某些紧急调控和病理情况,在正常情况下,在质(有无)上,蛋白组对应的转录本应该就是转录组本身,而并非后者的真子集。


至于讨论到定量,也就是转录本到蛋白产物的放大系数,可以依据这个放大系数或更进一步的mRNA→蛋白数量模型来将基因-蛋白分类而不是强行对接。但是还是因为技术本身的局限,数据中加入了很多干扰和不定因素,目前在定量问题上只能量力而行。
 

回到蛋白组和转录组数据整合上,如果遵循蛋白组对应的转录本应该就是转录组本身的原则,蛋白组得到的数据应该和转录组得到的数据加合在一起,得到一个在技术上加合而生物上(非定量)均质的数据集。每个集合单元(比如每种组织来源)间的这种数据集进行比较,在集合单元内就“不分门户”。一句话:如果不考虑转录翻译中的定量变化而只考虑有无,蛋白表达谱数据和基因表达谱数据实际是不同技术对一个生物实体的测量。

参考文献:Dynamic covariation between gene expression and proteome characteristics
                                                                                                                                                                                     ——转自新浪博客

蛋白质组学研究中常用的网站和数据库

一、蛋白质数据库
1.UniProt (The Universal Protein Resource)
  网址:http://www.uniprot.org/
        http://www.ebi.ac.uk/uniprot/
  简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。

2.PIR(Protein Information Resource)
  网址:http://pir.georgetown.edu/
  简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。

3.BRENDA(enzyme database)
  网址:http://www.brenda-enzymes.org
  简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。

4.CORUM(collection of experimentally verified mammalian protein complexes)
  网址:http://mips.gsf.de/genre/proj/corum/index.html
  简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等

5.CyBase(cyclic protein database)
  网址:http://research1t.imb.uq.edu.au/cybase
  简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。

6.DB-PABP
  网址:http://pabp.bcf.ku.edu/DB_PABP/
  简介:聚阴离子结合蛋白数据库。聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。该数据库提供已被鉴定的聚阴离子结合蛋白的数据,与NCBI蛋白数据库存在交叉应用。

7.IUPHAR-DB
  网址:http://www.iuphar-db.org
  简介:G蛋白偶联受体、离子通道数据库。提供这些蛋白的基因、功能、结构、配体、表达图谱、信号转导机制、多样性等数据。

8.GLIDA
  网址:http://pharminfo.pharm.kyoto-u.ac.jp/services/glida/
 简介:G蛋白偶联受体-配体数据库,提供G蛋白偶联受体-配体互作数据、配体数据、G蛋白偶联受体数据、同源受体关系网、保守识别区,为新药发现提供了支持。

9.LOCATE

  网址:http://locate.imb.uq.edu.au/
  简介:哺乳动物蛋白质亚细胞定位数据库

10.InterPro
  网址:http://www.ebi.ac.uk/interpro/
  简介:蛋白质综合数据库,从大量的数据库中整合而成的包括蛋白质结构域、蛋白质家族、功能位点等信息的数据库。

11.OKCAM
  网址:http://okcam.cbi.pku.edu.cn
  简介:人体细胞粘附分子数据库。

二、蛋白质组数据库
1.GELBANK
  网址:http://gelbank.anl.gov
  简介:提供全基因组的二维凝胶电泳图谱,搜集了已知基因组信息生物的蛋白质组二维凝胶电泳图。可通过描述相对分子质量、等电点和蛋白质序列信息进行快速检索。

2.SWISS-2DPAGE
  网址:http://www.expasy.org/ch2d/
  简介:提供人类、小鼠、大肠杆菌、酿酒酵母、盘基网柄菌的2D-PAGE参考图。

3.SysPIMP(Systematical Platform for Identifying Mutated Proteins)
  网址:http://pimp.starflr.info/
  简介:通过质谱技术建立的蛋白质突变数据库。当蛋白质某一氨基酸残基发生改变时,其质谱图也会发生改变,通过蛋白质质谱图的改变,检测与疾病相关的突变。

4.Sys-BodyFluid
  网址:http://www.biosino.org/bodyfluid/
  简介:人体体液蛋白组研究数据库。提供人体各种体液的蛋白质组数据,包括血浆/血清、尿液、乳汁、泪、汗液、唾液、骨髓液、脑脊液、胃液等。

5.BloodExpress
  网址:http://hscl.cimr.cam.ac.uk/bloodexpress/
  简介:小鼠造血过程基因表达数据库

6.CentrosomeDB(human centrosomal proteins database)
  网址:http://centrosome.dacya.ucm.es
  简介:人体中心体蛋白数据库

7.ConsensusPathDB
  网址:http://cpdb.molgen.mpg.de
  简介:人类功能作用网络数据库,与多个数据库有交叉应用,提供蛋白质互作、生化反应、基因调控等作用网数据。

8.Proteome Analysis Database 
  网址:http://www.ebiac.uk.proteome/
  简介:蛋白质组分析数据库

10.HPRD(Human Protein Reference Database)
  网址:http://www.hprd.org/
  简介:人体蛋白文献数据库

11.NOPdb
  网址:http://www.lamondlab.com/NOPdb3.0/
  简介:核仁蛋白组数据库

12.EndoNet
  网址:http://endonet.bioinf.med.uni-goettingen.de/
  简介:细胞通讯网络数据库,提供激素、激素受体相关信息

三、蛋白质互作、蛋白质网络数据库 
1.3DID(3D interacting domains)
  网址:http://3did.irbbarcelona.org
        http://gatealoy.pcb.ub.es/3did/
  简介:搜集3D结构已知的蛋白质的互作信息,可通过结构域名称、基序名称、蛋白质序列、GO编码、PDB ID、Pfam编码进行检索。

2.DOMINE
  网址:http://domine.utdallas.edu
  简介:结构域互作数据库。

3.PiSite(Database of Protein interaction sites)
  网址:http://pisite.hgc.jp
  简介:以PDB为基础,在蛋白质序列中搜寻互作位点。

4.Binding MOAD
  网址:http://www.BindingMOAD.org
  简介:致力于提供蛋白质-配体晶体结构数据信息。提供结构已知的蛋白质的相关配体,并附有详细注释,同时提供由实验而得的亲和力数据。

5.Phospho.ELM
  网址:http://phospho.elm.eu.org
  简介:蛋白质磷酸化位点数据库

6.SuperSite
  网址:http://bioinformatics.charite.de/supersite
  简介:蛋白质中代谢物、药物结合位点数据库,提供结合机制、识别机制、保守结合位点等信息。

7.STITCH
  网址:http://stitch.embl.de/
  简介:蛋白质-化合物作用网数据库

8.Reactome
  网址:http://www.reactome.org
  简介:人体生命活动路径与过程数据库,提供生化过程网络图,并对参与其中的蛋白质分子有详细注解,与其他数据库如UniPort、KEGG、OMIM等建立了广泛的交叉应用。

9.PID(Pathway Interaction Database)
   网址:http://pid.nci.nih.gov
   简介:由NCI和Nature共同创立,提供已知的人体细胞信号转导、调节活动及主要细胞生命过的蛋白质路径网,可通过输入某个分子名或代谢过程名称进行查询。

10.UniHI(Unified Human Interactome database)
  网址:http://www.unihi.org
  简介:人体蛋白-蛋白相互作用数据库,可根据蛋白质名称、代谢路径等进行查询。

11.VirHostNet
   网址:http://pbildb1.univ-lyon1.fr/virhostnet/index.php
   简介:病毒-宿主分子互作网数据库,提供病毒-宿主蛋白质互作信息及这些蛋白质的相关注释。可通过输入基因、蛋白质、路径等关键词进行查询。

12.Bionemo(molecular information on biodegradation metabolism)
  网址:http://bionemo.bioinfo.cnio.es
  简介:搜集与生物降解代谢相关的蛋白质、基因数据,包括蛋白质序列、结构域、结构;基因序列、调控元件、转录单元等信息。除此之外还包括生物降解的代谢路径图、相关生化反应等。

13.PMAP
   网址:http://www.proteolysis.org
   简介:蛋白质水解路径数据库

四、蛋白质三维结构数据库
1.PDB(Protein Data Bank)
  网址:http://www.rcsb.org/pdb
  简介:生物大分子结构数据库,提供蛋白质、核酸等生物大分子的三维结构数据、序列详细信息、生化性质等。

2. SARST (Structural similarity search Aided by Ramachandran Sequential Transformation)
  网址:http://sarst.life.nthu.edu.tw/
  简介:高效的蛋白质结构比对数据库

五、蛋白质基序数据库
1. CDD(Conserved Domain Database)
  网址:http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
  简介:蛋白质的功能与其结构密切相关,一个蛋白质的保守结构域在一定程度上体现了该蛋白质的功能。CDD,蛋白质保守结构域数据库,收集了大量保守结构域序列信息和蛋白质序列信息。检索者通过CD-Search服务,可获得蛋白质序列中所含的保守结构域信息,从而分析、预测该蛋白质的功能。

2.Blocks
  网址:http://blocks.fhcrc.org
  简介:蛋白家族保守区对比数据库

3.CPDB(database of circular permutation in proteins)
  网址:http://sarst.life.nthu.edu.tw/cpdb
  简介:蛋白质环形序列重组基序数据库。蛋白质的环形序列重组(Circular permutation, or CP)可看作是原来的N与C端被接在一起,然后在另一处产生新开口。 虽然当前已有很多知名的蛋白质家族被发现有CP成员,而且也有研究指出蛋白质结构资料库中可能存在着不少CP实例,高效率的CP搜寻工具却很罕见。CPSARST提供了一套有效的CP搜寻工具。

4.MegaMotifbase
  网址:http://caps.ncbs.res.in/MegaMotifbase/index.html
  简介:蛋白质基序家族、超家族数据库,提供已知基序的3D定位图、转角距等数据。

5.Minimotif Miner
  网址:http://mnm.engr.uconn.edu
  简介:蛋白质基序检测数据库,提供在蛋白质序列中寻找基序的服务。

6.Pfam
  网址:http://www.sanger.ac.uk/Software/Pfam
  简介:提供多序列比对服务和并提供共同的蛋白质结构域的隐马尔可夫模型。
 

六、预测类数据库
1.InterPreTS(Interaction Prediction through Tertiary Structure)
  网址:http://www.russell.embl.de/cgi-bin/interprets2
  简介:提供通过三级结构预测蛋白质相互作用的服务,可输入两个蛋白质的序列信息进行查询。

2.Predictome
  网址:http://predictome.bu.edu
  简介:预测蛋白质间功能关系的数据库。这些蛋白质间的关系是基于将3种计算机预测法,即染色体相邻法、系统发育谱法、结构域融合法应用与44个基因组上而得到的。

                                                                                                                                                                             ——转自新浪微博