人类基因组重测序研究利器——ClinVar 返回

在人类基因组研究当中,重测序是一项重要的研究技术。我们会通过重测序获得人类基因组上的变异数据,同时利用数据库搜索或注释方式,能够有效发现这些变异数据的位置信息、功能信息和临床疾病意义等。

今天为大家介绍的是一个有疾病信息的基因变异数据库——
NCBI ClinVar

简   介
ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。当前数据库可支持XML、VCF以及制表符定界文件格式的文件。ClinVar同时支持在线和下载到本地两种形式。

分析与应用-本地应用
当我们已经拥有大量的变异数据信息(如高通量测序或芯片),并且想对这些数据进行疾病研究,那么,我们可以考虑采用下载数据库到本地的方式。该数据库可通过FTP地址(ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/)下载,大约每月更新一次。需要注意的是,不同的基因型表现出的疾病关系很可能不同,所以在下载的vcf文件中,vcf文件条目和实际的ClinVar记录条目是一对多的关系。

获得数据库后,可以通过ANNOVAR等软件进行整合分析。把测序数据中的SNP等变异数据在ClinVar数据库中搜索并进行变异分析,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。输出表格形式大致如网页版(如下文所示)。


分析与应用-在线应用
如果已有目标基因或疾病信息,想开展有针对性的分析,可选择在线搜索形式。

登录网址 (https://www.ncbi.nlm.nih.gov/clinvar/http://www.clinvar.com/)可以看到以下界面:

在搜索框中输入关注的信息。可以是疾病基因的gene symbol,也可以是疾病状态(如cancer)等。下面以镰状细胞贫血病相关基因RPS19为例,把关键词RPS19输入在搜索框中,点击搜索。

从结果中,我们可以获知这个基因多种信息,其中有:

1、总体信息:在左侧栏目找到这个关键词的总体统计信息,同时这些信息也可以作为筛选条件而使用。

2、变异和位置信息:可以发现基因的变异位置、变异类型(C>T还是其他)、所在染色体信息等。

3、与其相关的疾病。

4、变异频率:这个minor变异类型在不同数据库中的出现频率,如GO-ESP:0.00054(T)表示在ESP数据中含有“T”的等位基因频率为0.00054。

5、临床意义:可以简单理解为这个突变对临床疾病的重要性。分为pathogenic(致病),likely benign(可能有害)等多个等级。

6、审核状态:因为这些临床意义是提交者自己定义并且提交的,因此有可能会对数据有一定误导作用,通过对数据的审核,有助于加强数据的可靠性。但不是每个数据都会有审核。


更多的原创文章,可继续关注我们网站动态发布,同时关注基迪奥微信~扫一扫添加基迪奥好友~随时随地关注行业动态!