了解这些数据库命名规则

2020-03-16

相信，基因信息检索涉及到我们每个科研实验人员每天的日常实验中，而用的多的几个数据库莫过于NCBI RefSeq，Ensemble，mirBase三个数据库。那这三个数据库中基因信息都是根据什么规则来命名的呢？

一、NCBI RefSeq

NCBI RefSeq(美国国立生物技术信息中心参考序列库)是目前世界上最具有权威性的序列数据库，该数据库中所有的数据是一个非冗余的、提供参考标准的数据，包括染色体、基因组（细胞器、病毒、质粒）、蛋白、RNA等。

NCBI RefSeq的命名规则是以两个字母开头，后面跟“_”，然后是纯数字，常见的有“NM_”、“XM_”、“NR_”、“XR_”。有三点需要清楚：

1、“NM_”、“XM_”命名的记录代表的是编码基因，“NM_”对应“NP_”，“XM_”对应“XP_”；

2、“NR_”、“XR_”命名的记录代表的是非编码基因；

3、“XM_”，“XR_”通过计算机算法预测得到，而“NM_”和“NR_”都是有一定得实验数据支撑，但并不是说“XM_”和“XR_”就不存在于细胞中。NCBI RefSeq一直在更新，这些命名的记录代表的是一种状态，经常会碰到某个“XM_”记录被“NM_”代替，或者“NM_”记录由于缺少证据而从NCBI RefSeq删除。

更多命名含义如下图：

二、Ensemble

Ensembl基因组数据库项目是欧洲生物信息研究所和Wellcome Trust Sanger研究所之间的一个联合科学项目。Ensembl旨在为遗传学家，分子生物学家和其他研究我们自己的物种和其他脊椎动物和模式生物的基因组的研究人员提供集中资源。Ensembl是用于检索基因组注释信息的几种众所周知的基因组浏览器之一。我们在Ensembl中进行检索主要使用的是Ensembl Stable ID，也就是常说的Ensembl ID。Ensembl ID也是有自己的命名规则的，有几点需要清楚：

1、 Ensembl Stable ID是来源于Ensembl数据库的编号系统。它的命名由三部分组成：[species prefix][feature type prefix][a unique eleven digit number]. （根据不同物种设置的前缀+数据所指类型【例如，蛋白质，基因】+一段特定的数字），

2、常见的物种前缀：ENS代表Homo sapiens (Human)；ENSMUS代表Mus musculus (Mouse)；ENSRNO代表Rattus norvegicus (Rat)；

3、常见的数据类型：字母“G”代表gene，比如小鼠基因就命名为ENSMUSG###########；字母“T”代表transcript，比如ENSMUST###########；字母“P”代表protein，比如ENSMUSP###########。

4、有时有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号（例如：ENSG00000223972.5）。如果要查询ENSG00000223972.4，则需要去其他release中查找，目前已经更新到release 97。

三、miRbase

miRbase 是由曼彻斯特大学的研究人员开发的一个在线的miRNA数据库，该数据库中收录了来自200多个物种，接近4万个miRNA的信息，是最全面的miRNA数据库。microRNA(miRNA)是一类长度约为19-25nt的内源性非编码RNA，广泛参与基因转录后调控活动，其中多数miRNA具有高度序列保守性、表达时序性和组织特异性。有几点需要清楚：

1、 pri-miRNA, pre-miRNA 和 mature miRNA的概念：成熟的miRNAs是由较长的初级转录物经过一系列核酸酶的剪切加工而产生的，初级转录物称为pri-miRNA。pri-miRNA长度从几百到几千个碱基不等，带有5‘帽子和3’polyA尾巴，以及1到数个发夹径环结构。Pri-miRNA经剪切产生约70个碱基的miRNA前体，即pre-miRNA。pre-miRNA经进一步剪切，形成长度约为22个碱基的单链成熟miRNA；

2、常见物种hsa，mmu和rno分别代表人，小鼠和大鼠；

3、在mirbase数据库中，pre-miRNA用mir表示，mature miRNA用miR表示；

4、绝大多数pre-miRNA可以产生两个mature miRNA，对应pre-miRNA茎环结构5‘和3‘序列的mature miRNA分别加后缀-5p和-3p以示区分，如rno-miR-325-5p和rno-miR-325-3p；

5、位于基因组不同部位但产生同样的mature miRNA的pre-miRNA在序号后添加短线和阿拉伯数字以示区别，如hsa-mir-199a-1, hsa-mir-199a-2；

6、高度同源的miRNA(microRNA)在数字后加上英文小写字母(a，b，c，)区分，如hsa-miR-34a,hsa-miR-34b,hsa-miR-34c等，通常他们的mature miRNA仅相差1－2个碱基，且他们的seed sequence相同，也就是说他们调控的靶基因相同；

7、在一些miRNA与靶基因3UTR结合位点预测数据库有时会看到带有“*”的mature miRNA，比如hsa-miR-199a*，以前“*”表示对应的mature miRNA表达量低或者是次要产物，但是现在miRbase数据库已经取消这样的命名，即如果一个pre-miRNA有两个mature miRNA，用-5p和-3p以示区分。但是miRbase数据库会告知以前名称与现在名称的对应关系。

三个常用数据库的命名规则就到这里，了解数据命名规则特别是mirbase和Ensemble两个数据库可以很快速的知道基因信息对应的物种(比如人，小鼠，大鼠)，数据类型（基因，转录本，蛋白），对于我们对信息准确与否的简单判断非常有帮助。