巧用數(shù)據(jù)庫 | 我是如何使用NCBI,UCSC,Ensembl,Uniprot四個數(shù)據(jù)庫的?
我們吉凱基因網(wǎng)上商城(www.taogene.com)中引物產(chǎn)品對應(yīng)的基因目前已經(jīng)覆蓋NCBI refseq數(shù)據(jù)庫、mirbase數(shù)據(jù)庫、circbase數(shù)據(jù)庫中human,mouse,rat的所有基因以及Ensembl數(shù)據(jù)庫的部分基因。
但今天呢,我們不說我們的引物產(chǎn)品,也不談數(shù)據(jù)之間的差別,就說說這幾個數(shù)據(jù)庫到底能做什么?
毋庸置疑,NCBI,UCSC,Ensembl,UniProt四個數(shù)據(jù)庫功能非常強大,下面給大家介紹下我自己用的最多的功能。
NCBI 中BLAST工具

NCBI中的Nucleotide BLAST、Protein BLAST、BLAST Genomes(對應(yīng)圖中的1、2、3),這三種比對工具用的最多,其余兩種blastx、tblastn(對應(yīng)圖中的4和5),用的相對較少,但是不得不說,真的好用!!
1.Nucleotide BLAST(BLASTN):nucleotide–nucleotide BLAST,核苷酸與核苷酸比對工具,可以序列之間比對,也可以與NCBI nucleotide database比對;
2.Protein BLAST(BLASTP):protein–protein BLAST,蛋白序列與蛋白序列比對工具。可以序列之間比對,也可以與NCBI Protein database比對;
3.BLAST Genomes:核苷酸與選擇的基因組之間的比對;
4.blastx:核苷酸與蛋白序列比對,將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進行比對,對分析新序列和EST很有用;
5.tblastn:將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列(雙鏈)按不同的閱讀框進行比對,對于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用;
這五種比對工具相信大家都用過,那么比對結(jié)果怎么看呢?以tblastn舉例。比對結(jié)果中需要注意Query Coverage和Identities兩個數(shù)值,只有將兩個數(shù)值結(jié)合起來看,才能很好地說明序列的比對情況。

1.Query Coverage:對應(yīng)圖中的1,數(shù)值越高,代表與之匹配的序列越長;
2.Identities:對應(yīng)圖中的2,數(shù)值越大,代表與之同源性越高。
再舉例一個概念:low-complexity sequence。顧名思義,就是序列復(fù)雜度低,比如連續(xù)的T,或者相對有規(guī)律的序列。這種序列在設(shè)計引物(比如qPCR引物)的時候盡量避開,原因是引物如果落在這些位置,容易導(dǎo)致引物的非特異性結(jié)合,帶來的可能結(jié)果就是非特異性產(chǎn)物的產(chǎn)生。
那如何從比對結(jié)果中確定哪部分序列是low-complexity sequence呢?如下圖,比對結(jié)果中小寫的、灰色的堿基序列就是low-complexity sequence。

UCSC
2. Table Browser可以很方便地根據(jù)基因的起始位置和終止位置獲得對應(yīng)的序列,同樣可以選擇不同的assembly。

Ensembl
TargetScan是最常用的microRNA與靶基因結(jié)合位點預(yù)測網(wǎng)站,該網(wǎng)站用的靶基因UTR數(shù)據(jù)庫即Ensembl。
如下圖,預(yù)測結(jié)果中給出了ENSMUST00000103114.2。首先從這個transcript可以看出,基因物種為mouse,帶有version信息“.2”。由于Ensembl數(shù)據(jù)庫信息是定期更新的,會有不同的release。即有可能ENSMUST00000103114.2 version的信息在數(shù)據(jù)庫當(dāng)前的release(Current Ensembl release 97)中并不存在,ENSMUST00000103114目前在Ensembl release 97中是ENSMUST00000103114.7 version。

Current Ensembl release 97中ENSMUST00000103114的信息如下:
不同的release里邊的序列可能會有不同,那如何找到ENSMUST00000103114.2對應(yīng)的序列呢?進入到不同的release里邊去找ENSMUST00000103114.2。

心明眼亮的你們可能注意到了一個問題,為什么沒有release 66?Ensembl并不會把所有的release展示出來,那如果現(xiàn)有的release里邊都沒有ENSMUST00000103114.2,要去哪里找呢?去FTP下載(ftp://ftp.ensembl.org/pub/)即可。
UniProt
UniProt(Universal Protein Resource)是全球有關(guān)蛋白質(zhì)方面信息最全面的資源庫。UniProt提供了完全分類的、有豐富且準(zhǔn)確注釋信息的基于知識的蛋白質(zhì)序列信息,數(shù)據(jù)庫可以提供的信息包括蛋白功能描述、GO條目、細胞定位、組織特異性表達情況、生理病理情況描述、互作蛋白、Domain、翻譯后修飾位點等信息。蛋白的信息描述段落均會標(biāo)出引用文章,并且可以跳轉(zhuǎn)到PubMed界面進行瀏覽。

1.Function 板塊可以看到基因的功能以及參與的生物學(xué)過程;
2.Names & Taxonomy板塊可以看到基因的細胞定位以及拓撲結(jié)構(gòu)域,比如NOTCH1在該板塊能夠看到胞外段,胞內(nèi)段信息;
3.PTM / Processing板塊描述了蛋白的翻譯后修飾情況;
4.Structure板塊可以看到蛋白的三維空間結(jié)構(gòu);
5.Sequence板塊可以得到一個'canonical'序列信息,在不知道選擇哪個轉(zhuǎn)錄本做研究室可以參考該信息判斷。
