
?
?
?
? ? ? ? 相信每一位做過高通量分析的老師對上面這個圖片都不陌生。沒錯,它就是有名的topGO有向無環圖。為什么它如此有名?為什么在做功能注釋時GO數據庫都是必選之一?它到底是個怎樣的數據庫?上面這個圖又如何解讀?今天,小編就為大家一一解開這些疑惑。
?
【什么是GO數據】
?

?
? ? ? ? GO (gene ontology)是基因本體聯合會(Gene Onotology Consortium)所建立的數據庫,旨在建立一個適用于各物種的,對基因和蛋白質功能進行限定和描述,并能隨著研究的深入而持續更新的數據庫。GO中最基本的概念是“標簽(term)”,這些terms是用來描述基因和基因產物特性的,即GO數據庫是給每個基因貼上標簽,以便研究者能夠通過標簽快速尋找到目標基因。另外,這些terms被分為3種不同的類型,也被稱為GO的3個一級功能,它們分別是細胞學組件(Cellular Component,簡稱CC)、生物學途徑(Biological Process,簡稱BP)、分子功能(Molecular Function,簡稱MF)。
?
【怎么理解GO的一級功能】
?
? ? ? ? 做過高通量分析的老師都會發現,在GO分析中,所有的結果都是按照3個一級功能來整理分類的。也就是說,理論上每個基因都存在這3個不同層次的注釋。下面小編就為大家詳細介紹這3個GO的一級功能。
?
√ 細胞學組件(CC):用于描述亞細胞結構、位置和大分子復合物,如核仁、端粒和識別起始的復合物等;
√ 生物學途徑(BP):指分子功能的有序組合,以達成更廣的生物功能,如有絲分裂或嘌呤代謝等;
?
√ 分子功能(MF):用于描述基因、基因產物的功能,如與碳水化合物結合或ATP水解酶活性等等。
?
? ? ? ? 那么,如何理解同一個基因注釋到不同的類別中呢?現在小編就拿周期蛋白依賴性激酶1(CDK1)為例,來解答這個問題。基因CDK1在GO中注釋到的功能有spindle(紡錘)、cell cycle(細胞周期)、protein binding(蛋白結合),則可以理解為CDK1是存在于紡錘體(或紡錘絲)上(CC),通過與某一蛋白形成復合物(MF)來參與細胞周期的(BP)。
?
【GO term之間的關系】
?

? ? ? ? GO數據庫的一級功能之下,細分了很多二級功能,這些二級功能代表的是該基因注釋到的更為具體的功能。那么某一基因到底注釋到了哪些功能上?我們通常會用GO有向無環圖(如上圖)來展示,圖中每個方框表示一個term,方框中注明了該term的名稱,id及Corrected P-Value。方框的顏色是由Corrected P-Value值決定,Corrected P-Value值越小,顏色越深。通常我們關注的都是結果中顏色較深的這些term代表的功能,因為它們的富集顯著性較高。term與term之間的連線代表它們之間的關系。GO term之間的關系包括3類,分別是is a、part of 和regulates。
? ? ? ? is a代表前者是后者的子類型,并且具有傳遞性。以下圖為例,線粒體(mitochondrion)是一種胞內細胞器(intracellular organelle),而胞內細胞器是一種細胞器官(organelle),從而可以推出:線粒體是一種細胞器官。
?

圖中的實線表示結點之間的關系,虛線表示推理而并未證明的關系。
?
? ? ? ? part of代表前者是后者的一部分,前者存在,那么后者一定存在;后者存在,前者可能存在。也具有傳遞性。以下圖為例,線粒體(mitochondrion)是細胞質(cytoplasm)的一部分,細胞質又是細胞(cell)的一部分,從而可得出:線粒體是細胞的一部分。
?

圖中的實線表示結點之間的關系,虛線表示推理而并未證明的關系


