代謝組學(xué)是對生物體某一特定組分所包含的所有代謝物進行定性及定量分析,并研究該代謝組在外界干預(yù)或疾病生理條件下動態(tài)變化規(guī)律的一門學(xué)科。代謝組學(xué)是一門交叉性極強的學(xué)科,我們經(jīng)常講,代謝組學(xué)是用物理學(xué)原理的設(shè)備,檢測化學(xué)原理的化合物,然后通過計算統(tǒng)計學(xué),分析生物學(xué)機理,最終闡述醫(yī)學(xué)等各種現(xiàn)象,真的是相當(dāng)?shù)膹?fù)雜。
百趣生物亮哥從事代謝組學(xué)檢測分析工作十幾年,從不懂到懂一點,也是有非常漫長的過程。然而最近看一些文章,聽一些報告,和客戶朋友聊一些天,發(fā)現(xiàn)大家對代謝組學(xué)研究依然有很多誤區(qū)。故而總結(jié)這十大誤區(qū)供大家討論及參考:
誤區(qū)十:OPLS-DA模型能將兩組分開即表示兩組之間有差異?
很多人做代謝組學(xué)數(shù)據(jù)分析,當(dāng)拿到OPLS-DA模型結(jié)果時,一看兩組之間分的很開(見下圖),瞬間就興奮了,這結(jié)果杠杠的。

圖1. 兩組之間OPLS-DA模型得分圖
然而對結(jié)果的錯誤理解,往往是投稿被拒噩夢的源頭。
當(dāng)我們拿到一個分的很開的OPLS-DA模型時,切莫匆忙得出“兩組之間有明顯差異”的結(jié)論。因為這個模型極有可能是一個過擬合的模型。
那么如何才能判斷一個OPLS-DA模型的好壞以及如何判斷OPLS-DA模型是否過擬合呢?
首先我們要了解一下OPLS-DA模型的一個基本原理。
OPLS-DA(正交矯正偏最小二乘法判別分析)模型是一個有監(jiān)督的機器學(xué)習(xí)方法,最早是2002年由Trygg和Wold在PLS算法基礎(chǔ)上建立了OPLS得來。
OPLS-DA作為一個有監(jiān)督的模型,意味著模型使用了兩組分類信息作為分類的Y變量,也就是說模型事先知道哪些樣品是哪組的,然后開始建模,其第一主成分(也叫預(yù)測主成分)呈現(xiàn)的是兩組之間的差異信息。其第二主成分呈現(xiàn)的是同組內(nèi)的差異信息,故而我們看到的圖大概率都是能分得很好的。
而模型的兩個得分值,R2Y代表了模型的可解釋性,也就是說模型中有百分之多少的信息能解釋我們事先知道的分類變量Y,R2Y約接近1,說明能解釋兩組分類的信息越多,也就是我們說的兩組之間的差異越大。同時模型自己做了一個自我交叉驗證(Cross Validation),也就是我們平常說的七折交叉驗證、十折交叉驗證、留一法交叉驗證等。通過交叉驗證模型計算出一個Q2Y,以此來判斷模型的可預(yù)測性。Q2Y越接近1,說明模型的可預(yù)測性越強,也就是我們說的模型越可靠。
如圖1模型,其R2Y=0.909,Q2Y=0.672,說明模型的可解釋很強,可預(yù)測性尚可。根據(jù)經(jīng)驗,Q2Y最好不要低于0.4。
為了進一步驗證模型的可靠性,除了采用交叉驗證這種內(nèi)部驗證的形式之外,我們還可以采用置換檢驗(permutation test)這種外部驗證的方式。

圖2. Permutation test(非圖1的檢驗圖)
置換檢驗的圖到底該怎么看呢?
百趣生物亮哥來帶大家看一下官方教程的解釋:

總結(jié)一下就是兩點:
1. 原始的R2Y和Q2Y(最右邊的兩個點)總是大于左邊那些置換后對應(yīng)的值(左邊那些散點)。
2. 看截距,根據(jù)經(jīng)驗判斷,優(yōu)秀的模型R2Y的截距不超,0.3-0.4,Q2Y的截距不超過0.05(通常為負(fù)值)
在很多的實際的項目中,尤其是臨床樣品的檢測項目,能滿足兩條斜線的斜率為正,且Q2Y的截距不超過0.05就很好了。所以可以看出圖2的置換檢驗結(jié)果also good,但不是很理想,有一定的過擬合,要警惕結(jié)果的假陽性。
總結(jié)一下,OPLS-DA模型不能只看得分圖能不能分開,而是要看R2Y和Q2Y的得分值以及外部檢驗的結(jié)果是否通過。可以說,寫文章時如果只秀能分開的得分圖,不展示得分值和檢驗結(jié)果,那是赤裸裸的耍流氓。
文章轉(zhuǎn)載自知乎@亮哥聊代謝組學(xué)
