在利用代謝組學篩選臨床樣本潛在biomarker的過程中經常會用到ROC曲線,ROC全名為接收者操作特征(Receiver Operating Characteristic),表示為一個畫在二維平面上的曲線。ROC曲線最早是由二戰(zhàn)中的電子工程師和雷達工程師發(fā)明的,用來偵測戰(zhàn)場上的敵軍飛機、船艦,也就是信號檢測理論。之后很快就被引入了心理學來進行信號的知覺檢測。數(shù)十年來,ROC分析被用于醫(yī)學、無線電、生物學、犯罪心理學領域中,而且在機器學習(machine learning)和數(shù)據(jù)挖掘(data mining)中也得到了很多發(fā)展。 ● 基本概念 在ROC之前首先解釋一下什么是TPR,什么是FPR。 TPR(True Positive Rate,正例覆蓋率):真實值是正,且預測為正的比例,也叫敏感性 FPR(False Positive Rate,負例覆蓋率):真實值為負,而預測為正的比例,也叫特異性 舉例說明: 班里要轉來一個新生,大家都在猜是男生還是女生,真實的情況和預測的情況把整體分成了4個部分,如果定義是女生就是正例,那么:TPR=猜對是女生/猜對是女生+沒猜到是女生;FPR=沒猜到不是女生/沒猜到不是女生+猜到不是女生。 ROC曲線是以TPR(Sensitivity)為Y軸,該指標越高代表診斷的準確率越高,F(xiàn)PR(Specificity)為X軸,然后對不同的預測值進行分類,得到的不同的TPR和FPR對應于ROC曲線上的每一個點。因此ROC就是反映FPR與TPR之間的動態(tài)關系的曲線。一般情況下,這個曲線都應該處于(0, 0)和(1, 1)連線的上方。因為 (0, 0) 和 (1, 1) 連線形成的ROC曲線實際上代表的是一個隨機分類器。TPR增長得越快,斜率越大,反映了模型的分類性能就越好。ROC曲線越是靠近左上角,即靈敏度越高,誤判率越低。ROC曲線上最靠近左上角的ROC曲線上的點其靈敏度和特異度之和最大,這個點或其鄰近點常被稱為診斷參考值。 圖1 ROC圖示例 ● 選擇預測效果最好的解——AUC值 用ROC curve來表示分類器的performance很直觀,可是人們總是希望能有一個標準或者數(shù)值來表示分類的好壞。于是Area Under ROC Curve (AUC) 就出現(xiàn)了。顧名思義,AUC的值就是ROC 曲線下方的面積的大小。通常,AUC的值介于0.5到1.0之間,較大的AUC代表了較好的分類效果。 表1 AUC值評價模型分類的準確程度 ● 分類器 可以借助于很多分類器評價候選生物標志對分類模型的效果,做到基于一組預測變量預測一個分類結果。有監(jiān)督機器學習領域中包含許多可用于分類的方法,如邏輯回歸、決策樹、隨機森林、支持向量機、神經網絡等。有監(jiān)督學習基于一組包含預測變量值和輸出變量值的樣本單元。可以將全部數(shù)據(jù)分為一個訓練集和一個驗證集,其中訓練集用于建立預測模型,驗證集用于測試模型的準確性。可以選擇獨立于訓練數(shù)據(jù)集之外的單獨另外一批樣本作為驗證數(shù)據(jù)集(數(shù)目可小于訓練數(shù)據(jù)集),也可將原數(shù)據(jù)集分為訓練集和測試集。 圖2 診斷能力評價ROC圖示例 ● 一個簡單的繪制ROC曲線的方法 MetaboAnalyst 5.0(網址https://www.metaboanalyst.ca/),主要作者Jianguo (Jeff) Xia)這款在線的web server工具網站可以實現(xiàn)在線做biomarker分析: 小編繪制出來的圖如下,有興趣的老師可以進網站根據(jù)提示或者先使用網站提供的demo數(shù)據(jù)操作一下。 隨著醫(yī)學代謝組的發(fā)展,生物標志物作為最直接快速有效的診斷手段,其篩選可在疾病診斷、發(fā)展、治療、以及療效監(jiān)測等方面發(fā)揮重要的作用。近年來尋找和發(fā)現(xiàn)有價值的Biomarker已經成為目前精準醫(yī)療研究的重要發(fā)展方向。中科新生命基于17年質譜經驗,可提供高質、可靠的醫(yī)學代謝組數(shù)據(jù),助力精準醫(yī)學和臨床標志物發(fā)現(xiàn)!






