杜卓錕, 邵 偉, 秦偉捷*
(1. 安徽醫(yī)科大學基礎醫(yī)學院, 安徽 合肥 230032; 2. 軍事科學院軍事醫(yī)學研究院生命組學研究所, 北京蛋白質組研究中心, 蛋白質組學國家重點實驗室, 北京 102206)
蛋白質組學對蛋白質進行規(guī)模化研究,從蛋白質水平和生命本質層次上研究和發(fā)現(xiàn)生命活動的規(guī)律和重要生理、病理現(xiàn)象的本質,揭示基因活動的動態(tài)表達。基于液相色譜-質譜聯(lián)用(LC-MS/MS)的“鳥槍法”策略是蛋白質組學研究中應用最廣泛的工具[1]。在該策略中,蛋白質首先酶解成肽段,利用液相色譜等分離方法將復雜的多肽混合物按照特定性質進行有效的分離后,肽段經(jīng)過電噴霧電離離子化后進入質譜儀進行譜圖采集。通過譜圖和數(shù)據(jù)庫比對搜索解析出譜圖對應的肽段信息,然后進行組裝還原成蛋白質。因此,將肽段的質譜譜圖與數(shù)據(jù)庫中的理論序列進行匹配是肽段(以及蛋白質)鑒定、定量和所有隨后的生物學解釋的核心[2]。除了質譜譜圖中所提供的肽段母離子和子離子質荷比之外,“鳥槍法”策略還可提供一些額外的數(shù)據(jù)用于數(shù)據(jù)分析,從而獲得更為準確和全面的肽段序列解析,最常用的是肽段的色譜保留時間(RT)[3]。
在蛋白質組學分析中,肽段的色譜保留時間是指在一定的色譜梯度條件下肽段從色譜柱洗脫所需的時間,作為肽段的特性之一與肽段的分子結構、極性和疏水性密切相關。保留時間是獨立于質譜分析結果的肽段特征信息,特定肽段的保留時間可以根據(jù)肽段的信息(如肽段序列)進行預測,得到的預測保留時間可作為質譜檢測的補充輔助進行肽段鑒定[4],以提高肽段鑒定的可信度。保留時間預測在質譜選擇性反應監(jiān)測(SRM)[5]、數(shù)據(jù)依賴性采集方法(DDA)和非數(shù)據(jù)依賴性采集方法(DIA)[6]等流程中均有重要的應用。預測的保留時間通常與相應的質譜數(shù)據(jù)相結合,用于DDA采集結果的缺失值填充或構建模擬譜圖庫用于DIA采集結果的搜庫[7]。本文結合我們課題組多年來在蛋白質組學領域的研究工作,特別是使用預測保留時間輔助一級質譜鑒定的工作,主要綜述了基于深度學習的保留時間預測方法的進展及應用。
傳統(tǒng)的保留時間預測采用定量結構保留關系(quantitative structure retention relationship, QSRR)模型,基于肽段的理化性質在特定的色譜條件下對保留時間進行預測[8]。這種方法需要對大量標準肽段的保留時間進行測試,建立肽段的保留時間與計算得到的理化性質間關系的模型。保留因子(retention coefficient, Rc)是評價單個氨基酸對保留時間的貢獻的參數(shù),一個肽段上所有氨基酸的保留因子之和可以用來估計保留時間。此外還要考慮到肽段長度、電荷數(shù)以及螺旋性等因素對保留時間的影響[9]。目前應用較多的傳統(tǒng)保留時間預測模型有SSRCalc[10], Elude[11]和GPTime[12]等。這些方法在多個數(shù)據(jù)集上進行保留時間預測的決定系數(shù)(coefficient of determination,R2)值均小于0.965,預測精度還有提升的空間[13]。目前對肽段的理化性質以及肽段與色譜固定相之間復雜的相互作用還沒有充分的理解,導致對肽段的保留時間預測結果不夠理想[14]。而且保留時間預測模型都是在特定的色譜條件下進行訓練得到的,如何將模型應用到其他的色譜系統(tǒng)也是一個關鍵的問題。
深度神經(jīng)網(wǎng)絡,包括卷積神經(jīng)網(wǎng)絡(CNN)和遞歸神經(jīng)網(wǎng)絡(RNN)等[15],可以自動學習對象的內(nèi)在性質,發(fā)現(xiàn)大型數(shù)據(jù)集中的復雜結構。深度學習的特點是疊加多個隱藏層的神經(jīng)網(wǎng)絡,在不需要人為設計特征的情況下提取原始數(shù)據(jù)。深度學習通過由多個處理層組成的計算模型來學習具有多個抽象級別的數(shù)據(jù)。這些方法極大地提高了語音識別、視覺對象識別、對象檢測和許多其他領域的技術水平。深度神經(jīng)網(wǎng)絡在利用其多層神經(jīng)元發(fā)現(xiàn)數(shù)據(jù)的復雜結構時非常有效和靈活,使用反向傳播算法優(yōu)化計算層與層之間關系的內(nèi)部參數(shù),從而發(fā)現(xiàn)大數(shù)據(jù)集中的復雜結構。深度學習也被用于分析LC-MS數(shù)據(jù)。在蛋白質組學中,深度學習方法已經(jīng)被用于進行二級質譜譜圖預測[16]、多肽從頭測序[17]等流程。
基于深度學習的保留時間預測方法通常是把肽段的氨基酸序列信息輸入到神經(jīng)網(wǎng)絡的隱藏層中,經(jīng)過各個層之間的復合函數(shù)的計算,最終輸出預測的保留時間值。通過使用大量的數(shù)據(jù)對神經(jīng)網(wǎng)絡進行訓練,函數(shù)參數(shù)通過動態(tài)路徑選擇等方法不斷優(yōu)化,使得預測的結果更加準確。
Ma等[18]發(fā)展了DeepRT方法,使用了8個數(shù)據(jù)集進行訓練、驗證和測試,涵蓋了不同的物種、肽段修飾狀態(tài)和液相色譜條件。使用嵌入(embedding)編碼的方法,將一個肽段上的每個氨基酸都編碼成20維的向量,這個向量能夠反映這個氨基酸及其修飾信息,這些向量堆疊形成的矩陣則反映了整個肽段的信息。CNN能夠非常有效地檢測肽段上氨基酸間的相互作用[19],因此在DeepRT膠囊神經(jīng)網(wǎng)絡(CapsNet)中先通過兩層的卷積層處理肽段序列,然后再使用后面的膠囊層計算保留時間。由于色譜條件存在差異,DeepRT無法直接用于新的數(shù)據(jù)集的預測。深度學習算法可以通過遷移學習的策略,使用小數(shù)據(jù)集中有限的信息對已經(jīng)用大量數(shù)據(jù)預訓練過的模型進行校正[20]。DeepRT也使用這種方法,先使用其他液相色譜條件下的大量數(shù)據(jù)進行訓練,再使用新的液相色譜條件下的少量數(shù)據(jù)進行微調(diào)校正。在反相液相色譜(RPLC)條件下使用3個數(shù)據(jù)集進行測試,DeepRT得到的預測值與真實值的R2達到了0.987、0.970和0.994,比其他保留時間預測軟件ELUDE和GPTime的保留時間預測更精確,在強陽離子交換色譜(SCX)和親水相互作用液相色譜(HILIC)的條件下R2最高也達到了0.996和0.993。Ma等[18]又使用一個包含140 000條肽段的大數(shù)據(jù)集進行訓練,得到了改進的DeepRT,稱為DeepRT(+),然后使用遷移學習的策略對另外兩個數(shù)據(jù)集進行預測。使用這兩個數(shù)據(jù)集訓練得到的DeepRT的預測結果的R2分別為0.987和0.970, DeepRT(+)遷移學習預測結果的R2提高到了0.993和0.980。
提高深度學習算法預測的準確性需要使用大量的數(shù)據(jù)集進行訓練。ProteomeTools project提供了一個非常大的合成肽段的液相色譜-質譜聯(lián)用分析數(shù)據(jù)庫,旨在為人類全部蛋白質和重要的翻譯后修飾提供基于合成肽段的高質量質譜數(shù)據(jù)參考[21,22]。Gessulat等[23]利用ProteomeTools的數(shù)據(jù)訓練了一個能夠精確預測保留時間和離子強度的深度學習算法Prosit。算法通過輸入肽段序列、電荷以及標準碰撞能可以輸出預測的離子強度和保留時間。其中離子強度預測需要上述3種信息,而保留時間預測只需要肽段序列信息。經(jīng)過訓練,用Proist預測保留時間指數(shù)(iRT),預測值與真實值間的相關系數(shù)(R)值達到了1.00, 95%的置信區(qū)間為4.25iRT單位,對應于1 h的LC-MS中的85 s。作為對比,用SSRCalc對同樣的數(shù)據(jù)進行了保留時間預測,結果為R=0.96, 95%的置信區(qū)間為20.4iRT單位。使用上述模型分別對胰蛋白酶切(tryptic)和糜蛋白酶切(chymotryptic)的肽段進行預測,預測值和觀察值間的R值分別為0.89和0.91。接著使用遷移學習的方法對模型進行校正,校正后的R值分別為0.95和0.98。值得注意的是,上述校正只使用了胰蛋白酶切的數(shù)據(jù)進行校正,同樣也提高了非胰蛋白酶切肽段的預測準確度,預測的iRT也與實驗得到的非常一致。這表明Prosit學習了肽段保留時間的一般決定因素,并在各種蛋白酶切條件下推廣。這也同樣適用于不同的液相色譜環(huán)境,當在特定的色譜環(huán)境中進行預測時,只需要用部分當前色譜環(huán)境下的數(shù)據(jù)進行遷移學習即可得到精確的預測結果,而不需要使用大量的數(shù)據(jù)對Prosit進行徹底重新訓練。
Guan等[24]采用共同的核心架構,雙向長短期記憶網(wǎng)絡(bidirectional long-short term memory, BiLSTM)建立了3種深度學習預測模型,分別預測了LC-MS/MS中的3種性質:iRT、MS1電荷狀態(tài)分布以及高能碰撞解離(HCD)碎裂模式下的子離子強度。其中,用來訓練iRT預測模型的數(shù)據(jù)來源于Bruderer等[25]的DIA數(shù)據(jù),錯誤發(fā)現(xiàn)率(FDR)為1%。經(jīng)過過濾,共得到了125 793條肽段的信息,其中90%用于訓練深度學習模型,剩下的10%用于模型的測試。文中提出了一些可能來自于數(shù)據(jù)集的錯誤:首先,在此數(shù)據(jù)集中肽段的FDR為1%,因此至少1%的iRT數(shù)據(jù)是有誤的;其次,iRT與RT間的校正函數(shù)也可能帶來一定的不確定因素;第三,iRT數(shù)據(jù)是由多個色譜分離條件整合得到的,分離條件之間的不一致也會導致誤差。此外,在iRT預測模型中,唯一允許的修飾是蛋氨酸的氧化。Guan等[24]還考察了幾種不同的深度學習模型,包括常見的卷積神經(jīng)網(wǎng)絡,以及膠囊神經(jīng)網(wǎng)絡。在當前使用的數(shù)據(jù)集的條件下,BiLSTM神經(jīng)網(wǎng)絡的表現(xiàn)優(yōu)于其他神經(jīng)網(wǎng)絡。Guan等把他們訓練的模型與DeepRT和Prosit對比發(fā)現(xiàn),Guan等的模型比DeepRT精確28%,而95%的置信區(qū)間比Prosit寬了兩倍。這可能與二者使用的樣本不同有關,Prosit的訓練數(shù)據(jù)集是合成肽集,具有較高的豐度,而Guan等的訓練數(shù)據(jù)則來自于復雜的細胞裂解物樣本。以上結果說明研究樣本的復雜度和梯度長度對iRT的預測有著重要的影響。
通過遷移可以使用少量數(shù)據(jù)對基于深度學習的保留時間預測模型進行校準,以實現(xiàn)對不同實驗環(huán)境下肽段保留時間的預測,這對在數(shù)據(jù)較少的條件下進行保留時間預測提供了一種有效的方法。對于某一實驗環(huán)境,若實驗數(shù)據(jù)充足,使用大量同一實驗環(huán)境的數(shù)據(jù)對深度學習模型進行完全訓練可以使預測更加精確。Yang等[26]開發(fā)了DeepDIA模型,旨在對特定條件下的二級譜圖和保留時間進行更加準確的預測。DeepDIA基于CNN和BiLSTM,輸入肽段的序列信息,可以預測出各個可能的b/y離子的相對強度和肽段的iRT信息。DeepDIA預測的iRT與實驗得到的iRT間的R值大于0.99。當訓練數(shù)據(jù)和測試數(shù)據(jù)來自于同一實驗條件下時,預測的iRT與實驗得到的iRT間的四分位范圍小于3。另外兩次訓練數(shù)據(jù)和測試數(shù)據(jù)來自于不同實驗條件下,二者間的四分位差分別為3.35和5.26。為評估DeepDIA的保留時間預測效果,Yang等[26]對DeepDIA、Prosit以及SSRCalc進行了比較。在訓練用的數(shù)據(jù)與測試用的數(shù)據(jù)來源于不同實驗條件的情況下,DeepDIA與Prosit的結果接近,優(yōu)于SSRCalc;在訓練用的數(shù)據(jù)與測試用的數(shù)據(jù)來源于相同實驗條件的情況下,DeepDIA的預測效果要優(yōu)于Prosit。
通過深度學習和遷移學習技術,Wen等[27]開發(fā)了基于肽段序列的保留時間預測工具AutoRT。每個肽段通過獨熱編碼(one-hot encoding)成矩陣形式,具體來說每個氨基酸都被表示為除一項外的所有值都是零的二進制向量,這一項被設置為1來表示氨基酸的類別。特別地,被修飾的氨基酸將會以區(qū)別于原氨基酸的形式編碼,這樣在預測時也能體現(xiàn)被修飾氨基酸的影響。使用了一個從PRIDE[28]上獲得的大型公共數(shù)據(jù)集PXD006109[29]進行訓練,利用遺傳算法自動搜索最佳架構。以均方誤差(MSE)為標準,選出10個最好的神經(jīng)系統(tǒng)架構模型,整個模型的訓練都是基于這10個神經(jīng)網(wǎng)絡模型。這10個模型經(jīng)過遷移學習的方法微調(diào)后就可以對特定實驗條件下的保留時間進行預測。AutoRT根據(jù)四分位間距(IQR)算法,去除這10個模型預測結果中的異常值,把剩余結果的平均值作為AutoRT模型整體的預測結果。Wen等[27]分別把這10個模型與AutoRT模型整體進行比較,在3個數(shù)據(jù)集下進行測試。結果表明AutoRT模型整體的中值絕對誤差(MAE)平均比各單獨的模型低25%、28%和18%。為進一步評估AutoRT的表現(xiàn),Wen等[27]把AutoRT與3個基于深度學習的預測模型Prosit、DeepMass和GuanMCP2019以及一個傳統(tǒng)的基于機器學習的工具GPTime在3個大型公共數(shù)據(jù)集上進行比較,AutoRT的中值絕對誤差全部低于其他模型,且4個基于深度學習的模型的中值絕對誤差都低于GPTime。
大部分基于深度學習的保留時間預測模型在對輸入的肽段信息進行編碼時,都是將氨基酸及其位置轉化為氨基酸獨熱編碼。然而使用獨熱編碼限制了模型在一些情況下的應用,例如對蛋白質修飾及位點的研究[30,31]。獨熱編碼方法在對被修飾的氨基酸進行編碼時,每一個潛在的修飾都需要用一個二元特征來表示,而潛在修飾數(shù)量眾多,使得這種方法實現(xiàn)非常困難。Bouwmeester等[32]通過在原子組成的水平上對肽段和修飾進行編碼,建立了DeepLC,實現(xiàn)了對修飾肽段的保留時間的精確預測,即使某種修飾在訓練數(shù)據(jù)中沒有出現(xiàn),也能對其進行預測。DeepLC對肽段信息的編碼分為4個獨立的路徑:氨基酸組成、雙氨基酸組成、獨熱編碼和全局特征。氨基酸組成路徑中,肽段的信息被編碼成60×6的矩陣,其中60代表60個氨基酸(不足60個氨基酸的肽段用“X”補足), 6是氨基酸所含6種原子(C、H、N、O、P、S)的個數(shù),被修飾氨基酸的修飾部分的原子數(shù)也計入在內(nèi),這使模型可以對訓練數(shù)據(jù)中不存在的修飾進行預測。雙氨基酸組成路徑是將肽段上的氨基酸兩兩分為一組,互不重疊,矩陣大小為30×6,意義和氨基酸組成路徑相同。獨熱編碼路徑僅編碼了氨基酸非修飾的部分,用來捕捉分子整體的信息,比如區(qū)分異構體異亮氨酸和亮氨酸。全局特征路徑包括了肽段長度和包含的各原子數(shù)目的信息。DeepLC將上述信息整合計算后輸出預測的肽段保留時間。經(jīng)過驗證,在對非修飾肽的保留時間預測上,DeepLC與目前最先進的模型DeepRT[18]、Prosit[23]以及Guan等[24]的模型表現(xiàn)相近。經(jīng)過更大的數(shù)據(jù)集訓練后DeepLC的表現(xiàn)進一步提高,通過遷移學習能夠對小的數(shù)據(jù)集提供準確的預測。更重要的是,DeepLC能準確地預測被修飾肽段的保留時間,對沒有在訓練的數(shù)據(jù)集里出現(xiàn)的修飾也能準確預測。但是對于復雜的修飾,如糖基化修飾,保留時間的預測結果還不夠準確。如何進一步提高預測修飾肽段的準確性是研究的重要方向。
保留時間為基于液相色譜-質譜聯(lián)用的肽段鑒定提供了一個額外維度的信息[14],可以應用到蛋白質組學分析工作流程的多種任務中。本課題組在校正保留時間的基礎上,進行一級質譜水平上的精確質量數(shù)匹配和質譜峰提取,顯著降低了完整O-GalNAc糖肽鑒定缺失的問題,同時插補得到定量數(shù)值[33]。通過對肽段的保留時間預測,可以提高質譜鑒定的準確性[34, 35],也有助于設計更加高效的實驗[36],以及鑒定嵌合碎片譜圖[37]。隨著蛋白質組學其他技術的發(fā)展,保留時間的預測也有了其他的應用。近年來,許多研究將保留時間預測模型與碎片峰離子強度預測模型相結合,生成了全面的模擬數(shù)據(jù)庫,用于進行DIA的搜庫,有效地替代和超越了基于DDA的經(jīng)驗數(shù)據(jù)的譜圖庫[38]。基于深度學習的保留時間預測方法也被應用于提高質譜鑒定的準確性和可靠性、生成全面的模擬數(shù)據(jù)庫等方面。接下來,本文將對前文介紹的基于深度學習的保留時間預測方法的應用進行綜述。
DIA是一種強大的質譜數(shù)據(jù)采集技術,可用于深度全面的蛋白質質譜分析[6,39]。通過DIA,質譜儀可以將所有的信號按照固定的質荷比和保留時間劃分為許多區(qū)域,然后對每塊區(qū)域里的所有一級信號全部一次性進行二級采集,從而消除了DDA模式的隨機性帶來的數(shù)據(jù)丟失集。DIA通常使用由DDA實驗得到的數(shù)據(jù)建立譜圖庫進行肽段鑒定[40],構筑這些DIA譜圖庫需要花費大量的時間、樣本和精力,而且通常不能跨實驗室或儀器平臺使用[25]。此外,這種譜圖庫構建的方法也把DIA定性和定量的對象限定在了由DDA鑒定出的肽段上,反而限制了DIA方法無損檢測的固有優(yōu)勢。因此,建立包含預測的保留時間和碎片離子信息的譜圖庫具有重要意義。有許多傳統(tǒng)模型被用來預測保留時間和碎片離子信息[41,42],但仍局限在特定的實驗室和儀器平臺上。隨著深度學習在蛋白質組學的應用,基于深度學習的保留時間預測模型和碎片離子預測模型被結合在一起,用于構建模擬庫進行DIA搜庫。Gessulat等[23]為了測試開發(fā)的Prosit建立模擬庫的效果,分別對4個來自于不同物種的公共譜圖庫中的肽段進行模擬建庫,然后與這4個譜圖庫進行比較。Prosit建立的模擬庫與4個實測譜圖庫非常相近,譜角頂點(apex of spectral angle)達到了0.9,R值大于0.95。然后Gessulat等[23]又使用在特定儀器平臺條件下得到的DIA數(shù)據(jù)分別檢索Prosit建立的模擬譜圖庫與在該平臺獲得的高質量實測譜圖庫,分別得到了6 739和6 919種蛋白質。Prosit模擬譜圖庫的效果比高質量的實測譜圖庫略差,但可以取代一些低質量或是高信噪比的譜圖庫,能夠提高近20%的肽段鑒定數(shù)量。
Tiwary等[43]開發(fā)的深度學習方法DeepMass: Drip結合了母離子的保留時間預測與二級質譜譜圖預測,可以生成模擬譜圖庫。為了測試DeepMass: Drip的效果,Tiwary等[43]對DDA庫中的7 441條肽段的碎片離子強度和保留時間進行預測并建庫,然后使用Spectronaut進行DIA搜索。得到的平均定量肽段數(shù)目為4 957條,比用DDA數(shù)據(jù)建庫進行DIA搜索得到的肽段數(shù)目少291條(5.5%)。然而,模擬庫搜索少鑒定到的這些肽段在搜索DDA數(shù)據(jù)庫時Spectronaut的打分也較低,其中118條(41%)的最小FDR閾值大于10-3。
使用預測的模擬譜圖庫進行DIA搜索存在兩個不利因素:首先,由于模擬庫包括了蛋白質中所有可能存在的肽段,與只包含檢測到的肽段的實測譜圖庫相比控制假陽性率需要更高的閾值;其次,雖然深度學習的方法能夠得到比其他傳統(tǒng)方法更高質量的預測譜圖庫,這些預測的準確性仍然要低于在該試驗條件下由實驗得到的數(shù)據(jù)。Searle等[44]基于色譜庫[45]的方法,對預測的譜圖庫進行修正,得到了更高質量的譜圖庫用于DIA搜庫。首先使用Prosit對蛋白質序列數(shù)據(jù)庫中所有可能的胰蛋白酶解肽段的碎片離子和保留時間進行預測,建立預測的譜圖庫。然后按照色譜庫的方法,使用該預測譜圖庫對6次DIA數(shù)據(jù)進行搜庫,用得到的肽段鑒定結果建立了一個特定實驗條件下的修正的譜圖庫。這個新的譜圖庫只包含了這6次DIA搜庫鑒定出的肽段碎片離子信息和保留時間,在該實驗條件下DIA實驗得到的數(shù)據(jù)比原本預測的數(shù)據(jù)更加準確。Searle等[44]將這個修正的數(shù)據(jù)庫用于單次DIA數(shù)據(jù)的搜庫。使用酵母樣本進行單次DIA實驗,使用該修正的庫鑒定到的肽段數(shù)量比使用DDA庫鑒定到的肽段數(shù)量提高了31%。
血漿蛋白質組學為一系列疾病的蛋白質生物標志物的發(fā)現(xiàn)帶來了巨大希望[46,47],然而血漿中蛋白質豐度極大的動態(tài)范圍(超過12個數(shù)量級)阻礙了血漿蛋白質組學的發(fā)展。Yang等[26]使用其開發(fā)的DeepDIA建立了血漿蛋白的模擬譜圖庫,使用該譜圖庫進行DIA搜庫,在未經(jīng)高豐度蛋白質去除的條件下,平均每次可以鑒定到超過400種蛋白質,兩倍于最先進的DDA數(shù)據(jù)庫鑒定到的蛋白質數(shù)目。通過在樣品中摻入穩(wěn)定同位素標記的參比肽段的評估方法,發(fā)現(xiàn)使用模擬譜圖庫鑒定的錯誤率與使用DDA建立的譜圖庫相近。
人類腫瘤通常有多個體細胞突變,它們的轉譯可能產(chǎn)生新抗原,這些新抗原是基于t細胞的癌癥免疫治療的理想目標,因為它們是免疫系統(tǒng)的外來物[48]。一些尋找和發(fā)現(xiàn)新抗原的方法依賴于蛋白質組學中對變異肽高敏感度和可靠性的鑒定。在蛋白質組學分析中,通常由反庫等方法估測和控制FDR來進行質量控制[49],然而普通的FDR控制方法沒有對變異肽和普通肽進行區(qū)分,由于變異肽在實際實驗中發(fā)現(xiàn)的可能性較低,這種全局FDR方法對變異肽的FDR會偏低,容易出現(xiàn)假陽性[50]。為解決這一問題,可以使用另外兩種FDR控制方法:單獨FDR方法(separate FDR method)分別計算已知肽段的FDR和變異肽段的FDR[51];兩級FDR方法先基于參照蛋白質數(shù)據(jù)庫進行搜庫,去掉鑒定到的高可信度的譜圖,再用剩下的譜圖基于變異蛋白質數(shù)據(jù)庫搜庫,并計算變異肽的FDR[52]。PepQuery等工具可以對通過FDR的變異肽進行校檢,有助于降低假陽性率[53]。Wen等[27]通過基于深度學習的保留時間預測工具對各種質量控制方法進行評估,其原理為肽段的保留時間可以通過肽段序列進行預測,是肽段的固有特征,獨立于FDR,預測的保留時間與觀察到的保留時間的差異可以作為一個有效的、無偏的指標來評價不同的肽段鑒定方法中肽段和譜圖匹配(PSM)的質量,差異越大,則PSM質量越低。Wen等[27]以上述3種FDR控制方法以及是否使用PepQuery進行后續(xù)質量控制作為變量,對287個腫瘤樣本進行實驗,通過預測保留時間和實際保留時間的差異來評價各種方法,證明使用全局FDR方法并使用PepQuery進行后續(xù)校驗的靈敏度最高,并且也證明了基于保留時間的校正為降低假陽性提供了一個額外的過濾方法,可以提高發(fā)現(xiàn)變異肽的可靠性。
基于深度學習的保留時間預測方法具有可通過多層神經(jīng)網(wǎng)絡自動從復雜的數(shù)據(jù)中學習、準確度高、可應用于不同的實驗環(huán)境等優(yōu)點,而且與其他大型深度學習方法相比,使用單獨的保留時間預測方法對硬件的要求并不高,這也有利于保留時間預測方法的應用。目前對于保留時間預測方法的研究主要有以下幾個方向:一,優(yōu)化模型,以及使用數(shù)據(jù)量更大、準確度更高的數(shù)據(jù)集進行訓練,進一步提高保留時間預測的準確度;二,提高模型在不同實驗環(huán)境下的適用性,目前的方法是預測iRT和通過遷移學習在新環(huán)境下對模型進行校正;三,優(yōu)化編碼方法,提高對修飾肽段保留時間預測的準確性。大部分模型對修飾肽段的預測能力非常有限,需要在訓練模型和進行預測時把不同修飾的修飾位點的氨基酸進行特定編碼,與未修飾的氨基酸進行區(qū)分,這種方法難以適用于修飾種類和位點較多的情況,而且由于訓練用的數(shù)據(jù)集中的修飾不一定包含需要的修飾,在使用時通常需要重新訓練模型。DeepLC模型對各種修飾在原子水平上進行編碼,能夠反映修飾的原子組成對保留時間的影響,解決了前面的兩個問題,但難以反映修飾的結構對保留時間的影響。當修飾較大和較復雜時,如糖基化修飾,修飾的結構對保留時間有較大的影響,所以如何反映修飾結構的影響也是一個重要的研究方向。
目前對保留時間預測的應用大多集中在與譜圖預測相結合,建立模擬的譜圖庫用以DIA等方法的搜庫,也用于質譜方法的評估和質量控制等方面。隨著保留時間預測的準確度和適用性的進一步提高,保留時間作為液相色譜-質譜聯(lián)用結果中的一個重要信息維度,將會在蛋白質組研究中發(fā)揮更加重要的作用。