周文婧 曾文鋒 遲 浩** 賀思敏**
(1)中國科學院智能信息處理重點實驗室,中國科學院計算技術研究所,北京 100190;2)中國科學院大學,北京 100049)
蛋白質組學以特定時空下的一組蛋白質為對象來研究基因和細胞的功能,質譜分析是蛋白質組學的常用手段[1]。在常規(guī)的自底向上的蛋白質組學中,生物樣品中的蛋白質首先酶切為肽段,經(jīng)過色譜分離后進入質譜,進行質量分析和檢測,得到一級譜圖。隨后,質譜儀會從一級譜圖中選取高豐度肽段信號進行碎裂,并采集二級譜圖。一級譜圖和二級譜圖構成了串聯(lián)質譜數(shù)據(jù),其包含三維信息:肽段離子的質荷比、強度和保留時間。質譜分析是指從串聯(lián)質譜數(shù)據(jù)中解析出生物樣品包含的肽段和蛋白質。
質譜數(shù)據(jù)的解析結果對蛋白質組學研究至關重要。質譜數(shù)據(jù)中鑒定的肽段可以作為蛋白質存在的直接證據(jù),進而證明基因表達活動[2-4];同時,鑒定的肽段,特別是交聯(lián)肽段,能夠幫助解析蛋白質的結構,研究蛋白質的相互作用關系[4-6];更重要的是,作為基因的直接表達產(chǎn)物,蛋白質含量的上下波動可以幫助發(fā)現(xiàn)致病基因及研制具有相應靶向作用的藥物[7-9]。常用的質譜數(shù)據(jù)解析方法有數(shù)據(jù)庫搜索[10-12]、肽段從頭測序[13-16]和譜庫搜索[17-18]等。得到質譜數(shù)據(jù)的初步解析結果后,需要對譜圖和肽段層次的解析結果進行質量控制,即控制解析結果的錯誤率。這一過程也被稱為過濾,即通過控制鑒定結果的錯誤率范圍,過濾掉不可信鑒定結果,最終報告出可信結果。經(jīng)過譜圖和肽段層面的質量控制后,可以基于可信肽段推斷蛋白質并進行蛋白質層面的質量控制,最終得到高可信蛋白質并進行下游生物學研究[19-22]。
然而,在目前的蛋白質組學研究中,質譜數(shù)據(jù)鑒定到的肽段和蛋白質的可信度可能仍然存在較大問題。造成錯誤鑒定的原因繁多,數(shù)據(jù)庫不完整,單核苷酸突變,酶切位點、電荷、修飾類型、修飾位點的錯誤判斷以及同位素峰的誤匹配都可能造成錯誤鑒定[23-24]。如果對鑒定的肽段和蛋白質不進行嚴格的質量控制,會嚴重影響鑒定結果的可信度。2014年Kim等[2]和Wilhelm等[3]在《自然》(Nature)雜志同期發(fā)表了兩項人類蛋白質組草圖研究結果,是人類蛋白質組研究的里程碑。兩篇文章均構建和使用了自定義的質譜數(shù)據(jù)解析流程,分別鑒定得到17 294和18 097個人類基因,覆蓋了人類基因組的84%和92%。然而,兩篇草圖文章的質譜數(shù)據(jù)和鑒定結果公開后,領域對草圖文章鑒定結果的可信度產(chǎn)生了質疑[25-27]。首先,人類蛋白質組草圖研究中蛋白質的推斷標準不嚴格,僅由單肽段鑒定的蛋白質也被保留,如果不考慮這部分結果,那么Kim等的文章會有5 288個基因被排除,而Wilhelm文章中也有1 259個僅由單肽段鑒定的蛋白質不能計入最終鑒定結果(未提供基因數(shù)目)[26]。另外,鑒定結果的準確度和靈敏度都存在問題。最為明顯的錯誤是,兩篇人類蛋白質草圖文章都未制備嗅覺組織樣品,但分別鑒定到了108個和200個嗅覺組織所特有的嗅覺受體蛋白質[25],而嗅覺受體蛋白是一種跨膜蛋白,只能在鼻黏膜組織中才能鑒定到[28]。此外,本應普遍出現(xiàn)的3種細胞受體因子的表達模式?jīng)]有在草圖中得到鑒定,說明草圖還遠未達到完整[27]。低可信度的鑒定結果會影響后續(xù)對蛋白質結構、功能、相互作用關系和致病機理等的研究,所以對蛋白質組學質譜數(shù)據(jù)鑒定結果進行可信度評價極為關鍵。肽段的可信度是蛋白質可信度評價方法的前提和基礎,領域內對于肽段的可信度評價方法研究更久更成熟,所以本文將重點對肽段的可信度評價方法進行綜述。
肽段鑒定可信度評價方法歷經(jīng)了多次發(fā)展,早期主要使用基于閾值的評價方法,包括設定搜索引擎打分閾值、P-value和E-value等。設定搜索引擎打分閾值的方法是指對于搜索引擎給出的所有鑒定結果,將打分高于某特定閾值的結果認為是可信鑒定結果,打分低于特定閾值的結果認為是不可信鑒定結果[29-30],比如有研究認為Mascot引擎打分超過30分的結果為可信鑒定結果[30]。這種設定打分閾值的方法使用簡便,但是打分閾值的設定極大依賴于人工經(jīng)驗。P-value(x)是指在給定譜圖的情況下,隨機匹配打分大于x的概率[31],E-value(x)是指在給定譜圖和數(shù)據(jù)庫的情況下,隨機匹配打分大于x的肽段數(shù)目的期望[31]。這兩者的關系為E-value(x)=n×P-value(x),其中n為候選肽段數(shù)目。P-value和E-value讓不同搜索引擎的鑒定結果的可信度變得可比,但是和打分閾值方法一樣,P-value和E-value的閾值同樣也依靠人工經(jīng)驗。
2002年,Keller和Nesvizhskii等[32]提出了基于貝葉斯公式的質量控制方法PeptideProphet,將概率模型引入肽段可信度評價方法。PeptideProphet方法認為正確肽段的打分服從高斯分布,錯誤肽段的打分服從伽馬分布,并且對特異酶切位點數(shù)目不同和電荷數(shù)目不同的肽段分別擬合分布,估算每個肽段-譜圖匹配是正確匹配的概率。為了適應不同的數(shù)據(jù)和實驗,可以在以上分布的基礎上,采用期望最大化方法(expectation maximization,EM)構建混合模型,不斷迭代擬合正確和錯誤鑒定結果的分布。后續(xù)10年間,PeptideProphet衍生出了一系列方法。2003年,Nesvizhskii等[33]在PeptideProphet的基礎上提出了評價蛋白質可信度的ProteinProphet方法,該方法認為蛋白質存在的概率可以通過該蛋白質鑒定的肽段至少有一條是正確的概率來估算。2007年,該團隊提出了基于PeptideProphet的半監(jiān)督模型[34],將部分誘餌庫鑒定結果用于EM訓練中。隨后,該團隊提出了可變成分混合模型和半?yún)?shù)混合模型兩種方法[35],打破了PeptideProphet混合模型中限制參數(shù)估計的假設。2008年,該團隊提出生成模型方法[36],首先對譜圖進行聚類,每一類估計一個混合模型。同時,對每張譜圖的前10名候選肽段均計算PeptideProphet概率,并根據(jù)概率重新排列這些候選肽段的順序。2011年,為了能夠利用多種搜索引擎的特性,鑒定更多和更可信的肽段和蛋白質,該團隊提出iProphet[37],在PeptideProphet的基礎上,結合重復實驗鑒定情況、重復引擎鑒定情況、重復譜圖、重復母離子和重復修飾等特征,能夠合并多種搜索引擎和多次重復實驗的結果,得到更好的混合模型。PeptideProphet方法經(jīng)歷了長久發(fā)展,在標注數(shù)據(jù)集上能取得較好的擬合效果,但該方法依賴于估計的數(shù)據(jù)分布與真實數(shù)據(jù)分布的相似程度,而且EM方法可能需要耗費較多的訓練輪次和訓練時間。
2007年,Elias和Gygi[19]總結并評測了Moore等提出的目標-誘餌庫方法(target-decoy approach,TDA)[38-40],通過估計假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR),對鑒定的肽段的可信度進行評價。FDR是對真實錯誤率的一種估計,通常只將FDR小于等于1%的鑒定結果作為可信結果。由于TDA方法公式簡單、使用簡便,它逐漸成為質譜數(shù)據(jù)解析過程中最主流的質量控制方法,并在子類肽段(包括一般子類肽段、突變肽段和修飾肽段等)和交聯(lián)肽段等特殊鑒定目標的可信度評價中進行了衍生和演化。本文將在第二節(jié)中重點講述TDA常規(guī)方法及其特殊演化方法在蛋白質組學肽段鑒定可信度評價中的應用。
本文綜述了蛋白質組學質譜數(shù)據(jù)鑒定的肽段的可信度評價方法。第一節(jié)講述蛋白質組學質譜數(shù)據(jù)制備及數(shù)據(jù)分析方法,同時對質譜數(shù)據(jù)鑒定結果的可信度問題以及早期的肽段鑒定可信度評價方法進行闡述。第二節(jié)首先講述評價肽段可信度的TDA常規(guī)方法,然后講述在子類肽段和交聯(lián)肽段等特殊鑒定目標中的TDA演化方法,最后講述TDA方法的局限。第三節(jié)首先介紹肽段可信度評價方法的統(tǒng)一衡量指標——檢驗假陽率和檢驗假陰率,然后綜述領域內現(xiàn)有的Beyond-TDA方法,即在TDA方法的基礎上,對鑒定結果的可信度進行進一步檢驗,并對它們的檢驗假陽率和檢驗假陰率進行比較。第四節(jié)對全文內容進行總結。
隨著質譜采集技術的快速進步和鑒定軟件的蓬勃發(fā)展,一次質譜實驗分析即可獲取海量的肽段-譜圖匹配結果,這些鑒定結果的準確性對后續(xù)生物分析至關重要。TDA(圖1)可以實現(xiàn)對鑒定結果可信度的快速和相對準確地評估。本節(jié)將對TDA常規(guī)方法、特殊方法以及TDA方法的局限性進行詳細闡述。
Fig. 1 Target-decoy approach圖1 目標-誘餌庫方法
TDA方法通過構造誘餌蛋白質數(shù)據(jù)庫(以下簡稱“誘餌庫”)對鑒定結果進行質量控制。誘餌庫的構建方式主要有4種:蛋白質序列反轉[38-39]、肽段序列反轉[19]、氨基酸隨機置換[19]和馬爾可夫方法[41]。蛋白質序列反轉是將目標蛋白質數(shù)據(jù)庫(以下簡稱“目標庫”)的每個蛋白質序列整體進行N-C端方向反轉,肽段反轉是指將目標庫蛋白質理論酶切后生成的所有肽段序列反轉,隨機置換是指將目標庫蛋白質理論酶切后生成的所有肽段序列中的每個氨基酸與序列中的其他氨基酸的位置進行隨機置換,馬爾可夫方法是使用馬爾可夫鏈從目標庫學習到氨基酸分布規(guī)律,然后根據(jù)氨基酸分布規(guī)律構建誘餌庫。前兩種方法本質都是序列反轉,后兩種方法本質都是序列隨機化。這4種方法均是為了構造與目標庫同規(guī)模且同氨基酸分布的誘餌庫。其中,蛋白質反轉的方法最為常用。有研究表明,誘餌庫構建方法對最終結果沒有顯著影響[42-43],但是可以通過隨機置換的方法生成多種隨機庫分別估計FDR后取平均值作為最終的FDR估計值,這樣估計的FDR更接近真實錯誤率[44-46]。
TDA方法應用的前提是假設一次錯誤匹配結果(Elias和Gygi的文章描述為incorrect result,具體是指錯誤匹配中的隨機匹配)匹配到目標庫和誘餌庫的概率是相等的。在此基礎上,該假設通過匹配到的誘餌庫鑒定結果的數(shù)目ND來估計目標庫鑒定結果中的錯誤鑒定結果數(shù)目,用目標庫錯誤鑒定結果數(shù)目比上所有的目標庫鑒定結果數(shù)目NT,就可以計算出目標庫鑒定結果中的假發(fā)現(xiàn)率(FDR):
TDA假設簡單,實現(xiàn)方便,而且能對鑒定結果的可信度做出簡單評估,具有相對合理性,比如FDR越小,過濾時的打分閾值越高,鑒定結果越可信。由于FDR并不隨著鑒定結果打分的降低而單調遞增,在實際實驗中可能會出現(xiàn)鑒定結果高打分區(qū)域的FDR高于低打分區(qū)域的FDR,這樣會影響根據(jù)FDR閾值進行過濾的實際操作。為了解決這個問題,在實際應用中通常使用q-value來替代FDR。q-value是指能過濾出打分為x的肽譜匹配結果所需要的FDR閾值的最小值[47],相當于對FDR做了平滑操作,后續(xù)提到的FDR均指q-value。本文將采用TDA估計FDR進而對鑒定結果進行質量控制的方法稱為“TDA-FDR”方法。
由于前述TDA-FDR方法不能評估單個鑒定結果的后驗錯誤概率(posterior error probability,PEP),Local FDR方法逐漸得到發(fā)展和應用[34,48-49]。LocalFDR是指打分等于x的鑒定結果中誘餌庫鑒定結果和目標庫鑒定結果的比例,而前述FDR是指全局FDR,即打分大于等于x的鑒定結果中誘餌庫鑒定結果和目標庫鑒定結果的比例。Kall等[48]的研究認為,在統(tǒng)計學意義上,LocalFDR比FDR和q-value更保守。
質譜分析會給出每張譜圖所對應的肽段信息,每個鑒定結果就是一個肽段-譜圖匹配(peptidespectrum match,PSM),由PSM可以得到肽段,而由肽段又可以推斷出鑒定到的蛋白質,所以質譜鑒定結果包含譜圖、肽段和蛋白質3個層面的鑒定信息。相應地,譜圖、肽段和蛋白質3個層面均可估計各自的FDR。這3個層面的FDR估計基本方法均是通過當前打分閾值下的誘餌庫鑒定結果(譜圖/肽段/蛋白質)數(shù)目除以目標庫鑒定結果數(shù)目。人類蛋白質組計劃(Human Proteome Project,HPP)要求質譜分析中譜圖、肽段和蛋白質3個層面的FDR均不能超過1%[50-51]。
TDA-FDR方法萌發(fā)于常規(guī)蛋白質組學,但蛋白質組學分析中常常會對某些特殊的鑒定結果感興趣,比如子類肽段和交聯(lián)肽段等,常規(guī)的TDAFDR方法并不能直接用于特殊鑒定結果的可信度評價,需要針對特殊目標進行改進和演化。
2.2.1 針對子類肽段的TDA-FDR方法
對于某些子類鑒定結果,比如蛋白質基因組學分析在注釋相對完全的物種中鑒定到的新肽段,或者富含翻譯后修飾的鑒定結果,由于這些子類鑒定結果的數(shù)目相對于總的鑒定結果而言并不多,而這些子類肽段的搜索空間比常規(guī)肽段的搜索空間更大[52],如果所有鑒定結果合并進行過濾會導致子類鑒定結果的FDR估計不準確[4,52-54]。所以,需要對每種子類鑒定結果單獨計算FDR,即分開過濾,這種方法被稱為“Separate FDR”,核心思想是對于鑒定結果按數(shù)據(jù)類型分組(鑒定到不同種類的翻譯后修飾或者鑒定為新肽段或已注釋肽段),在每組數(shù)據(jù)上單獨使用TDA來估計組內數(shù)據(jù)的FDR并對組內數(shù)據(jù)進行過濾。Separate FDR方法計算公式如下:
其中k代表肽段類別,F(xiàn)DRk代表第k類肽段的FDR,ND_k代表第k類誘餌庫肽段鑒定數(shù)目,NT_k代表第k類目標庫肽段鑒定數(shù)目。這種方法可以更準確地估計每類肽段的FDR,但是對于子類肽段數(shù)目比較敏感。當子類肽段數(shù)目較少時,計算的FDR可能并不準確。
李婧等[55]發(fā)現(xiàn),對于突變肽段這種子類鑒定結果,即使采用Separate FDR方法,也不能有效解決突變肽段打分向低分區(qū)域聚攏的問題(即鑒定到的突變肽段不可信),她們認為子類數(shù)據(jù)中鑒定到的誘餌庫結果可能與該子類數(shù)據(jù)占總體數(shù)據(jù)的比例有關,所以根據(jù)鑒定結果中的子類數(shù)據(jù)與總體數(shù)據(jù)的比例重新估計子類數(shù)據(jù)中的誘餌庫鑒定結果數(shù)目,在此基礎上重新估計子類數(shù)據(jù)的FDR。由于該方法最早用于估計突變肽段的FDR,所以稱該方法為“Variant FDR”,計算公式如下:
其中k代表肽段類別,F(xiàn)DRk+代表打分閾值之上的第k類肽段的FDR,ND+代表打分閾值之上的所有誘餌庫肽段數(shù)目,ND-代表打分閾值之下的所有誘餌庫肽段數(shù)目,ND-_k代表打分閾值之下的第k類誘餌庫肽段數(shù)目,NT+_k代表打分閾值之上的第k類目標庫肽段數(shù)目?;蚪M證據(jù)表明,Variant FDR方法比常規(guī)TDA-FDR和Separate FDR過濾出的突變肽段的準確性更高。
當子類鑒定結果樣本量較小時,即使是分開過濾,直接使用TDA公式計算得到的FDR可能并不準確,此時可以使用Transfer FDR方法估計任意數(shù)目的子類鑒定結果的FDR。該方法由付巖等[56]提出,通過線性擬合誘餌匹配中子類肽段比例與打分間的函數(shù)關系,更準確地估計打分閾值處的子類錯誤目標匹配數(shù)量,以此估計子類數(shù)據(jù)的FDR,避免子類數(shù)據(jù)樣本數(shù)目較少帶來的FDR估計不準確的問題。Transfer FDR的計算公式如下:
其中k為肽段類別,F(xiàn)DRk為第k類肽段的FDR,x代表肽段打分,N(x)代表打分超過x的所有肽段數(shù)目,Nk(x)代表打分超過x的第k類肽段數(shù)目,a和b代表線性擬合常數(shù)項,F(xiàn)DR代表所有肽段的全局FDR。
分開過濾的思想可以很自然地應用于蛋白質基因組學鑒定的新肽段和已注釋肽段的可信度評價中。蛋白質基因組學是通過蛋白質組學鑒定蛋白質,結合基因組信息對生物的基因進行重注釋,即發(fā)現(xiàn)新基因、新現(xiàn)象(比如新N端、可變剪接)和校正已注釋基因,對應到質譜分析中主要為發(fā)現(xiàn)新肽段和校正已注釋肽段[4,54,57]。Krug等[58]研究表明,對于大腸桿菌等注釋程度較高的物種,鑒定到的新肽段的后驗錯誤概率分布與誘餌庫肽段的后驗概率分布幾乎相同,所以蛋白質基因組學發(fā)現(xiàn)新肽段需要進行嚴格質控。如果對新肽段單獨估計FDR,可能會因為注釋程度較高的物種中新肽段數(shù)目較少而導致估計值不夠準確;而如果對新肽段和已注釋肽段統(tǒng)一進行FDR估計,則會降低新肽段的準確度。Zhang等[54]將分開過濾的思想應用到蛋白質基因組學中,推導了已注釋肽段和新肽段的FDR與全局FDR的關系,并證明了已注釋肽段的FDR小于全局FDR小于新肽段FDR[59],這兩類肽段的FDR計算公式如下所示:
公式(5)和公式(6)中,F(xiàn)DRnew(x)和FDRann(x)分別代表打分高于x的新肽段和已注釋肽段的FDR,μ指基因組序列注釋比例,θ指基因注釋完整性比例?;蚪M序列注釋比例是指已注釋基因總長占基因組長度的比值,基因注釋完整性比例是指已注釋基因占基因組上所有真實表達基因的長度比例。這兩個變量中,μ可以直接計算得到,但很遺憾的是,θ是未知量,無法得知,所以無法通過以上公式精確計算兩類肽段的FDR。但是通過μ與θ的關系(由定義可知,μ≤θ且θ>0)可以從公式(5)和公式(6)中推導出FDRnew(x)>FDR(x)>FDRann(x)[59]。
為了更精準地計算出兩類肽段的FDR,張昆[59]又將Transfer FDR方法應用到蛋白質基因組學中,通過線性擬合的方法重新估計新肽段中的錯誤鑒定數(shù)目,單獨計算釀酒酵母蛋白質基因組學分析中鑒定到新肽段的FDR(方法同公式(4))。酵母新肽段中的合成實驗表明,蛋白質基因組學中,Transfer FDR方法比Separate FDR方法估計的新肽段FDR更準確。
2.2.2 針對交聯(lián)肽段的TDA-FDR方法
交聯(lián)蛋白質組學(這里特指二肽交聯(lián))質譜數(shù)據(jù)由兩條相互交聯(lián)的肽段碎裂打譜得到,與常規(guī)蛋白質組學鑒定肽段結果非對即錯相比,交聯(lián)蛋白質組學鑒定得到的是兩條相互交聯(lián)的肽段,它們存在全對、全錯、一對一錯這3種情況,這使得FDR的計算方式變?yōu)?/p>
其中,NTD代表交聯(lián)肽段一條來自目標庫,而另一條來自誘餌庫的鑒定結果數(shù)目,NDD代表交聯(lián)肽段中兩條肽段均來自誘餌庫的鑒定結果數(shù)目,NTT代表交聯(lián)肽段中兩條肽段均來自目標庫的鑒定結果數(shù)目[6,60]。在實際應用中,對于不同蛋白質之間(inter-protein)和同一蛋白質之內(intra-protein)這兩類交聯(lián)肽段要應用公式(7)分別計算FDR,這里也應用了分開過濾的思想[60-61]。
糖基化修飾是一種特殊的修飾,糖蛋白質組學中鑒定的糖肽可以看作是特殊的修飾肽段,但由于糖鏈的特殊性,不妨將糖肽看作糖鏈和肽段的交聯(lián),類似于交聯(lián)蛋白質組學中的交聯(lián)二肽。早期計算糖肽鑒定結果的FDR比較困難,因為難以對糖鏈構建誘餌庫,所以無法直接估計糖鏈的FDR,僅通過估計肽段的FDR進行質控。2013年,Strum等[62]提出糖不變而蛋白質隨機置換以及糖增加11 u而蛋白質不變兩種方法構建誘餌庫,這種方法最早提出了誘餌糖庫的思想,但只是改進打分,未對FDR進行研究。2017年,Liu等[63]提出將糖庫中的理論Y離子質量隨機增加1~30 u來構造糖鏈的誘餌譜圖,作者想出該方法是受到了肽段誘餌庫的啟發(fā),肽段誘餌庫可以通過反轉序列后生成誘餌譜圖,也可以先生成譜圖,然后譜峰偏移構建誘餌譜圖,所以作者認為通過偏移糖庫中的理論Y離子質量也可以達到構建糖鏈誘餌譜圖的效果。通過鑒定的糖鏈誘餌譜圖和肽段誘餌譜圖的數(shù)目分別估計出糖鏈和肽段的FDR,然后用容斥原理估計出糖肽的FDR:
其中FDR(x)建模了糖肽鑒定錯誤的概率,F(xiàn)DRG(x)建模了糖鏈鑒定錯誤的概率,F(xiàn)DRP(x)建模了肽段鑒定錯誤的概率,F(xiàn)DRG∩P(x)建模了糖鏈和肽段同時鑒定錯誤的概率。
公式(7)與公式(8)形式上似乎差異很大,但實際上只是同種計算方法的不同呈現(xiàn)形式。前面提到可以將糖肽看作是糖鏈與肽段的交聯(lián),同時假設糖鏈和肽段各自的誘餌庫鑒定結果數(shù)目與錯誤鑒定結果數(shù)目的比例是相等的,那么如果以NTD代表糖鏈和肽段其中一個來自目標庫而另一個來自誘餌庫的鑒定結果數(shù)目,N”TD代表糖鏈來自目標庫而肽段來自誘餌庫的鑒定結果數(shù)目,N”DT代表糖鏈來自誘餌庫而肽段來自目標庫的鑒定結果數(shù)目,NDD代表糖鏈和肽段均來自誘餌庫的鑒定結果數(shù)目,NTT代表糖鏈和肽段均來自目標庫的鑒定結果數(shù)目,可知有NTD=N”TD+N”DT,那么公式(8)可以變?yōu)椋?/p>
從而得到與公式(7)相同的計算公式[64]。所以,交聯(lián)鑒定和糖肽鑒定中的TDA-FDR方法本質上是相同的。
2.2.3 針對蛋白質層面的TDA-FDR方法
質譜分析的終極目標是鑒定蛋白質。由譜圖可以鑒定出肽段,進而推斷出蛋白質,但這個向上遞推的過程會導致錯誤結果逐漸積累[65-66]。例如,第一節(jié)提到的兩篇人類蛋白質組草圖研究中報告了多種錯誤蛋白質,其主要原因是這兩篇草圖文章都只對肽段的可信度進行了質控,沒有對蛋白質層面做質量控制,在肽段推斷蛋白質時,錯誤率得到了積累[26]。由于正確鑒定的肽段更有可能集中到相同的蛋白質,而錯誤鑒定的肽段則有可能分散到不同的蛋白質,這樣就造成了從肽段推斷到蛋白質后,蛋白質層面的錯誤率積累,造成蛋白質層面的FDR較高,是肽段層面的數(shù)倍或數(shù)十倍(圖2a)。所以,從肽段推斷到蛋白質后,還要對蛋白質層面進行質量控制。蛋白質的推斷方式影響著蛋白質層面的質量控制,共享肽段的分配影響著蛋白質推斷結果。有研究認為,蛋白質推斷需要遵循奧卡姆剃刀原則,即用最少的蛋白質解釋所有的肽段[67]。也有研究認為“one-hit-wonders”不可信[68-70],需要引入雙特異肽段推斷方法,但Gupta等[71]認為雙特異肽段推斷過于保守。人類蛋白質組計劃則明確表示鑒定遺漏蛋白質需要不低于9個氨基酸長度的非嵌套的雙特異肽段[50-51]。
當?shù)鞍踪|組數(shù)據(jù)集規(guī)模較大(能鑒定數(shù)十萬條肽段)時,鑒定到的目標庫蛋白質數(shù)目越來越多,造成新鑒定的目標庫蛋白質和誘餌庫蛋白質比例失衡,新鑒定的目標庫蛋白質越來越少,新鑒定的誘餌庫蛋白質越來越多,造成誘餌庫蛋白質累積和蛋白質FDR的高估。針對大數(shù)據(jù)集帶來的目標庫和誘餌庫蛋白質匹配概率失衡的問題,領域內目前發(fā)展了MAYU[72]和Picked FDR[73-74]等蛋白質推斷及質控方法。這里介紹思想最簡單、實現(xiàn)最方便又能取得較好效果的Picked FDR方法[73],該方法將目標庫蛋白質及其序列反轉得到的誘餌庫蛋白質看作一組,每組蛋白質中如果兩個蛋白質都被鑒定,那么只保留打分高的蛋白質匹配,刪除打分低的蛋白質匹配。在具體實現(xiàn)時可以將所有鑒定的蛋白質按照打分從高到低進行排序,對于每個蛋白質,如果其對應的反轉蛋白質(目標庫蛋白質的反轉為誘餌蛋白質,誘餌蛋白質的反轉為目標蛋白質)已經(jīng)在前述蛋白質列表出現(xiàn)過,那么刪除當前蛋白質,反之,則保留當前蛋白質。以圖2b為例,目標庫蛋白質PROTEIN 1獲得了20分,其對應的誘餌庫蛋白質PROTEIN 2獲得了3分,那么打分高的PROTEIN 1被保留,打分低的PROTEIN 2被刪除,不再參與后續(xù)蛋白質FDR計算。同理,目標蛋白質PROTEIN 3獲得了15分,其對應的誘餌庫蛋白質PROTEIN 4獲得了18分,那么打分高的PROTEIN 4被保留,打分低的PROTEIN 3被刪除。通過這種方法能夠解決低打分區(qū)域鑒定到的目標庫和誘餌庫蛋白質數(shù)目不平衡的問題,使得TDA的1∶1假設在蛋白質層面得到滿足,從而得到更準確的蛋白質FDR。Percolator 3.0文章中對Picked FDR方法進行了檢驗和肯定[75]。在Picked FDR原理基礎上,Prieto等[74]認為,誘餌庫蛋白質的打分是無意義的,不應該刪除比誘餌庫蛋白質打分低的目標庫蛋白質。所以,他們對Picked FDR方法做了改進,即對于打分低于目標庫的誘餌庫蛋白質予以刪除,但對于打分低于誘餌庫的目標庫蛋白質予以保留。Prieto等認為改進的Picked FDR方法能夠在保持與原Picked FDR方法相當?shù)撵`敏度的情況下,保留更多的高分蛋白質。
Fig. 2 Protein inference and protein level quality control圖2 蛋白質推斷與質量控制
TDA-FDR方法簡單易用,并且能在子類肽段和交聯(lián)肽段等特殊鑒定任務中演化出更合適的版本,但是該方法還存在兩個局限。a. TDA-FDR方法估計的準確度有待考究。領域內普遍認為,目標庫中的錯誤鑒定結果有兩個來源:真正的隨機匹配和同源錯誤匹配[24,76]。當使用目標庫序列反轉或者隨機化構建誘餌庫序列時,TDA-FDR理論上能夠模擬出隨機匹配的分布情況,但卻無法模擬出同源錯誤匹配情況,所以理論上TDA-FDR會低估真實的錯誤率[66]。另外,在二次搜索等特殊場景下,TDA-FDR會嚴重低估真實錯誤率,Jeong等[77]研究表明,在采用兩步搜索方法對酵母數(shù)據(jù)進行搜索時,TDA方法估計的FDR是真實錯誤率的1/20。這可能是由于第二次搜索時采用第一次搜索鑒定的目標庫蛋白質構造蛋白質小庫,雖然通過目標庫蛋白質序列反轉構建了同等數(shù)目的誘餌庫蛋白質,但此時的目標庫蛋白質比誘餌庫蛋白質更容易獲得高分,造成TDA失衡。b. TDA-FDR方法不能對單個鑒定結果的可信度進行評價。Nesvizhskii[66]認為,TDA-FDR是全局方法,是對一組已經(jīng)獲取個體置信度分數(shù)的鑒定結果的假發(fā)現(xiàn)率進行的估計。鑒定結果的準確度會影響后續(xù)解析蛋白質結構與功能、研究致病機理和靶向治療方案等工作的可行性和準確性。所以還需要在TDA-FDR方法的基礎上,使用更嚴格的可信度評價方法,保證鑒定結果可以用于后續(xù)的結構和功能分析,這也是下一節(jié)提到的Beyond-TDA方法的由來。
造成錯誤匹配的因素眾多,搜索空間[12]、碎片離子強度[45,76]和與實驗參數(shù)相關的信息,如母離子誤差、保留時間、酶切特異端點和遺漏酶切位點數(shù)目等[66],都能幫助區(qū)分正確和錯誤鑒定結果。因此,在TDA方法的基礎上,結合前述有效信息,可以進一步檢驗鑒定結果可信度。本文將這類方法統(tǒng)稱為Beyond-TDA方法,即在TDA-FDR方法的基礎上,對鑒定結果的可信度做進一步檢驗。我們認為“評價”包含對群體鑒定可信度的評價(如TDA-FDR)和對個體鑒定可信度的評價,而本章介紹的Beyond-TDA方法均是對個體可信度的評價,即檢驗每個鑒定結果的正確性,所以我們又將其稱為可信度檢驗方法。Beyond-TDA方法根據(jù)其使用的有效信息可以分為4類:a. 基于搜索空間的方法,包括陷阱庫檢驗和開放式搜索檢驗;b. 基于譜圖相似性的方法,包括合成肽段檢驗和理論譜圖預測;c. 基于化學信息的方法,包括保留時間預測和同位素標記檢驗;d. 基于機器學習的方法,包括Percolator、pValid和DeepRescore等。
肽段鑒定可信度檢驗方法通常會給肽段的可信度進行打分,根據(jù)打分高低衡量不同肽段的可信程度。但是,在應用這些方法之前需要首先評估它們的檢驗能力,檢驗假陽率(false positive rate,F(xiàn)PR)和檢驗假陰率(false negative rate,F(xiàn)NR)就是這樣兩個衡量指標。在本文中,檢驗的目標就是為了發(fā)現(xiàn)錯誤鑒定結果,類似于臨床中診斷疾病,患該疾病則為陽性,反之為陰性。所以本文將檢驗結果呈陽性定義為檢驗方法判斷鑒定結果為錯誤鑒定,檢驗呈陰性則是指判斷鑒定結果為正確,檢驗的假陽是指真實正確的鑒定結果被判斷為陽性(錯誤鑒定),檢驗的假陰是指真實錯誤的鑒定結果被判斷為陰性(正確鑒定)。進一步,檢驗假陽率是指正確鑒定結果被報告為不可信結果(即檢驗結果陽性)的比例,檢驗假陰率是指錯誤鑒定結果被報告為可信結果(即檢驗結果陰性)的比例[78]。從定義上看,這兩個指標都是越小越好。同時,這些方法的檢驗假陽率和檢驗假陰率與應用它們排除檢驗陽性的結果前后鑒定結果的靈敏度和準確度存在一定的關系,即檢驗假陽率越低,排除檢驗陽性的結果后,鑒定結果的靈敏度越高,檢驗假陰率越低,排除檢驗陽性的結果后,鑒定結果的準確度越高[78]。檢驗假陽率和檢驗假陰率越低的方法對鑒定結果的正誤判斷越準確,在實際檢驗肽段鑒定可信度的過程中,應該選擇檢驗假陽率和檢驗假陰率都較低的方法,保留檢驗方法認為可信的鑒定結果,排除它們認為不可信的鑒定結果。
搜索空間對鑒定結果的準確度有較大影響。當搜索空間不足即正確鑒定結果不在搜索空間內時,會導致鑒定出錯。而擴大搜索空間,會有兩種情況:第一,正確鑒定結果被包括到搜索空間中,只要肽段-譜圖匹配打分無誤,就可以鑒定到正確鑒定結果,將原始鑒定判錯;第二,正確鑒定結果仍然不在搜索空間中,但此時搜索空間中更多的候選結果有更大的概率打敗小空間搜索時的錯誤結果,這樣也能評價原始鑒定結果的正確性。無論哪種情況,我們主要利用搜索空間增大后結果的不穩(wěn)定性,對原始鑒定結果的可信度進行評價。根據(jù)搜索空間的不同擴增方式,又分為陷阱庫檢驗和開放式搜索檢驗。
陷阱庫方法已經(jīng)在蛋白質組學研究中應用多年,其主要思想是使用與目標物種無關的蛋白質作為陷阱進行匹配,如果一張譜圖在搜索目標蛋白質和陷阱蛋白質合并構成的數(shù)據(jù)庫時匹配到陷阱庫蛋白質的肽段,那么認為該譜圖的鑒定結果是不可信的,這就可以用于評價不同引擎和不同方法的準確度[79-84]。馬潔等[80]使用古細菌蛋白質庫作為人類肝臟數(shù)據(jù)的陷阱庫,比對搜索引擎在不同搜索參數(shù)下的錯誤率,提升搜索引擎的靈敏度和準確度。其實驗結果表明,Mascot的Ion Score和Relative Score可以幫助提升鑒定靈敏度,使用貝葉斯非參數(shù)模型可以比根據(jù)人工經(jīng)驗確定的打分閾值過濾出的結果獲得更高的準確度。Granholm等[81]使用流感嗜血桿菌蛋白質庫作為18個ISB標準蛋白質的陷阱庫,評測搜索引擎打分函數(shù)對正確和錯誤鑒定結果的區(qū)分能力。實驗證明,使用了Intraset特征的Percolator的打分以及X!Tandem和MSGFDB中計算的q-value都是有偏的。Feng等[84]使用人類蛋白質庫作為強烈火球菌的陷阱庫蛋白質,使用古細菌蛋白質庫作為人類數(shù)據(jù)的陷阱庫,基于強烈火球菌和人類數(shù)據(jù)的陷阱庫檢驗,評測了5種搜索引擎和四種質量控制方法,在這種評測條件下,搜索引擎MS-GF+和后處理方法PepDistiller[85]表現(xiàn)最優(yōu),同時也證明了使用分開過濾方法單獨估計子類數(shù)據(jù)的FDR能夠同時提升鑒定結果的準確度和靈敏度。具體使用陷阱庫方法時有多種實現(xiàn)方式,選擇不同物種、不同規(guī)模的蛋白質庫作為陷阱庫,會對實驗結果造成不同程度的影響。Feng等[83]的研究指出,需要使用規(guī)模為目標蛋白質數(shù)據(jù)庫十倍的陷阱庫才能保證隨機匹配幾乎只發(fā)生在陷阱庫上,使得陷阱庫方法發(fā)揮最佳效果。
上述應用陷阱庫思想的研究中都只搜索了目標庫和陷阱庫的合并蛋白質庫,陷阱庫可以幫助找出搜索合并庫時的一部分錯誤鑒定,但沒法對常規(guī)情況下只搜索目標庫時的鑒定結果做檢驗,所以我們前期的工作中提出了額外搜索合并庫的陷阱庫檢驗方法[78]。合并庫中的陷阱庫蛋白質擴大了搜索空間,如果搜索合并庫時的鑒定結果與之前只搜索目標庫時的鑒定結果不一致,則認為之前只搜索目標庫時的鑒定結果錯誤。
開放式搜索檢驗與陷阱庫檢驗的思想類似,都是通過擴大搜索空間后再次搜庫,檢驗原始搜索空間鑒定的結果是否會產(chǎn)生變化。不同之處在于開放式搜索檢驗擴大的搜索空間中可能包含正確鑒定結果,但是實際操作中與陷阱庫檢驗區(qū)別并不大。陷阱庫檢驗需要額外搜索目標庫和陷阱庫的合并蛋白質庫,而開放式搜索需要額外搜索目標物種庫的所有酶切和所有修飾情況。由于開放式搜索空間包含真實正確鑒定結果,所以開放式搜索檢驗更容易發(fā)現(xiàn)原始結果中的錯誤,即開放式搜索檢驗方法的檢驗假陰率會優(yōu)于陷阱庫檢驗方法,我們前期的研究中也證明了這個結論[78]。
值得一提的是,前文提到的TDA方法,本質上也應用了擴大搜索空間的思想。實際上,如果首先僅搜索一次目標庫,再搜索一次目標庫和誘餌庫的合并庫,那么,TDA也是一種基于陷阱庫的檢驗方法,誘餌庫在這里起到陷阱庫的作用,且目標庫與陷阱庫具有同規(guī)模的特點(也正是這一特點,可以在TDA方法基礎上進行FDR估計)。具體講,TDA用作檢驗方法時,假陽性結果是指將原本正確的鑒定結果檢驗為陽性即錯誤鑒定結果,也就是只搜索目標庫時鑒定為目標庫的正確結果,搜索目標庫和誘餌庫的合并庫時鑒定為誘餌庫結果。當然,這種可能性極小,原則上,如果真實結果存在于目標庫中,那么一般認為誘餌庫競爭不過目標庫中的真實結果,因此可以認為TDA方法的檢驗假陽率是0。TDA方法檢驗所得的假陰性結果是指將原本錯誤的鑒定結果檢驗為陰性即正確鑒定結果,也就是搜索目標庫時錯誤的目標庫鑒定結果,在搜索目標庫和誘餌庫的合并庫時,仍然鑒定到目標庫結果,這種可能性是存在的,如果隨機匹配到目標庫和誘餌庫的概率是1∶1的假設成立,那么可以認為TDA的檢驗假陰率是50%。
搜索引擎對每個肽段-譜圖匹配的打分其實就是對實驗譜圖與肽段的理論譜圖的相似程度進行打分,理論譜圖估計得越準確,打分的可信度越高。常規(guī)的數(shù)據(jù)庫搜索引擎在生成肽段的理論譜圖時,沒有考慮碎片離子的強度信息,即給理論譜圖中的所有碎片離子賦予相同的強度,這會造成一部分肽段-譜圖匹配錯誤。在Beyond-TDA方法中,有一類方法通過在肽段-譜圖匹配打分時考慮碎片離子強度,對鑒定的肽段的可信度進行評價,包括合成肽段檢驗和理論譜圖預測兩種方法。
3.3.1 合成肽段檢驗
合成肽段檢驗方法能夠獲取最真實和最精準的肽段理論譜圖,所以合成肽段檢驗方法是領域內檢驗鑒定結果可信度的金標準。合成肽段檢驗方法常用來檢驗發(fā)現(xiàn)的新現(xiàn)象(比如新基因、遺漏注釋蛋白質和新修飾),即對相應的新肽段進行合成,在盡可能相同的液相色譜條件和質譜儀參數(shù)等條件下打譜,通過計算新肽段對應的實驗譜圖與合成肽段對應的合成譜圖的余弦相似度,判斷新肽段的可信度[86-88]。一般以0.9作為合成肽段檢驗的余弦相似度閾值,達到或超過這個閾值則認為鑒定結果可信;反之,低于該閾值則認為鑒定結果不可信[87-88]。合成肽段檢驗方法是領域內目前公認的最好的個體可信度檢驗方法,我們前期的工作中評測合成肽段檢驗方法的FPR為0.06%,F(xiàn)NR為1.44%[78]。然而該方法的應用成本非常高,需要消耗時間和經(jīng)濟成本,難以大規(guī)模應用。
3.3.2 理論譜圖預測
理論譜圖預測方法可以看作是合成肽段檢驗的一種替代方法。采用機器學習特別是深度學習技術預測特定儀器、特定碎裂能量、特定電荷狀態(tài)的肽段理論碎裂的譜圖,將這類譜圖稱為預測譜圖。常用的理論譜圖預測軟件有采用隨機森林方法的MS2PIP[89],采用雙向長短期記憶網(wǎng)絡的pDeep[90]、pDeep2[91]、DeepMass[92]和Guan_2019(關慎恒等人開發(fā)的軟件)[93]以及采用雙向遞歸循環(huán)神經(jīng)網(wǎng)絡的Prosit[94]等。與合成肽段檢驗方法類似,得到預測譜圖后,計算實驗譜圖和預測譜圖的余弦相似度,pValid文章中綜合考慮FPR和FNR后選取0.7作為實驗譜圖和pDeep2預測譜圖的相似度閾值,余弦相似度達到或者超過0.7認為鑒定結果可信,反之余弦相似度低于0.7則認為鑒定結果不可信,取閾值0.7時理論譜圖預測方法的FPR和FNR分別是0.26%和10.80%[78]。理論譜圖預測方法不僅可以用于檢驗鑒定結果的可信度,也可以幫助改進肽段和譜圖的匹配打分,DeepMass從理論譜圖中提取強度Top-3、Top-5、Top-7、Top-10和Top-13的譜峰計算Andromeda打分[95],雖然參與打分的譜峰數(shù)目比原始譜圖要少,但是由于譜峰預測更準確,反而可以提升打分。
Xu等[96]對4種理論譜圖預測軟件的預測能力進行了評測,采用10個不同物種、酶切、儀器和碎裂能量的公共數(shù)據(jù),對這些數(shù)據(jù)進行重新分析,采用5種數(shù)據(jù)庫搜索引擎進行搜庫,取搜庫結果交集作為標注集,根據(jù)鑒定肽段的離子類型、長度和電荷進行分組,然后采用MS2PIP、Prosit、pDeep 2和Guan_2019預測肽段的理論譜圖,計算理論譜圖和實驗譜圖的皮爾遜相似度。從預測譜圖與實驗譜圖的相似程度看,Prosit和pDeep2表現(xiàn)最好;從GPU和CPU上的運行時間看,pDeep2在GPU和CPU上運行時間均優(yōu)于Prosit。
除了上述基于搜索空間和譜圖相似性的Beyond-TDA方法,引入保留時間和同位素標記等化學信息也可以幫助評價肽段的可信度。保留時間預測方法可以提供肽段的理論保留時間,而同位素標記方法相當于對待檢驗的目標增加了額外的譜圖信息。
3.4.1 保留時間預測
肽段的保留時間是指肽段從色譜進入質譜所需要的時間,通俗來說是指肽段離子在質譜中從有信號到信號達到最高峰這段過程的時間,它與肽段的化學結構有關,在特定分離條件下肽段的保留時間應該是相對恒定的,所以通過檢驗肽段的保留時間是否在一定的范圍內,就可以判斷鑒定結果準確性[66,97-98]。保留時間預測方法有采用支持向量回歸方法的Elude[99-100]、采用高斯過程回歸方法的GPTime[101]、采用膠囊網(wǎng)絡和遷移學習方法的DeepRT[102]、采用雙向遞歸循環(huán)神經(jīng)網(wǎng)絡的Prosit[94]、采用雙向長短期記憶網(wǎng)絡的Guan_2019[93]以及基于卷積神經(jīng)網(wǎng)絡和長短期記憶網(wǎng)絡的AutoRT[103]。可以直接采用預測保留時間與實際保留時間的差值檢驗鑒定結果的可信度,也可以將差值作為一維特征,與理論譜圖相似度等其他特征聯(lián)合判斷鑒定結果的可信度。
P-IVS[104]是一種結合合成肽段和保留時間特征的可信度檢驗方法,該方法對于感興趣的目標肽段進行合成,同時在實驗樣品和合成樣品中均混入一定量的標準肽段,統(tǒng)計標準肽段在兩種樣品中的譜圖皮爾遜相似度和保留時間差值的范圍,確定置信區(qū)間,然后對于目標肽段計算其在兩種樣品中的皮爾遜相似度和保留時間差值,通過前述確定的皮爾遜相似度和保留時間差值的置信區(qū)間對目標肽段的可信度進行檢驗。P-IVS的優(yōu)勢是結合了合成肽段和保留時間,使得可信度檢驗較為精準,但是不能大規(guī)模應用,文章中僅僅對11條目標肽段的可信度進行了檢驗(使用了40條標準肽段)。
3.4.2 同位素標記檢驗
同位素標記檢驗方法(圖3)需要在樣品制備過程中同時制備無標記樣品和重同位素標記樣品,將無標記樣品和標記樣品按比例混合后再進行酶切和質譜采集。對于搜索引擎鑒定的每條肽段,如果鑒定為無標記肽段,則在一級譜尋找其對應的重同位素標記肽段的信號峰;如果鑒定為重同位素標記肽段,則在一級譜尋找其對應的無標記肽段的信號峰。如果能找到該鑒定結果對應的另一種標記肽段的信號峰,那么認為該鑒定結果可信;反之,則認為該鑒定結果不可信[12,61,63]。更嚴格的同位素標記檢驗可以計算無標記和標記肽段信號峰的強度比值,只有比值符合或接近樣品制備時無標記樣品和標記樣品的濃度比例,才認為鑒定結果可信,反之認為不可信。
同位素標記檢驗方法目前在常規(guī)蛋白質組學、交聯(lián)蛋白質組學和糖蛋白質組學都得到了應用[12,61,63]。糖蛋白質組學中最早應用了同位素標記檢驗方法[63],糖肽搜索引擎pGlyco 2首次應用15N和13C兩種同位素標記方法標記釀酒酵母數(shù)據(jù),其中無標記、15N標記和13C標記3種標記樣品的比例是1∶1∶1。pGlyco 2和Byonic鑒定結果的15N和13C標記檢驗表明pGlyco 2的可信度遠高于Byonic。pGlyco 2采用所有誘餌庫結果估計同位素標記檢驗方法的檢驗假陰率,但沒有估計檢驗假陽率,最后使用估計得到的檢驗假陰率對目標庫結果的錯誤率做了校正,算得pGlyco 2鑒定到的糖肽的錯誤率低于Byonic。
在常規(guī)蛋白質組學中,開放式搜索引擎OpenpFind也應用了15N和13C兩種同位素標記方法標記大腸桿菌數(shù)據(jù)[12],其中無標記、15N標記和13C標記三種標記樣品的比例是1∶1∶1。8種搜索引擎鑒定結果的15N標記檢驗和13C標記檢驗均表明Open-pFind的鑒定結果具有最高的準確度,且Open-pFind相對其他引擎單獨鑒定的差集部分具有與交集部分相當?shù)臏蚀_度。Open-pFind采用多引擎交集作為正樣本估計兩種同位素標記方法的檢驗假陽率,采用低打分區(qū)域的目標庫鑒定結果作為負樣本估計兩種同位素標記方法的檢驗假陰率,最后根據(jù)檢驗假陽率和檢驗假陰率估計出鑒定結果的錯誤率。
Fig. 3 Stable isotopic labeling validation method圖3 同位素標記檢驗方法
在交聯(lián)蛋白質組學中,搜索引擎pLink 2的研究中采用15N標記大腸桿菌數(shù)據(jù)[61],無標記和15N標記樣品的比例是1∶1,分別采用兩種交聯(lián)劑Leiker和二硫鍵進行交聯(lián),在這兩批交聯(lián)劑數(shù)據(jù)上對三種交聯(lián)引擎Kojak、pLink 1和pLink 2進行評測,檢驗結果表明pLink 2的鑒定結果具有最高的準確度。pLink 2采用多引擎交集作為正樣本評測15N標記檢驗方法的檢驗假陽率,采用通過TDA-FDR閾值的誘餌庫鑒定結果作為負樣本評測15N標記檢驗方法的檢驗假陰率,最后根據(jù)檢驗假陽率和檢驗假陰率估計出pLink 2的鑒定結果在三個引擎的鑒定結果中錯誤率最低。
同位素標記檢驗方法的應用并不限于在常規(guī)蛋白質組學、交聯(lián)蛋白質組學和糖蛋白質組學,還可以應用到微生物組學和蛋白質基因組學。同時,同位素標記檢驗方法也不限于MS1(一級質譜圖)檢驗,還可以用于MS2(二級質譜圖)檢驗,預期將有更高的檢驗效率。標記方法不限于15N標記和13C標記,其他代謝標記,如細胞培養(yǎng)條件下穩(wěn)定同位素標記技術(stable isotope labeling by amino acids in cell culture,SILAC)和化學標記方法,都值得探索。
上述3種基于搜索空間、譜圖相似性和化學信息的Beyond-TDA方法都具有各自的優(yōu)勢,如果能結合以上3種方法的多種特征進行可信度檢驗,并結合機器學習等方法挖掘數(shù)據(jù)特性,將會得到更精準的可信度檢驗方法。Percolator[105]采用半監(jiān)督學習方法,使得它能適配不同搜索引擎和不同物種的數(shù)據(jù)。Percolator采用互相關系數(shù)、質量、碎片離子匹配率、酶切特異性、肽段長度、電荷和鑒定結果數(shù)目等未用于打分的特征,使用支持向量機(support vector machine,SVM)作為分類器,對鑒定結果進行重打分。重打分的目的是為了讓目標庫和誘餌庫結果區(qū)分度更高,達到檢驗鑒定結果可信度的目的。
DeepRescore[106]使用AutoRT[103]預測保留時間,計算預測保留時間與實驗保留時間的差值DeltaRT,同時使用pDeep2預測理論譜圖,計算理論譜圖和實驗譜圖之間的譜圖夾角(spectra angle,SA),將DeltaRT和SA作為特征加入Percolator,同搜索引擎給出的打分等特征一起重新訓練,對每個鑒定結果重新打分,并重新計算FDR。
pValid方法從開放式搜索及理論譜圖預測中提取與鑒定結果相關的特征,并采用SVM方法作為分類器,對鑒定結果的可信度進行預測[78]。開放式搜索同時考慮了特異、半特異、非特異酶切形式以及Unimod[107]中的所有修飾,也是一種擴大搜索空間的檢驗方法。pValid綜合了開放式搜索和理論譜圖預測兩種可信度檢驗方法,獲得了更低的檢驗假陽率和檢驗假陰率,我們前期的工作中對以上提到的陷阱庫、開放式搜索、合成肽段、理論譜圖預測和pValid方法的檢驗假陽率和檢驗假陰率進行了研究[78]。采用3種數(shù)據(jù)庫搜索引擎(pFind、MaxQuant和PEAKS)的交集構建正樣本,評測各種方法的檢驗假陽率,采用正樣本譜圖母離子偏離5 u和10 u構建誘餌譜圖重新搜庫的方法構建負樣本,評測各種方法的檢驗假陰率。在3批標注數(shù)據(jù)集上,pValid的檢驗假陰率最低,檢驗假陽率僅次于陷阱庫方法。pValid的平均檢驗假陽率為0.03%,陷阱庫方法的平均檢驗假陽率為0.01%,pValid的平均檢驗假陰率為1.79%,但陷阱庫方法的平均檢驗假陰率高達56.13%。綜合考慮檢驗假陽率和檢驗假陰率,pValid方法優(yōu)于陷阱庫、開放式搜索和理論譜圖預測方法。在合成肽段數(shù)據(jù)集上,pValid的檢驗假陽率和檢驗假陰率媲美合成肽段檢驗方法(表1)。可以認為基于機器學習的pValid方法在一定條件下超越了陷阱庫、開放式搜索和理論譜圖預測方法,甚至也超越了合成肽段檢驗方法。
Table 1 Beyond-TDA validation methods表1 Beyond-TDA方法
質譜分析對蛋白質組學至關重要。質譜數(shù)據(jù)鑒定結果能夠給出基因表達的直接證據(jù),同時幫助解析蛋白質的結構和功能,發(fā)現(xiàn)與疾病相關的基因和蛋白質以及研制靶向治療方案。然而,質譜分析結果的可信度亟待評價。對常規(guī)肽段使用TDA進行質量控制的方法雖然在子類肽段和交聯(lián)肽段中都進行了演化改進,但仍然存在估計值不準確以及無法評價單個鑒定結果可信度的局限。因此,領域內在TDA基礎上開發(fā)了結合搜索空間、譜圖相似性、化學信息和機器學習等有效手段的Beyond-TDA方法。
Beyond-TDA方法主要介紹了基于搜索空間、譜圖相似性和化學信息的3類方法,包括陷阱庫、開放式搜索、合成肽段、理論譜圖預測、保留時間預測和同位素標記檢驗方法。陷阱庫方法可以快速檢驗大規(guī)模鑒定結果,TDA方法本質上也可以看作是陷阱庫檢驗。開放式搜索也是一種擴大搜索空間的檢驗方法,因其擴大的空間中可能包含正確鑒定結果,所以它的檢驗假陰率理論上會優(yōu)于陷阱庫方法。合成肽段方法是檢驗金標準,但是時間和經(jīng)濟成本較高,不適用于大規(guī)模質譜數(shù)據(jù)鑒定結果的檢驗,由此產(chǎn)生了理論譜圖預測方法模擬和替代合成肽段方法。保留時間預測方法采用預測保留時間與實際保留時間的差值作為鑒定結果可信度的評判標準,常常與理論譜圖預測等方法聯(lián)用。同位素標記檢驗目前已經(jīng)在常規(guī)蛋白質組學、交聯(lián)蛋白質組學和糖蛋白質組學中得到了應用并發(fā)揮了重要價值,但這種方法還可以繼續(xù)改進,比如不僅僅考慮無標記和重同位素標記肽段信號峰的存在性,將肽段的同位素峰簇比值以及碎片離子同位素峰簇比值都納入檢驗范圍,以及進一步從MS1拓展到MS2,從15N和13C拓展到SILAC,從代謝標記拓展到化學標記。
基于機器學習的可信度評價方法主要用于對鑒定結果進行重打分,自動選擇最優(yōu)重打分閾值檢驗鑒定結果的可信度,這些方法各自使用了多種特征,比如Percolator使用了XCorr互相關系數(shù)、肽段長度、電荷、鑒定結果數(shù)目等肽段-譜圖匹配相關的特征,DeepRescore使用了保留時間差值和理論譜圖預測,pValid使用了開放式搜索和理論譜圖預測。這些特征都能幫助區(qū)分正確和錯誤鑒定結果,未來可以將這些特征綜合應用到一個分類器中,并結合深度學習帶來的優(yōu)勢,提升分類結果的準確性。未來也可以考慮結合所有Beyond-TDA方法的優(yōu)勢,構建更準確的可信度評價方法。需要注意的是,機器學習方法受限于訓練數(shù)據(jù)的規(guī)模和質量,產(chǎn)生質譜數(shù)據(jù)的真實肽段是未知的,可以通過取多種搜索引擎交集的方法構建大規(guī)模高質量的正確鑒定結果,但構建同樣規(guī)模的高質量的錯誤鑒定結果卻很困難,這也是未來需要解決的問題。我們也注意到,近年來有研究認為,隨著質譜儀精度越來越高,基于統(tǒng)計的方法(P-value和Benjamini-Hochberg方法[108])的準確度優(yōu)于常規(guī)的TDAFDR[109],理論上,這類方法也可以和文中提到的其他Beyond-TDA方法進行結合,進一步檢驗鑒定結果的可信度。
蛋白質組學領域內發(fā)展了TDA方法和基于搜索空間、譜圖相似性、化學信息和機器學習技術的Beyond-TDA方法,對肽段鑒定的可信度進行評價,但是對于蛋白質層面的可信度評價關注不算多。蛋白質作為質譜分析的最終目標,具有非常重要的意義。Picked FDR方法讓人們意識到日益增長的蛋白質組學數(shù)據(jù)中的蛋白質FDR高估問題,給出了簡便且有效的解決方法,未來還需要更多地關注蛋白質層面的可信度評價方法。未來也可以嘗試將目前的肽段可信度評價方法遷移和拓展到蛋白質的可信度評價中,比如,對于每個待評價的蛋白質,只要有一條特異的肽段通過了可信度評價,那么就可以認為此蛋白質也通過了可信度評價,具體實現(xiàn)方式與方法可行性還有待進一步分析探索。