李 欣 宋麗麗 宋娜娜 邢清和 周 峰,3△
(1復(fù)旦大學(xué)生物醫(yī)學(xué)研究院 上海 200032;2復(fù)旦大學(xué)附屬婦產(chǎn)科醫(yī)院新生兒科 上海 200090;3復(fù)旦大學(xué)附屬中山醫(yī)院肝癌研究所 上海 200032)
單 核 苷 酸 多 態(tài) 性(single nucleotide polymorphism,SNP)指基因組上由單個核苷酸的變異所引起的DNA 多態(tài)性,由SNP 引起的蛋白質(zhì)中氨基酸序列發(fā)生變化的肽段稱為遺傳變異肽(genetically variant peptide,GVP),鑒定GVP 對于了解個體特異突變和潛在疾病等有重要作用[1-2]。蛋白質(zhì)組學(xué)工作流程通常依賴參考數(shù)據(jù)庫來識別肽段和蛋白質(zhì),如果數(shù)據(jù)庫中不包含突變序列,就無法檢測到GVP[1,3]。
得益于測序技術(shù)的快速發(fā)展,利用參考基因組或表達序列標簽(expressed sequence tag,EST)的六框或三框翻譯來構(gòu)建包含所有GVP 的數(shù)據(jù)庫成為可能,但是會使數(shù)據(jù)庫大小急劇增加而導(dǎo)致結(jié)果中假陽性過高[1,4]。利用樣品對應(yīng)的測序數(shù)據(jù)生成定制的蛋白質(zhì)序列數(shù)據(jù)庫可以避免上述問題[5-7],但需要耗費額外的成本,且依賴于復(fù)雜的生物信息學(xué)分析。在某些場合我們甚至難以獲取足量的核酸樣品用以測序,比如犯罪現(xiàn)場的毛干[8]。
隨著技術(shù)不斷進步,大規(guī)模檢測遺傳多態(tài)性可能成為蛋白質(zhì)組學(xué)數(shù)據(jù)分析流程中的常規(guī)工作。針對GVP 檢測,目前尚缺乏不依賴對應(yīng)樣品高通量測序的有效工具[1-2,9-10]。Pratik 等[11]證明在蛋白質(zhì)組學(xué)數(shù)據(jù)分析中運用兩步法的迭代搜索策略可以有效提高肽譜匹配的靈敏度,改善搜索結(jié)果。本研究在此基礎(chǔ)上開發(fā)了基于兩步法的迭代搜索策略來鑒定GVP 的工具2Steps_GVPtool,并在不依賴對應(yīng)樣品高通量測序數(shù)據(jù)的基礎(chǔ)上,以公共數(shù)據(jù)庫中的遺傳變異信息和參考蛋白質(zhì)數(shù)據(jù)庫構(gòu)建了包含GVP 的數(shù)據(jù)庫??紤]到實際應(yīng)用需求,我們以毛干樣品為例進行了實驗。
數(shù)據(jù)采集采集一名女性志愿者的長發(fā),志愿者對研究內(nèi)容知情同意,年齡18~45 歲,既往無脫發(fā)史,無頭面部手術(shù)史,無放化療史,近一年內(nèi)頭發(fā)未燙染且可提供的頭發(fā)長度>5 cm。剪掉長發(fā)首尾兩端各2 cm,保留中間毛干部分,分成共5 mg 的4 等份。每一份單獨按照文獻方法[10]進行碎裂、酶解,處理后得到肽混合物,以4 標iTRAQ 對4 份生物重復(fù)樣品進行標記之后混合,樣品進樣和數(shù)據(jù)采集過程采用實驗室開發(fā)的全自動全蛋白質(zhì)組定量分 析 平 臺[12],所 用 質(zhì) 譜 儀 為SCIEX 公 司 的TripleTOF 5600。
輸入文件2Steps_GVPtool 是一個命令行驅(qū)動的軟件工具包,可以在Linux 環(huán)境下作為獨立應(yīng)用程序安裝使用,工具包儲存在GitHub(https://github.com/lx18211510001/2Steps_GVPtool),方便用戶下載使用,也可以集成為系統(tǒng)工程流程的一部分。2Steps_GVPtool 的輸入文件包括遺傳變異信息和參考蛋白質(zhì)數(shù)據(jù)庫,本研究使用dbSNP 數(shù)據(jù)庫中的遺傳變異信息和SwissProt 數(shù)據(jù)庫中的參考蛋白質(zhì)數(shù)據(jù)庫。美國國家生物技術(shù)信息中心為滿足基因組變異通用目錄的需求而建立了dbSNP 數(shù)據(jù)庫,存儲了多個物種的全部變異信息,我們以dbSNP 中人類目錄下的common_all_20180418.vcf.gz(https://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/)作為輸入文件,該文件包含所有至少一個主要群體中最小等位基因頻率(minor allele frequency,MAF)≥0.01 的變異。
數(shù)據(jù)分析數(shù)據(jù)庫構(gòu)建和GVP 鑒定均通過2Steps_GVPtool 進行,具體參考工具包中的操作步驟。搜庫軟件使用ProteinPilot V.4.5(AB Sciex),肽譜匹配(peptide spectrum match,PSM)的錯誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)設(shè)定為0.01。
基因組序列驗證使用DNeasy?試劑盒(美國Qiagen 公司)從個體血樣中分離基因組DNA,對于2Steps_GVPtool 鑒定到的變異肽,使用TransStart?TopTaq DNA Polymerase(全式金)擴增編碼蛋白質(zhì)序列的相應(yīng)擴增子,進行PCR 反應(yīng),通過Sanger測序獲得擴增子序列。
流程框架本工具包的工作流程(圖1A)包括變異位點注釋(a 部分)、蛋白質(zhì)組學(xué)數(shù)據(jù)分析(b 部分)和GVP 鑒定(c 部分)。在a 部分中,使用變異注釋軟件對已有的變異位點信息進行注釋,挑選出非同義SNP 并生成每個SNP 突變前后對應(yīng)的兩條蛋白質(zhì)序列;在b 部分中,對蛋白質(zhì)組學(xué)數(shù)據(jù)進行常規(guī)的搜庫分析,得到該樣品包含的蛋白質(zhì)及相對豐度信息;在c 部分中,利用前兩步得到的信息,在常規(guī)的參考數(shù)據(jù)庫中加入樣品中高豐度蛋白質(zhì)的GVP序列,生成新的數(shù)據(jù)庫并再次搜庫分析,得到樣品中的GVP 信息。b 部分是非必須的,缺少b 部分時,構(gòu)建的數(shù)據(jù)庫會包含所有蛋白質(zhì)的GVP。基于SwissProt[15]中的人類參考蛋白質(zhì)序列數(shù)據(jù)庫和dbSNP[16]中的人類常見變異信息,我們構(gòu)建了一個通用的數(shù)據(jù)庫ComVarDB(common variation database),即常見的變異數(shù)據(jù)庫。ComVarDB 中包含17 484個蛋白質(zhì)的168 000 個獨特GVP 和SwissProt 的20 365 個序列(圖1B),GVP 序列使ComVarDB 相比于原始SwissProt 數(shù)據(jù)庫增加了約19.2%。
圖1 工具包工作流程和數(shù)據(jù)庫比較Fig 1 Workflow of toolkit and composition of the three databases
GVP 鑒定我們以采集的毛干蛋白質(zhì)組學(xué)數(shù)據(jù)對工具包2Steps_GVPtool 進行測試,4 份生物重復(fù)樣品單獨進行樣品制備,iTRAQ 114/115/116/117 標記之后混合(圖2A)。以SwissProt 的參考數(shù)據(jù)庫搜庫,共鑒定到2 350 個蛋白質(zhì)(圖2B)和6 935個獨特的肽段,鑒定到的蛋白質(zhì)數(shù)量遠多于之前毛干蛋白質(zhì)組學(xué)鑒定到的182~578 個蛋白質(zhì)[2,10]。蛋白質(zhì)數(shù)量大大提升得益于本課題組開發(fā)的全自動全蛋白質(zhì)組定量分析平臺,該系統(tǒng)是蛋白質(zhì)組學(xué)第一次在蛋白質(zhì)檢測水平上達到與二代基因組測序技術(shù)同樣的測定深度[12-14]。以ComVarDB 搜庫共鑒定出16 個GVP,其中14 個得到Sanger 驗證(表1)。鑒定出的GVP 大部分(11/14)都來自角蛋白和角蛋白相關(guān)蛋白,這與Chu 等[17]的研究一致,證明毛干中GVP 主要來源于角蛋白和角蛋白相關(guān)蛋白。大部分氨基酸之間的轉(zhuǎn)變沒有出現(xiàn),在通過驗證的14 個GVP 中,丙氨酸到脯氨酸的突變出現(xiàn)了2 次,絲氨酸相對更容易檢測到突變(3/14),谷氨酰胺、亮氨酸、蛋氨酸、脯氨酸和絲氨酸均檢測到2 次突變(2/14)。
圖2 實驗流程和蛋白質(zhì)韋恩圖Fig 2 Experimental workflow and Venn diagram of protein identified
表1 ComVarDB 搜庫鑒定到的GVPTab 1 GVPs identified by search against ComVarDB
數(shù)據(jù)庫優(yōu)化在蛋白質(zhì)組學(xué)的實驗中,表達量更高的蛋白質(zhì)序列覆蓋度更高,因而更有機會檢測到高表達量的蛋白質(zhì)中存在的GVP。因此,我們考慮使用第一步的搜庫結(jié)果來對數(shù)據(jù)庫進行優(yōu)化,即在參考數(shù)據(jù)庫中僅加入一些高豐度蛋白質(zhì)的GVP序列,以減少數(shù)據(jù)庫大小,進一步降低搜索空間。我們創(chuàng)建了7 個縮小的、包含GVP 的數(shù)據(jù)庫:topAllVardb、top2000Vardb、top500Vardb、top200 Vardb、 top50Vardb、 top25Vardb、 top10Vardb。topAllVardb 表示數(shù)據(jù)庫包含第一步搜庫結(jié)果中檢測到的全部2 350 個蛋白質(zhì)的GVP,top2000Vardb表示數(shù)據(jù)庫中包含第一步蛋白質(zhì)鑒定中表達量排名前2 000 的蛋白質(zhì)的GVP,以此類推,top10Vardb表示數(shù)據(jù)庫中包含第一步蛋白質(zhì)鑒定中表達量排名前10 的蛋白質(zhì)的GVP。結(jié)果表明,各個數(shù)據(jù)庫鑒定到的 GVP 重疊度很高,ComVarDB、topAllVardb 和top2000Vardb 成功檢測到相同的14個GVP(圖3A),檢測到的GVP 數(shù)量在top500 Vardb 中達到最大值18(圖3B),同時top500Vardb檢測到的GVP 的準確率(驗證正確的GVP 數(shù)量/檢測到的全部GVP 數(shù)量)也是除top10Vardb 之外最高的(圖3C)。
圖3 數(shù)據(jù)庫優(yōu)化結(jié)果Fig 3 Results of database optimization
在包含了大量氨基酸突變序列的蛋白質(zhì)組數(shù)據(jù)庫中,肽段被錯誤鑒定為遺傳變異肽的風(fēng)險很高[9,18]。本研究僅選擇高頻(MAF≥0.01)突變,嚴格控制了構(gòu)建的數(shù)據(jù)庫大小,以達到降低搜索空間的目的,在數(shù)據(jù)庫中加入全部蛋白質(zhì)突變時構(gòu)建的ComVarDB 數(shù)據(jù)庫,相較于原始參考數(shù)據(jù)庫的增加幅度為19.2%,遠低于其他通過公共數(shù)據(jù)庫信息構(gòu)建的參考蛋白質(zhì)數(shù)據(jù)庫至少翻倍的增加幅度[4,19]。數(shù)據(jù)庫大小和搜索空間得到控制的同時,我們使用嚴 格 的FDR 閾 值(0.01)來 控 制PSM 質(zhì) 量,ComVarDB 數(shù)據(jù)庫的鑒定結(jié)果中GVP 確認率為14/16,高于此前GVP 研究中FDR 為0.05 所對應(yīng)的確認率(6/9)[9]。我們同樣檢查了16 個GVP 對應(yīng)的譜圖,發(fā)現(xiàn)大多數(shù)譜圖和肽序列的理論譜圖匹配良好,而假陽性GVP 的譜圖匹配則相差很多。手動檢查GVP 譜圖可能是GVP 驗證的有效方案,已開發(fā)的工具如SpectrumAI[20]等可以實現(xiàn)譜圖檢查。
在蛋白質(zhì)基因組學(xué)研究中,Muth 等[21]證明使用大型數(shù)據(jù)庫進行初步搜索后,基于此搜索結(jié)果中PSM 對應(yīng)的蛋白質(zhì)來構(gòu)建一個較小的數(shù)據(jù)庫可以提高對樣品中蛋白質(zhì)的識別率。因而我們可以利用兩步法的迭代的搜索流程來提高檢測到的GVP數(shù)量和質(zhì)量,我們不僅僅是構(gòu)建了包含第一步搜索結(jié)果中全部蛋白質(zhì)的GVP 序列的數(shù)據(jù)庫,而是進一步利用僅在數(shù)據(jù)庫中包含部分高表達蛋白質(zhì)的GVP 序列,以達到再次降低搜索空間的目的。結(jié)果證明減少數(shù)據(jù)庫中GVP 的數(shù)量的確有助于識別到樣品中更多的GVP,其原因可能在于搜索空間的大小對譜圖匹配的得分有很大影響。蛋白質(zhì)組學(xué)數(shù)據(jù)庫越大,庫中的相似序列越多,當譜圖匹配到這些相似的序列時,搜庫軟件會給出更高的罰分。每個數(shù)據(jù)集的數(shù)據(jù)質(zhì)量和大小不同,對數(shù)據(jù)庫中應(yīng)該包含多少蛋白質(zhì)的變異肽難以得出統(tǒng)一的結(jié)論,研究人員可以根據(jù)搜庫結(jié)果進行調(diào)整以獲得最佳選擇。對于有多次樣品需要分析的情況,本研究采用的是以所有樣本間平均表達量的順序為準來挑選高表達蛋白質(zhì),出于鑒定更多GVP 的目的,也可以考慮使用多個樣品中高表達量蛋白質(zhì)的并集來建庫搜索。
鑒定GVP 對于從蛋白質(zhì)層面了解個體特異的和潛在的疾病突變、進行精準治療和個體鑒定等都十分重要[1],本研究構(gòu)建的2Steps_GVPtool 可以針對所有細胞、組織、物種構(gòu)建定制化的蛋白質(zhì)基因組學(xué)數(shù)據(jù)庫,用以檢測其蛋白質(zhì)組學(xué)數(shù)據(jù)中的GVP。在2Steps_GVPtool 工作流程中引入的基于兩步的迭代的數(shù)據(jù)庫搜索方法,可以達到在同樣的數(shù)據(jù)集中檢測到盡可能多的GVP。與從表達序列標簽和參考基因組的翻譯相比,該工具包大大減小了所構(gòu)建的數(shù)據(jù)庫大小,降低了搜索空間[1,4];與其他依賴樣品測序數(shù)據(jù)來構(gòu)建定制化數(shù)據(jù)庫的工具相比,該工具包不需要測序等額外的耗費[5-7],且使用方法簡單,工具包輕便易于整合到其他系統(tǒng)分析流程中。值得注意的是,本研究是通過僅在數(shù)據(jù)庫中加入高表達蛋白的GVP 序列來縮小搜索空間和數(shù)據(jù)庫規(guī)模,鑒定出更多的GVP 結(jié)果,這意味著我們主動丟失了低豐度蛋白的GVP 信息。對于低豐度蛋白的GVP 鑒定,建議按照圖1A 中的a、c 兩個步驟使用本工具,即不進行低豐度蛋白質(zhì)的過濾或使用鑒定到的全部蛋白質(zhì)。
隨著技術(shù)不斷進步,大規(guī)模檢測遺傳多態(tài)性可能成為蛋白質(zhì)組學(xué)數(shù)據(jù)分析工作中的常態(tài),為從蛋白質(zhì)組學(xué)數(shù)據(jù)中獲得的信息提供新的維度。然而,直接從蛋白質(zhì)組學(xué)數(shù)據(jù)中獲取GVP 信息并非易事。2Steps_GVPtool 作為輕量級的腳本工具包,用戶可以在Github 直接獲得完整工具,為鑒定蛋白質(zhì)組學(xué)數(shù)據(jù)中的變異信息而生成定制的蛋白質(zhì)序列數(shù)據(jù)庫。一方面,用戶可以通過公共數(shù)據(jù)庫(如dbSNP、1000 Genome 等)中已有的變異信息來生成數(shù)據(jù)庫;另一方面,在有條件獲取樣品對應(yīng)的NGS 測序數(shù)據(jù)時,該工具包同樣可以根據(jù)對應(yīng)的測序數(shù)據(jù)來生成數(shù)據(jù)庫。另外,在2Steps_GVPtool 中3 個步驟緊密連接的同時,工具包中各腳本之間的依賴性不強,所需的輸入文件和輸出文件均為有固定格式的文本文件,方便用戶將單個腳本集成到更大型或其他用途的數(shù)據(jù)分析流程中。隨著新一代測序技術(shù)和蛋白質(zhì)組學(xué)的不斷進步,該工具包將發(fā)揮重要作用。
作者貢獻聲明李欣 數(shù)據(jù)統(tǒng)計和分析,制圖,論文構(gòu)思、撰寫和修訂。宋麗麗 數(shù)據(jù)采集,論文修訂。宋娜娜 數(shù)據(jù)采集。邢清和 論文指導(dǎo)和修訂。周峰 論文選題、指導(dǎo)和修訂。
利益沖突聲明所有作者均聲明不存在利益沖突。