陳念華 袁細(xì)國(guó)
(西安電子科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710071)
癌癥對(duì)人類的健康和生命威脅極大,從基因分子水平上研究癌癥的預(yù)防和治療策略是當(dāng)代醫(yī)學(xué)急需解決的問(wèn)題.近年來(lái)國(guó)際生物醫(yī)學(xué)界廣泛關(guān)注的一種新的基因組變異形式:拷貝數(shù)變異(copy number variation,CNV),為此提供了新的線索和思路.CNV 是一種基因組結(jié)構(gòu)性變異,主要表現(xiàn)為長(zhǎng)度從幾 Kb 至 Mb 的染色體片段的擴(kuò)增或缺失[1, 2],是促使人類個(gè)體間基因差異的重要因素之一,也是引發(fā)癌細(xì)胞產(chǎn)生和發(fā)展的重要現(xiàn)象.CNV擴(kuò)增是指基因組區(qū)域的拷貝數(shù)從正常細(xì)胞二倍體到多倍體的變化,CNV缺失是基因組區(qū)域中拷貝數(shù)減少的變異.雖然CNV發(fā)生的頻率較低,但累積的堿基數(shù)量卻大大超過(guò)了單核苷酸多態(tài).在癌細(xì)胞中,CNV變異通常會(huì)引起相應(yīng)區(qū)域中包含的基因的劑量變化,這會(huì)影響基因的正常功能[3, 4].因此,在癌癥基因組中CNV的準(zhǔn)確檢測(cè)對(duì)于癌細(xì)胞發(fā)展機(jī)理研究及癌癥診斷具有重要的現(xiàn)實(shí)意義[5, 6].
以多樣本數(shù)據(jù)為背景的CNV檢測(cè)與分析,其過(guò)程不僅涉及到癌癥樣本與正常樣本信號(hào)的比較,而且涉及到癌癥樣本本身之間的比較,那么依據(jù)CNV在樣本中出現(xiàn)的頻率,可將其分為復(fù)發(fā)性和個(gè)體性CNV模式.復(fù)發(fā)CNV指在多數(shù)樣本中共同發(fā)生的CNV區(qū)域,即CNV在多樣本中表現(xiàn)的頻率較高,目前相關(guān)檢測(cè)方法的研究非常豐富[7, 8].個(gè)體CNV指在少部分樣本中共同發(fā)生或個(gè)體特異性的CNV,即CNV在多樣本中表現(xiàn)的頻率較低[9].而目前為止,針對(duì)個(gè)體性CNV檢測(cè)的研究方法較少,但這種CNV模式同樣非常重要.通過(guò)研究個(gè)體CNV與癌癥的關(guān)系,不僅可以發(fā)現(xiàn)更多與癌癥發(fā)生發(fā)展密切相關(guān)的變異,還對(duì)在醫(yī)學(xué)上進(jìn)行個(gè)體化的有針對(duì)性的藥物開發(fā)和治療有極大的幫助.
因此,本文提出一種名為IndivCNV(An individual copy number variation detection algorithm based on hierarchical matrix energy spectrum)的算法,與現(xiàn)有方法相比,該算法主要具有3個(gè)特點(diǎn):(1) 可以從原始數(shù)據(jù)中實(shí)現(xiàn)個(gè)體性CNV模式的檢測(cè);(2) 通過(guò)全變分將觀察到的信號(hào)進(jìn)行平滑處理,利用潛變量模型將其重建為特征與權(quán)重的乘積,以應(yīng)對(duì)噪聲較高情況下CNV的檢測(cè);(3) 對(duì)信號(hào)進(jìn)行分層,根據(jù)分層矩陣能量譜在每層的占比,將能量高的復(fù)發(fā)CNV信號(hào)層剔除,以更準(zhǔn)確鑒別個(gè)體性CNV.
基于陣列的比較基因組雜交技術(shù)(array-based comparative genomic hybridization, aCGH)是一種高通量、高分辨率的方法,可以用于測(cè)量數(shù)千個(gè)DNA區(qū)域中拷貝數(shù)的變化.要從aCGH數(shù)據(jù)中檢測(cè)CNV,就必須定位信號(hào)數(shù)據(jù)中CNV區(qū)域與非CNV區(qū)域間的變化點(diǎn),這些變化點(diǎn)會(huì)將染色體分成多個(gè)離散的片段,進(jìn)一步便可以檢測(cè)出CNV.多樣本CNV的檢測(cè)涉及多個(gè)樣本,以期發(fā)現(xiàn)那些單樣本檢測(cè)無(wú)法發(fā)現(xiàn)的模式.目前有許多相關(guān)方法可以對(duì)aCGH數(shù)據(jù)進(jìn)行多樣本CNV檢測(cè),例如PLA(Piecewise-constant and low-rank approximation for identification of recurrent copy number variations)[10]、fastRPCA(A fused lasso latent feature model for analyzing multi-sample aCGH data)[11]、FLLat(A variational approach to stable principal component pursuit )[12]等.
PLA將多樣本CNV檢測(cè)問(wèn)題轉(zhuǎn)化為矩陣分解問(wèn)題,其中原始數(shù)據(jù)矩陣被分解為低秩分量、稀疏分量和噪聲分量.這三個(gè)成分分別對(duì)應(yīng)于復(fù)發(fā)CNV、個(gè)體CNV和隨機(jī)噪聲.通過(guò)主成分分析,也就是計(jì)算出輸入矩陣的奇異值分解,并使用前幾個(gè)奇異向量形成一個(gè)新的低秩矩陣,可以很容易地從低秩分量中識(shí)別出復(fù)發(fā)性CNV,從稀疏分量中識(shí)別出個(gè)體CNV.
類似地,fastRPCA采用線性疊加的模型,為穩(wěn)定主成分跟蹤(stable principal component pursuit, SPCP)引入了新的凸公式,將原始信號(hào)分解為低秩分量和稀疏分量.fastRPCA首先建立了一個(gè)凸變分框架,然后用準(zhǔn)牛頓法對(duì)其進(jìn)行加速,并使用此創(chuàng)新設(shè)計(jì)了通過(guò)變分框架的快速方法.用aCGH數(shù)據(jù)作為原始輸入,經(jīng)過(guò)以上處理,便可以從低秩分量中識(shí)別出復(fù)發(fā)性CNV,從稀疏分量中識(shí)別出個(gè)體CNV.
FLLat使用潛在特征模型對(duì)aCGH數(shù)據(jù)進(jìn)行建模,其中每個(gè)樣本均通過(guò)固定數(shù)量的特征的加權(quán)組合來(lái)建模.這些特征代表了樣本組CNV的關(guān)鍵區(qū)域,并與權(quán)重相結(jié)合,描述了每個(gè)單獨(dú)樣本中的CNV區(qū)域.FLLat在特征的估計(jì)中使用了融合最小絕對(duì)值收斂和選擇算子,這在估計(jì)中既保證了數(shù)據(jù)的平滑度,也保證了數(shù)據(jù)的稀疏性.
以上這些方法雖然能較好的從多樣本數(shù)據(jù)中檢測(cè)出CNV,但是都不能對(duì)個(gè)體CNV進(jìn)行針對(duì)性的檢測(cè),因此本文提出了可以對(duì)個(gè)體CNV進(jìn)行針對(duì)性檢測(cè)的算法IndivCNV.
IndivCNV算法的基本框架如圖1所示,其輸入數(shù)據(jù)格式為大小為L(zhǎng)×S的矩陣X,其中L代表探針數(shù),S代表一組數(shù)據(jù)中包含的樣本個(gè)數(shù).該算法通過(guò)以下5個(gè)主要步驟實(shí)現(xiàn)對(duì)個(gè)體CNV的檢測(cè):(1) 基于全變分正則化的信號(hào)層次化分解,(2) 應(yīng)用融合最小絕對(duì)值收斂和選擇算子,(3) 計(jì)算約束權(quán)重與特征數(shù)量J,(4) 模型參數(shù)估計(jì),(5) 用分層矩陣能量譜識(shí)別個(gè)體CNV,下面將會(huì)針對(duì)每一個(gè)步驟的相關(guān)理論和實(shí)現(xiàn)過(guò)程進(jìn)行詳細(xì)闡述.
本文使用潛在特征模型來(lái)模擬多樣本數(shù)據(jù),并且提出逐層分解信號(hào)的策略,通過(guò)將CNV的原始數(shù)據(jù)重建為不同特征模式的組合來(lái)發(fā)現(xiàn)原始數(shù)據(jù)中的CNV模式.將兩個(gè)秩為j的矩陣相乘的形式用j個(gè)秩為1的列向量與行向量相乘的加和來(lái)等價(jià)表示,以此來(lái)表示原始矩陣的分層分解,即
(1)
該模型說(shuō)明了樣本組的CNV的重要特征是由J個(gè)特征共同總結(jié)的.具體來(lái)說(shuō),每個(gè)特征代表CNV的特定模式.然后,給定樣本的權(quán)重確定每個(gè)特征對(duì)該樣本的貢獻(xiàn)程度.換句話說(shuō),通過(guò)這些特征的權(quán)重可以知道不同特征的發(fā)生頻率,以此來(lái)推斷復(fù)發(fā) CNV和個(gè)體 CNV.
CNV區(qū)域傾向于在整個(gè)染色體的連續(xù)區(qū)域中發(fā)生,區(qū)域具有相同的拷貝數(shù).對(duì)于未顯示CNV的染色體的其余部分,預(yù)期的信號(hào)強(qiáng)度應(yīng)為零.因此,如果我們將生物芯片數(shù)據(jù)視為沿著染色體的1維信號(hào),則信號(hào)的大部分都為零,非零區(qū)域出現(xiàn)在平滑區(qū)域中.通過(guò)這種1維信號(hào)的稀缺性和平滑性的組合可以自然地想到融合最小絕對(duì)值收斂和選擇算子信號(hào)近似器(fused lasso signal approximator,F(xiàn)LSA[13]).FLSA可以解決優(yōu)化問(wèn)題
(2)
其中u=(u1,…,up)T是估計(jì)所述有序結(jié)果的參數(shù)的向量.第一個(gè)懲罰項(xiàng)負(fù)責(zé)懲罰每個(gè)參數(shù)大小,這可以促使解決方案稀疏,第二個(gè)懲罰項(xiàng)負(fù)責(zé)懲罰相鄰參數(shù)之間的絕對(duì)差異,這可以促使解決方案平滑.有2個(gè)相應(yīng)的調(diào)諧參數(shù),λ1和λ2,分別控制稀疏性和平滑性.
(3)
(4)
約束(4)對(duì)每行V的大小設(shè)置了限制,即對(duì)應(yīng)于給定特征的權(quán)重.在此認(rèn)為這是限制權(quán)重大小的最合適方式.首先,它使估計(jì)的特征之間的直接比較更有意義;其次,它可以防止大部分權(quán)重僅分布在少數(shù)幾個(gè)特征上.
模型(1)中需要對(duì)特征J的數(shù)量做出選擇.從理論上講,J可以取{1,2,…,S}中的任何值,其中S是樣本數(shù).J的最好的選擇對(duì)于任何給定的數(shù)據(jù)集都是難以確定的,并可能取決于許多因素,例如,噪聲的水平,調(diào)諧參數(shù)λ1和λ2的值,以及S的值.因此,J的值通常留給用戶指定,默認(rèn)設(shè)置為min {15,S/2}.本方法也提供選擇J的半自動(dòng)過(guò)程,這是基于解釋的變化百分比(PVE).對(duì)于給定的J值,PVE被定義為
(5)
(6)
(7)
2.4.2 選擇融合最小絕對(duì)值收斂和選擇算子調(diào)諧參數(shù)λ1和λ2.通常,給定模型的最佳調(diào)諧參數(shù)的選擇都是一個(gè)困難的任務(wù),并且隨著調(diào)諧參數(shù)數(shù)量的增加會(huì)更加復(fù)雜.為了簡(jiǎn)化對(duì)最佳調(diào)諧參數(shù)的搜索,本方法通過(guò)引入λ0和α∈(0,1)來(lái)重新定義參數(shù)λ1和λ2,使得λ1=αλ0,λ2=(1-α)λ0.在此可以認(rèn)為λ0是整體調(diào)諧參數(shù),它和α一起確定對(duì)稀疏度與平滑度的重視程度.通過(guò)固定α可能采取的值,可以有效地將對(duì)兩個(gè)參數(shù)λ1和λ2的搜索簡(jiǎn)化為僅對(duì)一個(gè)參數(shù)λ0的搜索.
(8)
(9)
(10)
其中T代表設(shè)定的占比閾值,I是大小為L(zhǎng)×S的矩陣,代表個(gè)體 CNV.得到最終的個(gè)體CNV矩陣I以后,需要按照樣本將數(shù)據(jù)區(qū)分為S個(gè)大小為L(zhǎng)×1的矩陣,每個(gè)矩陣代表每個(gè)樣本的結(jié)果.此時(shí),需要再選定一個(gè)閾值H,若某探針處的絕對(duì)值大于H,則認(rèn)為該處有個(gè)體CNV,反之則認(rèn)為是正常.因?yàn)閭€(gè)體CNV在樣本間有很大的差異,所以需要按上述對(duì)每個(gè)樣本的結(jié)果數(shù)據(jù)都分別判斷.
3.1.1 模擬數(shù)據(jù)介紹. 為了評(píng)估IndivCNV算法對(duì)個(gè)體CNV的檢測(cè)性能,本節(jié)將采用模擬數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并與三種現(xiàn)有方法(PLA、FLLat、fastRPCA)進(jìn)行比較.在文獻(xiàn)[15]里,詳細(xì)地定義了六種不同的復(fù)發(fā) CNV場(chǎng)景.在本文的研究里,將采用這六種場(chǎng)景來(lái)生成模擬數(shù)據(jù).在每一種場(chǎng)景下生成50組數(shù)據(jù),每組數(shù)據(jù)是50×5000的矩陣,其中50代表50個(gè)樣本,5000代表每個(gè)樣本上的5000個(gè)探針.在生成每組數(shù)據(jù)時(shí),無(wú)CNV區(qū)域的信號(hào)值設(shè)為0;復(fù)發(fā) CNV區(qū)域位于探針1876到3125之間,其模式參考圖2,將缺失變異區(qū)域的信號(hào)值設(shè)為-1,擴(kuò)增變異區(qū)域設(shè)為1.每個(gè)樣本還需要在不與復(fù)發(fā) CNV區(qū)域重合的部分,隨機(jī)選取一個(gè)位置,添加一個(gè)長(zhǎng)度為500探針的個(gè)體 CNV,個(gè)體 CNV的信號(hào)值從{-2,-1,1,2}中隨機(jī)選取,最后再向整個(gè)數(shù)據(jù)加入高斯噪聲.
6種不同場(chǎng)景生成模擬數(shù)據(jù)的過(guò)程展示在圖3,圖中黃色區(qū)域代表擴(kuò)增,藍(lán)色區(qū)域代表缺失.其中第一行是根據(jù)文獻(xiàn)[15]中對(duì)不同場(chǎng)景的描述生成的只有復(fù)發(fā) CNV的數(shù)據(jù),第二行是在復(fù)發(fā) CNV的基礎(chǔ)上隨機(jī)添加個(gè)體 CNV的數(shù)據(jù),第三行是添加了噪聲水平為1的高斯噪聲的最終模擬數(shù)據(jù).每組數(shù)據(jù)的縱向代表樣本,橫向代表探針.從圖上可以看出,這六種場(chǎng)景可以分為兩類,場(chǎng)景1、3、5為一類,它們只有一個(gè)復(fù)發(fā)CNV區(qū)域;場(chǎng)景2、4、6為一類,它們含有多個(gè)復(fù)發(fā)CNV區(qū)域.本文的研究任務(wù)是從這些最終的模擬數(shù)據(jù)里準(zhǔn)確恢復(fù)出個(gè)體 CNV.
3.1.2 檢測(cè)結(jié)果熱圖展示. 在圖4中展示了在6種場(chǎng)景下不同方法對(duì)個(gè)體 CNV的檢測(cè)結(jié)果.從圖中可以看出來(lái)IndivCNV檢測(cè)出了絕大部分的個(gè)體 CNV,并且能很好地把個(gè)體 CNV與復(fù)發(fā) CNV區(qū)分開來(lái),沒(méi)有將復(fù)發(fā) CNV誤判為個(gè)體 CNV.FastRPCA可以分辨出一部分個(gè)體 CNV,但是沒(méi)有將噪聲很好地剔除,因此難以識(shí)別檢測(cè)出的個(gè)體 CNV的模式;而PLA則傾向于將一個(gè)完整的個(gè)體 CNV切割成多個(gè)小段,有明顯的缺失; FLLat的特點(diǎn)是它做檢測(cè)時(shí)不對(duì)復(fù)發(fā) CNV與個(gè)體 CNV進(jìn)行區(qū)分,導(dǎo)致兩種類型的CNV都存在于結(jié)果數(shù)據(jù)中.由以上分析可知IndivCNV在檢測(cè)個(gè)體CNV時(shí)確實(shí)更加有優(yōu)勢(shì),但是從圖中可以看出它還是存在一定的缺陷,因?yàn)樗呄蛴跈z測(cè)出發(fā)生個(gè)體CNV頻率較高的位置的變異,而對(duì)于發(fā)生頻率小的個(gè)體CNV,則很難檢測(cè)出.
3.1.3 檢測(cè)結(jié)果ROC曲線. 為了可量化地評(píng)估這些方法,本研究進(jìn)一步通過(guò)ROC曲線評(píng)估各方法在六種場(chǎng)景下的個(gè)體 CNV識(shí)別性能.ROC(receiver operating characteristic curve)是一種顯示分類模型在所有分類閾值下的效果的圖表,其橫軸是假陽(yáng)性率 (False Negative Rate,F(xiàn)PR),縱軸是真陽(yáng)性率 (True Negative Rate,TPR).FPR指的是所有非個(gè)體 CNV區(qū)域中被誤判為個(gè)體 CNV的比率,該值越小越好,TPR指的是在所有檢測(cè)出來(lái)為個(gè)體 CNV的區(qū)域里,確實(shí)是個(gè)體 CNV的比率,該值越大越好.ROC曲線的作用在于,在很多分類器分析中,得到的預(yù)測(cè)值通常不是0或1,而是一個(gè)0-1之間的概率值,此時(shí)就需要人為設(shè)定一個(gè)閾值,比如設(shè)定大于0.6則為1,反之則為零.但是不同的閾值所帶來(lái)的預(yù)測(cè)結(jié)果一定有差異,此時(shí)就可以用ROC曲線來(lái)刻畫不同閾值給分類器帶來(lái)的影響.通過(guò)上文對(duì)FPR和TPR含義的介紹可知,ROC曲線越靠近左邊沿和上邊沿,說(shuō)明模型越好,因?yàn)榇藭r(shí)TPR足夠大,F(xiàn)PR足夠小,說(shuō)明分類的正確率很高.而ROC曲線上不同的點(diǎn)對(duì)應(yīng)著模型對(duì)不同閾值的預(yù)測(cè)水平,簡(jiǎn)單來(lái)講,閾值越大,點(diǎn)越靠近左下,反之越靠近右上.
圖5展示了各方法在6種場(chǎng)景下的ROC曲線.這些ROC曲線是通過(guò)對(duì)各方法檢測(cè)出來(lái)的結(jié)果數(shù)據(jù)設(shè)定不同的閾值生成的.從圖上可以看出, IndivCNV檢測(cè)個(gè)體 CNV的性能優(yōu)于其他三種方法.例如在場(chǎng)景1的ROC曲線中,當(dāng)FPR=0.1時(shí),IndivCNV的TPR就已達(dá)到0.8,而FLLat的TPR只有0.45,PLA和fastRPCA的TPR僅有0.3;在場(chǎng)景2中,雖然當(dāng)FPR值大于0.3時(shí),F(xiàn)LLat和IndivCNV的曲線基本重合,但是IndivCNV在FPR=0.05時(shí)TPR就已經(jīng)達(dá)到了0.7,這說(shuō)明IndivCNV在低FPR水平就可以實(shí)現(xiàn)較高水平的TPR;在場(chǎng)景3、5、6中,呈現(xiàn)出同樣的趨勢(shì):當(dāng)FPR較高時(shí),F(xiàn)LLat與IndivCNV的曲線十分接近,但是始終都低于IndivCNV,只有在場(chǎng)景4中曲線的后半段FLLat超過(guò)了IndivCNV,盡管如此,其前半段依舊遠(yuǎn)低于IndivCNV的ROC.
綜上所述,與fastRPCA和PLA相比,IndivCNV和FLLat算法對(duì)個(gè)體CNV的識(shí)別結(jié)果具有更高的TPR.然而,F(xiàn)LLat的性能與IndivCNV雖然較為接近,但僅表現(xiàn)在FPR較高的情況,當(dāng)FPR較低時(shí),其ROC曲線依舊遠(yuǎn)低于IndivCNV.因此,在對(duì)個(gè)體CNV的檢測(cè)中, IndivCNV算法具有更明顯的優(yōu)勢(shì).
為了證明IndivCNV在真實(shí)數(shù)據(jù)上的可用性,本實(shí)驗(yàn)引入異質(zhì)性乳腺癌CNA真實(shí)數(shù)據(jù)集對(duì)算法進(jìn)行驗(yàn)證.這個(gè)數(shù)據(jù)集中包含了112個(gè)乳腺癌樣本的SNP array數(shù)據(jù),每個(gè)樣本都有23條染色體上的不同數(shù)據(jù),每條染色體的探針各不相同,由Illumina 109 K SNP array平臺(tái)采集.在進(jìn)行實(shí)驗(yàn)時(shí),首先將每個(gè)樣本不同染色體上的數(shù)據(jù)分割開來(lái),然后將處理所得的CNV分段在基因組區(qū)域?qū)R,成為一個(gè)大小為112×pi的變異強(qiáng)度矩陣,其中112代表樣本數(shù),pi代表在第i條染色體上的探針數(shù),即分割完成后有22個(gè)變異強(qiáng)度矩陣(因?yàn)槿橄侔┦浅H旧w上的疾病,所以僅對(duì)前22條常染色體進(jìn)行實(shí)驗(yàn)),并分別對(duì)這22個(gè)信號(hào)矩陣進(jìn)行實(shí)驗(yàn)分析.在實(shí)驗(yàn)過(guò)程中,使用IndivCNV對(duì)數(shù)據(jù)進(jìn)行分析,閾值T設(shè)為0.1.為了消除每個(gè)樣本中的波譜偏差,需通過(guò)局部中值減去信號(hào)數(shù)據(jù),中值計(jì)算的窗口大小是染色體長(zhǎng)度的四分之一.
對(duì)于IndivCNV算法在乳腺癌數(shù)據(jù)中所發(fā)現(xiàn)的個(gè)體CNV區(qū)域,本研究通過(guò)乳腺癌相關(guān)文獻(xiàn)報(bào)道的CNV區(qū)域?qū)λ惴ńY(jié)果進(jìn)行驗(yàn)證.對(duì)于IndivCNV算法所發(fā)現(xiàn)的個(gè)體CNV區(qū)域,其中許多區(qū)域被現(xiàn)有文獻(xiàn)報(bào)道為乳腺癌CAN驅(qū)動(dòng)區(qū)域.例如,IndivCNV算法成功識(shí)別出17號(hào)染色體上的ERBB2基因[16],該基因曾被多項(xiàng)研究報(bào)道為乳腺癌CAN驅(qū)動(dòng)變異.同時(shí),IndivCNV在14號(hào)染色體發(fā)現(xiàn)AKT1基因[17],而該基因則被報(bào)道與乳腺癌的發(fā)生發(fā)展密切相關(guān).表1匯總了IndivCNV所發(fā)現(xiàn)的個(gè)體CNV與現(xiàn)有文獻(xiàn)報(bào)道發(fā)現(xiàn)與乳腺癌有密切關(guān)系的基因重合的結(jié)果.上述結(jié)果表明,IndivCNV算法所發(fā)現(xiàn)的個(gè)體CNV區(qū)域與已報(bào)道CNV驅(qū)動(dòng)變異區(qū)域具有較高的一致性.
表1 IndivCNV檢測(cè)出與現(xiàn)有文獻(xiàn)報(bào)道發(fā)現(xiàn)與乳腺癌有密切關(guān)系的基因重合的結(jié)果
表2 IndivCNV的復(fù)發(fā)CNV模式所匹配到的乳腺癌相關(guān)基因
正如第3節(jié)所說(shuō),IndivCNV在做個(gè)體CNV模式檢測(cè)的過(guò)程中,會(huì)將復(fù)發(fā)CNV的模式剔除.在此,本實(shí)驗(yàn)在用該真實(shí)數(shù)據(jù)檢測(cè)時(shí),將剔除的復(fù)發(fā)CNV數(shù)據(jù)也另行保存,并對(duì)復(fù)發(fā)CNV模式進(jìn)行驅(qū)動(dòng)基因匹配.表2中匯總了在IndivCNV的復(fù)發(fā)CNV模式中發(fā)現(xiàn)的乳腺癌驅(qū)動(dòng)基因,表3匯總了IndivCNV在真實(shí)數(shù)據(jù)檢測(cè)出的個(gè)體CNV模式在復(fù)發(fā)CNV模式之外發(fā)現(xiàn)的驅(qū)動(dòng)基因.由表2、3可以看出,個(gè)體CNV的檢測(cè)可以很大程度上彌補(bǔ)復(fù)發(fā)CNV對(duì)驅(qū)動(dòng)基因發(fā)現(xiàn)的不足,例如,在表2復(fù)發(fā)CNV的檢測(cè)結(jié)果里,未發(fā)現(xiàn)1號(hào)染色體和13號(hào)染色體上有與乳腺癌相關(guān)的基因,而在個(gè)體CNV模式里則發(fā)現(xiàn)了1號(hào)染色體上的ARID1A基因,13號(hào)染色體上的BRCA2基因和RB1基因,這幾個(gè)基因都是乳腺癌相關(guān)基因,并被權(quán)威癌癥基因數(shù)據(jù)庫(kù)Cancer Gene Census所收錄[18-20].上述結(jié)果表明,IndivCNV算法的個(gè)體CNV發(fā)現(xiàn)結(jié)果可有效彌補(bǔ)現(xiàn)有方法發(fā)現(xiàn)結(jié)果的不足,同時(shí)也證明了個(gè)體CNV檢測(cè)對(duì)于癌癥研究的重要性.
表3 IndivCNV的個(gè)體CNV模式在其復(fù)發(fā)模式之外檢測(cè)到的乳腺癌相關(guān)基因
CNV是導(dǎo)致癌癥發(fā)生發(fā)展的重要因素之一,由于現(xiàn)有研究更側(cè)重于對(duì)復(fù)發(fā)CNV的研究,對(duì)個(gè)體CNV的關(guān)注程度不夠,忽略了個(gè)體CNV的研究?jī)r(jià)值,因此本文通過(guò)分析個(gè)體CNV的模式,提出了一種新的適用于發(fā)現(xiàn)個(gè)體CNV的算法IndivCNV.IndivCNV首先需要使原始信號(hào)趨于平滑,因此采用了全變分正則化的方式達(dá)到此目的;接著將原始數(shù)據(jù)的每個(gè)樣本建模為固定數(shù)量的特征的加權(quán)和,這一步使用了潛變量模型和融合最小絕對(duì)值收斂和選擇算子懲罰;然后使用信號(hào)層次化分解,將不同模式的CNV用不同層的矩陣表示;最后利用分層矩陣能量譜,根據(jù)復(fù)發(fā)CNV模式能量占比大,個(gè)體CNV模式的能量占比小的原理,將復(fù)發(fā)CNV與個(gè)體CNV區(qū)分開來(lái),最終達(dá)到檢測(cè)個(gè)體CNV的目的.
在本文的實(shí)驗(yàn)中,首先將IndivCNV應(yīng)用到六種不同場(chǎng)景的模擬數(shù)據(jù)上,同時(shí)將fastRPCA、PLA、FLLat這三種算法也應(yīng)用到該模擬數(shù)據(jù)上,以ROC曲線為性能判斷標(biāo)準(zhǔn),根據(jù)檢測(cè)結(jié)果選定不同閾值繪制ROC,以此進(jìn)行性能對(duì)比,實(shí)驗(yàn)結(jié)果表明,IndivCNV檢測(cè)個(gè)體CNV的性能顯著高于已有的三種方法的性能.然后又使用IndivCNV檢測(cè)異質(zhì)性乳腺癌CNA真實(shí)數(shù)據(jù)集中的個(gè)體CNV,檢測(cè)個(gè)體CNV結(jié)果中包含許多現(xiàn)有文獻(xiàn)已報(bào)道過(guò)與乳腺癌相關(guān)的基因,還發(fā)現(xiàn)了復(fù)發(fā)CNV模式?jīng)]有發(fā)現(xiàn)的與乳腺癌相關(guān)的基因,因此IndivCNV的性能在實(shí)際數(shù)據(jù)上也得到了驗(yàn)證.綜上所述,IndivCNV在個(gè)體CNV方面的檢測(cè)性能確實(shí)有了大幅提升.