• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    圖譜方法實(shí)現(xiàn)DLBCL信息基因的提取與分類①

    2019-02-15 03:53:04左常玲夏百花
    關(guān)鍵詞:圖譜準(zhǔn)確率模板

    左常玲, 夏百花

    (安徽三聯(lián)學(xué)院電子電氣工程學(xué)院,安徽 合肥 230601)

    0 引 言

    在基因表達(dá)譜數(shù)據(jù)中,與腫瘤相關(guān)基因只占極少數(shù),大量基因在不同腫瘤、腫瘤亞型以及正常狀態(tài)下表達(dá)幾乎沒有變化?;蚴芡饨绛h(huán)境污染、技術(shù)限制、人為讀數(shù)錯(cuò)誤等影響而出現(xiàn)異常值,通常把這些基因記為噪聲。如果分析整個(gè)基因表達(dá)譜,則會(huì)使信息基因(能識(shí)別腫瘤類型的基因)被噪聲所淹沒,使之無法有效從微陣列數(shù)據(jù)中獲取分類信息。

    為更有效獲取信息基因,降低后續(xù)處理復(fù)雜度以及除去噪聲的影響,研究分為兩步:異常值基因的初步處理和基于圖譜性質(zhì)的信息基因的選取。

    1 異常值基因的初步處理

    彌漫大B細(xì)胞淋巴瘤(DLBCL)的基因表達(dá)譜數(shù)據(jù)可描述為一個(gè)MatrixG=(gi,j)M×N,M、N分別為樣本規(guī)模和基因變量規(guī)模,首先進(jìn)行歸一化處理,如式(1)所示:

    (1)

    (2)

    (3)

    若(3)式成立,則消去該基因,從上式可以看出T是衡量一類中基因表達(dá)值偏離均值水平程度,T越大,表明該基因的表達(dá)情況越偏離均值水平,則視為異常值。實(shí)驗(yàn)中T取值1.1。

    2 基于圖譜性質(zhì)的信息基因選取

    (1)構(gòu)建關(guān)系矩陣

    對(duì)任意基因gj=[g1,jg2,j…gM,j]T,M表示樣本規(guī)模,將基因gj在樣本中的表達(dá)值看作為一個(gè)點(diǎn),其點(diǎn)間邊的權(quán)值wi,k為高斯權(quán)函數(shù),如(4)式所示:

    (4)

    接著構(gòu)建Laplace 矩陣:

    (5)

    則得到一個(gè)M×M關(guān)系矩陣R,該矩陣展現(xiàn)了基因在各樣本中表達(dá)值之間的親近關(guān)系。

    (2)對(duì)關(guān)系矩陣進(jìn)行奇異值分解(SVD)

    (3)構(gòu)建理想分類模板

    分類問題(只關(guān)注二分類問題,多分類可以類推),其實(shí)可以看成是與分類模板之間的匹配問題,提出的分類模板描述為:假設(shè)有若干樣本分屬A與B兩類,每個(gè)樣本有N個(gè)特征。A類有M1個(gè)樣本;B類有M2個(gè)樣本。針對(duì)某一特征可以設(shè)計(jì)出這樣一個(gè)分類模板:

    圖1 理想分類模板示意圖

    可以根據(jù)該特征來判定一未知樣本屬于A類,或者B類。

    (6)

    (4)計(jì)算模板與譜特征夾角系數(shù)

    cos(SDLBCL,SDLBCL_Template)=

    (7)

    cos(SFL,SFL_Template)=

    (8)

    綜合DLBCL類與FL類譜特征與模板夾角系數(shù):

    cos(S,S_Template)=κ×

    cos(SDLBCL,SDLBCL_Template)+(1-κ)×

    cos(SFL,SFL_Template)

    (9)

    (5)建立評(píng)價(jià)函數(shù),選取信息基因子集

    好的信息基因,在不同類別中,d越大越好;同類中,cos(S,S_Template)越大越好,故構(gòu)建以下評(píng)價(jià)函數(shù),實(shí)現(xiàn)對(duì)信息基因的選?。?/p>

    F_cost=η·d·cos(S,S_Template)

    (10)

    其中,η是放大因子,實(shí)驗(yàn)中η=100,便于評(píng)價(jià)函數(shù)的比較。對(duì)每個(gè)基因都進(jìn)行上述(1)~(5)步的計(jì)算,選取F_cost較大的作為信息基因子集,實(shí)現(xiàn)對(duì)基因表達(dá)譜數(shù)據(jù)的降維與噪聲的降噪處理。

    3 實(shí)驗(yàn)流程

    利用當(dāng)前流行的分類器SVM進(jìn)行分類實(shí)驗(yàn),其核函數(shù)采用高斯核函數(shù),Sigma為高斯噪聲的標(biāo)準(zhǔn)差,實(shí)驗(yàn)步驟如下:

    Step 1:對(duì)DLBCL數(shù)據(jù)進(jìn)行歸一化處理;

    Step 2:對(duì)DLBCL數(shù)據(jù)的異常值初步處理;

    Step 3:按照基于圖譜性質(zhì)的信息基因選取的(1)~(5)步驟實(shí)現(xiàn)信息基因的提??;

    Step 4:運(yùn)用SVM實(shí)現(xiàn)DLBCL數(shù)據(jù)的分類,并作出分析。

    4 實(shí)驗(yàn)結(jié)果及分析

    4.1 模擬實(shí)驗(yàn)

    圖譜方法作為一種新手段應(yīng)用于DLBCL的分類,實(shí)驗(yàn)了模擬數(shù)據(jù)以驗(yàn)證其可行性。模擬數(shù)據(jù)是由四組點(diǎn)集構(gòu)成,每組分兩類即A類與B類,數(shù)據(jù)是隨機(jī)產(chǎn)生,具體如表1所示:

    表1 四組模擬數(shù)據(jù)

    AB0、AB2、AB10和AB40四組數(shù)據(jù)的平面顯示,其A類與B類的可分性越來明顯,如圖2(a)所示;圖2(b)給出了對(duì)應(yīng)點(diǎn)集的特征值分布。

    圖2(a) AB0、AB2、AB10和AB40點(diǎn)集分布圖。x、y表示點(diǎn)的坐標(biāo);圖2 (b) 為(a)對(duì)應(yīng)點(diǎn)集構(gòu)造Laplace圖后經(jīng)SVD分解得到的特征值分布,橫坐標(biāo)是特征值序號(hào),

    圖3 選取不同信息基因數(shù)時(shí),SVM(Sigma=45)

    對(duì)DLBCL數(shù)據(jù)的分類結(jié)果

    圖4 選取170個(gè)信息基因,SVM高斯核中Sigma的不同

    取值對(duì)分類正確率的影響

    從模擬數(shù)據(jù)可以看出,類內(nèi)點(diǎn)越近,類間點(diǎn)越遠(yuǎn),則特征值分布展現(xiàn)出的兩條帶狀——A類與B類越明顯,從而驗(yàn)證了圖的譜特征分布可以很好的識(shí)別不同樣本類型。

    4.2 DLBCL實(shí)驗(yàn)結(jié)果

    如圖3所示,運(yùn)用提出的方法選取信息基因,在信息基因數(shù)L=60時(shí),準(zhǔn)確率已達(dá)到近90%,隨著信息基因數(shù)的增加,分類準(zhǔn)確率越來越高,當(dāng)L=170時(shí),77個(gè)樣本僅有1個(gè)被錯(cuò)分,隨后準(zhǔn)確率趨于穩(wěn)定。而圖4展示了變量Sigma變化對(duì)分類結(jié)果影響不大,分類準(zhǔn)確率都大于95%。

    從圖3和圖4中可知,信息基因選取170時(shí),分類正確率達(dá)到最好的效果,表明了這170個(gè)基因包含了最多分類信息,故對(duì)這些基因分析其變化幅度如圖5所示:

    圖5 170個(gè)信息基因的平均變化幅度

    (每個(gè)基因都?xì)w一化到-1到1之間),即MCAGE

    圖6 不同變化幅度范圍內(nèi),信息基因數(shù)統(tǒng)計(jì)

    根據(jù)圖5對(duì)信息基因的平均變化幅度進(jìn)行統(tǒng)計(jì),MCAGE值可根據(jù)|μj,DLBCL-μj,FL|/2計(jì)算。如圖6所示,在DLBCL和FL類中,信息基因的MCAGE主要在0到0.15之間,占信息基因總數(shù)的81.77%,大于0.15的只有極少數(shù),并且MCAGE最大不超過0.35。

    5 結(jié) 論

    圖譜理論應(yīng)用于生物信息學(xué)是一個(gè)新的研究方向。基于圖譜方法分析基因表達(dá)譜數(shù)據(jù),對(duì)基因構(gòu)圖,獲取圖的譜特征分布,并將其作為刻畫該基因與腫瘤類型相關(guān)性的新途徑。模擬實(shí)驗(yàn)和真實(shí)實(shí)驗(yàn)結(jié)果可以驗(yàn)證此研究方法是可行的和有效的。DLBCL數(shù)據(jù)實(shí)驗(yàn)中,無論信息基因選取的多少,還是分類器中參數(shù)的調(diào)整,分類準(zhǔn)確率都在85%以上,其最優(yōu)分類準(zhǔn)確率是98.7%,結(jié)果是令人滿意的。

    對(duì)選取的信息基因的分析中,MCAGE反映了每個(gè)信息基因在DLBCL類和FL類中表達(dá)值的平均變化幅度。由圖6顯示,與DLBCL類別判定有關(guān)的基因有80%變化幅度范圍在0.15以下,變化幅度越大,信息基因數(shù)越少。經(jīng)上分析,在一定程度上圖5和6給出了與DLBCL類型識(shí)別有關(guān)的信息基因的表達(dá)規(guī)律,以輔助腫瘤專家識(shí)別和治療DLBCL。

    猜你喜歡
    圖譜準(zhǔn)確率模板
    鋁模板在高層建筑施工中的應(yīng)用
    鋁模板在高層建筑施工中的應(yīng)用
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    繪一張成長圖譜
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    主動(dòng)對(duì)接你思維的知識(shí)圖譜
    鋁模板在高層建筑施工中的應(yīng)用
    于田县| 盐源县| 德保县| 连江县| 泾阳县| 义乌市| 石棉县| 杭锦旗| 永康市| 华宁县| 嘉兴市| 略阳县| 蚌埠市| 嵊州市| 阳江市| 施秉县| 尼勒克县| 长子县| 平陆县| 临西县| 滁州市| 会昌县| 香港| 兴宁市| 察雅县| 皋兰县| 澄江县| 句容市| 霸州市| 南川市| 福鼎市| 鸡泽县| 新乡市| 临潭县| 莲花县| 古交市| 彭泽县| 尤溪县| 鄄城县| 潍坊市| 偃师市|