• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Weka平臺和代價敏感特征選擇的基因表達(dá)數(shù)據(jù)分類研究

    2022-08-31 03:44:44韓磊黃瑞龍范文靜葉明全
    智慧健康 2022年17期
    關(guān)鍵詞:特征選擇代價分類器

    韓磊,黃瑞龍,范文靜,葉明全

    皖南醫(yī)學(xué)院 醫(yī)學(xué)信息學(xué)院,安徽 蕪湖 241002

    0 引言

    腫瘤是目前人類在疾病面前面臨的主要威脅之一。據(jù)2014年的《世界癌癥》報告[1]顯示,僅2012年一年就有超過1000萬的癌癥新發(fā)病例。腫瘤不是瞬間產(chǎn)生的[2],腫瘤細(xì)胞的分類增殖存在一個相對較長的演變時期。因此,這種在基因?qū)用鎸δ[瘤進(jìn)行早期識別的研究[3],對患者的治療具有重大意義[4-5]。

    由于腫瘤基因表達(dá)數(shù)據(jù)是一種典型的不平衡數(shù)據(jù)[6-7],使之很難直接應(yīng)用于腫瘤的分類診斷[8-9]。因此本文提出了一種基于Weka平臺和代價敏感特征選擇的基因表達(dá)數(shù)據(jù)分類方法[10]用于解決這類基因表達(dá)數(shù)據(jù)分布不平衡的分類問題[11-12]。該方法彌補(bǔ)了分類器只注重分類精度的片面性,并且它的合理性在于通過引入代價敏感而尋求總體的最小代價,而不是僅僅擁有精度最高這個特性。通常在代價敏感學(xué)習(xí)中,對于一個N分類問題,用表示訓(xùn)練樣本,x表示樣本屬性,y∈{1,2,…,N}表示類標(biāo),P(j|x)是樣本x的后驗概率,Cij表示將第i類樣本錯誤地分類為第j類時產(chǎn)生的代價,R(x,i)表示將樣本x分為i類的誤分類代價?;诖?,本研究基于Weka平臺,將基于代價敏感特征選擇的基因表達(dá)數(shù)據(jù)分類方法應(yīng)用于腫瘤基因表達(dá)數(shù)據(jù)的分類中,現(xiàn)總結(jié)如下。

    1 資料與方法

    1.1 資料來源

    本文實驗從Kent Ridge Biomedical Data Set數(shù)據(jù)庫中選取兩個類別,共計六個小組的腫瘤樣本數(shù)據(jù),分別為神經(jīng)系統(tǒng)疾病NervSys(central nervous system embryonal tumor)、結(jié)腸癌(colon cancer)、彌漫性大B細(xì)胞瘤(DLBCL)、卵巢癌(ovarian cancer)、前列腺癌(prostate cancer)和肺癌(lung cancer)。數(shù)據(jù)集的詳細(xì)描述見表1。

    表1 實驗數(shù)據(jù)集描述

    1.2 實驗方法

    本文實驗基于Windows 平臺完成和實現(xiàn)。為了消除不同量綱對實驗結(jié)果的影響,實驗過程中,我們首先通過Weka平臺[13-14]對實驗數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,使數(shù)據(jù)分析更加準(zhǔn)確,然后選擇本文提出的代價敏感特征選擇方法(cost sensitive attribute eval),使用特征選擇的搜索函數(shù)Ranker來調(diào)整信息基因個數(shù),并且通過支持向量機(jī)(SVM)、K近鄰(IBK)、樸素貝葉斯(NB)和隨機(jī)森林(RF)這4種分類器對數(shù)據(jù)進(jìn)行分類得到的分類準(zhǔn)確率來評估該方法的有效性。在實驗過程中均使用Weka平臺中分類器的默認(rèn)參數(shù)。具體實驗流程見圖1。

    圖1 實驗流程圖

    2 實驗結(jié)果及分析

    表2為4種分類器在6組兩類別的腫瘤樣本數(shù)據(jù)的分類準(zhǔn)確率,表中Std表示在原始實驗數(shù)據(jù)[15]上只執(zhí)行標(biāo)準(zhǔn)化處理后就進(jìn)行4種分類器的分類建模,本文方法即通過代價敏感特征選擇[16]處理后再進(jìn)行4種分類器的分類建模。

    表2 4 種分類器在6 個數(shù)據(jù)集上的分類準(zhǔn)確率對比

    為了方便對比,本文實驗選擇的信息基因數(shù)分別為3、4、5、6,選擇4種分類器中最高分類準(zhǔn)確率作為最終評價值。具體實驗結(jié)果見表2。

    從圖2可以看出,六組數(shù)據(jù)直接在只進(jìn)行標(biāo)準(zhǔn)化預(yù)處理后,在SVM、IBK、NB和RF分類器評估分類性能時,大部分分類準(zhǔn)確率較低。但是通過本文實驗方法得到的分類準(zhǔn)確率大部分高于只進(jìn)行標(biāo)準(zhǔn)化預(yù)處理的分類準(zhǔn)確率,這在一定程度上說明了本文提出的代價敏感特征選擇方法的有效性。

    圖2 4 種分類器在6 個數(shù)據(jù)集上的分類準(zhǔn)確率對比

    為了更直觀地表明本文方法在提高分類準(zhǔn)確率上的優(yōu)良性能,實驗還對比分析了其他兩種流行特征選擇方法的分類準(zhǔn)確率。包括SUAE(symmetrical uncert atrribute eval)根據(jù)屬性的對稱不確定性評估屬性和CA(correlation attribute)通過測量特征與類別之間的皮爾遜(Pearson's)相關(guān)性評估基因的價值。具體實驗結(jié)果見表3。

    表3 3 種方法在6 個數(shù)據(jù)集上的最優(yōu)分類準(zhǔn)確率

    從圖3可以看出,對比SUAE和CA的特征選擇方法在六組數(shù)據(jù)的最優(yōu)分類準(zhǔn)確率,本方法也獲得了相對更好的分類準(zhǔn)確率,進(jìn)一步有力地證明了該方法具有良好的特征選擇效果,能夠針對腫瘤基因表達(dá)數(shù)據(jù)獲取較高的分類性能。

    圖3 3 種方法在6 個數(shù)據(jù)集上的最優(yōu)分類準(zhǔn)確率

    3 結(jié)論

    本文提出的基于Weka平臺和代價敏感特征選擇的基因表達(dá)數(shù)據(jù)分類方法可以有效地解決腫瘤基因表達(dá)數(shù)據(jù)不平衡數(shù)據(jù)的分類問題,大幅度提高分類準(zhǔn)確率,但仍存在一些不足和缺陷[17],如分類過程中真實的誤分類代價很難通過人為經(jīng)驗進(jìn)行準(zhǔn)確估計。由于此方法本身的性能指標(biāo)與代價參數(shù)設(shè)置等方面存在一定空缺,可能會導(dǎo)致其最終的分類結(jié)果存在相對較強(qiáng)的主觀性而不夠客觀,因此代價敏感算法[18]仍有繼續(xù)完善優(yōu)化的空間。通過改變一些相關(guān)代價參數(shù)從而進(jìn)一步改進(jìn)本文方法等方式,都是今后的研究方向。

    猜你喜歡
    特征選擇代價分類器
    BP-GA光照分類器在車道線識別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    愛的代價
    海峽姐妹(2017年12期)2018-01-31 02:12:22
    代價
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    成熟的代價
    基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
    基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
    滨州市| 镇巴县| 石门县| 宁晋县| 夏津县| 错那县| 张家口市| 无棣县| 乐安县| 景德镇市| 苗栗县| 武定县| 和硕县| 平遥县| 襄汾县| 全南县| 荣成市| 宁都县| 仙桃市| 宜都市| 光山县| 辽阳市| 根河市| 乌鲁木齐市| 南康市| 霍邱县| 桐庐县| 临朐县| 曲水县| 漳平市| 闵行区| 新营市| 象州县| 淮滨县| 周至县| 丰城市| 三江| 赤壁市| 金秀| 连城县| 咸阳市|