• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自適應(yīng)半徑選擇的近鄰鄰域分類器

      2023-01-30 00:32:26張清華肖嘉瑜艾志華王國(guó)胤
      模式識(shí)別與人工智能 2022年11期
      關(guān)鍵詞:訓(xùn)練樣本鄰域分類器

      張清華 肖嘉瑜 艾志華 王國(guó)胤

      粗糙集模型[1-2]作為一種處理不完備、不確定性信息的數(shù)據(jù)分析工具,廣泛應(yīng)用在機(jī)器學(xué)習(xí)[3-4]、模式識(shí)別[5-6]、特征選擇[7-9]、數(shù)據(jù)挖掘[10-12]、不確定性信息處理[13-15]等眾多領(lǐng)域中.然而經(jīng)典粗糙集模型建立在等價(jià)關(guān)系的基礎(chǔ)上,將樣本數(shù)據(jù)劃分成等價(jià)類,只能處理名義型數(shù)據(jù).對(duì)于現(xiàn)實(shí)生活中廣泛存在的數(shù)值型數(shù)據(jù),經(jīng)典粗糙集模型處理原始數(shù)據(jù)時(shí)必須先離散化,導(dǎo)致部分信息丟失.為了克服經(jīng)典粗糙集這個(gè)缺陷,大量研究工作在非等價(jià)關(guān)系上推廣經(jīng)典粗糙集模型,如鄰域粗糙集(Neighborhood Rough Set, NRS)[16-18]、模糊粗糙集[19-21]、覆蓋粗糙集[22-23]等.

      胡清華等[24-25]基于拓?fù)淇臻g球形鄰域引入鄰域粗糙集,使用鄰域近似(鄰域)代替經(jīng)典粗糙集中的等價(jià)關(guān)系,使其既可以支持離散型數(shù)據(jù)又可以支持?jǐn)?shù)值型數(shù)據(jù).之后,該理論成功擴(kuò)展到特征選擇[26-27]、分類[28-30]、機(jī)器學(xué)習(xí)[31-32]等眾多應(yīng)用領(lǐng)域.在分類應(yīng)用中,Hu等[33]基于NRS實(shí)現(xiàn)基于多數(shù)原則的鄰域分類器(Neighborhood Classifiers, NNC).之后,學(xué)者們以NNC為基本框架展開相關(guān)研究.徐蘇平等[34]在協(xié)同表達(dá)分類(Collaborative Representation Based Classification, CRC)思想的基礎(chǔ)上,提出鄰域協(xié)同分類器(Neighborhood Collaborative Classifiers, NCC).亓慧等[35]提出擴(kuò)充?;男蛄朽徲蚍诸惙椒?Expanded Granulation Based Sequen-tial Neighborhood Classification, ESNC),設(shè)計(jì)得分評(píng)估機(jī)制,排序測(cè)試樣本,并標(biāo)注最靠前的待測(cè)樣本,將其加入訓(xùn)練集,以此擴(kuò)充待測(cè)樣本潛在的鄰域?;臻g.Rao等[36]提出FNEC-NNC,將鄰域策略引入標(biāo)簽噪聲數(shù)據(jù)的分析中,不僅去除帶噪聲標(biāo)簽的樣本,而且與基于最近鄰域的濾波器進(jìn)行對(duì)比,可有效克服噪聲樣本的影響.Kumar等[37]提出NRSC(Neighborhood Rough Set Based Classification),在疾病預(yù)測(cè)和決策過程中,分類性能較優(yōu).

      在上述鄰域分類器中:對(duì)于訓(xùn)練樣本,標(biāo)簽已知,不需要計(jì)算鄰域半徑,只考慮其與待測(cè)試樣本的距離;對(duì)于測(cè)試樣本,標(biāo)簽未知,需要計(jì)算其鄰域半徑,獲取鄰域,進(jìn)而預(yù)測(cè)標(biāo)簽.并且鄰域分類器在預(yù)測(cè)標(biāo)簽過程中,僅涉及測(cè)試階段.因此,基于已有的鄰域分類器,鄰域半徑作為決定鄰域分類器分類性能的關(guān)鍵因素,構(gòu)建方式主要存在如下不足.1)缺乏訓(xùn)練過程.傳統(tǒng)分類器中缺乏訓(xùn)練階段,沒有計(jì)算訓(xùn)練樣本的鄰域半徑,未充分挖掘訓(xùn)練樣本的條件屬性與其標(biāo)簽之間的有效關(guān)聯(lián)信息.2)鄰域半徑不通用.傳統(tǒng)鄰域半徑僅通過人工參數(shù)調(diào)節(jié)大小,不能較好地適用于所有測(cè)試樣本鄰域的構(gòu)建.3)分類器失效.面對(duì)數(shù)據(jù)中樣本分布不均勻等特殊情況,鄰域半徑劃分得到的部分樣本鄰域可能出現(xiàn)無樣本的情況,導(dǎo)致分類器失效而無法預(yù)測(cè)測(cè)試樣本標(biāo)簽.

      為了解決上述問題,本文引入K近鄰算法(KNearest Neighbor, KNN)[38-39],并為鄰域半徑增添訓(xùn)練階段,構(gòu)建新的訓(xùn)練鄰域半徑、近鄰鄰域半徑和近似鄰域半徑,由此提出自適應(yīng)半徑選擇的近鄰鄰域分類器(Near Neighborhood Classifier with Adaptive Radius Selection, NNC-AR).對(duì)于訓(xùn)練集上的樣本,基于K近鄰算法得到每個(gè)訓(xùn)練樣本能被正確分類的鄰域半徑,定義新的訓(xùn)練鄰域半徑,為鄰域半徑增添訓(xùn)練階段.同時(shí)充分挖掘訓(xùn)練樣本的條件屬性與其已知標(biāo)簽之間的有效關(guān)聯(lián)信息.對(duì)于測(cè)試集上的樣本,定義自適應(yīng)的近鄰鄰域半徑,克服選取傳統(tǒng)鄰域半徑參數(shù)時(shí)的主觀性.結(jié)合近鄰思想,以訓(xùn)練鄰域半徑為有效依據(jù),最大化利用訓(xùn)練樣本與測(cè)試樣本間的相似性等關(guān)聯(lián)信息,有效提升樣本鄰域的分類精度和自適應(yīng)性.對(duì)于分類器失效的測(cè)試樣本,定義新的近似鄰域半徑.結(jié)合近鄰思想,有效解決數(shù)據(jù)分布不均勻時(shí)鄰域中無樣本導(dǎo)致分類器失效的問題,進(jìn)一步提升鄰域分類器的精度和泛化能力.在多個(gè)UCI數(shù)據(jù)集上的實(shí)驗(yàn)表明,NNC-AR的F1值和分類精度均較高.

      1 相關(guān)工作

      本節(jié)簡(jiǎn)要介紹鄰域分類器的相關(guān)定義,詳細(xì)介紹可見文獻(xiàn)[33]和文獻(xiàn)[40].

      在分類學(xué)習(xí)中,常把決策信息系統(tǒng)表示為四元組

      S=〈U,C∪D,V,f〉.

      其中,

      U={x1,x2,…,xn},

      表示為由n個(gè)訓(xùn)練樣本構(gòu)成的非空有限集合,稱為論域或樣本空間.在分類任務(wù)中:通常將U劃分為訓(xùn)練樣本空間UTr和測(cè)試樣本空間UTe;

      C={a1,a2,…,am}

      表示U中所有樣本的條件屬性集合;

      D={d1,d2,…,dp}

      表示決策屬性值集合,對(duì)于?x∈U,d(x)表示決策屬性值,即標(biāo)簽;Va表示特征a的值域;f∶U×C→V表示信息函數(shù).

      由決策屬性D可誘導(dǎo)樣本空間U生成若干個(gè)決策類

      U/IND(D)={D1,D2,…,Dp},

      其中,IND(D)表示U上的一個(gè)等價(jià)關(guān)系,且對(duì)任一決策類,包含所有標(biāo)簽為dk的樣本集合

      Dk={x∈U|d(x)=dk},

      其中dk表示第k個(gè)標(biāo)簽.

      1.1 鄰域分類器

      定義1[41]給定一個(gè)決策信息系統(tǒng)

      S=〈U,C∪D,V,f〉,

      屬性集合

      C={a1,a2,…,am},

      對(duì)于?x∈U,y∈U,在條件屬性集合C下,不同樣本間的閔可夫斯基距離定義如下:

      其中,?ai∈C,f(x,ai)表示樣本x在條件屬性ai上的取值.距離的度量常采用歐氏距離函數(shù),即P=2.

      定義2[33]給定一個(gè)決策信息系統(tǒng)

      S=〈U,C∪D,V,f〉,

      對(duì)于?x∈U,樣本x對(duì)應(yīng)的鄰域

      δ(x)={y∈U|Δ(x,y)≤δ},

      其中δ表示鄰域半徑.

      在構(gòu)建鄰域分類器模型過程中,為了將NRS進(jìn)一步適用于分類任務(wù),Hu等[33]定義δ作為鄰域半徑,通過鄰域決策完成樣本分類.

      定義3[33]給定一個(gè)決策信息系統(tǒng)

      S=〈U,C∪D,V,f〉,

      對(duì)于測(cè)試樣本x∈U,樣本x的鄰域半徑為

      δ=min(Δ(x,yi))+

      ω(max(Δ(x,yi))-min(Δ(x,yi))).

      其中:ω∈(0,1],表示一個(gè)隨機(jī)參數(shù);min(Δ(x,yi))表示距離x最短的訓(xùn)練樣本yi與x之間的距離;max(Δ(x,yi))表示距離x最長(zhǎng)的訓(xùn)練樣本yi與x之間的距離.

      鄰域半徑δ決定鄰域分類器分類性能優(yōu)劣.然而,傳統(tǒng)鄰域分類器在構(gòu)建δ時(shí)采用帶有人工參數(shù)ω的動(dòng)態(tài)調(diào)節(jié)方式,具有一定程度上的不確定性和主觀性.隨著δ逐漸增大,鄰域δ(x)也越大,即落到x的鄰域空間中的樣本越多.如圖1所示,在鄰域分類器中存在3個(gè)不同的鄰域半徑,相應(yīng)存在3個(gè)不同大小的鄰域,分別使用實(shí)線、虛線和點(diǎn)線表示.因此在鄰域分類器中,鄰域半徑設(shè)定偏大或偏小時(shí)都會(huì)直接影響測(cè)試樣本標(biāo)簽的預(yù)測(cè).

      圖1 鄰域決策圖示例Fig.1 Example of neighborhood decision

      定義4[31]給定一個(gè)決策信息系統(tǒng)

      S=〈U,C∪D,V,f〉,

      對(duì)于測(cè)試樣本x∈U,利用鄰域δ(x)得出x屬于每種決策類Dj的鄰域粗糙隸屬度,鄰域粗糙隸屬函數(shù)為

      其中,Dj∈U/IND(D),表示論域U根據(jù)決策屬性D劃分并誘導(dǎo)生成的決策類.

      以定義4中的鄰域粗糙隸屬度為依據(jù),鄰域分類器進(jìn)一步通過多數(shù)投票原則,為測(cè)試集中的樣本完成最終的鄰域決策:當(dāng)決策類Dj對(duì)應(yīng)的決策標(biāo)簽dj滿足

      時(shí),測(cè)試樣本x的標(biāo)簽被預(yù)測(cè)為dj.

      如圖1所示,鄰域分類器中δ1>δ2>δ3.當(dāng)鄰域半徑為δ3時(shí),根據(jù)多數(shù)投票規(guī)則測(cè)試樣本將被預(yù)測(cè)為黑色標(biāo)簽;當(dāng)鄰域半徑增加到δ2時(shí),測(cè)試樣本將被預(yù)測(cè)為鄰域粗糙隸屬度最大的灰色標(biāo)簽;當(dāng)鄰域半徑繼續(xù)增加到δ1時(shí),測(cè)試樣本會(huì)被標(biāo)注為白色標(biāo)簽.由此可見,鄰域半徑的構(gòu)建會(huì)直接干擾鄰域分類器對(duì)測(cè)試樣本的鄰域決策.因此,鄰域半徑作為決定預(yù)測(cè)樣本標(biāo)簽過程的關(guān)鍵因素還需要進(jìn)一步優(yōu)化.

      1.2 KNN分類算法

      KNN分類算法是模式識(shí)別中簡(jiǎn)單有效的經(jīng)典算法之一,基本原理如下:給定一組已知類別的訓(xùn)練樣本和待分類樣本,找到訓(xùn)練樣本中距離待分類樣本最近的K個(gè)最近鄰居,進(jìn)而將K個(gè)近鄰中最多個(gè)數(shù)的標(biāo)簽分配給待分類樣本.

      對(duì)于待分類樣本xte∈UTe,KNN的分類過程如下.首先,為待分類樣本xte定義一組超過K個(gè)相似的目標(biāo)鄰居,即按照xte與訓(xùn)練樣本之間的歐氏距離遞增排序,取排名前K個(gè)訓(xùn)練樣本.再利用多數(shù)投票原則,根據(jù)K個(gè)最近鄰居的標(biāo)簽,預(yù)測(cè)得出待分類樣本xte的標(biāo)簽.重復(fù)上述步驟,直到所有待分類樣本預(yù)測(cè)結(jié)束.

      2 自適應(yīng)半徑選擇的近鄰鄰域分類器

      2.1 鄰域半徑訓(xùn)練

      已有的鄰域分類器模型僅涉及測(cè)試階段,對(duì)于已知標(biāo)簽的訓(xùn)練樣本,不需要計(jì)算鄰域半徑,也未構(gòu)建鄰域進(jìn)行鄰域決策,只考慮其與待測(cè)樣本之間的距離作為待測(cè)試樣本鄰域決策的依據(jù).為了進(jìn)一步利用訓(xùn)練樣本的有效信息,NNC-AR結(jié)合KNN,為訓(xùn)練樣本定義訓(xùn)練鄰域半徑,增添鄰域半徑的訓(xùn)練階段,為提升待測(cè)試樣本的預(yù)測(cè)精度提供有效根據(jù).

      訓(xùn)練鄰域半徑的構(gòu)建過程如下:結(jié)合KNN,對(duì)每個(gè)已知標(biāo)簽的訓(xùn)練樣本xtr,選取距離xtr最近的K個(gè)樣本,進(jìn)而根據(jù)這K個(gè)樣本的標(biāo)簽值,基于多數(shù)表決原則預(yù)測(cè)得到xtr的標(biāo)簽,依次取K=1,2,…,10直至xtr被預(yù)測(cè)正確.最后得到xtr被預(yù)測(cè)成功時(shí)的值,選取距離xtr排名的第K個(gè)近鄰點(diǎn)與xtr之間的距離,作為訓(xùn)練樣本xtr的鄰域半徑,即訓(xùn)練鄰域半徑.

      如圖2所示,當(dāng)K=4時(shí),訓(xùn)練樣本xtr的標(biāo)簽?zāi)鼙徽_預(yù)測(cè)為白色,繼而將距離xtr排名的第4個(gè)近鄰點(diǎn)與xtr之間的距離作為xtr的訓(xùn)練鄰域半徑.

      圖2 訓(xùn)練鄰域半徑構(gòu)建圖Fig.2 Training neighborhood radius construction

      定義5給定一個(gè)決策信息系統(tǒng)

      S=〈U,C∪D,V,f〉,

      其中

      U=UTr∪UTe.

      對(duì)于訓(xùn)練樣本xtr∈UTr,訓(xùn)練鄰域半徑為:

      δtr=Δ(xtr,NNk(xtr)),

      其中,NNk(xtr)表示與當(dāng)前訓(xùn)練樣本xtr距離排名第K個(gè)的近鄰點(diǎn),也是使xtr能被正確分類的最近鄰,K=1,2,…,10.另外若依次取K=1,2,…,10,訓(xùn)練樣本xtr都無法被分類,即只有K>10時(shí),訓(xùn)練樣本xtr才能被正確預(yù)測(cè)為已知標(biāo)簽,這表明訓(xùn)練樣本xtr顯然偏離其它同類訓(xùn)練樣本的正常分布范圍,因此將樣本xtr歸為噪聲點(diǎn)并刪除,不參與NNC-AR本輪訓(xùn)練階段和測(cè)試階段的構(gòu)建.

      NNC-AR通過KNN計(jì)算已知標(biāo)簽的訓(xùn)練樣本能被正確預(yù)測(cè)時(shí)的訓(xùn)練鄰域半徑,為鄰域半徑的構(gòu)建增添訓(xùn)練階段,充分挖掘訓(xùn)練樣本條件屬性與決策屬性之間的有效關(guān)聯(lián)性信息,有利于構(gòu)建預(yù)測(cè)精度較高、分類性能較強(qiáng)的NNC-AR.

      2.2 近鄰鄰域半徑

      在已有分類器模型的預(yù)測(cè)階段中,動(dòng)態(tài)調(diào)節(jié)人工參數(shù)以構(gòu)建待測(cè)樣本的鄰域半徑,具有一定程度上的主觀性和不確定性.因此,在NNC-AR的測(cè)試階段,考慮待測(cè)試樣本與訓(xùn)練樣本之間的相似性以解決待測(cè)試樣本標(biāo)簽的預(yù)測(cè)問題.基于近鄰思想,選取距離待測(cè)試樣本最近的訓(xùn)練樣本,并以訓(xùn)練鄰域半徑為根據(jù),為待測(cè)試樣本構(gòu)建新的近鄰鄰域半徑,有效克服傳統(tǒng)鄰域半徑中的動(dòng)態(tài)調(diào)節(jié)方式帶來的不確定性問題.

      近鄰鄰域半徑的構(gòu)建過程如下:結(jié)合訓(xùn)練鄰域半徑和近鄰思想,根據(jù)定義5得到每個(gè)訓(xùn)練樣本被預(yù)測(cè)成功的鄰域半徑δtr.進(jìn)而求取距離待測(cè)試樣本xte最近的訓(xùn)練樣本,將其對(duì)應(yīng)的訓(xùn)練鄰域半徑作為該待測(cè)樣本xte的鄰域半徑,即近鄰鄰域半徑.

      定義6給定一個(gè)決策信息系統(tǒng)

      S=〈U,C∪D,V,f〉,

      其中

      U=UTr∪UTe.

      表示與當(dāng)前測(cè)試樣本xte距離最近的訓(xùn)練樣本.

      由于訓(xùn)練鄰域半徑的構(gòu)建是基于已知標(biāo)簽的訓(xùn)練樣本能被正確預(yù)測(cè),NNC-AR將其進(jìn)一步融入測(cè)試階段.結(jié)合近鄰思想選取距離待測(cè)試樣本最近的訓(xùn)練樣本構(gòu)建近鄰鄰域半徑,不僅考慮測(cè)試樣本與訓(xùn)練樣本之間的關(guān)聯(lián)性,還能極大程度以訓(xùn)練階段的有效信息為根據(jù)準(zhǔn)確預(yù)測(cè)待測(cè)試樣本的標(biāo)簽,克服以往鄰域分類器模型選取鄰域半徑參數(shù)時(shí)的不確定性問題,一定程度上提升鄰域半徑的合理性和自適應(yīng)性,有效提升NNC-AR的分類性能.

      圖3 近鄰鄰域半徑構(gòu)建圖Fig.3 Near neighborhood radius construction

      2.3 近似鄰域半徑

      在待測(cè)試樣本的標(biāo)簽預(yù)測(cè)階段中,通過近鄰鄰域半徑構(gòu)建鄰域能完成大多數(shù)測(cè)試樣本標(biāo)簽的正確預(yù)測(cè).然而,對(duì)于少數(shù)分布不均勻的待測(cè)試樣本,采用近鄰鄰域半徑構(gòu)造的鄰域可能會(huì)出現(xiàn)無樣本的情況,導(dǎo)致分類器失效而無法預(yù)測(cè)樣本標(biāo)簽.為了進(jìn)一步提升分類器模型的泛化能力,NNC-AR結(jié)合近鄰思想,為少數(shù)分類器失效的待測(cè)試樣本構(gòu)建新的近似鄰域半徑,解決部分樣本鄰域中無樣本的情況.

      近似鄰域半徑的構(gòu)建過程如下:根據(jù)定義6先求取待測(cè)試樣本xte的近鄰鄰域半徑,用于劃分xte的鄰域.若發(fā)現(xiàn)鄰域內(nèi)沒有樣本,表示分類器失效,進(jìn)而將距離xte最近的訓(xùn)練樣本與xte之間的距離作為xte的鄰域半徑,即近似鄰域半徑.

      定義7給定一個(gè)決策信息系統(tǒng)

      S=〈U,C∪D,V,f〉,

      其中

      U=UTr∪UTe.

      對(duì)于測(cè)試樣本xte∈UTe,近似鄰域半徑為:

      其中

      表示與當(dāng)前測(cè)試樣本距離最近的訓(xùn)練樣本.

      綜上所述,NNC-AR結(jié)合近鄰思想,對(duì)于少數(shù)分布不均勻、出現(xiàn)空鄰域的待測(cè)試樣本,利用其與距離最近的訓(xùn)練樣本構(gòu)建近似鄰域半徑,完成對(duì)標(biāo)簽信息的有效預(yù)測(cè),有效解決測(cè)試階段中的分類器失效問題,提升NNC-AR的泛化性能.

      圖4 分類器失效圖Fig.4 Classifier failure

      圖5 近似鄰域半徑構(gòu)建圖Fig.5 Approximate neighborhood radius construction

      2.4 算法步驟

      最終,得到NNC-AR步驟如算法1所示.

      算法1NNC-AR

      輸入決策信息系統(tǒng)〈UTr∪UTe,C∪D,V,f〉,

      待測(cè)試樣本xte∈UTe

      輸出輸出測(cè)試樣本xte的標(biāo)簽dj

      #計(jì)算所有訓(xùn)練樣本的半徑及刪除噪點(diǎn)樣本

      forxtr∈UTr:

      計(jì)算δtr=Δ(xtr,NNk(xtr));

      ifi>10 then:

      從UTr剔除樣本xtr;

      end if

      end for

      #計(jì)算測(cè)試樣本的半徑并對(duì)測(cè)試樣本預(yù)測(cè)

      δ(xte)={xtr∈UTr|Δ(xte,xtr)≤δte};

      ifdj=? then:

      δ(xte)={xtr∈UTr|Δ(xte,xtr)≤δsim};

      end if

      returndj

      NNC-AR的流程圖如圖6所示.

      圖6 NNC-AR流程圖Fig.6 Flowchart of NNC-AR

      3 實(shí)驗(yàn)及結(jié)果分析

      在本節(jié)中,將NNC-AR與其它目前較先進(jìn)的模型進(jìn)行實(shí)驗(yàn)對(duì)比.對(duì)比的模型有NNC[33]、NCC[34]、ESNC[35];對(duì)比算法有KNN,ID3(Iterative Dicho-tomiser 3),CART(Classification and Regression Tree)、NB(Naive Bayes).在實(shí)驗(yàn)中,ESNC分為ESNC1(Score1 Based ESNC)和ESNC2(Score2 Based ESNC).NCC、NNC和ESNC的鄰域半徑均采用動(dòng)態(tài)調(diào)節(jié)的方式,設(shè)定隨機(jī)參數(shù)ω=0.1.

      實(shí)驗(yàn)共選取10個(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集信息如表1所示.

      表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental datasets

      實(shí)驗(yàn)采用5折交叉驗(yàn)證,實(shí)驗(yàn)環(huán)境為Windows操作系統(tǒng),16 GB內(nèi)存,3.60 Hz主頻,編程語言采用Python.

      為了直觀展示算法之間的對(duì)比效果,采用的分類指標(biāo)為準(zhǔn)確率(Accuracy)和F1值.因此,給定一個(gè)數(shù)據(jù)集合,假設(shè)TP表示正確預(yù)測(cè)為正例的樣本數(shù),F(xiàn)P表示錯(cuò)誤預(yù)測(cè)為正例的樣本數(shù),TN表示正確預(yù)測(cè)為負(fù)例的樣本數(shù),F(xiàn)N表示錯(cuò)誤預(yù)測(cè)為負(fù)例的樣本數(shù),準(zhǔn)確率和F1值的定義為

      其中,

      表示精確率,

      表示召回率.

      為了對(duì)比NNC-AR的有效性,在10個(gè)UCI數(shù)據(jù)集上同時(shí)對(duì)比分類模型和經(jīng)典算法,將5折交叉驗(yàn)證實(shí)驗(yàn)的平均分類準(zhǔn)確率作為最終結(jié)果,具體如表2所示,F(xiàn)1值對(duì)比結(jié)果如表3所示,表中黑體數(shù)字表示最優(yōu)值.

      實(shí)驗(yàn)參數(shù)設(shè)置如下:NCC、NNC和ESNC的鄰域半徑均采用動(dòng)態(tài)調(diào)整方法,人工參數(shù)ω=0.1,NCC的正則化參數(shù)λ=0.01,KNN中K=10.

      表2 各模型在10個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率對(duì)比Table 2 Classification accuracy comparison of different models on 10 datasets %

      表3 各模型在10個(gè)數(shù)據(jù)集上的F1值對(duì)比Table 3 F1 score of different models on 10 datasets %

      由表2和表3可見,相比NCC、NNC、ESNC1和ESNC2,NNC-AR通過訓(xùn)練集找到最優(yōu)的半徑閾值,能有效適應(yīng)不同的數(shù)據(jù)分布,提升分類準(zhǔn)確率,在大部分?jǐn)?shù)據(jù)集上均能達(dá)到最優(yōu)值,同樣F1值也均能達(dá)到最優(yōu)效果.

      相比KNN、ID3、CART和NB,NNC-AR和KNN能達(dá)到較優(yōu)的分類結(jié)果.但是KNN容易受到數(shù)據(jù)分布的影響,進(jìn)而影響分類效果.相比而言,NNC-AR可動(dòng)態(tài)調(diào)整鄰域半徑,在訓(xùn)練集上找到最優(yōu)半徑,適應(yīng)不同分布下的數(shù)據(jù)場(chǎng)景.

      NNC-AR中引入KNN構(gòu)造訓(xùn)練階段,同時(shí)將K>10時(shí)仍無法被分類的訓(xùn)練樣本視為噪聲點(diǎn).由于在對(duì)比算法中,沒有為鄰域分類器構(gòu)建訓(xùn)練階段,未使用KNN為訓(xùn)練樣本構(gòu)建鄰域半徑,因此在噪聲點(diǎn)檢測(cè)方面,無法與其余算法完成對(duì)比.因此,在10個(gè)數(shù)據(jù)集上,分別統(tǒng)計(jì)NNC-AR刪除的噪聲點(diǎn)個(gè)數(shù),取5折交叉驗(yàn)證實(shí)驗(yàn)的平均值作為結(jié)果.統(tǒng)計(jì)結(jié)果如下:Satimage數(shù)據(jù)集上NNC-AR刪除的噪聲點(diǎn)有264.8個(gè),Banknote數(shù)據(jù)集上有1.6個(gè),Wbc數(shù)據(jù)集上有9.6個(gè),Mushroom數(shù)據(jù)集上有0.2個(gè),Breast數(shù)據(jù)集上有10.0個(gè),Heart數(shù)據(jù)集上有24.6個(gè),Parkinson數(shù)據(jù)集上有2.2個(gè),Pima數(shù)據(jù)集上有90.4個(gè),Credit數(shù)據(jù)集上有48.6個(gè),Ionosphere數(shù)據(jù)集上有25.4個(gè).噪聲點(diǎn)刪除個(gè)數(shù)與數(shù)據(jù)集分布狀況總體呈正相關(guān).在分布較好的數(shù)據(jù)集(如Mushroom數(shù)據(jù)集)上,刪除的噪聲點(diǎn)較少,在分布較差的數(shù)據(jù)集(如Satimage數(shù)據(jù)集)上,刪除的噪聲點(diǎn)較多.通過刪除噪聲點(diǎn),不僅能提升后續(xù)模型的分類精度,還能降低模型在分類時(shí)的時(shí)間損耗.

      為了進(jìn)一步凸顯噪聲點(diǎn)定義中K的最大閾值設(shè)定為10 的有效性,計(jì)算K取不同最大值,即Kmax=11,12,13時(shí),NNC-AR的準(zhǔn)確率和F1值,并與NNC-AR的原始實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比.具體對(duì)比結(jié)果如圖7所示.由圖可見,相比Kmax=11、12、13,Kmax=10時(shí)NNC-AR在大部分?jǐn)?shù)據(jù)集上達(dá)到最優(yōu)的分類效果.

      (a)準(zhǔn)確率(a)Accuracy

      總之,NNC-AR通過增添鄰域半徑的訓(xùn)練階段、克服鄰域半徑人為參數(shù)的不確定性缺陷、解決數(shù)據(jù)分布不均出現(xiàn)空鄰域的問題等措施,有效提升鄰域分類器的F1值和分類準(zhǔn)確率.

      4 結(jié) 束 語

      本文針對(duì)鄰域半徑缺乏訓(xùn)練過程、鄰域半徑不通用、分類器失效等問題,提出自適應(yīng)半徑選擇的近鄰鄰域分類器(NNC-AR).構(gòu)建訓(xùn)練鄰域半徑,充分挖掘訓(xùn)練樣本中條件屬性與其已知標(biāo)簽間的有效關(guān)聯(lián)信息,為待測(cè)樣本標(biāo)簽的預(yù)測(cè)階段提供有力依據(jù).構(gòu)建近鄰鄰域半徑,調(diào)整以往分類器模型預(yù)測(cè)階段選取鄰域半徑參數(shù)時(shí)的主觀性.在一定程度上提升鄰域半徑的合理性和自適應(yīng)性,有效提升NNC-AR的分類性能.構(gòu)建近似鄰域半徑,解決測(cè)試階段分類器失效的問題,提升NNC-AR的泛化性能.在10組UCI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,NNC-AR的F1值和分類準(zhǔn)確率都取得顯著提升.下一步的研究工作是從時(shí)間性能方面實(shí)現(xiàn)鄰域分類器性能的進(jìn)一步提升.

      猜你喜歡
      訓(xùn)練樣本鄰域分類器
      稀疏圖平方圖的染色數(shù)上界
      人工智能
      基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      融合原始樣本和虛擬樣本的人臉識(shí)別算法
      關(guān)于-型鄰域空間
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      井研县| 彰化市| 玉田县| 浮山县| 罗山县| 诸城市| 绥江县| 肥乡县| 新野县| 平乡县| 利辛县| 得荣县| 延安市| 平凉市| 苗栗市| 砚山县| 安多县| 依兰县| 东乡县| 蒙山县| 永嘉县| 松阳县| 潜江市| 重庆市| 松江区| 郯城县| 邯郸市| 区。| 久治县| 兰州市| 广宗县| 客服| 景洪市| 遂溪县| 当涂县| 通河县| 成都市| 马尔康县| 威宁| 蒲城县| 南澳县|