• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于TCM-SVDD的樣本類別標(biāo)注方法

      2014-02-07 02:54:28朱海潮崔立林
      中國(guó)艦船研究 2014年4期
      關(guān)鍵詞:異類球體訓(xùn)練樣本

      朱海潮,崔立林

      1 海軍工程大學(xué) 振動(dòng)與噪聲研究所,湖北武漢430033

      2 海軍工程大學(xué) 船舶振動(dòng)噪聲重點(diǎn)實(shí)驗(yàn)室,湖北武漢430033

      0 引 言

      船舶低速航行時(shí)的主要噪聲源是機(jī)械噪聲[1],因此,辨識(shí)其主要機(jī)械噪聲源對(duì)于船舶噪聲狀態(tài)的動(dòng)態(tài)管理及其控制非常重要。但由于全船機(jī)械噪聲的測(cè)試不易進(jìn)行,且費(fèi)用昂貴,通常難以得到足夠多的訓(xùn)練樣本,因此是一個(gè)小樣本條件下的模式識(shí)別問題。

      小樣本條件下的模式識(shí)別所面臨的主要問題是:一方面,由于訓(xùn)練樣本不充分,導(dǎo)致通過學(xué)習(xí)機(jī)器得到的分類器難以獲得理想的泛化性能(Generalization Ability)[2],即該分類器可能對(duì)已有的樣本能夠取得很好的分類效果,但不能保證對(duì)陌生樣本的辨別能力;另一方面,由于已有訓(xùn)練樣本數(shù)據(jù)覆蓋的模式類別較少,導(dǎo)致對(duì)新出現(xiàn)的故障模式無法進(jìn)行有效識(shí)別。

      國(guó)內(nèi)外對(duì)于小樣本問題早已開始研究[3],并引入了神經(jīng)網(wǎng)絡(luò)方法[4-6]。在現(xiàn)有方法中,增量學(xué)習(xí)是一條有效的途徑,通過對(duì)實(shí)際情況下新出現(xiàn)的樣本進(jìn)行類別檢測(cè),將與現(xiàn)有小樣本訓(xùn)練集同類的樣本作為訓(xùn)練集的擴(kuò)充,可逐步解決小樣本問題。但在進(jìn)行增量學(xué)習(xí)之前,必須對(duì)新增樣本的類別進(jìn)行有效識(shí)別,這可歸結(jié)為一個(gè)異類樣本的識(shí)別問題。針對(duì)異類樣本的檢測(cè)問題,美國(guó)哥倫比亞大學(xué)的Eskin 等提出的基于聚類的估計(jì)算法、改進(jìn)的k 近鄰方法以及one-class SVM 方法是其中具有影響力的3 種方法。但是,這些方法仍具有較高的誤報(bào)率,并且由于計(jì)算量過大而導(dǎo)致其實(shí)用性不強(qiáng)。針對(duì)這些情況,文獻(xiàn)[7]提出了一種新的基于TCM-KNN 算法的異類樣本檢測(cè)方法,并且通過引入遺傳算法[8],對(duì)TCM-KNN 算法進(jìn)行了改進(jìn),與上面給出的3 種常用方法相比,具有較高的檢測(cè)率和較低的誤報(bào)率。但該方法要窮盡未知樣本的所有可能分類,加之最近鄰分類器(KNN)自身的特點(diǎn),導(dǎo)致該算法的計(jì)算量巨大,而且該方法對(duì)訓(xùn)練集的質(zhì)量要求較高,如果訓(xùn)練集中混有異類樣本,會(huì)極大地影響最終的異類樣本檢測(cè)結(jié)果。為了克服以上兩個(gè)缺點(diǎn),本文將提出一種新的TCM-SVDD 方法,并進(jìn)行艙段模型試驗(yàn),結(jié)果將表明,該方法能夠快速、準(zhǔn)確地識(shí)別異類模式樣本,并且該方法對(duì)訓(xùn)練樣本集中混有少量異類模式樣本的情況不敏感。

      1 支持向量數(shù)據(jù)描述算法簡(jiǎn)介

      支持向量數(shù)據(jù)描述算法(Support Vector Data Description,SVDD)是近年來興起的性能優(yōu)越的單值分類法,是由Tax 和Duin[9]提出并發(fā)展起來的。它是通過正常樣本的訓(xùn)練來尋找一個(gè)能包括全部或絕大部分正常樣本的、具有最小體積的超球體,落在超球體外的新樣本將被判斷為異常樣本。

      假定一個(gè)目標(biāo)集包含N 個(gè)目標(biāo)樣本{xi,i=1,2,...,N},SVDD 的基本思想是尋求一個(gè)最小容積的超球體,以使所有的(或者絕大多數(shù))目標(biāo)樣本都包含在該球體內(nèi)。由于目標(biāo)集的樣本分布有可能包含極少數(shù)極為偏遠(yuǎn)的樣本,因此引入松弛因子ξi,允許部分?jǐn)?shù)據(jù)點(diǎn)在球體以外,則超球體可以用式(1)表示:

      式中:R 和a 分別為超球體的半徑和球心;變量C控制錯(cuò)分樣本的比例和算法復(fù)雜程度之間的折中;松弛因子ξi用于控制超球體以外數(shù)據(jù)點(diǎn)與球心的距離。目標(biāo)集形成的約束條件為

      于是,問題轉(zhuǎn)換為在約束條件式(2)下求超球體的最小半徑,這是一個(gè)二次優(yōu)化問題。構(gòu)造拉格朗日算式:

      式中,拉格朗日乘子αi≥0,γi≥0。求偏導(dǎo),得

      根據(jù)約束條件式(4)重構(gòu)式(3),可得

      對(duì)式(5)求最小值得出最優(yōu)解αi。對(duì)于αi不為0 的對(duì)象就稱為支持向量,只用它們就可以進(jìn)行超球體描述。一個(gè)測(cè)試點(diǎn)z 是否被接受為目標(biāo)樣本,只需要看測(cè)試點(diǎn)到超球體中心的距離是否小于半徑R,即

      式中,T 為轉(zhuǎn)置符號(hào)。

      式(6)用支持向量表示即為

      在最優(yōu)分類面中采用適當(dāng)?shù)臐M足Mercer 條件的內(nèi)積核函數(shù)K(xi·xj)就可以實(shí)現(xiàn)從低維向高維空間的映射,從而實(shí)現(xiàn)某一低維空間的非線性問題向高維空間的線性問題轉(zhuǎn)換,相應(yīng)地,式(5)與式(7)分別變?yōu)槭剑?)和式(9):

      2 TCM-SVDD 方法

      TCM 的目標(biāo)是獲得一般獨(dú)立同分布假設(shè)下可用的置信測(cè)量,這恰好與Kolmogorov 算法隨機(jī)性理論定義的隨機(jī)檢測(cè)(randomness test)緊密聯(lián)系[10],該檢測(cè)不可計(jì)算但可以進(jìn)行近似,其結(jié)果稱為P 值。P 值計(jì)算的基礎(chǔ)是奇異測(cè)量(strangeness measure),奇異測(cè)量的結(jié)果稱為奇異值。在實(shí)踐中,TCM 將已知樣本和未知樣本排列構(gòu)成樣本序列,窮盡未知樣本的所有可能分類,并對(duì)每種可能分類下的樣本序列的隨機(jī)性進(jìn)行檢測(cè),然后根據(jù)P 值來估計(jì)未知樣本屬于不同類別的置信度,實(shí)現(xiàn)置信判斷。目前,常用的檢測(cè)函數(shù)是Saunders等[11]提出的P 典型性函數(shù)。

      假設(shè){(x1,y1),(x2,y2),…,(xm,ym)}是訓(xùn)練樣本集,其中每一個(gè)樣本包括數(shù)據(jù)xi和它的標(biāo)簽yi。因?yàn)楸疚闹粎^(qū)分正常類樣本和異常類樣本,所以訓(xùn)練樣本的標(biāo)簽滿足y1=y2=…= ym=1,即全部為正常類。(xnew,y)為測(cè)試樣本,其標(biāo)簽y 為未知。TCM-SVDD 方法的詳細(xì)步驟如下:

      第1 步:將訓(xùn)練樣本和測(cè)試樣本組成一個(gè)新的樣本集{(x1,y1),(x2,y2),…,(xm,ym),(xnew,y)}。

      第2 步:通過SVDD 方法計(jì)算樣本集{(x1,y1),(x2,y2),…,(xm,ym),(xnew,y))}中每個(gè)樣本的拉格朗日乘子αi,獲得序列{α1,α2,…,αm,αnew}。

      第3 步:每個(gè)樣本的拉格朗日乘子αi表征了該樣本的奇異程度,可以作為該樣本的奇異值,因此得到各個(gè)樣本的奇異值序列{α1,α2,…,αm,αnew}。

      第4 步:使用Saunders 等提出的P 典型性函數(shù)計(jì)算測(cè)試樣本xnew被歸為正常類時(shí)的P 值,函數(shù)具體如下:

      式中:#表示集合的基數(shù);αnew為測(cè)試樣本xnew的奇異值;αi為第i個(gè)訓(xùn)練樣本的奇異值。

      第5 步:判斷樣本正常與否。預(yù)先確定置信水平,例如,假設(shè)1- δ 為置信水平,0<δ <1,其中δ 被稱為顯著性水平。如果P(αnew)<δ,則測(cè)試樣本被分為異常類樣本;如果P(αnew)>δ,則測(cè)試樣本被分為正常類樣本。

      3 試驗(yàn)研究

      為了驗(yàn)證上述方法的可行性,采用1∶1 的雙層殼體艙段模型進(jìn)行試驗(yàn),在模型內(nèi)部布置電機(jī)、激振器和海水泵各1 臺(tái),設(shè)備布置如圖1 所示。

      試驗(yàn)測(cè)試系統(tǒng)采用的設(shè)備包括:B&K 1049 信號(hào)發(fā)生器、B&K 2707 功率放大器、B&K 4801T 激振器、B&K 3560D+PULSE 8.0 信號(hào)采集系統(tǒng)及PCB 352C33 ICP 型加速度計(jì)。

      為了驗(yàn)證在較復(fù)雜工況下本文所提出方法的自動(dòng)標(biāo)注性能,在試驗(yàn)中將3 臺(tái)設(shè)備全部開啟,通過調(diào)整激振器激勵(lì)電壓模擬3 種工況模式,具體如表1 所示。

      圖1 試驗(yàn)場(chǎng)景圖Fig.1 The experiment scene

      表1 試驗(yàn)工況表Tab.1 List of experimental conditions

      3.1 數(shù)據(jù)預(yù)處理

      試驗(yàn)系統(tǒng)的分析頻率為800 Hz,采樣頻率為800×2.56=2 048 Hz,采樣時(shí)間為8 s,每類噪聲源模式分別采集16 384 個(gè)采樣點(diǎn)。以布置在殼體上的振動(dòng)加速度測(cè)點(diǎn)采集的數(shù)據(jù)作為分析對(duì)象,隨機(jī)選取其中連續(xù)的1 024 個(gè)采樣點(diǎn)為一個(gè)樣本。每類工況生成200 個(gè)樣本。

      對(duì)每個(gè)樣本計(jì)算其功率譜,頻率分辨率Δf=2 Hz,則每個(gè)樣本可轉(zhuǎn)化為一個(gè)400 維的特征向量。本文未對(duì)特征向量進(jìn)行特征提取或特征選取的處理。

      3.2 標(biāo)注性能比較

      通過工況2 模擬已有小樣本數(shù)據(jù)模式,選取該工作狀態(tài)下的10 個(gè)樣本作為訓(xùn)練樣本。從3 個(gè)工況中各選100 個(gè)樣本組成測(cè)試樣本集,比較3 種方法的自動(dòng)標(biāo)注性能:

      1)常用的SVDD 算法;

      2)TCM-KNN 算法;

      3)本文提出的TCM-SVDD 算法。

      針對(duì)TCM-KNN 和TCM-SVDD 算法,設(shè)置置信水平為95%。在TCM-KNN 方法中,最近鄰參數(shù)k 從1~9 變化。自動(dòng)標(biāo)注結(jié)果和時(shí)間花費(fèi)如表2所示。

      其中,正確標(biāo)注率表示對(duì)測(cè)試樣本集中工況2 樣本的正確識(shí)別率,錯(cuò)誤標(biāo)注率表示將測(cè)試樣本集中工況1 和工況3 的樣本標(biāo)注為工況2 樣本的比例。當(dāng)最近鄰參數(shù)k>4時(shí),TCM-KNN 方法的結(jié)果基本沒有變化,所以在表2 中沒有列出k>4的計(jì)算結(jié)果?;ㄙM(fèi)時(shí)間為在相同配置計(jì)算機(jī)上執(zhí)行算法所需要的時(shí)間。

      表2 不同方法的檢測(cè)準(zhǔn)確性和時(shí)間花費(fèi)比較結(jié)果Tab.2 Comparison of identification accuracy and time costs of different methods

      因?yàn)閷?duì)樣本進(jìn)行標(biāo)注的目的是為了實(shí)現(xiàn)小樣本訓(xùn)練集的擴(kuò)容,所以需要錯(cuò)誤標(biāo)注率越小越好。從上表中可以看出:

      1)本文提出的TCM-SVDD 的標(biāo)注效果是3種方法中最好的,在保證沒有錯(cuò)誤標(biāo)注的情況下,仍然能夠?qū)?6%的工況2 樣本標(biāo)注出來,且時(shí)間開銷較TCM-KNN 方法大大減少。究其原因,是SVDD 方法將問題轉(zhuǎn)化為了不等式約束下二次函數(shù)尋優(yōu)問題,其計(jì)算復(fù)雜度不再取決于空間維數(shù),而是取決于樣本數(shù),尤其是樣本中的支持向量數(shù),這大大提高了運(yùn)算速度,并且能夠有效解決特征參數(shù)的高維問題。

      2)最近鄰參數(shù)k 的選取對(duì)TCM-KNN 方法有較大影響,在實(shí)際應(yīng)用中,應(yīng)該根據(jù)具體情況進(jìn)行選擇。

      3.3 低信噪比情況檢測(cè)結(jié)果

      為測(cè)試不同信號(hào)干擾程度下TCM-SVDD 方法的性能,本文通過在采集的時(shí)域數(shù)據(jù)中人工加入白噪聲來模擬實(shí)現(xiàn)不同的信噪比,并將其與SVDD 方法和TCM-KNN 方法進(jìn)行比較。數(shù)據(jù)處理方式與3.1 節(jié)相同,正確標(biāo)注率和錯(cuò)誤標(biāo)注率的定義與3.2 節(jié)相同。SNR=5,0,-5 dB 這3 種情形下的檢測(cè)結(jié)果如表3 所示。

      表3 不同信噪比條件下檢測(cè)結(jié)果Tab.3 Test results of different SNR

      不難發(fā)現(xiàn),隨著信噪比的降低,3 種方法的檢測(cè)準(zhǔn)確率均出現(xiàn)了下降,尤其是當(dāng)SNR=-5 dB時(shí),此時(shí)白噪聲信號(hào)的能量已超過真實(shí)信號(hào)能量,真實(shí)信號(hào)已完全湮沒在白噪聲信號(hào)中,而此時(shí)TCM-SVDD 方法的正確標(biāo)注率仍能達(dá)到86%,錯(cuò)誤標(biāo)注率為5%,明顯優(yōu)于SVDD 方法和TCM-KNN 方法。

      3.4 訓(xùn)練樣本中混有非目標(biāo)類樣本的檢測(cè)結(jié)果

      以工況1 模擬目標(biāo)類樣本,工況3 模擬非目標(biāo)類樣本。從工況1 中選取50 個(gè)樣本與工況3 中的9 個(gè)樣本共同組成訓(xùn)練樣本集,模擬訓(xùn)練樣本集中存在非目標(biāo)類樣本的情況。從工況1 和工況3中各選取100 個(gè)樣本組成測(cè)試樣本集,分別用TCM-SVDD 方法和TCM-KNN 方法進(jìn)行自動(dòng)標(biāo)注。通過表2 可知,對(duì)于TCM-KNN 方法,當(dāng)最近鄰參數(shù)k=4 時(shí)錯(cuò)誤標(biāo)注率為0,所以取k=4 且置信水平設(shè)為95%。當(dāng)訓(xùn)練集中包含工況3 的樣本個(gè)數(shù)從0~9 變化時(shí),對(duì)測(cè)試集樣本中目標(biāo)類樣本的準(zhǔn)確標(biāo)識(shí)率結(jié)果如圖2 所示。

      圖2 訓(xùn)練集中非目標(biāo)類樣本數(shù)量對(duì)標(biāo)識(shí)準(zhǔn)確率的影響結(jié)果Fig.2 Influence of the number of non-objective samples in the training set on the label right rate

      從圖2 中可以看出,TCM-KNN 方法對(duì)于訓(xùn)練集中包含非目標(biāo)類樣本的情況非常敏感,當(dāng)訓(xùn)練集中混合的非目標(biāo)類樣本個(gè)數(shù)小于參數(shù)k 時(shí),該方法能夠?qū)y(cè)試樣本集中的目標(biāo)樣本進(jìn)行有效標(biāo)注,但當(dāng)訓(xùn)練集中非目標(biāo)類樣本的數(shù)量接近或大于參數(shù)k 時(shí),TCM-KNN 方法將得到錯(cuò)誤的標(biāo)注結(jié)果。而本文提出的TCM-SVDD 方法在這種情況下仍能夠保持較好的性能,說明本文方法對(duì)訓(xùn)練集質(zhì)量的魯棒性較好。

      4 結(jié) 論

      本文提出了一種新的異類樣本檢測(cè)方法,艙段模型試驗(yàn)驗(yàn)證了該方法的可行性。試驗(yàn)結(jié)果表明:

      1)本文提出的TCM-SVDD 方法在樣本類別標(biāo)注準(zhǔn)確率和時(shí)間花費(fèi)方面優(yōu)于常用的TCM-KNN 和SVDD 方法,在低信噪比情況下仍能取得較好的結(jié)果。

      2)TCM-KNN 方法是求解待檢測(cè)樣本與訓(xùn)練樣本集中最近鄰樣本的距離,作為奇異值的表征,如果訓(xùn)練樣本集中含有異類樣本,該方法將無法得到正確的結(jié)果;而TCM-SVDD 方法對(duì)訓(xùn)練樣本集質(zhì)量的魯棒性更好,當(dāng)訓(xùn)練集中含有少量異類樣本時(shí),也可以獲得很好的效果。

      3)由于本文方法引入了直推置信機(jī)理論,在保證對(duì)異類樣本檢測(cè)準(zhǔn)確性可控的情況下(通過合理設(shè)定置信水平1-δ 進(jìn)行控制),本文方法可自動(dòng)完成異類樣本的檢測(cè),有效降低了對(duì)人工干預(yù)進(jìn)行異類樣本標(biāo)注的需求。

      [1]吳國(guó)清,李靖,陳耀明,等. 艦船噪聲識(shí)別(Ⅰ)——總體框架、線譜分析和提取[J]. 聲學(xué)學(xué)報(bào),1998,23(5):394-400.WU Guoqing,LI Jing,CHEN Yaoming,et al. Ship ra?diated-noise recognition(Ⅰ)—the overall framework,analysis and extraction of line-spectrum[J]. Acta Acustica,1998,23(5):394-400.

      [2]CHAPELLE O,VAPNIK V,BENGIO Y. Model selec?tion for small sample regression[J]. Machine Learn?ing,2002,48(1/3):9-23.

      [3]RAUDYS S J,JAIN A K. Small sample size effects in statistical pattern recognition:recommendations for practitioners[J]. IEEE Transactions on Pattern Analy?sis and Machine Intelligence,1991,13(3):252-264.

      [4]HAMAMOTO Y,UCHIMURA S,KANAOKA T,et al. Evaluation of artificial neural network classifiers in small sample size situations[C]//Proceedings of 1993 International Joint Conference on Neural Networks(IJCNN' 93-Nagoya),1993:1731-1735.

      [5]UEDA N,NAKANO R. Estimating expected error rates of neural network classifiers in small sample size situations:a comparison of cross-validation and boot?strap[C]// Proceedings of IEEE International Confer?ence on Neural Networks,1995:101-104.

      [6]TWOMEY J M,SMITH A E. Bias and variance of vali?dation methods for function approximation neural net?works under conditions of sparse data[J]. Systems,Man,and Cybernetics,Part C:IEEE Transactions on Applications and Reviews,1998,28(3):417-430.

      [7]LI Y,F(xiàn)ANG B X,GUO L,et al. A network anomaly detection method based on transduction scheme[J].Journal of Software,2007,18(10):2595-2604.

      [8]李洋,方濱興,郭莉,等.基于TCM-KNN 和遺傳算法的網(wǎng)絡(luò)異常檢測(cè)技術(shù)[J]. 通信學(xué)報(bào),2007,28(12):48-52.LI Yang,F(xiàn)ANG Binxing,GUO Li,et al. Network anomaly detection based on TCM-KNN and genetic al?gorithm[J]. Journal on Communications,2007,28(12):48-52.

      [9]TAX D M J,DUIN R P W. Support vector domain de?scription[J]. Pattern Recognition Letters,1999,20(11):1191-1199.

      [10]VOVK V,GAMMERMAN A,SAUNDERS C. Ma?chine-learning applications of algorithmic randomness[C]//Proceedings of the Sixteenth International Con?ference on Machine Learning(ICML-1999). Bled,Slovenia,1999:444-453.

      [11]SAUNDERS C,GAMMERMAN A,VOVK V. Com?putationally efficient transductive machines[C]//Algo?rithmic Learning Theory. Springer Berlin Heidelberg,2000:325-337.

      猜你喜歡
      異類球體訓(xùn)練樣本
      計(jì)算機(jī)生成均值隨機(jī)點(diǎn)推理三、四維球體公式和表面積公式
      人工智能
      廣告創(chuàng)意新方法——球體思維兩極法
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識(shí)別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      Optimization of rice wine fermentation process based on the simultaneous saccharification and fermentation kinetic model☆
      毛毛蟲中的異類
      魚中的異類
      鸚鵡中的異類
      视频| 益阳市| 牙克石市| 鹰潭市| 县级市| 苍梧县| 沾益县| 栾城县| 呼玛县| 舞阳县| 嘉祥县| 保靖县| 夹江县| 赤水市| 射洪县| 德保县| 万宁市| 六盘水市| 揭西县| 灌阳县| 多伦县| 江孜县| 沅江市| 英吉沙县| 云浮市| 石柱| 富裕县| 吉首市| 阿尔山市| 鄯善县| 大厂| 扬州市| 鹤庆县| 临沂市| 芦山县| 疏附县| 纳雍县| 施秉县| 三穗县| 宁德市| 仙居县|