摘要:在模式識別領(lǐng)域內(nèi),隨著科技的不斷發(fā)展,數(shù)據(jù)壓縮技術(shù)的不斷成熟,海量信息特征的時(shí)代也隨之到來。這些信息特征中卻包含著大量的冗余信息特征,極大地影響了對分類模型的架構(gòu)及其分類性能。因此,極大地需要在模式識別中采用特征選擇技術(shù),選擇出對分類判別分析有用的信息特征。
關(guān)鍵詞:模式識別;冗余信息特征;特征選擇
一、 前言
隨著科學(xué)技術(shù)的不斷發(fā)展,信息時(shí)代也隨之而來。在面對海量而且又復(fù)雜的樣本數(shù)據(jù)信息時(shí),人類不得不去對相關(guān)的信息進(jìn)行處理。然而實(shí)際上,在信息處理的過程中有一個(gè)極其重要的形式,就是生命體對客體或者說是所處的環(huán)境的識別,我們把環(huán)境或者客體之類的統(tǒng)稱為模式。模式識別(Pattern recognition)則是通過利用各種數(shù)學(xué)工具、技術(shù)方法來對事物進(jìn)行表示,從而對事物進(jìn)行描述、辨別、解釋以及分類的一個(gè)信息處理過程。模式識別包括很多,有語音模式識別、光學(xué)字符識別以及聲學(xué)信息識別等很多方面。由于具有海量的數(shù)據(jù)信息,而這些數(shù)據(jù)信息中,有很多信息都是“多余的”。所謂的多余是指這些信息包括很多冗余的信息或是對研究目的地辨別、分類無關(guān)的一些信息特征,所以我們在信息處理的過程中,需要對這些信息進(jìn)行加工處理,這里我們就要用到特征選擇技術(shù)。特征選擇(feature selection)又叫屬性選擇(attribute selection)是指從原始的信息特征中選擇出一些最有效的信息特征以便能夠降低特征的維度的過程,其也是模式識別體系的基本流程中的一個(gè)關(guān)鍵技術(shù)所在。經(jīng)過特征選擇技術(shù),我們可以降低特征的維度,去除那些復(fù)雜信息中所包含的冗余特征(redundant features)和不相關(guān)的特征(unrelated features),還可以降低計(jì)算過程中的復(fù)雜性以及分類模型的復(fù)雜性,改善分類判別性能。因此,特征選擇技術(shù)對于模式識別來說是一個(gè)極其重要也是必不可少的關(guān)鍵步驟。
二、 特征選擇技術(shù)的評價(jià)函數(shù)
在模式識別系統(tǒng)中,我們需要對特征子集進(jìn)行評價(jià)從而判斷所選擇的特征子集是否有效,是否能夠改善最終的分類判別的分類精度,這里就需要用到相應(yīng)的評價(jià)函數(shù)。在經(jīng)過不同的評價(jià)函數(shù)所選擇出的特征子集的最優(yōu)性或是次優(yōu)性也是不同的。依據(jù)特征評價(jià)函數(shù)與學(xué)習(xí)方法之間的關(guān)系,我們可以將評價(jià)函數(shù)分為獨(dú)立的評價(jià)函數(shù)以及非獨(dú)立的評價(jià)函數(shù)。
獨(dú)立的評價(jià)函數(shù),顧名思義,它是和學(xué)習(xí)方法無關(guān)的,它只是依據(jù)訓(xùn)練樣本本身所具有的信息特征來對特征子集的判別分類性能進(jìn)行評價(jià)。一般而言,在模式識別過程中,我們經(jīng)常用到的獨(dú)立的評價(jià)函數(shù)包括信息評價(jià)函數(shù)(信息熵、信息增益等,若某個(gè)信息特征A的信息增益要高于信息特征B的信息增益,則我們可以優(yōu)先選擇信息特征A)、距離評價(jià)函數(shù)(其中常用到的距離準(zhǔn)則有歐氏距離、馬氏距離、余弦距離等)、以及相關(guān)性評價(jià)函數(shù)(其中常用到相關(guān)系數(shù)來衡量某一特征與類別之間的相關(guān)程度)。非獨(dú)立評價(jià)函數(shù),它與學(xué)習(xí)方法是密切相關(guān)的,其是根據(jù)學(xué)習(xí)方法的分類性能來對所有的特征集合進(jìn)行的評價(jià)(其中常用到的非獨(dú)立函數(shù)就是正確分類率)。
三、 特征選擇技術(shù)的分類
在模式識別系統(tǒng)中,在對所提取的特征進(jìn)行選擇時(shí),我們有不同的選擇方法。依據(jù)評價(jià)函數(shù)與學(xué)習(xí)方法之間的關(guān)系,我們可以將特征選擇技術(shù)分為濾波式(filters)、封裝式(wrappers)、混合式(hybrid)以及嵌入式(embedded)特征選擇方法。
濾波式特征選擇技術(shù)是與分類算法相獨(dú)立的,它也和分類算法中所涉及到的參數(shù)以及分類過程中的分類性能時(shí)完全無關(guān)的。一般而言,濾波式特征選擇技術(shù)經(jīng)常采用獨(dú)立的評價(jià)函數(shù)。因此,當(dāng)我們改變評價(jià)函數(shù)的時(shí)候,我們就可以得到各種各樣的濾波式特征選擇方法。濾波式特征選擇方法具備通用性的特性,正是由于它的通用性,我們才可以憑借這種方法來解決各種各樣的有關(guān)特征選擇的問題。但是這類方法也有其缺點(diǎn),即由于與分類算法是相互獨(dú)立的,所以通過該類方法所選擇出的特征子集的分類性能一般都要劣于其他的分類方法。
封裝式特征選擇技術(shù)與濾波式特征選擇技術(shù)不同,其所采用的評價(jià)函數(shù)是非獨(dú)立的評價(jià)函數(shù),它是通過利用特征集合的分類性能來得到最優(yōu)的特征子集或者是次優(yōu)的特征子集。其中,對特征子集評價(jià)的評價(jià)函數(shù)是與學(xué)習(xí)方法緊密相關(guān)的。該類方法是將特征選擇的過程與學(xué)習(xí)方法結(jié)合起來,從而尋求對判別分類性能最好的特征子集。與濾波式特征選擇技術(shù)類似,我們通過改變學(xué)習(xí)的算法,也可以得到各種各樣的封裝式特征選擇技術(shù)方法。但是該算法也有其缺點(diǎn),即復(fù)雜程度高,運(yùn)算量極大。
對于混合式特征選擇方法而言,其充分地利用了濾波式及封裝式各自的優(yōu)點(diǎn),來提供一種特征選擇思路。在特征選擇的過程中,該類方法同時(shí)地使用了獨(dú)立的評價(jià)函數(shù)以及學(xué)習(xí)算法來對特征子集進(jìn)行評價(jià),其步驟是首先通過獨(dú)立的評價(jià)函數(shù)來選擇出一系列的最優(yōu)特征集合,再通過使用學(xué)習(xí)算法來對這些候選的特征集合一一分析處理,從而挑選出最終的最優(yōu)特征集合。
對于嵌入式特征選擇方法而言,它是充分考慮了學(xué)習(xí)算法固有的一些結(jié)構(gòu),這類方法的思想就是將特征選擇技術(shù)嵌入到學(xué)習(xí)算法中,從而架構(gòu)出一系列的嵌入式特征選擇方法。比如說,經(jīng)典的決策樹算法(decision tree algorithm),該算法是一種預(yù)測模型,是一種樹形結(jié)構(gòu),算法中的基元—節(jié)點(diǎn)有著選擇的作用,通過每個(gè)節(jié)點(diǎn),我們可以選擇出那些對分類判別能力好的信息特征。
四、 結(jié)語
特征選擇技術(shù)方法多種多樣,具體問題可具體分析,也可以根據(jù)自己的需求,結(jié)合本身的條件來選擇出適合的分類方法。
參考文獻(xiàn):
[1]楊宏暉,戴健,孫進(jìn)才,等.用于水聲目標(biāo)識別的自適應(yīng)免疫特征選擇算法[J].西安交通大學(xué)學(xué)報(bào),2011,45(12):28-32.
[2]李玲,劉華文,徐曉丹,等.基于信息增益的多標(biāo)簽特征選擇算法[J].計(jì)算機(jī)科學(xué),2015,42(7):52-56.
[3]王力波,王耀力,常青.生物信息學(xué)中的特征選擇[J].太原理工大學(xué)學(xué)報(bào),2017,48(3):458-468.
作者簡介:
李星星,江西省南昌市,江西科技師范大學(xué)。