摘要:模式識(shí)別(Pattern?recognition)是上世紀(jì)七八十年代的流行術(shù)語(yǔ)。它是對(duì)原始數(shù)據(jù)信號(hào)(圖像、語(yǔ)音、文字、視頻等)進(jìn)行分析、解釋,從而得到其類別屬性,甚至對(duì)其特征進(jìn)行選擇,繼而進(jìn)行判斷分類的過(guò)程。模式識(shí)別相關(guān)的方法有很多,它們之間有很多的不同,當(dāng)然也和傳統(tǒng)的模式識(shí)別方法也有很大出入。
關(guān)鍵詞:模式識(shí)別;類別屬性;特征選擇
一、國(guó)內(nèi)外研究發(fā)展現(xiàn)狀類比
傳統(tǒng)的模式識(shí)別特征選擇策略主要應(yīng)用于單標(biāo)記學(xué)習(xí),單標(biāo)記特征選擇算法有很多,比如說(shuō)傳統(tǒng)的主成分分析法(principal component analysis ,PCA),以及它的演變算法——快速PCA算法[2,3]。主成分分析(PCA)是一種統(tǒng)計(jì)程序, 是作為一個(gè)在探索性數(shù)據(jù)分析上的工具而且可以用來(lái)預(yù)測(cè)模型。它使用一個(gè)正交變換將一組觀測(cè)可能相關(guān)的變量轉(zhuǎn)化為一組線性不相關(guān)的變量。PCA方法是一種基于圖像轉(zhuǎn)化的分析處理方法,其本質(zhì)則是將一些圖像矩陣所轉(zhuǎn)換成的圖像向量作為原始的特征,不過(guò)這樣會(huì)導(dǎo)致特征維數(shù)較高,使得特征提取過(guò)程變得復(fù)雜;除此之外,在同類內(nèi)部之間,高維的特征向量也會(huì)導(dǎo)致散布矩陣奇異性的一些問(wèn)題。另外,目前比較推崇的逐步判別分析方法(Stepwise Discriminant Analysis,SDA)。判別分析:在研究過(guò)程中,研究對(duì)象已經(jīng)按某種方法劃分成了若干個(gè)類型,當(dāng)?shù)玫揭唤M新的樣本數(shù)據(jù)時(shí),確定這些樣本屬于哪一種類型,這類問(wèn)題就屬于判別分析,逐步判別分析就是逐步地選擇滿意的變量(特征)來(lái)進(jìn)行判別分析,分析出輸入數(shù)據(jù)樣本類別的一個(gè)過(guò)程。
近年來(lái),多標(biāo)記學(xué)習(xí)也已經(jīng)獲得來(lái)自國(guó)內(nèi)外廣泛的關(guān)注,并且已經(jīng)應(yīng)用于大量的研究領(lǐng)域內(nèi)。比如說(shuō),在語(yǔ)義場(chǎng)景分類中,一幅圖片可能被注釋為河流和山脈,也許另一幅圖片卻被注釋為沙灘和城市。在音樂(lè)情感分類中,一首音樂(lè)可能包含不同的情感,比如說(shuō)喜、怒、哀、樂(lè)。在文本分類中,一個(gè)文件可能具有幾個(gè)不同的主題,例如健康與政府。在生物信息學(xué)領(lǐng)域,每一個(gè)基因可能具有一套功能類標(biāo),比如說(shuō)新陳代謝、轉(zhuǎn)錄以及蛋白質(zhì)合成等。以上所有的這些案例,每個(gè)樣本都具一套類標(biāo),均屬于多標(biāo)記學(xué)習(xí)數(shù)據(jù)樣本。多標(biāo)記學(xué)習(xí)的任務(wù)就是為了構(gòu)造出一個(gè)多標(biāo)記分類模型,從而為每一個(gè)未知的樣本(對(duì)象)獲得一個(gè)預(yù)測(cè)的類標(biāo)子集。
二、與傳統(tǒng)的模式識(shí)別類比
多標(biāo)記特征選擇(Multi-label feature selection)相對(duì)來(lái)說(shuō)是一個(gè)比較全新的研究領(lǐng)域。隨著多標(biāo)記問(wèn)題的提出,多標(biāo)記學(xué)習(xí)問(wèn)題也受到越來(lái)越多的關(guān)注。根據(jù)調(diào)查發(fā)現(xiàn),在過(guò)去的幾年里,大量的多標(biāo)記學(xué)習(xí)方法被提出。這些多標(biāo)記學(xué)習(xí)方法可大致分為兩個(gè)主要的類別:(1)、問(wèn)題轉(zhuǎn)化法(problem transformation);(2)、算法自適應(yīng)方法(algorithm adaptation)。在問(wèn)題轉(zhuǎn)化方法中,轉(zhuǎn)換的核心就是改造原始的樣本數(shù)據(jù)以便適應(yīng)于現(xiàn)有的學(xué)習(xí)算法。轉(zhuǎn)化的任務(wù)就是將原始的多標(biāo)記學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一個(gè)或若干個(gè)相應(yīng)的單標(biāo)記學(xué)習(xí)問(wèn)題,然后再通過(guò)傳統(tǒng)的單標(biāo)記學(xué)習(xí)方法來(lái)逐一解決這些問(wèn)題。幾種著名的問(wèn)題轉(zhuǎn)換方法,包括二元關(guān)聯(lián)法binary relevance (BR)、類標(biāo)能量子集法label power set (LP)以及它的變體,修剪的問(wèn)題轉(zhuǎn)換法pruned problem transformation (PPT)。BR方法則是將多類問(wèn)題轉(zhuǎn)換為L(zhǎng)個(gè)二類分類問(wèn)題,再訓(xùn)練出L個(gè)二類分類器。那么對(duì)于第m個(gè)類別來(lái)說(shuō),所有屬于第m個(gè)類的樣本均為正樣本(positive instance),其他的樣本則為負(fù)樣本(negative instance)。但是這類方法有著一個(gè)缺點(diǎn),那就是其忽略了類別之間的關(guān)聯(lián)性。LP方法雖然考慮了類別之間關(guān)聯(lián)性,但是它將具有多個(gè)類標(biāo)的樣本作為一組新的類別,這必將會(huì)引起一些新的問(wèn)題:1)隨著新類別的增加,時(shí)間消耗越來(lái)越大;2)由于只有少量的樣本被歸屬于新的類標(biāo),使其易于趨向過(guò)擬合;3)由于新的類標(biāo)只具有少量的樣本數(shù)目,則可能會(huì)導(dǎo)致類標(biāo)不平衡的問(wèn)題。PPT方法,其是LP方法的一個(gè)變體,這種方法拋棄了那些只具有少量樣本數(shù)目的新類標(biāo),相對(duì)于LP方法而言,這種方法就減輕了LP方法的缺陷,但是卻引發(fā)了一個(gè)新的問(wèn)題,即當(dāng)拋棄那些只有少量樣本的新類標(biāo)的時(shí)候,則會(huì)導(dǎo)致信息損失。圖2則直觀地展示了BR和LP方法的轉(zhuǎn)換過(guò)程。
對(duì)于算法自適應(yīng)方法,其主要思想:通過(guò)修正一些約束條件,以便擴(kuò)展某種單標(biāo)記學(xué)算法從而直接處理多標(biāo)記問(wèn)題,在這期間并不涉及任何的轉(zhuǎn)換過(guò)程?;谶@類方法的思想,類標(biāo)排名支持向量機(jī)方法(Label rank support vector machine,LaRankSVM), 基于k近鄰的多標(biāo)記學(xué)習(xí)算法(Multi-label based on k-Nearst Neighbor algorithm,ML-kNN), 以及多類標(biāo)樸素貝葉斯特征選擇方法(Multi-label Naive Bayes feature selection method,MLNB)依次被提出。
盡管以上的這些方法的性能都很好,但是他們都是在不同的類標(biāo)中基于同樣的特征空間下來(lái)實(shí)現(xiàn)學(xué)習(xí)的目的。然而實(shí)際上,在多標(biāo)記學(xué)習(xí)算法中,不同的類標(biāo)可能擁有他們自己獨(dú)特的特征。例如:當(dāng)判斷一個(gè)學(xué)生是計(jì)算機(jī)系的學(xué)生還是藝術(shù)系的學(xué)生時(shí),可以通過(guò)像代碼和藝術(shù)作品這類的特性就可以大致區(qū)別該學(xué)生的身份來(lái);像這類特征就可以看作是對(duì)應(yīng)類標(biāo)下的特異性特征(label-specific features)。然而,隨著特異性特征的構(gòu)建,特征維度將會(huì)急劇地增加,從而導(dǎo)致在所構(gòu)建的特征空間中有大量的冗余信息存在的現(xiàn)象,尤其是在多樣本分類數(shù)據(jù)集或者是在高維特征空間中,這種現(xiàn)象極為明顯。因此,為了適應(yīng)時(shí)代的發(fā)展,為了有效地避免維度災(zāi)難問(wèn)題,還需要研究人員進(jìn)行大量的實(shí)驗(yàn)探究,這種情況就刻不容緩了。
參考文獻(xiàn)
[1]楊淑瑩, 張樺. 模式識(shí)別與智能計(jì)算:MATLAB技術(shù)實(shí)現(xiàn)[M]. City: 電子工業(yè)出版社, 2015.
[2]余映, 王斌, 張立明. 一種面向數(shù)據(jù)學(xué)習(xí)的快速PCA算法[J]. 模式識(shí)別與人工智能, 2009, 22(4): 000567-000573.
[3]Boutell M R, Luo J, Shen X, et al. Learning multi-label scene classification ☆[J]. Pattern Recognition, 2004, 37(9): 1757-1771.
作者簡(jiǎn)介:李星星,1991.4,男,江西九江,廣州工商學(xué)院,無(wú),模式識(shí)別與圖像處理