摘要:模式識別(Pattern?recognition)是上世紀(jì)七八十年代的流行術(shù)語。它是對原始數(shù)據(jù)信號(圖像、語音、文字、視頻等)進(jìn)行分析、解釋,從而得到其類別屬性,繼而進(jìn)行判斷的過程。模式識別技術(shù)是人工智能的基礎(chǔ)技術(shù),是機(jī)器學(xué)習(xí)(machine?learning)的一個分支。
關(guān)鍵詞:模式識別;類別屬性;機(jī)器學(xué)習(xí)
一、模式識別的定義
模式識別(Pattern?recognition)是上世紀(jì)七八十年代的流行術(shù)語。它是對原始數(shù)據(jù)信號(圖像、語音、文字、視頻等)進(jìn)行分析、解釋,從而得到它的類別屬性,繼而進(jìn)行判斷的過程[1-3]。模式識別技術(shù)是人工智能的基礎(chǔ)技術(shù),是機(jī)器學(xué)習(xí)(machine?learning)的一個分支,從某種意義來說,模式識別幾乎等同于機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是一門多領(lǐng)域的交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)等多門學(xué)科,它是一類從給定的數(shù)據(jù)中自動分析其規(guī)律,并且利用所獲得的規(guī)律對未知的樣本數(shù)據(jù)進(jìn)行預(yù)測的算法。一個典型的機(jī)器學(xué)習(xí)流程如圖1所示:
二、模式識別的基本流程
模式識別的基本流程一般包括數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,特征提取,特征選擇以及模型的架構(gòu)這幾個模塊,如圖2所示:
(1)數(shù)據(jù)采集
很顯然,數(shù)據(jù)采集過程是整個模式識別系統(tǒng)最基本的前提條件,一個具有良好性能的模式識別系統(tǒng)必定會首先獲得較好的數(shù)據(jù)集。通過采集到的數(shù)據(jù),就可以進(jìn)行后續(xù)的預(yù)處理、特征提取、特征選擇、以及分類模型架構(gòu)等一系列的工作。一般而言,數(shù)據(jù)采集過程是需要借助相應(yīng)的硬件設(shè)備,比如說聲音傳感器、圖像傳感器等設(shè)備來采集相應(yīng)的數(shù)據(jù)。倘若所使用的傳感器靈敏度不高,或者說傳感器的精度不高,那么一定會對所采集到的數(shù)據(jù)產(chǎn)生噪聲污染。盡管后續(xù)過程中一般會通過預(yù)處理操作來處理相應(yīng)的數(shù)據(jù),可以減少部分的噪聲污染,但是卻不能完全消除噪聲的干擾。因此,數(shù)據(jù)采集部分應(yīng)該盡量保證所得到的數(shù)據(jù)純正、干凈。而隨著模式識別技術(shù)的快速發(fā)展,很多無私的學(xué)者將自己所獲得的公認(rèn)的數(shù)據(jù)集公開分享在各數(shù)據(jù)庫中,從而方便廣大的學(xué)術(shù)研究者方便使用。
(2)預(yù)處理
在模式識別技術(shù)領(lǐng)域內(nèi),預(yù)處理的過程一般是指去除噪聲干擾,增強(qiáng)有效信息的過程。過程1)中也提到,在數(shù)據(jù)的采集過程中,不可避免地會引入一些干擾的因素。比如說,噪聲污染以及無效信息的引入等因素,這不僅會增加后續(xù)處理過程的復(fù)雜性,而且也會影響整個分類模型的性能。因此,預(yù)處理過程是模式識別系統(tǒng)中的一個必要的過程。但是需要注意的是,盡管預(yù)處理的功能基本上都是減弱甚至消除噪聲的干擾,同時也會加強(qiáng)有效信息的信息度,然而,對于不同的領(lǐng)域?qū)ο?,不同的特征,其預(yù)處理的方法也是千姿百態(tài)的。
(3)特征提取
一般來說,從傳感器中直接獲得的數(shù)據(jù)屬于原始測量空間的數(shù)據(jù),然而原始測量空間中的數(shù)據(jù)是無法直接用來進(jìn)行判別分類的;或者說,直接利用原始測量空間中所得到的數(shù)據(jù)來進(jìn)行判別分類,其效果往往不盡如意。一般來說,需要將數(shù)據(jù)從原始的測量空間中轉(zhuǎn)換到二次空間中,也即特征空間。特征提取是計算機(jī)視覺和圖像處理中的一個概念。其指的是利用計算機(jī)來提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。不同的領(lǐng)域內(nèi),特征提取的方法也有所不同,有文本特征向量提取,視覺圖像特征提取,局部LBP特征等等。
(4)特征選擇
在經(jīng)過數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,特征提取過程之后,數(shù)據(jù)就從原始的測量空間中轉(zhuǎn)換到二次特征空間,而此時所提取的特征不一定是我們所最需要的特征,其中包含了大量的不相關(guān)以及冗余的特征,對最終的分類判別不一定有很好的效果。這些不相關(guān)或者冗余的特征不僅會極大地增加計算的復(fù)雜性,而且還會減弱分類器的分類性能。因此,模式識別過程中,需要進(jìn)行特征選擇,其作用就是從所提取的特征中去除那些不相關(guān)以及冗余的特征,從而挑選出對模式最終判別分類效果最好的特征,其實這也是一個尋優(yōu)問題。
(5)分類判別模型架構(gòu)
在經(jīng)過特征選擇技術(shù)后,就需要對所選擇出的特征進(jìn)行判別分類。一般來說,簡單點的分類判別方法其實就是將特征表示為向量的形式。然后,利用像歐氏距離、馬氏距離、卡方距離、范數(shù)等手段來計算任意兩個向量之間的相似性,最后再根據(jù)計算所得到的向量之間的相似性來進(jìn)行分類判別。復(fù)雜點的分類判別方法是利用SVM、ANN、貝葉斯判別等方法將特征進(jìn)行某種線性或者非線性的變換,從而在變換后的空間進(jìn)行二次分類。
三、完整的模式識別過程
一個完整的模式識別過程包括三個步驟:學(xué)習(xí)模塊、訓(xùn)練模塊以及驗證模塊,可以用如圖3來進(jìn)行表示
上述是對整個模式識別里面一些基本而又非常重要的概念、流程的簡單介紹,也是學(xué)號模式識別與機(jī)器學(xué)習(xí)所要了解的基本知識,以可視化的圖形更易于去理解。
參考文獻(xiàn)
[1]楊淑瑩,張樺.模式識別與智能計算:MATLAB技術(shù)實現(xiàn)[M].City:電子工業(yè)出版社,2015.
[2]Fred A,Marsico M D.Pattern Recognition Applications and Methods[J].Advances in Intelligent Systems & Computing,2015,318:1-2.
作者簡介:李星星,1991.4,男,江西九江,廣州工商學(xué)院,無 ,模式識別與圖像處理。