李志偉
摘 要: 模式識別是解決機(jī)器智能的一種工具,也是對測量進(jìn)行描述的或者分類的一門科學(xué)。本文主要介紹了模式識別的一些基礎(chǔ)知識,著重介紹了模式識別系統(tǒng)中五個組成部分和統(tǒng)計模式識別方法,目的在于讓更多的人很快了解、學(xué)習(xí)和研究模式識別。相信隨著模式識別理論與技術(shù)的不斷完善和法則,其應(yīng)用領(lǐng)域和方向?qū)⒏鼜V闊。
關(guān)鍵詞: 模式識別系統(tǒng) 統(tǒng)計模式識別 發(fā)展趨勢
1.引言
通常我們所說的機(jī)器識別、計算機(jī)識別等都屬于模式識別。它是通過某種方法對事物進(jìn)行分析比較,根據(jù)某種判別規(guī)則識別事物。如:手寫數(shù)字識別,是對0~9數(shù)字進(jìn)行模式匹配,計算出相似度較高的對應(yīng)值作為識別結(jié)果。模式識別研究的內(nèi)容是使機(jī)器完成曾經(jīng)只有人類才能完成的事,它具有分析、描述與判斷事物的能力。經(jīng)過多年的迅速發(fā)展,當(dāng)前模式識別已經(jīng)廣泛應(yīng)用于各個領(lǐng)域,如工、農(nóng)、醫(yī)、自然科學(xué)、社會科學(xué)等。在農(nóng)業(yè)中,通過分析土壤成分及農(nóng)產(chǎn)品的收成,決定種植何種作物、了解養(yǎng)料是否充足,以提高產(chǎn)量。在工業(yè)生產(chǎn)中,有語音識別、過程控制、地下探測、圖像分割等。醫(yī)學(xué)中主要有心電圖與向量心電圖分析、顯微觀察與生物醫(yī)學(xué)數(shù)據(jù)分析、基因染色體研究、醫(yī)學(xué)圖像分割等。在自然科學(xué)中有地球和行星探測、衛(wèi)星數(shù)據(jù)分析、遙感圖像地質(zhì)勘探等方面應(yīng)用廣泛。然而,種種應(yīng)用都是隨著問題的出現(xiàn)而出現(xiàn)的解決方法,至今模式識別還沒有發(fā)展成統(tǒng)一的、有效的可以應(yīng)用于所有模式識別的理論。模式識別的技術(shù)對國民經(jīng)濟(jì)建設(shè)和國防科技發(fā)展的重要性已得到人們的認(rèn)可和廣泛重視。本文將就模式識別所涉及的基本問題、研究的領(lǐng)域及其當(dāng)前進(jìn)展現(xiàn)狀進(jìn)行詳細(xì)的介紹,并對模式識別的發(fā)展趨勢進(jìn)行展望。
2.模式識別系統(tǒng)
模式識別系統(tǒng)在工作時,只要判別被識別的對象落入哪一個區(qū)域,就能確定出它所屬的類別。由噪聲等導(dǎo)致的變異性,可通過預(yù)處理部分消除;模式本身固有的變異性可通過特征提取和選擇得到控制。因此,一個典型的模式識別系統(tǒng)由數(shù)據(jù)獲取、預(yù)處理、特征提取、分類決策及分類器設(shè)計組成。對應(yīng)部分分別完成未知類別模式分類、分類器設(shè)計訓(xùn)練和對識別樣品的分類決策?;镜哪J阶R別方法有統(tǒng)計模式識別方法和結(jié)構(gòu)模式識別方法。除此之外,還有模糊模式識別、神經(jīng)網(wǎng)絡(luò)模式識別和多分類器融合方法。以下對模式識別系統(tǒng)中五個組成部分簡單介紹:
(1)數(shù)據(jù)獲取
通常獲取的數(shù)據(jù)類型有二維圖像、一維波形、物理參量邏輯值三種。計算機(jī)使用可運算的符號研究文字、指紋、心電圖、體溫等對象。
(2)預(yù)處理
預(yù)處理的目的就是對原退化或干擾、冗余的數(shù)據(jù)信息進(jìn)行去噪、復(fù)原,提取有用的信息。
(3)特征提取和選擇
一般來說它包含將所獲取的原始量測數(shù)據(jù)轉(zhuǎn)換成能反映事物本質(zhì),并能將其最有效分類的特征表示,輸入的是經(jīng)過預(yù)處理的量測數(shù)據(jù)。通過將原始量測數(shù)據(jù)轉(zhuǎn)換成有效方式表示的信息,分類器能根據(jù)這些信息決定樣本的類別,對所獲取的信息實現(xiàn)高維量測空間轉(zhuǎn)換成地維特征空間。
(4)分類決策
模式識別系統(tǒng)工作有訓(xùn)練方式和分類決策兩種方式。前一種是在確定的特征空間中,對測量數(shù)據(jù)進(jìn)行特征選擇與提取,得到樣本的特征空間分布,并決定分類器參數(shù)。后一種方式是對待分類樣本進(jìn)行分類決策的過程。
(5)分類器設(shè)計
模式識別研究的主要目的是利用計算機(jī)進(jìn)行模式分類。分類器設(shè)計的基本做法是在樣品訓(xùn)練集的基礎(chǔ)上來確定判別函數(shù)、改進(jìn)判別函數(shù)和誤差檢驗。我們把執(zhí)行模式識別的計算機(jī)系統(tǒng)成為模式識別系統(tǒng)。
3.統(tǒng)計模式識別
統(tǒng)計模式識別(Statistic Pattern Recognition)的基本原理是,相似性高的樣本在模式空間中相互接近,形成“簇”,根據(jù)模式所得的特征向量,判歸所屬類目。統(tǒng)計模式識別的方法有:
(1)貝葉斯決策方法
貝葉斯決策包含三種基本假設(shè):首先是各類別總體的概率分布式已知的,其次是被決策的分類數(shù)是一定的,最后是被識別的事物或?qū)ο笥卸鄠€特征觀測值。運用統(tǒng)計決策理論設(shè)計的分類系統(tǒng)又稱為分類器。分類器的判別準(zhǔn)則有:最小錯誤概率貝葉斯判別準(zhǔn)則、最小風(fēng)險貝葉斯判別和聶曼·皮爾遜判別準(zhǔn)則。
(2)判別函數(shù)法
判別函數(shù)可以是線性的,也可以使非線性的。利用已知類別的訓(xùn)練集,通過統(tǒng)計方法,求得判別函數(shù)的具體形式和參數(shù),求出未知樣本類別。由于該方法無需依賴條件分布密度等先驗知識,因此,在一些場合要比基于貝葉斯公式的概率分類法簡單。
(3)監(jiān)督參數(shù)統(tǒng)計法
包括該方法分為KNN法(K最近鄰法)和Fisher判別分析法。前者的基本原理是將分好類別的訓(xùn)練樣本點映射到多維空間中,建立與待分類的未知樣本對應(yīng)關(guān)系,若近鄰中某一類樣本最多,則將該未知樣本判為該類。該方法的優(yōu)勢在于對數(shù)據(jù)的結(jié)構(gòu)沒有特定要求,也無需訓(xùn)練,缺點在于計算量大。
(4)非監(jiān)督參數(shù)統(tǒng)計法
有基于概率密度函數(shù)估計的直接方法和與樣本空間相似性度量的間接聚類方法。
(5)聚類分析法
該方法是在沒有訓(xùn)練集的情況在,對一批沒有類別劃分的樣本根據(jù)相似度進(jìn)行劃分類屬的方法。通常被稱是一種無教師的非監(jiān)督分類方法。
(6)近鄰函數(shù)法
該方法根據(jù)距離測度,判別樣本的類屬,如基于最近鄰規(guī)范的試探法和最大最小距離法。
4.結(jié)語
模式識別是一個快速發(fā)展的學(xué)科,其在國民經(jīng)濟(jì)和國防現(xiàn)代化建設(shè)中應(yīng)用廣泛。本文圍繞模式識別的一些基礎(chǔ)知識、模式識別系統(tǒng)和統(tǒng)計模式識加以介紹,著重介紹了模式識別系統(tǒng)中的五個組成部分和統(tǒng)計模式識別方法。隨著模式識別理論與技術(shù)的不斷發(fā)展前進(jìn),其應(yīng)用領(lǐng)域和實際需求將會不斷增長。
參考文獻(xiàn):
[1]楊淑瑩.模式識別與智能計算——Matlab技術(shù)實現(xiàn)(第二版)[M].電子工業(yè)出版社,2011.