朱礪博 Arto Kaarna
(拉彭蘭塔理工大學(xué) 芬蘭拉彭蘭塔市 53850)
模式識別是人工智能領(lǐng)域的基礎(chǔ)技術(shù),以尋找數(shù)據(jù)模式作為基本問題,以機器識別和感知為基本結(jié)果。模式識別和機器學(xué)習(xí)作為基本方法在感知數(shù)據(jù)之外的數(shù)據(jù)中也有使用,例如在大量數(shù)據(jù)中搜索信息的數(shù)據(jù)挖掘?qū)W科。近年來隨著計算機技術(shù)的快速發(fā)展和算法技術(shù)的研究,模式識別技術(shù)進入了一個新的高速發(fā)展期。無論是模式識別本身的理論和方法,還是應(yīng)用場景的拓寬,都取得了長足的發(fā)展。
模式識別的基礎(chǔ)理論主要包括特征學(xué)習(xí)、分類器、聚類等,為了達到更好分類的目的,研究目標整體為高效性,魯棒性的改善。
分類器作用是在標記好類別的訓(xùn)練數(shù)據(jù)基礎(chǔ)上判斷一個新的觀察樣本所屬的類別[1]。分類器最熱門的就是現(xiàn)在廣泛使用的深度學(xué)習(xí)算法,在整個人工智能領(lǐng)域都取得了很多應(yīng)用成果,遠超先前相關(guān)技術(shù)。其作為一種模式識別分析手段,包括卷積神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)和無監(jiān)督預(yù)訓(xùn)練三種方法。其中經(jīng)典模型“卷積神經(jīng)網(wǎng)絡(luò)模型”靈感是來自視覺系統(tǒng)的結(jié)構(gòu)。關(guān)于深度學(xué)習(xí)的研究雖然基本理論較為固定,但是一直有著算法性能上的特化和改進,偶爾有優(yōu)化深度學(xué)習(xí)架構(gòu)的嘗試。在深度學(xué)習(xí)架構(gòu)的優(yōu)化中,神經(jīng)網(wǎng)絡(luò)作為一種更加強大的模型,能對更加豐富的函數(shù)簇建模[2]。此外,在深度學(xué)習(xí)大框架模型中,可算性理論研究也很多。這些研究方法有助于提前估算所選擇的具體方法和數(shù)據(jù)范圍,提高了效率。在研究具體問題時,多種分類器合作結(jié)果也是常用的,這種運用方式稱之為集成學(xué)習(xí),其往往也能得到更好的訓(xùn)練結(jié)果[3]。
聚類基本思想是定一個由樣本點組成的數(shù)據(jù)集,通過聚類分成的簇是一組數(shù)據(jù)集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異,其作為簡化計算和加快收斂方式在研究中很常用。廣泛使用的K-均值(K-mean)無監(jiān)督聚類法實現(xiàn)簡單,聚類效果也很好,基本思想就是對于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為K 個簇。讓簇內(nèi)的點盡量緊密的連在一起,而讓簇間的距離盡量的大。另一種聚類方式聚類樹,是將自上而下或自下而上的每個數(shù)據(jù)點視為單一聚類,然后依次合并直到包含一個數(shù)據(jù)點的單一聚類。除此之外還有多種常用聚類模式如均值偏移聚類和高斯混合模型的期望最大化聚類。
聚類方式的發(fā)展研究主要是針對特定訓(xùn)練要求的優(yōu)化和改動從而改善性能。這些熱度不如深度學(xué)習(xí),但是經(jīng)典的方法也一直有少量研究和改進。最近的研究表明K-均值的算法比較穩(wěn)定,偶爾會有性能下降的情況,改進的辦法是重復(fù)優(yōu)化初始化的操作來提高性能并帶來更好的聚類精度[4]。多視圖聚類的思路最近也被提出,通過多視圖聚類可以得到比單視圖聚類更準確的結(jié)果,此方法從2009年提出到現(xiàn)在取得了長足發(fā)展。層次聚類也一直有最新的特化應(yīng)用,如在強調(diào)基于環(huán)境而行動的強化學(xué)習(xí)中,利用蒙特卡洛搜索樹中將樹的返回值帶入根,可以達到降噪和加速收斂的目的[5]。
聚類方法也有一定的局限性,很難在眾多聚類算法中找到較為優(yōu)勢或者說參數(shù)合適的聚類方法。最近新起的集成聚類可以將結(jié)果魯棒性提高,也是一個研究方向?,F(xiàn)在更有數(shù)學(xué)上結(jié)合無限集成聚類的研究,通過將自動編碼器和降噪結(jié)合得到無限聚類下的期望[5]。
模式識別技術(shù)的應(yīng)用領(lǐng)域主要包括計算機視覺,文字識別、語音識別、生物特征識別、醫(yī)學(xué)分析、遙感數(shù)據(jù)分析等。其中計算機視覺是模式識別中較為重要也是最熱門的研究方向,其涉及的內(nèi)容廣泛,問題也很多。模式識別技術(shù)廣泛的應(yīng)用價值受到了人們的極大重視,使用范圍也在不斷擴大。
計算機視覺是視覺是圖像和視頻內(nèi)容在模式識別領(lǐng)域的應(yīng)用,是模式識別技術(shù)最早的研究方向和具體應(yīng)用之一,并且至今仍然是模式識別應(yīng)用研究的主要方向。
物品檢測其中的研究內(nèi)容更是細化,從分類,定位,檢測,分割各方面都有成果和應(yīng)用。作為較為成熟發(fā)展的應(yīng)用方向也已經(jīng)大量商業(yè)化運用,比如網(wǎng)絡(luò)中的以圖搜圖或者以圖識物?,F(xiàn)在物品檢測的研究更多是高壓情況下的識別結(jié)果改善,比如偽裝物體檢測。通常偽裝物體與其背景之間具有高度相似性,因此偽裝物體檢測更具挑戰(zhàn)。在最近研究中,模式識別技術(shù)在物品檢測上甚至已經(jīng)有超越人類的勢頭,一些成熟算法甚至在人眼難以分別的圖像中保持較高的魯棒性[7]。
計算機視覺也為自動駕駛研發(fā)中也有大量應(yīng)用。人群檢測,軌跡規(guī)劃和立體匹配等方面都有計算機視覺的參與。
二維視覺模式識別的長足發(fā)展給三維視覺模式識別打下了堅實的基礎(chǔ)。三維視覺模式識別在特征匹配,相機標定,幾何理論的加持下,已經(jīng)在三維重建領(lǐng)域前進。運動結(jié)構(gòu)恢復(fù)作為流行策略,提供了幾何結(jié)構(gòu)和相機運動的同時估計,在無序圖像中方法能夠推進三維重建。
計算機視覺領(lǐng)域另一個話題就是視頻內(nèi)容的模式識別,其基礎(chǔ)與靜態(tài)圖像相似,但是視頻內(nèi)容作為動態(tài)變化,而且有更可能性要克服模糊,軌跡,形變等問題,從而帶來更多計算壓力。在運用深度卷積網(wǎng)絡(luò)時也利用類似于視頻壓縮帶來非必要幀的放棄和運動補償是加速算法的一種思路[8]。同時大規(guī)模視頻數(shù)據(jù)庫的建立也給視頻內(nèi)容的模式識別提供數(shù)據(jù),但是得注意的是監(jiān)控內(nèi)容與此類數(shù)據(jù)往往質(zhì)量相差甚遠,因為電影電視劇的視頻內(nèi)容一般是不存在畫質(zhì)干擾的,而是有很多非寫實畫面。
文字識別,語音識別和生物識別是方面發(fā)展最快也是較為成熟的三種應(yīng)用方面。文字識別與基本的物品識別的基礎(chǔ)上,除了將文字識別出來,還有字符切割,文本行識別,字符識別等核心問題。同時特殊文本識別如手寫識別,古籍還原等也都要有特向化的技術(shù)改善。
語音識別總體基于隱馬爾可夫模型和統(tǒng)計語言模型的語音識別技術(shù)[9]。除了日常、商務(wù)的使用,在制造業(yè)的控檢,直播和語音消息的內(nèi)容過濾等方面都有參與。消除環(huán)境噪音是語音識別的重要課題之一,特征補償一定程度上對平穩(wěn)噪聲有了適應(yīng)能力,但是對應(yīng)有變化的噪音則效果不佳。13年在深度神經(jīng)網(wǎng)絡(luò)的映射降噪算法下,語音技術(shù)有了較大突破。17年后各大商業(yè)公司的努力下更是構(gòu)成系統(tǒng),運用并行處理的算力解決了例如方言識別等普及方面的問題[10]。生物特征識別技術(shù)從一開始的指紋檢測,到臉部、虹膜、DNA檢測,再到更多的新應(yīng)用場景如眼動,步態(tài),其發(fā)展一直需最關(guān)注的是檢測效率和安全性。
模式識別是一門理論和實踐緊密結(jié)合的學(xué)科,未來幾年發(fā)展主要在于算法的改善、計算機算能的提升和應(yīng)用范圍的擴大。在理論基礎(chǔ)方面,在分類器和聚類都面臨著大數(shù)據(jù)的考驗。在以往研究方向都在提高準確度追求高精度的現(xiàn)狀下,如何將海量,多源,多類型,可靠性不一的數(shù)據(jù)高效統(tǒng)一分析成為關(guān)鍵。與此同時,如何利用好大數(shù)據(jù)帶來的訓(xùn)練集數(shù)量的提升也是關(guān)乎效率的課題。應(yīng)用方面,雖然模式識別技術(shù)已經(jīng)有了不少成果,但是仍然與基礎(chǔ)自然模式識別(人類、動物)能力差距甚大,比如人類通過味覺可以輕易分辨出蘋果和蘋果味道的糖。這其中不僅有味覺這種模式識別沒有觸及的領(lǐng)域,還有多類模式識別結(jié)果綜合的過程。
模式識別技術(shù)大有可為但是暫時發(fā)展不夠的方向就會是近未來發(fā)展的熱門。一是自然語言的理解,當訓(xùn)練模型中句子,段落甚至文章內(nèi)容的理解效果出色,意味著算法改進的達標。二是感情及其波動的識別,不僅包含多種生物特征識別結(jié)果如語音,視覺的綜合技術(shù),更意味著神經(jīng)活動模式的分析與預(yù)測變?yōu)榭赡?。三是醫(yī)學(xué)分析,如果在模型,醫(yī)生和病人之間達到信任,代表著整體模式識別預(yù)測結(jié)果魯棒性的提升。稍加思考可知,模式識別技術(shù)想要長足發(fā)展,不僅在理論上需要不斷完善和改進,仍要與工業(yè),光電領(lǐng)域,生物學(xué)科和其他細節(jié)學(xué)科交叉合作綜合應(yīng)用,只有這樣才能在更多方向的模式識別中有所貢獻。
當然在更未來高度信息化智能化的社會里,模式識別技術(shù)是無處不在的。理論會不斷深入,使用場景會更復(fù)雜,當然也會給模式識別技術(shù)的發(fā)展帶來更多的挑戰(zhàn)和機遇。