徐詠,黃文海,黃波,王揚(yáng)棟,黃麗林,楊程鈞
(河池學(xué)院 人工智能與制造學(xué)院,廣西 河池 546300)
傳統(tǒng)的實(shí)驗(yàn)設(shè)備識(shí)別和管理只能對(duì)特定的標(biāo)簽進(jìn)行識(shí)別,即在每樣實(shí)驗(yàn)設(shè)備上標(biāo)記條形碼或二維碼,通過(guò)掃碼器對(duì)設(shè)備的條形碼或者二維碼進(jìn)行出庫(kù)入庫(kù)操作[1-2],而且沒(méi)有一個(gè)較為精確的物品定位功能,也沒(méi)有容錯(cuò)機(jī)制,若是設(shè)備找不到,只能通過(guò)實(shí)驗(yàn)室管理員到現(xiàn)場(chǎng)查找。在科技不斷發(fā)展的今天,基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)為解決實(shí)驗(yàn)室設(shè)備管理問(wèn)題提供了方向,但目前國(guó)內(nèi)將這項(xiàng)技術(shù)應(yīng)用于實(shí)驗(yàn)室設(shè)備識(shí)別和管理方面的研究和應(yīng)用還較少。為了解決實(shí)驗(yàn)室設(shè)備管理及其圖像識(shí)別問(wèn)題,本文回顧和分析深度學(xué)習(xí)在圖片識(shí)別方面突出的成果及其發(fā)展趨勢(shì),并對(duì)其在實(shí)驗(yàn)室設(shè)備管理方向的未來(lái)應(yīng)用進(jìn)行展望。
從1924年心理學(xué)家McCulloch和Pitts提出MP神經(jīng)元模型到Rosenblatt將單層感知器網(wǎng)絡(luò)模型應(yīng)用于實(shí)踐,再到2006年深度學(xué)習(xí)之父Hinton教授提出的深度學(xué)習(xí)這一概念之后[3],深度學(xué)習(xí)經(jīng)過(guò)十幾年的快速發(fā)展,當(dāng)今最受歡迎的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)CNN、深度自動(dòng)編碼器網(wǎng)絡(luò)DAN、生成式對(duì)抗網(wǎng)絡(luò)GAN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和深度信念網(wǎng)絡(luò)DBN等[4-5]。目前,深度學(xué)習(xí)在圖像進(jìn)行識(shí)別領(lǐng)域已經(jīng)有了較為廣泛的應(yīng)用,如人臉識(shí)別、車(chē)牌識(shí)別和手勢(shì)識(shí)別等。這些領(lǐng)域的實(shí)際應(yīng)用給實(shí)驗(yàn)室設(shè)備的管理者提供了許多可以借鑒的經(jīng)驗(yàn),但是將圖像識(shí)別技術(shù)應(yīng)用于實(shí)驗(yàn)室設(shè)備管理還存在以下難點(diǎn):
首先,目前深度學(xué)習(xí)技術(shù)大部分采用有監(jiān)督訓(xùn)練方式,但是實(shí)驗(yàn)室設(shè)備種類(lèi)多,更新快,導(dǎo)致將所有收集到的圖片都進(jìn)行標(biāo)注的工作變得非常繁瑣,這樣使得有監(jiān)督的訓(xùn)練模型難以實(shí)現(xiàn)。
其次,深度學(xué)習(xí)的設(shè)備圖像識(shí)別技術(shù),需要有龐大的訓(xùn)練集進(jìn)行訓(xùn)練,才能精確的分辨外形相似的設(shè)備以及定位設(shè)備位置,但由于實(shí)驗(yàn)室設(shè)備有種類(lèi)繁多,更新速度快等特點(diǎn),這使得很難在實(shí)驗(yàn)設(shè)備入庫(kù)之初就采集到足夠的樣本訓(xùn)練集,存在訓(xùn)練樣本數(shù)量不足的問(wèn)題。
無(wú)監(jiān)督學(xué)習(xí)是指計(jì)算機(jī)在沒(méi)有樣本標(biāo)簽和標(biāo)號(hào)監(jiān)督的情況下進(jìn)行學(xué)習(xí)的過(guò)程,在廣義上分為自由組織學(xué)習(xí)與強(qiáng)化學(xué)習(xí)。在實(shí)際任務(wù)中,標(biāo)記數(shù)據(jù)集耗費(fèi)很高的人力和時(shí)間,無(wú)監(jiān)督學(xué)習(xí)利用大量未標(biāo)記的數(shù)據(jù)集來(lái)滿足機(jī)器學(xué)習(xí)的訓(xùn)練量要求,故無(wú)監(jiān)督學(xué)習(xí)的主要研究方向是如何利用好未標(biāo)記的數(shù)據(jù)。其中自由組織學(xué)習(xí)是利用競(jìng)爭(zhēng)性學(xué)習(xí)規(guī)則[11],網(wǎng)絡(luò)化表達(dá)質(zhì)量的任務(wù)度量,對(duì)那些正確的行為作出激勵(lì),對(duì)那些錯(cuò)誤的行為進(jìn)行抑制,讓機(jī)器在這個(gè)過(guò)程中不斷根據(jù)這個(gè)度量來(lái)優(yōu)化自己的網(wǎng)絡(luò)。強(qiáng)化學(xué)習(xí)的目的是將代價(jià)函數(shù)最小化,通過(guò)一些隨機(jī)信息進(jìn)行學(xué)習(xí),做出最佳的行動(dòng),以獲得最多的獎(jiǎng)勵(lì),但存在機(jī)器所做出的反應(yīng)不僅會(huì)對(duì)目前的獎(jiǎng)勵(lì)產(chǎn)生影響,還會(huì)對(duì)隨后的動(dòng)作和一系列的獎(jiǎng)勵(lì)產(chǎn)生影響。
在圖像領(lǐng)域,通過(guò)引入了對(duì)偶學(xué)習(xí),利用任務(wù)之間的反饋信息,就能克服模型對(duì)數(shù)據(jù)的依賴問(wèn)題。例如Van Tulder等人的無(wú)監(jiān)督深度學(xué)習(xí)模型玻爾茲曼機(jī)和Chen等人的對(duì)偶TriNet網(wǎng)絡(luò)[6-7],但是目前只能應(yīng)用于樣本較為簡(jiǎn)單的模型??梢?jiàn),結(jié)合對(duì)偶學(xué)習(xí)等技術(shù)采用無(wú)監(jiān)督學(xué)習(xí)的圖像識(shí)別技術(shù)可解決實(shí)驗(yàn)室設(shè)備圖像識(shí)別標(biāo)注繁瑣的問(wèn)題。
目前,在深度學(xué)習(xí)中針對(duì)訓(xùn)練樣本數(shù)量不足問(wèn)題,常采用遷移學(xué)習(xí)和元學(xué)習(xí)方法解決。常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)樣本學(xué)習(xí)模式,致力于解決樣本不足而導(dǎo)致模型過(guò)擬合等問(wèn)題,簡(jiǎn)單的數(shù)據(jù)增強(qiáng)與正則化方式可以緩解,但是并無(wú)法缺少樣本導(dǎo)致識(shí)別率低的問(wèn)題。通過(guò)特征提取技術(shù)可以有效提高小樣本下的圖像識(shí)別率,利用注意力機(jī)制與記憶力機(jī)制[7],設(shè)計(jì)特征提取網(wǎng)路和分類(lèi)器之間的映射關(guān)系,建立適應(yīng)數(shù)據(jù)分布的特征提取模型。
遷移學(xué)習(xí)使卷積神經(jīng)網(wǎng)絡(luò)適應(yīng)小樣本數(shù)據(jù),降低了參數(shù)和特征提取的消耗,直接遷移已經(jīng)尋找到的具有相同特征的基類(lèi)模型數(shù)據(jù)到新類(lèi)模型,目前常用的遷移學(xué)習(xí)方法包括基于特征的、基于樣本的、基于模型的和基于關(guān)系的。
基于特征的遷移學(xué)習(xí)由Chen等人在2019年提出[8],首先進(jìn)行數(shù)據(jù)增強(qiáng),提取和分類(lèi)基類(lèi)數(shù)據(jù)的特征,通過(guò)共同特征訓(xùn)練實(shí)現(xiàn)一個(gè)可用在基類(lèi)數(shù)據(jù)與新類(lèi)數(shù)據(jù)的分類(lèi)器,最終實(shí)現(xiàn)將源域和目標(biāo)域的特征變換到同一個(gè)空間。基于樣本的遷移學(xué)習(xí),其樣本遷移對(duì)象包括源域和目標(biāo)域,對(duì)象中樣本相似度高的權(quán)重值給予高,相似度低的權(quán)重值給予低?;谀P偷倪w移學(xué)習(xí),也叫基于參數(shù)共享的遷移學(xué)習(xí),由于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以直接遷移,因此其應(yīng)用廣泛,例如最經(jīng)典的finetune、Oquab等人的微調(diào)策略和Qiao等人的激活功能層預(yù)測(cè)分類(lèi)參數(shù)算法等[9-10]。基于關(guān)系的遷移學(xué)習(xí)比較關(guān)注目標(biāo)域和源域之間的關(guān)系,其方法思路與其他方法截然不同,Hinton的知識(shí)蒸餾概念是用小網(wǎng)絡(luò)模擬大網(wǎng)絡(luò)[11],之后Kimura等人提出不同的提煉方法豐富和發(fā)展知識(shí)蒸餾[12]。
元學(xué)習(xí)是一種模仿人類(lèi)學(xué)習(xí)模式的機(jī)器學(xué)習(xí)方法,早在1985年John Biggs將元學(xué)習(xí)定義為“了解并控制自身學(xué)習(xí)”。一般的元學(xué)習(xí)就是獲取知識(shí)多功能性的能力,利用元學(xué)習(xí),可以讓機(jī)器通過(guò)學(xué)習(xí)獲得學(xué)習(xí)經(jīng)驗(yàn),再利用這些經(jīng)驗(yàn)來(lái)評(píng)估最終的目標(biāo)任務(wù)。不同的元學(xué)習(xí)模型采用不同的技術(shù),目前的常見(jiàn)的元學(xué)習(xí)類(lèi)型有:基于度量的元學(xué)習(xí)、基于循環(huán)模型的元學(xué)習(xí)、基于優(yōu)化器的元學(xué)習(xí)和基于小樣本的元學(xué)習(xí)。
基于度量的元學(xué)習(xí)是為了實(shí)現(xiàn)一個(gè)高效學(xué)習(xí)度量空間,2015年Koch等人提出了一種用于字符識(shí)別的深卷積孿生網(wǎng)絡(luò)[13],將度量元學(xué)習(xí)應(yīng)用于分類(lèi)問(wèn)題。2018年,Bartunov等人設(shè)計(jì)了一種比余弦距離計(jì)算復(fù)雜度更高的生成性匹配網(wǎng)絡(luò)GMN[14],實(shí)現(xiàn)了快速?gòu)男?shù)據(jù)集學(xué)習(xí)新概念,不僅可以提高圖像特征的表示能力,而且可以提高圖像的多樣性,同時(shí)也探討了范疇之間的關(guān)系?;谘h(huán)模型的元學(xué)習(xí)適用于RNNs,算法將訓(xùn)練RNN模型依次處理先前的數(shù)據(jù),然后再處理后面的數(shù)據(jù),2019年Ren等人提出的將增量學(xué)習(xí)與元學(xué)習(xí)相結(jié)合的注意吸引網(wǎng)絡(luò)AAN就是這種方法的一個(gè)例子[15]?;趦?yōu)化器的元學(xué)習(xí)是一個(gè)神經(jīng)網(wǎng)絡(luò)將不同的優(yōu)化應(yīng)用于另一個(gè)神經(jīng)網(wǎng)絡(luò),從而優(yōu)化實(shí)現(xiàn)目標(biāo),例如Finn等人提出的模型不可知算法MAML[16]?;谛颖镜脑獙W(xué)習(xí)啟發(fā)了記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)或單樣本生成模型等技術(shù)的產(chǎn)生,核心是創(chuàng)建深層神經(jīng)網(wǎng)絡(luò)從簡(jiǎn)易數(shù)據(jù)中學(xué)習(xí)。
綜上,采用無(wú)監(jiān)督學(xué)習(xí)的圖像識(shí)別技術(shù)可解決設(shè)備圖像識(shí)別標(biāo)注繁瑣問(wèn)題;小樣本學(xué)習(xí)在較為復(fù)雜的場(chǎng)景如人臉識(shí)別和車(chē)輛識(shí)別時(shí),其應(yīng)用效果并不理想,但在模式與背景較為簡(jiǎn)單的分類(lèi)數(shù)據(jù)集上有較好的表現(xiàn)。針對(duì)采用有監(jiān)督的訓(xùn)練模型存在標(biāo)注圖片繁瑣和訓(xùn)練樣本數(shù)量不足的問(wèn)題,本文分析了無(wú)監(jiān)督學(xué)習(xí)與小樣本學(xué)習(xí)的圖像識(shí)別技術(shù)在其他領(lǐng)域的應(yīng)用及特點(diǎn),在目前高校實(shí)驗(yàn)室設(shè)備種類(lèi)多、環(huán)境單一和同類(lèi)型設(shè)備較多情況下,采用無(wú)監(jiān)督學(xué)習(xí)與小樣本學(xué)習(xí)的圖像識(shí)別技術(shù)可應(yīng)用于實(shí)驗(yàn)室設(shè)備圖像識(shí)別,是實(shí)現(xiàn)智能化實(shí)驗(yàn)室設(shè)備管理的突破點(diǎn)。