鄭子賢, 張小涵, 陳 冰, 徐南陽
(合肥工業(yè)大學(xué) 電子科學(xué)與應(yīng)用物理學(xué)院,安徽 合肥 230601)
金剛石的主要化學(xué)成分是碳,同時(shí)包含氮、硅、硼等雜質(zhì),雜質(zhì)的滲入以及多種結(jié)構(gòu)缺陷使得金剛石呈現(xiàn)不同顏色。由于氮原子和碳原子的大小最為接近,容易進(jìn)入晶格,因此天然金剛石中摻雜濃度最高的一般是氮元素。金剛石氮-空位(nitrogen-vacancy,NV)色心就是金剛石中由氮原子形成的晶體缺陷,在金剛石中,若1個(gè)碳原子被1個(gè)氮原子替代并且相鄰位置的碳原子缺失形成空穴,則構(gòu)成1個(gè)NV色心。金剛石NV色心具有熒光穩(wěn)定性好、熒光強(qiáng)度高,其中的電子自旋相干時(shí)間較長(zhǎng),同時(shí)易于實(shí)現(xiàn)微波操控和光學(xué)激發(fā)等優(yōu)良特性,這使得金剛石NV色心被廣泛應(yīng)用于量子技術(shù)領(lǐng)域。
本文實(shí)驗(yàn)采用的系統(tǒng)結(jié)構(gòu)如圖1所示。在真實(shí)的實(shí)驗(yàn)場(chǎng)景下,掃描到的數(shù)據(jù)是金剛石某區(qū)域的單光子計(jì)數(shù)率矩陣,本文把計(jì)數(shù)率矩陣轉(zhuǎn)化為灰度圖。由于實(shí)驗(yàn)中不可避免地存在噪音和干擾,色心圖中會(huì)存在由這些干擾產(chǎn)生的亮斑,加大了NV色心識(shí)別的難度;目前的目標(biāo)檢測(cè)模型對(duì)于大目標(biāo)檢測(cè)的效果比小目標(biāo)要好,而對(duì)于NV色心圖,大部分NV色心目標(biāo)相對(duì)于圖片尺度都是比較小的目標(biāo),同樣不利于色心目標(biāo)的檢測(cè)。目前的實(shí)驗(yàn)平臺(tái)識(shí)別NV色心主要依賴于實(shí)驗(yàn)人員以往的經(jīng)驗(yàn),再借助光探測(cè)磁共振(optically detected magnetic resonance,ODMR)實(shí)驗(yàn)來確認(rèn)是否為NV色心,存在識(shí)別速度慢、誤識(shí)別率高等問題。
圖1 系統(tǒng)結(jié)構(gòu)圖
近年來,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用在圖像相關(guān)領(lǐng)域[1-4]。目前基于卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法主要有2類:① 基于候選框提取的兩階段(two stages)算法,主要由文獻(xiàn)[5]的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(region-based convolutional neural network, R-CNN)模型發(fā)展而來,包括進(jìn)一步改進(jìn)的空間金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling in deep convolutional networks for visual recognition, SPP-Net)[6]、Fast R-CNN[7]、Faster R-CNN[8]等模型,這些模型網(wǎng)絡(luò)相對(duì)復(fù)雜、運(yùn)行速度慢,但是網(wǎng)絡(luò)精度高;② 直接回歸的一階段(one stage)目標(biāo)檢測(cè)算法,主要是YOLO[9]及其改進(jìn)的模型,以及SSD(single shot multiBox detector)模型[10],和兩階段算法相比,一階段算法模型結(jié)構(gòu)簡(jiǎn)單、容易訓(xùn)練,在獲得檢測(cè)速度提升的情況下依然能夠保持比較高的識(shí)別率。
本文在以上目標(biāo)識(shí)別方法的基礎(chǔ)上,針對(duì)金剛石NV色心圖噪音大、色心目標(biāo)較小的特點(diǎn),提出金剛石NV色心自動(dòng)識(shí)別框架,可以快速、準(zhǔn)確地對(duì)色心目標(biāo)進(jìn)行自動(dòng)識(shí)別,大大提高了實(shí)驗(yàn)效率。
本文采用的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)見表1所列。表1中Conv×2表示完全一樣的卷積層堆疊2次。網(wǎng)絡(luò)在AlexNet[11]和VGGNet[12-13]的基礎(chǔ)上作出改進(jìn)。整個(gè)網(wǎng)絡(luò)包含8個(gè)階段(又稱block)的特征提取過程,8個(gè)block逐層堆疊形成整個(gè)特征提取網(wǎng)絡(luò),即每個(gè)block的第1層卷積層的輸入是前一個(gè)block最終的輸出,當(dāng)前block最后一層的輸出為下一個(gè)block的輸入。每個(gè)階段會(huì)輸出相應(yīng)的特征提取結(jié)果,由于金剛石NV色心圖被縮放至300×300大小作為網(wǎng)絡(luò)的輸入,經(jīng)過每個(gè)階段的特征提取后,特征圖尺度分別為150×150、75×75、38×38、19×19、10×10、5×5、3×3、1×1。
表1 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
注:填充取值為1表示在輸入特征圖周圍填充1個(gè)像素點(diǎn)的值,取值為0表示不作填充。
對(duì)于block設(shè)計(jì),本文采用的卷積核有2種尺度,即1×1和3×3。與更大尺度的卷積核相比,如5×5、7×7,在相同感受野的情況下,3×3卷積核具有更少的網(wǎng)絡(luò)參數(shù)以及更多的非線性表達(dá)。網(wǎng)絡(luò)參數(shù)更少意味著模型更容易訓(xùn)練并且降低了過擬合的風(fēng)險(xiǎn),更多的非線性表達(dá)則提高了模型的表達(dá)能力。
此外,使用1×1卷積核可以大大降低模型運(yùn)算量,如圖2所示。圖2中,W、H、C分別表示特征圖的寬度、高度、通道數(shù),w、h分別表示濾波器的寬度、高度。圖2a所示為沒有使用1×1卷積核的2層網(wǎng)絡(luò),圖2b所示為使用了1×1卷積核的2層網(wǎng)絡(luò)。圖2a網(wǎng)絡(luò)和圖2b網(wǎng)絡(luò)的輸入、輸出完全一致,但不同的是,圖2a網(wǎng)絡(luò)乘法運(yùn)算量為W2H2C2whC1,圖2b網(wǎng)絡(luò)乘法運(yùn)算量為W1H1C12+W2H2C2whC12。
在圖2b網(wǎng)絡(luò)乘法運(yùn)算量中,通常后項(xiàng)遠(yuǎn)大于前項(xiàng),因此,圖2b網(wǎng)絡(luò)與圖2a網(wǎng)絡(luò)的運(yùn)算量比值為:
在基礎(chǔ)網(wǎng)絡(luò)設(shè)計(jì)中,本文通過控制C12=0.5C1,大大降低了模型運(yùn)算量。
圖2 通道降維
金剛石NV色心目標(biāo)比較小,對(duì)于1.1節(jié)中的特征提取網(wǎng)絡(luò),本文除了在最終的特征圖上預(yù)測(cè)目標(biāo)位置和類別概率,還采用多尺度檢測(cè)的思路以提高模型對(duì)色心目標(biāo)的檢出能力,如圖3所示。圖3a所示為僅使用最終輸出的特征圖預(yù)測(cè),此時(shí)的特征圖語義信息豐富,但是特征圖尺度小,會(huì)丟失大量的位置信息,不利于預(yù)測(cè)金剛石NV色心的位置。而在圖3b中,模型在多個(gè)尺度的輸出特征圖上進(jìn)行預(yù)測(cè),和高層的特征圖相比,淺層的特征圖會(huì)更多地包含色心目標(biāo)的位置信息,這會(huì)提高模型對(duì)金剛石NV色心位置的預(yù)測(cè)能力。本文在block4、block5、block6、block7、block8等5個(gè)尺度的特征圖上進(jìn)行預(yù)測(cè)。
圖3 多尺度檢測(cè)
本文在模型中引入了先驗(yàn)框的概念,即在block4~block8模塊的輸出特征圖上,每個(gè)特征點(diǎn)對(duì)應(yīng)9種不同的先驗(yàn)框(包含了3種尺度和3種比例)。模型預(yù)測(cè)的是每個(gè)先驗(yàn)框區(qū)域的二分類概率分布和對(duì)先驗(yàn)框位置參數(shù)x、y、w、h的修正。其中,x、y為邊框中心點(diǎn)坐標(biāo);w、h分別為邊框的寬和高。因此,每個(gè)特征點(diǎn)對(duì)應(yīng)的輸出通道數(shù)為9×(2+4)=54。最后,模型通過非極大值抑制去除重復(fù)邊框,再把屬于金剛石NV色心的概率小于0.5的邊框去除,得到最終預(yù)測(cè)結(jié)果。
本文采用的NV色心數(shù)據(jù)集都是來自量子實(shí)驗(yàn)平臺(tái)對(duì)金剛石的掃描結(jié)果,從實(shí)驗(yàn)平臺(tái)得到的數(shù)據(jù)是某個(gè)區(qū)域的計(jì)數(shù)率,在數(shù)據(jù)預(yù)處理階段,本文把大于255的計(jì)數(shù)率置為255,從而得到灰度圖作為輸入圖片。實(shí)驗(yàn)共收集了100張金剛石NV色心圖片,其中70%作為訓(xùn)練集,30%作為測(cè)試集。
模型的損失函數(shù)包含2個(gè)部分:① 先驗(yàn)框中包含目標(biāo)的分類損失;② 先驗(yàn)框相對(duì)于真實(shí)邊框位置的偏移形成的回歸損失。對(duì)于一個(gè)先驗(yàn)框P,對(duì)應(yīng)的真實(shí)邊框?yàn)镚,其類別為y∈{0,1},模型預(yù)測(cè)P的概率分布為f(P),P相對(duì)于G的偏移量為t=t(P,G),模型預(yù)測(cè)P的偏移量為g(P),則模型的損失函數(shù)為:
L(y,t,f(P),g(P))=Lcls(y,f(P))+λ[y≠0]Lloc(t,g(P))。
其中,Lcls為候選框的分類損失;Lloc為候選框的回歸損失;λ為分類損失和回歸損之間的平衡因子,本文取λ=1;[y≠0]表示只有類別為色心的先驗(yàn)框才計(jì)算回歸損失,其表達(dá)式為:
對(duì)于分類損失,本文選擇交叉熵?fù)p失函數(shù);對(duì)于回歸損失,模型不是直接輸出修正后的邊框,而是會(huì)對(duì)先驗(yàn)框的偏移量t進(jìn)行建模。對(duì)于先驗(yàn)框P=(Px,Py,Pw,Ph)以及P對(duì)應(yīng)的真實(shí)邊框G=(Gx,Gy,Gw,Gh),兩者的偏移量為t=(tx,ty,tw,th)。其中,tx=(Gx-Px)/Px;ty=(Gy-Py)/Py;tw=lb(Gw/Pw);th=lb(Gh/Ph)。
模型會(huì)輸出對(duì)偏移量的預(yù)測(cè)值g(P)=(gx(P),gy(P),gw(P),gh(P))。因此,對(duì)于g(P)和回歸目標(biāo)t,本文采用smoothL1函數(shù)計(jì)算回歸損失,即
其中
采用Adam[14]的方法進(jìn)行參數(shù)優(yōu)化,Adam優(yōu)化器的參數(shù)δ1、δ2為指數(shù)衰減因子,本文設(shè)置δ1=0.9,δ2=0.999,模型沒有進(jìn)行預(yù)訓(xùn)練,而是直接隨機(jī)初始化參數(shù)。優(yōu)化目標(biāo)在損失函數(shù)的基礎(chǔ)上加入L2正則化,即所有參數(shù)的均方和,正則化的平衡因子為0.000 4。初始化學(xué)習(xí)率為0.01,在整個(gè)模型收斂過程中,學(xué)習(xí)率按照指數(shù)方式衰減。
首先在測(cè)試集上運(yùn)行模型,會(huì)輸出一系列邊框以及對(duì)應(yīng)的概率分布,當(dāng)邊框區(qū)域?yàn)樯牡母怕蚀笥谀硞€(gè)概率閾值時(shí)認(rèn)為該邊框?yàn)樯摹T诟怕书撝禐?.5時(shí)3張圖片的識(shí)別結(jié)果如圖4所示。
從圖4可以看出,對(duì)于不同目標(biāo)數(shù)量和噪音大小,模型基本能夠準(zhǔn)確識(shí)別出金剛石NV色心目標(biāo)。
圖4 概率閾值為0.5時(shí)3張圖片的識(shí)別結(jié)果
本文測(cè)試了在不同的概率閾值下,模型的召回率、準(zhǔn)確率及F1值,結(jié)果如圖5所示。
隨著概率閾值的提高,模型的召回率下降,準(zhǔn)確率上升,F1值先上升再下降;當(dāng)概率閾值選擇0.072時(shí),模型的召回率與準(zhǔn)確率相等,此時(shí)F1值最大,為95.5%;通常選擇概率閾值為0.5,此時(shí)召回率為93.7%,準(zhǔn)確率為97.3%,F1值為95.5%。
在測(cè)試集上對(duì)模型的性能進(jìn)行綜合評(píng)估,包括目標(biāo)的召回率、準(zhǔn)確率和平均準(zhǔn)確率3個(gè)評(píng)價(jià)指標(biāo)。模型會(huì)輸出大量的邊框和對(duì)應(yīng)概率,然后根據(jù)交并比閾值和圖片真實(shí)的邊框進(jìn)行匹配,最后計(jì)算模型的性能指標(biāo)。
不同交并比閾值時(shí)的準(zhǔn)確率-召回率曲線如圖6所示。
圖6 不同交并比閾值下準(zhǔn)確率-召回率曲線
從圖6可以看出:
(1) 對(duì)于任意一條曲線,隨著召回率的提高,模型的準(zhǔn)確率都會(huì)下降;反之亦然。其原因在于計(jì)算準(zhǔn)確率-召回率曲線時(shí),會(huì)依次選擇不同的概率閾值,為色心的概率大于這個(gè)閾值的邊框預(yù)測(cè)為正例,隨著閾值的降低,更多的邊框被預(yù)測(cè)為包含色心,因此總能包含更多的真實(shí)色心目標(biāo),即召回率升高,但是會(huì)造成預(yù)測(cè)為色心的邊框中其實(shí)不是色心,即準(zhǔn)確率下降。
(2) 在交并比閾值取0.5、0.6或0.7時(shí),模型能夠同時(shí)具有較好的準(zhǔn)確率和召回率,原因在于交并比閾值低意味著邊框的匹配條件更寬松,因此召回率和準(zhǔn)確率會(huì)更高;相反,在閾值取0.8或者0.9時(shí),模型的準(zhǔn)確率和召回率都迅速下降。
模型的平均準(zhǔn)確率隨交并比閾值的變化情況如圖7所示。從圖7可以看出,在閾值相對(duì)較低時(shí),平均準(zhǔn)確率接近于100%,隨著閾值升高到1.0,平均準(zhǔn)確率逐漸降低到0。通常選擇閾值為0.5,此時(shí)模型的平均準(zhǔn)確率為96.49%,表明模型完全能夠兼顧準(zhǔn)確率和召回率,具有較高的檢出率以及很低的誤檢概率。
圖7 平均準(zhǔn)確率隨交并比閾值變化曲線
本文針對(duì)金剛石NV色心目標(biāo)自身噪音大、目標(biāo)小等特點(diǎn),使用卷積神經(jīng)網(wǎng)絡(luò)的方法,設(shè)計(jì)并搭建基礎(chǔ)卷積網(wǎng)絡(luò)進(jìn)行特征提取,設(shè)計(jì)多任務(wù)損失函數(shù)并進(jìn)行模型參數(shù)優(yōu)化,最終實(shí)現(xiàn)了金剛石NV色心目標(biāo)的自動(dòng)識(shí)別。實(shí)驗(yàn)結(jié)果表明,模型具有較高的召回率和準(zhǔn)確率以及平均準(zhǔn)確率,這表明模型能夠準(zhǔn)確區(qū)分金剛石NV色心目標(biāo)和噪音,與人工進(jìn)行色心識(shí)別相比,大大提高了識(shí)別效果,提升了實(shí)驗(yàn)效率。
在量子實(shí)驗(yàn)平臺(tái)上噪音受多種因素影響且無法完全避免,得到的色心圖也多種多樣,這對(duì)目標(biāo)檢測(cè)模型提出了更高的要求。本文需要進(jìn)一步提升在各種噪音干擾情況下模型的適用性和健壯性,同時(shí)提高模型檢測(cè)的速率,與原有平臺(tái)軟件進(jìn)行整合,將識(shí)別算法與ODMR物理驗(yàn)證實(shí)驗(yàn)相結(jié)合,最終實(shí)現(xiàn)金剛石NV色心的在線自動(dòng)識(shí)別。