王紹清,常方哲,陳 昊,王小令,李雪琦
(中國礦業(yè)大學(xué)(北京) 地球科學(xué)與測繪工程學(xué)院,北京 100083)
中國工程院戰(zhàn)略研究表明,我國煤炭資源總量豐富[1],2050年以前以煤炭為主導(dǎo)的能源結(jié)構(gòu)難以改變[2]。近年來,人工智能作為一門融合多方面知識的交叉學(xué)科,在自動駕駛、語音服務(wù)、人臉識別、地物分類等方方面面影響和改變著人們的生活[3]。人工智能的興起也給煤炭行業(yè)帶來了巨大的影響,在其推動下,煤炭行業(yè)向著網(wǎng)絡(luò)化、機械化、自動化等方向前進,主要表現(xiàn)為:① 儀器儀表性能改進,網(wǎng)絡(luò)化全覆蓋;② 推動自動化的實現(xiàn),提高操作系統(tǒng)精確度;③ 智能監(jiān)測、事故預(yù)防診斷一步到位[4]。在煤炭領(lǐng)域推廣人工智能技術(shù),有助于推動我國煤炭行業(yè)向綠色環(huán)保、智能生產(chǎn)等方面發(fā)展和進步。
煤是非均質(zhì)可燃沉積巖[5],其有機部分化學(xué)組成復(fù)雜,包含芳香族、脂肪族等多種化合物[6],其中芳香族化合物構(gòu)成了煤的基本骨架[7]。深入開展煤化學(xué)結(jié)構(gòu)研究,是煤炭高效清潔利用的重要前提[8-9]。利用高分辨率透射電子顯微鏡(HRTEM)可以檢測出煤的芳香層片結(jié)構(gòu)[10]。到目前為止,對煤HRTEM圖片中提取芳香晶格條紋的方法主要有以下2種:① 依靠人眼識別的人工解譯[11](人工),在識別過程中存在人工解譯慢、周期長和工作量大的問題;② 基于像素級的定量拓?fù)溆嬎?傳統(tǒng)),采用先二值化圖像再進行骨骼化處理[12]。如NIEKERK 和MATHEWS[13]通過ImageJ和Adobe Photoshop等軟件調(diào)整HRTEM圖像的閾值進行圖像二值化,進而人工提取出芳香晶格條紋;YEHLIU等[14]借助圖像處理函數(shù)庫,使用MATLAB語言編寫骨骼化程序,成功提取芳香晶格條紋;康倩楠和張志強[15]利用MATLAB語言開發(fā)了名為VirtualFringe的程序,通過閾值與灰度的調(diào)整、高斯模糊、傅立葉變換、二值化、骨架提取、分枝剪切與修剪等方法,從煤的HRTEM圖像中抽取出芳香晶格條紋。以上傳統(tǒng)方法具有相同的局限性,主要表現(xiàn)為:① 二值化操作會丟失圖像的部分像素信息,降低了數(shù)據(jù)的可靠性;② 通過軟件設(shè)置閾值進行二值化操作,存在著人為主觀性的問題,降低了結(jié)果的可靠性;③ 傳統(tǒng)方法中采用批量提取芳香晶格條紋的核心是骨骼化算法,該算法存在著計算量大、負(fù)荷高、提取結(jié)果的邊緣混亂和堆疊嚴(yán)重等問題。
最近十多年來,人工智能神經(jīng)網(wǎng)絡(luò)的研究已經(jīng)取得了很大的進展,在資源、生物、醫(yī)學(xué)、經(jīng)濟等領(lǐng)域,已成功地解決了許多現(xiàn)代計算機難以解決的實際問題,表現(xiàn)出了良好的智能特性。人工智能神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的圖像處理方法相比,其特點是跳過了各種復(fù)雜的前期預(yù)處理過程,實現(xiàn)端到端的輸入和輸出,避免人為主觀性對識別結(jié)果的影響,保證原始數(shù)據(jù)的可靠性?;诖耍P者將人工智能、計算機圖形學(xué)和煤化學(xué)等學(xué)科進行結(jié)合,通過多學(xué)科、多領(lǐng)域的交叉融合,解決傳統(tǒng)方法識別芳香晶格條紋過程中存在的實際問題。
卷積神經(jīng)網(wǎng)絡(luò)的概念,始于HUBEL和WIESEL[16]提出的感受野(數(shù)字矩陣中的一個數(shù)字所對應(yīng)的原圖中的區(qū)域大小)及FUKUSHIMA[17]提出的神經(jīng)認(rèn)知機。隨后LECUN[18]提出的反向傳播算法推動了卷積神經(jīng)網(wǎng)絡(luò)進一步發(fā)展。但是受當(dāng)時環(huán)境的影響,卷積神經(jīng)網(wǎng)絡(luò)并未進行更深入的普及和發(fā)展。直到2012年,KRIZHEVSKY等[19]提出的AlexNet網(wǎng)絡(luò),在ImageNet競賽上取得冠軍,使得卷積神經(jīng)網(wǎng)絡(luò)再次成為圖像分析的主流。2012年以后,卷積神經(jīng)網(wǎng)絡(luò)開始了家族式的發(fā)展,短時間內(nèi)RCNN[20],F(xiàn)ast RCNN[21],F(xiàn)aster RCNN[22],ResNet[23]到MASK R-CNN[24]相繼被提出。MASK R-CNN是由何凱明等提出的雙步檢測框架,目前在RCNN家族中進化程度最高、性能最優(yōu)。與其他RCNN相比,MASK R-CNN可以在完成語義分割的同時進行實例分割,即MASK R-CNN可以在對物質(zhì)進行分類的同時,分割出該類物質(zhì)的每一個獨立個體。憑借這個優(yōu)勢,MASK R-CNN正在快速應(yīng)用到目標(biāo)識別和檢測分割的各個領(lǐng)域。
數(shù)字圖像由二維的元素組成,每一個元素具有一個特定的位置(x,y)和幅值f(x,y)(可以是多元組,例如RGB圖像是三元組),這些元素稱為像素。圖像卷積的過程是計算每一個像素點的鄰域像素和濾波器矩陣的對應(yīng)元素的乘法再相加,并作為該像素位置的值(圖1),其中的濾波器矩陣被稱為卷積核,濾波器矩陣的對應(yīng)數(shù)值被稱為權(quán)重,卷積核的初始值可以通過人為設(shè)定或者函數(shù)隨機生成。每個卷積核可以提取一種特定的特征,如圖1(a)中以3×3的卷積核計算圖像卷積,所得結(jié)果中矩形對應(yīng)的卷積特征值較大,因此對比于三角形和圓形,該卷積核的權(quán)重更適合提取矩形特征。圖像卷積能夠提取出超越人腦理解的圖像特征,圖1(b)展示了高變質(zhì)煤HRTEM圖像的像素特征,其中紅藍條紋的區(qū)間即為芳香晶格條紋,表現(xiàn)為前景像素值穩(wěn)定、與背景值差別較大、條狀特征明顯,因此適合進行卷積特征提取。
圖1 圖像卷積提取特征Fig.1 Image convolution to extract features
1.2.1卷積——提取圖像特征
圖像由背景和前景組成,前景分為多個目標(biāo),每一個目標(biāo)包含多個圖像特征。一般認(rèn)為圖像的空間聯(lián)系中局部的像素聯(lián)系比較密切,而距離較遠的像素相關(guān)性較弱,因此,每個卷積核只能對局部進行感知,然后在更高層通過全連接將局部的特征綜合起來得到全局的分類信息。在圖像特征提取的過程中,計算機依靠反饋神經(jīng)網(wǎng)絡(luò)自動調(diào)整卷積核的權(quán)值,經(jīng)過大量的測試和驗證,可以找到最能表現(xiàn)圖像特征的卷積核權(quán)值(卷積層輸出值最高)。
1.2.2池化——分離主要特征
卷積層從圖像中提取特征,卷積核越多則權(quán)重參數(shù)越多。池化層可以減少參數(shù)的數(shù)量,僅保留最有用的圖像信息,如圖2所示。
圖2 池化示意Fig.2 Schematic diagram of pooling
1.2.3全連接——局部特征全連接構(gòu)建分類器
將某一目標(biāo)對應(yīng)的全部卷積核所計算的卷積特征值連接起來作為該目標(biāo)的分類器,如圖3所示,分別連接S2:feature maps中所有表示矩形、三角形和圓形的卷積特征值部分(120個卷積核),形成矩形、三角形和圓形的3個分類器。根據(jù)以上3個目標(biāo)的特征值分類器,可以實現(xiàn)在各種圖像中識別出矩形、三角形和圓形的功能。
MASK R-CNN是一個2階段的識別框架,包括:① 掃描圖像并生成候選框(Proposals);② 對proposals分類(Classes)和邊框回歸(Bounding boxes)并生成掩膜(mask)。
MASK R-CNN的訓(xùn)練流程如圖4所示,該網(wǎng)絡(luò)在主干結(jié)構(gòu)(Backbone)中實現(xiàn)卷積特征提取(Feature maps)以及特征金字塔(FPN)融合,在區(qū)域生成網(wǎng)絡(luò)(RPN)中生成Proposals,隨后進入池化層(ROI align)進行池化(Pooling),池化結(jié)果分成2條并行的線路進入頂端(Head)部分:① 分別通過Bounding boxes和Classes,實現(xiàn)邊框回歸和多元分類(softmax算法);② 在掩膜分支(Mask branch)中反卷積出與class結(jié)果大小相同的Mask。MASK R-CNN的網(wǎng)絡(luò)流如圖5所示,其具體流程為:
圖3 卷積網(wǎng)絡(luò)提取特征示意Fig.3 Schematic diagram of feature extraction by convolutional network
圖4 MASK R-CNN訓(xùn)練流程示意Fig.4 Schematic diagram of the training process of MASK R-CNN
圖5 MASK R-CNN網(wǎng)絡(luò)流程Fig.5 Network flow chart of MASK R-CNN
訓(xùn)練樣本在backbone的ResNet101進行卷積特征提取。ResNet101網(wǎng)絡(luò)包括第1卷積層、第2卷積層、第3卷積層、第4卷積層和第5卷積層,樣本在每一層經(jīng)過卷積(Convolution)、正則化(BN)、激活函數(shù)(RELU)3步提取特征,獲得不同尺度的Feature maps:[C1,C2,C3,C4,C5]進入FPN網(wǎng)絡(luò)。FPN網(wǎng)絡(luò)利用[C2,C3,C4,C5]建立特征圖金字塔,通過卷積、池化、融合等操作獲得各尺度融合后的Feature maps:[P2,P3,P4,P5,P6],其中P6是將P5按一定步長進行最大池化操作得到的。Feature maps:[P2,P3,P4,P5,P6]進入RPN網(wǎng)絡(luò),為了提取Proposals對Feature maps:[P2,P3,P4,P5,P6]的每一個像素點,按一定的大小和長寬比生成9個的錨點(Anchor)。分別計算每個Anchor為前景的得分或為背景的得分(分類),以及Anchor與真實框(Ground truth)之間的偏移量(回歸)。根據(jù)RPN網(wǎng)絡(luò)的損失函數(shù)(Softmax分類函數(shù)的交叉熵?fù)p失函數(shù)和Bounding boxes回歸算法的SmoothL1Loss損失函數(shù))計算分類得分和回歸偏移量的損失值(Loss)。根據(jù)損失函數(shù)求導(dǎo)后的結(jié)果,指導(dǎo)下一次分類和回歸的參數(shù)更新,即通過更新權(quán)重實現(xiàn)反向傳播。經(jīng)過無數(shù)次的反向傳播,逐漸擬合到分類和回歸的最優(yōu)Proposals,同時得到最優(yōu)的權(quán)重參數(shù)模型。在ROI align layer網(wǎng)絡(luò)中將Proposals進行Align pooling,映射成固定大小的Feature maps,且每個像素點保持準(zhǔn)確的坐標(biāo)。最后Feature maps并行進入2條路線,一條進行最終檢測的Classes和Bounding boxes,另一條經(jīng)過FCN網(wǎng)絡(luò)中將特征映射到與原始圖片大小相同,輸出Mask結(jié)果。
圖5參數(shù)的說明:
(1)Backbone:用于提取圖像Feature maps的一系列卷積層。MASK R-CNN包含ResNet50和ResNet101兩種結(jié)構(gòu),訓(xùn)練過程中選擇的是ResNet101結(jié)構(gòu)。
(2)ResNet:殘差網(wǎng)絡(luò),是以跳躍連接的方式,將前若干層的輸出結(jié)果作為后面數(shù)據(jù)層的輸入數(shù)據(jù)的結(jié)構(gòu),可以加速提取Feature maps。
(3)Feature Pyramid Networks:特征金字塔網(wǎng)絡(luò)簡稱FPN,包含縱向路徑和橫向路徑??v向路徑的其中一條是自下而上的卷積路徑,F(xiàn)eature maps在該路徑上經(jīng)過卷積核的計算,通常會越變越小;另一條是自上而下的池化路徑,把更抽象、語義更強的高層特征圖進行上采樣;并通過橫向路徑連接至前一層特征,使每一層的Feature map都融合不同分辨率、不同語義強度的特征。
(4)Region Proposal Network:區(qū)域生成網(wǎng)絡(luò)簡稱RPN,是通過前景、背景分類和邊框回歸,進行候選框提取的網(wǎng)絡(luò)。
(5)ROI Align layer:通過雙線性插值的方法,將像素點上的坐標(biāo)精度,提高到浮點數(shù)級別的池化網(wǎng)絡(luò)。
(6)Fully Convolution Network:全卷積網(wǎng)絡(luò)簡稱FCN。通過反向卷積(Deconvolution),將最后一層的Feature map進行上采樣,得到與原圖大小一致的熱圖(Heatmap),即每個位置輸出該點所對應(yīng)的類別概率。
(7)Head:包括目標(biāo)檢測最終的Classes,Bounding Boxes和通過FCN生成的與Class結(jié)果大小相同的mask。
混淆矩陣是一種評價分類型模型最直觀的方法。通過混淆矩陣可以計算準(zhǔn)確率(A)、精準(zhǔn)率(P)、召回率(R)和交并比(I)等指標(biāo)。評價指標(biāo)的數(shù)值越大,模型的精度越高。混淆矩陣如圖6所示,混淆矩陣計算原理如圖7所示。
圖6 預(yù)測結(jié)果與真實結(jié)果的混淆矩陣Fig.6 Confusion matrix of predicted results and real results
圖7 混淆矩陣計算原理Fig.7 Calculation principle of confusion matrix
各指標(biāo)計算公式為
A=(TP+TN)/(FP+TP+FN+TN)
(1)
P=TP/(TP+FP)
(2)
R=TP/(TP+FN)
(3)
I=TP/(TP+FP+FN)
(4)
MASK R-CNN識別芳香晶格條紋的過程,包含樣本制作、模型訓(xùn)練、精度評價和結(jié)果對比4部分。整個過程的流程如圖8所示。
圖8 芳香晶格條紋識別對比流程Fig.8 Comparison flow chart of aromatic lattice fringe recognition
圖9展示了骨骼化方法提取芳香晶格條紋的過程中,表現(xiàn)出的邊緣混亂和堆疊嚴(yán)重的現(xiàn)象,因此解決傳統(tǒng)提取方法中存在的問題是樣本制作的重要內(nèi)容。在正式的模型訓(xùn)練之前,進行了一次預(yù)實驗。預(yù)實驗制作了一批以二值圖為基礎(chǔ)的樣本集,隨后將該樣本集投入模型進行訓(xùn)練。預(yù)實驗結(jié)果顯示,以二值圖為樣本訓(xùn)練生成的模型,其精確度只有50%。導(dǎo)致該預(yù)實驗結(jié)果較差的原因,與傳統(tǒng)提取方法存在的問題具有一定的相似性。首先是二值圖丟失了圖像信息導(dǎo)致了精度下降;其次是基于PS等軟件的二值化操作,存在著人為主觀性的問題,降低了數(shù)據(jù)的可靠性。針對以上問題,新制樣方法改進了預(yù)處理過程。具體樣本制作方法如下:
樣本來源于某高變質(zhì)煤在不同溫度下的HRTEM圖像。HRTEM中芳香晶格條紋表現(xiàn)為形態(tài)大小不一的碎小斑塊或條狀斑塊,識別難度較高。為了降低肉眼的識別難度,需要先對樣本進行預(yù)處理。首先將HRTEM圖像的像素范圍按照自然斷裂法分為9級(圖10(a))。其次對圖像中的像素進行重分類,提取第一、二、三類為1,其他類為0。最后對重分類后的HRTEM進行邊界清理,獲得肉眼可辯的芳香晶格條紋底圖(圖10(b))。此操作可以避免人為選擇閾值造成可靠性降低的問題,保證標(biāo)注矢量的準(zhǔn)確性和客觀性。
圖9 骨骼化堆疊、混亂示意Fig.9 Schematic diagram of stacking and chaotic skeletonization
圖10 樣本標(biāo)注示意Fig.10 Schematic diagram of sample labeling
在處理后的HRTEM上進行手工標(biāo)注,作為樣本集的矢量數(shù)據(jù)(圖10(c))。將矢量數(shù)據(jù)與原始HRTEM疊加后作為基本樣本集。使用原始HRTEM作為樣本底圖,保證數(shù)據(jù)的完整性和可靠性。通過自編寫python工具將基本樣本集裁剪為計算機能夠處理的合適分辨率,如128像素×128像素和192像素×192像素(為保證裁剪邊界的芳香晶格條紋也能被學(xué)習(xí)到,裁剪為2個不相交的樣本集)。再通過python工具將裁剪樣本集轉(zhuǎn)換為MASK R-CNN可以識別的標(biāo)準(zhǔn)格式(coco數(shù)據(jù)集格式):annotations,train2014和val2014三個文件夾。最終訓(xùn)練樣本為2 786張圖片,驗證樣本為310張圖片,測試樣本為252張圖片。
進行MASK R-CNN訓(xùn)練過程中,通過不斷調(diào)整config參數(shù)和優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),最終獲得識別芳香晶格條紋最優(yōu)的權(quán)重參數(shù)。訓(xùn)練的硬件環(huán)境包括顯卡NVIDIA Quadro P2000、處理器Intel Xeon Silver 4110等。編譯的軟件環(huán)境為python語言,訓(xùn)練過程中使用的python依賴庫為GPU版本的Tensorflow 1.15,keras 2.2.5,GDAL和arcpy等。
在config參數(shù)設(shè)置方面,ResNet網(wǎng)絡(luò)層數(shù)設(shè)置為101,GPU個數(shù)設(shè)置為2,STEPS_PER_EPOCH設(shè)置為1 200。為提高訓(xùn)練速度,先設(shè)置高學(xué)習(xí)率(l=0.002)進行訓(xùn)練,找到當(dāng)前最優(yōu)的權(quán)重參數(shù),再使用低學(xué)習(xí)率(l=0.000 1)進行遷移學(xué)習(xí)。根據(jù)低學(xué)習(xí)率訓(xùn)練過程中產(chǎn)生的訓(xùn)練集Loss和驗證集Val_loss曲線擬合圖(圖11),選擇最優(yōu)的權(quán)重參數(shù)(Val_loss穩(wěn)定后的最低值)。使用獲得的權(quán)重參數(shù)對測試集進行識別測試,并根據(jù)混淆矩陣計算精確度,以80%為閾值判斷該模型是否需要進行調(diào)整和再訓(xùn)練。
圖11 Loss曲線擬合Fig.11 Loss curve fitting diagram
為了驗證智能提取方法的有效性,以人工解譯結(jié)果為標(biāo)準(zhǔn),進行與傳統(tǒng)提取結(jié)果的對比實驗,包括識別效果、評價指標(biāo)和提取參數(shù)3個方面。
將原始HRTEM圖像(圖12(a))二值化(圖12(b))后,分別進行人工識別和骨骼化處理,獲得人工解譯(圖12(c))和傳統(tǒng)提取(圖12(d))的結(jié)果。通過MASK R-CNN識別原始HRTEM圖像,獲得智能提取結(jié)果(圖12(e))。圖13展示了以上提取結(jié)果的局部對比情況。從整體視覺效果來看,相對于傳統(tǒng)提取結(jié)果,智能提取結(jié)果與人工解譯結(jié)果更接近。同時可以觀察出,傳統(tǒng)提取結(jié)果存在漏檢、斷線、堆疊和混亂的情況。而智能提取結(jié)果的線條更平滑,連接性更好。
圖12 人工、傳統(tǒng)和智能識別結(jié)果示意Fig.12 Schematic diagram of manual,traditional and intelligent recognition results
圖13 芳香晶格條紋識別對比Fig.13 Aromatic lattice fringe recognition comparison chart
以人工解譯作為真實結(jié)果,依據(jù)混淆矩陣原理,分別將智能提取結(jié)果和傳統(tǒng)提取結(jié)果記錄到混淆矩陣如圖14,15所示,并根據(jù)公式計算評價指標(biāo)記錄到表1。對比表1中2組數(shù)據(jù),智能提取方法在4個指標(biāo)上均超過了傳統(tǒng)提取方法,特別是在精準(zhǔn)率上表現(xiàn)的尤為突出。根據(jù)評價指標(biāo)的性質(zhì)(數(shù)值越大,精度越高),可以判斷出智能提取方法在提取精度方面是優(yōu)于傳統(tǒng)提取方法的。
圖14 智能識別混淆矩陣結(jié)果Fig.14 Intelligence recognition confusion matrix results
圖15 傳統(tǒng)識別混淆矩陣結(jié)果Fig.15 Traditional recognition confusion matrix results
對人工、智能和傳統(tǒng)提取的結(jié)果,進行芳香晶格條紋取向和長度的統(tǒng)計,其中參考NIEKERK和MATHEWS[13]的分類方法,依據(jù)高變質(zhì)煤HRTEM的圖像特性,增加了噪音和異常的屬性劃分,完成HRTEM芳香晶格條紋歸屬分類表(表2),得到取向和長度分布如圖16所示。在取向趨勢方面,根據(jù)圖16(a)~(d)可以看出智能提取結(jié)果與人工解譯結(jié)果的取向趨勢更相近,而傳統(tǒng)提取結(jié)果在-60°(120°)附近多了一些誤差。另外從長度分布統(tǒng)計(圖16(e))來看,智能提取結(jié)果與人工解譯結(jié)果相近,而傳統(tǒng)提取結(jié)果噪音更多(長度小于0.3 nm)。
表2 HRTEM芳香晶格條紋歸屬分類Table 2 Classification of HRTEM lattice fringes
(1)智能提取方法與人工解譯方法相比,通過計算機算法進行識別芳香晶格條紋,降低工作成本,提高工作效率。
(2)智能提取方法與傳統(tǒng)提取方法相比,提高了準(zhǔn)確率。① 智能提取方法跳過了前期預(yù)處理,直接從原始HRTEM中提取芳香晶格條紋,既避免了人為選擇閾值的主觀性問題,又保證了數(shù)據(jù)的完整性;② 在芳香晶格條紋的取向和長度統(tǒng)計方面,智能提取結(jié)果與人工解譯結(jié)果基本一致;③ 在評價指標(biāo)方面,智能方法的準(zhǔn)確率和精準(zhǔn)率分別為91.2%和85.2%,高于傳統(tǒng)方法的89.9%和62.1%,說明了該智能提取方法的可靠性更高;④ 智能提取方法在各種復(fù)雜條件下提取的結(jié)果更趨向于智能化,表現(xiàn)為提取的線條平滑度更高,連貫性更好,同時也能夠自動去除噪音。