李 濤,徐 高,梁思涵,李英睿,王 敏,李 冰
(1.黃河水利委員會 黃河水利科學研究院,河南 鄭州 450003;2.蕪湖水務局,安徽 蕪湖 241000)
隨著科技的快速發(fā)展,人工智能技術已受到人們的廣泛關注,人工智能技術、空間技術以及原子能技術被譽為20世紀三大科學技術成就。人工智能是指用人工方法使機器(計算機)實現(xiàn)智能化處理問題、決策等,涉及計算機科學、控制論和信息論等多個領域。圖像識別是人工智能的關鍵技術之一,已被廣泛應用于各個行業(yè),水利數(shù)字化、智能化的發(fā)展離不開人工智能圖像識別技術的應用。圖像識別是指利用計算機對圖像進行處理、分析和理解,以識別不同模式的目標和對象。在水利行業(yè)中圖像識別可應用于河道流速測量、遙感水體識別、水位監(jiān)測和三維預測等,實現(xiàn)水利工程安全運行和監(jiān)測以及應對突發(fā)水事件的自動化精準識別,協(xié)助防汛減災、水資源管理與調度、水資源保護以及流域規(guī)劃等。本文對傳統(tǒng)的圖像識別技術和引入神經(jīng)網(wǎng)絡算法的圖像識別技術進行介紹,并對各技術的優(yōu)缺點進行比較,總結人工智能圖像識別技術在水利行業(yè)的應用并提出未來發(fā)展方向。
圖像識別研究始于20世紀40年代,當時技術有限、硬件設施不完善,圖像識別研究并未取得有效進展[1]。圖像識別的發(fā)展過程整體分為文字識別階段、數(shù)字圖像處理與識別階段、物體三維識別階段。文字識別研究始于20世紀50年代,主要識別文本類型數(shù)據(jù)(字母、數(shù)字和符號),識別范圍從印刷文字拓展至手寫文字。數(shù)字圖像處理與識別研究始于1965年,與傳統(tǒng)模擬圖像相比,數(shù)字模擬圖像中數(shù)據(jù)存儲和傳輸更加便捷安全,不易失真。近年來隨著人工智能的興起和發(fā)展,相關學者開始著重研究物體三維識別,即以數(shù)字圖像處理與識別為基礎,結合機器學習和深度學習算法對圖像進行識別。
圖像識別過程主要包括信息獲取、信息預處理、特征抽取和選擇、分類器設計和分類決策4個步驟。信息獲取主要通過傳感器把聲音、光等信息轉換為電信號,即獲取識別對象的基本信息后將其轉換為計算機可識別的信息。信息預處理主要采用去噪、變換、平滑等方式對圖像進行處理。特征抽取和選擇需要對圖像多種類的特征進行識別,通過一定方式分離特征并提取有價值的特征。分類器設計和分類決策主要通過制定識別規(guī)則使訓練識別后的同組圖像具有共同特征,并不斷調整識別規(guī)則來提高圖像識別率。
2.1.1 統(tǒng)計法
基于統(tǒng)計法的圖像識別以數(shù)學決策理論為基礎,先將圖像數(shù)字化表示,再建立統(tǒng)計識別模型,根據(jù)模型對圖像進行統(tǒng)計分析,得到圖像的不同特征,最后通過選取精準特征對圖像進行分類。常用的圖像統(tǒng)計識別模型有貝葉斯模型和馬爾科夫隨機場模型,其中貝葉斯模型可用于橋梁數(shù)據(jù)監(jiān)測[2]和雨霧天氣的自動識別[3],該模型能處理小規(guī)模數(shù)據(jù)的多個分類任務,對缺失數(shù)據(jù)不敏感,算法比較簡單,但需要知道先驗概率,先驗概率多受限于假設和概率密度。統(tǒng)計法不能識別圖像空間結構關系,當圖像復雜、類別多時對圖像特征提取困難,難以實現(xiàn)圖像分類,因此該方法無法適用于主要表現(xiàn)特征為指紋、染色體等的圖像。
2.1.2 句法識別法
句法識別法采用語言學的句法層次結構,對句子或短語結構進行分析,以確定構成句子的各個詞、短語間的相互關系及其在句子中的作用,并用層次結構表達這些關系。針對圖像識別,句法識別法將復雜圖像分解為單層或多層的簡單子圖像,突出其空間結構關系。該方法不僅能夠對圖像進行識別分類,還可用于物體結構和景物的識別,但是較大的圖像噪聲和干擾會影響句法識別過程中子圖像的抽取,導致誤判率提高,分類識別精度降低。
2.1.3 幾何變換法
拍攝物體與相機不平行時會使得到的圖像發(fā)生幾何畸變,須通過幾何變換(平移、旋轉和縮放)校正畸變圖像,以更好地進行圖像識別。霍夫變換法是幾何變換法中的典型方法,該方法能夠快速匹配圖像形狀,通過提取直線、圓等邊界將圖像中給定形狀曲線上的所有點變換到霍夫空間并形成峰點,可用于有缺損形狀的檢測。霍夫變換法具有較強的抗干擾能力,對圖像中殘缺直線、噪聲以及其他共存的非直線結構不敏感,但其算法的時間復雜度和空間復雜度較高,只能確定直線方向,容易丟失線段的長度信息。
傳統(tǒng)圖像識別技術以淺層次結構模型為主,需要對圖像進行預處理,使圖像的大小和灰度保持統(tǒng)一,但會導致圖像識別的準確率降低[4]?;诖?,多數(shù)學者開始研究更深層次的網(wǎng)絡結構模型,使模型具有自主提取圖像特征的能力,減少人為干預,神經(jīng)網(wǎng)絡算法應運而生。神經(jīng)網(wǎng)絡算法是一種模擬動物神經(jīng)網(wǎng)絡行為特征、分布式并行處理信息的算法數(shù)學模型,包括深度置信網(wǎng)絡(DBN)、卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)和圖卷積神經(jīng)網(wǎng)絡(GCN)等。
2.2.1 深度置信網(wǎng)絡
深度置信網(wǎng)絡由多個受限玻爾茲曼機(RBM)和一層有監(jiān)督的分類器堆疊構成,結合了有監(jiān)督學習和無監(jiān)督學習[5]。深度置信網(wǎng)絡學習過程分為兩個階段:第一階段是逐層訓練,把前一層RBM的輸出作為下一層RBM的輸入;第二階段是通過BP神經(jīng)網(wǎng)絡算法或支持向量機微調參數(shù)使全局最優(yōu),即輸出的識別結果在所有結果中準確度最高[1]。深度置信網(wǎng)絡結構見圖1(Xi為輸入子塊,Yi為輸出結果)。
圖1 深度置信網(wǎng)絡結構
深度置信網(wǎng)絡通過組合低層特征形成更抽象的高層特征,即使積累多層,通過微調參數(shù)仍能得到全局最優(yōu)解,有效解決梯度消失問題,但其沒有考慮圖像的二維結構信息與變量的時間聯(lián)系,卷積深度置信網(wǎng)絡和堆疊時間限制玻爾茲曼機可以解決這些問題。
2.2.2 卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡是一種包含卷積計算且有深度結構的前饋神經(jīng)網(wǎng)絡,可以進行有監(jiān)督學習和無監(jiān)督學習,包括輸入層、隱含層和輸出層,其中隱含層包括卷積層、池采樣層和全連接層。卷積層是對輸入數(shù)據(jù)進行特征提取,池采樣層主要進行特征選擇和信息過濾,全連接層是對提取特征進行非線性組合后輸出。卷積神經(jīng)網(wǎng)絡結構見圖2,其處理圖像時無需手動選取特征,當學習數(shù)據(jù)充足時表現(xiàn)穩(wěn)定[6],通過構建階層分類器對大規(guī)模圖像進行分類,可提取圖像特征供其他分類器學習[7]。卷積神經(jīng)網(wǎng)絡通常需要大量樣本并將數(shù)據(jù)歸一化。
圖2 卷積神經(jīng)網(wǎng)絡結構
2.2.3 循環(huán)神經(jīng)網(wǎng)絡
循環(huán)神經(jīng)網(wǎng)絡(又稱時間遞歸神經(jīng)網(wǎng)絡)能夠挖掘數(shù)據(jù)中的時序信息,前序時間節(jié)點的信息將影響后續(xù)時間節(jié)點信息的輸出[8]。循環(huán)神經(jīng)網(wǎng)絡結構見圖3(Xt為第t時間步的輸入;ht為第t時間步的狀態(tài);ht-1為第t-1時間步的狀態(tài)),隱藏層的輸入不僅包括輸入層的輸出,還包括上一時刻隱藏層的輸出。對于每一時刻的輸入,循環(huán)神經(jīng)網(wǎng)絡能夠結合當前模型狀態(tài)給出輸出結果。循環(huán)神經(jīng)網(wǎng)絡具有記憶性,參數(shù)共享并且圖靈完備,對序列的非線性特征進行學習時有一定優(yōu)勢,但當預測位置和相關信息的間隔較大時,循環(huán)神經(jīng)網(wǎng)絡可能會喪失學習遠距離信息的能力,長短期記憶人工神經(jīng)網(wǎng)絡(LSTM)能夠很好地解決長距離依賴問題。
圖3 循環(huán)神經(jīng)網(wǎng)絡結構
2.2.4 圖卷積神經(jīng)網(wǎng)絡
利用神經(jīng)網(wǎng)絡處理圖像時不規(guī)則的圖數(shù)據(jù)使卷積計算不能直接應用于圖像處理。圖卷積神經(jīng)網(wǎng)絡將卷積運算從傳統(tǒng)數(shù)據(jù)(圖像或網(wǎng)格)推廣到圖數(shù)據(jù),分為基于譜域的方法和基于空域的方法[9]?;谧V域的方法從圖信號處理角度引入濾波器來定義圖卷積,圖卷積運算被解釋為從圖信號中去除噪聲?;诳沼虻姆椒ㄊ菍D卷積表示為聚合來自鄰居的特征信息。圖卷積神經(jīng)網(wǎng)絡能同時對節(jié)點特征信息和結構信息進行端對端學習,適用于任意拓撲結構的節(jié)點,能很好地處理節(jié)點分類和邊預測等任務,但圖卷積模型依賴于全連接網(wǎng)絡,訓練層數(shù)受限且存在過擬合問題。
傳統(tǒng)圖像識別技術和引入神經(jīng)網(wǎng)絡算法的圖像識別技術的優(yōu)缺點對比見表1。
表1 圖像識別技術的優(yōu)缺點對比
河道流速測量方法主要分為接觸式測量和非接觸式測量[10]。接觸式測量方法易操作、精度高,但智能化程度低、易受泥沙等雜質影響,在地勢復雜、水流湍急場景下測速存在一定困難。非接觸式測量方法一般通過波譜與粒子成像,采用稠密光流法進行流速識別[11],通過數(shù)據(jù)轉換推算表面流速,監(jiān)測數(shù)據(jù)少、數(shù)據(jù)傳輸快速便捷、智能化程度高,但該方法需要對機器進行維護,成本較高。通過人工智能圖像識別進行河道流速測量無需人工干預和涉水作業(yè),施測安全、識別精度高、運維成本低。不少學者對人工智能圖像識別在河道測速方面的應用進行了深入研究。王萬良等[12]利用特征約束組稀疏分類器對河流表面圖像進行識別,依據(jù)訓練集建立流速關系映射表來實現(xiàn)河流測速,為基于人工智能圖像識別方法的測速建模提供了思路。Tauro等[13]通過非線性學習揭示水流形態(tài)結構,采用降維、特征提取等方法描述水流形態(tài)特征,有利于卷積神經(jīng)網(wǎng)絡在水流圖像預處理和識別中的應用。河道表面水流識別實際上是紋理識別,利用CaffeNet建立的紋理卷積神經(jīng)網(wǎng)絡方法能夠提高紋理識別精度[14]。冀中等[15]建立了由5個卷積層、3個最大池采樣層和3個全連接層組成的卷積神經(jīng)網(wǎng)絡模型,通過主分量分析進行特征降維,利用支持向量機實現(xiàn)紋理識別。楊圭[16]利用卷積神經(jīng)網(wǎng)絡構建了河道表面流速圖像識別模型,與激光多普勒測流、粒子圖像測流等方法不同的是,該模型可視為黑箱模型,無需利用激光或微粒等媒介,沒有明顯的計算模式,通過對大量的水流圖片進行學習,判斷水流圖片相應的流速標簽,以此實現(xiàn)水流圖片與流速信息的轉換。
在河道測速方面,利用引入神經(jīng)網(wǎng)絡算法的圖像識別方法已應用于長江委崇陽水文站試驗場、長江委沌口科研基地、陶岔渠首、淠史杭灌區(qū)橫排頭水文站試驗點、武漢大學排水灌溉試驗場等。目前人工智能圖像識別在河道流速測量方面的研究和應用處于初步發(fā)展階段,采用卷積神經(jīng)網(wǎng)絡方法進行河流測速較為普遍。河道表面水流波紋會隨流速加快而密度增大,卷積神經(jīng)網(wǎng)絡的隱含層能夠精準識別圖像的線條、角度和邊緣等簡單的幾何特征。如何從圖像預處理、特征提取和全連接層設置等方面進一步提高識別精度將是未來的研究方向。
遙感技術是一種遠距離且非接觸的探測技術,能夠獲取水文基礎數(shù)據(jù)。隨著科技發(fā)展,遙感技術逐漸應用于水體識別和信息提取,技術方法包括單波段閾值法[17]、監(jiān)督分類法[18]和水體指數(shù)法[19]等,但這些方法的精度受影像質量和人為因素的影響較大,需要多次進行實驗以設定閾值,不能對遙感圖像精確分類。神經(jīng)網(wǎng)絡算法能夠很好地解決上述問題,提高圖像識別的準確性,因此許多學者對神經(jīng)網(wǎng)絡算法在遙感水體識別方面的應用進行了深入研究。孫濤等[20]總結了深度學習在遙感水體識別中的應用,認為遙感圖像是遙感技術的關鍵,利用神經(jīng)網(wǎng)絡算法提取圖像特征能更好地進行水體識別。杜敬[21]利用深度卷積神經(jīng)網(wǎng)絡模型對無人機遙感影像進行水體識別,識別準確率達95.36%。此外,學者們研究了不同的編碼器以提高水體提取精度。Yang等[22]基于堆疊自動編碼器構建了水體提取模型,考慮相鄰像素的影響設計了特征擴展算法(FEA),通過提取新疆、江蘇、四川地區(qū)的水體,發(fā)現(xiàn)基于堆疊自動編碼器的水體提取模型的精度優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡模型。楊柳[23]利用棧式自編碼器進行遙感影像水體識別,發(fā)現(xiàn)相較于支持向量機模型和人工神經(jīng)網(wǎng)絡模型,基于棧式自編碼器的模型的準確率更高,達到了94.35%。
在實例運用中只有對水體進行精準識別,才能確保水體監(jiān)測的準確性,輔助相關管理部門進行精準化決策。遙感水體識別已在白洋淀水體監(jiān)測、三岔湖藻華聚集監(jiān)測和雅韶鎮(zhèn)水體富營養(yǎng)化監(jiān)測中起到了關鍵作用,有利于水質管理和生態(tài)平衡的維護。目前,人工智能圖像識別在遙感水體識別的研究和應用正處于發(fā)展階段,研究多集中于水體特征的提取,與支持向量機法和面向對象法相比,神經(jīng)網(wǎng)絡算法的精準性更高。當前階段神經(jīng)網(wǎng)絡算法多采用監(jiān)督訓練,需要大量的標簽數(shù)據(jù)作為支撐,但是遙感圖像為多波段數(shù)據(jù),制作標簽數(shù)據(jù)要通過預處理和標準化過程,工作量高于普通圖像處理,未來無監(jiān)督訓練方法將是神經(jīng)網(wǎng)絡算法在遙感水體識別領域的研究重點。
水位是反映水體變化的重要指標,水位監(jiān)測可為防汛抗旱、灌溉等提供水情信息,長期積累的水位監(jiān)測資料是水利水電等工程規(guī)劃建設的基本依據(jù)。水位監(jiān)測方法主要分為直接觀測方法和間接觀測方法。直接觀測方法通過架設水尺,利用水準儀等儀器人工目讀,測量精準,但需要人為對數(shù)據(jù)進行獲取、存儲和分析等,自動化程度低,耗時耗力,工作人員作業(yè)安全性低。間接觀測方法利用各類傳感器自動采集電壓、水壓等模擬信號,通過轉換器將信號轉換為水位信息,測量方便、智能化程度較高[16],但雷達式水位計等間接觀測設備參數(shù)設置復雜,電磁波易受到干擾。利用人工智能神經(jīng)網(wǎng)絡算法進行圖像識別,既可在現(xiàn)有水利視頻監(jiān)控系統(tǒng)中嵌入算法,也可利用成熟的GPRS或4G無線視頻圖像傳輸系統(tǒng)在野外建立觀測點,具有非接觸、智能化、成本低的優(yōu)勢。許多學者將神經(jīng)網(wǎng)絡算法引入水位監(jiān)測中,首先對采集的水尺圖像進行類型變換、去噪濾波等預處理,其次利用Hough變換算法校正圖像[24],截取目標區(qū)域并提取水尺刻度線,最后通過神經(jīng)網(wǎng)絡算法識別數(shù)字字符確定水尺總量程,根據(jù)水尺刻度線和總量程的關系得到水位值[25]。王磊等[26]提出了基于深度學習的圖像識別算法,運用YOLO-v3和ResNet算法分別檢測水尺圖像并識別水尺刻度線,該算法已初步應用于國家水資源監(jiān)控能力灌區(qū)監(jiān)測點,測試識別準確率高達95.7%,該算法還有識別速度快、環(huán)境適應能力強等特點。程誠等[27]根據(jù)水尺刻度線的定位和數(shù)字字符,先對數(shù)字字符進行預處理,再利用卷積神經(jīng)網(wǎng)絡算法對分割出的數(shù)字字符進行識別,最終確定水位值,當水位超出設定閾值時能夠發(fā)出預警信息,協(xié)助水利人員進行防汛預報。在利用神經(jīng)網(wǎng)絡算法對圖像進行識別時,模型訓練樣本的豐富度低以及水尺有污漬時會影響識別準確率[28]。通過改進的超像素和圖割算法能夠解決水位測量中水尺有污漬和水尺傾斜導致的觀讀數(shù)據(jù)易出錯問題[29]。
基于神經(jīng)網(wǎng)絡算法的水位監(jiān)測已應用于許多河道、水庫,例如通過海塔水庫監(jiān)測山洪水位解決了施測風險高和水位暴漲暴落等問題。桐鄉(xiāng)市水利局建設智能水位感知系統(tǒng),實時監(jiān)測水位變化,確保水利設施的正常運行,為強降雨天氣的水位分析和決策提供了數(shù)據(jù)支撐。神經(jīng)網(wǎng)絡算法在水體監(jiān)測中的作用主要是識別數(shù)字字符,確定水尺總量程和水位。目前對于水位監(jiān)測方法的改進多處于圖像前期預處理階段,提升字符不明顯圖像的識別精度以及建立動態(tài)的圖像數(shù)據(jù)庫將是未來的研究方向。
現(xiàn)階段水利行業(yè)正朝著數(shù)字化和精細化方向發(fā)展,對空間信息數(shù)據(jù)的需求逐步由二維過渡到三維。三維重建是指用計算機語言對三維物體建立數(shù)學模型,為水利行業(yè)的可視化管理提供數(shù)據(jù)支撐。隨著神經(jīng)網(wǎng)絡算法的發(fā)展,神經(jīng)網(wǎng)絡算法與三維重建相結合進行三維預測成為研究熱點。神經(jīng)網(wǎng)絡算法通過對大量已有數(shù)據(jù)進行學習,可以預測對象的全局結構,補全局部細節(jié),獲得高精度的三維模型。
對于神經(jīng)網(wǎng)絡算法,卷積神經(jīng)網(wǎng)絡一般用來識別位移、縮放等形式扭曲不變性的二維像素或三維體素[5]。體素是三維空間中一個有大小的點,相當于二維空間的像素,用體素表示三維物體會使計算量呈幾何式增加,通常采用降低分辨率的方式提高其存儲、計算效率,犧牲存儲空間換取計算時間?;诎瞬鏄涞木矸e神經(jīng)網(wǎng)絡算法也能夠很好解決以上問題[30-31]。馬常霞等[32]將基于區(qū)域的掩模卷積網(wǎng)絡和圖卷積神經(jīng)網(wǎng)絡相結合對水利樞紐進行了三維重建,基于區(qū)域的掩模卷積網(wǎng)絡實現(xiàn)二維感知,圖卷積神經(jīng)網(wǎng)絡實現(xiàn)三維形狀推斷,能夠解決基于圖像的三維重建傳統(tǒng)方法中信息獲取效率低和抗干擾能力差等問題。趙中原等[33]采用基于BP神經(jīng)網(wǎng)絡的圖像識別方法對水利工程隧道的施工開挖、加固過程進行了三維地質力學模型試驗,監(jiān)測物體變形前后標記點的位移數(shù)據(jù),監(jiān)測的數(shù)據(jù)滿足隧道三維地質力學模型中開挖隧道收斂變形監(jiān)測的精度要求。
基于神經(jīng)網(wǎng)絡算法的三維預測已應用于多個地方的水利系統(tǒng),例如渭南水務數(shù)字孿生系統(tǒng)能夠對渭南地區(qū)進行三維預測和分析。在堰塞湖應急測繪工作中,實景三維預測能夠為相關部門開展災情研判、分析、排查以及災后重建等提供保障。在長江航道河道整治工作中,三維預測能夠輔助建筑物的維護管控。當前研究中基于神經(jīng)網(wǎng)絡算法的三維預測精度相較于其他方法已有所提高,當業(yè)務需求不斷增加、業(yè)務場景復雜多變時保持較高的預測精度是關鍵,高預測精度能夠輔助管理人員進行精準化決策。因此,在復雜場景下保持高預測精度將是未來三維預測的發(fā)展方向和研究重點。
本文介紹了統(tǒng)計法、句法識別法和幾何變換法3種傳統(tǒng)的圖像識別技術以及深度置信網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡與圖卷積神經(jīng)網(wǎng)絡4種引入神經(jīng)網(wǎng)絡算法的圖像識別技術,比較了上述圖像識別技術的優(yōu)缺點。從河道流速測量、遙感水體識別、水位監(jiān)測和三維預測方面綜述了人工智能圖像識別在水利行業(yè)的應用。人工智能圖像識別的引入提升了水利行業(yè)圖像識別的精度和準確率,具有較強的實時性,能夠協(xié)助水利工程各環(huán)節(jié)的有序高效實施、水資源的科學調度、管理平臺的精準化決策等,但目前人工智能圖像識別在水利行業(yè)的應用屬于起步階段,部分神經(jīng)網(wǎng)絡算法只適配于特定場景且受計算機系統(tǒng)的影響,因此提高技術場景適配能力、兼容性和識別精度等將是人工智能圖像識別在水利行業(yè)應用的發(fā)展方向。