李娟 王瑞良
(1.中原工學(xué)院,河南鄭州 450007;2.中國廣電河南網(wǎng)絡(luò)有限公司鄭州市分公司,河南鄭州 450000)
隨著信息技術(shù)的發(fā)展與信息設(shè)備軟硬件性能的快速提升,人們在企事業(yè)單位及日常生活、工作中利用數(shù)字成像設(shè)備(如手機、數(shù)碼相機)形成了海量的圖像、視頻等數(shù)字化的影像檔案,這類檔案蘊含著比其他類型更加豐富的檔案信息,記錄并管理著人類歷史的進(jìn)程,而如何從這些大規(guī)模的數(shù)字化檔案中快速有效地檢索出用戶所需要的圖像,增強檔案管理的數(shù)字化、智能化,成為當(dāng)今檔案管理工作的主要問題之一,也是創(chuàng)造檔案最大化社會效益的手段之一。
近幾年,人工智能技術(shù)迅速崛起,人們獲取信息和使用信息的途徑也得到了迅猛的發(fā)展,如圖像分類、圖像識別已應(yīng)用于現(xiàn)代社會中的各個領(lǐng)域,且發(fā)揮著越來越重要的作用。將基于深度學(xué)習(xí)的圖像識別技術(shù)應(yīng)用于檔案管理工作中,并提高檔案檢索效率,是數(shù)字檔案信息資源管理工作中的重要組成,也是利用計算機對其進(jìn)行智能化的、高效的處理亟待解決的問題。
數(shù)字圖像檔案的存儲與檢索目前采用的方式復(fù)雜多樣,但大部分?jǐn)?shù)字圖像數(shù)據(jù)都采用表+實體的方法來存儲,即將數(shù)字圖像存儲在文件系統(tǒng)中,數(shù)據(jù)庫表只提供一個字段存儲圖像數(shù)據(jù)文件的存儲路徑,這種管理模式將路徑與圖像分開存儲,容易造成二者的不一致性,給檔案的管理和維護(hù)工作帶來了一定的難度,同時也大大降低了檔案的安全性。隨著大數(shù)據(jù)的發(fā)展與非結(jié)構(gòu)化數(shù)據(jù)庫的出現(xiàn),將圖像文件與其他數(shù)據(jù)同時存儲在數(shù)據(jù)庫當(dāng)中是十分有必要的,這樣就避免了數(shù)據(jù)的不一致性,也增強了數(shù)據(jù)的安全性和可遷移性。
數(shù)字圖像檔案面臨的另一個難點是如何對數(shù)據(jù)庫中的圖像進(jìn)行檢索,傳統(tǒng)方法是進(jìn)行人工標(biāo)注圖像內(nèi)容,這種方式已無法與現(xiàn)在媒體的產(chǎn)生速度相匹配了,不僅耗費大量資源,且容易出錯。張倩[1]等人根據(jù)內(nèi)容和性質(zhì),將信息集合到一個預(yù)先設(shè)定的類別中,當(dāng)用戶查詢某個關(guān)鍵詞時,搜索引擎只根據(jù)這些描述進(jìn)行檢索,提高所需信息的命中率;鄭國富[2]等人是先對圖像內(nèi)容進(jìn)行分類,再提取用的需求特征,當(dāng)然用戶進(jìn)行檢索時,將檢索內(nèi)容進(jìn)行轉(zhuǎn)變,并進(jìn)行相似度匹配,從而查詢出有用的信息;姬鳳英[3]等人是在輸入圖像時提取圖像特征向量,根據(jù)用戶指定的查詢特征利用距離函數(shù)與數(shù)據(jù)庫中的特征向量進(jìn)行相信匹配,并分級進(jìn)行檢索,先進(jìn)行紋理匹配再進(jìn)行顏色等其他特征的匹配以提高檢索的準(zhǔn)確率。
以上方法的缺陷是特征由人工選取,選取什么特征、選取多少特征,直接決定了提取特征向量的好壞。而且,對于一些類別之間差異細(xì)微、圖像干擾嚴(yán)重等問題,利用傳統(tǒng)的機器學(xué)習(xí)方法進(jìn)行的識別精度將大打折扣。
隨著數(shù)字圖像檔案的海量增長,信息檢索的效率逐漸滿足不了檔案工作的需求,因此,本文將利用深度學(xué)習(xí)方法解決數(shù)字圖像檔案的智能檢索問題。
在繼2014年Rcnn[4],2015年Fast R-CNN[5]后,2016年Shaoqing Ren,Kaiming He,Ross Girshick 等人共同提出了Faster R-CNN[6]物體檢測的卷積神經(jīng)網(wǎng)絡(luò)模型。Faster R-CNN 其結(jié)構(gòu)描述如圖1 所示,最左邊是輸入圖片,經(jīng)過卷積層得到特征圖(feature map)?;谠撎卣鲌D,通過區(qū)域生成網(wǎng)絡(luò)(RPN)提取區(qū)域推薦窗(region proposals),每張圖片生成300個推薦窗,把這些推薦窗映射到CNN的最后一層卷積特征圖上;再由基于興趣區(qū)域的池化層(RoI pooling)生成固定尺寸的特征圖;最后利用Softmax Loss和Smooth L1 Loss對分類概率和邊框回歸聯(lián)合訓(xùn)練。
圖1 Faster R-CNN 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Faster R-CNN Network Sstructure Diagram
Faster R-CNN使用了兩級探測器,由三個重要部件組成:共享底層卷積層、區(qū)域推薦網(wǎng)絡(luò)(RPN)和基于興趣區(qū)域(ROI)的分類器。RPN網(wǎng)絡(luò)主要用于生成region proposals,首先生成一堆Anchor box,對其進(jìn)行裁剪過濾后通過softmax判斷anchors屬于前景(foreground)或者后景(background),即是物體或者不是物體,所以這是一個二分類;同時,另一分支bounding box regression修正anchor box,形成較精確的推薦。ROI Pooling層利用RPN生成的推薦和VGG16 最后一層得到的特征圖,得到固定大小的推薦特征圖,進(jìn)入到后面可利用全連接操作來進(jìn)行目標(biāo)識別和定位。Faster R-CNN 的核心思想是用RPN代替之前的Selective Search(選擇性搜索),將提取的推薦框由2000個減少為300個,質(zhì)量高、數(shù)據(jù)量少,解決了求出所有可能的候選框非常耗時的問題,且卷積網(wǎng)和Faster R-CNN部分共享,檢測速度大幅提升。
圖2是Faster R-CNN網(wǎng)絡(luò)在PASCAL VOC2007 數(shù)據(jù)集中的檢測結(jié)果。模型采用VGG-16,獲得這些結(jié)果的運行時間大概每幅圖像是198ms。從結(jié)果來看,通過Faster R-CNN 可以找出圖中有哪些對象,并標(biāo)記出這些對象的具體位置信息。
圖2 Fast R-CNN 目標(biāo)檢測案例Fig.2 Fast R-CNN Target Detection Case
在數(shù)字圖像檔案信息的存儲階段,考慮到圖像檢索與操作的一致性,將摒棄傳統(tǒng)的關(guān)系數(shù)據(jù)庫表,采用非結(jié)構(gòu)化數(shù)據(jù)庫(如TRIP)作為存儲的首選方案。非結(jié)構(gòu)化數(shù)據(jù)庫對字段長度沒有上限,不影響存儲空間,而且采用面向?qū)ο蟮拇髮ο髾C制,該類數(shù)據(jù)庫專門有一個二進(jìn)制數(shù)據(jù)的存儲字段,能存儲多達(dá)200多種不同格式的電子文件,也提供有字段用于存儲文件原始的base64編碼,即可將文件原始內(nèi)容全部存儲至數(shù)據(jù)庫中。因此,若一份檔案文件關(guān)聯(lián)若干子文件或圖像,檔案文件實體及其子文件(或子圖像)的實體元數(shù)據(jù)均以子記錄的方式存儲于數(shù)據(jù)庫中。圖像元數(shù)據(jù)中需增加檢測對象和目標(biāo)位置及精確度三個子字段來描述抽取后的內(nèi)容,如表1所示。
表1 圖像子記錄元數(shù)據(jù)表設(shè)計Tab.1 Design of Image Sub-record Metadata Table
由于一幅圖像可能識別出的物體種類較多,可對檢測對象字段、檢測對象和目標(biāo)位置及精確度進(jìn)行子字段設(shè)計,即一個字段可以存儲多項信息。例如,一本書的作者有若干名,即可將作者設(shè)置為子字段的方式將每位作者存儲其中。
整個數(shù)字圖像檢索模塊可如圖3 所示,由存儲模塊、訓(xùn)練模塊和檢索模塊構(gòu)成。其中存儲模塊負(fù)責(zé)檔案文件的存儲,包括各類文件的原始數(shù)據(jù)、提取的元數(shù)據(jù)以及對圖像數(shù)據(jù)預(yù)檢測部分;訓(xùn)練模塊則根據(jù)用戶預(yù)設(shè)的分類內(nèi)容對樣本進(jìn)行訓(xùn)練,找到適用本項目的參數(shù)配置及網(wǎng)絡(luò)結(jié)構(gòu);檢索模塊則依據(jù)用戶輸入的檢索關(guān)鍵字,通過搜索引擎查詢出符合用戶描述的圖像。
圖3 檢索功能結(jié)構(gòu)圖Fig.3 Retrieval function structure diagram
下面分別介紹這幾個模塊:
(1)圖像訓(xùn)練模塊。該模塊以PASCAL VOC2007 數(shù)據(jù)集作為訓(xùn)練樣本基礎(chǔ),結(jié)合檔案所需要類別,對訓(xùn)練樣本進(jìn)行適當(dāng)修改,仍以VGG16 作為預(yù)訓(xùn)練網(wǎng)絡(luò)模型作為基本網(wǎng)絡(luò),對Faster R-CNN 進(jìn)行訓(xùn)練,并獲取相關(guān)網(wǎng)絡(luò)模型的參數(shù)。
(2)圖像存儲模塊。該模塊將原始圖像以二進(jìn)制編碼形式存儲在數(shù)據(jù)庫中,同時將該圖像進(jìn)行預(yù)處理,以提高檢測的準(zhǔn)確度,如:對圖像進(jìn)行幾何變換、去噪、去模糊等處理。然后將處理后的圖像送入訓(xùn)練后的Faster R-CNN對象檢測模型進(jìn)行目標(biāo)識別,將識別出的類別、位置及精度信息依次存入至數(shù)據(jù)庫中。
(3)搜索引擎。該模塊針對前期圖像提取的對象檢測結(jié)果,在數(shù)據(jù)庫中,先檢索出含有相同的目標(biāo)的所有圖像,并對其標(biāo)注的精確度使用排序算法進(jìn)行從大到小的排序,同時可將位置信息標(biāo)注在圖像上,最后顯示到用戶的檢索結(jié)果界面中。
本文提出了一種基于深度學(xué)習(xí)技術(shù)的智能數(shù)字圖像檔案檢索模式,不但能夠自動標(biāo)注并保存數(shù)字圖像檔案的內(nèi)容,而且還能對精度排序,檢索出與用戶輸入的關(guān)鍵字最接近的內(nèi)容,大幅度減少了用戶的檢索時間,并提高了檢索的準(zhǔn)確率。不但可以提升數(shù)字圖像檔案資源的利用率,而且能夠滿足用戶多元化的需求,也關(guān)系到后續(xù)信息服務(wù)的深入開展。