李靜靜,木特力甫·馬木提,吾爾尼沙·買買提,阿力木江·艾沙,庫(kù)爾班·吾布力+
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué) 圖書館,新疆 烏魯木齊 830046;3.新疆大學(xué) 教師工作部,新疆 烏魯木齊 830046)
隨著信息技術(shù)的發(fā)展,文檔圖像檢索成為圖像檢索領(lǐng)域的熱門研究方向。傳統(tǒng)的基于字識(shí)別技術(shù)(optical character recognition)的方法人工需求量大、操作成本高,基于圖像特征的文檔圖像檢索方法應(yīng)運(yùn)而生,其操作簡(jiǎn)單、運(yùn)行速度快且無(wú)需人工干預(yù)。目前基于圖像特征的文檔檢索主要分為基于文檔頁(yè)面內(nèi)容相似性的檢索與基于關(guān)鍵詞的檢索。其中以關(guān)鍵詞為研究對(duì)象能有效替代OCR識(shí)別技術(shù)。
關(guān)鍵詞識(shí)別技術(shù)最先在語(yǔ)音識(shí)別領(lǐng)域中應(yīng)用,于20世紀(jì)90年代應(yīng)用于圖像檢索領(lǐng)域。近年來(lái)魏宏喜等[1]設(shè)計(jì)了基于word spotting技術(shù)的蒙古文歷史文檔圖像檢索框架,用輪廓特征、投影特征和筆劃穿越數(shù)目表示單詞圖像,將視覺模型融入BOVW模型中[2]并用金字塔匹配將一種空間信息引入到數(shù)據(jù)集中;喻庚[3,4]等提出采用過(guò)切分、字符識(shí)別器模型和集束搜索的脫機(jī)手寫中文文檔的關(guān)鍵詞檢索系統(tǒng)框架;鮑玉來(lái)等[5]提出基于LDA的主題模型,采用查詢似然模型實(shí)現(xiàn)檢索,完善蒙古文歷史文獻(xiàn)關(guān)鍵詞檢索框架。
對(duì)于維吾爾文文檔圖像的檢索,目前僅有阿麗亞·巴吐爾[6]對(duì)圖文混排的復(fù)雜版面結(jié)構(gòu)維吾爾文檔圖像進(jìn)行研究,而基于關(guān)鍵詞的維吾爾文文檔圖像檢索領(lǐng)域仍處于空白。本文設(shè)計(jì)了一種基于關(guān)鍵詞的維吾爾文文檔圖像檢索框架,采用由粗到細(xì)的層級(jí)匹配方式。在粗匹配階段采用模板匹配的方法,對(duì)經(jīng)過(guò)粗匹配篩選的圖像進(jìn)行兩種HOG特征向量的提取,最后采用SVM算法進(jìn)行關(guān)鍵詞精確匹配。
本文提出的基于關(guān)鍵詞的維吾爾文文檔圖像檢索方法主要包括5個(gè)部分:圖像預(yù)處理、單詞切分、模板匹配、特征提取、分類識(shí)別,具體框架如圖1所示。將采集的文檔圖像進(jìn)行預(yù)處理操作并對(duì)其進(jìn)行單詞切分形成單詞圖像數(shù)據(jù)庫(kù),將選定的關(guān)鍵詞圖像作為模板并對(duì)其進(jìn)行預(yù)處理操作,在單詞圖像數(shù)據(jù)庫(kù)中使用基于標(biāo)準(zhǔn)歐式距離的模板匹配進(jìn)行粗匹配來(lái)構(gòu)造關(guān)鍵詞樣本集合、非關(guān)鍵詞樣本集合和有待進(jìn)一步檢索的粗匹配單詞圖像集合,然后對(duì)訓(xùn)練集中單詞圖像提取HOG特征,并使用SVM分類器對(duì)特征數(shù)據(jù)進(jìn)行學(xué)習(xí)得到分類模型,將檢索結(jié)果返回給用戶。
圖1 基于關(guān)鍵詞的文檔圖像檢索系統(tǒng)框架
本文通過(guò)對(duì)維吾爾文書籍進(jìn)行掃描,建立了包含2414張圖像的文檔圖像數(shù)據(jù)庫(kù)。其中,圖像分辨率為100 dpi,深度為8,格式為*.bmp,本文實(shí)驗(yàn)隨機(jī)抽取其中108張。在將紙質(zhì)文本掃描文檔圖像的過(guò)程中,如果紙質(zhì)文本含有背景或者其它的噪音,會(huì)對(duì)圖像質(zhì)量造成影響,從而影響提取特征中所包含的有效信息,因此需要在使用之前進(jìn)行預(yù)處理。本文對(duì)如圖2(a)進(jìn)行預(yù)處理操作,包括灰度化、二值化、噪聲去除及傾斜校正等,效果如圖2(b)所示。
圖2 文檔圖像預(yù)處理
本文灰度化是采用加權(quán)平均法,根據(jù)重要性及其它指標(biāo),將3個(gè)分量以不同的權(quán)值進(jìn)行加權(quán)平均;二值化是使用OTSU算法,是一種基于全局的算法,根據(jù)圖像的灰度特性,將圖像分為前景和背景兩個(gè)部分;在噪聲去除階段,本文使用的是雙邊濾波的方法,同時(shí)考慮了圖像像素點(diǎn)的空間信息和灰度相似性信息,在保留圖像的邊緣的情況下去除噪聲來(lái)保證圖像的清晰度;對(duì)于傾斜校正,本文采取常用的基于Hough變換的方式。
文獻(xiàn)[7]中使用了連體段特征聚類的方式對(duì)圖文混排版面的維吾爾文文檔圖像進(jìn)行單詞切分。本文為純文本版面,結(jié)合形態(tài)學(xué)分析與像素積分投影法完成印刷體維吾爾文文檔圖像的單詞切分。由于維吾爾文印刷體文檔圖像中行與行間隙明顯,單詞之間與其內(nèi)部間隙相比較大。因此本文先對(duì)圖像進(jìn)行膨脹處理,接著通過(guò)水平投影和垂直投影對(duì)其進(jìn)行切分,實(shí)驗(yàn)效果如圖3所示。
圖3 切分圖像
本實(shí)驗(yàn)對(duì)隨機(jī)抽取的108張維吾爾文文檔圖像做了單詞切分,每張文檔圖像大概能夠產(chǎn)生200張多單詞圖像,形成規(guī)模為25 569的單詞圖像數(shù)據(jù)庫(kù)。經(jīng)驗(yàn)證,本文所使用的單詞切分法達(dá)到了98.7%的準(zhǔn)確率。為了保證后續(xù)檢索效果,本文所使用的單詞圖像數(shù)據(jù)庫(kù)已刪除誤切分的單詞圖像并過(guò)濾了無(wú)意義的切分圖像。
對(duì)于印刷體文本而言,模板匹配[8]是一種具有代表性的字符識(shí)別方法。該方法通過(guò)計(jì)算測(cè)試字符和模板字符之間的距離或相似度來(lái)識(shí)別字符,距離最小或者相似度最大的那類模板將被視為最終的判別類。首先建立模板庫(kù),將待識(shí)別字符圖像進(jìn)行二值化并將其尺寸大小歸一化到模板字符進(jìn)行匹配,最后根據(jù)匹配程度決定所屬類別。采用標(biāo)準(zhǔn)歐式距離來(lái)度量匹配程度,其公式如下
(1)
式中:X為關(guān)鍵詞模板圖像,Y為切分?jǐn)?shù)據(jù)庫(kù)中單詞圖像,d(X,Y) 為兩個(gè)圖像間的歐氏距離,xi和yi分別為兩張圖像上對(duì)應(yīng)點(diǎn)的像素值。
方向梯度直方圖(histogram of oriented gradient,HOG)是一種對(duì)像素點(diǎn)求取梯度幅值和方向的特征[9],最初用于行人檢測(cè)中,并取得了較好的效果。HOG特征是一種局部區(qū)域上的梯度方向直方圖構(gòu)成的圖像特征,其特征提取流程如圖4所示。本文設(shè)I為輸入圖像,I(x,y)表示圖像在像素點(diǎn) (x,y) 處的灰度值,具體提取步驟描述如下。
圖4 HOG提取流程
(1)預(yù)處理,使用歸一化將圖像轉(zhuǎn)化為灰度圖像,接著進(jìn)行“伽馬校正”;
(2)計(jì)算預(yù)處理后圖像上每個(gè)像素點(diǎn)的梯度,捕獲輪廓信息和紋理信息,同時(shí)進(jìn)一步弱化光照的干擾。
先對(duì)圖像每個(gè)像素點(diǎn) (x,y) 橫坐標(biāo)、縱坐標(biāo)兩個(gè)方向的梯度值求解
Gx(x,y)=I(x+1,y)-I(x-1,y)
(2)
Gy(x,y)=I(x,y+1)-I(x,y-1)
(3)
式中:Gx(x,y)、Gy(x,y) 分別代表在像素點(diǎn) (x,y) 處的水平方向梯度和垂直方向梯度的像素值。接下來(lái)計(jì)算圖像中每個(gè)像素的梯度方向值,得出物體的輪廓信息和紋理信息。像素點(diǎn) (x,y) 的梯度幅值和梯度方向計(jì)算公式為
(4)
α(x,y)=arctan(Gy/Gx)
(5)
(3)將輸入圖像按設(shè)定尺寸劃分成相同規(guī)模的cells;
(4)對(duì)每個(gè)cell的梯度直方圖中不同梯度的個(gè)數(shù)分別進(jìn)行統(tǒng)計(jì),就可以構(gòu)成cell的描述子;
(5)將幾個(gè)相鄰的cell構(gòu)成block塊,相鄰cell特征描述子串聯(lián)起來(lái)即為整個(gè)block的HOG特征描述子;
(6)通過(guò)對(duì)輸入圖像中每個(gè)block的HOG特征描述子的串聯(lián),獲得該目標(biāo)圖像的完整HOG特征描述子。
支持向量機(jī)(support vector machine,SVM)是一種監(jiān)督式學(xué)習(xí)算法[10]。SVM學(xué)習(xí)算法在小樣本學(xué)習(xí)、非線性數(shù)據(jù)分類和高維度識(shí)別分類中具有較明顯的優(yōu)勢(shì)。SVM算法能將非線性分類的問題通過(guò)松弛變量和核函數(shù)的選擇來(lái)進(jìn)行解決。其中對(duì)于線性分類問題,假設(shè)訓(xùn)練樣本集Train={(x1,y1),(x2,y2),…,(xN,yN)}, 當(dāng)中類別yi∈{-1,1}, 通過(guò)線性SVM學(xué)習(xí)可用一個(gè)超平面C劃分為兩部分,如圖5所示。
圖5 二分類
(6)
對(duì)于線性可分的情況,特征向量x滿足相應(yīng)的分類決策方程組
(7)
分別找到兩類中距離分類超平面距離C最小的樣本點(diǎn),過(guò)兩點(diǎn)平行于分類超平面構(gòu)成兩個(gè)平面C1、C2, 兩個(gè)平面之間的距離稱為distance。經(jīng)計(jì)算
(8)
對(duì)于非線性分類問題,需要將低維空間的輸入特征向量映射到高維特征空間中,再通過(guò)松弛變量和核函數(shù)的選擇進(jìn)行解決。常用核函數(shù)類型有線性核函數(shù)、徑向基核函數(shù)和多項(xiàng)式核函數(shù)。
本文提出了一種由粗到細(xì)層級(jí)匹配的方法來(lái)完成基于關(guān)鍵詞的維吾爾文文檔圖像檢索。在前期合適的預(yù)處理和精準(zhǔn)單詞切分的基礎(chǔ)上,采用基于模板匹配的粗匹配和在特征提取基礎(chǔ)之上使用SVM的精確匹配來(lái)完成基于關(guān)鍵詞的維吾爾文文檔圖像檢索。
本文基于前期單詞圖像的準(zhǔn)確切分,使用選定關(guān)鍵詞和單詞圖像數(shù)據(jù)庫(kù)完成關(guān)鍵詞的粗匹配。首先將所選擇的關(guān)鍵詞作為模板圖像并進(jìn)行預(yù)處理,接著將切分?jǐn)?shù)據(jù)庫(kù)中的單詞圖像尺寸歸一化到模板關(guān)鍵詞圖像尺寸大小,最后與模板關(guān)鍵詞圖像使用標(biāo)準(zhǔn)歐式距離進(jìn)行匹配運(yùn)算。本文模板匹配算法的偽代碼如下所示:
算法1: 基于歐式距離的模板匹配
輸入: image(關(guān)鍵詞模板圖像)
輸出: positive_set (關(guān)鍵詞樣本集合)、 negativeset_set (非關(guān)鍵詞樣本集合)、 coarse_set粗匹配單詞集合
(1) pre(image); //對(duì)關(guān)鍵詞模板預(yù)處理
(2) for(inti=1;i<=P;i++) //P為文檔圖像頁(yè)數(shù)
(3) {
(4) for(intj=1;j (5) { (6) image1=讀取單詞數(shù)據(jù)庫(kù) //讀取單詞圖像 (7) RSize(image1);//單詞圖像歸一化到關(guān)鍵詞模板尺寸大小 (8) pre(image1); //預(yù)處理單詞圖像 (9) D=distance(image,image1,CV_L2);//計(jì)算圖像的歐式距離 (10) if(D<=d1) //歐式距離小于d1時(shí),將圖像放入關(guān)鍵詞集合 (11) { (12) positive_set. push(image1); (13) } (14) if(D (15) { (16) coarse_set. push(image1); (17) } (18) if(D>d3) //距離小于d3時(shí),將圖像放入非關(guān)鍵詞集合 (19) { (20) negativeset.push(image1); (21) } (22) } (23) } 關(guān)鍵詞的粗匹配階段通過(guò)對(duì)歐式距離設(shè)定合適的閾值構(gòu)造關(guān)鍵詞樣本集合、非關(guān)鍵詞樣本集合以及粗匹配篩選的單詞圖像集合。在上述算法過(guò)程中,d1 特征提取是整個(gè)文檔圖像檢索過(guò)程的關(guān)鍵步驟,從單詞圖像中提取有意義的信息,減少所需的存儲(chǔ)空間,使系統(tǒng)在文檔圖像檢索方面更加快速有效。單一的特征提取很難達(dá)到滿意的效果,恰當(dāng)?shù)膶?duì)不同特征提取方法進(jìn)行融合可以取得更完善的特征向量。本文使用如圖6所示的兩種方式提取HOG特征,一種是在預(yù)處理之后直接提取HOG特征向量,另一種是預(yù)處理之后在將圖像細(xì)化提取骨架的基礎(chǔ)之上提取HOG特征向量,最后將兩種HOG特征串聯(lián)融合。 圖6 特征提取 在文字識(shí)別的系統(tǒng)中,字符筆劃及其相對(duì)位置關(guān)系是重要的結(jié)構(gòu)特征。為了準(zhǔn)確提取字符筆劃及其位置特征,本文采用細(xì)化[11]的方法對(duì)字符進(jìn)行骨架特征提取。該方法是一種預(yù)處理操作,能夠在連續(xù)擦除字符邊緣像素的同時(shí)保持字符像素的拓?fù)溥B接關(guān)系不產(chǎn)生絲毫的變化,使之成為一個(gè)像素寬度的圖像骨架。 對(duì)訓(xùn)練樣本集合中的圖像進(jìn)行梯度方向直方圖(HOG)特征提取之前,需要設(shè)定一些必要的參數(shù),這些參數(shù)會(huì)對(duì)檢測(cè)效果產(chǎn)生重要的影響。本實(shí)驗(yàn)中將梯度方向直方圖提取參數(shù)設(shè)定見表1。 本文將16×16像素的檢測(cè)窗口劃分若干個(gè)為8×8像素的胞元,梯度方向量化為9。其中,每一個(gè)胞元的梯度直方圖能夠構(gòu)成該胞元的特征描述子;本文把4個(gè)8×8像素相鄰的胞元鏈接,形成一個(gè)16×16像素的block塊,將一個(gè)block塊內(nèi)4個(gè)尺寸相同胞元的特征描述子串聯(lián)起來(lái)構(gòu)成整個(gè)block塊的HOG特征描述子;最后,將16×16像素檢測(cè)窗口內(nèi)包含的所有塊的HOG特征描述子串聯(lián)融合得到整個(gè)窗口的HOG特征描述子。本文融合前HOG特征描述子維度為36維,融合后為72維。 表1 HOG參數(shù) 本文將關(guān)鍵詞檢索問題轉(zhuǎn)換成若干個(gè)二分類問題來(lái)解決,在粗匹配的基礎(chǔ)上采用核函數(shù)為RBF的SVM分類器對(duì)訓(xùn)練集中單詞圖像的兩種HOG特征向量進(jìn)行訓(xùn)練,再利用訓(xùn)練好的分類模型做精確匹配,并將識(shí)別結(jié)果返回給用戶。在本文中,基于SVM的學(xué)習(xí)分類系統(tǒng)的工作流程如圖7所示。 圖7 SVM工作流程 在樣本庫(kù)的構(gòu)成中,本文對(duì)關(guān)鍵詞采取基于標(biāo)準(zhǔn)歐氏距離的模板匹配從分割單詞圖像庫(kù)中構(gòu)建關(guān)鍵詞樣本集合、非關(guān)鍵詞樣本集合和粗匹配單詞集合。其中各集合數(shù)量及比例由關(guān)鍵詞的選擇及閾值的選擇決定。通過(guò)對(duì)訓(xùn)練集提取HOG特征,本文訓(xùn)練了一個(gè)分類模型。本文使用訓(xùn)練好的模型,對(duì)上一階段粗匹配單詞集合做出分類識(shí)別。在這一步對(duì)于SVM分類器的訓(xùn)練,本文選擇C類支持向量機(jī)SVC,核函數(shù)選擇基于徑向的函數(shù)RBF。 本文中的實(shí)驗(yàn)是在windows 7系統(tǒng)環(huán)境上進(jìn)行,其是Intel(R)Core(TM)i5-4210H、CPU2.9 GHz、4 GB內(nèi)存的PC,具體程序是在visual studio2012開發(fā)環(huán)境下編程調(diào)試,并借助OpenCV-2.4.10開發(fā)平臺(tái)實(shí)現(xiàn)的。 為驗(yàn)證本方法在基于關(guān)鍵詞的維吾爾文文檔圖像檢索中的有效性,本文選取了10個(gè)較常用且具有實(shí)際意義的關(guān)鍵詞進(jìn)行實(shí)驗(yàn)。本文隨機(jī)抽取文檔圖像數(shù)據(jù)庫(kù)中的108張文檔圖像,經(jīng)單詞切分后形成25 569張單詞圖像庫(kù)。關(guān)鍵詞模板為選定的目標(biāo)的關(guān)鍵詞,在粗匹配階段通過(guò)對(duì)閾值的調(diào)試來(lái)自適應(yīng)出訓(xùn)練集和粗匹配單詞集合,接著在融合兩種HOG特征的基礎(chǔ)上,由SVM進(jìn)行目標(biāo)關(guān)鍵詞的精確匹配。本文列舉其中一個(gè)關(guān)鍵詞的檢索結(jié)果:圖8為選定目標(biāo)關(guān)鍵詞的圖像,圖9為檢索出的目標(biāo)關(guān)鍵詞位置示例圖(以其中一幅文檔圖像為示例)。 圖8 目標(biāo)關(guān)鍵詞的圖像 圖9 檢索結(jié)果 本文在基于關(guān)鍵詞的維吾爾文文檔圖像檢索研究中,采用準(zhǔn)確率、召回率和F值3個(gè)常用指標(biāo)評(píng)價(jià)方法的效果。其中準(zhǔn)確率是檢索出相關(guān)關(guān)鍵詞數(shù)與檢索出的所有關(guān)鍵詞總數(shù)的比率,用來(lái)衡量關(guān)鍵詞檢索方法的查準(zhǔn)率;召回率是指檢索出的相關(guān)關(guān)鍵詞數(shù)和文檔庫(kù)中人工標(biāo)注相關(guān)關(guān)鍵詞數(shù)的比率,用來(lái)衡量檢索系統(tǒng)的查全率;F值,則是綜合這二者指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo)。鑒于此,本文做如下變量和指標(biāo)的定義: TP(True Positive):檢索為關(guān)鍵詞,實(shí)際也為關(guān)鍵詞; FP(False Positive):檢索為關(guān)鍵詞,實(shí)際是非關(guān)鍵詞; TN(True Negative):未被檢索到的關(guān)鍵詞,實(shí)際是非關(guān)鍵詞; FN(False Negative):未被檢索到的關(guān)鍵詞,實(shí)際是關(guān)鍵詞; (1)準(zhǔn)確率 precision=TP/(TP+FP)*100% (2)召回率 recall=TP/(TP+FN)*100% (3)F值 F=precision*recall*2/(precision+recall) 本文選定10個(gè)常用單詞作為關(guān)鍵詞,分別對(duì)其在單詞規(guī)模為25 569的108篇維吾爾文文檔圖像中層級(jí)匹配的檢索效果進(jìn)行統(tǒng)計(jì),包括粗匹配、單特征精確匹配和特征融合精確匹配。每張表中均包含人工標(biāo)注的目標(biāo)關(guān)鍵詞出現(xiàn)的個(gè)數(shù)、檢索到的目標(biāo)關(guān)鍵詞個(gè)數(shù)、算法共檢索到的相關(guān)單詞圖像個(gè)數(shù)、準(zhǔn)確率、召回率和F值等要素。 本文分別對(duì)10個(gè)關(guān)鍵詞在108篇維吾爾文文檔圖像中基于歐式距離的模板匹配結(jié)果統(tǒng)計(jì)見表2。 表2 基于模板匹配的關(guān)鍵詞檢索結(jié)果 表2中數(shù)據(jù)為使用基于歐式距離的模板匹配算法在維吾爾文文檔圖像中的粗匹配結(jié)果,其中準(zhǔn)確率平均值為43.31%,召回率平均值為85.27%,F(xiàn)值平均值為56.79%。從表2中可以看出第8個(gè)關(guān)鍵詞的準(zhǔn)確率最低,為29.82%,表示共檢索出57個(gè)單詞圖像,其中目標(biāo)關(guān)鍵詞僅僅包含17個(gè);相反也有準(zhǔn)確率較高的關(guān)鍵詞,第10個(gè)關(guān)鍵詞準(zhǔn)確率63.77%,即檢索到的69個(gè)關(guān)鍵詞中有44個(gè)為目標(biāo)關(guān)鍵詞。而對(duì)于召回率,第2個(gè)關(guān)鍵詞效果最好,為96.65%,共標(biāo)注的69處檢索到66處。最低為第8個(gè)關(guān)鍵詞73.91%,23個(gè)目標(biāo)關(guān)鍵詞檢索到了其中17個(gè)。 經(jīng)分析得出,粗匹配階段準(zhǔn)確率普遍偏低而召回率較高。這是因?yàn)樵撾A段是初步篩選的過(guò)程,未對(duì)關(guān)鍵詞圖像提取有效的特征而直接使用像素信息進(jìn)行匹配,歐式距離閾值的設(shè)定對(duì)匹配有影響。粗匹配應(yīng)在保證盡可能多的檢索到目標(biāo)關(guān)鍵詞的情況下,過(guò)濾數(shù)據(jù)庫(kù)中部分無(wú)關(guān)單詞圖像,過(guò)濾數(shù)量嚴(yán)重影響粗匹配的準(zhǔn)確率。本文在粗匹配的基礎(chǔ)上提取了兩種HOG特征向量,由SVM分類器學(xué)習(xí)分類,進(jìn)一步對(duì)目標(biāo)關(guān)鍵詞進(jìn)行匹配。表3為提取HOG特征實(shí)驗(yàn)結(jié)果,表4為在細(xì)化操作后提取HOG特征實(shí)驗(yàn)結(jié)果。 由表3可得,在模板匹配的基礎(chǔ)上提取HOG特征向量由SVM實(shí)現(xiàn)精確匹配的平均準(zhǔn)確率為87.96%,平均召回率為78.61%,平均F值為81.94%。其中關(guān)鍵詞3、4、10的準(zhǔn)確率均為最高值100%,代表檢索到的單詞圖像均為關(guān)鍵詞圖像。召回率中最高是第10個(gè)關(guān)鍵詞,為100%,代表標(biāo)注的目標(biāo)關(guān)鍵詞均被成功檢索。 由表4可得,在細(xì)化的基礎(chǔ)之上提取HOG特征的平均準(zhǔn)確率為79.45%,平均召回率為86.90%,平均F值為82%。其中準(zhǔn)確率最高為第1個(gè)關(guān)鍵詞,100%;召回率最高為第3個(gè)關(guān)鍵詞,100%。 由表3、表4與表2對(duì)比可得,分別提取兩種HOG特征向量精確匹配的檢索效果明顯好于基于模板匹配的粗匹配檢索效果。其中就平均準(zhǔn)確率而言,表3和表4分別提高了44.65%和36.13%;對(duì)于平均召回率而言,表3相比降低6.66%,而表4相比提高1.63%;對(duì)于同時(shí)考慮了準(zhǔn)確率和召回率而言的F值的平均值,分別提高了25.15%和25.21%。 表3 模板匹配+HOG+SVM的關(guān)鍵詞檢索結(jié)果 表4 模板匹配+細(xì)化+HOG+SVM關(guān)鍵詞檢索結(jié)果 由表3和表4中實(shí)驗(yàn)數(shù)據(jù)對(duì)比可知,表3的平均準(zhǔn)確率比表4高8.51%,表3的平均召回率比表4的低8.29%,表3、表4的平均F值相差不到0.1%。造成這些現(xiàn)象原因是,模板匹配只是簡(jiǎn)單的利用了圖像的像素信息,不能貼切的體現(xiàn)單詞圖像的特征,僅能起到初步過(guò)濾的作用。特征提取能提取圖像有意義的信息,減少所需的存儲(chǔ)空間。HOG特征表現(xiàn)了單詞圖像像素的梯度方向,而細(xì)化操作能提取圖像的骨架特征,兩者均能很好表示單詞圖像,提高圖像檢索性能。 單一的特征提取的表現(xiàn)往往不盡如人意,恰當(dāng)?shù)膶?duì)不同特征提取方法進(jìn)行融合可以取得更恰當(dāng)?shù)奶卣飨蛄?。為了進(jìn)一步提高檢索系統(tǒng)的性能,本文結(jié)合了兩種HOG特征向量,實(shí)驗(yàn)結(jié)果見表5。 表5 基于模板匹配+特征融合+SVM的關(guān)鍵詞檢索結(jié)果 從表5中分析可得,10個(gè)關(guān)鍵詞的檢索準(zhǔn)確率平均值為91.14%,召回率平均值為79.31%,F(xiàn)值平均為84.23%。其中第7個(gè)關(guān)鍵詞的準(zhǔn)確率最高,為100%,第6個(gè)關(guān)鍵詞的召回率最高,為93.02%,第7個(gè)關(guān)鍵詞的F值最高,為93.02%。 表5中的數(shù)據(jù)實(shí)驗(yàn)結(jié)果是結(jié)合了兩種HOG特征所得到的。與表3、表4相比可得,檢索系統(tǒng)的整體性能有一定的提升。其中,準(zhǔn)確率平均值有大幅提升,召回率平均值有所下降,F(xiàn)值均值也有一定程度的提升。這是因?yàn)镠OG特征表現(xiàn)了單詞圖像像素的梯度方向,描述了圖像細(xì)節(jié)和像素分布特征,而細(xì)化又能提取關(guān)鍵詞圖像的骨架,兩者結(jié)合能更全面的表示單詞圖像,進(jìn)一步提高檢索性能。 由表1~表5中的實(shí)驗(yàn)數(shù)據(jù)可以總結(jié)出,在粗匹配階段準(zhǔn)確率較低,召回率較高;而在精確匹配階段相反,關(guān)鍵詞的平均檢索準(zhǔn)確率要高于召回率。經(jīng)分析,兩種HOG特征特征提取,能夠有效提取單詞圖像的特征信息,并通過(guò)SVM分類器能夠得到良好的檢索效果。通過(guò)特征融合的方法,從多方面表示圖像信息,能夠有效提高關(guān)鍵詞文檔圖像檢索實(shí)驗(yàn)的性能。 為了更好探究本文所提出的基于關(guān)鍵詞的維吾爾文文檔圖像檢索方法,查閱了關(guān)鍵詞檢索相關(guān)文獻(xiàn),對(duì)近幾年的實(shí)驗(yàn)結(jié)果與本文的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,對(duì)比情況見表6。 由表6可知,本文方法在對(duì)維吾爾文文檔圖像進(jìn)行關(guān)鍵詞檢索時(shí),平均準(zhǔn)確率為91.74%,平均召回率為79.31%,平均F值為84.23%。本文的研究?jī)?nèi)容彌補(bǔ)了維吾爾文中基于關(guān)鍵詞的文檔圖像檢索領(lǐng)域的空白。與表中另外3組實(shí)驗(yàn)對(duì)比,本文的方法在準(zhǔn)確率方面效果較為理想,召回率和F值有較大的提升空間。 本文提出了一種基于層級(jí)匹配的維吾爾文關(guān)鍵詞文檔圖像檢索方法,是在維吾爾文識(shí)別、圖像檢索等領(lǐng)域中的新研究,彌補(bǔ)了維吾爾文文檔圖像檢索相關(guān)領(lǐng)域的空白。該方法在單詞切分的基礎(chǔ)之上,使用基于歐式距離的模板匹配算法構(gòu)造出關(guān)鍵字樣本和非關(guān)鍵字樣本,提取融合兩種HOG特征并使用SVM分類器對(duì)樣本進(jìn)行訓(xùn)練分類。實(shí)驗(yàn)結(jié)果表明,本文的單詞圖像切分準(zhǔn)確率達(dá)到98.7%,文檔圖像檢索準(zhǔn)確率平均值為91.14%,召回率平均值達(dá)到79.31%。在今后的研究工作中,將繼續(xù)提高單詞切分精度,并提高粗匹配階段的性能。嘗試提取單詞的多種有效特征,并使用多種分類器進(jìn)行實(shí)驗(yàn)對(duì)比。 表6 基于關(guān)鍵詞的文檔圖像檢索結(jié)果對(duì)比3.2 HOG特征提取過(guò)程
3.3 SVM分類過(guò)程
4 實(shí)驗(yàn)結(jié)果及分析
4.1 評(píng)價(jià)指標(biāo)
4.2 文檔圖像檢索實(shí)驗(yàn)結(jié)果及分析
5 結(jié)束語(yǔ)