閻 循 蓉
(宜春職業(yè)技術(shù)學(xué)院,336000,江西,宜春)
本世紀(jì)以來,隨著計算機技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展,信息科學(xué)以驚人的速度改變著人們的思維、認(rèn)知和行為方式。尤其是最近十幾年,出現(xiàn)了物聯(lián)網(wǎng)、大數(shù)據(jù)、區(qū)塊鏈、深度學(xué)習(xí)、移動互聯(lián)網(wǎng)等技術(shù)。計算機和人們生產(chǎn)、生活結(jié)合得越來越緊密。傳統(tǒng)的圖書館作為人類學(xué)習(xí)技能、傳播文化的重要場所,無論是信息載體還是服務(wù)體系或者檢索方式,也在發(fā)生著日新月異的變化。
近20年來,數(shù)字圖書館(Digital Library)作為傳統(tǒng)圖書館發(fā)展的必然方向,取得了長足的發(fā)展。數(shù)字圖書館是隨著互聯(lián)網(wǎng)發(fā)展而興起的,其中數(shù)字的含義是在傳統(tǒng)圖書館的基礎(chǔ)上,通過計算機的數(shù)字化技術(shù)來對各類電子信息資源進行收集、整理、保存、歸檔、檢索、查詢、應(yīng)用等[1]。因此通過數(shù)字圖書館,可以突破用戶地理位置的限制,讓不同地區(qū)(突破傳統(tǒng)圖書館地域限制)的人可以輕松使用同一個數(shù)字圖書館提供的各種服務(wù)。因此數(shù)字圖書館是跨區(qū)域的、分布式的,可以整合不同地理位置的電子資源,將其歸類、整理、存檔,以便于提供相應(yīng)的信息服務(wù)功能。當(dāng)然也包括傳統(tǒng)圖書館的功能,例如文獻檢索和書刊查詢等[2]。我國自1996年開始提出“數(shù)字圖書館”的概念,到現(xiàn)在已經(jīng)發(fā)展了20多年的時間。這期間,數(shù)字圖書館領(lǐng)域的研究得到了國家科技部的大力支持,各種國家級重大科技項目、國家863項目投入了大量的經(jīng)費進行該領(lǐng)域的研究,也取得了一系列的成就。國際圖書館協(xié)會聯(lián)合會(International Federation of Library Associations and Institutions,IFLA)是世界各國的圖書館協(xié)會組成的國際性組織,也是目前該領(lǐng)域最權(quán)威的專業(yè)機構(gòu)。在計算機高速發(fā)展的今天,國際圖書館協(xié)會聯(lián)合會也在緊跟時代發(fā)展的腳步,引領(lǐng)圖書館學(xué)的發(fā)展方向。自2014年開始,國際圖書館協(xié)會聯(lián)合會加大了數(shù)字圖書館方面的研究力度,相應(yīng)的研究論文數(shù)量呈現(xiàn)逐年遞增的趨勢,在2018年更是達到了研究的高峰。將大數(shù)據(jù)、物聯(lián)網(wǎng)、移動通信技術(shù)、人工智能等新技術(shù)應(yīng)用于數(shù)字圖書館領(lǐng)域來解決數(shù)字圖書館面臨的新問題成為該領(lǐng)域近幾年的研究熱點方向。相信隨著新技術(shù)的發(fā)展,數(shù)字圖書館研究領(lǐng)域必然呈現(xiàn)出更加多樣化、智能化的發(fā)展趨勢。
數(shù)字圖書館中存儲的是分布式、多樣化的電子信息,包括各種電子文檔、各種視頻、各種音頻、各種圖像等[3]。這些多媒體信息是數(shù)字圖書館信息源的基本組成部分,其中圖像數(shù)據(jù)占很大比重。眾所周知,人類視覺在所有感覺中(包括觸覺、聽覺、味覺、嗅覺等)占主要地位,因為人類獲取的信息80%來自于視覺。因此多媒體信息中的圖像類數(shù)據(jù)也是人類獲取的最主要數(shù)據(jù)源。怎樣對其進行高質(zhì)量的檢索勢必影響多媒體信息的檢索效果。換言之,數(shù)字圖書館中,圖像信息的檢索占重要地位(視頻信息也可以看作是圖像信息,因為視頻由一幀一幀的圖像組成)。
傳統(tǒng)的文本檢索僅限于關(guān)鍵字已知的應(yīng)用場景,是通過輸入單一或者組合關(guān)鍵字,來將待檢索條件與文檔庫中既有資源進行關(guān)鍵字比對,從而定位到需要資源的過程。假設(shè)初次檢索得到的結(jié)果并不能滿足要求,則可以在初次檢索的基礎(chǔ)上,通過用戶反饋來調(diào)節(jié)關(guān)鍵詞名稱、順序、組合方式等形式,最終得到較滿意的檢索結(jié)果。而數(shù)字圖書館中的圖像信息,屬于非結(jié)構(gòu)化的數(shù)據(jù)[4]。雖然可以簡單通過給圖像添加說明文字的方式將其轉(zhuǎn)變成傳統(tǒng)的文本檢索,但一方面不符合實際情況,因為數(shù)字圖書館中的圖像信息是海量的,很難組織大量專門人員對所有圖像進行說明文字添加工作;另一方面人工添加說明文字具有一定的片面性、主觀性、隨機性等問題。不同人添加的說明文字會有差異,同一個人在不同的情緒、心態(tài)、時間段添加的說明文字也會有所差異,因此該方式很難適應(yīng)現(xiàn)代高速發(fā)展數(shù)字圖書館的檢索需求。
為此發(fā)展出專門的檢索技術(shù):基于內(nèi)容的圖像檢索(Content Based Image Retrieval,CBIR)技術(shù)[5],這是從圖像數(shù)據(jù)庫中檢索出和目標(biāo)(待檢索)圖像具有最大相似特征的圖像的過程[6]。該技術(shù)需要首先從圖像中提取出有利于檢索的信息作為圖像的基本特征[7],包括從圖像中提取的顏色、紋理、形狀等信息。將這些信息組成一個整體,和數(shù)字圖書館的圖像庫中的源圖像進行比對,通過一定的相似性評價技術(shù)進行彼此相似性的比對,并進行打分,從而得到和待檢索圖像具有最大相似度的圖像。該技術(shù)的重點和難點一方面在于圖像的特征提取技術(shù),另一方面在于相似性評價技術(shù)。
數(shù)字圖書館中的圖像信息包含的特征有很多種(圖1):1)簡單的底層特征,包括顏色、紋理、形狀等;2)圖像中包含的對象間的空間信息特征;3)圖像中蘊含的語義特征,包括場景信息、情感信息等。
可以形象地用一個層次模型來表示圖像中包含的特征[8-9]。
圖1 圖像的分層特征
從圖1中可以看出,圖像特征可以大致分成3個層次。第1層也是最底層,屬于物理層特征,是圖像中可以直觀提取的基本特征。該類特征可以通過一定的計算機技術(shù)進行提取,可以反映出圖像中最表面的信息。這類特征可以作為圖像檢索的基本條件。因為當(dāng)2幅圖像差別顯著時,那么其相互間的顏色等特征必然有明顯的區(qū)別??梢詮脑擃愄卣魅胧郑瑢ふ覉D像間的顯著區(qū)別,作為圖像檢測的第1個必要條件。通過顏色進行區(qū)分的方式比較常見:如包含天空的圖像與包含花朵的圖像進行區(qū)分就可以簡單通過顏色的方式:天空圖像以藍色、灰色為主,藍色、灰色和白色占一定比例;花朵圖像以紅色、黃色、紫色為主,紅色、黃色、紫色和綠色占一定比例。因此這2類圖像即可以通過計算不同顏色值及相互間比重的方式進行區(qū)別。如圖2所示。
圖2 不同顏色比例的天空與花朵圖像
通過紋理對圖像進行區(qū)分的情況也較多:一幅冰箱圖像,由于冰箱表面經(jīng)過拋光等工藝,因此紋理較細;另一幅織物圖像進行區(qū)分時,因為織物紋理較粗糙,因此很容易通過紋理對冰箱、織物進行區(qū)分。如圖3所示。
圖3 不同紋理的冰箱、織物圖像
僅通過顏色、紋理等特征有的時候很難對圖像進行區(qū)分,比方說斑馬線和斑馬、紅氣球和紅太陽。因此需要在此基礎(chǔ)上,從圖像中提取更多的特征以輔助進行圖像間的區(qū)分。
第2層特征是邏輯層特征,也是在物理層特征的基礎(chǔ)上,可以從圖像中通過較直觀的方式進行提取的部分特征。具體包括圖像中所蘊含的內(nèi)容對象的空間關(guān)系、位置信息以及不同對象的標(biāo)志信息等。這方面的特征是對圖像內(nèi)容[10]而言的。眾所周知,圖像都需要包含一定的信息。比方說,菊花圖像中菊花的分布呈現(xiàn)出花瓣圍繞中心展開的特點;羊群圖像中羊群分布有一定的規(guī)律。這些信息會在具體位置上呈現(xiàn)出一定的空間分布的特點,比方說上下左右前后等方位信息以及位置信息。這些信息也代表了圖像的部分內(nèi)容,是圖像所包含的主要、直接信息源,也可以作為圖像檢索的重要依據(jù)之一。如圖4所示。
第2層特征有時也很難對圖像進行區(qū)分,例如2幅狗表情圖像,需要進行區(qū)分時,在第1層、第2層特征都相似的情況下,很難進行有效的區(qū)分,因此需要從圖像提取更多的特征。
圖4 不同空間相對位置的菊花、羊群圖像
第3層是抽象層,是從圖像中進行邏輯抽象和推理后得到的一些有具體語義的信息。這些信息需要對圖像進行解讀,并且進行理解后得到的包括圖像中對象的場景、情感等特征。如給定一幅圖,可以從中讀出圖像描述的地理位置、大致范圍、大體環(huán)境、典型景觀或者標(biāo)志性建筑等信息,因此可以對包含不同位置特點的圖像進行區(qū)分(圖5);在一幅圖中包含人或動物臉部信息時,可以從中讀出人或動物的表情信息,從而對不同的表情進行區(qū)分。如圖6所示。
圖5 不同地理位置、標(biāo)志性建筑圖像
圖6 不同的表情圖像
通過以上3個層次的特征,即可從圖像中提取到較充分的信息。另外,圖像本身的來源、獲取圖像的網(wǎng)址、圖像所在位置附近的文字提示信息都可以作為圖像必要的特征幫助進行圖像之間的區(qū)分。具體特征有以下幾部分。
顏色作為圖像的最直接、最簡單特征,可以很方便地表達出圖像的基本信息,對圖像檢索具有重要意義。圖像的顏色特征具有穩(wěn)定、平移不變性、旋轉(zhuǎn)不變性的特點。顏色包括幾個主要方面:在整幅圖中不同顏色所占比例;在局部顏色的不同分布特點。其中在整幅圖的顏色所占比例情況可以通過計算不同顏色所占比例進行計算,這對于區(qū)分顏色差別較大、各顏色占比例差別懸殊的不同圖像比較合適。在整體顏色比例類似的情況下,可以計算局部顏色的不同分布情況,來進行進一步的區(qū)分。顏色特征提取可以通過顏色直方圖技術(shù)來獲取。顏色提取方法可以采用直方圖加權(quán)法或者直方圖相交法。
紋理特征分為局部紋理特征和全局紋理特征兩類。是圖像內(nèi)像素點周圍鄰近的點灰度變化的反映。紋理揭示的是某種非隨機特性,反映的是圖像某一范圍內(nèi)不斷重復(fù)出現(xiàn)的特點。通常不同表面粗糙度、材質(zhì)、平滑度的圖像具有不同的紋理特征。紋理特征在局部的重復(fù)性,可以構(gòu)成其在全局的紋理特征。紋理特征有很多不同的衡量方法,如:灰度共生矩陣法、地統(tǒng)計學(xué)變差函數(shù)法、小波紋理提取法等。通過紋理特征提取法,可以提取圖像的方差、均值、熵、對比度、能量等特征。這里可以采用灰度共生矩陣的方法進行紋理特征提取。灰度共生矩陣是統(tǒng)計圖像上一定角度、一定方向的點與點的概率統(tǒng)計分布規(guī)律,從而揭示圖像顏色值在方向、角度、速度上的變化。
形狀特征是區(qū)分不同圖像的重要特征??梢圆捎脙煞N特征對形狀進行反映:輪廓特征和區(qū)域特征。其中輪廓特征也稱為邊界特征,代表了圖像內(nèi)不同內(nèi)容的邊界特點,包括:中心矩、偏心度等特征。通過輪廓特征可以很好地提取圖像內(nèi)所包含內(nèi)容的大致輪廓信息。除了輪廓信息以外,還可以通過區(qū)域特征來反映圖像的形狀特點。區(qū)域特征具體包括彎曲點、轉(zhuǎn)角度等特征。通過形狀特征,可以很好地對顏色、紋理接近的圖像進行進一步的區(qū)分和比較。
這部分特征的提取是在顏色、紋理等特征提取的基礎(chǔ)上,對圖像進行分割操作得到圖像內(nèi)各部分內(nèi)容后,對各內(nèi)容相互之間的聯(lián)系、位置、標(biāo)志進行區(qū)分的結(jié)果。具體可以通過分割的方法[11],將圖像分成前景和背景部分,對前景部分進行細分,得到各個主體內(nèi)容的信息,對其進行位置計算、標(biāo)志衡量的工作,得到不同內(nèi)容相對位置、空間關(guān)系以及內(nèi)容所含標(biāo)識信息,將其作為圖像的重要特征。
該類特征屬于圖像抽象層次的特征,需要在常規(guī)特征提取的基礎(chǔ)上,使用機器學(xué)習(xí)中分類和預(yù)測的技術(shù),對圖像中包含對象內(nèi)容的抽象特征進行提取和分析,從而得到反映圖像較高層次的特征。具體需要先對圖像進行分割操作,得到前景和背景信息,分別對前景和背景信息進行分析,得到包含圖像主要內(nèi)容的對象,從中提取出圖像產(chǎn)生的場景、圖像中反映對象的情感、行為特征。這些特征反映的是圖像內(nèi)部所包含內(nèi)容抽象層次的高層次信息,是對圖像內(nèi)容進行科學(xué)理解和分析的結(jié)果。該類特征的提取情況,反映了圖像檢索系統(tǒng)的智能化程度。也即是說,所提取的情感類特征越準(zhǔn)確,越能反映出檢索系統(tǒng)的智能水平,系統(tǒng)的檢索程度也越接近于人類自然檢索的結(jié)果。
除了圖像中包含或者提取的特征外,圖像本身來源也提供了豐富的信息。這些信息很多都是對圖像最好的說明,往往最能代表圖像的本質(zhì)特征。圖像的出處,也就是圖像的來源可以表示圖像的部分信息。比方說來自于古代雕塑網(wǎng)站的圖像往往反映了古代雕塑這個主題的信息;來自于現(xiàn)代美術(shù)網(wǎng)站的圖像一般代表現(xiàn)代美術(shù)方面的信息等。圖像來源地附近的文字信息很多情況下也和圖像有著千絲萬縷的聯(lián)系,這些信息在一定程度上反映了圖像所包含的語義信息。如一般論文引用圖像位置下面緊跟著是圖像的編號和名稱信息,有時還包含圖像的詳細解釋信息等。
以上圖像特征可以較全面地反映圖像所包含的內(nèi)容、圖像自身意義、圖像內(nèi)部所蘊含的情感、地理空間位置、時代背景、場景環(huán)境等信息。因此充分提取以上特征,非常有利于提高圖像檢索系統(tǒng)的性能。
在以上圖像特征提取的基礎(chǔ)上,可以采用適當(dāng)?shù)臋C器學(xué)習(xí)算法對待檢索圖像和數(shù)字圖書館中圖像進行相似性比較。從而對數(shù)字圖書館中與待檢索圖像較接近的結(jié)果按照相似程度從大到小依次顯示輸出,從而完成檢索過程。這里的相似性比較方法主要采用計算不同圖像特征矢量間的距離方式。在所有距離中,歐式距離較通用。計算待檢索圖像特征向量與數(shù)字圖書館中圖像的歐式距離,然后按照彼此距離從小到大排序,距離越小的圖像間相似性越大。歐式距離公式為:
在提取了足夠的特征、選擇了合適的相似性比較算法之后,可以通過在不同特征組成的特征矢量上采用歐氏距離比較方法進行相似性比較。
目前大多數(shù)數(shù)字圖書館圖像檢索系統(tǒng)均是基于圖像的部分特征,比方說顏色特征、紋理特征來進行相似性比較從而確定圖像間的相似性。這個方法固然可以進行一定的相似性比較,也可以得到圖像檢索結(jié)果。但由于并未充分利用圖像中包含的全面特征,因此得到的檢索結(jié)果不盡如人意;另外也有的檢索系統(tǒng)將所有特征提取方法提取的特征組合在一起進行綜合特征比對[12]。這個方法表面上看起來充分利用了全面的圖像特征,但因為不同特征往往具有自己特點,因此將其綜合在一起進行檢索,得到的結(jié)果不一定更好,有時可能會適得其反。這個問題在機器學(xué)習(xí)領(lǐng)域早有定論,“維數(shù)災(zāi)難”就是這樣產(chǎn)生的。也就是說,對待研究的樣本進行特征提取時,并不是特征維度越高越好。因為構(gòu)成待研究樣本特征集的特征組合中,有的特征并不一定能夠準(zhǔn)確反映待研究樣本的本質(zhì)特點,有的特征之間是相互矛盾的。因此將其統(tǒng)一在一個特征集里,通過一定的相似性度量方法進行相似性比較,往往會得到比單一特征更差的結(jié)果。
這個問題在機器學(xué)習(xí)領(lǐng)域可以通過集成學(xué)習(xí)的方法進行解決。為此,在數(shù)字圖書館圖像檢索領(lǐng)域,引入機器學(xué)習(xí)的集成學(xué)習(xí)技術(shù)。合理利用各特征組成子特征集,在每個子特征集上采用一定的相似性度量方法進行相似性比較,然后通過集成學(xué)習(xí)的加權(quán)平均方法和意見一致性方法來充分利用各子特征集得出的結(jié)論,形成統(tǒng)一的結(jié)果作為查詢結(jié)果。在人機交互的環(huán)境下,可以通過加權(quán)平均和意見一致性方法對各權(quán)值進行動態(tài)調(diào)整,從而得到更好的查詢結(jié)果。
由于檢索算法在各個特征子集上得到的檢索子結(jié)果不同,勢必造成不同的檢索差異。這個差異可以用來對不同的檢索特征子集進行最大化信息互補,從而提高單一特征子集上檢索結(jié)果差的問題。根據(jù)不同檢索特征子集檢索結(jié)果可靠程度(人工評價),可以對不同的特征子集設(shè)置不同的權(quán)重。對于用戶認(rèn)為貢獻較大的特征子集,權(quán)重設(shè)置相應(yīng)提升(0和1之間的一個值),對于用戶認(rèn)為貢獻較小的特征子集,權(quán)重設(shè)置相應(yīng)降低(也是0和1之間的一個值)。這樣可以充分利用不同特征子集的檢索結(jié)果,對各結(jié)果進行最大化互補,從而得到更理想的檢索結(jié)果。
借鑒物理學(xué)的共振原理。當(dāng)系統(tǒng)被外界刺激,進行強迫震動時,當(dāng)二者頻率接近時,強迫震動的振幅最大。將此原理引入到圖像檢索領(lǐng)域的集成學(xué)習(xí)中。當(dāng)檢索算法在不同的特征子集上得到的結(jié)果近似程度較高時,可以將不同檢索結(jié)果設(shè)置為接近的權(quán)重。這樣這些特征子集所起的作用會得到進一步的增強,從而能夠得到更加理想的檢索結(jié)果。因此在人機交互進行反饋式檢索的過程中,可以比較不同特征子集上的檢索結(jié)果,對其中結(jié)果近似程度較高的結(jié)果,由系統(tǒng)設(shè)置接近的權(quán)重,從而將其作用進行放大。
在以上設(shè)計的基礎(chǔ)上,形成基于集成學(xué)習(xí)的反饋式圖像檢索系統(tǒng)。采用加權(quán)平均法和意見一致性方法,對圖像各子特征集得到的檢索結(jié)果進行決策級融合。并通過人工交互的方式,由系統(tǒng)接收用戶的反饋。以此為依據(jù)進行權(quán)重的調(diào)整,直至得到滿足用戶需要的檢索結(jié)果。系統(tǒng)的架構(gòu)圖如圖7。
針對目前數(shù)字圖書館中信息多樣化、檢索需求多樣化的實際問題,提出一個結(jié)合加權(quán)投票法、意見一致性方法等集成學(xué)習(xí)方法的相關(guān)反饋圖像檢索系統(tǒng)。包括顏色、紋理、形狀、空間、位置關(guān)系、標(biāo)志特征、場景、情感、行為特征、圖像語義特征提取方法以及采用歐式距離進行計算的相似性度量方法。最后給出完整的系統(tǒng)的整體架構(gòu)圖。該系統(tǒng)通過引入集成學(xué)習(xí)的加權(quán)投票、意見一致性方法在相關(guān)反饋過程中進行各子查詢結(jié)果優(yōu)化時進行權(quán)重的調(diào)整,從而使系統(tǒng)得到更加理想的檢索結(jié)果。
圖7 數(shù)字圖書館基于集成學(xué)習(xí)的相關(guān)反饋圖像檢索系統(tǒng)架構(gòu)圖