時慧琨
(淮南師范學院 計算機與信息工程系,安徽 淮南 232001)
基于語義的圖像檢索系統(tǒng)中以圖像的語義作為圖像檢索的依據(jù),而如何獲取圖像語義目前有各種各樣的實現(xiàn)方法,包括利用分類和聚類的技術;對圖像及其語義進行建模;利用相關反饋學習圖像語義;利用圖像周圍信息學習的方法等[1].不同的系統(tǒng)實現(xiàn)時均采用了其中的一項或多項技術,其總的目標是建立圖像與語義之間的映射關系,從而克服圖像底層特征和語義特征間的“語義鴻溝”,實現(xiàn)語義特征之上的基于內(nèi)容的圖像檢索(CBIR).
對于利用相關反饋學習圖像語義的方法來說,其基本過程是一個循環(huán)[2]:①系統(tǒng)返回檢索結果.②用戶對返回結果添加反饋,指出相關或者不相關圖像.③根據(jù)用戶反饋信息對檢索的參數(shù)加以調(diào)整,重新進行檢索,然后回到②.這樣一個系統(tǒng)由于將人的因素考慮其中,具有和人類學習方法類似的思路,因此具有較高的檢索效果,是一種很有價值的語義映射方法.
但這樣的系統(tǒng)有幾個缺點:①耗時太長,學習每一個語義概念都需要用戶指定相當多的圖像范例,而用戶的耐心是有限的.②用戶在語義檢索時可能指定了多個語義概念,而用戶的反饋可能針對的只是其中部分的概念,從而造成兩次反饋所對應的概念不同,即造成學習過程的“震蕩”.
如何克服以上缺點,參考一下目前因特網(wǎng)上的搜索引擎就可以得到啟發(fā),對于目前使用的搜索引擎例如Google、Baidu等來說,其均提供了圖像的檢索,這種檢索的常見形式是用戶輸入語義關鍵詞,系統(tǒng)返回相關的圖像列表,用戶如果對返回的圖像感興趣,則可以點擊查看大圖或者原始圖像等其它信息.這個點擊實際上就是用戶在自己設定的檢索條件下對顯示圖像的一個確認,即認為圖像與查詢條件是相關的,這實際上就是一個反饋信息.盡管單個用戶的點擊信息是有限的,但是鑒于搜索引擎工作使用的普及與頻繁程度,如果能夠把所有用戶在使用搜索引擎時的點擊情況都記錄下來,則這是一個龐大的反饋信息集合.有些搜索引擎也提供了公開的或者僅面向研究使用的搜索日志[3],研究者也可以開發(fā)自己的圖像搜索系統(tǒng)供用戶使用,并搜集所有用戶的點擊記錄.因此第一個缺點也就可以得到解決.
對于第二個缺點的解決,同樣可以從搜索引擎中得到啟發(fā).用戶在輸入查詢條件時可能是一個概念或多個概念或句子,而用戶的反饋可能只是針對其中的部分概念.因此,應首先對查詢條件進行分詞將之轉(zhuǎn)換為關鍵字集合,根據(jù)該集合內(nèi)容進行分析.
(1)關鍵字集合中只包含單個概念,這是簡單的情況,此時,用戶的點擊肯定是對此概念的確認,按照相關反饋中的權值更新算法直接更新此概念權值即可.
(2)關鍵字集合中包含多個概念,此時用戶的反饋更有可能是對其中的部分概念甚至只是一個概念進行確認,此時可以利用貝葉斯理論計算查詢條件中所有概念的后驗概率,按照一定的規(guī)則選擇其中具有最大概率值的概念進行更新即可.
有兩點需要注意:①如果用戶查詢的概念在圖像的語義標注中不存在,則需要將此概念加入到圖像語義標注中并賦予最初權值,如果已經(jīng)存在,則需要按一定規(guī)則對語義標注信息進行更新.②這個更新的過程并不是一個在線的過程,由于系統(tǒng)分析的是所有用戶的日志記錄,因此該過程可以在后臺離線定時進行.
在實現(xiàn)時,將用戶的每次查詢的情況保存為一個查詢記錄,在這個記錄中記錄了用戶的查詢關鍵詞,假設在這次查詢中,用戶點擊了c幅圖像,則將此關鍵詞記錄保存到c幅圖像的查詢記錄集合中,因此對系統(tǒng)數(shù)據(jù)庫中的圖像來說,每幅圖像都保存一個查詢記錄集合,每個集合中記錄了該幅圖像所對應的查詢記錄,每個查詢記錄均對應著一個次數(shù)字段,記錄該查詢記錄在實際查詢中出現(xiàn)的次數(shù).對此查詢記錄集合進行分析,即可以進行更新[4].對某個關鍵詞來說,其在所有圖像的所有查詢中可能出現(xiàn)多次,在一幅圖像對應查詢關鍵字記錄中也可能出現(xiàn)多次.對一幅圖像來說,其可能對應著多個不同的關鍵字記錄集合,并且不同的關鍵字記錄集合出現(xiàn)的次數(shù)也均是不同的.如果有兩次查詢使用的關鍵字記錄相同,則這兩次的查詢記錄在數(shù)據(jù)庫中只保存一次,但是記錄中次數(shù)字段為2.
假設系統(tǒng)中圖像個數(shù)為l,其中圖像Ii(i=1,2,……,l)對應查詢記錄集合Qi中共有Ni個記錄,則Q={{Q1,ci1},{Q2,ci 2},……,{QNi,ciNi}},其中第j個記錄Qij={t1,t2,……,tM},對應出現(xiàn)次數(shù)為cij,t1,t2,……,tM分別為查詢關鍵詞,M為該記錄中查詢關鍵詞的個數(shù).
(1)M=1,此時記錄中關鍵字只有1個.直接在圖像Ii的標注中找到此關鍵字標注,更新權值.如果沒找到,插入此關鍵字,設定初始權值.
(2)M>1,此時記錄中關鍵字不止一個,此時集合中的關鍵字為tk(k=1,2,……,m),設每個關鍵字與圖像相關的后驗概率設為P(tk|Ii),根據(jù)貝葉斯公式:
對上式進行化簡后可得:
在這樣的系統(tǒng)中由于用戶的反饋都是正反饋,在權值更新時采用如下規(guī)則:標注的初始值設為0.01,如果當前某標注權值為Wold,如果在其后的使用過程中此標注得到n次反饋,則新權值`Wnew=Wold*2n,當計算結果大于1時置為1,此時標注可以看成一個絕對可信的標注.之所以如此更新基于兩個原因:①用戶對圖像的語義把握是比較準確的,當多人圖像的語義具有相同看法時,該語義的可信度將增長,并且增長的速度應該大于線性速度.當反饋次數(shù)達到一定程度,此標注即是絕對可信的.②如此更新公式保證了不論何時對查詢記錄進行學習,只要反饋次數(shù)相同,其權值更新最終結果都是一樣的.對于用戶點擊錯誤的情況,由于出錯情況比較少,盡管其權值也得到提高,但提高的幅度比較小,如果對每幅圖像標注詞的個數(shù)加以限制并逐步淘汰權值小的標注,則錯誤標注最終將消失.
對以上的方法在一個基于內(nèi)容的圖像檢索系統(tǒng)中加以使用,得到了良好的效果.基于該方法,可以使得圖像獲得原本沒有的語義標注,如果語義標注已存在,則可以對原有標注的準確程度加以改善.如果將該方法同其它學習圖像語義映射的方法結合起來,則系統(tǒng)的效果能夠進一步提高.
參考文獻:
[1]李志欣,施智平,等.圖像檢索中語義映射方法綜述[J].計算機輔助設計與圖形學學報,2008,20(8):1085-1096.
[2]Zhou X S, Huang T S. Relevance Feedback in Image Retrieval: A Comprehensive Review[J]. Multimedia Systems.2003,8(6):536-544.
[3]Sogou Labs.用戶查詢?nèi)罩?SogouQ)[Z]. http://www.sogou.com/labs/resources.html.2008.
[4]Zheng Chen, Liu Wen-yin, et al. Web mining for Web image retrieval[J]. Journal of the American Society for Information Science and Technology,2001,52:831-839.