跨媒體檢索的技術(shù)研究

2014-04-29 00:44:03胡昕孫巍

電腦迷 2014年9期

關(guān)鍵詞：圖像檢索

胡昕　孫巍

摘要在實際的媒體檢索實踐中，可以觀察到普遍存在一種近鄰關(guān)系非可逆的現(xiàn)象：假設(shè)媒體對象i在媒體對象j的檢索結(jié)果中，但媒體對象_/并不一定存在于媒體對象f的檢索結(jié)果中。然而，如果兩個媒體對象各自存在于對方的檢索結(jié)果中，也就是兩個媒體對象滿足近鄰關(guān)系可逆性，那么這兩個媒體對象很有可能是真正相似的。于是就可以利用近鄰關(guān)系可逆性來幫助提高檢索精度。針對圖像檢索中近鄰關(guān)系對于近鄰數(shù)量的敏感性，提出了一種自適應(yīng)近鄰數(shù)量選擇算法。該算法可以自動的為數(shù)據(jù)庫中的每個圖像選擇一個合適的近鄰數(shù)量，從而避免算法對不同類型圖像數(shù)據(jù)庫的差異性。

關(guān)鍵詞跨媒體檢索圖像檢索 LRGA算法

中圖分類號：TP3 文獻標識碼：A

跨媒體所包含的內(nèi)容非常廣泛，包括多媒體數(shù)據(jù)的存儲、多媒體數(shù)據(jù)檢索、多媒體數(shù)據(jù)的組織管理、多媒體數(shù)據(jù)的傳播和應(yīng)用等等多個方面相關(guān)理論和技術(shù)。跨媒體指的是跨越媒體數(shù)據(jù)的不同媒體形式而共同表達同一語義。也就是說，要研究的跨媒體包括多種媒體形式，而這些媒體數(shù)據(jù)相互協(xié)助來共同表達傳播者要傳播的信息和目的。如在一個新聞網(wǎng)頁中包含的圖像和文字兩種媒體形式就是所要研究的一個跨媒體對象，它們表達的形式不同，但都在描述該條新聞，在表達時文本和圖像做到互相補充、互相解釋，共同完成描述該條新聞的功能。

就目前而言，關(guān)于跨媒體的研究主要包括以下幾個方面：

（1）與跨媒體相關(guān)的硬件技術(shù)。如輸入輸出多媒體數(shù)據(jù)的硬件設(shè)備、存儲和傳輸多媒體數(shù)據(jù)的相關(guān)硬件設(shè)備配置等。

（2）跨媒體內(nèi)容檢索技術(shù)。也就是本文主要介紹的在多種類媒體數(shù)據(jù)之間進行檢索。

（3）跨媒體數(shù)據(jù)的表達。如何更有效地表示跨媒體數(shù)據(jù)，方便計算機進行管理和檢索，是跨媒體研究的重要課題。

（4）跨媒體數(shù)據(jù)的推理。即如何讓計算機根據(jù)已知的多媒體數(shù)據(jù)，推理產(chǎn)生新的相同類型或不同類型的多媒體數(shù)據(jù)，從而實現(xiàn)更有效的對多媒體數(shù)據(jù)進行組織。

（5）跨媒體數(shù)據(jù)的存儲、組織和應(yīng)用。更有效地對跨媒體數(shù)據(jù)進行存儲和組織，然后進一步利用好跨媒體數(shù)據(jù)，使其方便于人類的生產(chǎn)和生活，是跨媒體研究的重要內(nèi)容。

上述跨媒體的五個研究內(nèi)容中，跨媒體檢索的研究是所有其他研究內(nèi)容的結(jié)合點和最終目標?？缑襟w檢索的研究目標是分析一種媒體數(shù)據(jù)和多種媒體數(shù)據(jù)之間的語義關(guān)聯(lián)，在一種或多種媒體數(shù)據(jù)間進行檢索。具體而言，跨媒體檢索就是用戶提交任意一種媒體的查詢，檢索相同或者不同種類的相關(guān)多媒體數(shù)據(jù)。由于同種類媒體的檢索可以認為是單一媒體形式的檢索，所以人們更多關(guān)注于不同種類間媒體數(shù)據(jù)的檢索，也就是用戶提交某種媒體查詢來檢索出其他種類媒體數(shù)據(jù)。

比如，用戶提交一個文本查詢，檢索到與該文本相關(guān)的圖像或音頻等。另外，一些跨媒體檢索系統(tǒng)也支持用戶提交多種媒體數(shù)據(jù)對象，來檢索多種媒體數(shù)據(jù)對象。

對圖像提取的全局特征主要包括顏色特征、紋理特征、形狀特征和空間關(guān)系特征等。本小節(jié)將對這幾種全局特征做一簡要介紹。顏色特征：通常情況下，顏色特征由顏色直方圖來表示，而最常用的是1991年提出的顏色直方圖相交方法。

比較常用的局部圖像特征描述子有Harris角點、SIFT和SURF等，其中SIFT特征描述子在基于內(nèi)容的圖像檢索中最為常見，本文后面實驗章節(jié)也是使用的SIFT特征描述子。

在跨媒體檢索研究領(lǐng)域中，最大的障礙就是人們常說的“語義鴻溝”，也就是說在不同媒體類型間找到它們的語義關(guān)聯(lián)。在文獻中，作者將照片剪輯根據(jù)場景分類進行了自動標注，然后根據(jù)這種關(guān)于場景的語義標注可以選擇合適的音樂來進行多媒體幻燈片的放映。深入挖掘圖像和聲音的語義關(guān)聯(lián)，成功對圖像和聲音數(shù)據(jù)進行了聚類。為了對跨媒體數(shù)據(jù)進行統(tǒng)一表示和組織，文獻提出了一種兩層流形學(xué)習(xí)方法來構(gòu)建跨媒體檢索系統(tǒng)。該方法首先為圖像數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù)。構(gòu)建三個獨立的圖，這三個圖將圖像數(shù)據(jù)、音頻數(shù)據(jù)、文本數(shù)據(jù)映射到三個獨立的空間中，然后將這三個數(shù)據(jù)空間結(jié)合形成多媒體文檔語義空間（Multimedia Document Semantic Space縮寫成MMDSS）。然而這種方法有一定缺陷：在建立這三個獨立的空間時，不同種類的多媒體文件間的語義關(guān)聯(lián)并沒有被考慮到；另外，兩層流形學(xué)習(xí)方法需要調(diào)節(jié)大量的參數(shù)，其復(fù)雜程度并不適用于實際使用。于是文獻提出了只建立一個圖的跨媒體檢索系統(tǒng)方案，在這個圖中每個多媒體對象都是一個頂點，圖中頂點間的距離根據(jù)單一媒體對象來確定。盡管這種只建立一個圖的方法簡化了流形學(xué)習(xí)的困難程度，但仍然沒有能夠?qū)Σ煌N類多媒體文件間的語義關(guān)聯(lián)進行很好的分析和利用。

在多媒體關(guān)聯(lián)空間中，每個多媒體文檔就是該空間中的一個數(shù)據(jù)點。有研究人員提出了一種排序算法（local regression and global alignment，縮寫為LRGA算法），該算法通過學(xué)習(xí)一個拉普拉斯矩陣來對數(shù)據(jù)進行重排序。盡管LRGA算法在檢索過程中能夠?qū)⒉煌愋偷亩嗝襟w對象結(jié)合起來，但它仍有一些缺陷。首先，盡管多媒體文檔距離能夠把多種類型的多媒體對象信息都包含在內(nèi)，但它依賴于該類型的媒體對象的檢索精度，這有可能使得某種媒體對象對當前多媒體文檔表達語義的貢獻變得很小。其次，建立多媒體文檔語義空間需要對所有媒體對象的距離都進行計算，這在處理大型多媒體數(shù)據(jù)庫時變得困難，因為隨著多媒體文檔數(shù)據(jù)量的增大，多媒體文檔距離矩陣也變得異常龐大，這為進一步的處理帶來了困難。