張 帆,單 艷
(國家計算機網(wǎng)絡(luò)與信息安全管理中心新疆分中心,新疆 烏魯木齊 830017)
檢索信息過程中,用戶輸入的檢索內(nèi)容通常是關(guān)鍵詞,十分短小,在信息對比方面,其檢索結(jié)果對用戶需求無法進行滿足,往往會產(chǎn)生各種問題,如不全面檢索、錯查等。因此,為促進查詢精準度的提高,有必要加強研究多媒體信息檢索中查詢和反饋技術(shù)。
計算機多媒體信息檢索是檢索方法之一,各種媒體、語義環(huán)境是其重點檢索目標,比如,視頻中展示的場景、亮度、聲響等,圖像中色彩、紋理等。傳統(tǒng)檢索技術(shù)的基礎(chǔ)是文本,具有一定限制性,而內(nèi)容基礎(chǔ)的檢索有效彌補傳統(tǒng)檢索技術(shù)不足,通過對圖像、視頻、音頻的研究和分析,快速篩選出來特征及語義,借助篩選內(nèi)容建立檢索框架,實現(xiàn)檢索目的?;A(chǔ)檢索技術(shù)內(nèi)容廣泛,主要有鑒別模式、處置圖像、圖像理解等的方式,從而促進多種技術(shù)的合成[1]。
2.1.1 分類圖像通常情況下,可以劃分圖像為三個層次,分別是像素層、紋理層、內(nèi)容層。其中最簡單的是像素層,它只負責對比圖像的像素;進一步提煉象素之間聯(lián)系,以像素塊表達內(nèi)涵為依據(jù)開展分類工作,稱之為紋理層;通過語義描繪圖像紋理之間聯(lián)系,能夠促進內(nèi)容層的產(chǎn)生,借助內(nèi)容層描繪,可以將指定圖像從待查詢圖片中篩選出來。
2.1.2 分類圖像屬性
根據(jù)LAYNE分類模式,可以將屬性劃分為四種:第一,歷史屬性。簡單說就是歷史記錄,如創(chuàng)作圖像的人員、創(chuàng)作圖像時間等。第二,主體屬性。對圖像語義主題的描繪。第三,表現(xiàn)屬性。主要指圖像中展示出的信息內(nèi)容。第四,關(guān)系屬性。將圖像與圖像之間的重要關(guān)系展示出來。
2.1.3查詢圖像
提取圖像特點是查詢最重要的內(nèi)容,具體是底層特點與高層特點。以內(nèi)容為基礎(chǔ)的圖像檢索技術(shù),簡稱為CBIR,它借助圖像特點,將索引構(gòu)建出來,促進查詢語義的形成,進而開展搜索匹配工作。部分CBIR系統(tǒng)以直方圖形式來對顏色進行統(tǒng)計進而實施查找操作,最突出的表現(xiàn)是以圖像中出現(xiàn)的顏色頻率為根據(jù),將圖畫歸納出來。
2.1.4 評估性能
應用查到率與查準率評估CBIR系統(tǒng)性能。研究人員為此提出兩個判別指標,分別是檢索優(yōu)良性、有效性。對于優(yōu)良性而言,主要指系統(tǒng)能夠滿足使用者多大程度的期望,以及對系統(tǒng)查詢構(gòu)建出來的主觀評價。評估人員認為系統(tǒng)檢索信息的精準性影響優(yōu)良性。
在音頻檢索技術(shù)上同樣可以應用圖像定義的標準化、分類屬性、系統(tǒng)評估問題等討論觀點。然而,不同于圖像的是音頻數(shù)據(jù)還具有自身獨特的特點:第一,音頻數(shù)據(jù)以聽覺為基礎(chǔ),并不以視覺為基礎(chǔ)。第二,音頻數(shù)據(jù)需要依靠時間。接下來主要從以上兩個方面探討音頻數(shù)據(jù)的檢索技術(shù)。
2.2.1 音頻查詢
對于音頻查詢而言,想要實現(xiàn)匹配檢索,必須轉(zhuǎn)變聽覺查詢條件,使其形成數(shù)字格式。以Bainbridgeetall系統(tǒng)為例子,它通過對頻率分析法的應用,轉(zhuǎn)變聽覺輸入,形成音樂樂譜形式,之后通過對兩個樂符之間距離的比較,獲得匹配情況。另有研究人員采取其他方式解決這個問題,借助三個或五個字母表,轉(zhuǎn)變輸入,使行距輪廓線得以形成,行距輪廓線能夠?qū)⒏鱾€字符變化的間距表現(xiàn)出來,但是想要將音頻信息表達出來,還需要將表示節(jié)奏的比較時間輪廓線增加進來。然而,如果出現(xiàn)遺漏錯誤,還需要全面而深入的分析這些錯誤,將錯誤發(fā)生率研究清楚,增加匹配算法的容錯度。除此之外,通過對容錯抽象方法的使用,音頻檢索系統(tǒng)還能夠提高查詢效率。
2.2.2 播放音頻數(shù)據(jù)
相關(guān)研究主要是在音頻數(shù)據(jù)庫中開展瀏覽與導航工作。從內(nèi)在特點來看,音頻數(shù)據(jù)是一種依靠時間的聽覺數(shù)據(jù)流,并沒有標準化的結(jié)構(gòu)描繪存在于這些流的時間相關(guān)點中。其他研究者這樣進行描繪:使用者對某個音頻文件進行瀏覽時,需要以音頻數(shù)據(jù)流當前定位為基礎(chǔ),進而實現(xiàn)超鏈接系統(tǒng),借助超鏈接,將有關(guān)資源篩選出來,此導航系統(tǒng)以內(nèi)容為基礎(chǔ),可以將一個有價值的結(jié)構(gòu)提供給無結(jié)構(gòu)的音頻文件流。
對于視頻信息而言,從視覺角度看,它與圖像檢索具有很多相似之處,但是視頻信息也必須依靠時間,為此可以對音頻數(shù)據(jù)的處理方法進行借鑒。
2.3.1 查詢視頻
研究人員利用VISON系統(tǒng)提出鏡頭分割法,具體是分離視頻數(shù)據(jù)流中鏡頭,進而結(jié)合相鄰鏡頭,促進某個場景的產(chǎn)生,這與圖像數(shù)據(jù)的分割比較相似。此技術(shù)的核心與關(guān)鍵是將鏡頭圖形之間的不同點找出來,為此,可以充分利用顏色直方圖的顯著改變,進而對鏡頭的改變進行推理。這和以內(nèi)容為基礎(chǔ)的圖像檢索技術(shù)比較相似,另外,分割方法還可以利用抽取鏡頭運動特點法。
構(gòu)造一般場景主要有三個程序,分別是探測鏡頭邊界、提取鏡頭特點、匯聚鏡頭。這僅僅研究了鏡頭圖像。對于VISION系統(tǒng)而言,借助同步的音頻軌道,可將線索找出來,進而劃分場景,這樣在音頻信息輔助作用下,能夠?qū)⒁?guī)則提取描繪出來。比如,當改變一個鏡頭時,說話者也相應發(fā)生一定變化,這表明新的場景產(chǎn)生了。借助劃分這些相似的規(guī)則,VISION可以正確分割很多場景。VISION還有另外一個特點,就是通過對字幕信息的利用,可以劃分視頻信息。通過對具有較強理解力文本處理技術(shù)的使用,可以將重點詞句提取出來,這將準確的原數(shù)據(jù)信息提供出來,對分類十分有利。然而需要注意的是想要連續(xù)識別音頻流中的信息比較困難,因此,必須對音頻流中的重點詞語進行選擇性的識別。為此提出了關(guān)鍵幀,主要為了解決鏡頭方法問題,但是其分析也是以內(nèi)容為基礎(chǔ)。關(guān)鍵幀可以將一段流中的語義圖像表達出來,與一個場景十分相似。在關(guān)鍵幀判斷方面,大部分視頻檢索系統(tǒng)應用算法,可以判斷關(guān)鍵幀的是顏色特點與運動信息,抽取關(guān)鍵幀還可以對圖像檢索技術(shù)的特點描繪進行參考與借鑒。
2.3.2 播放視頻
如果關(guān)鍵幀可以將視頻文件內(nèi)容全部反映出來,通過對這些關(guān)鍵幀的充分利用,則可以將一個摘要為這個視頻文件作出來。VISION系統(tǒng)通過對這種時間模型的應用,借助提供的關(guān)鍵幀縮略圖或者用戶選擇的縮略圖可以將視頻信息播放出來。
隨著網(wǎng)絡(luò)媒體的不斷進步,有機結(jié)合多種不同路徑的音頻、圖文、視頻等,交錯在一起的數(shù)據(jù),形成新型媒體展示方式,也就是跨媒體。對于跨媒體而言,使用者查找的信息是其環(huán)境媒體對象,檢索系統(tǒng)功能強大,一方面能夠返回同樣種類一致媒體對象,另一方面還可返回不同種類媒體對象,從而將完整多樣化信息目標展現(xiàn)出來。以圖像的利用為例子,在此過程中,能夠?qū)⒂嘘P(guān)語義的音頻、視頻片段等尋找出來。想要實現(xiàn)跨媒體查詢,就要使不同媒體之間差異性不斷下降,最大程度挖掘出不同媒體的協(xié)同效應和語義關(guān)聯(lián)性,使相似性度量和一致性表達得以建立,最終將跨媒體信息查詢和處理模型構(gòu)建出來[2]。
便捷、高效是交互式查詢技術(shù)的明顯優(yōu)勢,它作為一種有效方法可以使用戶將檢索需求清晰表達出來。對于傳統(tǒng)多媒體檢索方式而言,主要進行示例或者結(jié)合查詢框,但是,新型視頻檢索系統(tǒng)則有很大差異,可以實現(xiàn)用戶關(guān)鍵詞重新組合后的查詢目標,系統(tǒng)會展開自動化推薦,將一些密切聯(lián)系查詢詞的語義概念提供出來。
對于移動設(shè)備而言,其查詢圖像具有的前景十分豐富,其背景極具復雜性,導致搜索系統(tǒng)在尋找信息時缺少針對性??紤]到存在的各種問題,通過對智能設(shè)備自身交互便利性的充分利用,研究員將部分查詢方法研究出來,用戶可以實現(xiàn)對示例的交互查詢目標,將檢索目標確定下來。例如,部分研究者將交互式查詢方式設(shè)計出來,運用不同方式如裁剪、畫線、套索等,用戶可以將圖像中感興趣的目標圈出,為查找目標提供方便。另一方面,一些學者將基于數(shù)碼相機拍照的食品檢索系統(tǒng)研發(fā)出來,另外一些研究人員在分析基于手機街拍的服裝檢索功能等[3]。
關(guān)鍵字查詢是一種使用廣泛的查詢方法,主要應用視頻或者圖像開展實施檢索操作,檢索系統(tǒng)以使用者輸入重點詞句為依據(jù),開展查詢與索引工作,以相關(guān)性為依據(jù),排序并展示查詢結(jié)果。然而,用戶輸入關(guān)鍵詞往往不能將查詢意圖精準表達出來,究其原因,主要是:第一,關(guān)鍵詞數(shù)量較少,具有有限的信息表達能力;第二,有歧義、模糊問題存在于查詢詞中;第三,對于所要檢索的目標,用戶通常不能將精準查詢詞構(gòu)建出來。上述情況導致查詢系統(tǒng)對用戶意圖進行了解時具有較低準確性,因而搜索到的結(jié)果不能使用戶滿意[4]。
針對圖像或視頻傳統(tǒng)檢索系統(tǒng),需要對文本檢索推薦查詢技術(shù)進行參考,充分利用各種數(shù)據(jù),將適合的分析模型設(shè)計出來,對數(shù)據(jù)中重點詞語的語義聯(lián)系展開深度開發(fā),進而形成備選查詢詞語,支持使用者快速篩選到自己需求的信息。首先,以文檔推薦為基礎(chǔ)的查詢技術(shù),借助統(tǒng)計模型對包含查詢詞的文檔數(shù)據(jù)或人工編輯語料進行挖掘,篩選出來有價值詞句,通過這些詞句,可以鎖定有價值的內(nèi)容。其次,以日志查詢?yōu)榛A(chǔ)的查詢技術(shù),有效運用引擎搜索功能,研究查詢?nèi)罩?,將信息之間的關(guān)系挖掘出來,從而構(gòu)建推薦的查詢內(nèi)容,例如關(guān)鍵詞查詢、搜索結(jié)果點擊等,查詢關(guān)聯(lián)性都包含在查詢?nèi)罩緝?nèi),借助分析不同查詢關(guān)系,計算查詢間關(guān)聯(lián)程度,對查詢推薦發(fā)揮指導作用[5]。
為了使檢索精準度提高,可以在檢索程序中增加使用者反饋信息。當輸入查詢信息之后,如果使用者仍然需要繼續(xù)檢索,可將當前檢索內(nèi)容作為依據(jù),標注出一些與檢索目的相關(guān)或不相關(guān)的樣本內(nèi)容,進一步明確使用者需求,系統(tǒng)根據(jù)使用者反饋信息,對檢索模型進行改變,最后使檢索結(jié)果得到更新。這樣能夠提高系統(tǒng)理解能力,使其對無關(guān)樣本的出現(xiàn)發(fā)揮抑制作用,增加檢索結(jié)果中相關(guān)樣本的響應度,對用戶檢索需求進行很好滿足[6]。
近幾年,相關(guān)工作人員將機器學習理論融入反饋技術(shù)中,增加檢索功能,實現(xiàn)監(jiān)督學習目的,同時建設(shè)出來機器學習模型,根據(jù)使用者樣本訓練模型,發(fā)揮指導作用,產(chǎn)生全新檢索結(jié)果。一些研究者以支持向量機主動學習模型為依據(jù),研究出來反饋計算方法,但是想要讓使用者接收到反饋標志,還需要將與支持向量機分類邊界信息選擇出來,從而大大減小模型解釋空間尺寸,通過對較少數(shù)量使用者反饋信息的利用,將最大化信息效益獲取到。另一些研究人員提出全新的主動學習算法,它的依據(jù)是樣本分布結(jié)構(gòu),能夠描繪樣本局部幾何結(jié)構(gòu)和接近樣本語義的相似特點,對樣本模型改變與優(yōu)化作用進行估計,并且對樣本相關(guān)度、多樣性等信息進行充分考慮,將最佳待標注樣本提供出來,讓用戶開展相關(guān)標注,這樣需要的用戶標注很少,促進模型性能大幅度提升[7]。
在反饋技術(shù)大力發(fā)展的帶動下,極大提升多媒體檢索水平能力。然而,仍然有很大差距存在于人類高級別認知語義及計算機低層次感知特點中,對多媒體分析數(shù)據(jù)解能力和檢索系統(tǒng)構(gòu)造準確性產(chǎn)生巨大影響。想要將此方面差異逐漸減少,研究人員在對圖像視頻內(nèi)容進行描述時,選擇視覺屬性中層語義,這樣有利于奠定有利條件,實現(xiàn)結(jié)合高級別語義和低層次特點目的。視覺屬性是指存在于對象自身的一些特征,重點對構(gòu)成對象的狀態(tài)、外形等進行描繪。視覺屬性比語義含義容易理解,同時利用起來比較簡單,通過對低層次特點的運用,就可以將模型構(gòu)造出來。因此,工作人員可以總結(jié)出來一些構(gòu)造模型方式,并且將屬性模型確定下來,也就是基礎(chǔ)輸出,將圖像特點概括出來,進而表示出來中層語義,以便在分析和檢索中應用。
此反饋技術(shù)可以促進系統(tǒng)檢索性能的有效提升。用戶檢索歷史和交互行為是反饋的主要數(shù)據(jù)來源,通常包括停留頁面時間、網(wǎng)頁點擊、查詢輸入等,通過隱藏的用戶喜好,可以將了解用戶檢索目的的線索提供出來。當前有大量噪聲存在于隱式反饋數(shù)據(jù)中,對比其他反饋數(shù)據(jù),精準度較低,然而,實際應用過程中,其對數(shù)據(jù)的反饋內(nèi)容更為豐富,有大量隱式反饋數(shù)據(jù)存在于檢索系統(tǒng)中可以應用于多個場景。此外,隱式反饋對于用戶反饋檢索結(jié)果并無需求,這就使用戶操作負擔大大下降。
總而言之,對于計算機多媒體信息檢索而言,通過對檢索技術(shù)、反饋技術(shù)的高效應用,可以實現(xiàn)聯(lián)系語義目的,這能夠?qū)τ脩魴z索需求進行更好滿足。現(xiàn)階段,計算機多媒體信息檢索中查詢技術(shù)和反饋技術(shù)極為有限,與此同時,很多技術(shù)都處于研發(fā)初始狀態(tài),這就要求必須加大研發(fā)力度,使數(shù)據(jù)查詢準確性和可靠性得以提高,從而將更好的信息服務(wù)提供給用戶。