周 嵐
(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院徐州財(cái)經(jīng)分院,江蘇 徐州 221008)
檢索效果和檢索效率是評(píng)價(jià)一個(gè)檢索系統(tǒng)的兩個(gè)基本指標(biāo),其中檢索效率最重要的一個(gè)方面是檢索速度。文章介紹了提高系統(tǒng)檢索速度的幾項(xiàng)關(guān)鍵技術(shù),包括索引的建立、使用和緩存的使用,其中索引加快了系統(tǒng)計(jì)算多媒體內(nèi)容描述相似度的速度,緩存提高了系統(tǒng)在輸出頁(yè)面實(shí)現(xiàn)后續(xù)查詢(xún)(翻頁(yè))的效率。
鑒于對(duì)基于內(nèi)容的多媒體檢索系統(tǒng)進(jìn)行評(píng)價(jià)的重要性,一直以來(lái),這方面的工作得到了研究人員較多的重視。檢索效果和檢索效率是評(píng)價(jià)一個(gè)大規(guī)模檢索系統(tǒng)的兩個(gè)基本指標(biāo)。“效果”常常也被稱(chēng)為“質(zhì)量”,指檢索返回結(jié)果集合的相關(guān)性和完整性,包括查準(zhǔn)率和查全率兩個(gè)方面。
“效率”常常也被稱(chēng)為“性能”,其最重要的兩個(gè)方面是系統(tǒng)的響應(yīng)時(shí)間和吞吐率。
(1)響應(yīng)時(shí)間是指從用戶(hù)向系統(tǒng)提交查詢(xún)到他開(kāi)始看到結(jié)果的時(shí)間間隔。響應(yīng)時(shí)間和速度是相關(guān)的兩個(gè)概念:響應(yīng)時(shí)間越長(zhǎng),速度越慢;響應(yīng)時(shí)間越短,速度越快。按一般的習(xí)慣,搜索引擎對(duì)用戶(hù)查詢(xún)的響應(yīng)時(shí)間在“秒”量級(jí)是比較合理的。
(2)吞吐率是指系統(tǒng)在單位時(shí)間(秒)里可以服務(wù)的最大用戶(hù)查詢(xún)數(shù)量。實(shí)際中,我們往往需要在效果和效率之間折中,而不一定采用效果最好的技術(shù)。
倒排文件是大型信息檢索系統(tǒng)中常用的一種文件索引方法。倒排文件是描述一個(gè)詞項(xiàng)集合元素和一個(gè)文檔集合元素對(duì)應(yīng)關(guān)系的數(shù)據(jù)結(jié)構(gòu)。作為數(shù)據(jù)結(jié)構(gòu),倒排文件分兩部分:第一部分是由不同詞項(xiàng)組成的索引,稱(chēng)為詞表。第二部分是由每個(gè)詞項(xiàng)出現(xiàn)過(guò)的文檔集合構(gòu)成,稱(chēng)為記錄文件。
在搜索引擎實(shí)際的應(yīng)用中,有時(shí)需要按照關(guān)鍵字的某些值查找記錄,所以我們是按照關(guān)鍵字建立索引,這個(gè)索引就稱(chēng)為:倒排索引;而帶有倒排索引的文件我們又稱(chēng)作:倒排索引文件,也可以稱(chēng)它為:倒排文件,來(lái)實(shí)現(xiàn)快速的檢索與高速的效率。
倒排文件:用記錄的非主屬性值(也叫副鍵)來(lái)查找記錄而組織的文件叫倒排文件,即次索引。倒排文件中包括了所有副鍵值,并列出了與之有關(guān)的所有記錄主鍵值,主要用于復(fù)雜查詢(xún)。
其主要優(yōu)點(diǎn)是:在處理復(fù)雜的多關(guān)鍵字查詢(xún)時(shí),可在倒排表中先完成查詢(xún)的交、并等邏輯運(yùn)算,得到結(jié)果后再對(duì)記錄進(jìn)行存取。這樣不必對(duì)每個(gè)記錄隨機(jī)存取,把對(duì)記錄的查詢(xún)轉(zhuǎn)換為地址集合的運(yùn)算,從而提高查找速度。
完整的倒排表模型的索引由兩部分組成。
(1)索引頭:是一個(gè)一維數(shù)組,以字符內(nèi)碼為下標(biāo),記錄各個(gè)字符的索引在索引體中的開(kāi)始位置。
(2)索引體:索引體示意圖僅為方便理解,實(shí)際的索引體是示意圖中的各行數(shù)據(jù)依次首尾連接形成的一維數(shù)據(jù)流。圖中的每一行存放一個(gè)字符Ci(1≤i≤n)的索引數(shù)據(jù),其結(jié)構(gòu)為:
{Ti 1,Ni 1,[Oi 1a,Oi 1b…]},{Ti 2,Ni 2,[Oi 2a,Oi 2b…]},……,{Ti m,Ni m,[Oi ma,Oi mb…]}
其中Ti j(1≤j≤m)表示含有字符Ci的文本的內(nèi)部代號(hào),Ni j表示文本Ti j中字符Ci出現(xiàn)的次數(shù),[Oi ja,Oi jb…]指出了文本Ti j中字符Ci出現(xiàn)的具體位置。
由于每個(gè)字符的索引數(shù)據(jù)的長(zhǎng)度不同,因此需要索引頭中的指針來(lái)指出開(kāi)始位置。
索引頭 索引體
指針 1 → {T1 1,N1 1,[O1 1a,O1 1b…]},{T1 2,N1 2,[O1 2a,O1 2b…]},……
指針2 → {T2 1,N2 1,[O2 1a,O2 1b…]},……
指針n → {Tn 1,Nn 1,[On 1a,On 1b…]},……
檢索時(shí),設(shè)待查字符串為C1C2…Ci…Cr,首先通過(guò)索引頭定位各字符的索引數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行分析:若 C1…Cr的索引數(shù)據(jù)中均含有文本T的索引記錄,在r個(gè)關(guān)于文本T的索引記錄中又含有O1,O2,…,Or(Oi是屬于字符Ci的索引數(shù)據(jù)),且Oi和Oi+1(1≤i≤r-1)的差值剛好是字符Ci所占字節(jié)數(shù),則文本T為一個(gè)命中文本。找到所有的命中文本后(或分析完畢后仍找不到命中文本),檢索完成。
1 徐寶文、張衛(wèi)豐.搜索引擎與信息獲取技術(shù)[M].北京:清華大學(xué)出版社,2003
2 劉峰.通用中英文專(zhuān)業(yè)搜索引擎技術(shù)的研究及應(yīng)用[D].大連理工大學(xué),2004
3 徐險(xiǎn)峰.基于內(nèi)容的多媒體信息檢索技術(shù)[J].現(xiàn)代情報(bào),2005(3)