一種面向圖情信息的快速檢索優(yōu)化算法

2023-12-18 08:58:34徐繼維

現(xiàn)代電子技術(shù) 2023年24期

徐繼維

（長安大學(xué) 圖書館，陜西西安 710064）

隨著計(jì)算機(jī)、大數(shù)據(jù)技術(shù)的發(fā)展，數(shù)字圖書館已經(jīng)成為了社會(huì)數(shù)字信息資源的重要組成部分[1-2]。數(shù)字圖書館的基礎(chǔ)信息是數(shù)字信息資源，這些資源一部分來自于圖書、期刊、報(bào)紙、音像等傳統(tǒng)文獻(xiàn)的電子版，還有一部分來源于各種數(shù)據(jù)庫和互聯(lián)網(wǎng)[3-4]。20 世紀(jì)70 年代初，聯(lián)機(jī)公共檢索目錄（Online Public Access Catalog,OPAC）誕生，這是最早的因特網(wǎng)館藏資源遠(yuǎn)程檢索工具。但隨著網(wǎng)絡(luò)資源信息的爆炸式增長，各高校、公共圖書館、政府情報(bào)部門等單位的數(shù)字圖書資源不斷涌入網(wǎng)絡(luò)，數(shù)字資源的形式也由單純的文本信息向多媒體形式轉(zhuǎn)變。因此，信息資源的數(shù)字化、信息形式的多媒體化和信息存取的網(wǎng)絡(luò)化成為了數(shù)字圖書資源信息的顯著特點(diǎn)。在這種趨勢下，如何快速地檢索出有效信息并提升讀者的用戶體驗(yàn)，成為了目前的研究熱點(diǎn)之一。

1 理論分析與方法架構(gòu)設(shè)計(jì)

1.1 數(shù)字圖書信息檢索流程

優(yōu)化、提升圖書信息檢索效率的關(guān)鍵在于梳理清楚信息的檢索流程，圖1 所示為本文梳理出的用戶在進(jìn)行信息檢索時(shí)前端和后端的業(yè)務(wù)交互流程。

圖1 數(shù)字圖書信息檢索流程

如圖1 所示，為了實(shí)現(xiàn)數(shù)字圖書信息的檢索，在采集完所有的圖書信息后，首先進(jìn)行海量的信息存儲(chǔ)；然后，為了便于用戶的檢索，需要實(shí)現(xiàn)信息的自動(dòng)化標(biāo)注；隨后用戶通過相關(guān)檢索系統(tǒng)的查詢接口，利用索引詞在系統(tǒng)中通過標(biāo)注得到所需的信息[5-7]。綜上所述，數(shù)據(jù)信息的自動(dòng)化標(biāo)注是實(shí)現(xiàn)信息快速檢索的關(guān)鍵。因此，文中主要對基于人工智能理論的自動(dòng)化標(biāo)注方法進(jìn)行研究。在設(shè)計(jì)圖書信息的檢索算法時(shí)，基于現(xiàn)有理論進(jìn)行優(yōu)化與改進(jìn)可以提升設(shè)計(jì)效率，故本文在信息標(biāo)注時(shí)，引入了相似度作為深度學(xué)習(xí)模型的特征。對于多媒體信息，可以從圖像屬性相似度、文本相似度以及參與檢索的用戶相似度方面進(jìn)行分析[8-10]。

圖像相似度主要是指采集的圖書圖像信息在采集時(shí)間、地點(diǎn)、類別、文本描述等相關(guān)屬性信息上的相似度，具體計(jì)算公式如下：

式中：a、b分別代表兩個(gè)采集的不同圖像；PP、PT分別為基于屬性和文本描述的相似度；w1、w2分別為其權(quán)重，且滿足：

文本相似度主要用于評價(jià)所采集的數(shù)字圖書相關(guān)描述信息的相似度，其計(jì)算公式如下：

式中：T1、T2分別是兩條待比對的文本；DIS 為文本的編輯距離，該距離通過計(jì)算一個(gè)字符串轉(zhuǎn)換到另一個(gè)字符串的最小操作數(shù)來評估文本的相似性；len（·）為文本長度的計(jì)算函數(shù)。

用戶相似度則是指用戶進(jìn)行檢索時(shí)，可以根據(jù)用戶對于某時(shí)間的關(guān)注度、對于某領(lǐng)域的興趣進(jìn)行快速推薦，從而提高檢索效率。其具體計(jì)算公式如下：

式中：u、v分別代表兩個(gè)不同的用戶；SL、ST、SF分別是用戶的位置、標(biāo)簽和社交信息的相似度；w1、w2、w3分別是各自的權(quán)重。w1、w2、w3的關(guān)系為：

當(dāng)?shù)玫叫畔⒌目傁嗨贫群?，若直接根?jù)數(shù)據(jù)庫已有的標(biāo)簽對其進(jìn)行標(biāo)注則可能會(huì)引入錯(cuò)誤標(biāo)注，降低信息標(biāo)注的準(zhǔn)確性。因此，文中采用TF-IDF 作為標(biāo)注降噪的標(biāo)準(zhǔn)[11-12]：

式中：Ti為算法生成的標(biāo)注；Ni表示Ti在相似標(biāo)注中出現(xiàn)的頻次；N為所有相似標(biāo)注的總和；Di為Ti的逆文檔率。本文算法為所有生成的標(biāo)注設(shè)置了一定的TFIDF 閾值，當(dāng)?shù)陀陂撝禃r(shí)，數(shù)據(jù)庫中將不再保留算法生成的標(biāo)注。

1.2 基于區(qū)域劃分的信息標(biāo)注方法

在進(jìn)行數(shù)字圖書多媒體信息標(biāo)注時(shí)，如果僅采用1.1 節(jié)所述方法，則可能存在原始數(shù)據(jù)庫中無相似信息的情況，此時(shí)就會(huì)出現(xiàn)待標(biāo)注的信息本身不夠豐富或者無法完成標(biāo)注的情況。為此，本文針對圖書的圖像信息，引入了RCNN 網(wǎng)絡(luò)[13-14]選取圖像的最相關(guān)區(qū)域：

劃分區(qū)域的RCNN 網(wǎng)絡(luò)框架如圖2 所示。所設(shè)計(jì)的RCNN 網(wǎng)絡(luò)包含兩個(gè)通道，其中左通道對主要區(qū)域進(jìn)行標(biāo)注，右通道對候選的次要區(qū)域進(jìn)行標(biāo)注。在進(jìn)行特征提取時(shí)，主要使用卷積和全連接運(yùn)算，其中Score 運(yùn)算的定義如式（8）所示。疊加后，通過Softmax 層確定該信息的具體標(biāo)注：

圖2 劃分區(qū)域的RCNN 網(wǎng)絡(luò)

式中：s為當(dāng)前待識(shí)別的數(shù)字圖書圖像信息；S為信息的標(biāo)識(shí)集合；I為區(qū)域r中的特征向量。

模型在訓(xùn)練時(shí)，基于誤差的反向傳播思想，使用梯度下降法實(shí)現(xiàn)訓(xùn)練[15]，定義模型標(biāo)識(shí)時(shí)所采用的損失函數(shù)為：

2 算法實(shí)現(xiàn)與測試分析

2.1 仿真實(shí)驗(yàn)設(shè)計(jì)

為了評估模型的性能，本文從某高校圖書館的數(shù)據(jù)庫中導(dǎo)出了現(xiàn)有數(shù)字圖書的圖像信息作為數(shù)據(jù)集進(jìn)行驗(yàn)證仿真，表1 為圖像的類別及數(shù)量信息。

表1 數(shù)據(jù)集中數(shù)字圖書信息

為了評估模型在進(jìn)行信息檢索時(shí)的識(shí)別準(zhǔn)確度，采用準(zhǔn)確率P和召回率R作為評價(jià)指標(biāo)。提取信息特征的網(wǎng)絡(luò)由多個(gè)卷積層與池化層組成，文中以目前業(yè)界較成熟的兩個(gè)網(wǎng)絡(luò)ZF-Net 和VGG-16 作為特征提取網(wǎng)絡(luò)，網(wǎng)絡(luò)的區(qū)別如表2 所示。

表2 ZF-Net 和VGG-16 的網(wǎng)絡(luò)特征

通過對比兩個(gè)網(wǎng)絡(luò)的性能和適用場景，本文選擇VGG-16 作為特征提取網(wǎng)絡(luò)。在使用時(shí)，主要利用其全連接層之前的結(jié)構(gòu)，具體的網(wǎng)絡(luò)參數(shù)如表3 所示。

表3 VGG-16 的具體參數(shù)設(shè)置

文中的特征提取網(wǎng)絡(luò)包括13 個(gè)卷積層和4 個(gè)池化層，卷積層中使用ReLU 作為激活函數(shù)，網(wǎng)絡(luò)中所有的卷積運(yùn)算使用的卷積核尺寸均為3×3，訓(xùn)練參數(shù)如表4所示。

表4 VGG-16 的訓(xùn)練參數(shù)

信息經(jīng)過特征提取網(wǎng)絡(luò)后，被劃分為3 個(gè)通道，其中一個(gè)是所設(shè)計(jì)的RCNN 候選框調(diào)整網(wǎng)絡(luò)，另外兩個(gè)通道的結(jié)構(gòu)如表5 所示。

2.2 仿真結(jié)果分析

首先評估算法在單純依靠相似度時(shí)對于圖書信息的標(biāo)注效率，計(jì)算結(jié)果如表6 所示。

表6 基于相似度的信息標(biāo)注結(jié)果

從表6 中可以看出：通過文本的方式對數(shù)字圖書信息進(jìn)行標(biāo)注時(shí)，由于采集的文本信息夾雜了大量與圖書信息不相關(guān)的內(nèi)容，導(dǎo)致正確標(biāo)注剛剛過半；單純引入多維相似度標(biāo)注方法時(shí)，由于未經(jīng)過降噪，因此也會(huì)生成不相關(guān)的標(biāo)注，這反而惡化了實(shí)際的標(biāo)注效果。在對已標(biāo)注的信息進(jìn)行TF-IDF 降噪后性能明顯提升，相比基于文本的傳統(tǒng)信息標(biāo)注方式，其準(zhǔn)確率提升了0.121，召回率提升了0.291。圖3 給出了不同相似度時(shí)準(zhǔn)確率的變化趨勢，可以看出本文引入的相似度指標(biāo)與標(biāo)注的準(zhǔn)確率呈正相關(guān)，這證明了多源評價(jià)指標(biāo)體系的可行性。

圖3 相似度與準(zhǔn)確率的關(guān)系曲線

隨后對引入RCNN 網(wǎng)絡(luò)的標(biāo)注方法進(jìn)行評估，記k為次要區(qū)域的個(gè)數(shù)，對模型在不同k取值時(shí)進(jìn)行訓(xùn)練，所得到的P值如表7 所示。

表7 不同次要區(qū)域下的訓(xùn)練準(zhǔn)確率

當(dāng)k=0 時(shí)，RCNN 網(wǎng)絡(luò)和普通的CNN 網(wǎng)絡(luò)結(jié)構(gòu)相同。當(dāng)k取值增加時(shí)，P隨之增加。當(dāng)k=6 時(shí)，P取得最大值，因此文中選取k=6。此時(shí)，訓(xùn)練完成的模型在測試集上得到的準(zhǔn)確率如表8 所示。

表8 不同算法在測試集上的準(zhǔn)確率

由表8 可以看出，引入RCNN 網(wǎng)絡(luò)后，多源信息相似度標(biāo)注方法的精確度有所提升，證明了多區(qū)域信息特征提取的必要性。此外，相較于現(xiàn)有OTC、Mop-CNN、ImageNet-CNN 等人工智能網(wǎng)絡(luò)，在本算法框架下，準(zhǔn)確率分別提升了0.372、0.093、0.201。

3 結(jié) 語

針對當(dāng)前數(shù)字圖書信息的檢索問題，本文研究了基于融合數(shù)據(jù)的信息標(biāo)注方法，通過提升信息標(biāo)注的準(zhǔn)確性，優(yōu)化圖書信息的檢索流程，降低了用戶在信息檢索時(shí)的消耗，并提升了在線查找時(shí)的用戶體驗(yàn)。仿真結(jié)果表明，本算法可以有效提取多媒體形式的數(shù)字圖書信息特征。隨著數(shù)字圖書資源的不斷豐富，所提算法將有更為廣闊的應(yīng)用前景。