徐繼維
(長安大學(xué) 圖書館, 陜西 西安 710064)
隨著計(jì)算機(jī)、大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)字圖書館已經(jīng)成為了社會(huì)數(shù)字信息資源的重要組成部分[1-2]。數(shù)字圖書館的基礎(chǔ)信息是數(shù)字信息資源,這些資源一部分來自于圖書、期刊、報(bào)紙、音像等傳統(tǒng)文獻(xiàn)的電子版,還有一部分來源于各種數(shù)據(jù)庫和互聯(lián)網(wǎng)[3-4]。20 世紀(jì)70 年代初,聯(lián)機(jī)公共檢索目錄(Online Public Access Catalog,OPAC)誕生,這是最早的因特網(wǎng)館藏資源遠(yuǎn)程檢索工具。但隨著網(wǎng)絡(luò)資源信息的爆炸式增長,各高校、公共圖書館、政府情報(bào)部門等單位的數(shù)字圖書資源不斷涌入網(wǎng)絡(luò),數(shù)字資源的形式也由單純的文本信息向多媒體形式轉(zhuǎn)變。因此,信息資源的數(shù)字化、信息形式的多媒體化和信息存取的網(wǎng)絡(luò)化成為了數(shù)字圖書資源信息的顯著特點(diǎn)。在這種趨勢下,如何快速地檢索出有效信息并提升讀者的用戶體驗(yàn),成為了目前的研究熱點(diǎn)之一。
優(yōu)化、提升圖書信息檢索效率的關(guān)鍵在于梳理清楚信息的檢索流程,圖1 所示為本文梳理出的用戶在進(jìn)行信息檢索時(shí)前端和后端的業(yè)務(wù)交互流程。
圖1 數(shù)字圖書信息檢索流程
如圖1 所示,為了實(shí)現(xiàn)數(shù)字圖書信息的檢索,在采集完所有的圖書信息后,首先進(jìn)行海量的信息存儲(chǔ);然后,為了便于用戶的檢索,需要實(shí)現(xiàn)信息的自動(dòng)化標(biāo)注;隨后用戶通過相關(guān)檢索系統(tǒng)的查詢接口,利用索引詞在系統(tǒng)中通過標(biāo)注得到所需的信息[5-7]。綜上所述,數(shù)據(jù)信息的自動(dòng)化標(biāo)注是實(shí)現(xiàn)信息快速檢索的關(guān)鍵。因此,文中主要對基于人工智能理論的自動(dòng)化標(biāo)注方法進(jìn)行研究。在設(shè)計(jì)圖書信息的檢索算法時(shí),基于現(xiàn)有理論進(jìn)行優(yōu)化與改進(jìn)可以提升設(shè)計(jì)效率,故本文在信息標(biāo)注時(shí),引入了相似度作為深度學(xué)習(xí)模型的特征。對于多媒體信息,可以從圖像屬性相似度、文本相似度以及參與檢索的用戶相似度方面進(jìn)行分析[8-10]。
圖像相似度主要是指采集的圖書圖像信息在采集時(shí)間、地點(diǎn)、類別、文本描述等相關(guān)屬性信息上的相似度,具體計(jì)算公式如下:
式中:a、b分別代表兩個(gè)采集的不同圖像;PP、PT分別為基于屬性和文本描述的相似度;w1、w2分別為其權(quán)重,且滿足:
文本相似度主要用于評價(jià)所采集的數(shù)字圖書相關(guān)描述信息的相似度,其計(jì)算公式如下:
式中:T1、T2分別是兩條待比對的文本;DIS 為文本的編輯距離,該距離通過計(jì)算一個(gè)字符串轉(zhuǎn)換到另一個(gè)字符串的最小操作數(shù)來評估文本的相似性;len(·)為文本長度的計(jì)算函數(shù)。
用戶相似度則是指用戶進(jìn)行檢索時(shí),可以根據(jù)用戶對于某時(shí)間的關(guān)注度、對于某領(lǐng)域的興趣進(jìn)行快速推薦,從而提高檢索效率。其具體計(jì)算公式如下:
式中:u、v分別代表兩個(gè)不同的用戶;SL、ST、SF分別是用戶的位置、標(biāo)簽和社交信息的相似度;w1、w2、w3分別是各自的權(quán)重。w1、w2、w3的關(guān)系為:
當(dāng)?shù)玫叫畔⒌目傁嗨贫群?,若直接根?jù)數(shù)據(jù)庫已有的標(biāo)簽對其進(jìn)行標(biāo)注則可能會(huì)引入錯(cuò)誤標(biāo)注,降低信息標(biāo)注的準(zhǔn)確性。因此,文中采用TF-IDF 作為標(biāo)注降噪的標(biāo)準(zhǔn)[11-12]:
式中:Ti為算法生成的標(biāo)注;Ni表示Ti在相似標(biāo)注中出現(xiàn)的頻次;N為所有相似標(biāo)注的總和;Di為Ti的逆文檔率。本文算法為所有生成的標(biāo)注設(shè)置了一定的TFIDF 閾值,當(dāng)?shù)陀陂撝禃r(shí),數(shù)據(jù)庫中將不再保留算法生成的標(biāo)注。
在進(jìn)行數(shù)字圖書多媒體信息標(biāo)注時(shí),如果僅采用1.1 節(jié)所述方法,則可能存在原始數(shù)據(jù)庫中無相似信息的情況,此時(shí)就會(huì)出現(xiàn)待標(biāo)注的信息本身不夠豐富或者無法完成標(biāo)注的情況。為此,本文針對圖書的圖像信息,引入了RCNN 網(wǎng)絡(luò)[13-14]選取圖像的最相關(guān)區(qū)域:
劃分區(qū)域的RCNN 網(wǎng)絡(luò)框架如圖2 所示。所設(shè)計(jì)的RCNN 網(wǎng)絡(luò)包含兩個(gè)通道,其中左通道對主要區(qū)域進(jìn)行標(biāo)注,右通道對候選的次要區(qū)域進(jìn)行標(biāo)注。在進(jìn)行特征提取時(shí),主要使用卷積和全連接運(yùn)算,其中Score 運(yùn)算的定義如式(8)所示。疊加后,通過Softmax 層確定該信息的具體標(biāo)注:
圖2 劃分區(qū)域的RCNN 網(wǎng)絡(luò)
式中:s為當(dāng)前待識(shí)別的數(shù)字圖書圖像信息;S為信息的標(biāo)識(shí)集合;I為區(qū)域r中的特征向量。
模型在訓(xùn)練時(shí),基于誤差的反向傳播思想,使用梯度下降法實(shí)現(xiàn)訓(xùn)練[15],定義模型標(biāo)識(shí)時(shí)所采用的損失函數(shù)為:
為了評估模型的性能,本文從某高校圖書館的數(shù)據(jù)庫中導(dǎo)出了現(xiàn)有數(shù)字圖書的圖像信息作為數(shù)據(jù)集進(jìn)行驗(yàn)證仿真,表1 為圖像的類別及數(shù)量信息。
表1 數(shù)據(jù)集中數(shù)字圖書信息
為了評估模型在進(jìn)行信息檢索時(shí)的識(shí)別準(zhǔn)確度,采用準(zhǔn)確率P和召回率R作為評價(jià)指標(biāo)。提取信息特征的網(wǎng)絡(luò)由多個(gè)卷積層與池化層組成,文中以目前業(yè)界較成熟的兩個(gè)網(wǎng)絡(luò)ZF-Net 和VGG-16 作為特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)的區(qū)別如表2 所示。
表2 ZF-Net 和VGG-16 的網(wǎng)絡(luò)特征
通過對比兩個(gè)網(wǎng)絡(luò)的性能和適用場景,本文選擇VGG-16 作為特征提取網(wǎng)絡(luò)。在使用時(shí),主要利用其全連接層之前的結(jié)構(gòu),具體的網(wǎng)絡(luò)參數(shù)如表3 所示。
表3 VGG-16 的具體參數(shù)設(shè)置
文中的特征提取網(wǎng)絡(luò)包括13 個(gè)卷積層和4 個(gè)池化層,卷積層中使用ReLU 作為激活函數(shù),網(wǎng)絡(luò)中所有的卷積運(yùn)算使用的卷積核尺寸均為3×3,訓(xùn)練參數(shù)如表4所示。
表4 VGG-16 的訓(xùn)練參數(shù)
信息經(jīng)過特征提取網(wǎng)絡(luò)后,被劃分為3 個(gè)通道,其中一個(gè)是所設(shè)計(jì)的RCNN 候選框調(diào)整網(wǎng)絡(luò),另外兩個(gè)通道的結(jié)構(gòu)如表5 所示。
首先評估算法在單純依靠相似度時(shí)對于圖書信息的標(biāo)注效率,計(jì)算結(jié)果如表6 所示。
表6 基于相似度的信息標(biāo)注結(jié)果
從表6 中可以看出:通過文本的方式對數(shù)字圖書信息進(jìn)行標(biāo)注時(shí),由于采集的文本信息夾雜了大量與圖書信息不相關(guān)的內(nèi)容,導(dǎo)致正確標(biāo)注剛剛過半;單純引入多維相似度標(biāo)注方法時(shí),由于未經(jīng)過降噪,因此也會(huì)生成不相關(guān)的標(biāo)注,這反而惡化了實(shí)際的標(biāo)注效果。在對已標(biāo)注的信息進(jìn)行TF-IDF 降噪后性能明顯提升,相比基于文本的傳統(tǒng)信息標(biāo)注方式,其準(zhǔn)確率提升了0.121,召回率提升了0.291。圖3 給出了不同相似度時(shí)準(zhǔn)確率的變化趨勢,可以看出本文引入的相似度指標(biāo)與標(biāo)注的準(zhǔn)確率呈正相關(guān),這證明了多源評價(jià)指標(biāo)體系的可行性。
圖3 相似度與準(zhǔn)確率的關(guān)系曲線
隨后對引入RCNN 網(wǎng)絡(luò)的標(biāo)注方法進(jìn)行評估,記k為次要區(qū)域的個(gè)數(shù),對模型在不同k取值時(shí)進(jìn)行訓(xùn)練,所得到的P值如表7 所示。
表7 不同次要區(qū)域下的訓(xùn)練準(zhǔn)確率
當(dāng)k=0 時(shí),RCNN 網(wǎng)絡(luò)和普通的CNN 網(wǎng)絡(luò)結(jié)構(gòu)相同。當(dāng)k取值增加時(shí),P隨之增加。當(dāng)k=6 時(shí),P取得最大值,因此文中選取k=6。此時(shí),訓(xùn)練完成的模型在測試集上得到的準(zhǔn)確率如表8 所示。
表8 不同算法在測試集上的準(zhǔn)確率
由表8 可以看出,引入RCNN 網(wǎng)絡(luò)后,多源信息相似度標(biāo)注方法的精確度有所提升,證明了多區(qū)域信息特征提取的必要性。此外,相較于現(xiàn)有OTC、Mop-CNN、ImageNet-CNN 等人工智能網(wǎng)絡(luò),在本算法框架下,準(zhǔn)確率分別提升了0.372、0.093、0.201。
針對當(dāng)前數(shù)字圖書信息的檢索問題,本文研究了基于融合數(shù)據(jù)的信息標(biāo)注方法,通過提升信息標(biāo)注的準(zhǔn)確性,優(yōu)化圖書信息的檢索流程,降低了用戶在信息檢索時(shí)的消耗,并提升了在線查找時(shí)的用戶體驗(yàn)。仿真結(jié)果表明,本算法可以有效提取多媒體形式的數(shù)字圖書信息特征。隨著數(shù)字圖書資源的不斷豐富,所提算法將有更為廣闊的應(yīng)用前景。