• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種面向圖情信息的快速檢索優(yōu)化算法

      2023-12-18 08:58:34徐繼維
      現(xiàn)代電子技術(shù) 2023年24期
      關(guān)鍵詞:數(shù)字圖書特征提取檢索

      徐繼維

      (長安大學(xué) 圖書館, 陜西 西安 710064)

      隨著計(jì)算機(jī)、大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)字圖書館已經(jīng)成為了社會(huì)數(shù)字信息資源的重要組成部分[1-2]。數(shù)字圖書館的基礎(chǔ)信息是數(shù)字信息資源,這些資源一部分來自于圖書、期刊、報(bào)紙、音像等傳統(tǒng)文獻(xiàn)的電子版,還有一部分來源于各種數(shù)據(jù)庫和互聯(lián)網(wǎng)[3-4]。20 世紀(jì)70 年代初,聯(lián)機(jī)公共檢索目錄(Online Public Access Catalog,OPAC)誕生,這是最早的因特網(wǎng)館藏資源遠(yuǎn)程檢索工具。但隨著網(wǎng)絡(luò)資源信息的爆炸式增長,各高校、公共圖書館、政府情報(bào)部門等單位的數(shù)字圖書資源不斷涌入網(wǎng)絡(luò),數(shù)字資源的形式也由單純的文本信息向多媒體形式轉(zhuǎn)變。因此,信息資源的數(shù)字化、信息形式的多媒體化和信息存取的網(wǎng)絡(luò)化成為了數(shù)字圖書資源信息的顯著特點(diǎn)。在這種趨勢下,如何快速地檢索出有效信息并提升讀者的用戶體驗(yàn),成為了目前的研究熱點(diǎn)之一。

      1 理論分析與方法架構(gòu)設(shè)計(jì)

      1.1 數(shù)字圖書信息檢索流程

      優(yōu)化、提升圖書信息檢索效率的關(guān)鍵在于梳理清楚信息的檢索流程,圖1 所示為本文梳理出的用戶在進(jìn)行信息檢索時(shí)前端和后端的業(yè)務(wù)交互流程。

      圖1 數(shù)字圖書信息檢索流程

      如圖1 所示,為了實(shí)現(xiàn)數(shù)字圖書信息的檢索,在采集完所有的圖書信息后,首先進(jìn)行海量的信息存儲(chǔ);然后,為了便于用戶的檢索,需要實(shí)現(xiàn)信息的自動(dòng)化標(biāo)注;隨后用戶通過相關(guān)檢索系統(tǒng)的查詢接口,利用索引詞在系統(tǒng)中通過標(biāo)注得到所需的信息[5-7]。綜上所述,數(shù)據(jù)信息的自動(dòng)化標(biāo)注是實(shí)現(xiàn)信息快速檢索的關(guān)鍵。因此,文中主要對基于人工智能理論的自動(dòng)化標(biāo)注方法進(jìn)行研究。在設(shè)計(jì)圖書信息的檢索算法時(shí),基于現(xiàn)有理論進(jìn)行優(yōu)化與改進(jìn)可以提升設(shè)計(jì)效率,故本文在信息標(biāo)注時(shí),引入了相似度作為深度學(xué)習(xí)模型的特征。對于多媒體信息,可以從圖像屬性相似度、文本相似度以及參與檢索的用戶相似度方面進(jìn)行分析[8-10]。

      圖像相似度主要是指采集的圖書圖像信息在采集時(shí)間、地點(diǎn)、類別、文本描述等相關(guān)屬性信息上的相似度,具體計(jì)算公式如下:

      式中:a、b分別代表兩個(gè)采集的不同圖像;PP、PT分別為基于屬性和文本描述的相似度;w1、w2分別為其權(quán)重,且滿足:

      文本相似度主要用于評價(jià)所采集的數(shù)字圖書相關(guān)描述信息的相似度,其計(jì)算公式如下:

      式中:T1、T2分別是兩條待比對的文本;DIS 為文本的編輯距離,該距離通過計(jì)算一個(gè)字符串轉(zhuǎn)換到另一個(gè)字符串的最小操作數(shù)來評估文本的相似性;len(·)為文本長度的計(jì)算函數(shù)。

      用戶相似度則是指用戶進(jìn)行檢索時(shí),可以根據(jù)用戶對于某時(shí)間的關(guān)注度、對于某領(lǐng)域的興趣進(jìn)行快速推薦,從而提高檢索效率。其具體計(jì)算公式如下:

      式中:u、v分別代表兩個(gè)不同的用戶;SL、ST、SF分別是用戶的位置、標(biāo)簽和社交信息的相似度;w1、w2、w3分別是各自的權(quán)重。w1、w2、w3的關(guān)系為:

      當(dāng)?shù)玫叫畔⒌目傁嗨贫群?,若直接根?jù)數(shù)據(jù)庫已有的標(biāo)簽對其進(jìn)行標(biāo)注則可能會(huì)引入錯(cuò)誤標(biāo)注,降低信息標(biāo)注的準(zhǔn)確性。因此,文中采用TF-IDF 作為標(biāo)注降噪的標(biāo)準(zhǔn)[11-12]:

      式中:Ti為算法生成的標(biāo)注;Ni表示Ti在相似標(biāo)注中出現(xiàn)的頻次;N為所有相似標(biāo)注的總和;Di為Ti的逆文檔率。本文算法為所有生成的標(biāo)注設(shè)置了一定的TFIDF 閾值,當(dāng)?shù)陀陂撝禃r(shí),數(shù)據(jù)庫中將不再保留算法生成的標(biāo)注。

      1.2 基于區(qū)域劃分的信息標(biāo)注方法

      在進(jìn)行數(shù)字圖書多媒體信息標(biāo)注時(shí),如果僅采用1.1 節(jié)所述方法,則可能存在原始數(shù)據(jù)庫中無相似信息的情況,此時(shí)就會(huì)出現(xiàn)待標(biāo)注的信息本身不夠豐富或者無法完成標(biāo)注的情況。為此,本文針對圖書的圖像信息,引入了RCNN 網(wǎng)絡(luò)[13-14]選取圖像的最相關(guān)區(qū)域:

      劃分區(qū)域的RCNN 網(wǎng)絡(luò)框架如圖2 所示。所設(shè)計(jì)的RCNN 網(wǎng)絡(luò)包含兩個(gè)通道,其中左通道對主要區(qū)域進(jìn)行標(biāo)注,右通道對候選的次要區(qū)域進(jìn)行標(biāo)注。在進(jìn)行特征提取時(shí),主要使用卷積和全連接運(yùn)算,其中Score 運(yùn)算的定義如式(8)所示。疊加后,通過Softmax 層確定該信息的具體標(biāo)注:

      圖2 劃分區(qū)域的RCNN 網(wǎng)絡(luò)

      式中:s為當(dāng)前待識(shí)別的數(shù)字圖書圖像信息;S為信息的標(biāo)識(shí)集合;I為區(qū)域r中的特征向量。

      模型在訓(xùn)練時(shí),基于誤差的反向傳播思想,使用梯度下降法實(shí)現(xiàn)訓(xùn)練[15],定義模型標(biāo)識(shí)時(shí)所采用的損失函數(shù)為:

      2 算法實(shí)現(xiàn)與測試分析

      2.1 仿真實(shí)驗(yàn)設(shè)計(jì)

      為了評估模型的性能,本文從某高校圖書館的數(shù)據(jù)庫中導(dǎo)出了現(xiàn)有數(shù)字圖書的圖像信息作為數(shù)據(jù)集進(jìn)行驗(yàn)證仿真,表1 為圖像的類別及數(shù)量信息。

      表1 數(shù)據(jù)集中數(shù)字圖書信息

      為了評估模型在進(jìn)行信息檢索時(shí)的識(shí)別準(zhǔn)確度,采用準(zhǔn)確率P和召回率R作為評價(jià)指標(biāo)。提取信息特征的網(wǎng)絡(luò)由多個(gè)卷積層與池化層組成,文中以目前業(yè)界較成熟的兩個(gè)網(wǎng)絡(luò)ZF-Net 和VGG-16 作為特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)的區(qū)別如表2 所示。

      表2 ZF-Net 和VGG-16 的網(wǎng)絡(luò)特征

      通過對比兩個(gè)網(wǎng)絡(luò)的性能和適用場景,本文選擇VGG-16 作為特征提取網(wǎng)絡(luò)。在使用時(shí),主要利用其全連接層之前的結(jié)構(gòu),具體的網(wǎng)絡(luò)參數(shù)如表3 所示。

      表3 VGG-16 的具體參數(shù)設(shè)置

      文中的特征提取網(wǎng)絡(luò)包括13 個(gè)卷積層和4 個(gè)池化層,卷積層中使用ReLU 作為激活函數(shù),網(wǎng)絡(luò)中所有的卷積運(yùn)算使用的卷積核尺寸均為3×3,訓(xùn)練參數(shù)如表4所示。

      表4 VGG-16 的訓(xùn)練參數(shù)

      信息經(jīng)過特征提取網(wǎng)絡(luò)后,被劃分為3 個(gè)通道,其中一個(gè)是所設(shè)計(jì)的RCNN 候選框調(diào)整網(wǎng)絡(luò),另外兩個(gè)通道的結(jié)構(gòu)如表5 所示。

      2.2 仿真結(jié)果分析

      首先評估算法在單純依靠相似度時(shí)對于圖書信息的標(biāo)注效率,計(jì)算結(jié)果如表6 所示。

      表6 基于相似度的信息標(biāo)注結(jié)果

      從表6 中可以看出:通過文本的方式對數(shù)字圖書信息進(jìn)行標(biāo)注時(shí),由于采集的文本信息夾雜了大量與圖書信息不相關(guān)的內(nèi)容,導(dǎo)致正確標(biāo)注剛剛過半;單純引入多維相似度標(biāo)注方法時(shí),由于未經(jīng)過降噪,因此也會(huì)生成不相關(guān)的標(biāo)注,這反而惡化了實(shí)際的標(biāo)注效果。在對已標(biāo)注的信息進(jìn)行TF-IDF 降噪后性能明顯提升,相比基于文本的傳統(tǒng)信息標(biāo)注方式,其準(zhǔn)確率提升了0.121,召回率提升了0.291。圖3 給出了不同相似度時(shí)準(zhǔn)確率的變化趨勢,可以看出本文引入的相似度指標(biāo)與標(biāo)注的準(zhǔn)確率呈正相關(guān),這證明了多源評價(jià)指標(biāo)體系的可行性。

      圖3 相似度與準(zhǔn)確率的關(guān)系曲線

      隨后對引入RCNN 網(wǎng)絡(luò)的標(biāo)注方法進(jìn)行評估,記k為次要區(qū)域的個(gè)數(shù),對模型在不同k取值時(shí)進(jìn)行訓(xùn)練,所得到的P值如表7 所示。

      表7 不同次要區(qū)域下的訓(xùn)練準(zhǔn)確率

      當(dāng)k=0 時(shí),RCNN 網(wǎng)絡(luò)和普通的CNN 網(wǎng)絡(luò)結(jié)構(gòu)相同。當(dāng)k取值增加時(shí),P隨之增加。當(dāng)k=6 時(shí),P取得最大值,因此文中選取k=6。此時(shí),訓(xùn)練完成的模型在測試集上得到的準(zhǔn)確率如表8 所示。

      表8 不同算法在測試集上的準(zhǔn)確率

      由表8 可以看出,引入RCNN 網(wǎng)絡(luò)后,多源信息相似度標(biāo)注方法的精確度有所提升,證明了多區(qū)域信息特征提取的必要性。此外,相較于現(xiàn)有OTC、Mop-CNN、ImageNet-CNN 等人工智能網(wǎng)絡(luò),在本算法框架下,準(zhǔn)確率分別提升了0.372、0.093、0.201。

      3 結(jié) 語

      針對當(dāng)前數(shù)字圖書信息的檢索問題,本文研究了基于融合數(shù)據(jù)的信息標(biāo)注方法,通過提升信息標(biāo)注的準(zhǔn)確性,優(yōu)化圖書信息的檢索流程,降低了用戶在信息檢索時(shí)的消耗,并提升了在線查找時(shí)的用戶體驗(yàn)。仿真結(jié)果表明,本算法可以有效提取多媒體形式的數(shù)字圖書信息特征。隨著數(shù)字圖書資源的不斷豐富,所提算法將有更為廣闊的應(yīng)用前景。

      猜你喜歡
      數(shù)字圖書特征提取檢索
      區(qū)塊鏈在數(shù)字圖書侵權(quán)中的司法救濟(jì)作用分析
      今傳媒(2022年12期)2022-12-22 07:19:58
      數(shù)字圖書回顧與反思
      中文信息(2021年6期)2021-03-27 11:10:19
      2019年第4-6期便捷檢索目錄
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Bagging RCSP腦電特征提取算法
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      數(shù)字圖書營銷方法探究
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      數(shù)字圖書加密措施與密鑰管理
      Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
      軸承(2010年2期)2010-07-28 02:26:12
      呼图壁县| 和林格尔县| 和硕县| 翁源县| 虞城县| 陆川县| 名山县| 普兰店市| 城市| 故城县| 同仁县| 隆昌县| 丰顺县| 清丰县| 葫芦岛市| 磐安县| 武汉市| 南康市| 汤原县| 乌鲁木齐县| 土默特左旗| 晋中市| 汕尾市| 龙江县| 五指山市| 抚顺市| 大竹县| 体育| 盐津县| 柳江县| 乐山市| 寻甸| 金湖县| 海原县| 垣曲县| 凌海市| 涟水县| 独山县| 丰都县| 旌德县| 武陟县|