吳榮
(火箭軍工程大學(xué)圖書館,陜西西安 710007)
通過運(yùn)用大數(shù)據(jù)分析技術(shù),對(duì)數(shù)字圖書館信息領(lǐng)域本體進(jìn)行有效建立,然后在知識(shí)庫中,對(duì)用戶需要進(jìn)行檢索的信息進(jìn)行搜索。當(dāng)用戶將查詢請(qǐng)求輸入數(shù)字圖書館信息領(lǐng)域本體領(lǐng)域時(shí),推理機(jī)便會(huì)對(duì)輸入的語句或者關(guān)鍵詞進(jìn)行語義推理,以構(gòu)成邏輯表達(dá)式,然后會(huì)在檢索系統(tǒng)中上傳邏輯表達(dá)式。在進(jìn)行檢索過程中,還應(yīng)選用RDF等工具來對(duì)實(shí)例推理進(jìn)行詳細(xì)描述,根據(jù)相關(guān)推理規(guī)則與推理要求,同時(shí)結(jié)合實(shí)際情況,由系統(tǒng)程序員來合理構(gòu)建規(guī)則。最后,在數(shù)字圖書館信息資源中,對(duì)用戶所需的有關(guān)文獻(xiàn)資源進(jìn)行搜索,不過因?yàn)榇嬖诙喾N不同類型的領(lǐng)域本體,所以應(yīng)根據(jù)各種類型的領(lǐng)域本的開發(fā)層次,對(duì)領(lǐng)域本體進(jìn)行有效建立。其中,選用的本體建立方法為[1-3]:
第一,選用單本體方法,表明共享詞匯集是由全局本體所提供的,全局本體一定要與全部的信息源產(chǎn)生聯(lián)系,確保語義的一致性。針對(duì)某一特定領(lǐng)域,當(dāng)需要對(duì)其進(jìn)行映射時(shí),可以選用單本體方法,不過存在一個(gè)前提條件,即信息源變化不會(huì)影響單本體。其中,單本體結(jié)構(gòu),如圖1所示。
圖1 單本體結(jié)構(gòu)Fig.1 Single body structure
第二,選用多本體方法,對(duì)各種信息源進(jìn)行詳細(xì)描述,同時(shí)保證全部的本體均具有自己的詞匯集。當(dāng)信息源發(fā)生變化時(shí),并不會(huì)較多影響本體結(jié)構(gòu),本體結(jié)構(gòu)僅會(huì)發(fā)生較小程度的改動(dòng),這也是多本體方法的一大重要優(yōu)勢(shì)。其中,多本體結(jié)構(gòu),如圖2所示。
圖2 多本體結(jié)構(gòu)Fig.2 Multi-ontology structure
針對(duì)以上兩組方法,應(yīng)根據(jù)領(lǐng)域本體的實(shí)際需求,選取相應(yīng)合理、可行的分類方法,能夠在數(shù)字圖書館信息資源中,將用戶所需的文獻(xiàn)資料精準(zhǔn)搜索出來。
在完成數(shù)字圖書館信息領(lǐng)域本體的建立以后,接下來需要對(duì)用戶查詢信息進(jìn)行有效處理,選用統(tǒng)一模式,對(duì)文本形式進(jìn)行詳細(xì)解析,然后在文檔數(shù)據(jù)庫中將其儲(chǔ)存起來。根據(jù)數(shù)字化文檔元數(shù)的規(guī)范定義,在遵守MARL標(biāo)準(zhǔn)的原則下,將文檔數(shù)據(jù)庫中的文檔信息提取出來。為能夠共享數(shù)據(jù)信息,選用XML,在元數(shù)據(jù)庫中儲(chǔ)存提取出來的元數(shù)據(jù)組織[4]。其中,文檔元數(shù)據(jù)提取流程示意圖,如圖3所示。
圖3 文檔元數(shù)據(jù)提取流程示意圖Fig.3 Schematic diagram of document metadata extraction process
根據(jù)MARL 元數(shù)據(jù)提取的標(biāo)準(zhǔn),對(duì)不同類型的數(shù)據(jù)庫信息進(jìn)行提取與細(xì)化,最后提取文檔信息元數(shù)據(jù)。不過,針對(duì)XML,由于它沒有語義描述功能,因此需要建立相應(yīng)合理的概念模型。
當(dāng)以上工作全部完成以后,通過運(yùn)用一些工具來對(duì)程序進(jìn)行有效簡(jiǎn)化,包括主題詞、語義字典等,有助于元數(shù)據(jù)建立工作量的減少。
在將用戶查詢信息處理工作完成以后,需要對(duì)數(shù)字圖書館信息檢索模型進(jìn)行建立,具體操作流程為[5-7]:
第一步,選用智能算法,對(duì)上下文單詞進(jìn)行有效處理,對(duì)候選術(shù)語的長(zhǎng)度、候選術(shù)語的出現(xiàn)頻率、候選術(shù)語的出現(xiàn)次數(shù)總和進(jìn)行計(jì)算,其中,計(jì)算公式為:
C-Value={log2|a|*f(a)} (1)
在公式(1)中:智能算法用C-Value來進(jìn)行表示;字符串長(zhǎng)度用log進(jìn)行表示;候選字符串用a進(jìn)行表示;出現(xiàn)頻率用f進(jìn)行表示。
在利用智能算法對(duì)術(shù)語進(jìn)行抽取過程中,需要先對(duì)C-Value值進(jìn)行計(jì)算,然后對(duì)詞性過濾規(guī)則進(jìn)行建立,最后對(duì)與詞性過濾規(guī)則相符合的術(shù)語進(jìn)行搜索。
第二步:當(dāng)獲取候選術(shù)語列表之后,應(yīng)對(duì)可接受的精度進(jìn)行有效計(jì)算,利用智能算法NC-Value,對(duì)上下文加權(quán)因子的權(quán)重進(jìn)行有效計(jì)算,其中,計(jì)算公式為:
Weight(w)=t(w)/n (2)
在公式(2)中:上下文中的詞匯用w進(jìn)行表示;全部術(shù)語總數(shù)用n進(jìn)行表示;術(shù)語數(shù)目用t(w)進(jìn)行表示;上下文加權(quán)因子用weight(w)進(jìn)行表示。
第三步:對(duì)數(shù)字圖書館信息檢索模型層次架構(gòu)進(jìn)行有效建立,具體內(nèi)容,如表1所示。
表1 數(shù)字圖書館信息檢索模型層次架構(gòu)Tab.1 Hierarchical structure of information retrieval model of digital library
其中,第一層,應(yīng)用層,就是指入口集合,利用了人工智能服務(wù)技術(shù),便于用戶在不同功能界面中得到自己所需的信息;第二,服務(wù)層,這是數(shù)字圖書館信息檢索模型的關(guān)鍵部分,主要功能就是向用戶提供個(gè)性化服務(wù),如個(gè)性化信息推送服務(wù)、智能信息檢索服務(wù)等;第三,支持層,這是數(shù)字圖書館信息檢索平臺(tái)的引擎部分,能夠?qū)π畔⑦M(jìn)行儲(chǔ)存、分類、檢索、采集等;第四,資源層,在數(shù)字圖書館數(shù)據(jù)庫中,資源層是重要支撐。
基于大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型,如圖4所示。
圖4 基于大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型Fig.4 Digital library information retrieval model based on big data analysis technology
基于大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型的基本工作原理為:第一,利用概念檢索技術(shù),在領(lǐng)域?qū)<业闹笇?dǎo)下,對(duì)領(lǐng)域本體進(jìn)行建立;第二,根據(jù)MARL元數(shù)據(jù)標(biāo)準(zhǔn),通過選用大數(shù)據(jù)分析技術(shù),對(duì)信息源中的數(shù)據(jù)進(jìn)行收集,同時(shí)構(gòu)建元數(shù)據(jù)庫;第三,將用戶查詢請(qǐng)求提交到檢索界面,對(duì)檢索需求進(jìn)行有效處理;第四,對(duì)領(lǐng)域本體的語義相似度進(jìn)行有效排序,相似度大的排在前面,排序結(jié)束以后,向用戶進(jìn)行提交。
針對(duì)本文設(shè)計(jì)的基于大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型,為對(duì)其的可行性進(jìn)行有效驗(yàn)證,選取與SaaS領(lǐng)域有關(guān)的500篇文本做為前景語料,包括文化領(lǐng)域、新聞?lì)I(lǐng)域等。本次分別選用建立的模型與傳統(tǒng)檢索模型來進(jìn)行檢測(cè),檢測(cè)獲取的檢索匹配結(jié)果能否獲取效果十分好的平均權(quán)重、召回率、準(zhǔn)確率[8-9]。以確保本次實(shí)驗(yàn)具有足夠的說明性,其中,傳統(tǒng)檢索模型的檢測(cè)結(jié)果,如表2所示,新建檢索模型的檢測(cè)結(jié)果,如表3所示。通過對(duì)表2、表3 進(jìn)行深入分析后發(fā)現(xiàn),與傳統(tǒng)檢索模型相比,通過利用新建檢索模型來進(jìn)行檢索,能夠獲取效果更好的平均權(quán)重、召回率、準(zhǔn)確率。究其原因,即:第一,與檢索角度有關(guān)系,通過利用新建模型進(jìn)行檢索時(shí),需要先對(duì)全部檢索詞進(jìn)行語義化處理,對(duì)所有數(shù)字圖書館信息的有關(guān)索引進(jìn)行計(jì)算;第二,與查詢SaaS領(lǐng)域有關(guān)系,能夠獲取較高準(zhǔn)確率的抽取檢索結(jié)果[10]。
表2 傳統(tǒng)檢索模型的檢測(cè)結(jié)果Tab.2 Detection results of traditional retrieval models
表3 新建模型的檢測(cè)結(jié)果Tab.3 Test results of the newly created model
綜上所述,為有效解決傳統(tǒng)數(shù)字圖書館信息檢索模型中存在的問題,本文設(shè)計(jì)了一種新的模型,即基于大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型。在數(shù)字圖書館信息檢索模型中,通過運(yùn)用大數(shù)據(jù)分析技術(shù),能夠構(gòu)建共享平臺(tái),與傳統(tǒng)檢索模型相比,大數(shù)據(jù)分析技術(shù)具有非常多的使用價(jià)值與使用功能,能夠?qū)崿F(xiàn)智能信息檢索與個(gè)性化推薦。本文對(duì)基于大數(shù)據(jù)分析技術(shù)的數(shù)字圖書館信息檢索模型設(shè)計(jì)進(jìn)行了詳細(xì)分析與闡述,希望能夠?qū)ο嚓P(guān)工作人員起到一定的借鑒作用[11]。