張文晶
摘 ?要: 為解決傳統(tǒng)PIT圖書館學(xué)術(shù)數(shù)據(jù)檢索方法存在索引定位數(shù)組數(shù)量有限、檢索承載額度較低等弊端,設(shè)計(jì)新型圖書館海量網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)的關(guān)聯(lián)檢索技術(shù)模型。通過定義數(shù)據(jù)包類型的方式,判斷網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)的衍生結(jié)構(gòu)、設(shè)置準(zhǔn)確的數(shù)據(jù)命名機(jī)制,完成圖書館海量網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)的結(jié)構(gòu)分析。在此基礎(chǔ)上,利用關(guān)聯(lián)數(shù)據(jù)節(jié)點(diǎn)的空間編碼,確定嚴(yán)格的檢索分級法則、完善數(shù)據(jù)的關(guān)聯(lián)檢索流程,實(shí)現(xiàn)新型技術(shù)模型的搭建,完成圖書館海量網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)的關(guān)聯(lián)檢索技術(shù)研究。對比模型應(yīng)用結(jié)果可知,與傳統(tǒng)PIT檢索方法相比,應(yīng)用新型關(guān)聯(lián)檢索技術(shù)模型后,索引定位數(shù)組數(shù)量提升至5.0×1011 TB以上,檢索承載額度也達(dá)到預(yù)期水平。
關(guān)鍵詞: 網(wǎng)絡(luò)數(shù)據(jù); 關(guān)聯(lián)檢索; 數(shù)據(jù)包定義; 衍生結(jié)構(gòu); 命名機(jī)制; 空間編碼; 分級法則; 技術(shù)模型
中圖分類號: TN911?34; TP391 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)11?0181?06
Abstract: The traditional PIT library′s academic data retrieval method has some disadvantages, such as the limited number of index positioning arrays and low retrieval load quota. Therefore, a new association retrieval technology model of library′s massive network academic data is designed. By defining the data packet type, the derivative structure of network academic data is judged, and the accurate data naming mechanism is set up to complete the structure analysis of library′s massive network academic data. On this basis, the spatial coding of the associated data nodes is used to determine the strict retrieval grading rules, improve the process of data association retrieval, realize the construction of new technical model, and complete the association retrieval technology research of library′s massive network academic data. The model application results show that, in comparison with the traditional PIT retrieval method, the number of index positioning arrays obtained by the proposed method can reach up to more than 5.0×1011 TB, and the retrieval load quota can reach the expected level.
Keywords: network data; association retrieval; data packet definition; derivative structure; naming mechanism; spatial coding; hierarchical rule; technical model
0 ?引 ?言
關(guān)聯(lián)檢索是一項(xiàng)常見的引擎式檢索手段,可以通過輸入的主要關(guān)鍵詞得到準(zhǔn)確的檢索結(jié)果,且在結(jié)果頁面中會顯示一到多個(gè)不固定數(shù)量的關(guān)聯(lián)搜索詞,單擊這些搜索詞,會得到大量的關(guān)聯(lián)參考結(jié)果。這種關(guān)聯(lián)檢索手段既能在一定程度上避免關(guān)鍵詞的重復(fù)輸入,也能在海量網(wǎng)絡(luò)空間中規(guī)劃出關(guān)鍵詞的大致存在范圍,對于使用者來說,信息的檢索速率得到大幅提升,大大節(jié)省了有效信息的傳輸消耗時(shí)間[1?2]。在現(xiàn)代社會環(huán)境中,大多數(shù)圖書館都利用Bloom filter技術(shù)搭建網(wǎng)絡(luò)學(xué)術(shù)信息的檢索數(shù)據(jù)庫,并通過MBF的二叉樹結(jié)構(gòu),將這些學(xué)術(shù)信息傳輸至各級定位數(shù)組,再在PIT傳輸結(jié)構(gòu)的促進(jìn)下,將這些數(shù)組按照關(guān)鍵詞的關(guān)聯(lián)差異性進(jìn)行按需分配,完成PIT圖書館學(xué)術(shù)數(shù)據(jù)檢索方法的搭建。但隨著科學(xué)技術(shù)手段的進(jìn)步,這種傳統(tǒng)的數(shù)據(jù)檢索技術(shù)開始出現(xiàn)定位數(shù)組數(shù)量有限、檢索承載額度達(dá)不到預(yù)期水平等問題。為避免上述情況的出現(xiàn),通過數(shù)據(jù)衍生結(jié)構(gòu)判斷、數(shù)據(jù)節(jié)點(diǎn)空間編碼等手段,建立一種新型圖書館海量網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)的關(guān)聯(lián)檢索技術(shù)模型,并通過對比實(shí)驗(yàn)數(shù)據(jù)的方式,證明該新型技術(shù)模型的應(yīng)用可行性。
1 ?圖書館海量網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)結(jié)構(gòu)分析
圖書館海量網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)結(jié)構(gòu)分析是新型檢測技術(shù)模型的搭建基礎(chǔ)。在數(shù)據(jù)包類型定義、數(shù)據(jù)衍生結(jié)構(gòu)判斷等關(guān)鍵環(huán)節(jié)的支持下,具體搭建方法按如下步驟進(jìn)行。
1.1 ?數(shù)據(jù)包類型定義
在圖書館海量學(xué)術(shù)網(wǎng)絡(luò)中,數(shù)據(jù)包定義過程由信息請求端發(fā)起。信息請求端發(fā)送的原始數(shù)據(jù)包具備明顯的Interest名稱標(biāo)識,且在整個(gè)數(shù)據(jù)類型定義過程中,圖書館網(wǎng)絡(luò)的輸入結(jié)構(gòu)會對學(xué)術(shù)信息內(nèi)容進(jìn)行基礎(chǔ)判斷。當(dāng)圖書館學(xué)術(shù)網(wǎng)絡(luò)處理中心收到檢索數(shù)據(jù)庫發(fā)出的連接請求后,在FIB整合裝置的促進(jìn)下,這些連接請求中的數(shù)據(jù)信息會脫離原結(jié)構(gòu),進(jìn)入信息請求端的數(shù)據(jù)定義組織中,并在其中按照一定的物理排列順序生成全新的Interest數(shù)據(jù)包[3?4]。當(dāng)Interest數(shù)據(jù)包中包含大量的圖書館關(guān)聯(lián)數(shù)據(jù)時(shí),各項(xiàng)與學(xué)術(shù)網(wǎng)絡(luò)相關(guān)的數(shù)據(jù)內(nèi)容、數(shù)據(jù)名稱等信息會在信息請求端的促進(jìn)下形成全新的分級Data包,然后再將所有圖書館學(xué)術(shù)數(shù)據(jù)按照關(guān)聯(lián)檢索要求整合成一條完整的信息鏈,再通過傳輸路徑將完成數(shù)據(jù)包類型定義的信息鏈返回至內(nèi)容請求端。具體圖書館學(xué)術(shù)數(shù)據(jù)包類型定義原理如圖1所示。
1.2 ?網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)衍生結(jié)構(gòu)判斷
圖書館學(xué)術(shù)數(shù)據(jù)的衍生結(jié)構(gòu)包含Counting Bloom filter,Dynamic Bloom filter,Spectral Bloom filter,Compressed Bloom filter四種類型。其中,Counting Bloom filter圖書館學(xué)術(shù)數(shù)據(jù)的衍生結(jié)構(gòu)可以與所有相鄰關(guān)聯(lián)檢索節(jié)點(diǎn)進(jìn)行比特?cái)?shù)組共享,且隸屬于該結(jié)構(gòu)的圖書館學(xué)術(shù)數(shù)據(jù)不能進(jìn)行單獨(dú)刪除操作,必須始終以集合的形式存在。Dynamic Bloom filter圖書館學(xué)術(shù)數(shù)據(jù)衍生結(jié)構(gòu)的比特?cái)?shù)組位數(shù)始終固定,且隨著學(xué)術(shù)網(wǎng)絡(luò)中數(shù)據(jù)總量的不斷增加,隸屬于同一集合的圖書館學(xué)術(shù)數(shù)據(jù)必須保持相同的衍生趨勢[5]。Spectral Bloom filter圖書館學(xué)術(shù)數(shù)據(jù)衍生結(jié)構(gòu)具備較為固定的比特?cái)?shù)組檢測頻率,在與相鄰關(guān)聯(lián)檢索節(jié)點(diǎn)進(jìn)行信息共享時(shí),這些數(shù)組也只能維持二進(jìn)制的編程形式。Compressed Bloom filter圖書館學(xué)術(shù)數(shù)據(jù)衍生結(jié)構(gòu)具備較大的比特?cái)?shù)組共享空間,可滿足數(shù)據(jù)包類型定義過程中的彈性壓縮要求,使各關(guān)聯(lián)檢索節(jié)點(diǎn)間的物理距離得到適當(dāng)縮短。綜上可知,比特?cái)?shù)據(jù)的存在形式是判斷圖書館網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)衍生結(jié)構(gòu)的主要依據(jù)。表1為四種衍生結(jié)構(gòu)的詳細(xì)判斷依據(jù)。
1.3 ?數(shù)據(jù)命名機(jī)制設(shè)置
新型關(guān)聯(lián)檢索技術(shù)模型的數(shù)據(jù)命名機(jī)制主要存在于中心網(wǎng)絡(luò)層中,且可以在信息傳輸?shù)倪^程中對已完成類型定義的數(shù)據(jù)包進(jìn)行單元式命名。這種新型的數(shù)據(jù)命名機(jī)制采用URL層次處理方式定義數(shù)據(jù)包名稱,并在豐富的詞元組織支持下,界定每個(gè)詞元的字符串長度。圖書館學(xué)術(shù)數(shù)據(jù)在海量傳輸網(wǎng)絡(luò)環(huán)境中始終保持分層連接的狀態(tài),而數(shù)據(jù)命名機(jī)制主要作用于中心網(wǎng)絡(luò)層及協(xié)議流通層[6?7]。當(dāng)中心網(wǎng)絡(luò)層傳出大量的圖書館學(xué)術(shù)數(shù)據(jù)時(shí),由于受到關(guān)聯(lián)檢索網(wǎng)絡(luò)不透明特點(diǎn)的影響,這些數(shù)據(jù)中的節(jié)點(diǎn)詞元不能得到清晰顯示。為解決上述問題,數(shù)據(jù)命名機(jī)制首先利用詞元自身的名稱前綴完成圖書館學(xué)術(shù)數(shù)據(jù)的聚合處理,再通過IP分類統(tǒng)籌的形式,將這些數(shù)據(jù)傳輸至協(xié)議流通層進(jìn)行長久儲存。圖2為新型關(guān)聯(lián)檢索技術(shù)模型數(shù)據(jù)命名機(jī)制的運(yùn)轉(zhuǎn)原理。整合上述操作原理,完成圖書館海量網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)的結(jié)構(gòu)分析。
2 ?基于數(shù)據(jù)結(jié)構(gòu)分析的關(guān)聯(lián)檢索技術(shù)模型搭建
在圖書館海量網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)結(jié)構(gòu)分析的基礎(chǔ)上,通過節(jié)點(diǎn)的空間編碼、分級法則確定等關(guān)鍵環(huán)節(jié)的運(yùn)行,實(shí)現(xiàn)新型關(guān)聯(lián)檢索技術(shù)模型的順利搭建。
2.1 ?關(guān)聯(lián)圖書館海量學(xué)術(shù)數(shù)據(jù)節(jié)點(diǎn)的空間編碼
關(guān)聯(lián)圖書館海量學(xué)術(shù)數(shù)據(jù)節(jié)點(diǎn)的空間編碼以GeoSOT體系作為程序編寫的主要原則,且所有待編碼的圖書館學(xué)術(shù)數(shù)據(jù)都具備固定的節(jié)點(diǎn)數(shù)值和空間屬性參數(shù)。在編碼形式恒定的條件下,不同的空間屬性參數(shù)是區(qū)分每個(gè)圖書館學(xué)術(shù)數(shù)據(jù)的唯一法則,參數(shù)值越大代表與該參數(shù)對應(yīng)圖書館學(xué)術(shù)數(shù)據(jù)的比特?cái)?shù)組位數(shù)所占存儲空間越大,反之則越小[8?9]。在不發(fā)生數(shù)據(jù)命名紊亂情況的前提下,關(guān)聯(lián)圖書館海量學(xué)術(shù)數(shù)據(jù)空間編碼節(jié)點(diǎn)的排列結(jié)構(gòu)如圖3所示。
圖書館學(xué)術(shù)數(shù)據(jù)命名機(jī)制直接影響空間節(jié)點(diǎn)的類型及相關(guān)分層秩序。因此,在不發(fā)生數(shù)據(jù)命名紊亂情況的前提下,空間節(jié)點(diǎn)的類型、相關(guān)分層秩序兩項(xiàng)始終保持不變。設(shè)某固定圖書館學(xué)術(shù)數(shù)據(jù)的節(jié)點(diǎn)數(shù)值為[l],該節(jié)點(diǎn)的空間屬性參數(shù)為[k],則與該數(shù)據(jù)相關(guān)的空間編碼標(biāo)準(zhǔn)可表示為:
式中:[x]代表標(biāo)準(zhǔn)情況下,與該項(xiàng)圖書館學(xué)術(shù)數(shù)據(jù)相關(guān)的編碼因子;[log d]代表編碼執(zhí)行系數(shù);[g]代表空間編碼標(biāo)準(zhǔn)的關(guān)聯(lián)項(xiàng)。
2.2 ?檢索分級法則的確定
新型技術(shù)模型的檢索分級法則具備元數(shù)據(jù)區(qū)分、網(wǎng)絡(luò)映射屬性判斷、編碼節(jié)點(diǎn)創(chuàng)建等主要功能。當(dāng)關(guān)聯(lián)圖書館海量學(xué)術(shù)數(shù)據(jù)節(jié)點(diǎn)完成空間編碼后,所有數(shù)據(jù)信息中的元成分都會發(fā)生定向改變,且空間屬性參數(shù)不再是判斷圖書館學(xué)術(shù)數(shù)據(jù)類型的唯一標(biāo)準(zhǔn)[10?11]。比特?cái)?shù)組位數(shù)較大的圖書館學(xué)術(shù)數(shù)據(jù)會在檢索分級法則的促進(jìn)下,將元數(shù)據(jù)成分遷移成更加緊湊的結(jié)構(gòu)類型,并以此擴(kuò)充在單位空間內(nèi)索引定位數(shù)組的數(shù)量,解決檢索承載額度較低的問題。網(wǎng)絡(luò)映射屬性判斷是關(guān)聯(lián)檢索技術(shù)模型的核心處理功能,隨著檢索分級法則的逐漸完善,圖書館網(wǎng)絡(luò)中映射脈絡(luò)得到有效劃分,學(xué)術(shù)數(shù)據(jù)的流通速率得到一定程度的促進(jìn)。編碼節(jié)點(diǎn)創(chuàng)建是檢索分級法則中的核心環(huán)節(jié),且隨著網(wǎng)絡(luò)中圖書館學(xué)術(shù)數(shù)據(jù)總量的增加,該功能會促進(jìn)關(guān)聯(lián)檢索識別程序的快速運(yùn)行。圖4為檢索分級法則的確定原理。