張成叔
(1.合肥工業(yè)大學(xué)計算機與信息學(xué)院,安徽合肥 230001;2.安徽財貿(mào)職業(yè)學(xué)院信息工程學(xué)院,安徽合肥 230601)
隨著數(shù)據(jù)信息量的不斷增加,傳統(tǒng)圖書館信息管理模式逐漸向數(shù)字化信息管理模式方向轉(zhuǎn)化,加大了對數(shù)據(jù)信息管理技術(shù)要求[1-2]。多年來,圖書館信息管理主要階段有3 個,分別是傳統(tǒng)管理模式、基于現(xiàn)代化設(shè)備的信息管理模式、基于現(xiàn)代化技術(shù)的智能管理模式[3]。目前,圖書館信息管理正處于第三個階段,著重發(fā)展智能圖書館云檢索系統(tǒng),選取數(shù)據(jù)挖掘技術(shù)作為研究工具展開應(yīng)用研究。
網(wǎng)絡(luò)技術(shù)的快速發(fā)展,促進(jìn)了我國圖書館資源檢索改進(jìn)發(fā)展步伐,借助互聯(lián)網(wǎng)平臺,開發(fā)了一些資源檢索系統(tǒng),利用系統(tǒng)完成高效檢索服務(wù)操作[4]。目前,系統(tǒng)開發(fā)應(yīng)用比較多的工具包括神經(jīng)網(wǎng)絡(luò)架構(gòu)技術(shù)、云計算技術(shù)、模糊綜合計算技術(shù)等[5]。實踐應(yīng)用結(jié)果表明,這些工具的應(yīng)用開發(fā)出的檢索系統(tǒng)在很大程度提高了資源檢索效率,但是仍然存在一定提升空間[6]。以500GB 文件檢索為例,設(shè)定50 個節(jié)點,統(tǒng)計如表1所示為不同技術(shù)應(yīng)用下的資源檢索耗時情況統(tǒng)計結(jié)果。
表1 不同技術(shù)應(yīng)用下的資源檢索耗時情況統(tǒng)計結(jié)果(單位:ms)
表1 中,3 項系統(tǒng)開發(fā)技術(shù)的應(yīng)用在2017 年至2019 年有所進(jìn)步,但是資源檢索消耗時間縮短幅度較小。隨著圖書館資源數(shù)據(jù)信息的不斷增加,仍然需要對這些技術(shù)進(jìn)行改進(jìn)。在檢索算法層面上開展新的突破,此項發(fā)展目標(biāo)可以通過改進(jìn)算法、更換新的技術(shù)開發(fā)算法等多條路徑來實現(xiàn)。
大數(shù)據(jù)挖掘技術(shù)屬于數(shù)據(jù)處理技術(shù),在眾多數(shù)據(jù)當(dāng)中,根據(jù)設(shè)定的數(shù)據(jù)信息搜索范圍,從中提取潛在信息,通常情況下,這部分潛在的信息是很難發(fā)現(xiàn)的,采用其他數(shù)據(jù)信息檢索方法無法達(dá)到該項技術(shù)的檢索水平[7]。實際上,數(shù)據(jù)挖掘是一個循環(huán)過程,在沒有達(dá)到預(yù)期目標(biāo)之前,會按照設(shè)定步驟反復(fù)循環(huán)執(zhí)行,直至達(dá)到預(yù)期目標(biāo)。目前,該項技術(shù)已經(jīng)在很多領(lǐng)域均有所應(yīng)用,根據(jù)信息挖掘需求設(shè)定限制條件,以此獲取較為全面的數(shù)據(jù)信息。
近年來,我國加大了對圖書館服務(wù)水平要求,提出了個性化服務(wù)。此項服務(wù)工作的開展,需要收集海量數(shù)據(jù),對數(shù)據(jù)進(jìn)行有效統(tǒng)計分析,從而為用戶提供高質(zhì)量服務(wù),以此加快服務(wù)效率,擴大服務(wù)范圍。以往采用的數(shù)據(jù)統(tǒng)計軟件無法滿足這些應(yīng)用需求,大數(shù)據(jù)挖掘技術(shù)的出現(xiàn),打破了此困境,為圖書館個性化服務(wù)開辟了新的路徑。通過查閱資料,總結(jié)此項技術(shù)在圖書館中的幾個重要應(yīng)用層面:(1)文獻(xiàn)閱讀、文獻(xiàn)參考情況、用戶對文獻(xiàn)資料需求情況等數(shù)據(jù)信息統(tǒng)計;(2)文獻(xiàn)查閱記錄、查閱人個人信息、資料下載時間、資料檢索耗時等多項指標(biāo)信息的統(tǒng)計;(3)師生用戶對圖書館資源的反饋,根據(jù)師生使用資源情況,為其推薦圖書及文獻(xiàn)資源;(4)支持?jǐn)?shù)據(jù)空間分布,圖書文獻(xiàn)資源管理更加清晰[8]。
大數(shù)據(jù)挖掘技術(shù)在圖書館服務(wù)中的應(yīng)用層面足以證明該項技術(shù)的強大,是圖書館發(fā)展個性化服務(wù)不可缺少的工具,如何充分發(fā)揮該項技術(shù)在圖書館服務(wù)應(yīng)用中的作用,提出可行性較高的應(yīng)用方案成為了當(dāng)前重點研究內(nèi)容。
通常情況下,大數(shù)據(jù)挖掘技術(shù)在系統(tǒng)開發(fā)中應(yīng)用較多,借助互聯(lián)網(wǎng)平臺,依據(jù)操作功能需求開發(fā)系統(tǒng)框架結(jié)構(gòu),并編寫運行算法,從而實現(xiàn)各項操作功能[9]。圖書館個性化服務(wù)的實現(xiàn),可以嘗試借助此項技術(shù),依據(jù)圖書館服務(wù)需求,開發(fā)一套智能操作系統(tǒng)。信息檢索作為圖書館系統(tǒng)的核心功能,數(shù)據(jù)管理工作量較大,對操作技術(shù)水平要求較高[10]。因此,在探究大數(shù)據(jù)挖掘技術(shù)在圖書館個性化服務(wù)中的應(yīng)用方案,應(yīng)該重點探究系統(tǒng)檢索功能。
隨著互聯(lián)網(wǎng)的迅速發(fā)展,推出了云端信息管理,在很大程度上擴大了系統(tǒng)存儲空間,為圖書館檢索系統(tǒng)開發(fā)提供了有利條件。因此,創(chuàng)造圖書館云檢索系統(tǒng)是當(dāng)前圖書館開展圖書資源信息檢索工作的關(guān)鍵。
選取Hodoop 和存儲設(shè)備作為系統(tǒng)信息存儲單元,用于存儲圖書文獻(xiàn)信息,利用HDFS 等工具開發(fā)管理模塊,通過JDBC 接口建立圖書館管理平臺與用戶計算機之間的通信接口,從而實現(xiàn)圖書館云端檢索訪問。如圖1所示為系統(tǒng)框架結(jié)構(gòu)。
圖1 系統(tǒng)框架結(jié)構(gòu)
圖1 中,按照功能的不同,將系統(tǒng)功能劃分為4個層次,分別是存儲層、基礎(chǔ)管理層、應(yīng)用接口層、訪問層。
(1)存儲層。該層次位于系統(tǒng)結(jié)構(gòu)的底端,作為系統(tǒng)運行基礎(chǔ)組件,起到資源存儲管理作用。由于圖書館資源過多,加大了信息管理難度,本系統(tǒng)借助Hadoop 平臺對設(shè)備采取虛擬化處理,并診斷存儲單元作業(yè)狀態(tài)。如果系統(tǒng)存儲單元作業(yè)發(fā)生異常,立即發(fā)出警告;
(2)基礎(chǔ)管理層。該層次位于接口層和存儲層中間,起到系統(tǒng)組件管理作用,借助HDFS、數(shù)據(jù)倉庫技術(shù)實現(xiàn)統(tǒng)一管理,使得系統(tǒng)能夠為用戶提供檢索服務(wù)。在此過程中,需要根據(jù)圖書館信息檢索操作需求,編寫數(shù)據(jù)挖掘算法;
(3)應(yīng)用接口層。該層次是系統(tǒng)作業(yè)重要層次結(jié)構(gòu),用于創(chuàng)建用戶和平臺的通信連接,從而實現(xiàn)為用戶提供平臺資源訪問服務(wù)。其中,采用的訪問端口為JDBC 接口。為了保證系統(tǒng)運行安全,本系統(tǒng)添加了用戶身份認(rèn)證操作環(huán)節(jié),對不同用戶身份設(shè)置了操作權(quán)限。接入網(wǎng)絡(luò)后系統(tǒng)可以自動識別用戶身份,判斷當(dāng)前用戶發(fā)出的操作申請是否在權(quán)限范圍內(nèi),以此提高系統(tǒng)訪問安全性;
(4)訪問層。該層次指的是用戶計算機操作終端,通過互聯(lián)網(wǎng)平臺登錄系統(tǒng),根據(jù)文獻(xiàn)資源檢索需求搜索,并下載文獻(xiàn)資料。在此過程中,用戶的個人信息和訪問信息都將記錄到系統(tǒng)中。
在開發(fā)系統(tǒng)檢索功能時,以Hadoop 平臺作為開發(fā)環(huán)境,主要用到3 項管理工具:HDFS 工具,存儲系統(tǒng)管理操作相關(guān)數(shù)據(jù)信息;MapReduce 工具,對系統(tǒng)運行期間涉及到的所有訪問、下載、查詢等數(shù)據(jù)進(jìn)行進(jìn)行統(tǒng)計處理,并生成統(tǒng)計結(jié)果,以便圖書管理員掌握當(dāng)前圖書文獻(xiàn)訪問、查詢等多個方面現(xiàn)狀;Hive 工具,以信息關(guān)鍵詞作為管理依據(jù),對信息資源進(jìn)行分析,并存儲到指定文件夾。
(1)HDFS組件功能。
此組件在系統(tǒng)開發(fā)中的應(yīng)用,按照資源類別不同,將資源劃分為多個數(shù)據(jù)節(jié)點,利用控制節(jié)點加以管理,從而使得信息檢索得以有序、高效推行。其中,控制節(jié)點指的是系統(tǒng)管理者,除了集中管理書籍文獻(xiàn)以外,根據(jù)文獻(xiàn)管理需求,組建圖書文件存儲空間,以便用戶檢索和下載。對于新圖書文獻(xiàn)資源的管理,按照資源類別不同,選擇相應(yīng)存儲路徑,完成文件信息節(jié)點統(tǒng)一管理。
圖書文獻(xiàn)資源的管理基本結(jié)構(gòu)由多個數(shù)據(jù)節(jié)點組成,以塊狀形式存儲圖書文獻(xiàn)資源。通過設(shè)定管理周期,每隔一段時間向控制節(jié)點發(fā)送資源信息。在實際應(yīng)用中,用戶在客戶端發(fā)起資源檢索操作申請,HDFS 組件將開啟資源塊信息傳輸功能,向用戶提供相關(guān)資源。
(2)Hive組件功能。
Hive 組件主要用于分析與查詢圖書文獻(xiàn)資源信息,通過分析圖書館資源語義,從中提取元數(shù)據(jù),形成分析與查詢操作項目執(zhí)行計劃。按照此計劃運行,建立作業(yè)節(jié)點與任務(wù)節(jié)點之間的通信連接,通過執(zhí)行引擎程序完成映射任務(wù),從而實現(xiàn)圖書文獻(xiàn)資源查詢。
(3)MapReduce組件功能。
MapReduce組件用來開發(fā)系統(tǒng)信息檢索功能,運用數(shù)據(jù)挖掘技術(shù),編寫信息挖掘算法,從而實現(xiàn)云檢索功能。此組件主要操作為調(diào)度作業(yè),按照功能不同,將系統(tǒng)功能模塊劃分為多個切片,分別由各個節(jié)點負(fù)責(zé)操作,形成較為復(fù)雜的數(shù)據(jù)映射關(guān)系,以此實現(xiàn)大面積數(shù)據(jù)信息檢索,獲取較為全面的檢索結(jié)果。關(guān)于此組件的功能開發(fā)將在下一部分應(yīng)用算法研究中介紹。
智能圖書館云檢索系統(tǒng)功能實現(xiàn)的關(guān)鍵在于資源數(shù)據(jù)存儲模型的構(gòu)建,從中提取特征量,以關(guān)鍵詞作為搜索查詢依據(jù),按照設(shè)定的檢索范圍,為用戶查詢所需圖書文獻(xiàn)資料。為了進(jìn)一步優(yōu)化圖書館數(shù)據(jù)庫存儲模型,本研究利用時間序列分析法,嘗試構(gòu)建數(shù)據(jù)信息流模型,依據(jù)資源集特征完成特征量提取操作,并組建目標(biāo)函數(shù),形成時間序列,記為{xm}。假設(shè)資源屬性類別為X和Y,資源長度為L,對存儲空間區(qū)域與節(jié)點采取分段處理,形成多個空間,實施集成分配。其中,區(qū)域劃分為閾值設(shè)定為λ,當(dāng)該數(shù)值滿足2-μt<λ,μ>0時,構(gòu)建以下資源信息流模型:
公式(1)中,h[z(t0+mΔt)]代表資源數(shù)據(jù)時間序列計算結(jié)果中的近似特征量。
智能圖書館云檢索系統(tǒng)的正常運行,需要一定數(shù)據(jù)輸出基礎(chǔ),為系統(tǒng)檢索提供足夠的資源信息支撐。關(guān)于此操作算法的開發(fā),本研究對時間序列采取重構(gòu)處理的同時,提取頻繁項特征集。假設(shè)關(guān)聯(lián)規(guī)則矩陣為X(i),輸入觀測向量為Y(i),關(guān)聯(lián)維數(shù)為N(i),頻繁項集干擾階數(shù)為H×n。如果H、n兩項指標(biāo)數(shù)值存在H>n關(guān)系,則對X(i)采取資源塊劃分處理,形成多個大小相同的資源塊,記為pi。根據(jù)資源信息聚類特征空間分布情況,以空間中的嵌入維數(shù)作為核心指標(biāo),設(shè)定子矩陣,該矩陣維數(shù)為Mij×n。聚類中心向量參數(shù)設(shè)定為Xij,那么資源信息頻繁項可以用以下公式來表示:
如果H、n兩項指標(biāo)數(shù)值存在關(guān)系,那么資源信息頻繁項計算公式如下:
考慮到圖書館存儲的圖書文獻(xiàn)資源分布較為均勻,所以資源信息在存儲層中的特性應(yīng)該滿足以下關(guān)系:
為了避免系統(tǒng)檢索期間遭受影響因素擾動降低檢索運行速率,對系統(tǒng)存儲節(jié)點采取約束處理。此項操作功能實現(xiàn)的關(guān)鍵在于頻繁項特征的提取,即通過提取所需檢索的資源信息對應(yīng)的頻繁項特征,提高系統(tǒng)作業(yè)效率。特征項提取計算公式為:
公式(5)中,利用頻繁項特征描述目標(biāo)數(shù)據(jù)特點,提取資源信息,從而實現(xiàn)數(shù)據(jù)信息資源的全面檢索。
選取模糊K均值聚類方法作為資源處理工具,按照頻繁項特征的不同,劃分特征類別,從中提取相關(guān)信息,并輸出特征矢量。以下為特征矢量計算公式:
運用公式(6)計算參數(shù)數(shù)值,從中獲取圖書文獻(xiàn)資源。關(guān)于此項功能的實現(xiàn),選取最小二乘法作為計算工具,對相關(guān)數(shù)值采取挖掘擬合處理。以下為數(shù)據(jù)挖掘計算公式:
以上資源處理效果受節(jié)點數(shù)據(jù)影響較大,通過設(shè)定不同節(jié)點數(shù)據(jù),來調(diào)整系統(tǒng)檢索資源耗費時間。以公式(7)中的各項指標(biāo)作為節(jié)點數(shù)據(jù)限定依據(jù),通過調(diào)整此公式中的指標(biāo)數(shù)據(jù),實現(xiàn)增加或者減小節(jié)點數(shù)據(jù)操作。
在開發(fā)系統(tǒng)數(shù)據(jù)檢索輸出操作功能時,選取特征分解法作為研究工具,設(shè)計存儲節(jié)點決策樹結(jié)構(gòu),根據(jù)數(shù)據(jù)檢索特征,劃分為多個分支,使得檢索輸出結(jié)果更加清晰。具體輸出步驟如下:
第1步:假設(shè)檢索資源與頻繁項集干擾階數(shù)存在M(i)modH<n關(guān)系;
第2 步:按照參數(shù)特征不同,對資源信息頻繁項采取分解處理。計算公式如下:
第3 步:在第二步基礎(chǔ)上,對資源信息時間序列中參數(shù)Y(i)和參數(shù)X(i)采取自適應(yīng)加權(quán)處理,使得時間序列得以有效分解。計算公式如下:
第4 步:采取譜處理方法,對檢索資源的關(guān)聯(lián)特征進(jìn)行分析。計算公式如下:
第5 步:設(shè)定以下收斂條件,以此限定資源檢索范圍:
第6步:輸出資源檢索結(jié)果。
將開發(fā)的云檢索系統(tǒng)算法投入到某圖書館中應(yīng)用,選取Matlab 軟件作為仿真工具,對系統(tǒng)算法作業(yè)性能進(jìn)行測試分析,搭建測試環(huán)境如下。
操作系統(tǒng):Windows Server 2010,
CPU:酷睿i5;接口LGA1200;主頻2.9GHz。
(1)云檢索系統(tǒng)資源檢索時間測試。
為了驗證算法在資源檢索耗時層面上是否有所改善,通過查閱文獻(xiàn)資料,選取神經(jīng)網(wǎng)絡(luò)架構(gòu)技術(shù)、云計算技術(shù)、模糊綜合計算技術(shù)應(yīng)用開發(fā)系統(tǒng)作為對照組,以設(shè)計的系統(tǒng)算法作為實驗組,展開實驗測試研究。為了保證測試結(jié)論可靠性,研究設(shè)置3組實驗,對比3 組實驗測試數(shù)據(jù),如果差異在50ms 內(nèi),認(rèn)為當(dāng)前系統(tǒng)作業(yè)耗時檢測結(jié)果可靠,可以作為系統(tǒng)算法對比分析數(shù)據(jù)支撐。其中,檢測文件大小為500GB。
(2)不同節(jié)點數(shù)量設(shè)置下數(shù)據(jù)檢索時間測試。
為了充分發(fā)揮開發(fā)的系統(tǒng)算法在圖書館資源檢索中的作用,從節(jié)點數(shù)量設(shè)置角度出發(fā),探究節(jié)點數(shù)量不同情況下系統(tǒng)檢索耗時情況。根據(jù)圖書館系統(tǒng)常規(guī)節(jié)點布設(shè)情況,設(shè)定節(jié)點數(shù)量范圍60~300 個,間隔為60個,即取值60、120、180、240、300,分別測試各個節(jié)點數(shù)量設(shè)置下系統(tǒng)檢索耗費時間??紤]到系統(tǒng)作業(yè)可能受到環(huán)境等因素影響,導(dǎo)致測試結(jié)果不準(zhǔn)確,研究設(shè)置3組測試,對比各組測試結(jié)果。如果3組測試結(jié)果差異性較小,檢索時間變動范圍在±50ms內(nèi),認(rèn)為當(dāng)前系統(tǒng)作業(yè)耗時檢測結(jié)果可靠。其中,檢測文件大小為500GB。
按照測試方法,分別對云檢索系統(tǒng)資源檢索耗時、不同節(jié)點數(shù)量設(shè)置下數(shù)據(jù)檢索耗時進(jìn)行測試分析,從Matlab 仿真結(jié)果中提取數(shù)據(jù)信息,得到表1 和表2中的測試結(jié)果。
表2 云檢索系統(tǒng)資源檢索時間測試結(jié)果統(tǒng)計表
表2中,與神經(jīng)網(wǎng)絡(luò)架構(gòu)技術(shù)、云計算技術(shù)、模糊綜合計算技術(shù)應(yīng)用開發(fā)系統(tǒng)資源檢測耗時相比,本系統(tǒng)檢索耗費的時間更短一些。另外,三組測試中,每組測試結(jié)果基本相同,所以測試結(jié)果可以作為云檢索系統(tǒng)算法可靠性判斷依據(jù)。從整體來看,本系統(tǒng)算法運行耗時有了明顯改善,可以利用此系統(tǒng)算法取代傳統(tǒng)系統(tǒng)作業(yè)算法,使得圖書館云系統(tǒng)作業(yè)效率得以有效提升。
表3 不同節(jié)點數(shù)量設(shè)置下數(shù)據(jù)檢索時間測試結(jié)果統(tǒng)計表
表3中,提出的系統(tǒng)算法在圖書館檢索服務(wù)實際應(yīng)用中,隨著節(jié)點數(shù)量的增加,檢索時間逐漸縮短。其中,節(jié)點數(shù)量從60 個增加至120 個時,檢索時間縮短幅度最為顯著。自120個節(jié)點數(shù)量以后,隨著節(jié)點數(shù)量增加,檢索時間縮短幅度逐漸穩(wěn)定。另外,3 組測試結(jié)果差異性較小,系統(tǒng)算法應(yīng)用穩(wěn)定性較高,所以以上總結(jié)的本系統(tǒng)算法應(yīng)用特點較為可靠。
選取數(shù)據(jù)挖掘技術(shù)作為研究工具,探究智能圖書館云檢索系統(tǒng)開發(fā)方案。通過分析圖書館檢索系統(tǒng)開發(fā)及實施現(xiàn)狀,結(jié)合數(shù)據(jù)挖掘技術(shù)優(yōu)勢及應(yīng)用范圍,確定本系統(tǒng)開發(fā)工具。依據(jù)圖書館資源管理需求,設(shè)計系統(tǒng)框架結(jié)構(gòu),并開發(fā)數(shù)據(jù)挖掘技術(shù)在系統(tǒng)中應(yīng)用算法。實驗測試結(jié)果表明,本系統(tǒng)算法有效提高了資源檢索效率,并且支持不同節(jié)點數(shù)據(jù)調(diào)整。