丁一琦,張 杰,周維彬,李 豐,朱夢月
(臺州學院,浙江 臺州 318000)
隨著社會進步以及人們對知識認知的不斷提升,圖書館藏書量越來越多,涉及領(lǐng)域越來越廣泛,規(guī)模也越來越大,老舊條碼管理技術(shù)不能滿足當前圖書館管理人員的工作需求。無線射頻識別(Radio Frequency Identification,RFID)技術(shù)通過電子標簽的識別能夠全面、高效管理圖書館借閱、管理以及檢索領(lǐng)域不同領(lǐng)域圖書信息,RFID 技術(shù)已成為圖書館管理過程采用的關(guān)鍵措施[1]。隨著RFID 技術(shù)普及范圍的擴張,發(fā)現(xiàn)電子標簽管理面臨著一個新問題——電子標簽中包含大量敏感信息[2]。圖書館不同領(lǐng)域的電子標簽敏感信息包括兩種:一種是RFID 數(shù)據(jù)內(nèi)的病毒和檢測出惡意代碼;另一種是圖書中包含的正面和負面敏感詞匯。電子標簽的敏感信息不僅耗費有限網(wǎng)絡(luò)資源,增強圖書館管理人員的工作負荷,還大大降低圖書館信息管理效率和精確度,對書籍保存的環(huán)境質(zhì)量造成嚴重威脅。因此智能分析和過濾圖書館不同領(lǐng)域的電子標簽敏感信息,具有重要應(yīng)用意義[3]。本文設(shè)計圖書館不同領(lǐng)域的電子標簽敏感信息智能過濾系統(tǒng),準確、高效過濾圖書館不同領(lǐng)域的電子標簽敏感信息,保障圖書館安全性,提升書籍保存的環(huán)境質(zhì)量[4]。
圖書館借閱、管理以及檢索等不同領(lǐng)域的電子標簽敏感信息智能過濾系統(tǒng),通過特制量化方法匯總來源于圖書館不同領(lǐng)域的電子標簽信息特征,以此為依據(jù)過濾電子標簽敏感信息。系統(tǒng)整體結(jié)構(gòu)分為表現(xiàn)層、業(yè)務(wù)邏輯層和數(shù)據(jù)處理層,如圖1所示。
圖1 系統(tǒng)整體結(jié)構(gòu)設(shè)計Fig.1 Design of system integral structure
表現(xiàn)層中的電子標簽信息采集模塊,采用RFID 技術(shù)獲取圖書館借閱、管理和檢索等領(lǐng)域的電子標簽;業(yè)務(wù)邏輯層中的電子標簽信息存儲模塊,依照圖書館不同領(lǐng)域劃分網(wǎng)關(guān),不同的領(lǐng)域通過LHBase 數(shù)據(jù)庫存儲表現(xiàn)層采集的電子標簽信息;數(shù)據(jù)處理層是總體系統(tǒng)的核心[5],對業(yè)務(wù)邏輯層存儲的電子標簽信息進行處理,提取電子標簽信息的特征生成特征向量,將特制向量存儲在HDFS 文件中。HDFS 中信息分為原始樣本信息、樣本他特征向量與分類器參數(shù)?;贛apReduce 并行框架實現(xiàn)電子標簽采樣數(shù)據(jù)預(yù)處理后[6],采用貝葉斯分類器智能過濾圖書館不同領(lǐng)域電子標簽敏感信息,過濾結(jié)果以文件形式存儲在HDFS 內(nèi),方便管理者查看。
系統(tǒng)采用電子標簽信息采集模塊通過RFID 技術(shù)采集圖書館借閱、管理以及檢索等不同領(lǐng)域中的電子標簽信息,模塊內(nèi)的讀寫器對信息實施加密,利用發(fā)射天線將加密后的信息傳輸至電子標簽,電子標簽吸取磁場能量激活內(nèi)部微芯片電路完成電磁波轉(zhuǎn)換,射頻識別后形成反射回波信號。讀寫器獲取回波信號后對信息實施處理、采集信息,并進行數(shù)據(jù)轉(zhuǎn)換后,將轉(zhuǎn)換結(jié)果傳輸?shù)胶笈_服務(wù)器[7]。服務(wù)器處理并管理控制這些數(shù)據(jù)。電子標簽信息采集模塊的工作原理如圖2所示。
圖2 電子標簽信息采集模塊Fig.2 Information acquisition module of electronic label
RFID 技術(shù)能夠識別目標并且對信息實施管理,通過識別圖書附帶的標簽,獲取圖書信息,確定圖書現(xiàn)狀。通過電子標簽信息采集模塊獲取的圖書信息,圖書館管理者和借閱者均能夠迅速定位圖書[8],大幅度降低管理者整理圖書和借閱者搜尋圖書時間。
電子標簽信息存儲模塊依照傳感網(wǎng)絡(luò)分布特征,設(shè)計信息存儲架構(gòu)如圖3所示。
圖3 電子標簽信息存儲模塊設(shè)計Fig.3 Design of information storage module of electronic label
電子標簽信息存儲模塊包含三個層次,分別為網(wǎng)關(guān)層、LM(Local Manager)層和 GM(Global Manager)層。作為傳感器信息接入層的網(wǎng)關(guān)層,采用不同的網(wǎng)關(guān)接收和處理,電子標簽信息采集模塊獲取的圖書館借閱、管理以及檢索等不同領(lǐng)域的電子標簽信息;LM 層獲取網(wǎng)關(guān)層內(nèi)電子標簽信息,采用不同LHBase 數(shù)據(jù)庫實時存儲這些信息;GM 層管理并記錄全局信息,記錄信息存儲在GHBase 數(shù)據(jù)庫中,依據(jù)記錄信息劃分電子標簽信息存儲位置。
由于圖書館不同領(lǐng)域的電子標簽分布具有領(lǐng)域性,若要在一個集群數(shù)據(jù)庫中存儲全部領(lǐng)域的電子標簽信息將會造成網(wǎng)絡(luò)資源消耗大、耗時長等結(jié)果,為解決這一問題,將網(wǎng)關(guān)層的不同網(wǎng)關(guān)依照借閱、還書、管理等檢索領(lǐng)域進行劃分,采集各領(lǐng)域中的電子標簽信息后,通過LM 層中的不同LHBase 數(shù)據(jù)庫實時存儲電子標簽信息,以提升電子標簽信息存儲與訪問實時性。
1.4.1 敏感信息識別流程設(shè)計
在圖書館不同領(lǐng)域的電子標簽內(nèi),敏感信息數(shù)量較大,同時存在動態(tài)變更現(xiàn)象,敏感詞隨著時間的前進持續(xù)更新,此時采用以往字典匹配法無法準確識別圖書館不同領(lǐng)域的電子標簽信息。在這種情況下需采用機器學習法識別電子標簽敏感信息。圖書館不同領(lǐng)域的電子標簽敏感信息的語義模板具有穩(wěn)定性,將弱化的半監(jiān)督學習算法與高性能的計算機相結(jié)合[9],通過本體推理方法準確識別電子標簽語義模板內(nèi)的敏感信息,流程描述如圖4所示。
圖4 電子標簽敏感信息的識別流程Fig.4 Identification flow chart of sensitive information of electronic label
一般情況下,計算電子標簽敏感詞的熱度后,需將敏感詞與待分析電子標簽信息相匹配,確定最接近敏感詞的詞,這些詞在電子標簽信息內(nèi)呈不均勻分布,且詞語所表達意思可能存在不匹配現(xiàn)象。為了提升電子標簽敏感信息識別的準確性與全面性,電子標簽敏感信息過濾器需具有判斷、推理功能,按照敏感詞的語義關(guān)系,基于數(shù)據(jù)庫信息,進行電子標簽信息的分析、推理,判斷電子標簽敏感信息的類型[10],實現(xiàn)圖書館不同領(lǐng)域電子標簽敏感信息的智能過濾。
1.4.2 貝葉斯電子標簽敏感信息過濾器設(shè)計
貝葉斯電子標簽敏感信息過濾器的核心為貝葉斯分類器,其可將圖書館不同領(lǐng)域的電子標簽信息劃分成負面敏感信息和正面敏感信息,分別用B1和B2表示。樣本集合是不同類型電子標簽敏感信息劃分的依據(jù),因此需匯總圖書館不同領(lǐng)域的電子標簽關(guān)鍵字集合,用表示,該電子標簽關(guān)鍵字集合中涵蓋最大程度體現(xiàn)電子標簽敏感信息特征的字、詞和特殊符號等,同時清除“的”“了”等低信息含量的常用字。
若H=(h1,h2,…,hn)表示某電子標簽E相應(yīng)的特征向量,其中由此得到以H為特征向量的電子標簽E為負面敏感信息概率和正面敏感信息概率的表達式為:
貝葉斯分類器包含兩部分,即通過設(shè)置類別(B1和B2)的訓(xùn)練集樣本訓(xùn)練分類器,獲取貝葉斯網(wǎng)條件概率表CPT 的分類器訓(xùn)練部分與基于訓(xùn)練結(jié)束的分類器分類待劃分類別電子標簽敏感信息的分類工作部分。分類標準如式(3)所示,依據(jù)該分類標準實現(xiàn)圖書館不同領(lǐng)域的電子標簽敏感信息的負面敏感信息和正面敏感信息的有效分類,過濾掉負面敏感信息,提高電子標簽信息的價值度,為圖書館管理提供可靠的依據(jù)。
實驗分別從效率、擴展性和敏感信息過濾準確性三方面驗證本文設(shè)計的圖書館不同領(lǐng)域的電子標簽敏感信息智能過濾系統(tǒng)的性能優(yōu)勢,實驗對象為我國某高校圖書館,結(jié)果如下。
實驗為驗證本文系統(tǒng)對實驗圖書館中的借閱、檢索和管理領(lǐng)域中電子標簽信息的采集和存儲效率,將讀寫器節(jié)點設(shè)置為30 個,對比分析采用不同電子標簽讀寫器個數(shù)情況下,本文系統(tǒng)、基于協(xié)同過濾推薦算法的電子標簽敏感信息智能過濾系統(tǒng)和基于自適應(yīng)多重過濾模型的電子標簽敏感信息智能過濾系統(tǒng),采集和存儲實驗圖書館的借閱、檢索和管理領(lǐng)域中電子標簽的寫入時間與讀取時間,結(jié)果如圖5所示。
圖5 不同系統(tǒng)的存儲效率對比結(jié)果Fig.5 Comparison of storage efficiency in different systems
分析圖5能夠得到,當讀寫器個數(shù)較少,即電子標簽信息量較小時,本文系統(tǒng)的寫入時間、讀取時間與其他兩個系統(tǒng)的差距較小。隨著讀寫器個數(shù)上升,本文系統(tǒng)的效率優(yōu)勢開始顯著,當讀寫器個數(shù)增長至30 個時,本文系統(tǒng)的寫入時間為728 ms,讀取時間為1 164 ms,寫入時間與讀取時間的增長幅度明顯低于基于協(xié)同過濾推薦算法的過濾系統(tǒng)和基于自適應(yīng)多重過濾模型的過濾系統(tǒng)。本文系統(tǒng)在采集和存儲圖書館不同領(lǐng)域中的電子標簽信息時,寫入效率和讀取效率均較高,說明本文效率具有較高的電子標簽信息采集和存儲效率。
實驗為驗證本文系統(tǒng)的拓展性,在第2.1節(jié)實驗條件下,分別對比三個系統(tǒng)寫入查詢時間情況,結(jié)果見圖6。
圖6 增加讀寫器個數(shù)與寫入查詢時間關(guān)系比較結(jié)果Fig.6 Increase of the number of readers versus writing query time
分析圖6能夠得到,三個系統(tǒng)讀取30 個讀寫器信息的時間均呈現(xiàn)出隨讀寫器數(shù)量提升而上升的趨勢,但相較于其他兩個系統(tǒng),采用本文系統(tǒng)的上升趨勢最不明顯,說明本文系統(tǒng)具有更好的擴展性。
實驗為驗證本文系統(tǒng)對實驗圖書館不同領(lǐng)域的電子標簽敏感信息劃分的性能優(yōu)勢,分別抽取不同類型敏感信息的20 個語法特征,17 個語義特征和10 個情感特征,采用三種系統(tǒng)對電子標簽敏感信息正常信息和敏感信息進行分類,共進行50 次實驗,以正確率、召回率、F值為指標判斷三個系統(tǒng)對電子標簽敏感信息過濾性能,得到的平均過濾結(jié)果如表1~表3所示。
表1 基于協(xié)同過濾推薦算法的過濾系統(tǒng)過濾結(jié)果Table 1 Filtering results of filtering system based on collaborative filtering recommendation algorithm
表2 基于自適應(yīng)多重過濾模型的過濾系統(tǒng)過濾結(jié)果Table 2 Filtering results of filtering system based on adaptive multiple filtering model
表3 本文系統(tǒng)過濾結(jié)果Table 3 Filtering results of the system proposed in this paper
分析表1~表3得到,本文系統(tǒng)在對圖書館不同領(lǐng)域的電子標簽敏感信息過濾時正確率與召回率的平均值為96.2%和95.2%;基于協(xié)同過濾推薦算法的過濾系統(tǒng)和基于自適應(yīng)多重過濾模型的過濾系統(tǒng)的正確率與召回率分別為73.9%,80.0%和75.8%,76.0%。結(jié)果表明本文系統(tǒng)敏感信息過濾結(jié)果的正確率高于其他系統(tǒng)20.4%以上,召回率高于其他系統(tǒng)15.2%以上,說明本文系統(tǒng)過濾圖書館不同領(lǐng)域的電子標簽敏感信息準確率較高。
本文設(shè)計圖書館不同領(lǐng)域的電子標簽敏感信息智能過濾系統(tǒng),系統(tǒng)主要包括表現(xiàn)層、業(yè)務(wù)邏輯層和數(shù)據(jù)處理層,采用基于RFID 技術(shù)的信息采集模塊采集圖書館借閱、管理以及檢索等不同領(lǐng)域的電子標簽信息,并將采集的電子標簽信息保存至信息存儲模塊;采用本體推理方法準確識別電子標簽語義模板內(nèi)的敏感信息,通過貝葉斯分類器實現(xiàn)電子標簽敏感信息分類。經(jīng)實驗證明本文系統(tǒng)具有較高的采集和存儲效率,過濾電子標簽敏感信息準確率高。