況書梅,王莉莉
(重慶工商大學(xué)融智學(xué)院,重慶 401320)
向量空間模型是一個(gè)把文本文件表示為標(biāo)識符向量的代數(shù)模型,主要應(yīng)用在信息過濾、信息檢索、索引以及相關(guān)排序過程中[1]。數(shù)字圖書館是用數(shù)字技術(shù)處理和儲(chǔ)存各種文獻(xiàn)的圖書館,從結(jié)構(gòu)的性質(zhì)上來講,數(shù)字圖書館是一種多媒體的分布式信息系統(tǒng),它能夠?qū)⒉煌d體、不同地理位置的信息資源通過數(shù)字技術(shù)進(jìn)行儲(chǔ)存,進(jìn)而方便用戶使用。為了增強(qiáng)數(shù)字圖書館的使用性,對數(shù)字圖書館內(nèi)的各項(xiàng)文獻(xiàn)進(jìn)行分類,使用者可以更加方便快捷地查詢得到所需的信息[2]。
在向量空間模型的控制下,設(shè)計(jì)一種數(shù)字圖書信息分類系統(tǒng),能夠?yàn)椴粩鄡?yōu)化的數(shù)字圖書館各項(xiàng)性能提供幫助。國外針對數(shù)字圖書信息分類系統(tǒng)研究起步較早,各個(gè)發(fā)達(dá)國家大學(xué)研究者在各個(gè)算法的支持下,現(xiàn)已形成了支持不同功能的信息分類系統(tǒng)[3]。國內(nèi)在設(shè)計(jì)數(shù)字圖書信息分類系統(tǒng)方面起步較晚,從整體的技術(shù)水平上來講,該項(xiàng)技術(shù)還處于發(fā)展階段,仍需不斷研究發(fā)展。
數(shù)字圖書信息分類系統(tǒng)處理的數(shù)據(jù)信息較多,所以在設(shè)計(jì)CPU 板卡時(shí),選用型號為MPC755 的處理器,中央數(shù)據(jù)處理芯片選用MPC107 橋芯片,將SDRAM 作為儲(chǔ)存電路的核心,以FPGA 作為CPU 板的控制器,在看門狗電路的控制下,連接一個(gè)支持總線協(xié)議芯片ARINC659,最終形成的硬件結(jié)構(gòu)如圖1 所示。
圖1 CPU 板卡結(jié)構(gòu)
在圖1 所示的板卡結(jié)構(gòu)控制下,處理器MPC107 接口拓展橋芯片,為了增強(qiáng)核心數(shù)據(jù)處理器的響應(yīng)速度,控制處理器外部連接一個(gè)二級緩存,橋接芯片外部管腳連接一個(gè)數(shù)量級為60 的線路,芯片另外一側(cè)連接互聯(lián)網(wǎng)PCI 接口[4]??刂菩酒瑑?nèi)部的中央控制單元串聯(lián)一個(gè)寄存器,寄存器負(fù)責(zé)調(diào)和中央控制單元外圍邏輯模塊的發(fā)送數(shù)據(jù)量。為了增強(qiáng)CPU 板卡上數(shù)據(jù)的存儲(chǔ)量,在板卡上SDRAM 儲(chǔ)存電路上并聯(lián)兩個(gè)User FLASH 存儲(chǔ)器、一個(gè)Boot FLASH 存儲(chǔ)器以及一個(gè)非易失性儲(chǔ)存器,控制SDRAM 負(fù)責(zé)儲(chǔ)存信息分類時(shí)產(chǎn)生的指令數(shù)據(jù),User FLASH 存儲(chǔ)器1 負(fù)責(zé)儲(chǔ)存圖書信息類別屬性的數(shù)據(jù),User FLASH 存儲(chǔ)器2 用來儲(chǔ)存系統(tǒng)登錄用戶的數(shù)據(jù)信息,Boot FLASH 存儲(chǔ)器負(fù)責(zé)儲(chǔ)存系統(tǒng)引導(dǎo)分類時(shí)產(chǎn)生的冗余數(shù)據(jù),非易失性存儲(chǔ)器則用來儲(chǔ)存分類系統(tǒng)啟動(dòng)時(shí)的配置信息[5]。在不同性質(zhì)用途的控制下,設(shè)定上述存儲(chǔ)器的容量,存儲(chǔ)容量大小如表1 所示。
表1 儲(chǔ)存器容量大小
在上述儲(chǔ)存器容量控制下,在各個(gè)芯片的總線路上設(shè)置一個(gè)復(fù)位監(jiān)控芯片,負(fù)責(zé)監(jiān)控整個(gè)CPU 板卡的工作狀態(tài)。在控制板接收到數(shù)字圖書信息時(shí),監(jiān)控芯片會(huì)將該圖書信息數(shù)據(jù)轉(zhuǎn)化為信號,控制看門狗輸入管腳連接FPGA 中的硬件總線,設(shè)定FPGA 寄存器中的計(jì)數(shù)數(shù)值為5,一旦達(dá)到該數(shù)值,復(fù)位芯片發(fā)出控制信號,完成一次復(fù)位,此時(shí)數(shù)字圖書信息在硬件結(jié)構(gòu)上完成一次分類[6]。在設(shè)計(jì)CPU 板卡后,連接板卡各個(gè)硬件元件形成一個(gè)穩(wěn)定運(yùn)行的硬件連接電路。
在上述硬件板卡的控制下,數(shù)字圖書信息存在多種冗余資源輸出,所以在設(shè)計(jì)硬件連接電路時(shí),設(shè)計(jì)一個(gè)輸出電路,實(shí)現(xiàn)硬件結(jié)構(gòu)對數(shù)據(jù)的容錯(cuò)功能[7]。在各個(gè)硬件元件的線路電壓處放置不同數(shù)值的電阻,維持各個(gè)硬件元件的電壓穩(wěn)定,設(shè)定整體電路的電壓數(shù)值在3.3~8 V 之間,在硬件元件少的支路上放置低阻抗且數(shù)值為10 Ω 的電阻,控制在相同時(shí)刻下,輸出一個(gè)驅(qū)動(dòng)負(fù)載,形成的輸出電路,如圖2 所示。
圖2 輸出電路
在圖2 所示的輸出電路結(jié)構(gòu)控制下,控制板卡內(nèi)控制處理器連接管腳6,數(shù)字圖書信息通過管腳2 進(jìn)入到核心的處理單元中,經(jīng)過核心硬件的處理后,經(jīng)由管腳5 輸出??刂坪诵奶幚戆逋ㄟ^FPGA 總線連接存儲(chǔ)器構(gòu)成的儲(chǔ)存電路,在存儲(chǔ)器自帶功能的控制下,實(shí)現(xiàn)硬件電路的外部擴(kuò)展[8]。在線路總線的另一側(cè)采用異步串行的接口方式,合理布局CPU 處理板與儲(chǔ)存電路走線位置。結(jié)合RS 422 標(biāo)準(zhǔn)四線制規(guī)范數(shù)字圖書信息數(shù)據(jù)的走向。使用處理器與橋芯片集成的UART 模塊功能,設(shè)定電路內(nèi)的電平轉(zhuǎn)換形式。
系統(tǒng)硬件電路采用一個(gè)整體電源模塊進(jìn)行供電,在儲(chǔ)存電路以及輸出電路的控制下,將硬件的供電需求劃分為兩個(gè)部分,第一個(gè)部分為整體的硬件電路供電,第二部分為CPU 板卡內(nèi)的芯片處理器供電,在整體電源與硬件芯片的連接線路上放置一個(gè)電壓轉(zhuǎn)換器,為了滿足硬件元件與電路之間的穩(wěn)定,穩(wěn)壓器選用型號為AM S1084?3.3 V 的三端穩(wěn)壓器[9],最終完成對圖書信息分類系統(tǒng)硬件的設(shè)計(jì)。
在利用向量空間模型構(gòu)成信息分類規(guī)則時(shí),轉(zhuǎn)化數(shù)字圖書信息為空間向量[10],假設(shè)一次分類過程中數(shù)字圖書信息集中含有n個(gè)數(shù)字圖書信息文檔,每個(gè)信息文檔中含有m個(gè)不同的特征項(xiàng),各個(gè)特征項(xiàng)相互獨(dú)立,則存在如下數(shù)量關(guān)系:
式中:t表示信息特征項(xiàng);wk表示特征項(xiàng)在圖書信息中的權(quán)重。假定(t1,t2,…,tm)是一個(gè)y維的坐標(biāo)軸,根據(jù)其內(nèi)部不同的坐標(biāo)數(shù)值,計(jì)算得到數(shù)字圖書信息的特征向量,則其可表示為:
式中:Vd表示文本中的特征向量;其余參數(shù)含義不變。整合相同數(shù)值的信息為一個(gè)集合D,該集合可表示為:
在上述處理過程下,就形成一個(gè)數(shù)字圖書信息轉(zhuǎn)化的過程,轉(zhuǎn)化過程如圖3 所示。
圖3 數(shù)字圖書信息轉(zhuǎn)化過程
在圖3 所示的信息轉(zhuǎn)換過程中,箭頭的起始點(diǎn)為數(shù)字圖書信息所在的文件,在向量空間模型的處理下,參照不同的數(shù)據(jù)特征,形成了不同的方向[11],以一個(gè)方向?yàn)橐粋€(gè)分類類別,為了排除冗余數(shù)據(jù)的干擾,計(jì)算相同方向上圖書信息數(shù)據(jù)的相似度,計(jì)算公式可表示為:
式中:i,j分別表示相同方向的信息;wik,wjk表示其特征向量。將信息數(shù)據(jù)相似度作為一次標(biāo)準(zhǔn)化處理,計(jì)算2 個(gè)數(shù)據(jù)點(diǎn)間的明氏距離,計(jì)算公式可表示為:
式中:xik,xjk分別表示信息數(shù)據(jù)所在x坐標(biāo)軸數(shù)值大?。籶表示度量數(shù)值。以相似度數(shù)值為冗余數(shù)據(jù)篩選規(guī)則,定義數(shù)值大小相差不超過0.5 的信息數(shù)據(jù)為一組,最終實(shí)現(xiàn)對數(shù)字圖書信息的分類。完成數(shù)字圖書信息分類后,實(shí)現(xiàn)分類系統(tǒng)的功能模塊。
在構(gòu)建的信息分類規(guī)則下,以相同規(guī)則下的圖書信息樣本為實(shí)現(xiàn)對象[12],構(gòu)建一個(gè)停用信息過濾模塊,構(gòu)建的過濾模塊如圖4 所示。
圖4 停用信息過濾模塊
在圖4所示的停用信息過濾模塊下,根據(jù)式(3)計(jì)算得到相似度數(shù)值,刪除特定詞匯表中數(shù)值小于3 的詞匯[13]。根據(jù)不同的數(shù)值,計(jì)算其對應(yīng)的匹配度,計(jì)算公式可表示為:
式中:N表示待匹配的所有信息;A,B,C分別表示不同類別的信息項(xiàng);其余參數(shù)含義不變。將停用信息篩選出后,利用軟件線程池的LinkList 鏈表作為線程分類任務(wù)[14],在ThreadPool 接口處形成如圖5 所示的分類過程。
圖5 分類功能實(shí)現(xiàn)
在圖5 所示的分配過程下,左邊的運(yùn)行鏈組抽取MTQueue 中的數(shù)字圖書信息進(jìn)行處理,最終通過invokeLater(·)輸出一個(gè)數(shù)字圖書信息的對應(yīng)的類別[15]最終完成對基于向量空模型的數(shù)字圖書信息分類系統(tǒng)的設(shè)計(jì)。
整合圖書信息后,采用MacBook Pro MD 103 CH/A,選用的硬件開發(fā)設(shè)備參數(shù)如表2 所示。
表2 PC 機(jī)設(shè)備參數(shù)
在表2 的各項(xiàng)參數(shù)控制下,根據(jù)分類系統(tǒng)內(nèi)的各個(gè)功能模塊實(shí)現(xiàn)的情況,采用交流電壓進(jìn)行供電,轉(zhuǎn)化為不同數(shù)值大小的電壓進(jìn)行供電,連接承載數(shù)字圖書信息分類系統(tǒng)的內(nèi)核,連接情況如圖6 所示。
圖6 內(nèi)核連接方式
由圖6 所示的內(nèi)核連接方式下,針對不同的程序模塊,調(diào)試信息分類系統(tǒng)的軟件設(shè)備,調(diào)試完畢后,搭建系統(tǒng)的測試環(huán)境,形成的測試環(huán)境結(jié)構(gòu)如圖7 所示。
在如圖7 所示的結(jié)構(gòu)下,使用文獻(xiàn)[8]中的信息分類系統(tǒng)、傳統(tǒng)信息分類系統(tǒng)以及文中設(shè)計(jì)的信息分類系統(tǒng)進(jìn)行實(shí)驗(yàn),對比三種信息分類系統(tǒng)的性能。
基于上述實(shí)驗(yàn)準(zhǔn)備,假定三種分類系統(tǒng)待分類的圖書信息的類別為經(jīng)濟(jì)、生活、軍體、社會(huì)、文學(xué)以及政法,每項(xiàng)圖書信息種類準(zhǔn)備50 條,定義分類得到的標(biāo)識符與準(zhǔn)備圖書信息內(nèi)的標(biāo)識符相同時(shí),即為一次成功分類過程,計(jì)算并統(tǒng)計(jì)在三種信息分類系統(tǒng)的控制下,不同類別的圖書信息分類準(zhǔn)確率結(jié)果如表3 所示。
圖7 搭建的系統(tǒng)測試結(jié)構(gòu)
表3 三種信息分類系統(tǒng)準(zhǔn)確率結(jié)果 %
由表3 所示的各項(xiàng)準(zhǔn)確率數(shù)值可知,在針對相同數(shù)量以及種類的數(shù)字圖書信息時(shí),三種分類系統(tǒng)表現(xiàn)出了不同的分類準(zhǔn)確性,以表3 中的平均準(zhǔn)確率數(shù)值可知,文獻(xiàn)[8]中的分類系統(tǒng)的信息分類準(zhǔn)確率數(shù)值在77.91%左右,分類準(zhǔn)確率較低。傳統(tǒng)分類系統(tǒng)在實(shí)際分類時(shí),最終的分類準(zhǔn)確率數(shù)值在87.58%左右,準(zhǔn)確率數(shù)值較高。而文中設(shè)計(jì)的圖書信息分類系統(tǒng)最終的分類準(zhǔn)確率在97.76%左右,與前述兩種信息分類系統(tǒng)相比,文中設(shè)計(jì)的信息分類系統(tǒng)準(zhǔn)確率數(shù)值最大,信息分類準(zhǔn)確。
保持上述實(shí)驗(yàn)環(huán)境不變,在300 條信息數(shù)據(jù)的分類工作中,按照每組50 條信息為分界,測量三種分類系統(tǒng)在分類后所需的分類時(shí)間,繪制分類指令響應(yīng)時(shí)間結(jié)果圖表,最終的分類時(shí)間結(jié)果如圖8 所示。
由圖8 所示的分類時(shí)間結(jié)果可知,三種信息分類系統(tǒng)針對相同數(shù)量的待分類信息表現(xiàn)出了不同的時(shí)間響應(yīng)結(jié)果,以最終300 條數(shù)字圖書信息為對比標(biāo)準(zhǔn),文獻(xiàn)[8]中的信息分類系統(tǒng)所需的時(shí)間在240 ms 左右,所需的信息分類時(shí)間較長。而傳統(tǒng)信息分類系統(tǒng)所需的分類時(shí)間在180 ms 左右,分類信息所需的時(shí)間較短。而文中設(shè)計(jì)的信息分類系統(tǒng)所需的分類時(shí)間在90 ms左右,與上述兩種信息分類系統(tǒng)相比,文中設(shè)計(jì)的信息分類系統(tǒng)所需的分類時(shí)間最短。綜合上述實(shí)驗(yàn)結(jié)果可知,文中設(shè)計(jì)的信息分類系統(tǒng)在實(shí)際工作時(shí),對不同種類的信息分類更加準(zhǔn)確,所需的分類時(shí)間最短。
圖8 三種信息分類系統(tǒng)的分類時(shí)間
隨著數(shù)字圖書館不斷地利用普及,如何對數(shù)字圖書信息進(jìn)行分類逐漸成為研究的重點(diǎn),本文設(shè)計(jì)一種基于向量空模型的數(shù)字圖書館信息分類系統(tǒng)能夠準(zhǔn)確地劃分圖書信息,改善了現(xiàn)有數(shù)字圖書信息分類系統(tǒng)分類時(shí)間較慢的不足,為今后研究數(shù)字圖書信息分類提供了理論研究方向。