桑 振,胡 建
(河北農(nóng)業(yè)大學,河北 保定 071000)
伴隨互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等技術的逐漸成熟,各類數(shù)據(jù)量呈爆發(fā)式增長,其中蘊含大量具有科學價值與應用價值的信息,其不僅能為互聯(lián)網(wǎng)帶來發(fā)展機遇,還能為人們生活生產(chǎn)提供更好的服務。但與此同時,網(wǎng)絡也時刻都需要面臨海量數(shù)據(jù)的采集、分析、存儲問題,再通過挖掘不同用戶數(shù)據(jù)中的有效信息,創(chuàng)造符合用戶需求的服務,從而提升產(chǎn)業(yè)價值。然而信息大爆炸時代的到來使大數(shù)據(jù)集快速、有效存儲成為互聯(lián)網(wǎng)公司當前面臨的新挑戰(zhàn)[1,2]。已有存儲設備易發(fā)生老化、故障等情況,且難以確保信息絕對安全傳輸,導致信息丟失或泄露現(xiàn)象頻發(fā)。另外,已有存儲設備的內(nèi)存空間有限會約束存儲信息的規(guī)模,導致其對大數(shù)據(jù)集的存儲和傳輸能力較差,且有關技術的發(fā)展速度與數(shù)據(jù)集規(guī)模擴大速度不匹配[3],因此,信息壓縮存儲方法逐漸引起相關領域的關注。該方法是指通過使原信息損失或不損失的形式,對重復信息進行壓縮,以達到信息數(shù)據(jù)量降低、存儲空間減少的目的,包含可擴展性良好、負載均衡、成本較低等優(yōu)勢,是影響大數(shù)據(jù)集存儲最深遠的一項技術。
很多相關專家學者均在此類技術的研究上取得杰出成就,例如楊耀森[4]等人使用多核架構(gòu)實現(xiàn)對圖像信息的壓縮存儲,該方法的信息傳輸速率高達35MB/s,且兼容性較高,但方法架構(gòu)不能完全適應所有應用系統(tǒng)。王鶴[5]等人使用分布式壓縮感知和邊緣計算實現(xiàn)對電力信息的壓縮存儲,該方法壓縮后的信息完整性較高,且通信開銷大大降低,但對大規(guī)模數(shù)據(jù)的計算復雜度有待提升。
窄帶物聯(lián)網(wǎng)是萬物互聯(lián)網(wǎng)絡的重要組成部分,具有帶寬消耗低等特點,能實現(xiàn)較高要求設備的高效連接,且能提供全面的數(shù)據(jù)連接覆蓋。因此,本文提出基于窄帶物聯(lián)網(wǎng)的信息壓縮存儲方法,通過移動采集感知層、網(wǎng)絡層和應用層的相互協(xié)作,實現(xiàn)信息壓縮存儲,以滿足目前不斷增長的大數(shù)據(jù)集有效存儲需求。
引入窄帶物聯(lián)網(wǎng)對信息進行管理,構(gòu)建如圖1所示的基于窄帶物聯(lián)網(wǎng)的信息管理模型。
圖1 基于窄帶物聯(lián)網(wǎng)的信息管理模型
圖1中,LoRa網(wǎng)絡和若干智能終端采集裝置共同構(gòu)成移動采集感知層,該網(wǎng)絡以星型網(wǎng)絡作為架構(gòu),該裝置能夠自主獲取需要的農(nóng)業(yè)信息,使用LoRa網(wǎng)絡將所得信息傳輸?shù)骄W(wǎng)絡層的LoRa網(wǎng)關匯聚節(jié)點;TCP/IP協(xié)議包含于匯聚節(jié)點內(nèi),其接收到傳輸?shù)男畔⒑?經(jīng)過整合處理將信息傳輸至應用層;應用層是信息管理模型的核心部分,包含壓縮存儲模塊、數(shù)據(jù)庫、管理計算機等。其中,壓縮存儲模塊通過基于規(guī)范Hadamard矩陣的信息壓縮存儲方法對接收到的信息進行壓縮存儲,并將結(jié)果保存至數(shù)據(jù)庫,用戶利用管理計算機可以操作數(shù)據(jù)庫中的信息,以及查看返回結(jié)果。
該矩陣在信息處理、通信等領域應用十分廣泛。假設A=(aij)表示實數(shù)方陣,其階數(shù)用m描述,該方陣滿足式(1)所示表達式
(1)
設置Hadamard矩陣階數(shù)為m,如果它是行規(guī)范的H-矩陣,那么該矩陣滿足第一行元素均為1;如果它是列規(guī)范的H-矩陣,那么該矩陣滿足第一列元素均為1;如果它是規(guī)范的H-矩陣,那么該矩陣應該同時滿足上述兩個條件[6,7]。下述為Hadamard矩陣性質(zhì)。
H-矩陣用Hm描述,其階數(shù)為m,可獲得如式(2)所示表達式
(2)
若H為H-矩陣,通過行或列換序、多行或多列與-1相乘、轉(zhuǎn)置操作的任意組合處理H,獲得H′,其仍是H-矩陣。
(3)
式內(nèi),h1j和h2j相加等于±2或0,h1j和h3j相加同樣等于±2或0,所以可得,上式各項與等號左邊均為4的倍數(shù)[8]。
假設H是m階H-矩陣,能得到2m階H-矩陣。若某整數(shù)用t描述,其值大于等于0,則存在2t階H-矩陣。
在上述Hadamard矩陣性質(zhì)的基礎上,可將其描述為式(4)所示的遞推關系
(4)
(5)
通過上述內(nèi)容得出,Hadamard矩陣為滿秩矩陣,且經(jīng)過初等變換所得結(jié)果仍為滿秩矩陣。
假設存在n階矩陣,采用n維數(shù)組描述其在計算機內(nèi)的形式,抽象數(shù)據(jù)對象數(shù)組表達式用式(6)描述
Array{D={aj1,j2…jn}|j=0,…,bi-1,i=1,2,…,n}
(6)
式內(nèi),數(shù)組維數(shù)用n描述,其值大于0;處于i維位置,數(shù)組的維界用bi描述;處于i維位置,數(shù)組元素的下標用ji描述;數(shù)組元素用aj1,j2…jn描述。
在n等于1的條件下,可使用長度固定的線性表描述n維數(shù)組;在n大于1的條件下,可將n維數(shù)組看作線性表位于n維空間的拓展,因此可將二維數(shù)組的各元素看作長度固定的線性表。以式(7)描述的數(shù)組為例,具體如下
A={am-1,n-1}m×n
(7)
能夠?qū)⑸鲜疆斪骶€性表,用A=(α0,α1,…,αp)描述,且p=m-1或p=n-1。
若各元素為行向量線性表,則p=m-1,用αi=(αi0,αi1,…,αi,n-1)描述,且0≤i≤m-1;若各元素為列向量線性表,則p=n-1,用αj=(α0j,α1j,…,αm-1,j)T描述,且0≤j≤n-1,使矩陣A變成一維數(shù)組的存儲形式。
若二維數(shù)組將行序當作主序,其占用的存儲單元數(shù)量為L,可利用下式描述某元素αij的存儲地址
Loc(i,j)=Loc(0,0)+(b2·i+j)L
(8)
式內(nèi),元素的基址用Loc(0,0)描述。上式可轉(zhuǎn)換為式(9)所示形式,是在維界等于b1、b2的情況下
Loc(b1-1,b2-1)=Loc(0,0)b1b2L
=Loc(0,0)+[b2·(b1-1)+b2]L
(9)
將上式的L和Loc(i,j)=0分別設置成1、0,可使用b1b2描述二維數(shù)組的歸一化存儲空間[11,12]。
根據(jù)Hadamard矩陣定義,N階規(guī)范Hadamard矩陣具有對稱性,其中N=2m、m∈Z。通常使用上、下三角N階矩陣完成對稱矩陣的存儲。
設置一維數(shù)組用h[N(N+1)/2]描述,將其當作階數(shù)為N的規(guī)范Hadamard矩陣的存儲結(jié)構(gòu),那么h[k]與各元素aij相互匹配,具體用式(10)描述
(10)
以某市東北方向農(nóng)業(yè)區(qū)域作為實驗對象,使用本文方法采集106條農(nóng)業(yè)信息,根據(jù)領域?qū)⑺眯畔澐殖?0個子集,通過本文方法實現(xiàn)采集信息的壓縮存儲,以驗證該方法的有效性。
引入壓縮比衡量信息壓縮效果,其值越大,壓縮性能越優(yōu)異,計算過程為:(1-壓縮后大小/壓縮前大小)×100%。不同信息規(guī)模下,使用本文方法與未使用本文方法的壓縮時間、解壓縮時間、壓縮比結(jié)果用表1描述。
表1 不同信息規(guī)模的信息壓縮結(jié)果
分析表1可以看出,隨著信息規(guī)模不斷擴大,本文方法使用前后的壓縮時間和解壓縮時間均呈上升趨勢。相較于本文方法使用前,使用本文方法后的兩個時間都節(jié)約50%以上,本文方法后的壓縮比始終在75%~90%之間變使用化,而本文方法使用前的最大壓縮比僅為45.3%。對比以上結(jié)果表明,本文方法的信息壓縮效果良好且效率高。
使用本文方法對土地信息集進行壓縮存儲,其中信息高度密集區(qū)域及其經(jīng)過壓縮處理后的可視化結(jié)果用圖2描述,圖中方塊表示信息。通過分析圖2中的結(jié)果可以看出,信息高度密集區(qū)域的信息規(guī)模較為龐大,存儲時會占用較多存儲空間,使用本文方法處理后,該區(qū)域的信息量大大降低,且能將描述該區(qū)域基本特征的臨界信息保留,因此表明,本文方法具有較優(yōu)異的信息壓縮效果,對降低存儲空間壓力起著重要作用。
圖2 土地信息集的壓縮效果
使用本文方法對10個農(nóng)業(yè)信息子集進行壓縮存儲,各子集的信息失真率結(jié)果用圖3描述。
圖3 不同子集的信息失真率結(jié)果
通過分析圖3中的結(jié)果可以看出,經(jīng)過本文方法處理后的各子集信息失真率均處于10%~14%之間,其中信息失真率最高和最低的子集分別為農(nóng)藥、土地,值為13.5%、10.5%左右。由此可知,本文方法的信息壓縮存儲效果較理想,存儲的信息失真率較低,真實度高。
測試不同信息子集分別采用直接存儲,以及本文方法的壓縮存儲所需信息存儲空間,結(jié)果用圖4描述。通過分析圖4中的結(jié)果可以看出,對各信息子集采用直接存儲方式時,所需信息存儲空間在700~900Mb范圍內(nèi)變化,使用本文方法進行各信息子集壓縮存儲時,所需信息存儲空間始終低于200Mb,存儲空間節(jié)約71%~78%左右。以上結(jié)果表明,本文方法的信息壓縮存儲效果優(yōu)勢顯著,可極大地減少存儲空間。
圖4 不同信息子集的信息存儲空間結(jié)果
隨著互聯(lián)網(wǎng)普及范圍逐漸擴大,以及各行各業(yè)的快速發(fā)展,每日都會產(chǎn)生海量信息,給現(xiàn)有存儲設備帶來巨大壓力,針對這一背景,本研究提出基于窄帶物聯(lián)網(wǎng)的信息壓縮存儲方法,解決了當前存在的信息冗余過大和存儲設備的存儲空間與信息增長量不匹配等問題。該方法通過創(chuàng)建基于窄帶物聯(lián)網(wǎng)的信息管理模型,結(jié)合基于規(guī)范Hadamard矩陣的信息壓縮存儲方法,實現(xiàn)大規(guī)模信息壓縮存儲。經(jīng)實驗驗證可知,該方法具有良好的信息壓縮效果,且壓縮效率較高。該方法通過信息壓縮存儲能使信息存儲空間大幅度減少,因此,其能夠為數(shù)據(jù)挖掘領域和互聯(lián)網(wǎng)的進一步發(fā)展提供支持。