孫學(xué)軍,李長(zhǎng)銀
(臨沂大學(xué)費(fèi)縣校區(qū),山東 臨沂 273400)
由于物聯(lián)網(wǎng)通信大數(shù)據(jù)庫中存在多種且復(fù)雜的數(shù)據(jù)種類,其中較為典型的半結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)量龐大域數(shù)據(jù)相似性較高,已經(jīng)成為目前物聯(lián)網(wǎng)通信領(lǐng)域的重點(diǎn)研究對(duì)象。國(guó)內(nèi)對(duì)半結(jié)構(gòu)化數(shù)據(jù)的識(shí)別進(jìn)行了大量研究,較為經(jīng)典的能夠分成兩種即:多重分形理論半結(jié)構(gòu)化識(shí)別算法[1]與Softmax回歸的識(shí)別方法[2],多重分形理論識(shí)別方法會(huì)擬定網(wǎng)絡(luò)通信數(shù)據(jù)流的分形譜,計(jì)算通信數(shù)據(jù)流的估計(jì)譜,在擬定的核域里融合灰色關(guān)聯(lián)度算法估計(jì)譜分析,以估計(jì)結(jié)果完成對(duì)數(shù)據(jù)的識(shí)別。該算法在低信噪比的狀態(tài)下,可以得到較高的識(shí)別率,但識(shí)別結(jié)果容易被分形特征提取的結(jié)果干擾,存在不穩(wěn)定性。而Softmax回歸識(shí)別算法,會(huì)把網(wǎng)絡(luò)通信數(shù)據(jù)的循環(huán)譜密度特征當(dāng)做訓(xùn)練樣本集,通過主成分分析算法篩選數(shù)據(jù)特征,依靠Softmax回歸分類器對(duì)數(shù)據(jù)進(jìn)行分類識(shí)別。該方法對(duì)數(shù)據(jù)的識(shí)別效果較好,但由于算法需要構(gòu)建計(jì)算和回歸分類器,這就導(dǎo)致了該算法的識(shí)別效率低下。
針對(duì)上述問題,本文提出一種物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識(shí)別方法,依靠對(duì)數(shù)據(jù)的稀疏度系數(shù)、系數(shù)子空間與半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)的分析,獲得數(shù)據(jù)之間的關(guān)聯(lián)特性和數(shù)據(jù)儲(chǔ)存的節(jié)點(diǎn)位置,隨后將主成分分析算法和德爾菲算法進(jìn)行融合,依靠融合后的算法賦予識(shí)別指標(biāo)權(quán)重,使用Tanimoto系數(shù)度量半結(jié)構(gòu)化數(shù)據(jù)的相似性,憑借數(shù)據(jù)的相似性與其它數(shù)據(jù)的關(guān)聯(lián)性,實(shí)現(xiàn)對(duì)半結(jié)構(gòu)化數(shù)據(jù)的識(shí)別。
為了識(shí)別半結(jié)構(gòu)化數(shù)據(jù),擬定一種D維數(shù)據(jù)集內(nèi)存在N條記錄,所有維均離散化成θ種區(qū)間,同時(shí)所有記錄之間是互相獨(dú)立的,從中挑選出k種屬性構(gòu)建K維立方體,此時(shí)N條記錄的概率為(1/θ)k,按照伯努利概率隨機(jī)分布至立方體內(nèi),所有區(qū)域中具有的平均記錄總量是其數(shù)據(jù)期望N×(1/θ)k。定義稀疏度系數(shù)與系數(shù)子空間數(shù)據(jù)是否存在偏移與偏移程度。
定義1:稀疏度系數(shù)S(D)的描述式擬定成
(1)
式中,n(D)代表存在于D內(nèi)的對(duì)象總量,fk=1/θ為數(shù)據(jù)偏移程度,針對(duì)離群數(shù)據(jù)[2],其所處子空間中含有的記錄數(shù)遠(yuǎn)遠(yuǎn)低于平均值,所以稀疏度系數(shù)S(D)不會(huì)超過0。
定義2:針對(duì)一個(gè)隨機(jī)的半結(jié)構(gòu)化數(shù)據(jù)集,其屬性集擬定成M,對(duì)象集擬定成G,擬定D1代表通過屬性集P1(P1?M)組成的|P1|維的隨機(jī)子空間[3],其含有的對(duì)象集是O(O?G),如果不具有通過屬性集P2(P2?P1)組成的子空間D2,同時(shí)D2內(nèi)存在相同的對(duì)象集O,那么描述D1成約簡(jiǎn)子空間[4],P1能夠描述成約簡(jiǎn)屬性集。
定義3:針對(duì)一個(gè)隨機(jī)的半結(jié)構(gòu)化數(shù)據(jù)集,其屬性集是M,對(duì)象集是G,TS代表擬定的稀疏度閾值,擬定D代表約簡(jiǎn)屬性集P(P?M)組成的|P|維隨機(jī)約簡(jiǎn)子空間,如果D的稀疏度系數(shù)是S(D)≤TS,則描述D代表稀疏子空間。
半結(jié)構(gòu)化數(shù)據(jù)又能夠被描述成半形式概念數(shù)據(jù),該數(shù)據(jù)的所有記錄節(jié)點(diǎn)都是一種形式概念,其通過兩部分構(gòu)成:外延,即概念所覆蓋的實(shí)例;內(nèi)涵,即表示的概念,該概念覆蓋實(shí)例的共同特征。此外,半結(jié)構(gòu)化數(shù)據(jù)通過Hasse圖生成與簡(jiǎn)潔的描述了這些半結(jié)構(gòu)化數(shù)據(jù)之間存在的特性與泛化關(guān)系,由于半結(jié)構(gòu)數(shù)據(jù)具有完備性、直觀性與簡(jiǎn)潔等特性[5],其也被認(rèn)為是一種數(shù)據(jù)描述的轉(zhuǎn)換工具。
定義4:一種形式背景K=(G,M,I)具有兩種集合G與M,其能夠被描述成是一種二元關(guān)系I?G×M,G內(nèi)的元素為對(duì)象,M內(nèi)的元素為屬性,假如g∈G與m∈M在二元關(guān)系I內(nèi),擬定成(g,m)∈I或gIm,即對(duì)象g內(nèi)存在屬性m。
定義5:形式概念J即滿足以下兩種條件的一種序偶(A,B),其中A?G,B?M,A為形式概念J的外延,B為形式概念J的內(nèi)涵。
A=B′={a∈G|?b∈B,aIb}
(2)
B=A′={b∈M|?a∈A,aIb}
(3)
其中,a、b為A和B中的元素。
定義6:擬定K=(G,M,I)代表隨機(jī)形式的數(shù)據(jù)背景,其中所有形式概念之間的偏序關(guān)聯(lián)[6]能夠被描述成(A1,B1)≤(A2,B2)?A1?A2?B2?B1,通過形式數(shù)據(jù)背景K內(nèi)的所有概念與概念之間的偏序關(guān)聯(lián)能夠組成一種半結(jié)構(gòu),將該半結(jié)構(gòu)描述成〈L(G,M,I)〉。
定義7:擬定K=(G,M,I)代表隨機(jī)形式數(shù)據(jù)背景,擬定h1=(A1,B1)與h2=(A2,B2)代表概念〈L(G,M,I)〉的隨機(jī)兩個(gè)節(jié)點(diǎn),h1≤h2。假如不存在節(jié)點(diǎn)h3=(A3,B3),則h1≤h3≤h2成立,那么h1即為h2的直接例化,h1代表h2的子節(jié)點(diǎn),也能夠?qū)⑵涿枋龀蒱1是h2的子概念,表達(dá)成h1=child(h2),擬定h2是h1的父節(jié)點(diǎn)[7],其也能夠描述成h2是h1的父概念,擬定成h2=father(h1),假如存在節(jié)點(diǎn)h3=(A3,B3),h1≤h3≤h2成立,那么描述h2是h1的祖先節(jié)點(diǎn)。
半結(jié)構(gòu)化數(shù)據(jù)識(shí)別過程內(nèi)的關(guān)聯(lián)流程就是確準(zhǔn)識(shí)別指標(biāo)的權(quán)重[8]。主觀賦權(quán)法與客觀賦權(quán)法是當(dāng)前較為常見的兩種權(quán)重確定算法。主觀賦權(quán)法憑借決策者的意向確準(zhǔn)所有指標(biāo)之間的權(quán)重系數(shù),決策或評(píng)測(cè)結(jié)果存在較大的主觀隨機(jī)性,常用的算法有層次分析法與德爾菲算法等。而客觀賦權(quán)法確準(zhǔn)所有指標(biāo)的權(quán)重系數(shù),雖然其存在較強(qiáng)的數(shù)學(xué)理論依據(jù),但其無法反映決策者的意向,常用的有主成分分析法與因子分析法等。為了避免單一賦權(quán)法的缺點(diǎn),本文將主成分分析算法和德爾菲算法進(jìn)行融合。使其成為一種綜合加權(quán)法。借助綜合加權(quán)法對(duì)識(shí)別指標(biāo)賦予權(quán)重。其核心思想如下所示:
首先,查看半結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)信息模型,同時(shí)構(gòu)建半結(jié)構(gòu)化數(shù)據(jù)管理體系[9],依靠該體系搜索出半結(jié)構(gòu)化數(shù)據(jù)的大致坐標(biāo),隨后運(yùn)算出半結(jié)構(gòu)化數(shù)據(jù)識(shí)別指標(biāo)的數(shù)據(jù)資料。
1)把識(shí)別數(shù)據(jù)指標(biāo)的初始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理即
(4)
2)利用德爾菲算法對(duì)半結(jié)構(gòu)化數(shù)據(jù)識(shí)別內(nèi)的指標(biāo)權(quán)重進(jìn)行打分,指標(biāo)的權(quán)重能夠描述成
γ=(α1,α2,α3,α4,α5,α6,α7,α8,α9)
(5)
對(duì)所有指標(biāo)變量分別乘以權(quán)重系數(shù),獲得改進(jìn)之后的半結(jié)構(gòu)化數(shù)據(jù)矩陣X′。
對(duì)X′內(nèi)的指標(biāo)數(shù)據(jù)進(jìn)行主成分分析,獲得最終的半結(jié)構(gòu)化數(shù)據(jù)識(shí)別指標(biāo)權(quán)重。
1)計(jì)算獲得指標(biāo)數(shù)據(jù)的關(guān)聯(lián)矩陣[10]
(6)
2)利用雅可比算法計(jì)算關(guān)聯(lián)系數(shù)矩陣R的特征值(λ1,λ2,…,λp)與對(duì)應(yīng)的特征向量li=(li1,li2,…,lip),i=1,2,…,p。
3)挑選關(guān)鍵的主成分,同時(shí)擬定出主成分描述公式。
主成分分析能夠獲得p種主成分,但因?yàn)楦鱾€(gè)主成分的方差是遞減的,其所含有的信息量也是遞減的,因此在實(shí)際分析時(shí),通常不會(huì)挑選p種主成分,而是憑借各個(gè)主成分累計(jì)貢獻(xiàn)率的大小挑選前m種出成分,這里的貢獻(xiàn)率即指某種主成分的方差占所有方差的比重,就是某種特征值占所有特征值合計(jì)的比重,其運(yùn)算公式如式(7)所示
(7)
其中,λi為主成分的方差,即某種特征值。貢獻(xiàn)率越大就證明該主成分所含有的初始變量信息越多。在主成分個(gè)數(shù)挑選內(nèi),需要累計(jì)貢獻(xiàn)率超過85%以上,確保綜合變量能夠包含初始變量的大部分信息。
4)憑借主成分累計(jì)貢獻(xiàn)率85%,挑選m種主成分A=(k1,k2,…,km)。各項(xiàng)特征值對(duì)應(yīng)的特征向量是(l1,l2,…,lm),隨后運(yùn)算獲得的所有指標(biāo)權(quán)重
F=A*(l1,…,lm)=(f1,f2,f3,f4,f5,f6,f7,f8,f9)
(8)
2.4.1 Tanimoto系數(shù)
Tanimoto系數(shù)又能夠被描述成Jaccard系數(shù),能夠度量半結(jié)構(gòu)化數(shù)據(jù)的相似性,同時(shí)在二元屬性情況下歸約成Jaccard系數(shù),因此本文提出有一種基于字節(jié)頻率分布的半結(jié)構(gòu)化數(shù)據(jù)識(shí)別模型,該模型以扇形的半結(jié)構(gòu)化數(shù)據(jù)為最小測(cè)試單元,同時(shí)所有測(cè)試扇形區(qū)域內(nèi)的字節(jié)頻率分布F(x),經(jīng)過Tanimoto系數(shù)進(jìn)行處理,就能夠獲得扇形測(cè)試區(qū)域V和樣本扇形區(qū)域S的相似度。
(9)
擬定半結(jié)構(gòu)化數(shù)據(jù)di歸屬于第i類,同時(shí)i≠j,那么di∩dj=Φ。同一種類型的半結(jié)構(gòu)化數(shù)據(jù)就存在類似的分布模型,就是聚集在同一分布范圍Ti中。T={T1,T2,…,Tm}內(nèi)共存在m種半結(jié)構(gòu)化數(shù)據(jù)類型。所以di的分布范圍能夠通過Ti進(jìn)行標(biāo)明,在Ti范圍里的半結(jié)構(gòu)化數(shù)據(jù)屬于第i類半結(jié)構(gòu)化數(shù)據(jù)。本文使用樣本數(shù)據(jù)訓(xùn)練獲得標(biāo)準(zhǔn)值ηi,對(duì)于所有類的半結(jié)構(gòu)化數(shù)據(jù)的分布范圍Ti,只在Ti≥ηi時(shí),Ti才是存在效果的。
2.4.2 參數(shù)優(yōu)化
識(shí)別半結(jié)構(gòu)化數(shù)據(jù)的初始數(shù)據(jù)種類,與評(píng)測(cè)數(shù)據(jù)是否屬于復(fù)合型文件結(jié)構(gòu)的一部分,是目前半結(jié)構(gòu)化數(shù)據(jù)識(shí)別的難題所在。所以把特有的元數(shù)據(jù)與文件結(jié)構(gòu)信息融合到物聯(lián)網(wǎng)通信大數(shù)據(jù)庫內(nèi),以此提升半結(jié)構(gòu)化數(shù)據(jù)的識(shí)別率。
1)文件結(jié)構(gòu)
數(shù)據(jù)類中特有的元數(shù)據(jù)或文件結(jié)構(gòu)信息通過δ表示,那么δ={δ1,δ2,…,δm},其中δi={δ1,δ2,…,δπ},同時(shí)δi又能夠代表任意一種數(shù)據(jù)種類存在π種不同的特有元數(shù)據(jù)與文件結(jié)構(gòu)信息π≥1。
2)分布范圍
同一半結(jié)構(gòu)化數(shù)據(jù)間隔分布在32種數(shù)據(jù)塊里的可能性是80%。所以半結(jié)構(gòu)化數(shù)據(jù)在磁盤內(nèi)不會(huì)隨機(jī)分布,數(shù)據(jù)之間存在一定的關(guān)聯(lián)性,即某一段連續(xù)的半結(jié)構(gòu)化數(shù)據(jù)屬于同一種文件。
2.4.3 識(shí)別過程
1)預(yù)處理
包括收取樣本模型S={S1,S2,…,Sm},收取半結(jié)構(gòu)化數(shù)據(jù)特有的結(jié)構(gòu)特征δ={δ1,δ2,…,δm}與收取半結(jié)構(gòu)化數(shù)據(jù)字節(jié)頻率分布F(x)。
2)構(gòu)建識(shí)別模型
經(jīng)過Tanimoto系數(shù)構(gòu)建對(duì)應(yīng)的識(shí)別模型,運(yùn)算樣本S和測(cè)試數(shù)據(jù)F(x)之間字節(jié)頻率分布的相似程度Tx。
3)評(píng)測(cè)被測(cè)試半結(jié)構(gòu)化數(shù)據(jù)x的相似度Tx是否處于Ti范圍種。
如果Tx∈Ti,半結(jié)構(gòu)化數(shù)據(jù)x屬于第i類數(shù)據(jù),反之,如果Tx?Ti,半結(jié)構(gòu)化數(shù)據(jù)x不屬于第i類數(shù)據(jù),需要繼續(xù)評(píng)測(cè)Tx是否處于Ti+1范圍種。
4)參數(shù)優(yōu)化1,搜集被測(cè)試半結(jié)構(gòu)化數(shù)據(jù)x的相關(guān)結(jié)構(gòu)特征δx。
擬定,第x種半結(jié)構(gòu)化數(shù)據(jù)Tanimoto系數(shù)相似度是Tx∈Ti,同時(shí)δx產(chǎn)生在半結(jié)構(gòu)化數(shù)據(jù)x內(nèi),δx=Tj。在i=j時(shí),x∈Ti,反之在i≠j時(shí),能夠認(rèn)為該數(shù)據(jù)是無法識(shí)別的。
5)參數(shù)優(yōu)化2,初步考慮半結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián)性。
在i=j時(shí),x∈Ti反之在i≠j時(shí),繼續(xù)評(píng)測(cè)下一個(gè)半結(jié)構(gòu)化數(shù)據(jù)x+1,直至連續(xù)產(chǎn)生?次的Ti=Tj,此時(shí)x∈Ti,反之評(píng)測(cè)該半結(jié)構(gòu)化數(shù)據(jù)時(shí)無法識(shí)別的。
為了證明所提方法的實(shí)用性,進(jìn)行仿真,擬定試驗(yàn)環(huán)境為:一個(gè)1GB的閃存,物聯(lián)網(wǎng)的物理頁是2kB,所有半結(jié)構(gòu)化數(shù)據(jù)塊內(nèi)存在64個(gè)物理頁。把半結(jié)構(gòu)化數(shù)據(jù)識(shí)別算法內(nèi)的更新信息緩存擬定成最多可儲(chǔ)存50個(gè)更新區(qū)域,把不通過識(shí)別的半結(jié)構(gòu)化數(shù)據(jù)隊(duì)列擬定成最多能夠保留100條數(shù)據(jù)信息。為了能夠更加快速的得到算法的優(yōu)劣信息,首先在閃存內(nèi)添加524個(gè)數(shù)據(jù)文件文件,最大的半結(jié)構(gòu)數(shù)據(jù)占用8193個(gè)物理頁,最小的半結(jié)構(gòu)化數(shù)據(jù)占用一個(gè)物理頁,這些數(shù)據(jù)總共占用閃存的90%空間,隨后擬定閃存空間的2倍是單輪更新的數(shù)據(jù)量??偣策M(jìn)行10輪更新,每次更新的半結(jié)構(gòu)化數(shù)據(jù)從先前存在的524個(gè)數(shù)據(jù)內(nèi)隨機(jī)挑選。
圖1即物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)在文獻(xiàn)[1]算法和文獻(xiàn)[2]算法與使用本文方法識(shí)別半結(jié)構(gòu)化數(shù)據(jù)下,數(shù)據(jù)的有效重寫率,其結(jié)果如圖1所示。
圖1 半結(jié)構(gòu)數(shù)據(jù)的有效數(shù)據(jù)重寫率
通過圖1能夠看出,由于半結(jié)構(gòu)化數(shù)據(jù)既包含信息也包含結(jié)構(gòu)的信息,本文方法的重寫率遠(yuǎn)遠(yuǎn)小于文獻(xiàn)[1]和文獻(xiàn)[2]方法,最高為半結(jié)構(gòu)化數(shù)據(jù)比例為40%時(shí),有效數(shù)據(jù)重寫率為1759塊。同時(shí)本文算法能夠有效的提取數(shù)據(jù),大大縮減了半結(jié)構(gòu)化數(shù)據(jù)的重寫操作,在回收冗余數(shù)據(jù)時(shí),數(shù)據(jù)不會(huì)因?yàn)橹貙懧瘦^高,產(chǎn)生冗余數(shù)據(jù)不斷回復(fù)問題,并且通過Tanimoto系數(shù)對(duì)半結(jié)構(gòu)化數(shù)據(jù)的識(shí)別參數(shù)優(yōu)化,以確定數(shù)據(jù)的種類,以降低數(shù)據(jù)重寫的概率。
為了進(jìn)一步證明所提方法的實(shí)用性,擬定一個(gè)物聯(lián)網(wǎng)通信大數(shù)據(jù)庫內(nèi)共存在1000個(gè)數(shù)據(jù),將種類為10種,測(cè)試平臺(tái)是Matlab?,F(xiàn)通過本文方法對(duì)上述10種不同種類的數(shù)據(jù)進(jìn)行半結(jié)構(gòu)化據(jù)識(shí)別,同時(shí)將其結(jié)果與已知結(jié)果進(jìn)行對(duì)比,其對(duì)比圖如圖2所示。
圖2 本文提取算法與已知識(shí)別結(jié)果對(duì)比
通過圖2能夠看出,本文方法與已知識(shí)別結(jié)果相差不大,相較于文獻(xiàn)[1]方法和文獻(xiàn)[2]方法,識(shí)別正確率更高,其識(shí)別的正確率是98.6%,這就證明本文方法在半結(jié)構(gòu)化數(shù)據(jù)識(shí)別中有著準(zhǔn)確率高的優(yōu)點(diǎn)。
為了凸顯半結(jié)構(gòu)化數(shù)據(jù)的特性,提出一種物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識(shí)別方法,依靠綜合加權(quán)法與Tanimoto系數(shù)實(shí)現(xiàn)對(duì)數(shù)據(jù)的識(shí)別。
1)半結(jié)構(gòu)數(shù)據(jù)的有效數(shù)據(jù)重寫率實(shí)驗(yàn)結(jié)果表明,本文方法有效數(shù)據(jù)重寫率較低,最高為半結(jié)構(gòu)化數(shù)據(jù)比例為40%時(shí)的1759塊。
2)本文提取算法與已知識(shí)別結(jié)果對(duì)比實(shí)驗(yàn)表明,本文方法半結(jié)構(gòu)化數(shù)據(jù)識(shí)別正確率是98.6%。
3)由于所提方法內(nèi),會(huì)依靠稀疏系數(shù)自帶的粗去噪進(jìn)行濾波,因此并沒有對(duì)數(shù)據(jù)的噪聲進(jìn)行精準(zhǔn)的去噪,導(dǎo)致識(shí)別的半結(jié)構(gòu)化數(shù)據(jù)內(nèi),依舊存在少量噪聲,這種噪聲雖然不會(huì)干擾識(shí)別結(jié)果,但其會(huì)在數(shù)據(jù)塊內(nèi)形成細(xì)小的白點(diǎn),影響觀看與查詢的結(jié)果,因此下一步需要研究的課題即:在所提方法內(nèi)添加濾波器,依靠濾波器進(jìn)行精準(zhǔn)的去噪處理。