楊 軍
(重慶師范大學(xué)涉外商貿(mào)學(xué)院,重慶 401520)
互聯(lián)網(wǎng)的快速發(fā)展推動(dòng)了物聯(lián)網(wǎng)的廣泛應(yīng)用。物聯(lián)網(wǎng)是通過信息傳感設(shè)施將實(shí)物和互聯(lián)網(wǎng)聯(lián)系在一起的,起到對實(shí)物進(jìn)行識別、定位以及監(jiān)督的作用。物聯(lián)網(wǎng)的感知層作為數(shù)據(jù)接入的重要層級,由于數(shù)據(jù)量較大,在接入時(shí)容易出現(xiàn)標(biāo)簽信息錯(cuò)亂現(xiàn)象,而數(shù)據(jù)分流則是處理該問題的主要方法,并且其在情報(bào)搜索、故障檢測等領(lǐng)域均體現(xiàn)出重要價(jià)值。現(xiàn)階段的數(shù)據(jù)分流方法存在特征識別準(zhǔn)確性低、分流效率差等缺陷。因此需要設(shè)計(jì)出最優(yōu)的數(shù)據(jù)分流算法減少網(wǎng)絡(luò)數(shù)據(jù)接入的負(fù)擔(dān)。
相關(guān)研究人員做出如下解決方案:文獻(xiàn)[1]為解決快速增長的數(shù)據(jù)流量而導(dǎo)致網(wǎng)絡(luò)擁塞問題,提出基于自私性與中心性相結(jié)合的數(shù)據(jù)分流算法。將網(wǎng)絡(luò)數(shù)據(jù)直接傳送到種子節(jié)點(diǎn),該節(jié)點(diǎn)根據(jù)移動(dòng)發(fā)生的接觸,將數(shù)據(jù)傳送到其它節(jié)點(diǎn),此時(shí)如果有節(jié)點(diǎn)在一定時(shí)間段內(nèi)仍沒有接收到數(shù)據(jù),則該節(jié)點(diǎn)可以直接在網(wǎng)絡(luò)中對此數(shù)據(jù)進(jìn)行下載;再結(jié)合節(jié)點(diǎn)的自私性,挑選出盡可能包含更多數(shù)據(jù)的種子節(jié)點(diǎn),通過這些種子節(jié)點(diǎn)協(xié)助數(shù)據(jù)分流過程。
文獻(xiàn)[2]在混合式網(wǎng)絡(luò)擁塞控制路由算法的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)分流。首先構(gòu)建網(wǎng)絡(luò)拓?fù)潢P(guān)系模型,收集一定范圍內(nèi)的數(shù)據(jù)流量;其次對節(jié)點(diǎn)的負(fù)載狀態(tài)進(jìn)行評估,選取最優(yōu)父節(jié)點(diǎn),當(dāng)出現(xiàn)網(wǎng)絡(luò)擁塞現(xiàn)象時(shí),將該消息廣播給子節(jié)點(diǎn)或相鄰節(jié)點(diǎn),并判斷告知節(jié)點(diǎn)的數(shù)據(jù)接收速度和傳輸速度;最后在混合式網(wǎng)絡(luò)擁塞緩解方法的基礎(chǔ)上,將節(jié)點(diǎn)的平均吞吐量進(jìn)行比較,對當(dāng)前數(shù)據(jù)傳輸通道進(jìn)行子節(jié)點(diǎn)更換,實(shí)現(xiàn)數(shù)據(jù)的分流。
以上描述的兩種方法,在一定程度上達(dá)到了數(shù)據(jù)分流的目的,但是,二者并沒有對數(shù)據(jù)特征進(jìn)行準(zhǔn)確提取,導(dǎo)致網(wǎng)絡(luò)擁塞率較高、網(wǎng)絡(luò)平穩(wěn)運(yùn)行時(shí)間較短、最大上傳帶寬較低。因此,文本通過K均值聚類[3]的方式對物聯(lián)網(wǎng)數(shù)據(jù)接入的最優(yōu)分流算法進(jìn)行設(shè)計(jì)與仿真。采用K均值計(jì)算的方法對數(shù)據(jù)進(jìn)行特征提取,在提取過程中不斷調(diào)節(jié)數(shù)據(jù)的聚類核心,以達(dá)到準(zhǔn)確分流的目的。仿真表明,該方法與其它方法相比分流結(jié)果最優(yōu),可以有效緩解網(wǎng)絡(luò)擁塞問題,提高了最大上傳帶寬,延長了網(wǎng)絡(luò)平穩(wěn)運(yùn)行時(shí)間。
目前對“流”的定義為將具有同樣目的地址的全部分組稱為“流”。所以分流就是把存在相同目的的分組分成不同的流。
在現(xiàn)階段的網(wǎng)絡(luò)中,例如WEB界面和FTP文件等,被劃分成單個(gè)數(shù)據(jù)后再進(jìn)行傳輸,而這些數(shù)據(jù)存在相同的地址。按照“流”的定義,此數(shù)據(jù)包均屬于相同的流。FTP文件的第一個(gè)數(shù)據(jù)包傳輸成功后,在一定時(shí)間內(nèi),相同流中的其它數(shù)據(jù)包傳輸成功的可能性較大。該現(xiàn)象被稱為流的局部性特征[4],原理圖如圖1所示。
圖1 流的局部性原理示意圖
將物聯(lián)網(wǎng)數(shù)據(jù)樣本集合描述為{xi,yi},i=1,2…,n,表示節(jié)點(diǎn);xi∈Rd,yi∈{1.-1}作為數(shù)據(jù)接入分流的標(biāo)志,則分流的線性判斷公式表示為
f(x)=w·x+b
(1)
式中,w表示數(shù)據(jù)大??;x表示節(jié)點(diǎn)通道,b表示最低嵌入維數(shù)。再將物聯(lián)網(wǎng)接入數(shù)據(jù)分流做歸一化處理[5],可以獲得下述表達(dá)式
w·x+b=±1
(2)
將分流問題轉(zhuǎn)化為具有約束特征的非線性問題進(jìn)行描述
yi(w·xi)+b≥0
(3)
針對以上公式做計(jì)算,能夠獲取數(shù)據(jù)分流的對偶函數(shù)表達(dá)式為
(4)
式中,α表示節(jié)點(diǎn)j的約束條件。則式(4)的約束特性可以表示為
(5)
利用對偶函數(shù)將支持向量機(jī)引入到非線性的數(shù)據(jù)分流中。此時(shí),必須利用核函數(shù)在高維空間里變成具有約束性質(zhì)的二次函數(shù),其過程描述為
(6)
因?yàn)楸疚牡膫鞲衅鞴?jié)點(diǎn)全部符合歐式空間的坐標(biāo)關(guān)系,所以節(jié)點(diǎn)的分布情況滿足歐式空間中的幾何分布特征。假如傳感器呈矩形分布,面積表示為L1×L2,并且該區(qū)域中節(jié)點(diǎn)分布的密度表示為μ,對于任何傳感器來說,身份地址都沒有重復(fù)現(xiàn)象,節(jié)點(diǎn)在原始時(shí)間點(diǎn)的能量表示為E0。另外,R表示傳感器節(jié)點(diǎn)的最大半徑,假設(shè)節(jié)點(diǎn)i在半徑范圍內(nèi)的節(jié)點(diǎn)是S1(R),則下一個(gè)節(jié)點(diǎn)半徑范圍中節(jié)點(diǎn)表示為S2(R),因此,針對節(jié)點(diǎn)i來說,具有下述關(guān)系
(7)
(8)
針對物聯(lián)網(wǎng)中任何一個(gè)節(jié)點(diǎn)i,它的影響范圍可能會出現(xiàn)和節(jié)點(diǎn)j的影響范圍發(fā)生互相影響的現(xiàn)象,因此互相影響的重疊部分系數(shù)ω可以表示為
(9)
式中,Li代表節(jié)點(diǎn)i的最大可能覆蓋區(qū)域。
假設(shè)節(jié)點(diǎn)i和j可以相互影響,則這兩個(gè)節(jié)點(diǎn)的射頻范圍互相關(guān)因子γ(i,j)必須符合下述條件
(10)
如果節(jié)點(diǎn)i的附近具有n個(gè)相互關(guān)聯(lián)的節(jié)點(diǎn)時(shí),通過式(10)可知,節(jié)點(diǎn)i和這些關(guān)聯(lián)節(jié)點(diǎn)的射頻范圍互相關(guān)因子γ(i)符合如下要求
(11)
根據(jù)式(11)可以看出,γ(i)的取值越大,節(jié)點(diǎn)i對關(guān)聯(lián)節(jié)點(diǎn)的影響尺度就越高,如果節(jié)點(diǎn)i失效,則數(shù)據(jù)接入中斷,使網(wǎng)絡(luò)發(fā)生傳輸抖動(dòng)情況。
因?yàn)閭鞲衅鞴?jié)點(diǎn)利用信號的收發(fā)達(dá)到數(shù)據(jù)的匯集與路徑控制目的,所以i節(jié)點(diǎn)在B帶寬情況下,根據(jù)數(shù)據(jù)接入分流的約束條件,將數(shù)據(jù)接入到j(luò)節(jié)點(diǎn)時(shí),此時(shí)分流過程中能量消耗模型的表達(dá)式為
Esend(i)=Bl+P0l3
(12)
Erev(j)=BP0l2
(13)
式中,P0為現(xiàn)階段節(jié)點(diǎn)發(fā)射功率。因?yàn)楹哪芮闆r和l存在正相關(guān)關(guān)系,并且l又為節(jié)點(diǎn)i、j在歐式空間中最小距離,所以對上述能量消耗模型進(jìn)行優(yōu)化,可以避免物聯(lián)網(wǎng)數(shù)據(jù)在接入分流時(shí)出現(xiàn)傳輸受阻的狀況。
完成能量消耗模型的優(yōu)化后,在空間重構(gòu)基礎(chǔ)上對物聯(lián)網(wǎng)做非線性映射處理[7],獲取數(shù)據(jù)時(shí)間序列在分流操作中的信息模型。根據(jù)指標(biāo)數(shù)據(jù)映射獲取非線性數(shù)據(jù)的高維映射向量,建立數(shù)據(jù)聚類查找的目標(biāo)函數(shù),并對該函數(shù)進(jìn)行求解計(jì)算獲取極值,同時(shí)得到物聯(lián)網(wǎng)數(shù)據(jù)的時(shí)延特征,實(shí)現(xiàn)數(shù)據(jù)特征提取。
假設(shè){xn}表示單變量的物聯(lián)網(wǎng)數(shù)據(jù)時(shí)間序列,根據(jù)采樣結(jié)果可以得出,采樣數(shù)據(jù)的時(shí)間序列{xn}的長度是N。樣本數(shù)據(jù)在采樣時(shí)間范圍中稱為標(biāo)量序列,如果X與Y表示數(shù)據(jù)分流系統(tǒng)中的聚類特點(diǎn),利用空間重構(gòu)實(shí)現(xiàn)數(shù)據(jù)的非線性處理,得到最優(yōu)時(shí)延τ與最低嵌入維數(shù)b。假設(shè)ε為平均數(shù)據(jù)特點(diǎn)的尺度,xn為數(shù)據(jù)時(shí)間序列的信息模型,在2-λ<ε(λ>0)時(shí),xn可以表示為
(14)
式中,t0表示數(shù)據(jù)采樣的原始時(shí)間點(diǎn),Δt為采樣的間隔時(shí)間段,h[z(t0+Δt)]為任意數(shù)據(jù)樣本在序列中具有的相似性特征度,ωn表示相關(guān)性系數(shù)。利用指標(biāo)數(shù)據(jù)映射方式取得非線性數(shù)據(jù)在分流時(shí)的模型{x(t0+iΔt)}。模型中,i=0,1,…,N-1,如果利用Xg表示高維映射向量,其表達(dá)式可以描述為
Xg=[si,…,sk]n=(xn,xn-1…xn-(b-1)τ)
(15)
式(15)中,si表示映射向量的分量,k為時(shí)間序列在分流過程中的相關(guān)系數(shù)。通過映射向量Xg建立目標(biāo)查找函數(shù),假設(shè)R表示物聯(lián)網(wǎng)數(shù)據(jù)特征矢量在分流過程中的關(guān)聯(lián)函數(shù),xa為交叉分布模型[8],其可以描述為
(16)
式(16)中,a0為原始采樣幅值,xa-1表示物聯(lián)網(wǎng)數(shù)據(jù)方差與均值相等的標(biāo)量序列,bi描述最優(yōu)分裂屬性。在此基礎(chǔ)上利用C均值聚類方法對目標(biāo)函數(shù)進(jìn)行計(jì)算,假設(shè)μik表示聚類目標(biāo)函數(shù)的最大值,其計(jì)算表達(dá)式為
(17)
根據(jù)目標(biāo)函數(shù)的最大值,獲取數(shù)據(jù)時(shí)延特征?i,從而完成物聯(lián)網(wǎng)數(shù)據(jù)的特征提取,其表達(dá)式為
(18)
K均值聚類方法作為有效處理數(shù)據(jù)分流的方式,能夠準(zhǔn)確的對物聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)進(jìn)行分流。通過上述對數(shù)據(jù)特征的精準(zhǔn)劃分,按照自身特性分成不同種類,實(shí)現(xiàn)海量數(shù)據(jù)的高效分流。
使用該方法實(shí)現(xiàn)數(shù)據(jù)分流,首先必須獲得數(shù)據(jù)的原始聚類中心,并在分流過程中更新該中心內(nèi)容,以便適應(yīng)物聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)高度動(dòng)態(tài)變化特征。詳細(xì)分流步驟如下所示:
假設(shè)物聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)特性組成的聚類中心用l進(jìn)行表示,特征數(shù)量為p,在這些特征中挑選l個(gè)特點(diǎn)當(dāng)做初始聚類核心,任何一個(gè)聚類核心均表示一類數(shù)據(jù)。經(jīng)過計(jì)算可以獲得其它p-l個(gè)數(shù)據(jù)特點(diǎn)離原始聚類核心的目標(biāo)距離,并且把這些數(shù)據(jù)特點(diǎn)分布到相鄰的聚類核心中,從而實(shí)現(xiàn)所有數(shù)據(jù)特點(diǎn)的匹配。
通過以下供述可以將數(shù)據(jù)特性區(qū)分為L個(gè)不同種類
(19)
按照上述方式,可以將物聯(lián)網(wǎng)數(shù)據(jù)特性區(qū)分成L個(gè)形式,Tj(j=1,2,…,l),聚類核心Dj可以表示數(shù)據(jù)特性組成的集合Tj,該集合可以利用T={Y}代表。假設(shè),現(xiàn)有兩個(gè)數(shù)據(jù)特性Y與Z,因此它們之際存在的歐式距離表示為e(Y,Z)。
根據(jù)迭代處理,對物聯(lián)網(wǎng)數(shù)據(jù)接入進(jìn)行準(zhǔn)確分流,詳細(xì)分流步驟如下所示:
步驟一:假設(shè)物聯(lián)網(wǎng)下數(shù)據(jù)原始聚類中心表示為TDq={Dj},對數(shù)據(jù)做聚類處理,將其分成l個(gè)聚類中心,則計(jì)算過程必須符合下述要求
Tk{Y|e(Y,Dk)≤e(Y,Dj),j≠k}
(20)
步驟二:針對數(shù)據(jù)特征做迭代處理[10],從而得到新的特征集合TDq+1;
步驟三:如果q=0,則聚類中心是TD0;
步驟四:通過計(jì)算得到數(shù)據(jù)分流時(shí)的誤差方差,假設(shè)該方差足夠小,則分流停止,此時(shí)能夠得到最優(yōu)的分流結(jié)果;反之,q+1->q,此時(shí)回到步驟二,重新進(jìn)行數(shù)據(jù)分流。
通過上述描述的算法,利用物聯(lián)網(wǎng)數(shù)據(jù)的特性,構(gòu)建集合,采用K均值聚類方法對其進(jìn)行聚類處理,在持續(xù)的迭代過程中確保聚類中心不斷更換,可以較好的適應(yīng)物聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)動(dòng)態(tài)特性,獲取最優(yōu)的分流函數(shù)
(21)
為證明本文所提物聯(lián)網(wǎng)數(shù)據(jù)接入分流算法的可行性進(jìn)行一次仿真。由于傳感器的路徑屬于無線信道路徑,并且必須利用簇頭節(jié)點(diǎn)才可以實(shí)現(xiàn)數(shù)據(jù)接入,在簇頭節(jié)點(diǎn)不能實(shí)現(xiàn)數(shù)據(jù)的直接傳輸時(shí),還需利用其它節(jié)點(diǎn)才能完成數(shù)據(jù)接入。圖2為物聯(lián)網(wǎng)數(shù)據(jù)傳輸平臺。
圖2 物聯(lián)網(wǎng)數(shù)據(jù)傳輸平臺
實(shí)驗(yàn)在NS2仿真環(huán)境下,通過物聯(lián)網(wǎng)數(shù)據(jù)傳輸平臺,對本文分流算法與文獻(xiàn)[1]算法和文獻(xiàn)[2]算法分別進(jìn)行對比實(shí)驗(yàn)。仿真參數(shù)如表1所示。
表1 實(shí)驗(yàn)參數(shù)設(shè)置表
為了驗(yàn)證本文算法的有效性,對本文算法、文獻(xiàn)[1]算法和文獻(xiàn)[2]算法出現(xiàn)的網(wǎng)絡(luò)擁塞率進(jìn)行對比分析,對比結(jié)果如圖3所示。
圖3 不同算法的網(wǎng)絡(luò)擁塞率對比圖
通過對比圖能夠看出,隨著實(shí)驗(yàn)時(shí)間的不斷流逝,三種算法都會出現(xiàn)一定波動(dòng),本文算法的網(wǎng)絡(luò)擁塞率一直處于較低水平,并且網(wǎng)絡(luò)擁塞率自始至終低于文獻(xiàn)算法。這是因?yàn)樗崴惴ǖ姆至鳈C(jī)制將一定范圍內(nèi)的接入數(shù)據(jù)劃分成最優(yōu)的結(jié)果后,再進(jìn)行數(shù)據(jù)傳輸,一定程度上減少了擁塞現(xiàn)象。
下圖描述的是本文算法、文獻(xiàn)[1]算法和文獻(xiàn)[2]算法的網(wǎng)絡(luò)平穩(wěn)運(yùn)行時(shí)間的對比結(jié)果。
圖4 不同算法的網(wǎng)絡(luò)平穩(wěn)運(yùn)行時(shí)間對比圖
通過圖4能夠看出,本文算法的網(wǎng)絡(luò)平穩(wěn)運(yùn)行時(shí)間比文獻(xiàn)[1]算法和文獻(xiàn)[2]算法的網(wǎng)絡(luò)平穩(wěn)運(yùn)行時(shí)間長。是因?yàn)楸疚乃惴▽δ芰肯哪P瓦M(jìn)行了優(yōu)化,可以避免物聯(lián)網(wǎng)數(shù)據(jù)在接入分流時(shí)出現(xiàn)傳輸受阻的狀況,從而延長網(wǎng)絡(luò)平穩(wěn)運(yùn)行時(shí)間。
為了進(jìn)一步驗(yàn)證本文算法的有效性,對本文算法、文獻(xiàn)[1]算法和文獻(xiàn)[2]算法的最大上傳帶寬進(jìn)行對比分析,對比結(jié)果如圖5所示。
根據(jù)圖5顯示結(jié)果可以總結(jié)出,隨著數(shù)據(jù)傳輸量的不斷增加,本文算法的最大上傳帶寬比文獻(xiàn)[1]算法和文獻(xiàn)[2]算法的最大上傳帶寬多。
針對數(shù)據(jù)接入時(shí)會產(chǎn)生的死鏈現(xiàn)象,本文提出一種物聯(lián)網(wǎng)數(shù)據(jù)接入最優(yōu)分流算法。通過對物聯(lián)網(wǎng)數(shù)據(jù)的特征提取與準(zhǔn)確分類,在K均值聚類的基礎(chǔ)上,利用迭代算法對數(shù)據(jù)做聚類處理,計(jì)算數(shù)據(jù)分流的誤差方差,在得到最小方差時(shí),獲取數(shù)據(jù)分流的最優(yōu)結(jié)果。最后分別在網(wǎng)絡(luò)擁塞情況、平穩(wěn)運(yùn)行時(shí)間以及最大帶寬方面進(jìn)行實(shí)驗(yàn)對比分析,結(jié)果表明所提算法具有優(yōu)越性,可以改善網(wǎng)絡(luò)死鏈現(xiàn)象,具有較好的實(shí)踐意義。