劉 運(yùn)
(巢湖學(xué)院 信息工程學(xué)院,安徽 巢湖 238000)
循環(huán)神經(jīng)網(wǎng)絡(luò)是一類(lèi)以序列數(shù)據(jù)為輸入,在序列演進(jìn)方向進(jìn)行遞歸,且網(wǎng)絡(luò)中所有節(jié)點(diǎn)按鏈?zhǔn)竭B接的一種遞歸神經(jīng)網(wǎng)絡(luò),其根據(jù)有向圖內(nèi)部含有鏈?zhǔn)较噙B的元素進(jìn)行工作[1].多源異構(gòu)數(shù)據(jù)中多源是多來(lái)源的大數(shù)據(jù),異構(gòu)指一個(gè)整體中包含不同成分特性的對(duì)象,多源異構(gòu)數(shù)據(jù)是多來(lái)源且有著不同成分特性的數(shù)據(jù).對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行融合,可以輔助研究人員獲取大數(shù)據(jù)中有效信息.為此,多源異構(gòu)數(shù)據(jù)融合成為當(dāng)前研究的熱點(diǎn)[2].
文獻(xiàn)[3]提出多源異構(gòu)大數(shù)據(jù)跨源調(diào)度方法.該方法通過(guò)對(duì)多源異構(gòu)大數(shù)據(jù)跨度原理進(jìn)行分析,構(gòu)建多源異構(gòu)大數(shù)據(jù)統(tǒng)一數(shù)據(jù)模型,設(shè)置數(shù)據(jù)處理的規(guī)則以及分類(lèi)方法,借助橫縱向數(shù)據(jù)的融合,增強(qiáng)多源異構(gòu)大數(shù)據(jù)的一致性,然后通過(guò)對(duì)多源異構(gòu)大數(shù)據(jù)優(yōu)先級(jí)的處理,完成多源異構(gòu)大數(shù)據(jù)跨源調(diào)度.該方法通過(guò)對(duì)多源異構(gòu)大數(shù)據(jù)的有效融合,可實(shí)現(xiàn)多源異構(gòu)大數(shù)據(jù)跨源調(diào)度,但該方法存在多源異構(gòu)大數(shù)據(jù)融合過(guò)程中容錯(cuò)能力較差等問(wèn)題.
文獻(xiàn)[4]提出基于云平臺(tái)環(huán)境下的多源異構(gòu)大數(shù)據(jù)均衡調(diào)度方法.該方法融合渲染特點(diǎn)和作業(yè)調(diào)度算法,劃分多級(jí)不同子任務(wù),構(gòu)建多源異構(gòu)大數(shù)據(jù)的時(shí)間負(fù)載均衡模型,引入遺傳算法對(duì)構(gòu)建的模型進(jìn)行改進(jìn),獲取模型融合的最優(yōu)解,保證多源異構(gòu)發(fā)數(shù)據(jù)的有效調(diào)度.該方法有效提高了多源異構(gòu)大數(shù)據(jù)的調(diào)度工作效率,具有較強(qiáng)的實(shí)用性,但該方法在進(jìn)行大數(shù)據(jù)模型構(gòu)建中存在融合后的數(shù)據(jù)結(jié)構(gòu)不完整問(wèn)題,存在一定局限性.
為解決上述方法中存在的問(wèn)題,本文構(gòu)建基于循環(huán)神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)融合模型,利用循環(huán)神經(jīng)網(wǎng)絡(luò)特性,保證多源異構(gòu)大數(shù)據(jù)全面性,保證模型最終融合效果.數(shù)據(jù)融合技術(shù)最早進(jìn)步及發(fā)展是在20世紀(jì)80年代,歐美國(guó)家不僅在研究項(xiàng)目上取得突破性進(jìn)展,而且已經(jīng)逐漸形成成熟的實(shí)用性系統(tǒng),取得一定成績(jī)[3].我國(guó)針對(duì)數(shù)據(jù)融合技術(shù)還處于起步階段,現(xiàn)已部署了重點(diǎn)研究項(xiàng)目,但未來(lái)挑戰(zhàn)與困難十分嚴(yán)峻.
多源異構(gòu)大數(shù)據(jù)因其結(jié)構(gòu)多樣性,數(shù)據(jù)結(jié)構(gòu)會(huì)發(fā)生多樣融合結(jié)果[4-5].所以在多源異構(gòu)融合前,需要定位多源異構(gòu)大數(shù)據(jù)中節(jié)點(diǎn).首先,利用改進(jìn)螢火蟲(chóng)算法計(jì)算異構(gòu)錨點(diǎn)節(jié)點(diǎn)坐標(biāo)的距離.假設(shè)錨點(diǎn)節(jié)點(diǎn)坐標(biāo)分別為A(x1,y1),B(x2,y2),C(x3,y3)以及它們到相同的未知異構(gòu)點(diǎn)距離為d1,d2,d3,定位方式如圖1所示.
圖1 定位方式Fig.1 Locate mode
圖1中,假設(shè)D點(diǎn)坐標(biāo)為(x,y),計(jì)算得到D點(diǎn)坐標(biāo)為:
D點(diǎn)坐標(biāo)(x,y)還可以通過(guò)公式(2)進(jìn)行計(jì)算:
由公式(2)可知,利用已知節(jié)點(diǎn)構(gòu)成三角形,根據(jù)三角形計(jì)算異構(gòu)數(shù)據(jù)節(jié)點(diǎn).此時(shí),圖1中計(jì)算方式拓展為如圖2所示.
圖2 節(jié)點(diǎn)坐標(biāo)計(jì)算方式Fig.2 Calculation method of node coordinates
使用DV-HOP算法計(jì)算節(jié)點(diǎn)與錨節(jié)點(diǎn)跳數(shù),計(jì)算公式為:
式中,xk+1|k表示K+1時(shí)刻狀態(tài)的先驗(yàn)估計(jì)值,Pk|k表示K時(shí)刻后驗(yàn)估計(jì)矩陣,Q為狀態(tài)估計(jì)值,T為時(shí)刻值.
針對(duì)多源異構(gòu)大數(shù)據(jù)中移動(dòng)節(jié)點(diǎn),計(jì)算距離時(shí)聯(lián)立公式(2)和公式(3),利用MCL算法處理得到錨節(jié)點(diǎn)與跳數(shù)之間距離.使用公式(3)初步鎖定異構(gòu)數(shù)據(jù)所在區(qū)域,并采集此區(qū)域內(nèi)所有樣本點(diǎn),預(yù)測(cè)未知移動(dòng)節(jié)點(diǎn)位置[6-7].
假設(shè)其運(yùn)動(dòng)速度滿(mǎn)足區(qū)間[0,Vmax],并呈現(xiàn)區(qū)間均勻分布,此時(shí)未知節(jié)點(diǎn)位置為:
(4)式中,s(lt|lt-1)表示在t-1時(shí)刻到t時(shí)刻移動(dòng)節(jié)點(diǎn)距離.設(shè)定跳點(diǎn)之間通信半徑,去除不符合節(jié)點(diǎn),若節(jié)點(diǎn)在一個(gè)通信范圍內(nèi),并與錨節(jié)點(diǎn)小于通信半徑[8].反之,將不符合條件的節(jié)點(diǎn)過(guò)濾,綜合所有節(jié)點(diǎn)計(jì)算結(jié)果,描述節(jié)點(diǎn)中數(shù)據(jù)融合映射關(guān)系[9],完成對(duì)融合模型構(gòu)建.
任何數(shù)據(jù)融合過(guò)程可看作一個(gè)外部向內(nèi)部映射的過(guò)程[10-11].在構(gòu)建多源異構(gòu)大數(shù)據(jù)模型時(shí),利用上述計(jì)算得到節(jié)點(diǎn)關(guān)系描述大數(shù)據(jù)融合映射關(guān)系.定義融合模型中的五元組,即:
(5)式中,Sw表示融合前空間中狀態(tài)數(shù)據(jù),M表示測(cè)量空間,Mf表示融合空間,P為進(jìn)行融合判斷的目標(biāo)空間,F(xiàn)表示不同空間之間的映射集關(guān)系.
假設(shè)映射集存在下述關(guān)系,即:
(6)式中,φ表示待融合空間內(nèi)測(cè)量空間映射,θ表示映射處理后原始多源異構(gòu)數(shù)據(jù)轉(zhuǎn)化為融入空間內(nèi)空間數(shù)據(jù)過(guò)程,f表示映射空間關(guān)系.由n個(gè)多源異構(gòu)大數(shù)據(jù)融合前空間可表示為:
(7)式中,行表示數(shù)據(jù)融合前空間內(nèi)所包含的目標(biāo),列為多源異構(gòu)屬性.m表示融合目標(biāo)最多特征數(shù)量,當(dāng)目標(biāo)不包含該特征時(shí),取值為0.假設(shè)此時(shí)時(shí)刻t的融合空間M表示為:
(8)式中,msij表示時(shí)刻t內(nèi)信息源i在融合模型中獲取的第j個(gè)異構(gòu)數(shù)據(jù).每個(gè)信息源提供大數(shù)據(jù)最大值為k,異構(gòu)大數(shù)據(jù)的數(shù)據(jù)源數(shù)量為l,所以此時(shí)融合空間的矩陣表示為:
(9)式中,系數(shù)v,h表示映射系數(shù).聯(lián)立上述公式(8)、(9),最終計(jì)算得到映射關(guān)系,計(jì)算公式為:
在底層數(shù)據(jù)集融合中,已對(duì)節(jié)點(diǎn)對(duì)應(yīng)大數(shù)據(jù)進(jìn)行簡(jiǎn)單預(yù)處理.此時(shí)θ的映射關(guān)系為1∶1,最終空間P由融合模型最終結(jié)果構(gòu)成,空間可以表示為:
(11)式中,aci為融合目標(biāo)i最終融合度,此時(shí)融合映射關(guān)系,可表示為:
(12)式中,△t表示融合數(shù)據(jù)之間時(shí)間間隔,k表示大數(shù)據(jù)融合次數(shù).利用上式最終描述數(shù)據(jù)融合映射關(guān)系.利用循環(huán)神經(jīng)網(wǎng)絡(luò)特性,控制融合模型融合過(guò)程,完成多源異構(gòu)大數(shù)據(jù)融合模型構(gòu)建[12-13].
在完成融合模型前,利用循環(huán)神經(jīng)網(wǎng)絡(luò)控制多源異構(gòu)大數(shù)據(jù)融合過(guò)程,使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行控制,如圖3所示.
圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Cyclic neural network structure
針對(duì)映射后形成映射集p,假設(shè)神經(jīng)網(wǎng)絡(luò)輸入集的輸出為Op,其中,第i個(gè)輸入為Opi,即存在:
將公式(13)看作一個(gè)S型函數(shù),此時(shí)公式(13)可變換為:
為了減少神經(jīng)網(wǎng)絡(luò)中誤差,規(guī)范誤差函數(shù)[14],誤差函數(shù)計(jì)算整個(gè)融合過(guò)程誤差,即:
(15)式中,di表示循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練權(quán)值,利用此權(quán)值限制誤差函數(shù)達(dá)到極小值目的.為保證循環(huán)神經(jīng)網(wǎng)絡(luò)可控制所有隱含層節(jié)點(diǎn)數(shù)據(jù),增強(qiáng)整個(gè)融合過(guò)程中容錯(cuò)能力[15],挑選隱層節(jié)點(diǎn)信息,計(jì)算公式為:
(16)式中,m表示隱含層節(jié)點(diǎn)數(shù)量,n表示輸入節(jié)點(diǎn)的數(shù)量,O為輸出節(jié)點(diǎn)的數(shù)量,a表示常數(shù).不斷刪除并增加節(jié)點(diǎn)的數(shù)量,確定控制融合過(guò)程中節(jié)點(diǎn),實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)控制融合過(guò)程,完成基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多源異構(gòu)大數(shù)據(jù)融合模型構(gòu)建.
實(shí)驗(yàn)前搭建承載多源異構(gòu)大數(shù)據(jù)的分布式集群,保證大數(shù)據(jù)的可拓展性.集群采用Sharding(分片)+Replica Sets(復(fù)制集)形式,采用3臺(tái)主機(jī)實(shí)現(xiàn)分布式集群中2個(gè)多源異構(gòu)的復(fù)制集,形成的邏輯結(jié)構(gòu)如圖4所示.
圖4 邏輯結(jié)構(gòu)Fig.4 Logical structure
在邏輯結(jié)構(gòu)中,設(shè)置所有節(jié)點(diǎn)操作系統(tǒng)為CentOS-7-x86 64-DVD-1161.iso,實(shí)驗(yàn)所用的3臺(tái)主機(jī)IP及端口,如表1所示.
表1 實(shí)驗(yàn)主機(jī)IP地址及端口Tab.1 IP address and port of experimental host
選用CPU為2.40 GHz、i5-6 200 U,硬件儲(chǔ)存為2.0 G服務(wù)器,3臺(tái)服務(wù)器配置相同,準(zhǔn)備實(shí)驗(yàn)所需多源異構(gòu)數(shù)據(jù)樣本數(shù)量,該樣本數(shù)據(jù)來(lái)自時(shí)序數(shù)據(jù)庫(kù)InfluxDB,將實(shí)驗(yàn)數(shù)據(jù)劃定多源異構(gòu)為不同類(lèi)屬性代碼,準(zhǔn)備數(shù)據(jù)集如表2所示.
表2 實(shí)驗(yàn)準(zhǔn)備的樣本數(shù)量Tab.2 The number of samples prepared for the experiment
根據(jù)上述多源異構(gòu)大數(shù)據(jù)的數(shù)量,分別使用文獻(xiàn)[3]方法、文獻(xiàn)[4]方法與基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多源異構(gòu)大數(shù)據(jù)融合模型進(jìn)行實(shí)驗(yàn),對(duì)比3種方法最終融合數(shù)據(jù)的數(shù)量.
針對(duì)多源異構(gòu)大數(shù)據(jù)不同的類(lèi)屬性代碼,3種融合模型融合得到包含唯一元素個(gè)數(shù)結(jié)果,如表3所示.
表3 融合后數(shù)據(jù)唯一元素?cái)?shù)量Tab.3 The number of unique elements of the data after fusion
分析表3中數(shù)據(jù)可以看出,在相同條件下,采用3種方法融合后獲得的數(shù)據(jù)唯一元素個(gè)數(shù)存在一定差距.其中,所提方法得到的唯一元素個(gè)數(shù)最多,分別為480個(gè)和217個(gè),相比之下,傳統(tǒng)模型融合后的數(shù)據(jù)唯一元素較少,驗(yàn)證了本文模型的有效性.
根據(jù)表3中融合后數(shù)據(jù)唯一元素個(gè)數(shù),計(jì)算3種方法融合多源異構(gòu)數(shù)據(jù)的完整性,定義此時(shí)完整性為準(zhǔn)備數(shù)據(jù)集與融合后唯一元素之比,3種方法最終得到的完整性結(jié)果,如表4所示.
表4 融合數(shù)據(jù)的完整性結(jié)果Tab.4 Integrity results of fused data
分析表4中數(shù)據(jù)可看出,數(shù)據(jù)融合完整性取3種方法融合2種不同數(shù)據(jù)集的平均值,定義此時(shí)完整性為準(zhǔn)備數(shù)據(jù)集與融合后唯一元素的比值.其中,文獻(xiàn)[3]方法最終得到完整性數(shù)值最小,保持在0.11左右,文獻(xiàn)[4]最終得到完整性系數(shù)次之,數(shù)值維持在0.24左右.本文融合模型得到的完整性數(shù)值最大,平均保持在0.5以上.綜合上述結(jié)果可知,3種方法融合后的數(shù)據(jù)完整性,本文方法效果最佳.
針對(duì)傳統(tǒng)多源異構(gòu)大數(shù)據(jù)融合模型融合得到的唯一元素?cái)?shù)量較少,導(dǎo)致最終融合數(shù)據(jù)不具有較強(qiáng)的完整性問(wèn)題,構(gòu)建了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多源異構(gòu)大數(shù)據(jù)融合模型.通過(guò)對(duì)多源異構(gòu)數(shù)據(jù)中的節(jié)點(diǎn)數(shù)據(jù)進(jìn)行定位,分析了映射關(guān)系等,實(shí)現(xiàn)了多源異構(gòu)大數(shù)據(jù)融合模型.實(shí)驗(yàn)結(jié)果表明:采用本文模型融合后的數(shù)據(jù)結(jié)果較好,改進(jìn)了傳統(tǒng)融合模型的不足,提高了融合模型的實(shí)用性.雖然現(xiàn)階段本文模型取得了一定成果,但本文融合模型只考慮了數(shù)據(jù)完整性的優(yōu)化,忽略了模型融合時(shí)間上的優(yōu)化,還存在一定不足,在未來(lái)的研究中仍需不斷地改進(jìn),獲取更好的融合模型.