楊天瑞,孫偉東
(沈陽(yáng)航空航天大學(xué)計(jì)算機(jī)學(xué)院,沈陽(yáng) 110000)
隨著科學(xué)技術(shù)的不斷發(fā)展,我國(guó)進(jìn)入到大數(shù)據(jù)時(shí)代,在此時(shí)代背景下數(shù)據(jù)預(yù)測(cè)與應(yīng)用成為數(shù)據(jù)技術(shù)開(kāi)發(fā)的重要部分?,F(xiàn)階段,阿里集團(tuán)、騰訊、谷歌等都陸續(xù)認(rèn)識(shí)到大數(shù)據(jù)的重要作用,突出體現(xiàn)便是“雙十一”購(gòu)物節(jié)的成功運(yùn)營(yíng),使當(dāng)天的銷售額能夠達(dá)到前十一個(gè)月的20倍以上,這與數(shù)據(jù)特征提取與預(yù)測(cè)之間有著十分重要的促進(jìn)作用。
社區(qū)結(jié)構(gòu)主要是社區(qū)內(nèi)部各要素之間形成的相對(duì)穩(wěn)定的關(guān)系,屬于由各個(gè)要素的共同作用下組成的有機(jī)系統(tǒng)。在對(duì)社團(tuán)演化預(yù)測(cè)過(guò)程中,考慮到社團(tuán)演化中的合并問(wèn)題,因此在預(yù)測(cè)模型中通常提取社團(tuán)內(nèi)部的特征,包括規(guī)模、內(nèi)度、內(nèi)外部連邊的比值等等,這些特征只是單純的能夠體現(xiàn)某個(gè)社團(tuán),因此需要對(duì)社團(tuán)之間的共性特征進(jìn)行提取,才能夠?qū)Χ鄠€(gè)社團(tuán)合并事件進(jìn)行預(yù)測(cè)。
通過(guò)現(xiàn)有的研究表明,社團(tuán)的性質(zhì)能夠通過(guò)規(guī)模和內(nèi)外連邊比值體現(xiàn)出來(lái),所謂的規(guī)模也就是節(jié)點(diǎn)數(shù)量,規(guī)模越小的社團(tuán)發(fā)生合并的幾率將越高,而社會(huì)的數(shù)量只能體現(xiàn)其規(guī)模,卻無(wú)法表現(xiàn)其稀疏程度。因此,需要加入內(nèi)外連邊比值特征,該特征主要是指社團(tuán)外部與內(nèi)部連邊數(shù)量的比值,且比值與社團(tuán)合并可能性之間呈現(xiàn)正比例關(guān)系,如若內(nèi)部連邊與外部連邊相比,增長(zhǎng)速度較低,則會(huì)增加合并的幾率,因此可以通過(guò)對(duì)內(nèi)外連邊比值測(cè)試的方式,對(duì)社團(tuán)的演化趨勢(shì)進(jìn)行預(yù)測(cè)[1]。
假設(shè)G=(V,E)屬于無(wú)權(quán)無(wú)向網(wǎng)絡(luò),具有N個(gè)頂點(diǎn),且頂點(diǎn)集合V的取值范圍為V1到VN,頂點(diǎn)與集合二者的連邊用E來(lái)表示。同時(shí),該網(wǎng)絡(luò)的鄰接矩陣屬于一個(gè)角對(duì)稱矩陣,將其表示為:
式中,i與j均表示頂點(diǎn);aij表示兩個(gè)頂點(diǎn)間的連邊,其數(shù)值為1;當(dāng)aij的數(shù)值為0時(shí)則表示兩個(gè)頂點(diǎn)連邊之間不存在連邊,這時(shí)i的取值范圍在0到N之間,i的度數(shù)表示為:
Ci與 Cj屬于兩個(gè)隨機(jī)社團(tuán),二者之間的連接度為 Bd(Ci,Cj),能夠與社團(tuán)之間相連的一階差值為△Bd(Ci,Cj),二階差值為△△Bd(Ci,Cj),并且計(jì)算方式分別為:
一階差值 :△ Bd(Ci,Cj)=Bd(Ci,Cj)t=to-Bd(Ci,Cj)t=to-△t
二階差值:△△ Bd(Ci,Cj)= △ Bd(Ci,Cj)t=to-△ Bd(Ci,
式中,t0代表的是時(shí)間段;△t0代表的是時(shí)間步長(zhǎng)。
綜上可知,在社團(tuán)結(jié)構(gòu)中共計(jì)需要提取出四個(gè)特征數(shù)據(jù),分別為 Ni社團(tuán)大小、連接度 Bd(Ci,Cj),以及一階差值為△ Bd(Ci,Cj)、二階差值為△△ Bd(Ci,Cj)。
DBN屬于一個(gè)概率生成模型,將樣本標(biāo)簽數(shù)據(jù)當(dāng)中的特征值有效的提取出來(lái),利用該模型獲取到社團(tuán)特征以后進(jìn)行預(yù)測(cè)分析。通常波爾茲曼機(jī)的輸入范圍為0-1之間,但是在社會(huì)合并預(yù)測(cè)中,特征向量具有連續(xù)性,因此可以將RBM中的實(shí)值特征轉(zhuǎn)變?yōu)槎M(jìn)制變量。在低維空間中,將樣本數(shù)據(jù)轉(zhuǎn)變?yōu)楦呔暥认蛄浚缓筝斎氲较蛄坑?xùn)練層當(dāng)中,由此完成在深度學(xué)習(xí)基礎(chǔ)上的社團(tuán)合并預(yù)測(cè)模型的建立[2]。
由于以往采用的BP算法中存在較大的誤差信號(hào),很可能出現(xiàn)“梯度擴(kuò)散”現(xiàn)象,影響訓(xùn)練效果。因此,本文采用貪婪逐層算法的方式,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。貪婪逐層算法是將樣本數(shù)據(jù)看作成輸入量,對(duì)首個(gè)RBM進(jìn)行訓(xùn)練,并在此基礎(chǔ)上對(duì)第二個(gè)RBM進(jìn)行輸入,從而訓(xùn)練出第二個(gè),以此類推,直至所有深度學(xué)習(xí)網(wǎng)絡(luò)全部被訓(xùn)練完成。在算法流程方面,主要內(nèi)容如下。
(1)利用CD算法對(duì)特征向量X進(jìn)行訓(xùn)練,從而得出第一個(gè)RBM。
(2)利用上一個(gè)RBM作為向量,輸出下一個(gè)RBM。
(3)重復(fù)第二步,直至使所有RBM均完成訓(xùn)練。
(4)通過(guò)最后一層得出RBM輸出向量,將輸出向量看做成回歸預(yù)測(cè)層輸入向量,并且對(duì)參數(shù)進(jìn)行初始化處理。
(5)利用帶標(biāo)簽的數(shù)據(jù)和BP算法,通過(guò)從上到下的方式,對(duì)整個(gè)預(yù)測(cè)模型參數(shù)進(jìn)行細(xì)微的調(diào)整,進(jìn)而獲取預(yù)測(cè)模型參數(shù)。
利用上述貪婪逐層算法對(duì)各個(gè)RBM進(jìn)行訓(xùn)練以后,便能夠建立DBM預(yù)測(cè)模型,進(jìn)而通過(guò)數(shù)據(jù)集的方式對(duì)社團(tuán)的合并進(jìn)行分析和預(yù)測(cè)。
綜上所述,本文針對(duì)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)預(yù)測(cè)進(jìn)行分析,在深度學(xué)習(xí)背景下,在RBM基礎(chǔ)上建立了結(jié)構(gòu)模型,對(duì)智能家居發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),并且提出了社團(tuán)檢測(cè)方法,最后在時(shí)間序列數(shù)據(jù)預(yù)測(cè)的基礎(chǔ)上,對(duì)復(fù)雜網(wǎng)絡(luò)的社團(tuán)演化進(jìn)行預(yù)測(cè),這對(duì)于智能家居行業(yè)的實(shí)際工作來(lái)說(shuō)具有較大的應(yīng)用價(jià)值與現(xiàn)實(shí)意義。