李曉峰,李 東
(1.黑龍江外國語學(xué)院 信息工程系,黑龍江 哈爾濱 150025;2.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
云數(shù)據(jù)庫中存儲(chǔ)了大量的高維稀疏數(shù)據(jù),對高維稀疏數(shù)據(jù)的有效組合推薦是保障云數(shù)據(jù)庫得到有效訪問和檢索的關(guān)鍵。通過對高維稀疏數(shù)據(jù)特征空間的重構(gòu)和降維處理,提取高維稀疏數(shù)據(jù)的關(guān)聯(lián)規(guī)則特征量,實(shí)現(xiàn)對高維稀疏數(shù)據(jù)的組合推薦[1],提高對云數(shù)據(jù)庫的訪問和自動(dòng)檢索能力。研究高維稀疏數(shù)據(jù)的推薦模型,對實(shí)現(xiàn)高維稀疏數(shù)據(jù)庫的最優(yōu)分布設(shè)計(jì)和云組合模型設(shè)計(jì)具有重要的應(yīng)用價(jià)值,相關(guān)的高維稀疏數(shù)據(jù)組合推薦算法的研究受到了極大關(guān)注。
文獻(xiàn)[2]提出一種面向稀疏和虛假評分的協(xié)同推薦方法。運(yùn)用低秩矩陣補(bǔ)全理論對稀疏矩陣進(jìn)行填充,根據(jù)填充結(jié)果建立群組模型,并構(gòu)造一個(gè)項(xiàng)目評分矩陣,借助協(xié)同過濾算法對稀疏數(shù)據(jù)和虛假評分進(jìn)行協(xié)同推薦。根據(jù)實(shí)驗(yàn)結(jié)果可知,該方法能夠有效應(yīng)對虛假評分,推薦結(jié)果較優(yōu),但在數(shù)據(jù)推薦過程中,并未對數(shù)據(jù)進(jìn)行自適應(yīng)尋優(yōu),直接采用協(xié)同過濾算法完成數(shù)據(jù)推薦,導(dǎo)致時(shí)間開銷較大。文獻(xiàn)[3]提出基于聯(lián)合聚類與用戶特征提取的協(xié)同過濾推薦算法,根據(jù)聯(lián)合聚類識(shí)別方法對用戶偏好進(jìn)行有效識(shí)別,根據(jù)識(shí)別結(jié)果提取公共特征,采用相似度概念對公共特征進(jìn)行進(jìn)一步分析,得出稀疏數(shù)據(jù)的推薦方法。根據(jù)實(shí)驗(yàn)結(jié)果可知,該算法能夠?qū)ο∈钄?shù)據(jù)進(jìn)行實(shí)時(shí)推薦,但是僅對高維稀疏數(shù)據(jù)的公共特征進(jìn)行分析,并未深入研究數(shù)據(jù)的平均互信息特征量,導(dǎo)致受到高維特征擾動(dòng)的影響,使數(shù)據(jù)存在一定的誤差。針對傳統(tǒng)算法對高維稀疏數(shù)據(jù)進(jìn)行推薦時(shí),存在計(jì)算開銷大以及推薦的模糊性大等問題,提出一種基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法。仿真實(shí)驗(yàn)結(jié)果表明,該算法在提高高維稀疏數(shù)據(jù)組合推薦能力方面具有優(yōu)越性。
為了實(shí)現(xiàn)對高維稀疏數(shù)據(jù)組合推薦算法的優(yōu)化設(shè)計(jì),結(jié)合高維稀疏數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的分布式結(jié)構(gòu)重組方法,將高維稀疏數(shù)據(jù)體系建立在基于Web移動(dòng)社會(huì)網(wǎng)絡(luò)(web-based MSNs,WMSNs)和分散式移動(dòng)社會(huì)網(wǎng)絡(luò)(decentralized MSNs,DMSNs)的基礎(chǔ)上[4],結(jié)合向量量化分析方法,構(gòu)建高維稀疏數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)最優(yōu)分布模型。用一個(gè)二元有向圖G=(V,E)表示高維稀疏數(shù)據(jù)的圖模型結(jié)構(gòu),其中V是部署在數(shù)據(jù)圖模型分布節(jié)點(diǎn)的頂點(diǎn)集,E是高維稀疏數(shù)據(jù)在有限域分布區(qū)域G中所有邊的集合。假設(shè)M1,M2,…,MN為高維稀疏數(shù)據(jù)的Sink節(jié)點(diǎn),采用歐氏距離表示高維稀疏數(shù)據(jù)傳輸節(jié)點(diǎn)的相軌跡間距,在高維稀疏數(shù)據(jù)社區(qū)節(jié)點(diǎn)的初始鏈路分布模型下,得到稀疏數(shù)據(jù)的分布式拓?fù)浣Y(jié)構(gòu)模型,如圖1所示。
結(jié)合圖1所示的拓?fù)浣Y(jié)構(gòu)模型,構(gòu)建高維稀疏數(shù)據(jù)的有限覆蓋區(qū)域模型,在高維稀疏數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)網(wǎng)絡(luò)中,組合推薦模型有向圖向量的加權(quán)系數(shù)為W={u,w1,w2,…,wk},在高維稀疏數(shù)據(jù)的信息覆蓋區(qū)域,假設(shè)M個(gè)高維稀疏數(shù)據(jù)的網(wǎng)絡(luò)節(jié)點(diǎn)傳輸鏈路層數(shù)據(jù)為x(k-1),x(k-2),…,x(k-M),諧波特征分布節(jié)點(diǎn)初始位置xs=[x(η1),x(η2),…,x(ηN)]T的估計(jì)值為:
(1)
圖1 高維稀疏數(shù)據(jù)的分布式拓?fù)浣Y(jié)構(gòu)模型
基于業(yè)務(wù)優(yōu)先級(jí)劃分方法,得到高維稀疏數(shù)據(jù)傳輸節(jié)點(diǎn)負(fù)載模型為:
(2)
(3)
另外,ω(t)為虛擬節(jié)點(diǎn)的數(shù)據(jù)維數(shù),ph(t)為高維稀疏數(shù)據(jù)Source與Sink節(jié)點(diǎn)之間的距離。采用相空間重構(gòu)方法進(jìn)行高維稀疏數(shù)據(jù)的特征重構(gòu),結(jié)合非線性統(tǒng)計(jì)序列分析方法進(jìn)行高維稀疏數(shù)據(jù)的回歸分析和點(diǎn)云結(jié)構(gòu)重組[5-6],高維稀疏數(shù)據(jù)相空間重構(gòu)的結(jié)構(gòu)模型為:
X=[s1,s2,…,sK]=
(4)
其中,K=N-(m-1)τ,表示高維稀疏數(shù)據(jù)搜索特征空間的嵌入維數(shù),τ為時(shí)延,m為虛擬節(jié)點(diǎn)和虛擬鏈路層數(shù),si=(xi,xi+τ,…,xi+(m-1)τ)T稱為時(shí)隙集合。
根據(jù)上述內(nèi)容可知,運(yùn)用相空間重構(gòu)方法對高維稀疏數(shù)據(jù)特征進(jìn)行重構(gòu)之后,再在重構(gòu)的相空間中進(jìn)行數(shù)據(jù)特征提取,有助于提高數(shù)據(jù)的組合推薦能力。
根據(jù)特征量提取結(jié)果,對高維稀疏數(shù)據(jù)的組合特征量進(jìn)行提取。假設(shè)待組合推薦的高維稀疏數(shù)據(jù)信息流的統(tǒng)計(jì)分布序列為{x1,x2,…,xN},令x(n)為一組回歸分析的特征量,在m維重構(gòu)相空間中進(jìn)行高維稀疏數(shù)據(jù)的稀疏散亂點(diǎn)云映射,得到高維稀疏數(shù)據(jù)的分布式重組結(jié)構(gòu)式為:
X(n)={x(n),x(n+τ),…,x(n+(m-1)τ)},
n=1,2,…,N
(5)
其中,τ表示高維稀疏數(shù)據(jù)在高維相空間中的嵌入延遲。建立狀態(tài)轉(zhuǎn)移模型,高維稀疏數(shù)據(jù)的特征評價(jià)概念集表達(dá)式為:
(6)
挖掘高維稀疏數(shù)據(jù)的推薦屬性的關(guān)聯(lián)規(guī)則特征量:
(7)
采用云稀疏散亂點(diǎn)結(jié)構(gòu)重組方法,得到第i個(gè)高維稀疏數(shù)據(jù)的散亂點(diǎn)集為Pi=(pi1,pi2,…,piD)。
采用演進(jìn)型時(shí)隙分配機(jī)制[7-8],得到高維稀疏數(shù)據(jù)的屬性混合推薦值計(jì)算迭代式為:
(8)
其中,xi(k)表示xi的范數(shù)。
采用深度學(xué)習(xí)算法對組合特征量進(jìn)行優(yōu)化提取,計(jì)算密集場景中高維稀疏數(shù)據(jù)在起始時(shí)刻T0的統(tǒng)計(jì)特征量,得到高維稀疏數(shù)據(jù)中的演進(jìn)型時(shí)隙分配的信任值為:
(9)
根據(jù)信任度進(jìn)行組合特征推薦時(shí),在超幀結(jié)構(gòu)中得到頻譜Z服從參數(shù)為βd的高斯分布[9-10],其中:
βd=(MPDist-d+1)/MPDist,d∈[2,MPDist]
(10)
其中,M表示路徑的個(gè)數(shù),具體為用戶端負(fù)責(zé)處理數(shù)據(jù)的路徑數(shù);βd∈(0,1],采用模糊指向性聚類方法,進(jìn)行高維稀疏數(shù)據(jù)的組合特征挖掘和提取,根據(jù)特征提取結(jié)果實(shí)現(xiàn)數(shù)據(jù)的組合推薦算法設(shè)計(jì)。
在上述采用相空間重構(gòu)方法進(jìn)行高維稀疏數(shù)據(jù)的特征重構(gòu)和特征提取的基礎(chǔ)上,結(jié)合非線性統(tǒng)計(jì)序列分析方法進(jìn)行高維稀疏數(shù)據(jù)的回歸分析和點(diǎn)云結(jié)構(gòu)重組[11-12],得到高維稀疏數(shù)據(jù)的信任關(guān)系為A→B,B→C,推出回歸分析模型為:
MSDa→b=
(11)
采用特征提取技術(shù)抽取高維稀疏數(shù)據(jù)的平均互信息特征量,輸出高維稀疏數(shù)據(jù)的屬性分布的互信息為:
I(Q,S)=H(Q)-H(Q|S)
(12)
其中
(13)
用特征提取技術(shù)抽取高維稀疏數(shù)據(jù)的平均互信息特征量,結(jié)合關(guān)聯(lián)規(guī)則挖掘方法進(jìn)行高維稀疏數(shù)據(jù)的主成分分析,根據(jù)高維稀疏數(shù)據(jù)的屬性挖掘結(jié)果進(jìn)行組合推薦,得到數(shù)據(jù)組合推薦的判決準(zhǔn)則滿足:
準(zhǔn)則(1):
(14)
準(zhǔn)則(2):
(15)
根據(jù)高維稀疏數(shù)據(jù)的推薦的判決準(zhǔn)則,進(jìn)行高維稀疏數(shù)據(jù)的主成分分析。在數(shù)據(jù)的特征分布屬性集中,設(shè){u1,u2,…,uN}表示包含的元素節(jié)點(diǎn)集合的高維稀疏數(shù)據(jù)的類空間分布集合,{v1,v2,…,vM}表示不可信節(jié)點(diǎn)集合,R=[Ru,v]N×M表示高維稀疏數(shù)據(jù)的用戶行為集,通過載波監(jiān)聽多路訪問控制方法,進(jìn)行數(shù)據(jù)的主成分分析,遞推公式如下:
(16)
用CIntrai(n)表示高維稀疏數(shù)據(jù)方位節(jié)點(diǎn)i定位的最優(yōu)間隔,CInteri(n)表示競爭節(jié)點(diǎn)i的總時(shí)隙。根據(jù)上述分析,結(jié)合關(guān)聯(lián)規(guī)則挖掘方法進(jìn)行高維稀疏數(shù)據(jù)的主成分分析,挖掘高維稀疏數(shù)據(jù)的相似度屬性類別成分[13-14]。
采用自適應(yīng)信息融合方法進(jìn)行高維稀疏數(shù)據(jù)輸出特征的信息融合,在高維相空間中進(jìn)行高維稀疏數(shù)據(jù)的模糊聚類和特征挖掘處理。假設(shè)高維稀疏數(shù)據(jù)的統(tǒng)計(jì)特征序列{Xn},n=1,2,…,N,表示原始待推薦的高維稀疏數(shù)據(jù)特征分布集,在模糊網(wǎng)格區(qū)域聚類環(huán)境下,得到組合推薦的高維稀疏數(shù)據(jù)的特征分布為XN=Xn+η,其中η為觀測數(shù)據(jù)的統(tǒng)計(jì)特征量。在d個(gè)高維稀疏數(shù)據(jù)的分布空間中,采用相空間重構(gòu)技術(shù)對高維稀疏數(shù)據(jù)進(jìn)行特征重構(gòu)[15],得到當(dāng)前可分配最大時(shí)隙分布:
Xn={Xn,Xn-τ,Xn-2τ,…,Xn-(d-1)τ}
(17)
令Rd×L是d×L的矩陣,設(shè)立優(yōu)先級(jí),通過頻繁項(xiàng)挖掘,得到組合推薦輸出的高維稀疏數(shù)據(jù)的平均互信息特征量,為:
R1={X1,X2,…,Xd}T
(18)
配置不同長度的時(shí)隙幀,采用深度學(xué)習(xí)方法進(jìn)行高維稀疏數(shù)據(jù)組合推薦過程中的自適應(yīng)尋優(yōu),高維稀疏數(shù)據(jù)的關(guān)聯(lián)規(guī)則向量集為:
(19)
依據(jù)深度學(xué)習(xí)方法,得到高維稀疏數(shù)據(jù)的學(xué)習(xí)過程迭代式為:
(20)
在L+1到2L維的網(wǎng)格區(qū)域中,對高維稀疏數(shù)據(jù)進(jìn)行降維處理,根據(jù)上述方法類推,得到高維稀疏數(shù)據(jù)組合推薦的輸出特征值為:
(21)
R2={Xd+1,Xd+2,…,Xd+m}T
(22)
(23)
其中,高維稀疏數(shù)據(jù)的測試集V=[V1,V2,…,Vm]∈Rm×m是正交的,即VVT=IM,Σ=diag(σ1,σ2,…,σm)∈Rm×m。采用特征提取技術(shù)抽取高維稀疏數(shù)據(jù)的平均互信息特征量[16],采用深度學(xué)習(xí)機(jī)器算法進(jìn)行推薦的過程反饋實(shí)現(xiàn)誤差修正,使得推薦輸出的特征向量集RTR滿足類間平衡性,綜上分析,實(shí)現(xiàn)了高維稀疏數(shù)據(jù)的組合推薦,實(shí)現(xiàn)流程如圖2所示。
圖2 算法的實(shí)現(xiàn)流程
綜上所述,完成了對基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法的設(shè)計(jì),通過該算法實(shí)現(xiàn)了對高維稀疏數(shù)據(jù)的屬性歸類與有效識(shí)辨。
為了驗(yàn)證該算法在實(shí)現(xiàn)高維稀疏數(shù)據(jù)組合推薦中的應(yīng)用性能,結(jié)合Matlab和C++編程軟件進(jìn)行仿真實(shí)驗(yàn)分析。高維稀疏數(shù)據(jù)的采樣樣本數(shù)據(jù)庫來自于云組合數(shù)據(jù)庫Pearson Database,其中Pearson線性相關(guān)系數(shù)設(shè)定為0.34,Spearman秩相關(guān)系數(shù)設(shè)定為0.21,利用K-S檢驗(yàn)對推薦過程中的收斂性進(jìn)行判斷,數(shù)據(jù)的維數(shù)設(shè)定為40,采樣樣本的長度設(shè)定為1 200,測試集大小為3 000,最優(yōu)分布類型參數(shù)為24.2。根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進(jìn)行高維稀疏數(shù)據(jù)組合推薦仿真分析,依據(jù)1.1中給出的高維稀疏數(shù)據(jù)的分布式拓?fù)浣Y(jié)構(gòu)模型,構(gòu)建高維稀疏數(shù)據(jù)的樣本分布時(shí)域圖,如圖3所示。
圖3 高維稀疏數(shù)據(jù)的樣本分布
根據(jù)圖3可以看出,構(gòu)建的高維稀疏數(shù)據(jù)樣本分布均勻,隨著采樣點(diǎn)數(shù)的增加,采樣幅值變化較為平穩(wěn),表明高維稀疏數(shù)據(jù)樣本質(zhì)量較好。
以上述數(shù)據(jù)為研究樣本,采用相空間重構(gòu)方法進(jìn)行高維稀疏數(shù)據(jù)的特征重構(gòu),提取高維稀疏數(shù)據(jù)的組合特征量。依據(jù)提取得到的高維稀疏數(shù)據(jù)的組合特征量,實(shí)現(xiàn)數(shù)據(jù)的組合推薦,得到高維數(shù)據(jù)的推薦輸出,如圖4所示。
圖4 高維稀疏數(shù)據(jù)的組合推薦輸出
分析圖4得知,采用該算法能有效實(shí)現(xiàn)對高維稀疏數(shù)據(jù)的組合推薦,對數(shù)據(jù)的降維表達(dá)能力較高,相對于圖3,在高維相空間中,對數(shù)據(jù)的辨識(shí)度更明顯,推薦能力較強(qiáng)。在特征量提取過程中,主要根據(jù)信任度進(jìn)行組合特征推薦,假設(shè)將信任值的分值劃分為2-16分,依據(jù)式9分別計(jì)算文中算法與文獻(xiàn)[2-3]算法的信任值,結(jié)果如圖5所示。
根據(jù)圖5可以看出,文獻(xiàn)[2-3]算法的信任值波動(dòng)較大,在200-300數(shù)據(jù)量時(shí),呈現(xiàn)短暫的上升趨勢,隨后信任值則持續(xù)較低,不能很好地完成數(shù)據(jù)組合推薦。而文中算法在任意高維稀疏數(shù)據(jù)量條件下,信任值均顯著高于文獻(xiàn)[2-3]算法,整體信任值在10以上,且波動(dòng)幅度較小,具有一定的穩(wěn)定性。
圖5 信任值對比分析
對文中算法與文獻(xiàn)[2-3]算法進(jìn)行高維稀疏數(shù)據(jù)推薦的時(shí)間開銷和精度對比,結(jié)果見表1和表2。
表1 高維稀疏數(shù)據(jù)組合推薦的時(shí)間開銷性能對比 s
表2 組合推薦精度性能對比 %
分析表1數(shù)據(jù)可知,運(yùn)用文中算法進(jìn)行高維稀疏數(shù)據(jù)推薦時(shí),文中算法的最高時(shí)間開銷不超過0.766 s,遠(yuǎn)低于文獻(xiàn)[2-3]算法。這是因?yàn)槲闹胁捎蒙疃葘W(xué)習(xí)方法進(jìn)行高維稀疏數(shù)據(jù)組合推薦過程中的自適應(yīng)尋優(yōu),大大降低了數(shù)據(jù)推薦耗時(shí)。分析表2數(shù)據(jù)可知,三種算法的推薦精度都比較高,但文中算法的推薦精度均可高達(dá)99%左右,顯著優(yōu)于其他兩種算法。這是因?yàn)槲闹兴惴ㄌ崛×烁呔S稀疏數(shù)據(jù)特征量,依據(jù)特征量提取結(jié)果采用特征提取技術(shù)抽取高維稀疏數(shù)據(jù)的平均互信息特征量,在此基礎(chǔ)上進(jìn)行數(shù)據(jù)推薦分析,降低了高維特征擾動(dòng)影響,提高了推薦精度。
綜合上述分析可知,該算法具有實(shí)際應(yīng)用性,可以為相關(guān)領(lǐng)域提供參考價(jià)值。
對高維稀疏數(shù)據(jù)的有效組合推薦是保障云數(shù)據(jù)庫得到有效訪問和檢索的關(guān)鍵,文中提出基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法。實(shí)驗(yàn)結(jié)果表明,用該算法進(jìn)行高維稀疏數(shù)據(jù)組合推薦的辨識(shí)度較高,精度較好,時(shí)間開銷較短。未來將繼續(xù)致力于高維稀疏數(shù)據(jù)組合推薦算法的研究,會(huì)將重點(diǎn)放在分級(jí)推薦方面,以期實(shí)現(xiàn)個(gè)性化、有針對性的推薦效果。