趙 露,李 廬
(1.安徽電子信息職業(yè)技術(shù)學(xué)院,安徽蚌埠 233000;2.安徽財(cái)經(jīng)大學(xué),安徽蚌埠 233000)
互聯(lián)網(wǎng)與人類社會(huì)之間的關(guān)系變得越來越緊密,從社會(huì)整體發(fā)展的角度分析.在網(wǎng)絡(luò)滲透各行各業(yè)的今天,當(dāng)前的社會(huì)活動(dòng)已經(jīng)不能完全脫離互聯(lián)網(wǎng)[1].從生活的角度分析,互聯(lián)網(wǎng)的出現(xiàn)已經(jīng)從根本上改變了人們生活方式,人們在日常生活中的基本訴求都可通過網(wǎng)絡(luò)得到滿足,包括溝通、購物、獲取信息等等[2].在全民的用網(wǎng)形式調(diào)查中,以智能客戶端為基礎(chǔ)的數(shù)據(jù)占總體的90%以上,這種發(fā)展趨勢主要受無線網(wǎng)絡(luò)覆蓋面積大幅提升的影響[3].通過上述兩個(gè)方面的分析不難看出,互聯(lián)網(wǎng)已經(jīng)成為了人類社會(huì)活動(dòng)開展以及個(gè)人日常生活中不可或缺的重要組成部分.就現(xiàn)階段的網(wǎng)絡(luò)發(fā)展態(tài)勢分析,在移動(dòng)互聯(lián)網(wǎng)不斷發(fā)展的時(shí)代背景下,其對人類的影響將會(huì)向著更深、更全面、更廣泛的方向發(fā)展.互聯(lián)網(wǎng)用戶的增加帶來的最直接的問題就是網(wǎng)絡(luò)用戶的行為數(shù)據(jù)的增長,這種增長不僅表現(xiàn)出明顯的大規(guī)模屬性,同時(shí)也表現(xiàn)出明顯的多樣化屬性[4].網(wǎng)絡(luò)的開放性和動(dòng)態(tài)性決定用戶上網(wǎng)數(shù)據(jù)復(fù)雜程度逐漸提高,導(dǎo)致網(wǎng)絡(luò)用戶行為分析的難度也逐漸提升.
基于此,本文提出網(wǎng)絡(luò)用戶行為大數(shù)據(jù)分析引擎設(shè)計(jì),重點(diǎn)對大數(shù)據(jù)的獲取進(jìn)行優(yōu)化.通過本文的研究,以期為網(wǎng)絡(luò)用戶行為分析工作提供有價(jià)值的參考.
本質(zhì)上,通過觀察計(jì)算其中的規(guī)律性特征,將其轉(zhuǎn)化為相關(guān)行業(yè)或平臺(tái)的優(yōu)化目標(biāo).隨著網(wǎng)絡(luò)數(shù)據(jù)規(guī)模的增加,對用戶行為信息進(jìn)行有效采集,對采集到的數(shù)據(jù)進(jìn)行準(zhǔn)確分析成為了相對困難的課題[5].獲取完整可靠的數(shù)據(jù)信息是網(wǎng)絡(luò)用戶行為大數(shù)據(jù)采集分析的前提,為此,本文從數(shù)據(jù)采集分析角度對引擎進(jìn)行設(shè)計(jì).
近些年來,伴隨著現(xiàn)代信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)的應(yīng)用范圍和應(yīng)用程度都實(shí)現(xiàn)了大幅提升,因此,要實(shí)現(xiàn)對網(wǎng)絡(luò)用戶行為大數(shù)據(jù)分析,可靠的數(shù)據(jù)采集是極為必要的.為此,本文采用搭載了FACE(FPGA Algorithm Acceleration Engine)算法的數(shù)據(jù)采集裝置FACE-ZU-15EG作為引擎的數(shù)據(jù)采集構(gòu)件,以此適應(yīng)不同環(huán)境下的數(shù)據(jù)獲取需求[6].
圖1 FACE-ZU-15EG數(shù)據(jù)采集構(gòu)件實(shí)物圖Fig.1 Physical map of FACE-ZU-15EG data acquisition component
首先,在FPGA與ARM的支持下,F(xiàn)ACE-ZU-15EG可以實(shí)現(xiàn)對相關(guān)連接軟件及硬件的靈活控制,不僅如此,F(xiàn)ACE-ZU-15EG支持全可編程操作,因此可以按照設(shè)計(jì)引擎的實(shí)際應(yīng)用需求做出適應(yīng)性調(diào)節(jié),在并行算法的運(yùn)行模式下,當(dāng)網(wǎng)絡(luò)中出現(xiàn)動(dòng)態(tài)的可重構(gòu)用戶行為數(shù)據(jù)時(shí),F(xiàn)ACE-ZU-15EG也可以是在短時(shí)間內(nèi)完成對其的搭配組合,外圍搭載的大容量DDR3/DDR4存儲(chǔ)以及PCI-E、QSFP、SATA等高速接口,使得引擎相關(guān)功能項(xiàng)目的開發(fā)不會(huì)受到額外干擾.其實(shí)物圖如圖1所示.
利用FACE-ZU-15EG獲取網(wǎng)絡(luò)用戶行為數(shù)據(jù)時(shí),主要是利用其搭載的FACE系統(tǒng)實(shí)現(xiàn)的,F(xiàn)ACE-ZU同時(shí)搭載ZYNQ UltraScale器件以及ZYNQ-7000全可編程器件,使得數(shù)據(jù)和數(shù)據(jù)傳輸可以同步進(jìn)行.FACE-ZU系統(tǒng)搭載FPGA主器件為XTBPD0032-2FFVB14125I,板載FPGA協(xié)處理器件為XC4500-2CLG440I.當(dāng)所采集到的網(wǎng)絡(luò)用戶行為大數(shù)據(jù)出現(xiàn)異常波動(dòng)時(shí),二者共同作用可有效實(shí)現(xiàn)對FACE-ZU-15EG的采集速度適應(yīng)性地進(jìn)行調(diào)節(jié).
其次板卡外設(shè)有PS DDR4 SODIMM插槽,采集到的數(shù)據(jù)可以實(shí)時(shí)傳輸?shù)絺鬏斞b置中.考慮到由于部分條件下可能會(huì)存在網(wǎng)絡(luò)環(huán)境異常的情況,導(dǎo)致數(shù)據(jù)的傳輸速率與采集速率出現(xiàn)偏差,為此,配置2個(gè)USB 2.0接口作為備用連接,確保數(shù)據(jù)采集工作的順利進(jìn)行,內(nèi)置的8GB PS eMMC存儲(chǔ)器可以暫存采集的數(shù)據(jù)[7].在512 MB PS QSPI Flash存儲(chǔ)器的支持下,PS Micro-SD卡槽支持內(nèi)存拓展,適應(yīng)更大規(guī)模的數(shù)據(jù)暫存需求.對于ZYNQ協(xié)處理器的外設(shè)構(gòu)成,分為PS部分和PL部分兩組構(gòu)造.其中PS部分包括1個(gè)1024 MB DDR3存儲(chǔ)器,1個(gè)256 MB QSPI Flash存儲(chǔ)器,千兆以太網(wǎng)以及一個(gè)64 GB的eMMC存儲(chǔ)器;PL部分包括1個(gè)FMC擴(kuò)展連接器,其中含有4對GTP,34對LVDS,2個(gè)PL差分時(shí)鐘以及1個(gè)MGT時(shí)鐘.FACE-ZU-15EG搭載的Zynq UltraScale+ MPSoC處理器系統(tǒng)具有三個(gè)主要的處理單元.其運(yùn)行方式如圖2所示.
圖2 以FACE-ZU-15EG為基礎(chǔ)的網(wǎng)絡(luò)數(shù)據(jù)獲取流程Fig.2 Network data acquisition process based on Face-ZU-15EG
在圖2的基礎(chǔ)上,通過在引擎內(nèi)一鍵創(chuàng)建Vivado,生成FACE-ZU-15EG的配置文件,其采集到的數(shù)據(jù)就可以直接解壓到目標(biāo)目錄,在Vivado開發(fā)環(huán)境下對數(shù)據(jù)進(jìn)行進(jìn)一步分析[8].
通過該構(gòu)件,實(shí)現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)的完整獲取,為后續(xù)的分析工作提供可靠的基礎(chǔ).
定義網(wǎng)絡(luò)用戶關(guān)系為G=(B,F),其中,B表示網(wǎng)絡(luò)中具有相同行為的用戶集合,F(xiàn)表示用戶之間的聯(lián)動(dòng)關(guān)系.根據(jù)FACE-ZU-15EG采集到的數(shù)據(jù),網(wǎng)絡(luò)中活躍程度高的用戶所產(chǎn)生的行為與其他用戶產(chǎn)生關(guān)聯(lián)的幾率更高,因此,在網(wǎng)絡(luò)中擁有較多互動(dòng)行為的用戶節(jié)點(diǎn)對應(yīng)的行為在整個(gè)網(wǎng)絡(luò)行為中的貢獻(xiàn)也更大[9-10].本文通過計(jì)算用戶關(guān)系網(wǎng)絡(luò)中活躍用戶節(jié)點(diǎn)與其他節(jié)點(diǎn)的交互連接次數(shù),衡量用戶之間行為的相似度.本文采用PageRank算法確定網(wǎng)絡(luò)中用戶的活躍程度:
(1)
其中,R(a)表示用戶a的活躍程度,c表示活躍阻尼強(qiáng)度,在正常網(wǎng)絡(luò)環(huán)境中,其取值范圍為[0.80,0.90],n表示采集的數(shù)據(jù)中包含的用戶總量,D(Ui)和R(Ui)分別表示所有其余用戶與a用戶的互動(dòng)次數(shù)和互動(dòng)頻率.通過這樣的方式,得到活躍度相對較高的用戶,本文取前20%作為基礎(chǔ)用戶,對其關(guān)聯(lián)的用戶在行為上相似度達(dá)到60%的作為聚類標(biāo)準(zhǔn),再將與之關(guān)聯(lián)的二級用戶相關(guān)聯(lián)的用戶在行為上相似度達(dá)到70%的作為聚類標(biāo)準(zhǔn),以此類推,最終得到的聚類結(jié)果為:
P=a+0.6a+0.7(0.6a)+(0.8(0.7(0.6a)))+...+(1(0.9(0.8)(0.7(0.6a)))))
(2)
其中,P表示聚類結(jié).通過這樣的方式,以聚類為單元,分析每個(gè)聚類中用戶的行為特征,本文利用HITS算法計(jì)算,其表示方式為:
(3)
其中,ei表示聚類中行為的中心值,f(P)表示聚類P的行為特征.
為了測試在實(shí)際網(wǎng)絡(luò)環(huán)境中本文設(shè)計(jì)引擎對用戶行為分析的效果,進(jìn)行如下測試試驗(yàn).
本文以某學(xué)院1年時(shí)間內(nèi)IIS服務(wù)器的用戶訪問日志作為測試數(shù)據(jù),利用Java語言對IIS的日志文件數(shù)據(jù)完成解析后,通過FACE-ZU-15EG對其進(jìn)行采集.結(jié)合實(shí)驗(yàn)服務(wù)器的數(shù)據(jù)規(guī)模以及數(shù)據(jù)流量大小,本文將Cortex-A53作為應(yīng)用程序處理單元,以FACE-ZU-15EG的APU形式存在,并設(shè)置其對應(yīng)的構(gòu)架為64位四核CPU ARM v8;將Cortex-R5為FACE-ZU-15EG的實(shí)時(shí)處理單元,以FACE-ZU-15EG的RPU形式存在,并設(shè)置其對應(yīng)的構(gòu)架為32位雙實(shí)時(shí)CPU ARM v7;將ARM MaliTM-400 MP2作為FACE-ZU-15EG的GPU.利用USB3.0接口和串行GMII接口作為數(shù)據(jù)傳輸接口,實(shí)現(xiàn)最大5 Gb/s,最小1 Gb/s的傳輸線速率.以此為基礎(chǔ),將數(shù)據(jù)傳輸?shù)椒治鲆嬷?,以K-均值聚類的方式將具有相似行為的用戶聚類,并設(shè)置不同的閾值標(biāo)準(zhǔn),分別統(tǒng)計(jì)聚類結(jié)果.
在上述基礎(chǔ)上,首先統(tǒng)計(jì)了引擎在數(shù)據(jù)采集方面的效果,采用現(xiàn)階段應(yīng)用最為廣泛的YAFIM和Flume作為對照組,測試結(jié)果如表1所示.
從表1中可以看出,本文設(shè)計(jì)的分析引擎,在數(shù)據(jù)采集方面具有良好的應(yīng)用效果,在不同的最小支持度閾值下,項(xiàng)目粒度明顯小于對比方法,用戶粒度高于對比方法.這是因?yàn)楸疚脑诰W(wǎng)絡(luò)數(shù)據(jù)獲取方面應(yīng)用FACE-ZU-15EG,按照實(shí)際數(shù)據(jù)環(huán)境需求通過ZYNQ-7000全可編程器實(shí)現(xiàn)了采集速率的自適應(yīng)調(diào)節(jié),以此提高采集速率.
在上述基礎(chǔ)上,統(tǒng)計(jì)了本文設(shè)計(jì)分析引擎對用戶行為數(shù)據(jù)的聚類結(jié)果,其具體如表2所示.
從表2中可以看出,在不同的相似度閾值條件下,本文設(shè)計(jì)的分析引擎對用戶行為的分析具有較高的準(zhǔn)確性,相似行為的聚類質(zhì)量始終保持在0.700 0以上,且孤立點(diǎn)的數(shù)量不超過170個(gè),表明設(shè)計(jì)引擎能夠?qū)^大多數(shù)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集分析,聚類數(shù)量隨著相似度閾值增大而增加,表明引擎對行為的分析精度也逐漸提高.
網(wǎng)絡(luò)時(shí)代,用戶行為數(shù)據(jù)中不僅體現(xiàn)出了用戶的需求,同時(shí)也暗示了相關(guān)行業(yè)的發(fā)展或者轉(zhuǎn)型的方向.而網(wǎng)絡(luò)用戶行為在一定程度上指導(dǎo)著網(wǎng)絡(luò)的發(fā)展方向,同時(shí)對于相關(guān)行業(yè)的發(fā)展,其中蘊(yùn)含的數(shù)據(jù)價(jià)值也是極具指導(dǎo)意義的.精準(zhǔn)有效的數(shù)據(jù)分析是十分具有現(xiàn)實(shí)價(jià)值的.海量網(wǎng)絡(luò)用戶產(chǎn)生的數(shù)據(jù)規(guī)模是巨大的,如何實(shí)現(xiàn)對這種海量數(shù)據(jù)的分析成為了值得關(guān)注的問題,本文設(shè)計(jì)的網(wǎng)絡(luò)用戶行為大數(shù)據(jù)分析能夠?qū)崿F(xiàn)對數(shù)據(jù)的有效采集分析.