楊 杰,楊 虎,王魯濱,金 鑫,郭 華,于亮亮
1.中央財經(jīng)大學(xué) 信息學(xué)院,北京 100081
2.國網(wǎng)荊州供電公司 信通分公司,湖北 荊州 434000
3.國網(wǎng)遼寧省電力有限公司 信息通信分公司,沈陽 110000
高維相關(guān)性缺失數(shù)據(jù)的分塊填補(bǔ)算法研究*
楊 杰1+,楊 虎1,王魯濱1,金 鑫1,郭 華2,于亮亮3
1.中央財經(jīng)大學(xué) 信息學(xué)院,北京 100081
2.國網(wǎng)荊州供電公司 信通分公司,湖北 荊州 434000
3.國網(wǎng)遼寧省電力有限公司 信息通信分公司,沈陽 110000
Abstract:This paper studies the method of filling the high dimensional correlation missing data,and proposes a new imputation algorithm based on data block.The key idea of the algorithm is to consider the correlation between variables when filling missing data,and only use the data correlated with the missing data to fill,thereby reducing imputation effects of the missing data caused by the irrelevant data,and improving the accuracy of data imputation.At the same time,the proposed imputation algorithm can be implemented in a parallel way,so that it performs efficiently to fill the high dimensional missing data.In order to divide the missing data with unknown information about blocks into several blocks,this paper proposes a block algorithm based onk-means clustering.Simulation research and application show that the proposed imputation algorithm is more effective and accurate to handle themissing for the correlation high dimensional data with considering variables'block relationship than others with not.
Key words:high dimensional correlation data;missing data;block imputation algorithm
研究了高維相關(guān)性缺失數(shù)據(jù)的填補(bǔ)方法,提出了分塊填補(bǔ)算法。該算法核心思想是:在填補(bǔ)數(shù)據(jù)的過程中會考慮變量之間的相互關(guān)系,僅利用與待填補(bǔ)數(shù)據(jù)有相關(guān)性的數(shù)據(jù)進(jìn)行填補(bǔ),從而降低不相關(guān)數(shù)據(jù)對缺失數(shù)據(jù)填補(bǔ)的影響,提高數(shù)據(jù)填補(bǔ)的準(zhǔn)確度。同時,該算法能夠并行處理缺失數(shù)據(jù),從而提高數(shù)據(jù)填補(bǔ)效率,對于高維缺失數(shù)據(jù)的填補(bǔ)有重要意義。為了對分塊情況未知的缺失數(shù)據(jù)進(jìn)行分塊,提出了基于k-means聚類的分塊算法。大量的仿真實(shí)驗(yàn)和基于真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明,對于相關(guān)性數(shù)據(jù),分塊填補(bǔ)算法能夠有效地利用相關(guān)信息進(jìn)行填補(bǔ),從而提高數(shù)據(jù)填補(bǔ)準(zhǔn)確度。
高維相關(guān)性數(shù)據(jù);缺失數(shù)據(jù);分塊填補(bǔ)算法
隨著大數(shù)據(jù)相關(guān)理論和技術(shù)的發(fā)展,大數(shù)據(jù)在電力、醫(yī)療、金融、交通、電信等方面有了廣泛應(yīng)用。由于大數(shù)據(jù)的數(shù)據(jù)量非常巨大,在采集和存儲過程中,不可避免地出現(xiàn)數(shù)據(jù)缺失的現(xiàn)象。缺失數(shù)據(jù)往往含有重要的信息和價值,對缺失數(shù)據(jù)處理不當(dāng),會對數(shù)據(jù)分析結(jié)果產(chǎn)生巨大影響,甚至?xí)?yán)重影響數(shù)據(jù)的客觀性和研究結(jié)論的正確性[1]。因此,如何對大數(shù)據(jù)中的缺失數(shù)據(jù)進(jìn)行填補(bǔ)是一個重要的研究內(nèi)容。
傳統(tǒng)的數(shù)據(jù)填補(bǔ)方法包括多重插補(bǔ)[2]、基于回歸的填補(bǔ)算法[3]、基于關(guān)聯(lián)規(guī)則的填補(bǔ)算法[4]、基于決策樹的填補(bǔ)算法[5]、基于K近鄰的填補(bǔ)算法[6]、基于貝葉斯的填補(bǔ)算法[7]、基于聚類的填補(bǔ)算法[8]。更進(jìn)一步,可以結(jié)合兩種或兩種以上的算法對缺失數(shù)據(jù)進(jìn)行填補(bǔ),如基于關(guān)聯(lián)規(guī)則和K近鄰算法的填補(bǔ)算法[9]、基于關(guān)聯(lián)規(guī)則和聚類的填補(bǔ)算法[10]、基于聚類和最近鄰算法的填補(bǔ)算法[11]。
研究表明,傳統(tǒng)的數(shù)據(jù)填補(bǔ)算法對于小數(shù)據(jù)集填補(bǔ)的確有一定的準(zhǔn)確性,但面對大數(shù)據(jù)集,往往填補(bǔ)效果不佳。針對這一問題,相關(guān)學(xué)者已經(jīng)進(jìn)行了一些缺失大數(shù)據(jù)填補(bǔ)方法的研究。陳肇強(qiáng)等人[12]運(yùn)用互聯(lián)網(wǎng)中海量信息對缺失大數(shù)據(jù)進(jìn)行填補(bǔ),提出了基于上下文感知實(shí)體排序的缺失數(shù)據(jù)修復(fù)方法;金連等人[13]結(jié)合Map-Reduce的并行化特點(diǎn),提出來了基于Map-Reduce的大數(shù)據(jù)缺失值填補(bǔ)算法,提高了大數(shù)據(jù)的填補(bǔ)效率;冷泳林等人[14]同時結(jié)合聚類算法和并行處理對缺失大數(shù)據(jù)進(jìn)行填補(bǔ);趙飛等人[15]針對高速流數(shù)據(jù)中的缺失值,提出了基于最小計數(shù)/頻率概要的缺失值填補(bǔ)方法。
傳統(tǒng)的針對一般缺失數(shù)據(jù)的填補(bǔ)方法和現(xiàn)有的針對缺失大數(shù)據(jù)的填補(bǔ)方法只考慮了觀測樣本之間的關(guān)系,而忽略了變量之間的關(guān)系,而變量之間的相關(guān)性往往會影響數(shù)據(jù)的填補(bǔ)效果。例如,身高與體重之間有相關(guān)關(guān)系,而與智力沒有直接關(guān)系,如果將智力這個變量的信息用于填補(bǔ)身高數(shù)據(jù)的缺失,則會對數(shù)據(jù)填補(bǔ)結(jié)果造成一定的影響。在高維大數(shù)據(jù)情形下,不相關(guān)變量會越來越多,對數(shù)據(jù)填補(bǔ)準(zhǔn)確性的影響也會越來越大。
一些研究已經(jīng)注意到了這些問題,它們主要通過變量約簡的方法,剔除掉不相關(guān)的變量,來提高數(shù)據(jù)填補(bǔ)的效果。例如,陳志奎等人[16]通過變量約簡,將變量分成重要變量和非重要變量,分別采用不同的填補(bǔ)算法進(jìn)行填補(bǔ)。劉春英[17]通過考慮變量之間的依賴關(guān)系而對變量進(jìn)行區(qū)分,分別進(jìn)行填補(bǔ)。
為了處理缺失高維大數(shù)據(jù),本文創(chuàng)新性地提出了一種針對高維相關(guān)性缺失數(shù)據(jù)的分塊填補(bǔ)算法。本文算法首先通過變量之間的相關(guān)性,將原始數(shù)據(jù)集進(jìn)行縱向分割,形成眾多的低維子數(shù)據(jù)集;然后利用數(shù)據(jù)填補(bǔ)算法,分別對每個分塊進(jìn)行填補(bǔ)。本文算法最大的優(yōu)點(diǎn)在于降低了不相關(guān)變量對填補(bǔ)結(jié)果的影響,從而能夠提高填補(bǔ)準(zhǔn)確度;同時本文算法能夠以并行的方式對高維缺失大數(shù)據(jù)進(jìn)行填補(bǔ),不僅能提高缺失填補(bǔ)的精度,還能降低數(shù)據(jù)填補(bǔ)的計算時間。
本文組織結(jié)構(gòu)如下:第2章給出了分塊填補(bǔ)算法及其相關(guān)定義,從理論上證明了分塊填補(bǔ)能夠提高準(zhǔn)確性,并提出了基于k-means的數(shù)據(jù)分塊算法;第3章給出分塊填補(bǔ)算法的具體步驟;第4章通過模擬仿真說明本文填補(bǔ)算法處理高維缺失大數(shù)據(jù)的準(zhǔn)確度和效率;第5章將分塊填補(bǔ)算法應(yīng)用于基因測序數(shù)據(jù),說明處理真實(shí)數(shù)據(jù)的能力;第6章總結(jié)全文。
定義1(缺失數(shù)據(jù)集)含缺失數(shù)據(jù)的數(shù)據(jù)集稱為缺失數(shù)據(jù)集。為了方便描述,本文利用粗糙集理論中信息系統(tǒng)的概念來進(jìn)行描述。一個信息系統(tǒng)由一個四元組來表示:
其中,U={x(1),x(2),…,x(n)}表示對象集,n為對象的個數(shù);A={a1,a2,…,ap}表示變量集,p表示變量的個數(shù);V表示每個變量的值域;f是U×A到V的一個映射,即:
當(dāng)信息系統(tǒng)S至少存在一組(i,j)使得,其中i=1,2,…,|U|,j=1,2,…,|A|,則稱該信息系統(tǒng)為不完備信息系統(tǒng),即缺失數(shù)據(jù)集。
定義2(遺失數(shù)據(jù)集)遺失數(shù)據(jù)集是對缺失數(shù)據(jù)的描述,缺失數(shù)據(jù)集S的遺失數(shù)據(jù)集MI定義為:
其中,i=1,2,…,|U|,j=1,2,…,|A|。
定義3(變量相關(guān)性)變量相關(guān)性表示變量之間的相關(guān)程度或者依賴程度。本文用r(ai,aj)來表示變量ai和aj之間的相關(guān)性,其中ai,aj∈A,0≤r(ai,aj)≤ 1,r(ai,aj)越大,表示ai和aj相關(guān)性越高。r(ai,aj)=0,表示ai和aj完全無關(guān);r(ai,aj)=1,表示ai和aj完全相關(guān)。
關(guān)于不同變量之間相關(guān)性的定義,在不同的領(lǐng)域都有不同的定義。由于相關(guān)性不是本文重點(diǎn)討論的內(nèi)容,本文僅采用歸納的研究方法對相關(guān)性進(jìn)行歸納描述,不做深入的討論和研究。在實(shí)際應(yīng)用中,相關(guān)系數(shù)、關(guān)聯(lián)規(guī)則、依賴度等均可以用來表示變量之間的相關(guān)性。
(1)相關(guān)系數(shù)
相關(guān)系數(shù)可以刻畫兩個變量之間的變動關(guān)系,常用于數(shù)學(xué)、統(tǒng)計等領(lǐng)域。相關(guān)系數(shù)一般用ρ表示,值域?yàn)閇-1,1]。ρ的絕對值越大,表示相關(guān)性越高,反之越低。
(2)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域中用來表示不同事務(wù)之間的相關(guān)性,其最大的特點(diǎn)就是能夠找出表面上不易發(fā)現(xiàn),內(nèi)在卻存在的相關(guān)性。例如一個人購物籃里面物品之間的相關(guān)性就可以用關(guān)聯(lián)規(guī)則來描述。
(3)依賴度
依賴度是粗糙集理論中的一個概念,用來表示一個變量對另外一個變量的依賴程度,依賴度越高,意味著其相關(guān)性也越高。
定義4(相關(guān)變量集)相關(guān)變量集RA是A的一個子集,設(shè)0≤?≤1為變量相關(guān)性閾值,則RA定義如下:
其中,ai,aj∈RA,i≠j。
定理1變量集A與相關(guān)變量集RA的關(guān)系為為變量集分塊個數(shù)。
證明 由定義4可知,RA是A的子集,且RAi?RAj=? ,i≠j。因此,對任意的i∈[1,K],RAi是A的真子集,從而
定義5(分塊數(shù)據(jù)集)根據(jù)RA可以將S分成多個子數(shù)據(jù)集,每個子數(shù)據(jù)集稱為一個分塊數(shù)據(jù)集,分塊數(shù)據(jù)集RS定義為:
RS=(U,RA,V,f)
定理2數(shù)據(jù)集S與分塊數(shù)據(jù)集RS的關(guān)系為,K為數(shù)據(jù)集分塊個數(shù)。
定義6(分塊填補(bǔ)算法)數(shù)據(jù)填補(bǔ)算法可以統(tǒng)一定義為一種映射函數(shù)h:S→S′。其中S為缺失數(shù)據(jù)集,S′=(U′,A,V,f′)為經(jīng)過填補(bǔ)后的完備數(shù)據(jù)集。
根據(jù)填補(bǔ)算法依賴的變量的不同,可以將填補(bǔ)算法分成3類:單變量依賴填補(bǔ)算法、全變量依賴填補(bǔ)算法和分塊填補(bǔ)算法。
設(shè)(i,j)∈MI(S),為的填補(bǔ)值。
(1)單變量依賴填補(bǔ)算法是指對缺失值的填補(bǔ)只與當(dāng)前的缺失變量有關(guān),而與其他變量值無關(guān),如均值填補(bǔ)、眾數(shù)填補(bǔ)等,定義如下:
(2)全變量依賴填補(bǔ)算法是指對缺失值的填補(bǔ)與所有的變量都有關(guān),如KNN填補(bǔ)算法、回歸填補(bǔ)算法等,其定義如下:
(3)分塊填補(bǔ)算法是指對缺失值的填補(bǔ)只與部分變量相關(guān),定義如下:
其中,RAj為變量aj所在的相關(guān)變量集。
假設(shè)存在一個高維數(shù)據(jù)集A∈Rn×p,n?p,假定A滿足以下的假設(shè)。
(1)可分性。A可以按列分成K個分塊,即:
(2)獨(dú)立性。各塊之間相互獨(dú)立,即有:
(3)線性關(guān)系。各變量之間有近似的線性相關(guān)關(guān)系,即有:
其中,ui為白噪聲,i∈[1,p];A*=Aai,表示不包含第i個變量。
(4)數(shù)據(jù)隨機(jī)缺失。
同時,本文用均方根誤差(root mean square error,RMSE)來評價數(shù)據(jù)填補(bǔ)的準(zhǔn)確程度,RMSE定義如下:
其中,N為缺失數(shù)據(jù)的個數(shù);為缺失數(shù)據(jù)xi的填補(bǔ)估計值;ei2表示殘差的平方。RMSE越小,表示填補(bǔ)準(zhǔn)確度越高,反之越低。
根據(jù)上述假設(shè),可得到定理3。
定理3在滿足4個假設(shè)條件的前提下,分塊填補(bǔ)的精度高于不分塊填補(bǔ)的準(zhǔn)確性。
證明(1)由假設(shè)(3),各變量之間存在近似的線性相關(guān)關(guān)系,因此可以采用最小二乘的方法來對缺失數(shù)據(jù)的填補(bǔ)值進(jìn)行估計,用表示ai的最小二乘估計值。對ai的估計有兩種情況:一種是利用全部的信息進(jìn)行估計,即不分塊填補(bǔ);另一種是僅利用最相關(guān)信息進(jìn)行估計,即分塊填補(bǔ)。
情形1ai的不分塊估計值:
由假設(shè)(1)可知,A是按列可分的,因此式(2)可以變換為:
則ai不分塊估計的殘差平方和為:
情形2ai的分塊估計值為:
則ai的分塊估計的殘差平方和為:
用aim表示變量ai上由缺失數(shù)據(jù)組成的向量,由假設(shè)(4)可知,由于缺失方式為隨機(jī)缺失,aim也滿足假設(shè)(2)的獨(dú)立性條件。因此,變量ai上缺失數(shù)據(jù)在不分塊估計和分塊估計上的殘差平方和(分別用和表示)也滿足:
(3)根據(jù)RMSE的定義,不分塊填補(bǔ)和分塊填補(bǔ)兩種方式下的填補(bǔ)精度(用RMSEnb和RMSEb來表示)分別為:
結(jié)合式(7)可得,RMSEnb≥RMSEb,即分塊填補(bǔ)的精度高于不分塊填補(bǔ)的精度。
根據(jù)對數(shù)據(jù)集的理解情況,可以分為分塊已知和分塊未知兩種情況進(jìn)行討論。
對于一個分塊信息已知的情況,直接根據(jù)已知分塊信息進(jìn)行分塊即可。分塊已知的情況一般出現(xiàn)在變量較少,且對變量的含義有明確認(rèn)識的情況。
實(shí)際中,大多數(shù)數(shù)據(jù)集都是未知分塊的。特別是對于高維數(shù)據(jù)或者對變量含義不了解的數(shù)據(jù),難以識別其中的分塊信息。針對分塊未知的情況,本文基于k-means算法,通過改進(jìn)數(shù)據(jù)缺失情況下的距離度量方式,從而實(shí)現(xiàn)了對缺失數(shù)據(jù)進(jìn)行分塊,本文稱之為KMB算法(k-means block algorithm)。
(1)k-means算法
k-means是一種經(jīng)典的聚類算法。給定數(shù)據(jù)集A∈Rn×p。k-means算法步驟如下所示。
算法1k-means算法
輸入:數(shù)據(jù)集A,聚類個數(shù)K。
輸出:每個對象a(i)所在的聚類。
步驟1隨機(jī)選取K個聚類中心為u1,u2,…,uK∈Rp。
步驟2迭代直至收斂。
對A中的每一個對象a(i),計算其所屬的聚類:
對于每一個類j,更新類的中心:
(2)基于k-means的分塊算法
結(jié)合k-means算法的思想,本文提出了對變量進(jìn)行分塊的KMB算法。在描述算法之前,需要解決以下幾個問題。
第一,聚類算法可以分為Q型聚類和R型聚類。Q型聚類是指對數(shù)據(jù)對象進(jìn)行聚類,k-means算法就是一種Q型聚類算法。R型聚類是指對變量進(jìn)行聚類。為了能夠使用k-means算法對變量進(jìn)行聚類,首先需要對數(shù)據(jù)集進(jìn)行轉(zhuǎn)置得到AT∈Rp×n,然后對A′進(jìn)行聚類。
第二,k-means算法對高維數(shù)據(jù)的處理效果不佳,存在一定的局限性。本文中,當(dāng)樣本量n較小時,轉(zhuǎn)置后的AT是一個低維的數(shù)據(jù)集,則使用k-means算法進(jìn)行聚類不存在局限性問題。當(dāng)n比較大時,轉(zhuǎn)置后的AT仍然是一個高維的數(shù)據(jù)集,此時使用k-means算法進(jìn)行聚類存在一定的局限性。為了解決這一問題,本文采用Witten等人[18]提出的稀疏性k-means算法(sparsek-means clustering)進(jìn)行變量選擇。其核心思想是約束目標(biāo)函數(shù)中變量的權(quán)重,使得權(quán)重較小的變量不參與聚類,而保留權(quán)重較大的變量,從而實(shí)現(xiàn)變量選擇,其目標(biāo)函數(shù)定義如下所示:
其中,w為變量的權(quán)重向量;wv表示第v個變量的權(quán)重系數(shù);s為調(diào)整參數(shù)。
這樣,通過變量選擇解決了數(shù)據(jù)量很大時kmeans算法的局限性問題。
第三,經(jīng)典k-means算法一般采用歐式距離來計算距離,在數(shù)據(jù)缺失的條件下,難以計算歐式距離。本文采用Hathaway等人[19]提出的計算缺失數(shù)據(jù)的距離的方法。包含缺失對象a(i)和a(j)之間的距離定義為:
第四,經(jīng)典k-means算法一般采用算數(shù)平均的方法來更新聚類的中心,但在數(shù)據(jù)缺失的情況下,此方法不再可行。同樣借鑒Hathaway等人的思想,本文提出了在缺失情況下更新聚類中心的方法。設(shè)第j個聚類中有s個對象{a(1),a(2),…,a(s)},且包含缺失,則類中心uj在第i個變量上的取值定義為:
解決了以上問題,下面給出具體的KMB算法步驟,如下所示。
算法2KMB算法
輸入:數(shù)據(jù)集A,聚類個數(shù)K。
輸出:分塊數(shù)據(jù)集。
步驟1對A進(jìn)行轉(zhuǎn)置,得到AT。
步驟2隨機(jī)選取K個聚類中心點(diǎn)為u1,u2,…,uK∈Rn。
步驟3迭代直至收斂。
對AT中的每一個對象a(i),計算其所屬的聚類:
對于每一個類j,按照本文定義的方法更新聚類的中心:
步驟4轉(zhuǎn)置聚類完成的數(shù)據(jù)集,得到A1。
步驟5根據(jù)聚類結(jié)果分割數(shù)據(jù)集A1,得到多個分塊數(shù)據(jù)集。
分塊填補(bǔ)算法是根據(jù)數(shù)據(jù)集的特征,通過對數(shù)據(jù)集進(jìn)行分塊而形成的一種缺失數(shù)據(jù)填補(bǔ)算法。其最大的特征是適用的填補(bǔ)算法范圍廣,凡是依賴于其他變量的數(shù)據(jù)填補(bǔ)算法均適用于分塊填補(bǔ)的方案,統(tǒng)稱此類算法為宿主算法。分塊填補(bǔ)算法步驟見算法3。
算法3分塊填補(bǔ)算法
輸入:缺失數(shù)據(jù)集S=(U,A,V,f)。
輸出:完備數(shù)據(jù)集S′=(U′,A,V,f′)。
步驟1確定分塊。如果分塊已知,則直接進(jìn)行分塊;否則應(yīng)用KMB算法(算法2)進(jìn)行分塊,得到分塊信息。
步驟2根據(jù)分塊信息,對缺失數(shù)據(jù)集S進(jìn)行分割,得到K個子缺失數(shù)據(jù)集RSi=(U,Ai,V,f),i=1,2,…,K。
步驟3對于每一個子缺失數(shù)據(jù)集,使用宿主填補(bǔ)算法進(jìn)行填補(bǔ),得到完備的子數(shù)據(jù)集Si=(U′,Ai,V,f′),i=1,2,…,K。
步驟4合并完備的子數(shù)據(jù)集Si,得到完備數(shù)據(jù)集S′=(U′,A,V,f′)。
由算法3可知,分塊填補(bǔ)算法具有以下特點(diǎn):
(1)缺失數(shù)據(jù)集是可分的,即可以分成多個塊內(nèi)相關(guān)性高,塊間相關(guān)性低的數(shù)據(jù)分塊。一方面,如果缺失數(shù)據(jù)集的所有變量之間都具有很高的相關(guān)性,那么對數(shù)據(jù)集進(jìn)行分割,反而會破壞這種強(qiáng)的相關(guān)性,不利于數(shù)據(jù)填補(bǔ)。另一方面,如果數(shù)據(jù)集的變量之間均存在較弱的相關(guān)性,劃分之后,變量之間的相關(guān)性仍然很低,也不利于數(shù)據(jù)填補(bǔ)。
(2)適用的宿主填補(bǔ)算法廣,即大部分傳統(tǒng)的填補(bǔ)算法均可作為本文提出的分塊填補(bǔ)算法的宿主算法,適用范圍廣。具體來講,除均值填補(bǔ)和眾數(shù)填補(bǔ)等少數(shù)不依賴變量的填補(bǔ)算法外,都適合分塊填補(bǔ)算法。
(3)并行填補(bǔ),提高填補(bǔ)效率。通過對原始數(shù)據(jù)集進(jìn)行分塊,對每個分塊可以采用并行的方式進(jìn)行填補(bǔ),總的填補(bǔ)計算時間降為max(t1,t2,…,tK),其中K為分塊個數(shù),tK表示第K個分塊的填補(bǔ)時間。當(dāng)數(shù)據(jù)集的維度和數(shù)據(jù)量很大時,分塊填補(bǔ)能夠明顯降低填補(bǔ)計算時間。
(1)實(shí)驗(yàn)數(shù)據(jù)生成
為了評價分塊填補(bǔ)算法對存在分塊的高維相關(guān)性缺失數(shù)據(jù)在分塊已知和分塊未知兩種情況下的填補(bǔ)效果,本文仿真生成了樣本量固定為n=100,變量個數(shù)分別為p=100,p=200和p=400的3個仿真數(shù)據(jù)集,來檢驗(yàn)對于不同變量個數(shù)的數(shù)據(jù)集,分塊填補(bǔ)算法的效果。每個數(shù)據(jù)集的生成方式如下:首先確定數(shù)據(jù)集的分塊數(shù)為K塊;然后對于每個分塊Ki,它有pi個變量,數(shù)據(jù)由多元正態(tài)分布N(ui,Σi)產(chǎn)生,其中ui是pi維期望向量,Σi是pi×pi的協(xié)方差矩陣。為了保證不同塊之間有一定的差異,使不同分塊的期望向量之間存在一定的差異;最后將各個分塊合并形成仿真數(shù)據(jù)集,并重復(fù)100次。
(2)實(shí)驗(yàn)平臺
本實(shí)驗(yàn)采用Matlab 2011B作為實(shí)驗(yàn)平臺,操作系統(tǒng)是Windows8.1專業(yè)版,Intel?Pentium?CPU P6200 2.13 GHz,2 GB 內(nèi)存,320 GB硬盤。
(1)實(shí)驗(yàn)方法
采用隨機(jī)缺失的方法,根據(jù)設(shè)定的缺失率,隨機(jī)地置空仿真數(shù)據(jù)集,得到包含缺失的數(shù)據(jù)集。分別使用宿主填補(bǔ)算法KNN(K近鄰)填補(bǔ)算法和REGRESS(線性回歸)填補(bǔ)算法對缺失數(shù)據(jù)進(jìn)行分塊填補(bǔ),并與不分塊的填補(bǔ)算法進(jìn)行對比,比較它們的填補(bǔ)準(zhǔn)確度和填補(bǔ)計算時間。每種算法均用于分析100個模擬生成的數(shù)據(jù),并計算平均填補(bǔ)準(zhǔn)確度和平均填補(bǔ)計算時間。
(2)評價指標(biāo)
根據(jù)數(shù)據(jù)類型的不同,對填補(bǔ)準(zhǔn)確度的衡量方法也不同。對于數(shù)值型數(shù)據(jù),使用均方根誤差(RMSE)來衡量填補(bǔ)準(zhǔn)確度,其定義見式(1)。
對于離散性數(shù)據(jù),采用填補(bǔ)準(zhǔn)確率(Precise)來衡量,即填補(bǔ)正確的數(shù)據(jù)記錄數(shù)占整個缺失數(shù)據(jù)的比例。Precise越大,填補(bǔ)精度越高。其定義為:
(3)實(shí)驗(yàn)設(shè)計
根據(jù)實(shí)驗(yàn)?zāi)康牟煌?,本文總共設(shè)計了兩個實(shí)驗(yàn)。
實(shí)驗(yàn)1假定分塊已知,即按照仿真數(shù)據(jù)產(chǎn)生時設(shè)定的分塊對各數(shù)據(jù)集進(jìn)行分塊,然后使用K近鄰(KNN)填補(bǔ)算法和回歸(REGRESS)填補(bǔ)算法分別進(jìn)行填補(bǔ),將結(jié)果與不分塊的情況進(jìn)行比較,以驗(yàn)證在數(shù)據(jù)存在分塊的情況下,本文提出的分塊填補(bǔ)算法是否優(yōu)于不分塊填補(bǔ)算法。
實(shí)驗(yàn)2假定分塊未知,即實(shí)驗(yàn)前只知道數(shù)據(jù)存在分塊,但并不知道具體的分塊情況。首先使用本文提出的分塊算法KMB(算法2)對數(shù)據(jù)進(jìn)行分塊,然后用KNN填補(bǔ)算法和REGRESS填補(bǔ)算法分別進(jìn)行填補(bǔ);最后比較和驗(yàn)證在數(shù)據(jù)存在分塊但分塊未知的情況下,本文提出的分塊填補(bǔ)算法是否優(yōu)于不分塊填補(bǔ)算法,并對KMB算法進(jìn)行評價。
(1)實(shí)驗(yàn)1結(jié)果分析
按10%、20%、30%、40%和50%缺失比例隨機(jī)缺失3個變量個數(shù)不同的數(shù)據(jù)集,然后在分塊和不分塊的情形下,分別采用KNN填補(bǔ)算法和REGRESS填補(bǔ)算法進(jìn)行填補(bǔ)。各算法填補(bǔ)的均方根誤差和平均填補(bǔ)時間分別由表1和表2給出。
表1表明,已知分塊的情況下,在相同的缺失率水平下,同一宿主算法的分塊填補(bǔ)算法的均方根誤差均大于其不分塊填補(bǔ)算法,即分塊填補(bǔ)算法的填補(bǔ)準(zhǔn)確度高于不分塊填補(bǔ)算法,這在3個變量個數(shù)不同的數(shù)據(jù)集中均成立;對于任意的填補(bǔ)算法,填補(bǔ)的準(zhǔn)確度均隨缺失率的上升而下降。以上結(jié)果表明,在數(shù)據(jù)存在分塊的情況下,本文提出的分塊填補(bǔ)算法能夠提高填補(bǔ)準(zhǔn)確度。
表2是各算法對不同數(shù)據(jù)集在不同缺失率情況下進(jìn)行填補(bǔ)的平均時間比較。可以得到,對于相同的數(shù)據(jù)集,各算法的平均填補(bǔ)時間均隨缺失率的上升而上升;對于相同數(shù)據(jù)集和相同缺失率,同一宿主算法分塊填補(bǔ)的平均填補(bǔ)時間小于不分塊填補(bǔ);同一算法在相同缺失率水平下,平均填補(bǔ)時間隨變量個數(shù)的增加而增加。以上表明,本文提出的分塊填補(bǔ)算法能夠有效降低數(shù)據(jù)填補(bǔ)時間。
Table 1 RMSE of different imputation algorithms in different simulation datasets表1 不同模擬數(shù)據(jù)集上各個填補(bǔ)算法的均方根誤差
Table 2 Average imputation time of different imputation algorithms in different simulation datasets表2 不同模擬數(shù)據(jù)集上各個填補(bǔ)算法的平均填補(bǔ)時間
(2)實(shí)驗(yàn)2結(jié)果分析
實(shí)驗(yàn)2采用仿真生成的(n=100,p=100)和(n=100,p=1 000)兩個數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別代表變量個數(shù)較小和變量個數(shù)較大的兩種情況。與實(shí)驗(yàn)1不同的是,實(shí)驗(yàn)前假定并不知道具體分塊情況,而是通過KMB算法(算法2)來自動進(jìn)行分塊,然后使用KNN填補(bǔ)算法和REGRESS填補(bǔ)算法進(jìn)行填補(bǔ)。由于并不知道具體的分塊數(shù),因而無法確定KMB算法中的K值。本文通過設(shè)定一個較大的K值(MAXK),然后從K=1到K=MAXK循環(huán)調(diào)用KMB算法進(jìn)行分塊,同時對每個分塊使用KNN填補(bǔ)算法和REGRESS填補(bǔ)算法進(jìn)行填補(bǔ),然后觀察比較在K的不同取值下,填補(bǔ)結(jié)果的RMSE與K的關(guān)系。
情形1變量較少的情況
在仿真數(shù)據(jù)集(n=100,p=100)下,設(shè)定MAXK=25,相關(guān)結(jié)果如圖1所示。
Fig.1 Results of case 1(n=100,p=100)圖1 情形1(n=100,p=100)的實(shí)驗(yàn)結(jié)果
圖1(a)描述了在不同缺失率下,KNN填補(bǔ)算法的RMSE與K的關(guān)系。由圖1(a)可以看出,隨著K的增加,RMSE先減小,后增加,整個圖形呈“U”型,在K=5左右達(dá)到最小值。從圖1(a)中可以得到以下結(jié)論:
(1)在分塊數(shù)K相同時,RMSE隨缺失率的增加而增加,意味著在分塊未知的情況下,填補(bǔ)準(zhǔn)確度仍隨著缺失率的上升而下降。
(2)關(guān)于“U”型形狀的解釋。當(dāng)K=1時,為不分塊填補(bǔ),填補(bǔ)結(jié)果有較大的均方根誤差,因?yàn)槿笔?shù)據(jù)中含有較多的不相關(guān)信息參與了缺失值的填補(bǔ);隨著K的逐漸增加,同一分塊中的不相關(guān)變量被分割出去,相關(guān)變量的比例上升,即同一分塊的相關(guān)性相對上升,從而使得填補(bǔ)的準(zhǔn)確性上升;當(dāng)K增加到一定程度之后,同一分塊的變量之間已經(jīng)具有較多的相關(guān)變量,同時具有較低的不相關(guān)變量;當(dāng)K進(jìn)一步增加,同一分塊的變量個數(shù)必然下降,致使部分相關(guān)性高的變量被分割出去,即分塊內(nèi)本身存在的強(qiáng)相關(guān)性此時也被破壞,從而導(dǎo)致了填補(bǔ)準(zhǔn)確度下降;當(dāng)K很大時,分塊填補(bǔ)的準(zhǔn)確度甚至?xí)^不分塊填補(bǔ)的準(zhǔn)確度,因?yàn)榇藭r產(chǎn)生了大量相關(guān)性弱的分塊。
(3)分塊未知的情況下,以及在K較小的情況下,KMB算法能夠找到合適的分塊來提高填補(bǔ)準(zhǔn)確度,說明KMB算法能夠很好地對分塊未知的數(shù)據(jù)進(jìn)行分塊。
圖1(b)描述了在不同缺失率下,KNN算法平均填補(bǔ)時間隨K的變動情況??梢钥闯?,隨K的增加,各缺失率下,平均填補(bǔ)時間呈下降趨勢,當(dāng)K增加到一定程度時,平均填補(bǔ)時間保持平穩(wěn)。這是因?yàn)榇藭r每個分塊都很小,不再是影響填補(bǔ)時間的主要因素。同時,對于相同的K,平均填補(bǔ)時間隨著缺失率的上升而上升。
圖1(c)和(d)分別是REGRESS填補(bǔ)算法在數(shù)據(jù)集1上填補(bǔ)的均方根誤差和平均填補(bǔ)時間隨分塊數(shù)K的變動情況。與KNN算法相比,有類似的結(jié)論,這里不再贅述。
情形2變量較多的情況
在仿真數(shù)據(jù)集(n=100,p=1 000)下,設(shè)定MAXK=100,相關(guān)結(jié)果如圖2所示。
從圖2(a)中可以看出,基于KNN的分塊填補(bǔ)算法在變量個數(shù)較多的情況下RMSE與K仍具有明 顯的“U”型特征,填補(bǔ)的均方根誤差隨缺失率上升而上升。
從圖2(b)中可以看出,填補(bǔ)時間隨K的增加而減少,隨缺失率的上升而上升。說明KNN填補(bǔ)算法對不同的樣本量具有良好的穩(wěn)定性。
Fig.2 Results of case 2(n=100,p=1 000)圖2 情形2(n=100,p=1 000)的實(shí)驗(yàn)結(jié)果
從圖2(c)中可以看出,在變量很多的情況下,REGRESS算法的均方根誤差與分塊數(shù)的“U”型特征不是十分明顯,均方根誤差先隨著分塊數(shù)的增加逐步下降,然后逐步保持在較低的水平,當(dāng)K=40左右才有微弱的上升趨勢。主要是因?yàn)镵值還不夠大,總的變量個數(shù)又很多,所以各個分塊還有足夠的相關(guān)變量用于缺失數(shù)據(jù)的填補(bǔ)。
從圖2(d)中可以看出,平均填補(bǔ)時間隨K的增加仍然有逐步減少,然后保持在較低水平的規(guī)律。
綜上,仿真實(shí)驗(yàn)的結(jié)果表明了對于相關(guān)性數(shù)據(jù),在已知分塊的情況下,分塊填補(bǔ)的準(zhǔn)確度高于不分塊填補(bǔ),同時可以降低填補(bǔ)時間;在分塊未知的情況下,也可以通過KMB算法(算法2)找到分塊,從而提高數(shù)據(jù)填補(bǔ)的準(zhǔn)確度。仿真實(shí)驗(yàn)還揭示了分塊填補(bǔ)的準(zhǔn)確度隨分塊個數(shù)的增加,先增加后降低的規(guī)律;當(dāng)分塊數(shù)足夠大時,會因?yàn)椴徽_的分塊導(dǎo)致分塊填補(bǔ)的準(zhǔn)確度低于不分塊填補(bǔ)的情況出現(xiàn)。
為了評價分塊填補(bǔ)算法在電力、醫(yī)療等真實(shí)數(shù)據(jù)上的填補(bǔ)效果,本文將分塊填補(bǔ)算法應(yīng)用到白血病的基因表達(dá)數(shù)據(jù)集leukemia上。該數(shù)據(jù)集來源于麻省理工學(xué)院和哈佛大學(xué)的生物醫(yī)學(xué)和基因組研究中心Broad Institute,含有461個變量,1 394個樣本。因?yàn)閿?shù)據(jù)分塊未知,先用KMB算法(算法2)進(jìn)行分塊,然后采用KNN填補(bǔ)算法進(jìn)行填補(bǔ),實(shí)驗(yàn)結(jié)果如圖3和圖4所示。
Fig.3 Relationship betweenRMSEandK圖3 均方根誤差與分塊數(shù)K的關(guān)系
Fig.4 Relationship between average imputation time andK圖4 平均填補(bǔ)時間與分塊數(shù)K的關(guān)系
從圖3中可以看出,采用不分塊的方式進(jìn)行填補(bǔ)(K=1)有較高的均方根誤差,隨著分塊數(shù)的增加,均方根誤差逐步減小,在K=10左右達(dá)到最低,然后波動上升,整個圖形呈“U”型。同時,在分塊數(shù)K相同時,RMSE隨著缺失率的提高而上升,即填補(bǔ)準(zhǔn)確度隨缺失率上升而下降。綜上可知,使用分塊填補(bǔ)算法在真實(shí)數(shù)據(jù)集中也能夠提高填補(bǔ)準(zhǔn)確度。
由圖4可知,相同缺失率下,平均填補(bǔ)時間隨著分塊數(shù)的增加而減少;相同分塊數(shù)下,平均填補(bǔ)時間隨缺失率上升而下降。
綜上可知,真實(shí)數(shù)據(jù)中的結(jié)果與仿真實(shí)驗(yàn)得到的結(jié)論一致,進(jìn)一步說明了分塊填補(bǔ)算法能夠提高填補(bǔ)準(zhǔn)確度和降低填補(bǔ)時間。
本文針對高維相關(guān)性數(shù)據(jù)提出了基于變量分塊的分塊填補(bǔ)算法,有助于解決現(xiàn)實(shí)中電力、醫(yī)療等行業(yè)的大數(shù)據(jù)缺失填補(bǔ)問題。在分塊已知的情況下,仿真實(shí)驗(yàn)表明分塊填補(bǔ)能夠提高數(shù)據(jù)填補(bǔ)的準(zhǔn)確度和降低數(shù)據(jù)填補(bǔ)的計算時間。在分塊未知的情況下,本文首先利用改進(jìn)的k-means算法進(jìn)行分塊,然后再分別對各分塊進(jìn)行填補(bǔ)。仿真實(shí)驗(yàn)和真實(shí)數(shù)據(jù)分析結(jié)果表明,分塊未知情況下分塊填補(bǔ)同樣可以提高填補(bǔ)準(zhǔn)確度和降低數(shù)據(jù)填補(bǔ)的計算時間。同時實(shí)驗(yàn)表明,填補(bǔ)準(zhǔn)確度隨分塊數(shù)的增加有先增加再減少的規(guī)律,即不同的分塊數(shù)對填補(bǔ)準(zhǔn)確度的提高程度不同。如何確定最優(yōu)的分塊數(shù)使得能夠最大程度地提高分塊填補(bǔ)算法的填補(bǔ)準(zhǔn)確度是進(jìn)一步研究的方向。
[1]Nakagawa S,Freckleton R P.Missing inaction:the dangers of ignoring missing data[J].Trends in Ecology and Evolution,2008,23(11):592-596.
[2]Rubin D B.Multiple imputation in sample surveys—a phenomenological Byesian approach to nonresponse[M]//Survey Research Methodology Section.Washington:American StatisticalAssociation,1978:20-34.
[3]Bello A L.Imputation techniques in regression analysis:looking closely at their implementation[J].Computational Statistics and DataAnalysis,1995,20(1):45-57.
[4]Shen J J,Chang C C,Li Y C.Combined association rules for dealing with missing values[J].Journal of Information Science,2007,33(4):468-480.
[5]Vateekul P,Sarinnapakorn K.Tree-based approach to missing data imputation[C]//Proceedings of the 2009 International Conference on Data Mining Workshops,Miami,USA,Dec 6,2009.Washington:IEEE Computer Society,2009:70-75.
[6]Zhang Sunli,Yang Huizhong.Missing data completion based on an improvedK-neighbor algorithm[J].Computers and Applied Chemistry,2015,32(12):1499-1502.
[7]Zou Wei,Wang Huijin.EM algorithm to implement missing values based on naive Bayesian[J].Microcomputer&Its Applications,2011,30(16):75-77.
[8]Wu Sen,Feng Xiaodong,Shan Zhiguang.Missing data imputation approach based on incomplete data clustering[J].Chinese Journal of Computers,2012,35(8):1726-1738.
[9]Wang Fengmei,Hu Lixia.A missing data imputation method based on neighbor rules[J].Computer Engineering,2012,38(21):53-55.
[10]Fang Kuangnan,Xie Bangchang.Research on dealing with missing data based on clustering and association rule[J].Statistical Research,2011,28(2):87-92.
[11]Zhang Chi,Feng Hongcai,Jin Kai,et al.Nearest neighbor filling algorithm for missing data based on cluster analysis[J].ComputerApplications and Software,2014,31(5):282-284.
[12]Chen Zhaoqiang,Li Jiajun,Jiang Chuan,et al.A contextaware entity ranking method for Web-based data imputation[J].Chinese Journal of Computers,2015,38(9):1755-1766.
[13]Jin Lian,Wang Hongzhi,Huang Shenbing,et al.Missing value imputation in big data based on Map-Reduce[J].Journal of Computer Research and Development,2013,50(S1):312-321.
[14]Leng Yonglin,Chen Zhikui,Zhang Qingchen,et al.Distributed clustering and filling algorithm of incomplete big data[J].Computer Engineering,2015,41(5):19-25.
[15]Zhao Fei,Liu Qizhi,Zhang Yan,et al.Fill absent values in massive domain data stream[J].Journal of Nanjing University:Natural Sciences,2011,47(1):32-39.
[16]Chen Zhikui,Yang Yingda,Zhang Qingchen,et al.Novel algorithm for filling incomplete data of Internet of things based on attribute reduction[J].Computer Engineering and Design,2013,34(2):418-422.
[17]Liu Chunying.A sequential filling algorithm for missing values based on attribute dependency[J].Computer Applications and Software,2013,30(9):215-218.
[18]Witten D M,Tibshirani R.A framework for feature selection in clustering[J].Journal of theAmerican StatisticalAssociation,2012,105(490):713-726.
[19]Hathaway R J,Bezdek J C.Fuzzy C-means clustering of incomplete data[J].IEEE Transactions on Systems,Man and Cybernetics:Part B Cybernetics,2001,31(5):735-744.
附中文參考文獻(xiàn):
[6]張孫力,楊惠中.基于改進(jìn)的K近鄰缺失數(shù)據(jù)補(bǔ)全[J].計算機(jī)應(yīng)用與化學(xué),2015,32(12):1499-1502.
[7]鄒微,王會進(jìn).基于樸素貝葉斯的EM缺失數(shù)據(jù)填充算法[J].微型機(jī)與應(yīng)用,2011,30(16):75-77.
[8]武森,馮小東,單志廣.基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補(bǔ)方法[J].計算機(jī)學(xué)報,2012,35(8):1726-1738.
[9]王鳳梅,胡麗霞.一種基于近鄰規(guī)則的缺失數(shù)據(jù)填補(bǔ)方法[J].計算機(jī)工程,2012,38(21):53-55.
[10]方匡南,謝邦昌.基于聚類關(guān)聯(lián)規(guī)則的缺失數(shù)據(jù)處理研究[J].統(tǒng)計研究,2011,28(2):87-92.
[11]張赤,豐洪才,金凱,等.基于聚類分析的缺失數(shù)據(jù)最近鄰填補(bǔ)算法[J].計算機(jī)應(yīng)用與軟件,2014,31(5):282-284.
[12]陳肇強(qiáng),李佳俊,蔣川,等.基于上下文感知實(shí)體排序的缺失數(shù)據(jù)修復(fù)方法[J].計算機(jī)學(xué)報,2015,38(9):1755-1766.
[13]金連,王宏志,黃沈冰,等.基于Map-Reduce的大數(shù)據(jù)缺失值填充算法[J].計算機(jī)研究與發(fā)展,2013,50(S1):312-321.
[14]冷泳林,陳志奎,張清辰,等.不完整大數(shù)據(jù)的分布式聚類填充算法[J].計算機(jī)工程,2015,41(5):19-25.
[15]趙飛,劉奇志,張剡,等.一種大域數(shù)據(jù)流中缺失值的填充方法[J].南京大學(xué)學(xué)報:自然科學(xué),2011,47(1):32-39.
[16]陳志奎,楊英達(dá),張清辰,等.基于變量約簡的物聯(lián)網(wǎng)不完全數(shù)據(jù)填充算法[J].計算機(jī)工程與設(shè)計,2013,34(2):418-422.
[17]劉春英.基于變量依賴度的缺失值順序填充算法[J].計算機(jī)應(yīng)用與軟件,2013,30(9):215-218.
Research on Block Imputation Algorithm for High Dimensional Correlation Missing Data*
YANG Jie1+,YANG Hu1,WANG Lubin1,JIN Xin1,GUO Hua2,YU Liangliang3
1.School of Information,Central University of Finance and Economics,Beijing 100081,China
2.Jingzhou Power Supply Company ICT Branch of State Grid Corporation,Jingzhou,Hubei 434000,China
3.Liaoning Power Supply Company ICT Branch of State Grid Corporation,Shenyang 110000,China
A
TP311
+Corresponding author:E-mail:yangjiecufe@163.com
YANG Jie,YANG Hu,WANG Lubin,et al.Research on block imputation algorithm for high dimensional correlation missing data.Journal of Frontiers of Computer Science and Technology,2017,11(10):1557-1569.
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2017/11(10)-1557-13
10.3778/j.issn.1673-9418.1609010
E-mail:fcst@vip.163.com
http://www.ceaj.org
Tel:+86-10-89056056
*The Young Teachers Development Foundation of Central University of Finance and Economics under Grant No.QJJ1510(中央財經(jīng)大學(xué)青年教師發(fā)展基金);the Technology Project of State Grid Corporation of China under Grant No.SGTYHT/14-JS-188(國家電網(wǎng)科技部項(xiàng)目).
Received 2016-09,Accepted 2016-11.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-11-07,http://www.cnki.net/kcms/detail/11.5602.TP.20161107.1703.002.html
YANG Jie was born in 1992.He is an M.S.candidate at Central University of Finance and Economics.His research interest is data analysis.
楊杰(1992—),男,四川廣元人,中央財經(jīng)大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)分析。
YANG Hu was born in 1983.He received the Ph.D.degree in statistics from Renmin University of China in 2014.Now he is a lecturer at Central University of Finance and Economics,and the member of CCF.His research interests include E-business,data analysis and computational statistics,etc.
楊虎(1983—),男,貴州貴陽人,2014年于中國人民大學(xué)統(tǒng)計學(xué)專業(yè)獲得博士學(xué)位,現(xiàn)為中央財經(jīng)大學(xué)信息學(xué)院講師,CCF會員,主要研究領(lǐng)域?yàn)殡娮由虅?wù),數(shù)據(jù)分析與統(tǒng)計計算等。主持中央財經(jīng)大學(xué)青年發(fā)展基金等項(xiàng)目。
WANG Lubin was born in 1960.He is a professor at Central University of Finance and Economics.His research interests include information management and financial informatization,etc.
王魯濱(1960—),男,黑龍江哈爾濱人,中央財經(jīng)大學(xué)繼續(xù)教育學(xué)院院長、教授,主要研究領(lǐng)域?yàn)樾畔⒐芾恚鹑谛畔⒒?。主持國家自然科學(xué)基金等項(xiàng)目。
JIN Xin was born in 1974.He received the Ph.D.degree in control theory and engineering from Donghua University in 2004.Now he is a professor at Central University of Finance and Economics,and the member of CCF.His research interests include big data analysis and business intelligence,etc.
金鑫(1974—),男,內(nèi)蒙古烏海人,2004年于東華大學(xué)控制工程專業(yè)獲得博士學(xué)位,現(xiàn)為中央財經(jīng)大學(xué)信息學(xué)院教授,CCF會員,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)分析,商務(wù)智能等。
GUO Hua was born in 1972.He is an engineer at Jingzhou Power Supply Company ICT Branch of State Grid Corporation.His research interest is information system and management.
郭華(1972—),男,湖北荊州人,荊州供電公司信通分公司工程師,主要研究領(lǐng)域?yàn)樾畔⑾到y(tǒng)運(yùn)維及安全管理。
YU Liangliang was born in 1986.He is an engineer at Liaoning Power Supply Company ICT Branch of State Grid Corporation.His research interest is power system communication.
于亮亮(1986—),男,內(nèi)蒙赤峰人,華北電力大學(xué)通信與信息系統(tǒng)專業(yè)碩士,國網(wǎng)遼寧省電力有限公司信息通信分公司工程師,主要研究領(lǐng)域?yàn)殡娏ο到y(tǒng)通信。