葉小青,汪政紅,吳 浩
(中南民族大學 數(shù)學與統(tǒng)計學學院,武漢 430074)
隨著通訊和信息技術的高速發(fā)展,全球數(shù)據(jù)爆炸性地增長.面對鋪天蓋地的海量大數(shù)據(jù),有效的數(shù)據(jù)分析與挖掘將推動國家、企業(yè)乃至整個社會的高效、可持續(xù)發(fā)展.值得強調的是,在大數(shù)據(jù)分析與挖掘任務中,統(tǒng)計分析的研究受到更為廣泛的關注和重視.而大部分傳統(tǒng)統(tǒng)計方法對大數(shù)據(jù)的研究存在局限性:一是傳統(tǒng)統(tǒng)計方法適合分析單個計算機存儲的數(shù)據(jù),無疑導致了數(shù)據(jù)處理和整合的困難;二是傳統(tǒng)統(tǒng)計方法難以適應大數(shù)據(jù)源的高速性和實時性等特點.因此,為了適應大數(shù)據(jù)這一新的研究對象,傳統(tǒng)統(tǒng)計學必須進行改進,以更好地服務于人類.目前國內外將大數(shù)據(jù)和傳統(tǒng)統(tǒng)計學相結合的研究文獻并不多,使得大數(shù)據(jù)背景下統(tǒng)計分析的研究成為學術界關注的熱點難點問題,其代表性文獻集中于三大方面:分治算法、抽樣法和在線更新算法.
第一,分治算法是將初始大數(shù)據(jù)集分成適合當前計算管理能力的K個子集,先對每個子集做統(tǒng)計分析,然后綜合K個子集的分析結果.分治算法通過對子集的平行計算可以縮減計算成本,但是,如何總結K個子集的估計結果,才能使最終的估計結果更有效?為了得到最終有效的估計量,部分研究者提出了不同的估計方法,如Li等對大數(shù)據(jù)集的單參數(shù)回歸模型提出了二階段法,其研究結果表明二階段法可以顯著地降低計算成本,且估計量具有漸進正態(tài)性[1].Lin和Xi對非線性回歸方程的參數(shù)估計提出了有效的聚合估計(AEE,Aggregated Estimating Equation),研究結果顯示AEE估計量具有一致性,而且能顯著地縮減計算成本[2].在應用方面,AEE估計方法適合于大型數(shù)據(jù)立方和數(shù)據(jù)流.Xu等對廣義回歸方程提出了非參數(shù)分布核估計方法(DKR,Distributed Kernel Regression),其研究結論為:在適當劃分子樣本集的條件下,DKR估計方法具有一致性[3].Chen和Xie(2014)運用懲罰似然函數(shù)估計各子集的廣義線性回歸方程,并利用多數(shù)表決法得到大數(shù)據(jù)集的最終估計量,研究結果表明估計量具有符號一致性[4].
第二,抽樣法的基本思想是從初始大數(shù)據(jù)中隨機提取子樣本代替原始數(shù)據(jù)對模型進行估計、預測以及統(tǒng)計推斷.抽樣法的難點在于設計子樣本的概率分布.最簡單的概率分布是均勻分布,大量研究文獻表明運用統(tǒng)計杠桿值作為子樣本的概率分布優(yōu)于均勻分布(Mahoney等[5],Drineas等[6]).Ma和Sun也認為利用杠桿值作為子樣本的概率分布能準確有效地提取大規(guī)模樣本信息,并且從統(tǒng)計角度研究了基于杠桿值抽樣算法估計量的性質[7].
第三,隨著科學技術的不斷普及,大數(shù)據(jù)的規(guī)模和程度不斷地增大,具有實時更新特性.例如在銀行的存款中,每天都有成千上萬的客戶利用自動取款機或人工服務進行交易,每一位客戶對自己的銀行賬號進行操作,對于銀行的整個數(shù)據(jù)系統(tǒng)來說是極小的一部分,面對這樣實時在線更新的大數(shù)據(jù),如何獲得計算效率高、成本低的算法呢?Schifano等擴展了Lin和Xi的理論方法,研究了廣義非線性模型的回歸系數(shù)和標準誤的在線更新估計量,其研究結果顯示在線更新估計量具有一致性,而且有限樣本仿真模擬表明在線更新估計量具有較小的偏誤[8].Wang等基于Schifano研究結論首次提出了標準變量選擇的在線更新模型,并根據(jù)AIC、BIC和DIC信息準則來選擇最優(yōu)變量[9].
從以上大數(shù)據(jù)統(tǒng)計分析的研究進展來看,盡管研究成果尚不豐富,仍處于起步階段,但對現(xiàn)有成果的梳理與總結,可以為關注大數(shù)據(jù)統(tǒng)計分析的研究者、教學者提供借鑒.
分治算法是將初始大數(shù)據(jù)集分成適合當前計算機管理能力的K個子集,先對每個子集做統(tǒng)計分析,然后綜合K個子集的分析結果.下面詳細介紹幾種有效的分治算法.
Li等提出了二階段法,其基本思想:第一階段將整個數(shù)據(jù)集劃分為若干子樣本,使得每個子樣本都適合目前的計算機管理能力,估計每個子樣本參數(shù);第二階段對每個子樣本估計結果取平均值.
假設x1,x2,…,xn是獨立同分布樣本,此處xi可以是隨機變量或隨機向量.為了清晰表達二階段估計算法,將樣本表示如下:
Xu等提出了非參數(shù)分布核回歸(DKR)方法來估計參數(shù)方程,該方法不僅具有普適性,而且不依賴于任何真實模型的參數(shù)假設.
設Y∈[-M,M]?R是因變量,其界限M>0,X是解釋變量且X∈κ?Rd,κ為d維空間一緊集.總體Z=[-M,M]×κ分布未知,且設S={zi=(yi,xi),i=1,2,…,N}是來自Z的N個獨立樣本觀測值.記f:κ→R為X與Y之間的潛在函數(shù)關系.在大數(shù)據(jù)背景下,如何估計函數(shù)關系f,非參數(shù)分布核回歸算法具體如下:
1) 假設S平均隨機分成m份,每份樣本容量為n=N/m,m個子樣本標識分別為S1,S2,…,Sm;
2) 記TM[·]為閾值M的截取算子,基于子樣本Sj,得fj估計值為:
Chen和Xie為廣義線性模型的參數(shù)估計提出了一種分治算法,其估計思想為基于子樣本的似然函數(shù),加入懲罰項,稱為廣義似然函數(shù),并最大化廣義似然函數(shù)估計子樣本參數(shù),最后運用多數(shù)表決法得出大樣本數(shù)據(jù)的綜合估計量,通過仿真和數(shù)據(jù)實例表明該方法能極大地縮減計算時間和計算存儲空間.
假設在給定X=(x1,…,xn)T的情況下,y=(y1,…,yn)T條件分布為典型指數(shù)分布,那么似然函數(shù)為:
其中,b(θ)=[b(θ1),b(θ2),…,b(θn)]T且θ=(θ1,θ2,…,θn)T,函數(shù)b(·)二階可導.
相應地,第k個子塊的懲罰估計量為:
抽樣法基本思想是從初始數(shù)據(jù)中提取伴隨一定概率分布的子樣本代替原始大數(shù)據(jù)對模型進行估計、預測以及統(tǒng)計推斷.抽樣法的難點在于對各子樣本概率分布的設計.下面以經(jīng)典線性回歸模型為例,闡述幾種典型的抽樣法.
假設y=Xβ+ε,y是n×1向量,X是n×p維矩陣,包含截距項和p-1個解釋變量,β是p×1系數(shù)向量,ε為服從多元正態(tài)分布的殘差項,系數(shù)向量β的OLS估計量為:
(1)
(2)
杠桿值抽樣法(Basic Leverage Sampling Method(BLSM))基本思想是選取對回歸線具有影響的樣本點.最初是Weisberg提出杠桿值的概念[11].杠桿值越大,其影響越大.
Meng等研究發(fā)現(xiàn)當不同維度的數(shù)據(jù)集具有不同的分布時,BLSM方法將不利于獲得高倍影響點.為了克服這個缺點,下面提出縮減杠桿值法.
縮減杠桿值法(Shrinkage Leveraging Method (SLM))綜合了均勻分布概率法和基本杠桿值得分法,其表達式為這兩者的線性組合:
(3)
其中,
由此可以得到:
利用這個近似關系,式(3)左右兩邊取方差,得到方差的累積更新估計量為:
(4)
其中,
(5)
(6)
大數(shù)據(jù)表現(xiàn)出的高維性、海量性和實時性等特征,為大數(shù)據(jù)統(tǒng)計分析提出了嚴峻的挑戰(zhàn).圍繞這些挑戰(zhàn),分治算法、抽樣法和在線更新算法已經(jīng)取得重要進展,但鑒于大數(shù)據(jù)的復雜特征,仍有諸多亟待探索與解決的難題.
(1)模型精確性和計算效率的權衡.在大數(shù)據(jù)分析中,為了得到更精確的結果,通常不僅需要更復雜的模型,而且需要更多的計算資源,往往造成計算極其復雜,計算成本偏高,計算效率偏低.那么如何在計算精準性和計算效率之間權衡是我們面臨的一大問題.這就需要為簡單模型設計有效的算法,也即在大數(shù)據(jù)背景下,使得簡單模型具有更加良好的表現(xiàn).例如,Google公司翻譯和語音識別系統(tǒng),由于大數(shù)據(jù)的可獲性,顯著提高了傳統(tǒng)經(jīng)典模型優(yōu)良精準的特征.這個例子說明傳統(tǒng)簡單模型在大數(shù)據(jù)背景下可能具有更精確的表現(xiàn).那么,如何獲得得益于大數(shù)據(jù)的簡單準確模型將是一個巨大的挑戰(zhàn);
(2)排序問題.從海量大數(shù)據(jù)中篩選出最有價值的信息極其重要.此類統(tǒng)計排序問題目的是將最重要或關聯(lián)最強的信息排在最前面.一般來說,最重要的信息排列在前,那么該排序算法最好.研究者面臨如何設計統(tǒng)計意義上合理的量度,來衡量排序的質量,以及后續(xù)的對統(tǒng)計推斷的研究(Duchi等[13]);
(3)尾部特征分析.在傳統(tǒng)經(jīng)濟學中,概率0.05會被認為是可以忽略的稀有事件.然而,在大數(shù)據(jù)背景下,這些所謂的稀有事件可能頻繁發(fā)生,將引起特別的關注.這就意味著尾部行為特征分析也將成為大數(shù)據(jù)問題的巨大挑戰(zhàn)之一;
(4)大規(guī)模優(yōu)化問題.眾所周知,在建模中,優(yōu)化起著至關重要的作用.例如最大似然估計法就是解決優(yōu)化問題的常規(guī)方法.在大數(shù)據(jù)應用中,一個重要的方向便是在線優(yōu)化算法.對處理實時更新的大數(shù)據(jù)流,在線優(yōu)化算法應具備兩個基本特征:1)在線優(yōu)化算法不僅能減小樣本數(shù)據(jù)的存儲量,而且能存儲和實時更新模型的估計參數(shù);2)在線優(yōu)化算法同時兼顧模型擬合和模型選擇.比如,當新數(shù)據(jù)流來臨時,模型擬合和模型選擇能同時更新嗎?模型選擇參數(shù)能同時發(fā)生調整嗎?這些是在線優(yōu)化算法需要考慮的研究課題;
(5)因果推斷模型.在大數(shù)據(jù)背景下,因果推斷問題將面臨極大的機遇與挑戰(zhàn).主要應用方面有:氣候變化問題、醫(yī)療健康療效比較研究以及行為經(jīng)濟學等問題.例如,給定100萬人的電子健康記錄,我們哪些藥品在哪些方面有療效?目前這些因果推斷方面的研究在大數(shù)據(jù)背景下少有關注.
綜合來看,盡管大數(shù)據(jù)統(tǒng)計分析的研究成果尚處于起步階段,目前僅僅進行了一些初步探索.但是,圍繞海量性、高速性及在線更新實時性等特征的研究文獻已經(jīng)為大數(shù)據(jù)統(tǒng)計分析提供了一個基本的研究框架,為更多有價值研究的不斷涌現(xiàn)奠定了重要基礎.
本文在對現(xiàn)有大數(shù)據(jù)統(tǒng)計分析研究文獻進行歸納和總結的基礎上,具體從分治算法、抽樣算法和在線更新算法三方面闡述分析,希望能夠為關注大數(shù)據(jù)統(tǒng)計分析理論與應用的研究者與實踐者提供參考.可以預見,在未來的大數(shù)據(jù)研究中,具有快捷、清晰、高效探測事物內在關系和規(guī)律的大數(shù)據(jù)統(tǒng)計分析領域將涌現(xiàn)出大量的重要研究成果.