方佳佳,李 陽,鄭澤敏
(中國科學(xué)技術(shù)大學(xué) 管理學(xué)院統(tǒng)計與金融系,合肥 230026)
隨著科學(xué)技術(shù)的進步,不同領(lǐng)域的數(shù)據(jù)都呈現(xiàn)出網(wǎng)絡(luò)連接的趨勢,許多科學(xué)領(lǐng)域都涉及某種形式的網(wǎng)絡(luò)研究,例如人際關(guān)系研究、學(xué)術(shù)論文合著和引用、蛋白質(zhì)相互作用模式等.20年前,關(guān)于網(wǎng)絡(luò)的流行書籍及其研究開始出現(xiàn)[1],而像Facebook、MySpace和LinkedIn 這樣的在線網(wǎng)絡(luò)社區(qū)在近10年間也是蓬勃興起,這更加增強了人們對網(wǎng)絡(luò)數(shù)據(jù)的研究興趣.網(wǎng)絡(luò)連接數(shù)據(jù)由節(jié)點和邊組成,社交網(wǎng)絡(luò)是此類網(wǎng)絡(luò)模型的一個典型代表.社交網(wǎng)絡(luò)中,每個節(jié)點代表一個人,邊代表人與人之間的溝通交流,此外,還有商業(yè)網(wǎng)絡(luò)、基因網(wǎng)絡(luò)等.
目前關(guān)于網(wǎng)絡(luò)連接數(shù)據(jù)的研究主要分為兩個方面.一方面是關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)的研究.另一方面主要是將網(wǎng)絡(luò)連接數(shù)據(jù)中的結(jié)構(gòu)信息與統(tǒng)計學(xué)習(xí)中常用的經(jīng)典模型結(jié)合起來研究.
在網(wǎng)絡(luò)結(jié)構(gòu)方面,最早被應(yīng)用于社區(qū)檢測.社區(qū)檢測興起于物理學(xué)和計算機科學(xué)領(lǐng)域,而后開始應(yīng)用于統(tǒng)計領(lǐng)域.其中一類社區(qū)檢測算法是通過在節(jié)點的所有可能分區(qū)上優(yōu)化啟發(fā)式全局準則來檢測社區(qū)[2,3].基于概率模型的方法[4,5]是另一類社區(qū)檢測算法.一些學(xué)者從觀察到的鄰接矩陣中檢測社區(qū)或潛在結(jié)構(gòu)[6–8],從其他節(jié)點之間的信息估計特定節(jié)點之間的邊緣概率[9].社交網(wǎng)絡(luò)是此類網(wǎng)絡(luò)模型的代表,因此針對社交網(wǎng)絡(luò)的研究也受到了大量的關(guān)注[10,11].
在與經(jīng)典模型結(jié)合方面,一般是與常用的模型相結(jié)合.例如,時間序列模型[12],線性模型[13],變系數(shù)模型[14],隨機效應(yīng)模型[15],變化點檢測問題[16],自回歸模型[17,18]等.
線性回歸模型是統(tǒng)計學(xué)習(xí)中的經(jīng)典模型之一,應(yīng)用十分廣泛,關(guān)于網(wǎng)絡(luò)數(shù)據(jù)的回歸模型也開始引起學(xué)者的關(guān)注.例如,Asur 等[19]將網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用于預(yù)測模型,通過研究網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測現(xiàn)實生活中某一現(xiàn)象的結(jié)果.Li 等[13]將網(wǎng)絡(luò)連接數(shù)據(jù)應(yīng)用于回歸預(yù)測模型,Zhu 等[17]和Tang 等[18]將網(wǎng)絡(luò)連接數(shù)據(jù)與自回歸模型相結(jié)合,都表明網(wǎng)絡(luò)連接數(shù)據(jù)在回歸模型中的研究價值.隨著科技的發(fā)展,數(shù)據(jù)的采集變得更加容易,高維數(shù)據(jù)也越來越受到研究學(xué)者的關(guān)注,但是高維數(shù)據(jù)中存在大量的冗余信息,如何選出有研究價值的數(shù)據(jù)?變量選擇領(lǐng)域應(yīng)運而生.故將網(wǎng)絡(luò)連接數(shù)據(jù)應(yīng)用到變量選擇領(lǐng)域是一個值得研究的課題.
對于線性回歸模型,超高的維度使得傳統(tǒng)的普通最小二乘法不再適用.正則化是稀疏建模和變量選擇的有效方法,通過在目標函數(shù)上添加懲罰函數(shù)來降低模型的復(fù)雜度.根據(jù)懲罰函數(shù)的不同,正則化方法一般可以分為凸正則化和非凸正則化.
凸正則化方法主要包括嶺回歸、LASSO、彈性網(wǎng)以及Dantzig Selector 等.雖然凸正則化的研究已經(jīng)很成熟,但由于懲罰函數(shù)的凸性,使得凸正則化估計量都是有偏的.Zhang 提出了一個非凸正則化方法—SCAD(smoothly clipped absolute deviation)[20],并證明了其Oracle 性質(zhì).非凸懲罰函數(shù)回歸的漸進無偏估計,能進一步降低模型的預(yù)測總誤差.此后,非凸懲罰受到了廣泛的關(guān)注,例如MCP (minimax concave penalty)[21]、限制Capped-L1[22]、Hard 閾值懲罰[23]等.
關(guān)于網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問題近年來也有學(xué)者做過相關(guān)研究[24,25].例如Li 等[24]和Kim 等[25]考慮樣本系數(shù)之間的網(wǎng)絡(luò)凝聚效應(yīng),即網(wǎng)絡(luò)中連接節(jié)點表現(xiàn)出相似的行為,對系數(shù)同時施加了L1懲罰和凝聚效應(yīng)懲罰 βTLβ,從而能夠解決網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問題,但他們針對的是同質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù),即假設(shè)每個樣本的個體效應(yīng)值 α 相同,并沒有考慮到異質(zhì)性,異質(zhì)性是指不同樣本的個體效應(yīng) α 不同.在現(xiàn)實生活中,因為網(wǎng)絡(luò)凝聚效應(yīng)的存在而使得網(wǎng)絡(luò)中的樣本存在群組效應(yīng),聯(lián)系密切的樣本組成一個群組,他們之間的行為會相互影響而慢慢趨同.針對線性回歸模型,這種群組效應(yīng)的一個直觀體現(xiàn)就是群組內(nèi)樣本的個體效應(yīng)α相同,不同群組間個體效應(yīng) α 不同.若忽略群組間個體效應(yīng)的差異性,將所有樣本的個體效應(yīng)視為相同,在進行變量選擇和預(yù)測估計時都會產(chǎn)生較大偏差,影響模型精度.故考慮異質(zhì)性,能夠提高模型精度.因此,針對異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的研究具有重要的價值和實際意義.Li 等[13]考慮到個體效應(yīng)之間的異質(zhì)性,并懲罰相連樣本個體效應(yīng)的差異性,提高了回歸模型中估計和預(yù)測的精度,但他主要關(guān)注的是預(yù)測問題,沒有涉及到變量選擇.
本文的目標是對因網(wǎng)絡(luò)凝聚效應(yīng)而產(chǎn)生個體效應(yīng)的組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)進行變量選擇,我們對組內(nèi)樣本間個體效應(yīng)的差異性Lα和變量系數(shù) β 進行聯(lián)合懲罰,從而保證組內(nèi)樣本的個體效應(yīng)具有相同的估計值.本文提出的方法不僅能夠處理含有組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問題,而且能夠改善變量選擇、估計和預(yù)測的結(jié)果.在本文中,我們主要使用L1、MCP和SCAD 罰函數(shù),并且運用ADMM 算法進行求解,同時證明了算法的收斂性.
本文中所有的向量都是列向量.考慮一般的線性回歸模型,Y=(y1,y2,···,yn)T是n維響應(yīng)變量,X=(x1,x2,···,xn)T是n×p設(shè)計矩陣.假設(shè)X是固定的且其列已經(jīng)標準化.樣本X的結(jié)構(gòu)網(wǎng)絡(luò)為G=(V,E),其中V={1,2,···,n}為樣本節(jié)點集合,E?V×V為邊的集合.我們用鄰接矩陣A=(Auv)n×n∈Rn×n表示該網(wǎng)絡(luò)以及樣本節(jié)點和節(jié)點之間的連接關(guān)系,若 (u,v)∈E,則Auv=1,否則為0.Auu=0,Auv=Avu.網(wǎng)絡(luò)G的拉普拉斯矩陣L=D-A,D=diag(d1,d2,···,dn)為度矩陣,D的對角線元素為每個節(jié)點的度du=建立如下線性回歸模型:
其中,α=(α1,α2,···,αn)T是節(jié)點個體效應(yīng)向量.假設(shè)相連樣本的個體效應(yīng)相等,不相連樣本的個體效應(yīng)不等,即樣本之間存在組異質(zhì)性.β=(β1,β2,···,βp)T是模型的回歸系數(shù)向量.ε=(ε1,ε2,···,εn)T是n維誤差向量,E(ε)=0,var(ε)=σ2In.
Li 等[13]提出了網(wǎng)絡(luò)連接數(shù)據(jù)的預(yù)測方法(the regression with network cohesion,RNC),其主要思想是最小化如下?lián)p失函數(shù):
其中,μ>0是調(diào)整參數(shù).RNC 主要是懲罰網(wǎng)絡(luò)中相連節(jié)點個體效應(yīng)的差異性,該懲罰可以推導(dǎo)出一個等價的、更直觀的形式 αTLα=
RNC中假設(shè)各樣本的個體效應(yīng)不相等,懲罰項μαTLα用來懲罰相連樣本個體效應(yīng)的差異性,從而能夠處理異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的回歸預(yù)測問題.但是由于連接網(wǎng)絡(luò)中的個體常常存在群組效應(yīng),同一個群組中行為特征存在統(tǒng)一準則而基本相同.因此,在本文中我們假設(shè)樣本之間存在組異質(zhì)性,即組內(nèi)樣本(相連樣本)的個體效應(yīng)相等,組間樣本(不相連樣本)的個體效應(yīng)不相等.通過對Lα 施加懲罰,懲罰組內(nèi)樣本個體效應(yīng)的差異性并壓縮至0,Lα中的元素是(αu-αv)(u,v)∈E或其等價形式.為了產(chǎn)生 β的一個稀疏估計,我們將同時懲罰 β和Lα,這就是我們提出的方法—網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇(variable selection with network cohesion,SNC).
令 θ=(βT,αT)T,H=則Hθ=SNC的目標函數(shù)為:
在本文中,對Hθ的懲罰主要使用L1和非凸懲罰,非凸懲罰包括MCP和SCAD 罰函數(shù).MCP 罰函數(shù)為罰函數(shù)為pS(t,λ)
將SNC 方法的估計結(jié)果與沒有對節(jié)點個體效應(yīng)的差異進行懲罰的情況下進行對比,能夠提高估計和預(yù)測的精度.
直接最小化目標函數(shù)(3)很難求解出估計量的值,因為懲罰函數(shù)對于每個 αi是不可分的.因此,我們通過引入一組新的參數(shù) γ=Hθ 來重新參數(shù)化準則.最小化式(3)等價于最小化如下約束優(yōu)化問題:
基于文獻[26]中的思路,利用增廣拉格朗日方法,通過最小化如下?lián)p失函數(shù)得到參數(shù)的估計:
其中,對偶變量 φ是拉格朗日乘數(shù),ρ >0是懲罰因子.我們通過交替方向乘子法(alternating direction multiplier method,ADMM)來迭代求解 (θ,γ,φ)的估計.對于給定的(θ,γ,φ),L(θ,γ,φ) 關(guān)于 γ的最小值是唯一的,并且在L1懲罰或非凸懲罰下有一個近似的形式.當給定 (θ,γ,φ),上述最小化問題等價于:
其中,τ=Hθ+ρ-1φ,故在L1或非凸懲罰下估計量的近似的形式為:
其中,S T(t,λ)=sign(t)(|t|-λ)+是soft 閾值準則,(x)+=x,x>0,否則 (x)+=0.
對于MCP 罰函數(shù) (a>1/ρ),
對于SCAD 罰函數(shù) (a>1/ρ+1),
算法步驟如算法1.
算法1.ADMM 算法輸入:預(yù)測變量,響應(yīng)變量,鄰接矩陣,懲罰因子,停止準則 ;X Y A ρ η^θ,^γ,^φ輸出:;目標:迭代求解獲得和.θ(0),γ(0)=Hθ(0),φ(0)=0,m=0,η=0.03.初始化θ,γ φ While,do m≥0 θ(m+1)=[n-1(X,I)T(X,I)+ρHTH]-1*[n-1(X,I)TY+ρHTγ(m)-HTφ(m)];γ(m+1)=S T(τ(m+1),λ/ρ);φ(m+1)=φ(m)+ρ(Hθ(m+1)-γ(m+1)).r(m+1)=Hθ(m+1)-γ(m+1)||r(m+1)||<η If,then(^θ,^γ,^φ)=(θ(m+1),γ(m+1),φ(m+1));Break;Else m=m+1;End End
對ADMM 算法過程中的原始變量進行追蹤,r(m+1)=Hθ(m+1)-γ(m+1).停止準則為||r(m+1)||<η,其中η>0為一個非常小的常數(shù).
下面考慮ADMM 算法的收斂性.
命題1.對于MCP和SCAD 函數(shù),ADMM 算法的原始殘差r(m)=Hθ(m)-γ(m)和對偶殘差s(m+1)=ρHT(r(m+1)-r(m)) 滿足
命題1 表明該算法實現(xiàn)了原可行性和對偶可行性,證明材料見附錄.因此,它收斂于一個局部最優(yōu)點.當采用非凸懲罰函數(shù),如MCP和SCAD 罰函數(shù)時,此最優(yōu)點是目標函數(shù)的局部最優(yōu)解.綜上,算法收斂性和穩(wěn)定性得到證明.因為θ(m)=((β(m))T,(α(m))T)T是不稀疏的,但我們已證明Hθ(m)=((β(m))T,(Lα(m))T)T是收斂于γ(m),故我們令 γ(m)的前p項作為β的估計值,即可得到β的稀疏解.
在數(shù)值模擬中,主要比較本文提出的SNC 方法和沒有對個體節(jié)點效應(yīng)的差異性進行懲罰的LASSO、MCP、SCAD 方法在變量選擇和預(yù)測方面的效果.網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法就是考慮了樣本之間的連接關(guān)系網(wǎng)絡(luò)的方法,即我們的SNC 方法.無網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法,就是不考慮樣本之間的連接網(wǎng)絡(luò)的懲罰方法.在這里,我們首先定義幾個效果評估指標:
(1)預(yù)測損失(prediction error,PE):E(XTβ0+α0-
(2)Lq損失:
(4)假陽性數(shù)(false positives,FP):真實為反例卻被預(yù)測為正例的個數(shù);
(5)假陰性數(shù)(false negatives,FN):真實為正例卻被預(yù)測為反例的個數(shù);
(6)真陽性數(shù)(true positives,TP):真實為正例預(yù)測也為正例的個數(shù);
(7)真陰性數(shù)(true negatives,TN):真實為反例預(yù)測也為反例的個數(shù);
(8)F1-score:2TP/(2TP+FP+FN).
對于式(1)中的線性回歸模型,我們從該模型中隨機生成100 個數(shù)據(jù)集.訓(xùn)練樣本的大小考慮兩種情況(n,p)=(100,200)和(n,p)=(100,500),設(shè)計矩陣X中的每一行從正態(tài)分布N(0,Σ),Σ=(0.5|i-j|)1≤i,j≤p中隨機抽樣.真實回歸系數(shù)為隨機誤差 ε的標準差.懲罰因子 ρ=1,λ 用交叉驗證來選取,停止條件 η=0.03.
為了生成含有組異質(zhì)性樣本間的鄰接矩陣A,我們用ER 隨機圖模型生成一個包含n=100 個節(jié)點的樣本網(wǎng)絡(luò),樣本網(wǎng)絡(luò)由4 個不相連的部分G1,G2,G3,G4組成,每個部分包含25 個節(jié)點.每個單獨的部分都是一個ER 隨機圖,節(jié)點與節(jié)點之間以pb的概率生成邊,即Aij=1,否則為0,令pb=0.1.4 個部分中相連樣本的個體節(jié)點效應(yīng) αi的值分別為1,-1,0.5,-0.5,獨立樣本的個體節(jié)點效應(yīng)為0.3.
表1展示了兩種方法在預(yù)測評估指標上的結(jié)果對比.與沒有利用相連節(jié)點的網(wǎng)絡(luò)凝聚效應(yīng)對個體效應(yīng)進行懲罰的LASSO、MCP和SCAD 結(jié)果相比,SNCLASSO、SNC-MCP和SNC-SCAD 都明顯改善了估計和預(yù)測誤差.這表明將網(wǎng)絡(luò)凝聚效應(yīng)加入變量選擇模型中,可以改善模型變量選擇、估計和預(yù)測的精度.
表1 不同方法下預(yù)測評估指標結(jié)果
表2展示了兩種方法在100 次模擬實驗下變量選擇評估指標結(jié)果.我們可以看出各項指標下,SNC 方法的變量選擇效果都明顯優(yōu)于沒有利用網(wǎng)絡(luò)凝聚效應(yīng)進行懲罰的方法.另外,SNC-MCP和SNC-SCAD 都要優(yōu)于SNC-LASSO.尤其對于假陽性數(shù)FP,100 次模擬中,SNC-LASSO的FP 平均為15.41 (p=200)和17.21 (p=500),而SNC-MCP 分別為0.05 (p=200)和0.3 (p=500),SNC-SCAD 分別為1.06 (p=200)和0.2 (p=500),MCP和SCAD 變量選擇的準確性比LASSO 顯著提高,主要是由于LASSO的有偏性.
表2 不同方法下變量選擇評估指標結(jié)果
模擬1中的結(jié)果表明網(wǎng)絡(luò)凝聚效應(yīng)懲罰能夠改善變量選擇、估計和預(yù)測效果,網(wǎng)絡(luò)凝聚效應(yīng)主要與鄰接矩陣中個體之間產(chǎn)生聯(lián)系的概率pb有關(guān),接下來我們將研究pb對SNC 方法的變量選擇、估計和預(yù)測效果的影響.模型2中的設(shè)定與模型1 類似,不同的是我們?nèi)b=seq(0,0.02,0.2),R 語言函數(shù)seq(a,b,c)用于生成一組從a到b,間隔為c的序列.
圖1和圖2分別展示了pb對預(yù)測和變量選擇效果的影響.從圖1可以看出,隨著pb的增大,即網(wǎng)絡(luò)的凝聚效應(yīng)增強,SNC 方法能夠明顯降低預(yù)測損失,并在pb=0.08 附近趨于穩(wěn)定.圖2表示pb對F1分數(shù)的影響,F1分數(shù)是查準率和查全率的調(diào)和平均數(shù),當pb=0 即樣本之間沒有連接關(guān)系時,F1分數(shù)值很低.隨著pb的增大,F1分數(shù)值逐漸增大,同樣地,在pb=0.08 附近達到最大值,此時SNC 方法變量選擇的效果較好.
圖1 pb 對預(yù)測損失的影響
圖2 pb 對F1-score的影響
我們研究的真實數(shù)據(jù)案例來自于Teenagers Friends and Lifestyle Study[27].這項研究主要是青少年友誼網(wǎng)對他們自身某些行為的影響.該實際數(shù)據(jù)與本文中的模型設(shè)定保持一致,因青少年時期學(xué)生喜愛團體活動,故凝聚效應(yīng)使得網(wǎng)絡(luò)之間存在組異質(zhì)性.
Teenagers Friends and Lifestyle Study 旨在確定在青少年早期到中期不良習(xí)性的變化過程.實驗記錄了3 個時間點 (T1,T2,T3)的數(shù)據(jù).樣本來自于160 名學(xué)生,通過每個學(xué)生及學(xué)生之間的朋友(最多6 個)關(guān)系來建立友誼網(wǎng)絡(luò).研究給出了3 個時期的友誼網(wǎng)絡(luò),網(wǎng)絡(luò)中“1”表示“best friend”,“2”表示“just a friend”,“0”表示“no friend”,“10”表示缺失值,我們根據(jù)學(xué)生之間的友誼網(wǎng)絡(luò)來獲取鄰接矩陣A.
本文使用的數(shù)據(jù)集X包含160 個樣本,40 個特征變量包括青少年的年齡、性別、生活方式、休閑活動以及家庭成員吸煙等情況,考慮特征之間的交互作用,最終特征變量為250 個.我們的目標是利用友誼網(wǎng)絡(luò)找出影響青少年不良習(xí)性的關(guān)鍵因素,并預(yù)測青少年自身不良行為的活動頻率.我們分別選取alcohol、tobacco和cannabis 作為響應(yīng)變量Y,對于tobacco,元素1 表示從未抽過煙,2 表示偶爾吸煙,3 表示經(jīng)常吸煙,故我們將其取對數(shù)作為響應(yīng)變量Y的值.
時間點T1的友誼網(wǎng)絡(luò)如圖3所示.我們只展示了學(xué)生之間的“best friendship”(包括“just a friend”和“best friend”).根據(jù)友誼網(wǎng)絡(luò)建立鄰接矩陣A時,當學(xué)生i和學(xué)生j為“best friend”,則Aij=Aji=1,否則Aij=1.
圖3 青少年友誼連接網(wǎng)絡(luò)
分別選取alcohol、tobacco和cannabis 作為響應(yīng)變量來研究影響青少年酗酒、吸煙和吸毒的因素.將樣本隨機分成兩份:訓(xùn)練集和測試集,重復(fù)實驗100 次.由于不知道真實情況下的參數(shù)設(shè)定,無法像模擬實驗中那樣對比假陰性數(shù)、假陽性數(shù)等指標.因此,主要從預(yù)測損失和變量選擇兩個方面來驗證SNC 方法的有效性.
表3展示了SNC 方法SNC-LASSO、SNC-MCP、SNC-SCAD 與無網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法LASSO、MCP和SCAD 對青少年不良習(xí)性(酗酒、抽煙以及吸食大麻)的預(yù)測損失,從結(jié)果中可以看出SNC方法預(yù)測的相對更準確一點.青少年時期大家都是團體活動,生活習(xí)慣很容易相互影響而慢慢趨同,而網(wǎng)絡(luò)凝聚效應(yīng)正是考慮了這一點,團體內(nèi)個體的表現(xiàn)行為更具相似性,懲罰團體內(nèi)個體效應(yīng)的差異性,提高了個體效應(yīng)的預(yù)測精度,從而降低了整個模型的預(yù)測誤差.
表3 青少年不良習(xí)性的預(yù)測損失
為了使挑選出來的變量更具可解釋性,下面我們不考慮特征之間的交互作用,用SNC 方法和無網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法來挑選變量,并重復(fù)實驗100 次,計算100 次實驗下挑選出來的變量的比例.
表4中我們看到,LASSO、MCP和SCAD 挑選出更多的冗余變量.顯然,兩種方法下,特征變量parent smoking,sibling smoking,“I hang round in the streets”,“I play computer games”和“I go to dance clubs or raves”是最顯著的.青少年時期他們的世界觀、人生觀和價值觀還在形成階段,易受他人或團體的影響,在街上閑逛、經(jīng)常打電腦游戲、參加俱樂部以及兄弟姐妹抽煙等行為都容易使青少年沾染上不良習(xí)性.通過研究分析,我們知道了青少年時期朋友以及家人行為的重要性,家人、朋友以及整個社會需要給青少年營造一個良好健康的成長環(huán)境,給他們樹立積極向上的榜樣.
表4 不同方法下挑選出的變量及其比例
針對各種方法挑選出來變量之后的模型進行回歸,我們得到回歸后各變量系數(shù)的顯著性檢驗以及調(diào)整可決系數(shù)R2和標準誤差如表5所示.
由表5可知,SNC 方法選取了sex.F、I hang out in the streets、I play computer games、money、parent.smoking和sibling.smoking 6 個變量,根據(jù)值可以看出這些變量都通過了顯著性檢驗.而LASSO、MCP和SCAD 方法選出了少許的冗余變量.另外,從表中的調(diào)整可決系數(shù)和標準誤差來看,SNC 方法的效果也是優(yōu)于沒有網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法.
表5 不同方法下挑選出變量的顯著性檢驗
本文主要對線性回歸模型中因網(wǎng)絡(luò)凝聚效應(yīng)而產(chǎn)生個體效應(yīng)的組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)進行變量選擇,使用非凸懲罰MCP和SCAD 罰函數(shù)同時懲罰變量系數(shù) β和組內(nèi)樣本的個體效應(yīng)的差異性Lα,使得能夠?qū)薪M異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)篩選出有用變量.
針對本文提出的方法,我們運用ADMM 算法進行求解,并證明了算法的收斂性.針對SNC 方法,本文進行了相關(guān)模擬,從變量選擇和預(yù)測兩個方面來衡量該方法的效果.從實驗結(jié)果來看,無論是預(yù)測損失還是變量選擇的準確性都有明顯改善.實例分析中,我們將SNC 方法應(yīng)用于青少年友誼網(wǎng)絡(luò)和生活方式的研究,分析預(yù)測青少年吸煙等不良習(xí)性的活動頻率以及挑選出影響青少年吸煙等不良習(xí)性的特征變量.
本文提出的方法,為含有組異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問題提供了一種解決思路.我們將變量選擇方法進一步拓展了應(yīng)用領(lǐng)域,對于基因網(wǎng)絡(luò)、交通網(wǎng)絡(luò)、公司網(wǎng)絡(luò)等網(wǎng)絡(luò)連接數(shù)據(jù),SNC 方法都能適用.
附錄A.命題1的證明
命題1 描述了算法的收斂性,下面我們開始證明.由 γ(m+1)的定義可知,對任意 γ:
令:
故,L(θ(m+1),γ(m+1),φ(m))≤f(m+1).
令t為整數(shù),φ(m+t-1)=有:
由于目標函數(shù)L(θ,γ,φ) 關(guān)于(θ,γ) 導(dǎo)的,并且是φ函數(shù),基于文獻[28]的定理4.1,(θ(m),γ(m)) 有個極值點,記為(θ*,γ*) 故有:
并且對于任意t≥0,有:
因為θ(m+1)使得L(θ,γ(m),φ(m)) 最小化,故有δL(θ(m+1),γ(m),φ(m))/δθ=0.并且:
因此:
又因為||Hθ*-γ*||2=0,故