
圖1 Capped L1罰的圖像
2.2 Group Cappeed L 1模型的形式
Capped L1模型在回歸系數(shù)小于等于a時表現(xiàn)出與Lasso一致的變量選擇特性,而在回歸系數(shù)大于a時不對回歸系數(shù)進行壓縮,其克服了Lasso對所有回歸系數(shù)均進行壓縮的缺點,但其仍然只能實現(xiàn)變量水平上的稀疏性,不能實現(xiàn)變量組水平上的稀疏性。下面將Capped L1罰推廣到變量組選擇情形,構成具有組稀疏性的Group Capped L1模型。
已知如下的線性回歸模型:

其中 β為P×1維的系數(shù)向量,X為n×P階的設計矩陣,y為n×1維的輸出向量,且噪聲服從高斯分布:

事先將P個變量劃分為J個組,利用 βj代表第 j個變量組對應的系數(shù)向量,Xj代表第 j個變量組對應的子設計矩陣,dj表示第 j個變量組中的變量數(shù),不妨假設任意的子設計矩陣Xj均滿足正交條件XjTXj=Idj,其中dj階的單位方陣,j∈{1 ,2,…,J} ,不妨假設xijp表示對第 j個變量組中的第p個變量的觀測值,則Group Capped L1模型為:

其中 φλ1,a(?)為Capped L1罰,λ1和a均為可調(diào)參數(shù)。
2.3 Group Cappeed L 1模型的求解算法
下面利用塊坐標下降算法求解Group Capped L1模型。塊坐標下降算法在求解稀疏模型時需要該模型關于單變量組的顯式解,然后不斷迭代直到滿足收斂條件。塊坐標下降算法是坐標下降算法的推廣,坐標下降算法最初用來求解Lasso問題,其思想為在求解優(yōu)化問題時每次迭代中只關于一個變量進行優(yōu)化,同時固定其余所有變量的值不變,這樣就將復雜的多維優(yōu)化問題轉化為一系列的單維優(yōu)化問題,大大降低了計算的復雜度。塊坐標下降算法在求解優(yōu)化問題時每次迭代中只關于一個變量組進行優(yōu)化,同時固定其余所有變量組的值不變,經(jīng)過若干次迭代得到模型的解。由于Capped L1罰是一個分段函數(shù),因此討論Group Capped L1模型關于單變量組的顯式解時需要分情況進行討論。Group Capped L1模型關于第 j個變量組的解可被表示為:

在Group Capped L1模型關于單變量組的顯式解的基礎上,可利用塊坐標下降算法求解Group Capped L1模型。求解Group Capped L1模型的塊坐標下降算法為:
(1)輸入響應向量y、設計矩陣X、回歸系數(shù)向量的初始值β。
(2)當1≤j≤J時重復執(zhí)行下列步驟:

②利用公式(5)求解 βj。
③更新 β中的第 j個子系數(shù)向量 βj。
④令 j=j+1。
(3)得到遍歷一次全部分組后的回歸系數(shù)向量β,判斷是否滿足預先設定的收斂條件或迭代次數(shù),若不滿足則跳轉到第(2)步;否則,結束算法。
(4)輸出回歸系數(shù)向量β。
3 實驗
3.1 人工數(shù)據(jù)集實驗
下面利用人工生成的數(shù)據(jù)集進行實驗驗證Lasso、Group Lasso、Group Capped L1等稀疏模型在線性回歸模型下的變量選擇能力。在生成的全部人工數(shù)據(jù)集的實驗中,對每個數(shù)據(jù)集中的變量都隨機劃分成兩個樣本數(shù)相同的子數(shù)據(jù)集,其中一份作為訓練數(shù)據(jù)集,另一份作為測試數(shù)據(jù)集,上述劃分過程重復30次,得到30個實驗結果,取30次實驗結果的均值作為最終的實驗結果,將實驗結果列入各個表中,表中n表示訓練樣本數(shù),P表示變量總數(shù),Size表示選出的變量總數(shù),Rel表示識別出的目標變量數(shù),Noi表示剔除的冗余變量數(shù),MSE 表示預測均方誤差(Mean Square Error),Error表示錯誤分類率。
生成如下兩種不同類型的數(shù)據(jù)集:人工數(shù)據(jù)集1和人工數(shù)據(jù)集2,其中人工數(shù)據(jù)集1中每個變量組所含的變量數(shù)相等,而人工數(shù)據(jù)集2中各變量組所含的變量數(shù)不相等。人工數(shù)據(jù)集1和人工數(shù)據(jù)集2均基于線性回歸模型y=Xβ+ε生成。
人工數(shù)據(jù)集1:該數(shù)據(jù)集包含2n=300個樣本和P=30個變量,這30個變量被劃分為6個變量組。人工數(shù)據(jù)集2:該數(shù)據(jù)集包含2n=200個樣本和P=20個變量,這20個變量被劃分為4個變量組。實驗結果如表1和表2所示,從實驗結果可以看出,對于人工數(shù)據(jù)集1來說,Group Capped L1模型具有明顯的稀疏性,能夠實現(xiàn)變量組選擇,并且其預測均方誤差最小。

表1 人工數(shù)據(jù)集1的實驗結果

表2 人工數(shù)據(jù)集2的實驗結果
3.2 真實數(shù)據(jù)集實驗
選取來自Hosmer與Lemeshow收集的新生兒體重數(shù)據(jù)集(Birthweight Dataset)來對 Lasso、Group Lasso以及Group Capped L1這幾種組稀疏模型進行實驗。該數(shù)據(jù)集包含189個新生兒的體重以及可能與新生兒體重有關的8個解釋變量,該8個變量分別為:母體年齡、母體體重、種族(白人或黑人)、吸煙史(吸煙或不吸煙)、早產(chǎn)史(早產(chǎn)過一次或早產(chǎn)過兩次)、高血壓史(有高血壓史或無高血壓史)、子宮刺激性史(有子宮刺激性史或無子宮刺激性史)、懷孕期間的物理檢查次數(shù)(一次、兩次或三次),其中母體年齡和母體體重為用三次多項式表示的連續(xù)變量,而其余六個解釋變量均為分類變量。對于母體年齡和母體體重,其可被視為用屬于同一個組的三個變量來表示。對于分類變量,其所對應的多個水平可被視為多個變量,這些變量屬于分類變量這個組。因此,該數(shù)據(jù)集可被視為含有19個變量和189個樣本,并且這19個變量被分為8個變量組。另外,該數(shù)據(jù)集還包含兩個輸出變量bwt和low,其中輸出變量bwt為連續(xù)變量,表示新生兒的體重值;變量low為二值變量,表示新生兒的體重值是大于2.5kg還是小于2.5kg。當以變量bwt為輸出變量時,為線性回歸模型問題;當以變量low為輸出變量時,為二分類問題。
將189個變量隨機劃分成兩個分別含有100個樣本和89個樣本的子數(shù)據(jù)集,其中含有100個樣本的子數(shù)據(jù)集作為訓練數(shù)據(jù)集,另一份含有89個樣本的子數(shù)據(jù)集作為測試數(shù)據(jù)集,上述劃分過程重復100次,得到100個實驗結果,取100次實驗結果的均值作為最終的實驗結果。實驗結果如表3所示,表3是以bwt為輸出變量的實驗結果,表中n表示訓練樣本數(shù),P表示變量總數(shù),Size表示選出的變量總數(shù),MSE表示預測均方誤差。從表3中的實驗結果可以看出,在回歸問題下,Group Capped L1的預測均方誤差最小,而且其得到的模型稀疏性也較好,與Lasso和Group Lasso相比,是一種更好的變量選擇模型。

表3 新生兒體重數(shù)據(jù)集的實驗結果
4 結語
在機器學習和生物信息學中,有時變量之間存在一定的組結構,忽略這種組結構是不恰當?shù)?。本文將組結構作為先驗信息,把Capped L1罰推廣到變量組選擇的情形下,基于Capped L1罰提出了一種新的組稀疏模型,其能夠實現(xiàn)變量組選擇,通過人工數(shù)據(jù)集實驗和真實數(shù)據(jù)集實比較了其與Lasso、Group Lasso在變量選擇方面、預測準確性和分類錯誤率等方面的性能,實驗結果說明了提出的基于Capped L1罰的組稀疏模型在變量選擇方面和預測方面的有效性。本文只是在線性回歸模型下研究了其變量選擇等性能,后續(xù)將其推廣到邏輯斯蒂回歸模型下的情況值得進一步探索。當前,稀疏模型仍然是機器學習領域的研究熱點,其有意義的研究方向有如下幾個方面:第一,將稀疏模型向除線性回歸模型以外的其它統(tǒng)計模型進行拓展。當前,由于線性回歸模型的簡潔性,大多稀疏模型均基于線性回歸模型提出,但線性回歸模型的應用場景有限,將這些稀疏模型向COX比例風險回歸模型、Tobit模型和Probit模型等其它統(tǒng)計模型推廣是必要的,現(xiàn)在該方向仍然有大量工作需要進一步完成。第二,對稀疏模型統(tǒng)計性質的理論分析。很多稀疏模型通過實驗驗證了其變量選擇的準確性,但尚缺乏變量選擇一致性和參數(shù)估計一致性等理論分析方面的支撐,例如PEN SVM的變量選擇一致性和參數(shù)估計一致性尚未被研究。另外,已有學者給出了Group Lasso等稀疏模型實現(xiàn)一致性等統(tǒng)計性質需要的假設條件,但這些已知條件較為復雜,如何對其進行簡化值得探究。