• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Capped L1罰函數(shù)的組稀疏模型

    2018-12-19 12:44:30崔立鵬于玲范平平吳寶杰翟永君
    現(xiàn)代計算機 2018年32期
    關鍵詞:回歸系數(shù)線性向量

    崔立鵬,于玲,范平平,吳寶杰,翟永君

    (天津輕工職業(yè)技術學院電子信息與自動化學院,天津 300350)

    1 研究背景

    在大數(shù)據(jù)時代,人們面對各種各樣的高維數(shù)據(jù),如何從高維數(shù)據(jù)中挖掘出有用的信息是人工智能技術面臨的一個重要問題。在現(xiàn)代機器學習、數(shù)據(jù)挖掘與生物信息學等領域,很多分類和回歸問題的解釋變量空間往往維數(shù)很高,甚至是超高維的。然而,高維數(shù)據(jù)會導致機器學習中的過擬合現(xiàn)象出現(xiàn),從而使得統(tǒng)計模型的泛化性能變差。因此,變量空間降維與變量選擇問題亟待解決。變量選擇的目的在于兩個方面:一是實現(xiàn)精確的預測和分類;二是使得模型具有更好的可解釋性,降低統(tǒng)計模型的復雜度。所謂可解釋性指的是模型的簡潔度,顯然,變量空間維數(shù)越低的統(tǒng)計模型可解釋性越好??傊藗兛偸瞧谕M可能利用較少的變量實現(xiàn)更高的預測準確性。如何實現(xiàn)統(tǒng)計模型的變量空間降維?很多統(tǒng)計學家針對變量空間降維的問題展開了研究,從而提出了一系列的稀疏模型,最著名的當屬Tibishirani提出的Lasso[1]??紤]線性回歸模型b,其中X∈RN×P為全部解釋變量(自變量)的觀測值所構成的矩陣,β∈RP稱作模型向量或回歸系數(shù)向量,y∈RN稱作響應向量、因變量向量或輸出向量,ε∈RN為噪聲向量且λ1>0為樣本數(shù),a>1為變量數(shù)。由Tibshirani提出的著名的 Lasso 的形式為λ?‖β‖1,其中 λ>0 為調(diào)節(jié)參數(shù)(Tuning Parameter),‖β‖1為L1范數(shù)罰。L1范數(shù)罰由于在零點處不可導從而可產(chǎn)生稀疏解,利用子梯度(Subgradient)可得單變量時其解的形式,其中為最小二乘解。顯然,此時其解為軟閾值算子(Soft-Threshold Operator)形式,從而將絕對值小于λ的回歸系數(shù)置零,實現(xiàn)變量選擇與統(tǒng)計模型的稀疏化。

    Lasso在統(tǒng)計學中的變量選擇領域具有極其重要的地位。然而,學者們通過實驗與理論分析發(fā)現(xiàn),Lasso也存在各種各樣的缺點,很多學者針對Lasso的這些缺點進行了更深入的研究,其中之一就是Lasso對重要變量的系數(shù)也進行壓縮,Zhao等人指出其只在非常強的附加條件下才具有Oracle性質[2],SCAD模型[3]、MC模型[4]和自適應Lasso[5,6]等統(tǒng)計模型克服了Lasso的這一缺點,與Lasso相比,它們顯著減小了對重要變量的回歸系數(shù)的壓縮程度,因而這些模型具有所謂的Oracle性質。另外,Lasso在面對一組彼此之間存在高度相關性的解釋變量時,往往只能選擇出其中的一小部分,克服了這一缺點的稀疏模型為Elastic Net[7],其往往能夠將一組彼此間存在高度相關性的變量中的大部分選擇出來。Lasso只能實現(xiàn)分散的變量選擇,很多情形下變量之間存在某種結構,例如在基因微陣列分析中,某基因上往往會有多個變異點,在識別究竟是哪個基因發(fā)生的變異與所發(fā)生疾病存在關聯(lián)關系時將屬于同一個基因的變異點分為一個組是更加合理的,因此有學者考慮將變量之間存在的結構作為先驗信息再進行變量選擇,Group Lasso[8-10]就是將變量的組結構作為先驗信息的稀疏模型,其具有變量組選擇功能。除了應用于統(tǒng)計學上的變量選擇問題,Lasso等稀疏模型還被應用到了壓縮感知、信號重構和圖像重構等諸多領域,在生物統(tǒng)計、機器學習、數(shù)據(jù)挖掘、圖像處理和信號處理等領域有著越來越廣泛的應用。

    基于上述思想,將Capped L1罰[11]推廣到變量組選擇的情況下,提出了一種新的組稀疏模型:Group Capped L1模型,其具有變量組選擇能力。最后,通過人工數(shù)據(jù)集實驗驗證了其在變量選擇和預測等方面的有效性。

    2 Group Capped L1模型

    2.1 Capppeedd .1罰

    Capped L1罰的形式為:

    其中λ和a均為可調(diào)參數(shù),λ>0且a>0。顯然,Capped L1罰由兩部分構成,||θ

    圖1 Capped L1罰的圖像

    2.2 Group Cappeed L 1模型的形式

    Capped L1模型在回歸系數(shù)小于等于a時表現(xiàn)出與Lasso一致的變量選擇特性,而在回歸系數(shù)大于a時不對回歸系數(shù)進行壓縮,其克服了Lasso對所有回歸系數(shù)均進行壓縮的缺點,但其仍然只能實現(xiàn)變量水平上的稀疏性,不能實現(xiàn)變量組水平上的稀疏性。下面將Capped L1罰推廣到變量組選擇情形,構成具有組稀疏性的Group Capped L1模型。

    已知如下的線性回歸模型:

    其中 β為P×1維的系數(shù)向量,X為n×P階的設計矩陣,y為n×1維的輸出向量,且噪聲服從高斯分布:

    事先將P個變量劃分為J個組,利用 βj代表第 j個變量組對應的系數(shù)向量,Xj代表第 j個變量組對應的子設計矩陣,dj表示第 j個變量組中的變量數(shù),不妨假設任意的子設計矩陣Xj均滿足正交條件XjTXj=Idj,其中dj階的單位方陣,j∈{1 ,2,…,J} ,不妨假設xijp表示對第 j個變量組中的第p個變量的觀測值,則Group Capped L1模型為:

    其中 φλ1,a(?)為Capped L1罰,λ1和a均為可調(diào)參數(shù)。

    2.3 Group Cappeed L 1模型的求解算法

    下面利用塊坐標下降算法求解Group Capped L1模型。塊坐標下降算法在求解稀疏模型時需要該模型關于單變量組的顯式解,然后不斷迭代直到滿足收斂條件。塊坐標下降算法是坐標下降算法的推廣,坐標下降算法最初用來求解Lasso問題,其思想為在求解優(yōu)化問題時每次迭代中只關于一個變量進行優(yōu)化,同時固定其余所有變量的值不變,這樣就將復雜的多維優(yōu)化問題轉化為一系列的單維優(yōu)化問題,大大降低了計算的復雜度。塊坐標下降算法在求解優(yōu)化問題時每次迭代中只關于一個變量組進行優(yōu)化,同時固定其余所有變量組的值不變,經(jīng)過若干次迭代得到模型的解。由于Capped L1罰是一個分段函數(shù),因此討論Group Capped L1模型關于單變量組的顯式解時需要分情況進行討論。Group Capped L1模型關于第 j個變量組的解可被表示為:

    在Group Capped L1模型關于單變量組的顯式解的基礎上,可利用塊坐標下降算法求解Group Capped L1模型。求解Group Capped L1模型的塊坐標下降算法為:

    (1)輸入響應向量y、設計矩陣X、回歸系數(shù)向量的初始值β。

    (2)當1≤j≤J時重復執(zhí)行下列步驟:

    ②利用公式(5)求解 βj。

    ③更新 β中的第 j個子系數(shù)向量 βj。

    ④令 j=j+1。

    (3)得到遍歷一次全部分組后的回歸系數(shù)向量β,判斷是否滿足預先設定的收斂條件或迭代次數(shù),若不滿足則跳轉到第(2)步;否則,結束算法。

    (4)輸出回歸系數(shù)向量β。

    3 實驗

    3.1 人工數(shù)據(jù)集實驗

    下面利用人工生成的數(shù)據(jù)集進行實驗驗證Lasso、Group Lasso、Group Capped L1等稀疏模型在線性回歸模型下的變量選擇能力。在生成的全部人工數(shù)據(jù)集的實驗中,對每個數(shù)據(jù)集中的變量都隨機劃分成兩個樣本數(shù)相同的子數(shù)據(jù)集,其中一份作為訓練數(shù)據(jù)集,另一份作為測試數(shù)據(jù)集,上述劃分過程重復30次,得到30個實驗結果,取30次實驗結果的均值作為最終的實驗結果,將實驗結果列入各個表中,表中n表示訓練樣本數(shù),P表示變量總數(shù),Size表示選出的變量總數(shù),Rel表示識別出的目標變量數(shù),Noi表示剔除的冗余變量數(shù),MSE 表示預測均方誤差(Mean Square Error),Error表示錯誤分類率。

    生成如下兩種不同類型的數(shù)據(jù)集:人工數(shù)據(jù)集1和人工數(shù)據(jù)集2,其中人工數(shù)據(jù)集1中每個變量組所含的變量數(shù)相等,而人工數(shù)據(jù)集2中各變量組所含的變量數(shù)不相等。人工數(shù)據(jù)集1和人工數(shù)據(jù)集2均基于線性回歸模型y=Xβ+ε生成。

    人工數(shù)據(jù)集1:該數(shù)據(jù)集包含2n=300個樣本和P=30個變量,這30個變量被劃分為6個變量組。人工數(shù)據(jù)集2:該數(shù)據(jù)集包含2n=200個樣本和P=20個變量,這20個變量被劃分為4個變量組。實驗結果如表1和表2所示,從實驗結果可以看出,對于人工數(shù)據(jù)集1來說,Group Capped L1模型具有明顯的稀疏性,能夠實現(xiàn)變量組選擇,并且其預測均方誤差最小。

    表1 人工數(shù)據(jù)集1的實驗結果

    表2 人工數(shù)據(jù)集2的實驗結果

    3.2 真實數(shù)據(jù)集實驗

    選取來自Hosmer與Lemeshow收集的新生兒體重數(shù)據(jù)集(Birthweight Dataset)來對 Lasso、Group Lasso以及Group Capped L1這幾種組稀疏模型進行實驗。該數(shù)據(jù)集包含189個新生兒的體重以及可能與新生兒體重有關的8個解釋變量,該8個變量分別為:母體年齡、母體體重、種族(白人或黑人)、吸煙史(吸煙或不吸煙)、早產(chǎn)史(早產(chǎn)過一次或早產(chǎn)過兩次)、高血壓史(有高血壓史或無高血壓史)、子宮刺激性史(有子宮刺激性史或無子宮刺激性史)、懷孕期間的物理檢查次數(shù)(一次、兩次或三次),其中母體年齡和母體體重為用三次多項式表示的連續(xù)變量,而其余六個解釋變量均為分類變量。對于母體年齡和母體體重,其可被視為用屬于同一個組的三個變量來表示。對于分類變量,其所對應的多個水平可被視為多個變量,這些變量屬于分類變量這個組。因此,該數(shù)據(jù)集可被視為含有19個變量和189個樣本,并且這19個變量被分為8個變量組。另外,該數(shù)據(jù)集還包含兩個輸出變量bwt和low,其中輸出變量bwt為連續(xù)變量,表示新生兒的體重值;變量low為二值變量,表示新生兒的體重值是大于2.5kg還是小于2.5kg。當以變量bwt為輸出變量時,為線性回歸模型問題;當以變量low為輸出變量時,為二分類問題。

    將189個變量隨機劃分成兩個分別含有100個樣本和89個樣本的子數(shù)據(jù)集,其中含有100個樣本的子數(shù)據(jù)集作為訓練數(shù)據(jù)集,另一份含有89個樣本的子數(shù)據(jù)集作為測試數(shù)據(jù)集,上述劃分過程重復100次,得到100個實驗結果,取100次實驗結果的均值作為最終的實驗結果。實驗結果如表3所示,表3是以bwt為輸出變量的實驗結果,表中n表示訓練樣本數(shù),P表示變量總數(shù),Size表示選出的變量總數(shù),MSE表示預測均方誤差。從表3中的實驗結果可以看出,在回歸問題下,Group Capped L1的預測均方誤差最小,而且其得到的模型稀疏性也較好,與Lasso和Group Lasso相比,是一種更好的變量選擇模型。

    表3 新生兒體重數(shù)據(jù)集的實驗結果

    4 結語

    在機器學習和生物信息學中,有時變量之間存在一定的組結構,忽略這種組結構是不恰當?shù)?。本文將組結構作為先驗信息,把Capped L1罰推廣到變量組選擇的情形下,基于Capped L1罰提出了一種新的組稀疏模型,其能夠實現(xiàn)變量組選擇,通過人工數(shù)據(jù)集實驗和真實數(shù)據(jù)集實比較了其與Lasso、Group Lasso在變量選擇方面、預測準確性和分類錯誤率等方面的性能,實驗結果說明了提出的基于Capped L1罰的組稀疏模型在變量選擇方面和預測方面的有效性。本文只是在線性回歸模型下研究了其變量選擇等性能,后續(xù)將其推廣到邏輯斯蒂回歸模型下的情況值得進一步探索。當前,稀疏模型仍然是機器學習領域的研究熱點,其有意義的研究方向有如下幾個方面:第一,將稀疏模型向除線性回歸模型以外的其它統(tǒng)計模型進行拓展。當前,由于線性回歸模型的簡潔性,大多稀疏模型均基于線性回歸模型提出,但線性回歸模型的應用場景有限,將這些稀疏模型向COX比例風險回歸模型、Tobit模型和Probit模型等其它統(tǒng)計模型推廣是必要的,現(xiàn)在該方向仍然有大量工作需要進一步完成。第二,對稀疏模型統(tǒng)計性質的理論分析。很多稀疏模型通過實驗驗證了其變量選擇的準確性,但尚缺乏變量選擇一致性和參數(shù)估計一致性等理論分析方面的支撐,例如PEN SVM的變量選擇一致性和參數(shù)估計一致性尚未被研究。另外,已有學者給出了Group Lasso等稀疏模型實現(xiàn)一致性等統(tǒng)計性質需要的假設條件,但這些已知條件較為復雜,如何對其進行簡化值得探究。

    猜你喜歡
    回歸系數(shù)線性向量
    漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
    向量的分解
    線性回歸方程的求解與應用
    聚焦“向量與三角”創(chuàng)新題
    二階線性微分方程的解法
    多元線性回歸的估值漂移及其判定方法
    電導法協(xié)同Logistic方程進行6種蘋果砧木抗寒性的比較
    多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時Bayes估計及優(yōu)良性
    向量垂直在解析幾何中的應用
    向量五種“變身” 玩轉圓錐曲線
    黎平县| 哈密市| 莒南县| 襄樊市| 河津市| 汪清县| 湄潭县| 深泽县| 崇仁县| 望都县| 华阴市| 抚顺县| 宜都市| 绿春县| 五峰| 根河市| 内黄县| 镇雄县| 固原市| 保定市| 全椒县| 新建县| 兴国县| 肥城市| 揭东县| 东兴市| 合山市| 茂名市| 成都市| 新源县| 西和县| 松潘县| 潜江市| 茌平县| 武平县| 朝阳县| 乐亭县| 都昌县| 新绛县| 淮北市| 澎湖县|