• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于模型平均的超高維數(shù)據(jù)特征篩選方法

    2020-09-08 02:29:54高羽飛何孟霜夏文俊
    揚州大學學報(自然科學版) 2020年3期
    關鍵詞:位數(shù)殘差條件

    高羽飛, 來 鵬, 何孟霜, 夏文俊

    (南京信息工程大學數(shù)學與統(tǒng)計學院, 南京 210044)

    為了對超高維數(shù)據(jù)進行分析, 眾多學者展開了研究.Fan等[1]提出基于Pearson相關系數(shù)的SIS超高維特征篩選方法; Zhu等[2]提出可用于篩選非線性相關變量的SIRS特征篩選方法; Li等[3]在更一般的情況下,提出基于距離相關系數(shù)的DC方法, 實現(xiàn)了在無模型假設條件下對超高維數(shù)據(jù)進行變量篩選,并適用于對分組預測變量和多元響應變量的篩選; Wu等[4]提出基于條件分位數(shù)的自由模型特征篩選方法(conditional quantile screening, CQSIS), 該法可用于處理刪失數(shù)據(jù)問題; 在此基礎上, Liu等[5]提出適用于給定變量條件下的超高維分位數(shù)獨立篩選方法; Cui等[6]依據(jù)超高維判別分析問題中響應變量是分類變量的特點,提出基于經驗條件分布的邊際特征篩選方法; Liu等[7]利用條件距離相關系數(shù),構造出針對超高維數(shù)據(jù)的條件特征篩選過程.以上方法已經在很大程度上改進了傳統(tǒng)方法對超高維數(shù)據(jù)分析的不足,但研究更穩(wěn)健、有效的特征篩選方法仍然十分有意義.

    近年來,模型平均思想在統(tǒng)計學上被廣泛運用,它通過對不同的估計模型或者預測模型進行加權,綜合考慮它們的性能,進而達到提高模型效率且降低模型誤差的目的.Hansen等[8]提出在不確定異方差誤差設置下,利用最小化交叉驗證準則篩選權重對M個非嵌套近似模型加以組合來提高估計效果的JMA(jackknife model averaging)估計方法; Liang等[9]認為模型平均集成了模型選擇過程中固有的不確定性, 通過對候選模型適當加權可以提高擬合模型的預測能力; Chen等[10]利用模型平均邊際回歸半?yún)?shù)懲罰方法對超高維動態(tài)時間序列數(shù)據(jù)進行了處理分析; Gao等[11]基于留一交叉驗證, 提出可用于縱向數(shù)據(jù)以及包含異方差誤差時間序列數(shù)據(jù)的模型平均方法.本文受模型平均思想的啟發(fā),擬將其與條件分位數(shù)篩選方法(CQSIS)相結合,給出基于模型平均的穩(wěn)健超高維數(shù)據(jù)特征篩選方法.

    1 基于模型平均的超高維數(shù)據(jù)特征篩選(MASIS)

    1.1 篩選方法

    1.2 理論性質

    為了研究MASIS的理論性質,假設[4]:

    (H1) 關于正的常數(shù)c和M以及α∈(0,1/4), 1≤s≤m, 有+∞>M≥maxk∈Aτs‖dk,τs‖≥mink∈Aτs‖dk,τs‖>2cn-α>0;

    (H2) 在Qτ(Y)的領域內,F(y)是二階可微的.Y的密度函數(shù)f(y)一致有界且不靠近0和無窮, 其導數(shù)f′(y)也是一致有界的.

    定理1在條件(H1)和(H2)下, 對于正的常數(shù)c8,c9,c10和c11, 有

    (1)

    其中Sn,m=max{Sn,τs,s=1,…,m}.進而, 若mink∈Awk≥2cn-α,則

    (2)

    (3)

    (4)

    (5)

    (6)

    根據(jù)文獻[4],得

    (7)

    (8)

    (9)

    結合式(4)~(6), (9), 得

    (10)

    (11)

    (12)

    2 蒙特卡洛模擬

    例1考慮線性回歸模型Yi=X1i+3X2i+1.5X3i+2X4i+εi, 當ρ和殘差εi滿足: i)ρ=0.5,εi服從t(1)分布; ii)ρ=0.8,εi服從標準柯西分布時, 模擬結果見表1和表2.從表1和表2中的結果不難看出, MASIS、SIRS以及DC篩選出所有真實重要變量需要的模型規(guī)模相似且都較小, 與真實模型非常接近; 而SIS篩選時, 雖然4個真實的重要變量也能篩選出來, 但穩(wěn)定性不高.比較Pa值, MASIS和SIRS方法均以趨于1的概率在200次試驗中將真實重要變量篩選出來, 而DC方法稍差, SIS方法表現(xiàn)最差.

    表1 ρ=0.5時殘差εi服從t(1)分布的篩選模擬結果

    表2 ρ=0.8時殘差εi服從標準柯西分布的篩選模擬結果

    例2考慮帶有交互項的可加模型Yi=3sinX1i+4cos2X2i+2exp(X3iX4i)+εi, 當ρ和殘差εi滿足: i)ρ=0.8,εi服從標準正態(tài)分布; ii)ρ=0.9,εi服從標準柯西分布時, 模擬結果見表3和表4.從模擬結果可以看出, MASIS方法篩選出所有真實重要變量需要的模型規(guī)模相似且均較小, 與真實模型非常接近; DC方法的總體篩選效果一般, 且穩(wěn)定性較差, 而SIS和SIRS方法雖然也可以篩選出4個真實的重要變量,但穩(wěn)定性都很低.比較Pa值,很明顯MASIS方法幾乎以趨于1的概率在200次試驗中能將真實重要變量全部篩選出, 而DC方法稍差, SIS和SIRS方法表現(xiàn)很差.

    表3 ρ=0.8時殘差εi服從標準正態(tài)分布的篩選模擬結果

    表4 ρ=0.9殘差εi服從標準柯西分布的篩選模擬結果

    3 實例分析

    將MASIS特征篩選方法用于對轉基因小鼠心肌病數(shù)據(jù)的分析中, 篩選出小鼠體內與Ro1相關的基因.轉基因小鼠心肌病數(shù)據(jù)中共有30個小鼠樣本,對應的基因數(shù)有6 319個, 從實例分析的結果可知[4], 與Ro1相關的基因為Msa.2134.0, Msa.2877.0, Msa.26025.0, Msa.15442.0和Msa.10108.0.

    考慮MASIS方法包括第一步的局部篩選以及第二步的加權后篩選, 為了避免遺漏可能的重要變量, 采用2個不同排序篩選變量數(shù)d.第一步選擇較大的d=100, 第二步選擇較小的d值來確定篩選模型的規(guī)模, 篩選結果如表5所示.結果表明,當篩選模型的規(guī)模達到15時,5個相關基因全被篩選出,而文獻[7]利用條件分位數(shù)篩選方法(CQSIS)完全篩選出所需模型的最小規(guī)模為29.本文方法縮小了篩選模型的規(guī)模, 說明MASIS篩選方法在一定程度上改進了條件分位數(shù)篩選方法(CQSIS).

    表5 MASIS方法對轉基因小鼠心肌病數(shù)據(jù)的篩選結果

    為了進一步研究這15個基因與Ro1之間的關系, 分別建立LASSO、神經網(wǎng)絡和分類回歸樹模型.建模預測結果如圖1所示.模擬結果證實, 分類回歸樹模型的預測情況最好.

    圖1 回歸預測圖及標準差σ(上圖為訓練集,下圖為測試集)Fig.1 Regression forecasting and standard deviation (the training set is shown in the figure above, and the test set is shown in the figure below)

    4 結論

    本文提出基于模型平均思想的穩(wěn)健超高維特征篩選方法(MASIS), 分析其確定性篩選性質,并給出了MASIS方法理論性質的證明.通過蒙特卡洛模擬,驗證了MASIS方法在處理線性問題和非線性問題時具有很好的穩(wěn)健性,同時該方法相比較于其他方法,能更好地處理超高維數(shù)據(jù)中經常出現(xiàn)的異構性和交互作用等問題.自由模型假設的條件,使得該方法具有更廣泛的使用范圍.數(shù)值模擬和實例分析的特征篩選結果顯示,MASIS方法比之前的篩選方法能更有效、更穩(wěn)健地篩選出理想的特征變量,對現(xiàn)有方法進行了恰當?shù)馗倪M.

    猜你喜歡
    位數(shù)殘差條件
    基于雙向GRU與殘差擬合的車輛跟馳建模
    排除多余的條件
    五次完全冪的少位數(shù)三進制展開
    選擇合適的條件
    基于殘差學習的自適應無人機目標跟蹤算法
    基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
    自動化學報(2019年6期)2019-07-23 01:18:32
    為什么夏天的雨最多
    平穩(wěn)自相關過程的殘差累積和控制圖
    河南科技(2015年8期)2015-03-11 16:23:52
    遙感衛(wèi)星CCD相機量化位數(shù)的選擇
    “判斷整數(shù)的位數(shù)”的算法分析
    河南科技(2014年11期)2014-02-27 14:09:41
    永寿县| 广水市| 扎赉特旗| 新余市| 公安县| 海林市| 特克斯县| 望城县| 买车| 南丰县| 丹凤县| 化德县| 沂南县| 梓潼县| 沧源| 浑源县| 遂川县| 娄底市| 丁青县| 尼勒克县| 桐柏县| 盐源县| 岐山县| 吐鲁番市| 香港| 九龙县| 香河县| 固镇县| 宿州市| 九江市| 新巴尔虎左旗| 田林县| 金门县| 凤城市| 久治县| 日土县| 小金县| 福安市| 武川县| 白朗县| 甘谷县|