• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      第二十七講 SVR對小樣本缺失數(shù)據(jù)的挖掘處理

      2018-08-04 03:10:40徐靜安都麗紅
      上海化工 2018年7期
      關(guān)鍵詞:決定系數(shù)標(biāo)準(zhǔn)偏差序號

      徐靜安 吳 芳 都麗紅

      第二十六講“支持向量機(SVM)簡介及DPS應(yīng)用操作”簡要介紹了SVM的概念、原理、模型、算法及支持向量回歸(SVR)案例在DPS系統(tǒng)中的操作應(yīng)用。由于SVM是基于小樣本的統(tǒng)計理論,在小樣本案例中,計算結(jié)果能獲得較好的統(tǒng)計效果。一些情況下,難以獲得“充分大”的大樣本實驗數(shù)據(jù),例如:難以安排大范圍考察的試驗設(shè)計的場合,如中試以上規(guī)模的裝置;實驗周期較長的響應(yīng),如材料老化、蠕變,穩(wěn)定性同位素平衡時間,農(nóng)化盆栽試驗,弱腐蝕體系甲醇汽油的腐蝕行為等;實驗費用大的對象,如部件的破壞性檢測;等等。而與傳統(tǒng)的、經(jīng)典的基于大樣本統(tǒng)計理論的算法相比,SVR在統(tǒng)計分析、數(shù)據(jù)挖掘中有其獨特功能。

      此外,在數(shù)據(jù)樣本的收集中,有涉及歷史性的過去記錄,有涉及地域性的宏觀尺度記錄,也有在實驗中因種種原因?qū)е虏糠州斎胱兞康娜笔?,難以保證數(shù)據(jù)的完整性。一般回歸算法無法處理缺失數(shù)據(jù),而SVR算法具有處理缺失數(shù)據(jù)的功能。下面采用一個案例對一般回歸算法和SVR算法進行回歸精度對比,同時采用SVR對含缺失項數(shù)據(jù)進行回歸處理。

      案例摘編于唐啟義著《DPS數(shù)據(jù)處理系統(tǒng)——實驗設(shè)計、統(tǒng)計分析及數(shù)據(jù)挖掘》(第二版)第25.1節(jié)第658頁,該案例為研究醫(yī)院所需要的人力,對某地區(qū)17家醫(yī)院調(diào)查了一組數(shù)據(jù),考察5個變量因子[日平均病人數(shù)x1,月平均 X光透視人數(shù)x2,月平均所占用的床位天數(shù)x3,當(dāng)?shù)厝丝跀?shù)相關(guān)的參數(shù)(人口數(shù)除以1000)x4,平均每個病人住院天數(shù)x5]與月平均使用的人小時數(shù)y之間的關(guān)系,數(shù)據(jù)表如表1所示。

      在醫(yī)院所需要的人力數(shù)據(jù)例子中,有9個樣本含有缺失數(shù)據(jù),數(shù)據(jù)缺失率達到9/17=53%,含缺失項的數(shù)據(jù)表如表2所示。

      表1 17組完整數(shù)據(jù)

      該案例包含M=5個輸入變量,共N=17組隨機數(shù)據(jù),由于沒有可能進行試驗設(shè)計,屬于社會統(tǒng)計類隨機數(shù)據(jù),N/M=17/5=3.4,為小樣本問題。對表1中的17組完整數(shù)據(jù)和表2中含缺失項的17組數(shù)據(jù),分別采用二次多項式逐步回歸方法和SVM算法進行學(xué)習(xí)建模,比較其回歸效果。

      一 SVR的擬合計算

      1 對17組完整數(shù)據(jù)的計算

      (1)將表1中的17組完整數(shù)據(jù)輸入DPS,選中數(shù)據(jù)塊,在菜單下選擇“多元分析”→“支持向量機(SVM)”→“SVM回歸”,各參數(shù)設(shè)為默認值,計算結(jié)

      表2 17組含缺失項的數(shù)據(jù)

      果如下:

      支持向量機系數(shù)

      項目 rho Prob.

      Const -0.4281 0.0693

      α1 SV1 SV2 SV3 SV4 SV5

      -1 -1 -0.9902-1 -0.9531-0.8401

      -1 -0.885-1 -0.8848-1 -0.1221

      ………………

      0.5101 1 1 1 1 -0.2878

      各樣本實際值與擬合值對比:

      樣本序號 觀察值 擬合值 擬合誤差

      1 566.52 1009.6226 -443.1026

      2 696.82 1087.6993 -390.8793

      3 1033.15 1158.4982 -125.3482

      4 1603.62 1421.6036 182.0164

      5 1611.37 1428.2817 183.0883

      6 1613.27 1801.5872 -188.3172

      7 1854.17 1546.367 307.803

      8 2160.55 1699.5056 461.0444

      9 2305.58 2516.8053 -211.2253

      10 3503.93 3692.2467 -188.3167

      11 3571.89 2955.2134 616.6766

      12 3741.4 3927.4732 -186.0732

      13 4026.52 3835.5278 190.9922

      14 10343.81 10166.245 177.5647

      15 11732.17 11543.797 188.3732

      16 15414.94 15232.666 182.2737

      17 18854.45 18664.536 189.9138

      相關(guān)指數(shù)R=0.99869

      決定系數(shù)=0.99738

      計算結(jié)果與《DPS數(shù)據(jù)處理系統(tǒng)——實驗設(shè)計、統(tǒng)計分析及數(shù)據(jù)挖掘》第43.4節(jié)第1 079頁的計算結(jié)果一致,證明軟件及操作正常。

      (2)SVR計算時需要根據(jù)經(jīng)驗對模型參數(shù)進行合適的調(diào)整,針對表1中的17組完整數(shù)據(jù),默認ε-SVR回歸,核類型默認RBF核函數(shù),設(shè)置參數(shù)Gamma=0.5,Cost=20,點“確定”進行計算,結(jié)果如下:支持向量機系數(shù)

      項目 rho Prob.

      Const -0.39725 0.063673778

      α1 SV1 SV2 SV3 SV4

      -6.3964-1.0000 -0.9902 -1.0000 -0.9531

      -0.5338-0.8850 -1.0000 -0.8848 -1.0000

      … … … … …

      0.5281 1.0000 1.0000 1.0000 1.0000

      各樣本實際值與擬合值對比:

      樣本序號 觀察值 擬合值 擬合誤差

      1 566.52 754.3669 -187.8469

      2 696.82 885.3938 -188.5738

      3 1033.15 852.3373 180.8127

      4 1603.62 1422.6666 180.9534

      5 1611.37 1544.7208 66.6492

      6 1613.27 1799.0961 -185.8261

      7 1854.17 1699.2218 154.9482

      8 2160.55 1971.2461 189.3039

      9 2305.58 2490.3879 -184.8079

      10 3503.93 3683.8212 -179.8912

      11 3571.89 3384.1579 187.7321

      12 3741.40 3927.6738 -186.2738

      13 4026.52 3880.1318 146.3882

      14 10343.81 10162.0147 181.7953

      15 11732.17 11548.3234 183.8466

      16 15414.94 15226.429 6 188.5104

      17 18854.45 18668.4301 186.0199

      相關(guān)指數(shù)R=0.99959

      決定系數(shù)=0.99917

      計算結(jié)果表明,計算參數(shù)的調(diào)整、優(yōu)化、有助于提高SVR的統(tǒng)計效果。

      2 對17組含缺失項數(shù)據(jù)的計算

      將表2中17組含缺失項的數(shù)據(jù)輸入DPS,選中數(shù)據(jù)塊,在菜單下選擇“多元分析”→“支持向量機(SVM)”→“SVM回歸”,默認ε-SVR回歸,核類型默認RBF核函數(shù),設(shè)置參數(shù)Gamma=0.5,Cost=20,點“確定”進行計算,結(jié)果如下:

      支持向量機系數(shù)

      項目 rho Prob.

      Const -0.240427 0.171624867

      α1 SV1 SV2 SV3 SV4 SV5

      -0.8623-1.0000-0.9902-1.0000-0.9531-0.8401

      -1.1279-0.8850-1.0000-0.8848-1.0000-0.1221

      ………………

      0.5758 1.0000 1.0000 1.0000 1.0000-0.2878

      各樣本實際值與擬合值對比:

      樣本序號 觀察值 擬合值 擬合誤差

      1 566.52 746.4817 -179.9617

      2 696.82 876.8195 -179.9995

      3 1033.15 1219.5511 -186.4011

      4 1603.62 1418.2401 185.3799

      5 1611.37 1420.9649 190.4051

      6 1613.27 1798.8477 -185.5777

      7 1854.17 2034.3811 -180.2111

      8 2160.55 1979.5489 181.0011

      9 2305.58 2486.7392 -181.1592

      10 3503.93 3694.4714 -190.5414

      11 3571.89 3382.0229 189.8671

      12 3741.4 3555.2059 186.1941

      13 4026.52 4184.9494 -158.4294

      14 10343.81 10167.4259 176.3841

      15 11732.17 11552.0609 180.1091

      16 15414.94 15234.8054 180.1346

      17 18854.45 18674.3155 180.1345

      相關(guān)指數(shù)R=0.99957

      決定系數(shù)=0.99914

      計算結(jié)果表明,SVR算法對小樣本缺失數(shù)據(jù)處理能獲得較好的統(tǒng)計效果。

      3 計算結(jié)果對比及相關(guān)討論

      上述計算中擬合模型相關(guān)指數(shù)對比見表3。

      從計算結(jié)果可知,采用SVM算法,對17組完整數(shù)據(jù)的擬合相關(guān)指數(shù)R和對17組含缺失數(shù)據(jù)的擬合相關(guān)指數(shù)R相當(dāng),說明SVR算法在處理8組完整數(shù)據(jù)加9組缺失數(shù)據(jù),即數(shù)據(jù)缺失率達到53%時,仍可以提取出缺失數(shù)據(jù)中的有用信息,充分體現(xiàn)出其在處理小樣本問題時的優(yōu)勢。

      表3 擬合模型相關(guān)指數(shù)對比

      二 算法預(yù)報計算

      上述計算、比對、分析僅限于統(tǒng)計上的擬合功能,而當(dāng)今數(shù)理統(tǒng)計領(lǐng)域開發(fā)出不同算法軟件的功能模塊,大都具有較強的擬合功能,評價一種算法模型的好壞,更需要考察不同算法的預(yù)報功能,可惜原案例無此項內(nèi)容。

      對算法模型預(yù)報功能的評價通常有兩種方法:一種是對訓(xùn)練集,采用“留一法”求出press,進行比對分析;第二種是建立測試集進行驗證計算。

      為了探索不同算法的預(yù)報功能,現(xiàn)從17組數(shù)據(jù)中隨機提取3組(第2,4,13組)作為測試集樣本,剩余的N=14組作為訓(xùn)練集樣本,N/M=14/5=2.8,小樣本問題,采用二次多項式逐步回歸算法和SVR進行回歸計算,評價預(yù)測結(jié)果的好壞。

      (1)采用二次多項式逐步回歸算法對17組完整數(shù)據(jù)中的剩余14組建立回歸模型,對第2,4,13組數(shù)據(jù)進行預(yù)測,結(jié)果如下:

      回歸方程:

      y=-7426.28906-1845.1406302×X1-

      0.4271682968 ×X2+63.26921322×X3-44.40050542×

      X4+3519.913415×X5-385.8870710×X5×X5+

      375.6553905 ×X1×X5+0.07593567801×X2×X5-

      12.443195223 ×X3×X5

      方差分析表

      變異來源 平方和 自由度 均方 F值 p值

      回歸 4.59×1089 50972674 5559.168 1×10-7

      殘差 36676.48 4 9169.119

      總變異 4.59×10813

      回歸系數(shù) 標(biāo)準(zhǔn)回歸系數(shù) 偏相關(guān) t值 p值

      X1-1845.14 -53.2561 -0.96444 7.297596 0.001875

      X2-0.42717 -1.6416 -0.97505 8.784748 0.000926

      X363.26921 55.68987 0.965787 7.448154 0.001736

      X4-44.4005 -0.85545 -0.98688 12.22365 0.000257

      X53519.913 0.969894 0.978138 9.407209 0.000712

      X5×X5-385.887 -1.59376 -0.98364 10.91892 0.0004

      X1×X5375.655 4 89.93544 0.968777 7.81486 0.001447

      X2×X50.075936 2.09125 0.980267 9.917849 0.00058

      X3×X5-12.4432 -90.7839 -0.9687 7.804232 0.001455

      復(fù)相關(guān)系數(shù)R=0.999960 決定系數(shù)R2=0.999920

      剩余標(biāo)準(zhǔn)差SSE=95.7555 Durbin-Watson統(tǒng)計量d=2.5854

      調(diào)整相關(guān)系數(shù)Ra=0.999870

      調(diào)整決定系數(shù)Ra2=0.999740

      訓(xùn)練樣本擬合值:

      樣本序號 觀察值 擬合值 擬合誤差

      1 566.52 610.4081 -43.8881

      3 1 033.15 963.0159 70.13408

      5 1611.37 1751.8510 -140.481

      6 1 613.27 1 612.7010 0.569138

      7 1854.17 1764.7250 89.44493

      8 2160.55 2148.5900 11.95987

      9 2305.58 2270.0490 35.53089

      10 3503.93 3506.5050 -2.57484

      11 3571.89 3579.4300 -7.54024

      12 3741.40 3762.2790 -20.8793

      14 10343.81 10331.0000 12.81042

      15 11732.17 11735.6200 -3.44694

      16 15 414.94 15 413.1500 1.79406

      17 18854.45 18857.8800 -3.432 97

      測試樣本預(yù)測值:

      樣本序號 觀察值 預(yù)測值 預(yù)測偏差 預(yù)測標(biāo)準(zhǔn)偏差

      2 696.82 843.9442 147.1242

      4 1603.62-794.921 -2398.54 1971.8

      13 4026.52 2611.822 -1414.7

      (2)針對 17組完整數(shù)據(jù),采用 SVR,以第 2、4、13組數(shù)據(jù)作為測試樣本,其他數(shù)據(jù)作為訓(xùn)練樣本進行建模計算,默認ε-SVR回歸,核類型默認RBF核函數(shù),設(shè)置參數(shù) Gamma=0.3,Cost=20,點“確定”進行計算,結(jié)果如下:支持向量機系數(shù)

      項目 rho Prob.

      Const-0.356110.063326

      α1 SV1 SV2 SV3 SV4 SV5

      -4.66463-1 -1 -1 -0.97101 -0.94769

      3.726036 -0.98039-0.96486-0.98042-1 -1

      … … … … … …

      0.553303 1 1 1 1 -0.36308訓(xùn)練樣本擬合值:

      樣本序號 觀察值 擬合值 擬合誤差

      1 566.52 756.746 -190.226

      3 1033.15 855.7748 177.3752

      5 1611.37 1788.403 -177.033

      6 1613.27 1800.227 -186.957

      7 1854.17 1876.436 -22.2655

      8 2160.55 1968.713 191.8368

      9 2305.58 2491.968 -186.388

      10 3503.93 3313.772 190.1577

      11 3571.89 3380.206 191.6835

      12 3741.40 3921.155 -179.755

      14 10343.81 10170.09 173.7226

      15 11732.17 11556.64 175.5282

      16 15414.94 15259.42 155.5162

      17 18854.45 18668.6 185.8466

      相關(guān)指數(shù)R=0.99966

      決定系數(shù)=0.99932

      測試樣本預(yù)測值:

      樣本序號 觀察值 預(yù)測值 預(yù)測偏差 預(yù)測標(biāo)準(zhǔn)偏差

      2 696.82 1593.944 897.124

      4 1603.62 749.4422 -854.18 894.9

      13 4026.52 3767.107 -259.41

      (3)17組含缺失項的數(shù)據(jù),采用SVR,以第2、4、13組數(shù)據(jù)作為測試樣本,缺失率9/14=64%,其他數(shù)據(jù)作為訓(xùn)練樣本進行建模計算,默認ε-SVR回歸,核類型默認RBF核函數(shù),設(shè)置參數(shù)Gamma=0.3,Cost=1,點“確定”進行計算,結(jié)果如下:

      支持向量機系數(shù)

      項目 rho Prob.

      Const-0.35402 0.142411

      α1 SV1 SV2 SV3 SV4 SV5

      -0.64801-1 -1 -1 -0.97101 -0.94769

      -0.77518-0.96486-0.98042-1 -1 0

      … … … … … …

      0.464509 1 1 1 1 -0.36308

      訓(xùn)練樣本擬合值:

      樣本序號 觀察值 擬合值 擬合誤差

      1 566.52 747.4165 -180.897

      3 1033.15 1214.047 -180.897

      5 1611.37 1436.007 175.363

      6 1613.27 1794.589 -181.319

      7 1854.17 2094.739 -240.569

      8 2160.55 1173.97 986.5798

      9 2305.58 2796.808 -491.228

      10 3503.93 5938.361 -2434.43

      11 3571.89 2222.868 1349.022

      12 3741.4 3549.414 191.986 2

      14 10343.81 10160.17 183.6415

      三 分析討論

      預(yù)報功能對比計算結(jié)果匯總見表4。

      從上述結(jié)果匯總表可以看出:

      15 11732.17 11 915.03 -182.859

      16 15414.94 15234.02 180.9159

      17 18 854.45 18668.4 186.0548

      相關(guān)指數(shù)R=0.98984

      決定系數(shù)=0.97978

      測試樣本預(yù)測值:

      樣本序號 預(yù)測值 觀察值 偏差 預(yù)測標(biāo)準(zhǔn)偏差

      2 3013.668 696.82 2316.85

      4 539.3487 1603.62 -1064.3 1927.9

      13 3060.658 4026.52 -965.86

      (1)在N/M=2.8小樣本條件下,由于訓(xùn)練集是隨機組合樣本,二次多項式逐步回歸算法盡管表現(xiàn)出良好的R,S擬合功能,但預(yù)測標(biāo)準(zhǔn)偏差比擬合S大了1~2個數(shù)量級,預(yù)報功能欠佳。

      表4 預(yù)報功能對比計算結(jié)果匯總

      (2)用SVR計算得到的預(yù)測標(biāo)準(zhǔn)偏差遠小于用二次多項式逐步回歸算法得到的預(yù)測標(biāo)準(zhǔn)偏差。因為對于隨機樣本而言,N/M=2.8,顯然是小樣本數(shù)據(jù),說明基于小樣本統(tǒng)計理論的SVR算法具有稀疏性、穩(wěn)健性特點;而二次多項式逐步回歸算法是基于樣本“充分大、無限大”的大樣本統(tǒng)計理論,樣本不夠“充分大”,會影響統(tǒng)計結(jié)果的穩(wěn)定性,尤其影響預(yù)報精度。

      (3)二次多項式逐步回歸算法的預(yù)測標(biāo)準(zhǔn)偏差和用SVR計算含缺失項數(shù)據(jù)的預(yù)測標(biāo)準(zhǔn)偏差相當(dāng),充分說明了SVR對缺失數(shù)據(jù)及小樣本問題的處理能力。但是對于N/M=2.8的小樣本,缺失率高達64%時,SVR預(yù)測標(biāo)準(zhǔn)偏差還是偏高,因此需要盡可能控制缺失率。

      (4)關(guān)于樣本量大小問題,《化學(xué)計量學(xué)方法》指出,對無試驗設(shè)計的隨機樣本,采用一般回歸分析,根據(jù)經(jīng)驗規(guī)則應(yīng)滿足N/M>5。筆者理解這是樣本“充分大”的條件。對基于試驗設(shè)計及二次多項式逐步回歸算法,N/M有所降低,我們將作進一步討論。但SVR處理小樣本、含缺失數(shù)據(jù)的獨特功能值得學(xué)習(xí)、應(yīng)用、推廣。

      都麗紅在天津大學(xué)讀博士期間就關(guān)注人工神經(jīng)網(wǎng)絡(luò)等算法,我們時有討論。這段時間她也支持吳芳等青年同志,結(jié)合在研項目探索學(xué)習(xí)SVR算法。

      本文定稿于2015年五一假期,科技工作者要善于學(xué)習(xí)新知識,敢于探索新領(lǐng)域,勤于實踐“數(shù)字化技術(shù)+”的科技創(chuàng)新開發(fā)的新模式。五一假過后是五四青年節(jié),青年同仁們努力啊,勞動托起夢想。

      帝斯曼Arnitel HTTPC為汽車行業(yè)帶來柔性增壓熱進氣管新標(biāo)準(zhǔn)

      最近,荷蘭皇家帝斯曼集團的耐高溫材料家族又添新成員——Arnitel HTTPC。

      利用Arnitel HT TPC材料方案幫助汽車廠商打造極具創(chuàng)新性的一體式柔性熱增壓管,實現(xiàn)生產(chǎn)工藝一步成型,不僅極大地提高了生產(chǎn)效率,還可將生產(chǎn)成本減少約50%,減重達40%。同時,大幅降低了發(fā)動機運行中熱增壓管變形、泄漏和脫開的風(fēng)險,為汽車行業(yè)帶來柔性增壓熱進氣管新標(biāo)準(zhǔn)。

      猜你喜歡
      決定系數(shù)標(biāo)準(zhǔn)偏差序號
      傾斜改正在連續(xù)重力數(shù)據(jù)預(yù)處理中的應(yīng)用
      基于Python語言路徑分析矩陣算法運演
      不同規(guī)格香港牡蠣殼形態(tài)性狀對重量性狀的影響
      2種貝齡合浦珠母貝數(shù)量性狀的相關(guān)與通徑分析
      基于顏色讀數(shù)識別物質(zhì)濃度的數(shù)學(xué)模型研究
      技術(shù)指標(biāo)選股
      技術(shù)指標(biāo)選股
      技術(shù)指標(biāo)選股
      技術(shù)指標(biāo)選股
      互感器檢定裝置切換方式研究
      西安市| 衡南县| 龙海市| 荥阳市| 阿克| 巴青县| 寻甸| 南和县| 壶关县| 栾川县| 麻阳| 南投市| 广宗县| 崇礼县| 西藏| 上林县| 普兰县| 扶风县| 眉山市| 衡阳市| 苍梧县| 遵义县| 白水县| 哈巴河县| 册亨县| 来凤县| 汕头市| 西华县| 聊城市| 固始县| 吉首市| 睢宁县| 祥云县| 莱阳市| 柏乡县| 海盐县| 图木舒克市| 谷城县| 乐安县| 八宿县| 七台河市|