• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      適應(yīng)性回歸分析(Ⅰ)
      ——回歸模型的構(gòu)建與求解

      2019-06-18 02:44:48羅艷虹胡良平
      四川精神衛(wèi)生 2019年2期
      關(guān)鍵詞:見(jiàn)式界值樣條

      羅艷虹,胡良平

      (1.山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室,山西 太原 030001;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029;3.軍事科學(xué)院研究生院,北京 100850

      1 適應(yīng)性回歸模型

      1.1 維數(shù)災(zāi)難

      在回歸分析中,當(dāng)自變量的數(shù)目很多(往往問(wèn)題本身帶有很多自變量,再加上派生變量)時(shí),模型空間就非常大,此時(shí),建模者傾向于選擇非參數(shù)模型取代參數(shù)模型。然而,當(dāng)自變量數(shù)目大到一定程度時(shí),由于自變量水平組合所形成的“試驗(yàn)點(diǎn)”在高維空間中會(huì)顯得非常“稀疏”,從而導(dǎo)致回歸模型的方差迅速增大,以至于回歸建模過(guò)程無(wú)法收斂或回歸分析的結(jié)果失去其應(yīng)有的價(jià)值,這種現(xiàn)象被稱為“維數(shù)災(zāi)難”。

      1.2 何為適應(yīng)性回歸分析

      解決“維數(shù)災(zāi)難”問(wèn)題的常用方法有以下兩種:其一,將所研究的問(wèn)題限于“低維空間”;其二,假定建模過(guò)程具有“可加性”,采用“加性模型”[1]。這兩種思維方法都存在一定的局限性,只是部分地或回避式地解決了“維數(shù)災(zāi)難”問(wèn)題。Friedman[2]提出的“多元適應(yīng)性回歸樣條建模技術(shù)”在一定程度上較好地解決了前述提及的難題。多元適應(yīng)性回歸樣條建模技術(shù)被簡(jiǎn)稱為“適應(yīng)性回歸分析方法”,此法由以下兩步組成:第一步,采用“快速更新算法”創(chuàng)建一個(gè)“過(guò)擬合模型”,以下將被稱為“向前選擇”;第二步,采用“后向選擇”修剪已經(jīng)創(chuàng)建的回歸模型。

      1.3 適應(yīng)性回歸模型的形式[3]

      由多元適應(yīng)性回歸樣條算法產(chǎn)生的回歸模型可用式(1)或式(2)表示:

      (1)

      (2)

      式(1)或式(2)還可以用式(3)表示:

      (3)

      在式(3)中,第2、3、4項(xiàng)分別代表僅含單個(gè)自變量、含兩個(gè)自變量及其交互作用項(xiàng)和含三個(gè)自變量及其交互作用項(xiàng)所形成的基函數(shù)之和。由此可知,多元適應(yīng)性回歸樣條模型的結(jié)構(gòu)非常復(fù)雜,以擬合復(fù)雜程度不同的數(shù)據(jù)結(jié)構(gòu)并使之達(dá)到所期望的“擬合優(yōu)度界值”。

      1.4 適應(yīng)性回歸模型的解說(shuō)

      式(1)到式(3)在本質(zhì)是一樣的,但式(2)和式(3)的形式非常復(fù)雜,而式(1)相對(duì)簡(jiǎn)單。下面用通俗的語(yǔ)言解釋式(1)。

      (4)

      由此可知:構(gòu)建適應(yīng)性回歸模型的關(guān)鍵在于如何構(gòu)造各個(gè)“基函數(shù)”;模型求解的關(guān)鍵在于如何估計(jì)出式(1)或式(2)或式(3)中的回歸系數(shù)。這個(gè)計(jì)算過(guò)程比較繁瑣,通常需要借助統(tǒng)計(jì)軟件(如SAS/STAT 12.1中的“ADAPTIVEREG”過(guò)程,此模塊已嵌入SAS 9.3及以上版本)來(lái)完成。

      2 變量變換方法

      2.1 概述

      在進(jìn)行適應(yīng)性回歸建模過(guò)程中,需要對(duì)變量進(jìn)行變換,而不是直接將原變量代入回歸模型。對(duì)變量進(jìn)行怎樣的變換,取決于變量的類(lèi)型。換言之,對(duì)連續(xù)型變量與分類(lèi)變量將采取不同的變換方法。

      2.2 連續(xù)型變量的變換

      對(duì)于連續(xù)型變量,采用線性截?cái)鄡鐦訔l變換,分別見(jiàn)式(5)、式(6):

      (5)

      (6)

      其中t為變量V的結(jié)點(diǎn)值(或稱為分割值),而v為其觀測(cè)值。為了不用測(cè)定變量V的每個(gè)值,通過(guò)假設(shè)底層函數(shù)的平滑度來(lái)使用一系列的最小跨度的結(jié)點(diǎn)值。Friedman[2]使用以下公式來(lái)確定結(jié)點(diǎn)之間的合理數(shù)目(跨度大小)。對(duì)于內(nèi)部結(jié)點(diǎn),跨度大小由以下公式?jīng)Q定,見(jiàn)式(7):

      (7)

      對(duì)于邊界結(jié)點(diǎn),跨度大小由以下公式?jīng)Q定,見(jiàn)式(8):

      (8)

      其中,α為決定結(jié)點(diǎn)密度的參數(shù),p為變量數(shù),nm為父基函數(shù)Bm>0的觀察數(shù)目。

      2.3 分類(lèi)型變量的變換

      對(duì)于分類(lèi)變量,變量通過(guò)指示函數(shù)進(jìn)行轉(zhuǎn)換,分別見(jiàn)式(9)、式(10):

      (9)

      (10)

      其中{c1,…,ct}為變量V類(lèi)別的子集。這種平滑法適用于分類(lèi)變量,它假設(shè)各個(gè)類(lèi)別的子集具有相似的性質(zhì),類(lèi)似于假設(shè)對(duì)連續(xù)變量進(jìn)行局部區(qū)域的預(yù)測(cè)。

      如果一個(gè)分類(lèi)變量有k個(gè)不同的分類(lèi),那么共有(2k+1-1)種可能的子集。計(jì)算成本等于回歸中所有子集的選擇,對(duì)于大的k值來(lái)說(shuō)代價(jià)較大。多元自適應(yīng)回歸樣條算法采用逐步選擇的方法選擇分類(lèi),從而形成子集為{c1,…ct}。該方法仍然是貪婪的,但它減少了計(jì)算,并產(chǎn)生合理的最終模型。

      3 回歸模型中自變量的篩選

      3.1 向前選擇

      多元自適應(yīng)樣條算法的向前選擇過(guò)程如下:

      (1)設(shè)定初值B0=1,M=1;

      (2)重復(fù)以下步驟,直到基函數(shù)的值達(dá)到最大,最大值為Mmax;或者Bm、v和t三個(gè)參數(shù)的任意組合都不會(huì)使模型性能得到更好的提升。

      1)設(shè)置“失擬(即模型不能表達(dá)資料變化的部分)”的界值LOF*=∞;

      2)對(duì)于篩選出的基函數(shù)Bm,m∈{0,…,M-1}都對(duì)變量v做以下操作,對(duì)于v?{v(k,m)|1≤k≤Km}者除外。

      ①對(duì)于滿足v:t∈{v|Bm>0}的變量,每個(gè)結(jié)點(diǎn)值(或類(lèi)別中子集)t建立一個(gè)由當(dāng)前所有選定基函數(shù)組成的模型及兩個(gè)新基函數(shù):BmT1(v,t)和BmT2(v,t);

      ②計(jì)算新模型LOF欠擬合的界值;

      ③如果LOF

      3)通過(guò)在模型中增加Bm*T1(v*,t*)和Bm*T2(v*,t*),最大程度上更新模型。

      4)設(shè)定M=M+2。

      每個(gè)條目最重要的部分是發(fā)現(xiàn)Bm、v和t之間的關(guān)系,例如在模型中添加兩個(gè)相關(guān)基函數(shù)。向前選擇的目標(biāo)是建立一種過(guò)擬合數(shù)據(jù)的模型。線性模型的殘差準(zhǔn)則通常是殘差平方和(RSS)。

      3.2 向后選擇

      多元自適應(yīng)回歸樣條算法的向后選擇過(guò)程如下:

      (1)通過(guò)設(shè)置整體的欠擬合標(biāo)準(zhǔn)來(lái)初始化:LOF*=∞;

      (2)重復(fù)以下步驟,直到達(dá)到空模型為止。最后一個(gè)模型是在向后篩選過(guò)程中發(fā)現(xiàn)的最佳模型。

      1)對(duì)于篩選的基函數(shù)Bm,m∈{0,…,M-1}:

      ①對(duì)于不包含Bm,計(jì)算欠擬合標(biāo)準(zhǔn)(LOF);

      ②如果LOF

      ③從當(dāng)前模型中減去Bm*。

      2)設(shè)定M=M-1。

      向后選擇的目的是“修剪”過(guò)擬合的模型,找出預(yù)測(cè)性能最好的模型。因此,使用過(guò)擬合界值來(lái)表示模型對(duì)原始數(shù)據(jù)表達(dá)的真實(shí)性是不合理的。相反,多元自適應(yīng)回歸樣條算法使用一個(gè)類(lèi)似于廣義交叉驗(yàn)證界值的數(shù)量。更多信息參見(jiàn)“擬合優(yōu)度界值”一節(jié)。

      4 快速算法

      原始的多變量自適應(yīng)回歸樣條算法計(jì)算代價(jià)較大。為了提高計(jì)算速度,F(xiàn)riedman提出了快速算法??焖偎惴ǖ幕舅枷胧菧p少在向前選擇的每個(gè)步驟中,檢驗(yàn)B、V和t的組合的數(shù)量。

      假設(shè)有在第k次迭代之后形成的(2K+1)個(gè)基,其中選擇父基Bm來(lái)構(gòu)造兩個(gè)新的基??紤]一個(gè)以基為元素的隊(duì)列,在隊(duì)列的頂部是B2k和B2k+1兩個(gè)新構(gòu)造的基。隊(duì)列的其余部分根據(jù)每個(gè)基的最小無(wú)匹配條件進(jìn)行排序,排序方法見(jiàn)式(11):

      (11)

      式(11)中,求極小值函數(shù)“min”下部有兩個(gè)條件,其一,“for all eligible V”的含義是“對(duì)于所有合格的變量V”;其二,“for all knott”的含義是“對(duì)于所有的結(jié)點(diǎn)t”。

      當(dāng)k不小時(shí),模型中有相對(duì)較多的基,增加基的個(gè)數(shù)不太可能顯著提高擬合優(yōu)度。因此,在相鄰迭代期間,優(yōu)先隊(duì)列中基的排名變化太大。候選的父基可以被限制為第一次迭代隊(duì)列中的前K個(gè)基。第k次迭代之后,頂部基有新的J(Bi)值,而底基的值不變。隊(duì)列根據(jù)J(Bi)值重新排序。這對(duì)應(yīng)于MODEL語(yǔ)句中FAST選項(xiàng)的K=選項(xiàng)值。

      為了避免排在最后的候選基被放棄使用,并允許它們重新上升到頂部,一個(gè)自然的“老化”因素被引入到每個(gè)基。通過(guò)定義每個(gè)基函數(shù)的優(yōu)先級(jí)來(lái)實(shí)現(xiàn),見(jiàn)式(12):

      P(Bi)=R(Bi)+β(kc-kr)

      (12)

      其中R(Bi)為隊(duì)列中第i個(gè)基的秩,kc為當(dāng)前迭代次數(shù),kr為上次計(jì)算J(Bi)值的迭代次數(shù)。然后根據(jù)這個(gè)優(yōu)先級(jí)重新對(duì)前K個(gè)候選基進(jìn)行排序。較大的β值會(huì)導(dǎo)致在以前的迭代中改進(jìn)較小的基以更快的速度上升到列表頂部。這對(duì)應(yīng)于MODEL語(yǔ)句中FAST選項(xiàng)的“BETA=”值。

      對(duì)于優(yōu)先級(jí)隊(duì)列頂部的候選基,將重新計(jì)算(k+1)次迭代的所有合格變量V的最小失擬界值J(Bi)。得出的最優(yōu)變量可能與前一次迭代中找到的變量相同。因此,快速多元自適應(yīng)回歸樣條算法引入另一個(gè)因子H以節(jié)省計(jì)算成本。該因子指定J(Bi)應(yīng)該為所有合格變量重新計(jì)算的頻率。如果H=1,在考慮父基時(shí),每次迭代中對(duì)所有變量都進(jìn)行優(yōu)化。如果H=5,經(jīng)過(guò)5次迭代完成視為最優(yōu)。如果小于指定H的迭代計(jì)數(shù),則優(yōu)化只在之前完全的優(yōu)化中找到的最優(yōu)變量進(jìn)行。當(dāng)然,有前三個(gè)候選項(xiàng)例外,B2k+1(這是用于構(gòu)建兩個(gè)新基的父基Bm)和兩個(gè)新基:B2k和B2k+1。在每次迭代中執(zhí)行它們的完整優(yōu)化。這與MODEL語(yǔ)句中FAST選項(xiàng)的“H=”選項(xiàng)值有關(guān)。

      5 擬合優(yōu)度界值

      與其他非參數(shù)回歸過(guò)程一樣,多元自適應(yīng)回歸樣條算法可以產(chǎn)生復(fù)雜的模型,這些模型包含高階交互作用項(xiàng)并考慮許多結(jié)點(diǎn)值或子集。除了基函數(shù),向前選擇和向后選擇過(guò)程都是高度非線性的??紤]在偏倚與方差之間取其折中,包含多個(gè)參數(shù)的復(fù)雜模型傾向于較低偏倚而較高方差。為了選擇具有良好預(yù)測(cè)性能的模型,Craven等[4]提出了被廣泛使用的廣義交叉驗(yàn)證(GCV)界值,見(jiàn)式(13):

      (13)

      (14)

      其中d為每個(gè)非線性基函數(shù)所需要的自由度,M為模型中線性無(wú)關(guān)基函數(shù)的總數(shù)。因?yàn)樵诙嘧兞孔赃m應(yīng)回歸樣條算法的每個(gè)步驟中評(píng)估的任何候選模型都是一個(gè)線性模型,所以M實(shí)際上是冒子矩陣的跡。GCV界值和LOF界值的唯一區(qū)別是額外項(xiàng)d(M-1)。相應(yīng)的有效自由度被定義為M+d(M-1)/2。在形成新基函數(shù)時(shí),需要考慮非線性,故引入了d這個(gè)數(shù)量,同時(shí),它也作為一個(gè)平滑參數(shù)而存在。d值越大,函數(shù)估計(jì)越平滑。Friedman[2]認(rèn)為d值一般為“2~4”。對(duì)于結(jié)構(gòu)復(fù)雜的數(shù)據(jù),d值可以更大。用戶也可以使用交叉驗(yàn)證作為擬合優(yōu)度界值,或使用各自的驗(yàn)證數(shù)據(jù)集來(lái)選擇模型和單獨(dú)的測(cè)試數(shù)據(jù)集來(lái)評(píng)估選定的模型。

      猜你喜歡
      見(jiàn)式界值樣條
      高速公路下穿既有鐵路橋橋墩基底承載力驗(yàn)算*
      低溫下船用鋼材彈塑性曲線研究
      河南科技(2023年1期)2023-02-11 12:17:04
      一元五次B樣條擬插值研究
      Effects of Landau damping and collision on stimulated Raman scattering with various phase-space distributions
      《確認(rèn)GRADE證據(jù)評(píng)級(jí)的目標(biāo)》文獻(xiàn)解讀
      橋(門(mén))式起重機(jī)起升機(jī)構(gòu)高速浮動(dòng)軸設(shè)計(jì)
      三次參數(shù)樣條在機(jī)床高速高精加工中的應(yīng)用
      初中數(shù)學(xué)中絕對(duì)值性質(zhì)的應(yīng)用
      三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測(cè)
      軟件(2017年6期)2017-09-23 20:56:27
      基于樣條函數(shù)的高精度電子秤設(shè)計(jì)
      富阳市| 神木县| 资源县| 定陶县| 潜山县| 凤阳县| 廊坊市| 银川市| 富蕴县| 海兴县| 白城市| 建始县| 阿克| 呼和浩特市| 大关县| 甘南县| 宣化县| 合阳县| 邹城市| 独山县| 缙云县| 双牌县| 谢通门县| 大冶市| 天祝| 阳泉市| 桐城市| 大新县| 锡林郭勒盟| 浦县| 柘荣县| 名山县| 固阳县| 永新县| 桂阳县| 中西区| 奉化市| 永新县| 文山县| 白银市| 松阳县|