• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于加權(quán)L1極小化模型選擇線性回歸模型中的自變量求解

      2015-02-18 04:57:06李立亞鄭桃云
      統(tǒng)計(jì)與決策 2015年11期
      關(guān)鍵詞:因變量花費(fèi)范數(shù)

      李立亞,鄭桃云

      (1.湖北第二師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,武漢 430205;2.湖北中醫(yī)藥大學(xué)護(hù)理學(xué)院,武漢 430065)

      1 問(wèn)題的提出

      在上述介紹中,我們了解了自變量選擇的幾個(gè)準(zhǔn)則,以及幾種自變量選擇方法的基本思想。從中可以知道經(jīng)典的自變量選擇有局限性:自變量的所有可能子集構(gòu)成了2m-1個(gè)回歸方程,當(dāng)可供選擇的自變量不太多時(shí),用全局擇優(yōu)法可以求出一切可能的回歸方程,然后用幾個(gè)選元準(zhǔn)則去挑選出最優(yōu)的方程,但是,當(dāng)自變量的個(gè)數(shù)較多時(shí),要求出所有可能的回歸方程是非常困難的。還有就是,根據(jù)不同的方法和準(zhǔn)則,選出的最優(yōu)回歸模型也不一定相同,真正哪個(gè)回歸模型最優(yōu),同樣面臨選擇的困難。逐步回歸法也有明顯的不足之處:前進(jìn)法不能反映引進(jìn)新的自變量后的變化情況,因?yàn)槟硞€(gè)自變量開(kāi)始可能是顯著的,但當(dāng)引入其他自變量后它就變得不顯著了,但是也沒(méi)有機(jī)會(huì)將其剔除,即一旦引入,就是“終身制”的;后退法同樣存在類似的問(wèn)題,一旦某個(gè)自變量被剔除,他就再也沒(méi)有機(jī)會(huì)重新進(jìn)入回歸方程,而且一開(kāi)始把全部自變量引入回歸方程,這樣計(jì)算量很大;即使是吸收了前進(jìn)法和后退法的優(yōu)點(diǎn),克服了它們的不足的最受歡迎的逐步回歸法,也有它的不完美的地方,即當(dāng)自變量的個(gè)數(shù)達(dá)到幾百個(gè),甚至更多上千萬(wàn)個(gè)的時(shí)候,它也會(huì)慢慢失去其相對(duì)的優(yōu)越性,不能成為我們理想的線性回歸模型的選元方法。

      本文主要采用?1極小化模型在線性回歸模型中自變量選擇上的應(yīng)用,即通過(guò)?1極小化理論和數(shù)據(jù)的稀疏性的應(yīng)用,從所有可能的回歸系數(shù)矩陣β中選出含零元最多的一個(gè),那么線性回歸中對(duì)應(yīng)零元系數(shù)的自變量便可以舍去。這樣便大大的減少了自變量的個(gè)數(shù),從而減輕了回歸的計(jì)算量并且能保持回歸模型的質(zhì)量。

      2 利用?1極小化模型選擇線性回歸模型的自變量

      2.1 普通最小二乘法的參數(shù)估計(jì)

      在一個(gè)實(shí)際問(wèn)題的線性回歸建模中,有m個(gè)可供選擇的自變量 x1,x2,…,xm,因變量為y,并對(duì)該問(wèn)題進(jìn)行n次觀測(cè),所得數(shù)據(jù)為(X1,X2,…Xm,y)。其線性回歸模型為

      其中,β0,β1,β2…βm是 m+1個(gè)未知參數(shù),β0稱為回歸常數(shù),β1,β2…βm稱為回歸系數(shù),回歸系數(shù)代表了每個(gè)自變量對(duì)回歸模型所做貢獻(xiàn)的大小,系數(shù)越大,貢獻(xiàn)也越大;系數(shù)為零,沒(méi)有貢獻(xiàn),則該自變量可以舍棄。ε是隨機(jī)誤差,我們假定誤差項(xiàng)ε服從正態(tài)分布,即ε~N(0,σ2)

      用矩陣表示該線性回歸的一般式,令:

      性回歸模型為:

      其中X是一個(gè)n×(m+1)階矩陣。對(duì)該線性回歸模型用普通的最小二乘法計(jì)算參數(shù)估計(jì)值,即求使觀測(cè)值與回歸值的離差最小下的參數(shù):

      當(dāng)(X'X)-1存在時(shí),即可得回歸參數(shù)的最小二乘估計(jì)為:

      2.2 ?1-minmization model

      最小二乘法是用所有的自變量來(lái)做線性回歸,并沒(méi)有起到回歸選元的作用。而經(jīng)典的線性回歸選元方法,對(duì)自變量的個(gè)數(shù)較多時(shí)回歸效果并不好。如今人們發(fā)現(xiàn)可以通過(guò)?1極小化理論和數(shù)據(jù)的稀疏性來(lái)大大的減少自變量的個(gè)數(shù)且能保持回歸模型的質(zhì)量:要使線性回歸模型y=β0+β1x1+…+βmxm+ε簡(jiǎn)單而高效,我們可以減少不必要的自變量來(lái)減輕計(jì)算量,由于回歸系數(shù)代表了每個(gè)自變量對(duì)回歸模型所做貢獻(xiàn)的大小,系數(shù)越大,貢獻(xiàn)也越大;系數(shù)為零,沒(méi)有貢獻(xiàn),則該自變量可以舍棄。那么只要使自變量對(duì)應(yīng)的回歸系數(shù)估計(jì)值βi盡可能為零就可以達(dá)到此目的,即使參數(shù)估計(jì)值盡可能的稀疏。由?1極小化理論中信號(hào)的稀疏表示原理可知,即求

      又因?yàn)?1最小范數(shù)在一定條件下和?0最小范數(shù)具有等價(jià)性,可得到相同的解。而且相較?0最小范數(shù),?1最小范數(shù)更具有優(yōu)勢(shì),它便于計(jì)算。由于?0最小范數(shù)是要求向量元素不為零的最小個(gè)數(shù),它是一個(gè)NP難題,要求這個(gè)問(wèn)題是很難的。而?1最小范數(shù)是要求向量元素之和的最小值,它將非凸化問(wèn)題轉(zhuǎn)化為凸化問(wèn)題來(lái)求最優(yōu)化求解,即將求?0范數(shù)的NP難題轉(zhuǎn)變?yōu)榍?1范數(shù)的線性問(wèn)題來(lái)找到信號(hào)的逼近,針對(duì)極小化?1范數(shù)模型來(lái)提出線性規(guī)劃方法,這個(gè)問(wèn)題的求解方法有很多,更便于計(jì)算。所以可以替換(2)如下:

      2.3 加權(quán)?1-minmization model

      (4)當(dāng)收斂或?達(dá)到指定的最大迭代次數(shù)?max時(shí)終止程序。否則,增加?并回到第2步驟。

      2.4 加權(quán)?1極小化模型選擇線性回歸模型的自變量

      接下來(lái)將式子(6)轉(zhuǎn)變?yōu)橐粋€(gè)二次規(guī)劃形式,它是通過(guò)將所求變量β分為兩部分完成的,通常稱這兩部分為積極和消極的部分,設(shè):

      2.5 GPSR(稀疏重建的梯度投影)法求解二次規(guī)劃問(wèn)題

      (4)當(dāng)執(zhí)行到給定的最大次數(shù)或有滿足的近似解

      3 結(jié)果

      3.1 仿真數(shù)據(jù)結(jié)果

      用仿真方法來(lái)證實(shí):加權(quán)?1極小化模型能有效地選擇線性回歸模型中的自變量。仿真數(shù)據(jù)從如下線性回歸模型產(chǎn)生:

      在上述回歸模型中,所含參數(shù)的個(gè)數(shù)為100個(gè),第2,3,5,7,9個(gè)參數(shù)不為0,其它參數(shù)均為0;殘差項(xiàng)服從均值為0,標(biāo)準(zhǔn)差為0.1的正態(tài)分布。假設(shè)自變量均是0-1之間的均勻分布的隨機(jī)數(shù)。利用Matlab自帶函數(shù)生產(chǎn)隨機(jī)數(shù)的方法,產(chǎn)生50組樣本值及每組樣本值相應(yīng)的殘差項(xiàng),根據(jù)上述回歸模型,可計(jì)算相應(yīng)因變量的值。因變量的值如圖1所表示。

      由這50組樣本數(shù)據(jù)和相應(yīng)的因變量的值,需要估計(jì)回歸分析模型中參數(shù)的值。明顯的,利用普通的線性回歸模型中的最小二乘法,因這些數(shù)據(jù)只能構(gòu)造50個(gè)線性方程,無(wú)法準(zhǔn)確的估計(jì)真實(shí)的參數(shù)。然而,利用加權(quán)?1極小化模型,可以幾乎完美的估計(jì)出真實(shí)的參數(shù)。如圖二所表示。原因在于加權(quán)?1極小化模型,它除了利用數(shù)據(jù)提供的信息之外,還能有效的利用待估參數(shù)先驗(yàn)信息,即稀疏性。而普通的線性回歸模型中的最小二乘法只能利用數(shù)據(jù)提供的信息。

      圖1 為仿真產(chǎn)生的50組樣本值所對(duì)應(yīng)的因變量的值

      圖2 L1極小化模型對(duì)線性回歸系數(shù)的有效性

      該仿真模型結(jié)論表明:利用加權(quán)?1極小化方法求得的回歸系數(shù)估計(jì)值的非零個(gè)數(shù),遠(yuǎn)遠(yuǎn)小于最小二乘法求出的個(gè)數(shù),且它極為接近原先設(shè)定的較為稀疏的實(shí)際系數(shù)值,幾乎可以完全模擬出實(shí)際的自變量系數(shù)。由于回歸系數(shù)為零的自變量對(duì)因變量沒(méi)有任何貢獻(xiàn),可以剔除,所以,該方法可以大大的減少自變量的個(gè)數(shù),起到線性回歸選元的作用。

      3.2 實(shí)驗(yàn)數(shù)據(jù)結(jié)果

      本文選取2009年《中國(guó)統(tǒng)計(jì)年鑒》我國(guó)30個(gè)省、市、自治區(qū)(西藏地區(qū)失業(yè)率數(shù)據(jù)缺失,因此從樣本中剔除西藏)2008年的數(shù)據(jù)。

      現(xiàn)實(shí)生活中,影響一個(gè)地區(qū)居民消費(fèi)的因素有很多,例如,一個(gè)地區(qū)的人均生產(chǎn)總值、收入水平、消費(fèi)價(jià)格指數(shù)、生活必需品的花費(fèi)等。本例選取9個(gè)解釋變量研究城鎮(zhèn)居民家庭平均每人全年的消費(fèi)性支出y,解釋變量為:x1居民的食品花費(fèi),x2居民的服裝花費(fèi),x3居民的居住花費(fèi),x4居民的醫(yī)療花費(fèi),x5居民的教育花費(fèi),x6地區(qū)的職工平均工資,x7地區(qū)的人均GDP,x8地區(qū)的消費(fèi)價(jià)格指數(shù),x9地區(qū)的失業(yè)率。本例題以居民的消費(fèi)性支出(元)為因變量,以如上9個(gè)變量為自變量,其中,自變量x1,x2單位為元,x9單位為%。文中利用加權(quán)?1極小化模型來(lái)這些對(duì)自變量作變量選擇,并用Matlab編寫程序。

      β=[1.2083-0.5232,0-0,0.5550-0.3883,0-0,0-0,0.7376-0.5023,0.5147-0.3591,0-0,0-0]=[0.6851,0,0.1667,0,0,0.2353,0.1556,0,0]

      其中,第2、4、5、8、9個(gè)回歸系數(shù)元素為零,則其對(duì)應(yīng)的自變量對(duì)因變量沒(méi)有任何影響,即可以剔除x2、x4、x5、x8、x9。所以,剩下的自變量 x1、x3、x6、x7為程序挑選的自變量,可建立最優(yōu)的線性回歸模型。即居民的食品花費(fèi),居民的居住花費(fèi),地區(qū)的職工平均工資,地區(qū)的人均GDP是建立線性回歸方程的最優(yōu)自變量,對(duì)所求因變量居民的消費(fèi)性支出起到顯著的影響。

      該結(jié)果與實(shí)際是非常相符合的。我們知道現(xiàn)今社會(huì),大部分人們的消費(fèi)支出都用在了衣食住行上,但并不是它們都很重要,因?yàn)槿丝梢圆悔s潮流,不買新衣服,但卻不能不吃飯,不租房睡覺(jué),所以,居民的食品花費(fèi)(x1)和居民的居住花費(fèi)(x3),對(duì)居民的消費(fèi)性支出有很大的影響,而居民的服裝花費(fèi)(x2)不及它們的影響程度。同時(shí),只要人們好好對(duì)待自己的身體,養(yǎng)成良好的作息習(xí)慣,就可以避免大量的醫(yī)療花費(fèi);而且由于地方省市的經(jīng)濟(jì)大不相同,有的地方人們生活水平高,可以享受良好的教育環(huán)境,而有的地方人們食不果腹,接受教育無(wú)從談起,所以,居民的醫(yī)療花費(fèi)(x4)和居民的教育花費(fèi)(x5),對(duì)居民的消費(fèi)性支出并沒(méi)有很大的影響。有工資就有錢來(lái)消費(fèi),人均GDP高的地方人們的生活水平就高一些,人們大多有錢用來(lái)消費(fèi),所以,地區(qū)的職工平均工資(x6)和地區(qū)的人均GDP(x7),是顯著的影響因素。而(x8)地區(qū)的消費(fèi)價(jià)格指數(shù)和(x9)地區(qū)的失業(yè)率對(duì)不同的地區(qū)不盡相同,并不能成為顯著的影響因素。綜述所述,挑選居民的食品花費(fèi),居民的居住花費(fèi),地區(qū)的職工平均工資,地區(qū)的人均GDP為建立線性回歸方程的最優(yōu)自變量,是非常符合實(shí)際情況的。另外,我們比較了最小二乘法與加權(quán)?1極小化方法所得到的參數(shù)估計(jì)值,見(jiàn)下表。

      表1 最小二乘與加權(quán)?1極小化模型得到的待估參數(shù)

      可以看出利用加權(quán)極小化模型所得到的回歸系數(shù)估計(jì)值更為簡(jiǎn)單,且更合理。表一中最小二乘法得到的回歸系數(shù)值都不為零,不能舍去任何自變量,并沒(méi)有起到線性回歸選元的作用,而且這些回歸系數(shù)并不是能很好的解釋因變量的變化。因?yàn)橄M(fèi)性支出是指用于家庭日常生活的全部支出,包括食品、衣著、居住、家庭設(shè)備用品及服務(wù)、醫(yī)療保建、交通和通信、娛樂(lè)教育文化服務(wù)、其他商品和服務(wù)八大類等,所以將居民的醫(yī)療花費(fèi)(x4)和居民的教育花費(fèi)(x5)的回歸系數(shù)定義為負(fù)數(shù)是不合理的。反觀加權(quán)極小化模型,它求得的回歸系數(shù)值更為稀疏,可以舍棄許多不必要的自變量,減少計(jì)算量,極為有效的挑選出顯著的影響因素,得到最優(yōu)線性回歸方程。

      [1]何曉群,劉文卿.應(yīng)用回歸分析(第二版).北京:中國(guó)人民大學(xué)出版社,2011.

      [2]石光明.劉丹華.高大化.劉哲.林杰.王良君壓縮感知理論及其研究進(jìn)展-ACTA Electronica Sinica 2009,37(5).

      [3]Donoho D.Tsaig Y Extensions of Compressed Sensing[J].Signal Processing,2006,(3).

      [4]Candes E J,Wakin M B,Boyd S P.Enhancing Sparsity by Reweighted?1Minimization[J].Journal of Fowrier Ana Lysis and Applications,2008,14(5).

      猜你喜歡
      因變量花費(fèi)范數(shù)
      調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
      新春開(kāi)拍小禮物
      情況不同,“花費(fèi)”不一樣
      適應(yīng)性回歸分析(Ⅳ)
      ——與非適應(yīng)性回歸分析的比較
      基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
      偏最小二乘回歸方法
      矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
      一類具有準(zhǔn)齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
      2014年世界杯會(huì)花費(fèi)多少?
      足球周刊(2014年20期)2014-07-03 16:23:38
      回歸分析中應(yīng)正確使用r、R、R23種符號(hào)
      曲沃县| 延长县| 都安| 邢台县| 泊头市| 广昌县| 黄骅市| 潍坊市| 从江县| 固镇县| 策勒县| 白朗县| 泰安市| 宁安市| 瑞金市| 宁海县| 柯坪县| 阿尔山市| 香河县| 临洮县| 三河市| 柘荣县| 城固县| 金华市| 汉中市| 丰宁| 宜黄县| 连平县| 呼和浩特市| 芜湖市| 泗洪县| 新巴尔虎左旗| 临江市| 神木县| 麻阳| 万源市| 大埔县| 滨海县| 青田县| 循化| 剑河县|