• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于線性回歸新模型的插補(bǔ)方法實證研究

      2020-02-22 06:56:25曾梅
      科技創(chuàng)新導(dǎo)報 2020年30期
      關(guān)鍵詞:R語言

      曾梅

      摘? 要:在實際生活中搜集數(shù)據(jù)時,數(shù)據(jù)缺失的情況是很常見的。在通常的情況下,當(dāng)輔助變量和缺失變量之間有著較強(qiáng)的線性關(guān)系時,如果我們利用回歸插補(bǔ)方法對缺失數(shù)據(jù)進(jìn)行插補(bǔ)是合理的。在很多研究中,對于回歸插補(bǔ)法一般是使用最小二乘法,在本文中將根據(jù)研究者提出來的一種新線性回歸估計方法,運用到回歸插補(bǔ)中,并和普通最小二乘回歸插補(bǔ)及均值插補(bǔ)進(jìn)行比較,運用R語言進(jìn)行數(shù)據(jù)缺失的模擬分析,最后得出前者所得效果更好,豐富了缺失數(shù)據(jù)插補(bǔ)方法,并且為實際運用中選取處理缺失數(shù)據(jù)的插補(bǔ)方法時,提供了較多的選擇范圍。

      關(guān)鍵詞:缺失數(shù)據(jù)? 回歸插補(bǔ)? 均值插補(bǔ)? R語言

      中圖分類號:O212.1? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)10(c)-0094-07

      Abstract: When collecting data in real life, there are often missing data. Under normal circumstances, when there is a strong linear relationship between the auxiliary variable and the missing variable, we use the regression imputation method to impute the missing data is very effective. In many studies, the least squares method is generally used for regression interpolation. This article will apply a new linear regression estimation method proposed by the researcher to the interpolation method of missing data, and use ordinary least squares regression Imputation and mean imputation are compared, and the R language is used to simulate and analyze the missing data. Finally, it is concluded that the former has better results, which provides more options for selecting missing data imputation methods in actual applications.

      Key Words: Missing data; Regression imputation; Mean imputation; R language

      在現(xiàn)在這個信息時代,對數(shù)據(jù)的處理變得越來越為重要。對于許多數(shù)據(jù)都會存在缺失的情況,例如在UCI數(shù)據(jù)集中,含有大量的缺失數(shù)據(jù),缺失比例超過了40%;在我們運用統(tǒng)計年鑒上的數(shù)據(jù)時,也會發(fā)現(xiàn)對于一些指標(biāo)的數(shù)據(jù),在有些年份有,而有些年份卻沒有;在醫(yī)療數(shù)據(jù)的搜集中也會發(fā)現(xiàn)由于病人的離世或者提前放棄了治療從而導(dǎo)致數(shù)據(jù)存在缺失的情況。直接刪除法是處理缺失數(shù)據(jù)最簡單的方法,但是采取這種方法會導(dǎo)致大量的信息丟失,造成分析結(jié)果的不準(zhǔn)確,不能充分滿足數(shù)據(jù)分析的要求,而統(tǒng)計學(xué)方法對數(shù)據(jù)的完整性具有很高的要求,因此對缺失數(shù)據(jù)的插補(bǔ)在數(shù)據(jù)的初步清洗中扮演著重要的角色。Little和Rubin從缺失機(jī)制將缺失數(shù)據(jù)劃分為完全隨機(jī)缺失(MCAR),隨機(jī)缺失(MAR)和非隨機(jī)缺失(MNAR)[12]。為了方便,本文選取完全隨機(jī)缺失機(jī)制進(jìn)行研究。

      在實際生活中,我們會發(fā)現(xiàn),有很多數(shù)據(jù)之間都具有一定的聯(lián)系,但是經(jīng)常會出現(xiàn)數(shù)據(jù)丟失的情況,因此回歸插補(bǔ)法具有重大的研究意義。最小二乘回歸是人們較為熟悉的方法,由于其簡單方便,因此在使用回歸插補(bǔ)時,常用最小二乘來進(jìn)行估計。為了尋找其他有效的方法,本文將基于一種新的回歸方法進(jìn)行插補(bǔ),并和最小二乘進(jìn)行比較,期望得到更加有效的回歸插補(bǔ)方法。

      本文的基本脈絡(luò)如下:第1部分介紹回歸插補(bǔ)和均值插補(bǔ)的基本原理;第2部分介紹最小二乘回歸法以及學(xué)者提出來的新的線性回歸模型;第3部分運用實際數(shù)據(jù)進(jìn)行實證研究,驗證新方法的有效性;第4部分對文章進(jìn)行總結(jié)分析。

      1? 回歸插補(bǔ)和均值插補(bǔ)介紹

      1.1 回歸插補(bǔ)

      對于實際中的很多數(shù)據(jù),都存在一定的線性關(guān)系。顧名思義,回歸插補(bǔ)的主要思想就是根據(jù)各變量之間的關(guān)系建立回歸模型,然后把缺失變量看成因變量,運用建立的模型得到預(yù)測值,并把其作為缺失值的填補(bǔ)值。

      回歸插補(bǔ)的步驟如下:

      第一步:對于給定數(shù)據(jù)集,檢測出變量之間如果具有很強(qiáng)的相關(guān)性,則可以運用回歸插補(bǔ)。

      第二步:利用完整數(shù)據(jù)集建立回歸模型,把缺失變量看成因變量,把與缺失變量對應(yīng)的輔助變量代入得到的回歸模型中,得到的值作為對應(yīng)缺失值的代替值。

      回歸插補(bǔ)法是一種單一插補(bǔ)方法,主要針對數(shù)據(jù)集中存在一個變量缺失的情況,也即是單變量缺失的模式。利用回歸插補(bǔ)法時,由于其操作簡單,在建立回歸模型時通常使用最小二乘。

      1.2 均值插補(bǔ)

      均值插補(bǔ)是運用現(xiàn)有數(shù)據(jù)的均值來代替缺失值的一種方法。均值插補(bǔ)主要包括單一均值插補(bǔ)和分層均值插補(bǔ),均值插補(bǔ)已近常被廣泛的使用。本文主要使用的是單一均值插補(bǔ),因此僅簡單介紹單一均值插補(bǔ)方法。

      單一均值插補(bǔ)是利用已觀測到的變量并計算其均值作為該缺失變量的填補(bǔ)值。其插補(bǔ)值可以表示為:

      其中示性函數(shù),為變量中已經(jīng)觀測到的個數(shù)。

      因此,可以得到總體的均值估計為:

      進(jìn)一步計算插補(bǔ)后的樣本方差,可以得到:

      2? 線性回歸方法的介紹

      2.1 最小二乘回歸(OLS)

      2.1.1 一元線性回歸

      最小二乘回歸是非常有效的方法,由于它的簡單性,在經(jīng)濟(jì)、醫(yī)療等領(lǐng)域都具有廣泛的應(yīng)用。最小二乘法的主要思想是使得預(yù)測值和實際值差的平方和最小,然后對相應(yīng)的參數(shù)進(jìn)行估計。一元線性回歸的數(shù)學(xué)模型如下:

      通過最小二乘可以得到和的參數(shù)估計如下:

      在上式中,表示截距,表示斜率,表示自變量,表示因變量,和表示均值。

      2.1.2 多元線性回歸

      在現(xiàn)實生活中,影響因變量的因素通常有很多,因此出現(xiàn)了多元線性回歸,它也是對一元線性回歸的推廣。模型如下(3)式:

      2.2 線性回歸新模型

      最小二乘法發(fā)展成熟,且計算簡單被運用廣泛運用在各個領(lǐng)域。但是其在預(yù)測方面并不是最準(zhǔn)確的,而且對異常值也較為敏感,因此趙茂先和余陽提出了在某些情況下預(yù)測精度和絕對誤差的效果比最小二乘好的估計方法[1]。

      為了方便,把第一種方法作為記為ML1,其主要的思想是把已知數(shù)據(jù)的均值和所有數(shù)據(jù)的斜率求平均作為線性回歸模型的斜率,同時再根據(jù)均值和斜率求出截距,公式如下:

      同樣的道理,把第二種方法作為記為ML2,由于自變量和因變量都滿足方程

      在上式中,和未知,和已知,因此和可以得到:

      根據(jù)(6)式可以解得和的估計值

      這是ML2方法的一元形式,推廣到多元的形式可以得到多元線性函數(shù)的參數(shù)估計如下所示:

      其中

      3? 模擬分析

      我們將利用實際的數(shù)據(jù),運用最小二乘回歸的插補(bǔ)方法、均值插補(bǔ)法以及ML1插補(bǔ)、ML2插補(bǔ)對具有不同缺失率的數(shù)據(jù)進(jìn)行填補(bǔ),通過對不同評價指標(biāo)比較,得出ML1插補(bǔ)和ML2插補(bǔ)的有效性。

      3.1 評價指標(biāo)

      3.1.1 從插補(bǔ)值的角度

      (1)平均絕對誤差。

      其中表示變量中缺失值的個數(shù),表示缺失的插補(bǔ)值,表示實際值。

      (2)均方誤差。

      從插補(bǔ)值的角度出發(fā),本文用MAE、MSE來判定插補(bǔ)效果的好壞。平均絕對誤差表示的是填補(bǔ)值和真實值之間差值的平均,MAE越小,說明填補(bǔ)值和真實值之間的誤差越小,說明填補(bǔ)效果越好,反之,說明效果越差。對于均方誤差MSE也是同樣的道理。

      3.1.2 從模型的角度

      (1)調(diào)整后的決定系數(shù)。

      其中SSE表示殘差平方和,SST表示總的離差平方和。

      (2)回歸系數(shù)相對誤差。

      其中表示原始數(shù)據(jù)得到的回歸系數(shù),表示進(jìn)行行插補(bǔ)之后再進(jìn)行回歸得到的與之對應(yīng)系數(shù),對應(yīng)的回歸系數(shù)相對誤差越小越好。

      3.2 數(shù)據(jù)說明

      本文采用的數(shù)據(jù)集1是全國各地區(qū)2018年的人均消費支出和人均可支配收入的數(shù)據(jù),把前者看成因變量,后者作為自變量。數(shù)據(jù)來源于中國統(tǒng)計年鑒。數(shù)據(jù)集2是R語言里自帶的iris數(shù)據(jù)集,把Petal.Length看成因變量,Petal.Width作為自變量,對于這兩個數(shù)據(jù)集采用一元線性回歸的模型進(jìn)行填補(bǔ)。對于多元線性回歸的模型,使用的是影響我國財政收入的數(shù)據(jù),均來源于《中國統(tǒng)計年鑒》。其中財政收入為因變量,稅收,年末從業(yè)人員數(shù)為自變量。分別設(shè)置因變量的缺失情況為為完全隨機(jī)缺失,且缺失率為5%、10%、20%、30%。

      為了探究各地區(qū)人均消費支出和人均可支配收入的數(shù)據(jù)關(guān)系,做出散點圖如圖1所示。

      從圖中我們可以看到數(shù)據(jù)集1中的人均消費支出和人均可支配收入呈線性關(guān)系,同時計算兩者的相關(guān)系數(shù)為0.9881。數(shù)據(jù)集二中兩個變量之間也具有很強(qiáng)的線性關(guān)系,且通過計算得到相關(guān)系數(shù)為0.9639。因此對于兩個數(shù)據(jù)集來說,如果數(shù)據(jù)有缺失的情況,運用回歸插補(bǔ)處理是可行的。

      3.3 結(jié)果分析

      3.3.1 數(shù)據(jù)集一的結(jié)果分析

      對于數(shù)據(jù)集1,采用完全隨機(jī)缺失的模式進(jìn)行模擬研究。設(shè)置因變量的缺失率依次為5%,10%,20%,30%,運用均值插補(bǔ)、最小二乘回歸插補(bǔ),ML1插補(bǔ),ML2插補(bǔ)四種方法得到的MAE、MSE結(jié)果如表1。

      從平均相對誤差來看,比較四種方法可以發(fā)現(xiàn),對于數(shù)據(jù)不同的缺失率情況下,ML1的MAE值最小,其次是最小二乘和ML2,最大的是均值插補(bǔ)的方法。從均方誤差來看,不同的缺失率下,ML1的MSE值最小,其次是最小二乘和ML2,最大的是均值插補(bǔ)的方法。所以評價指標(biāo)無論是MAE還是MSE,ML1的插補(bǔ)效果最好,其次是最小二乘和ML2,均值插補(bǔ)的效果最差。為了更加直觀的看出各種方法的插補(bǔ)效果,做出不同方法的MAE和MSE的對比圖,如圖2所示。

      從模型角度比較來看,分析不同方法不同缺失率下線性回歸得到的調(diào)整。

      原始數(shù)據(jù)的為0.9756,從調(diào)整的來看,在不同的缺失率之間,運用最小二乘、ML1、ML2所得到的相差不大,但是均值插補(bǔ)后進(jìn)行回歸得到的和原始數(shù)據(jù)的相差較大。運用各種插補(bǔ)方法之后得到完整的數(shù)據(jù)集,再對數(shù)據(jù)進(jìn)行線性回歸,得到回歸系數(shù)和原始數(shù)據(jù)的回歸系數(shù)的相對誤差情況如表3。

      從表3可知,當(dāng)缺失率為5%時,和的MAE最小的是ML1方法,其次是最小二乘和ML2的方法,最大的是均值插補(bǔ)的方法。當(dāng)缺失率為10%,20%,30%時,得到結(jié)果和缺失率為5%時一致。

      從平均相對誤差來看,比較四種方法可以發(fā)現(xiàn),對于數(shù)據(jù)不同的缺失率情況下,ML2的MAE值最小,其次是最小二乘和ML1,最大的是均值插補(bǔ)的方法。從均方誤差來看,不同的缺失率下,ML2的MSE值最小,其次是最小二乘和ML1,最大的是均值插補(bǔ)的方法。所以評價指標(biāo)無論是MAE還是MSE,ML2的效果最好,其次是最小二乘和ML1,均值插補(bǔ)的效果最差。為了更加直觀的看出各種方法的插補(bǔ)效果,做出不同方法的平均相對誤差對比圖和均方誤差對比圖,如圖3所示。

      如表4、表5,從模型角度比較來看,分析不同方法不同缺失率下線性回歸得到的調(diào)整對于iris數(shù)據(jù)來說,原始數(shù)據(jù)的為0.9266,在缺失率不同時使用不同的方法ML2的結(jié)果和最小二乘的結(jié)果相差不大,均值插補(bǔ)得到的和原始數(shù)據(jù)相差較大。運用各種插補(bǔ)方法之后得到完整的數(shù)據(jù)集,再對數(shù)據(jù)進(jìn)行線性回歸,得到回歸系數(shù)和原始數(shù)據(jù)的回歸系數(shù)的相對誤差情況如表6。

      從表6可得,當(dāng)缺失率為5%時,比較和的相對誤差最小的是ML2方法,其次是最小二乘和ML1的方法,相對誤差最大的是均值插補(bǔ)的方法。當(dāng)缺失率為10%,20%,30%時,得到和缺失率為5%時同樣的結(jié)果。

      3.3.2 數(shù)據(jù)集3的結(jié)果分析

      對于多元線性回歸,使用的數(shù)據(jù)集是影響我國財政收入的數(shù)據(jù),均來源于《中國統(tǒng)計年鑒》。其中財政收入為因變量,稅收,年末從業(yè)人員數(shù)為自變量。同樣設(shè)置因變量的缺失機(jī)制為完全隨機(jī)缺失,缺失率分別為5%,10%,20%,30%。運用最小二乘和ML2兩種方法進(jìn)行多元線性回歸插補(bǔ)得到MAE、MSE結(jié)果如表7。

      從表中我們可以看出,當(dāng)缺失率為5%時,ML2的方法得到的平均相對誤差,均方誤差都比最小二乘的方法要小,說明相比于最小二乘,此時運用ML2的方法效果較好。當(dāng)因變量的缺失率為10%,20%時,ML2方法所得到的MAE大于使用最小二乘的MAE,但是ML2 方法所得到的MSE遠(yuǎn)遠(yuǎn)小于使用最小二乘所得到的MSE。

      4? 結(jié)語

      缺失數(shù)據(jù)的情況是非常常見的,這在進(jìn)行數(shù)據(jù)分析時給我們帶來很大的困難,如果只是單純的刪掉那些具有缺失數(shù)據(jù)的變量,這會使得我們丟掉很多現(xiàn)有的信息,使得分析的結(jié)果不準(zhǔn)確。同時由于一些統(tǒng)計分析方法通常對數(shù)據(jù)的完整性要求較高,因此對缺失數(shù)據(jù)進(jìn)行插補(bǔ)之后再進(jìn)行相關(guān)的統(tǒng)計分析是非常有必要的。

      文中針對具有較強(qiáng)相關(guān)性的數(shù)據(jù),設(shè)置的缺失模式為完全隨機(jī)缺失,對數(shù)據(jù)進(jìn)行模擬驗證分析,采用最小二乘回歸插補(bǔ),ML1回歸插補(bǔ)、ML2回歸插補(bǔ)、均值回歸插補(bǔ)四種方法進(jìn)行分析,從插補(bǔ)值的角度和模型的角度進(jìn)行對比,最終發(fā)現(xiàn),運用均值插補(bǔ)的效果最差,而且均值插補(bǔ)會隨著數(shù)據(jù)缺失率的增加,而削弱插補(bǔ)的效果。而ML1回歸插補(bǔ)、ML2回歸插補(bǔ)在某些情況下優(yōu)于最小二乘回歸插補(bǔ),因此可以運用到處理關(guān)聯(lián)性數(shù)據(jù)進(jìn)行插補(bǔ),為實際運用中插補(bǔ)方法提供了更多的選擇。

      參考文獻(xiàn)

      [1] 趙茂先,余陽.一種線性回歸新模型[J].統(tǒng)計與決策,2019,35(18):21-25.

      [2] 廖祥超.九種常用缺失值插補(bǔ)方法的比較[D].昆明:云南師范大學(xué),2017.

      [3] 董世杰.三種線性回歸多重插補(bǔ)法的模擬比較[D].天津:天津財經(jīng)大學(xué),2017.

      [4] 程豪.大數(shù)據(jù)背景下缺失數(shù)據(jù)問題及對策[J].中國統(tǒng)計,2019(10):72-74.

      [5] 魏娜,孫霞.統(tǒng)計缺失數(shù)據(jù)處理方法的比較研究[J].知識經(jīng)濟(jì),2017(18):29-30.

      [6] 鄧建新,單路寶,賀德強(qiáng),等.缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢[J].統(tǒng)計與決策,2019,35(23):28-34.

      [7] 馮麗紅.調(diào)查數(shù)據(jù)缺失值常用插補(bǔ)方法比較的實證分析[D].石家莊:河北經(jīng)貿(mào)大學(xué),2014.

      [8] 張海霞.城鎮(zhèn)居民醫(yī)療費用影響因素的調(diào)查中對不同機(jī)制下應(yīng)答偏倚并存時的校正[D].太原:山西醫(yī)科大學(xué),2015.

      [9] 邱貽濤,吳劉倉,馬婷.缺失數(shù)據(jù)下聯(lián)合均值與方差模型的參數(shù)估計[J].數(shù)理統(tǒng)計與管理,2015,34(4):621-627.

      [10] 呂丹.一類數(shù)據(jù)挖掘算法及其在宮頸癌智能診斷中的應(yīng)用[D].長春:長春工業(yè)大學(xué),2019.

      [12] 張曉琴,程譽瑩.基于隨機(jī)森林模型的成分?jǐn)?shù)據(jù)缺失值填補(bǔ)法[J].應(yīng)用概率統(tǒng)計,2017,33(1):102-110.

      [13] 桂風(fēng)云,魏傳華.地理加權(quán)似乎不相關(guān)回歸模型及其估計[J].統(tǒng)計與決策,2016(8):4-6.

      [14] 吳劉倉,張家茂,邱貽濤.缺失偏態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計推斷[J].統(tǒng)計與信息論壇,2013,28(9):22-26.

      [15] 安佰玲,王森,胡洪勝.線性回歸模型在因變量缺失下的約束估計[J].統(tǒng)計與決策,2013(11):19-21.

      [16] 楊徐佳,于倩倩,王森.因變量缺失下線性回歸模型的估計與檢驗[J].淮北師范大學(xué)學(xué)報:自然科學(xué)版,2011,32(1):24-28.

      [17]劉寶慧.缺失數(shù)據(jù)情形下的回歸插補(bǔ)及其方差分析[J].甘肅聯(lián)合大學(xué)學(xué)報:自然科學(xué)版,2009,23(1):19-21.

      [18]袁中萸. 多元線性回歸模型中缺失數(shù)據(jù)填補(bǔ)方法的效果比較[D].長沙:中南大學(xué),2008.

      猜你喜歡
      R語言
      基于Holt—Winters時間序列的圖書選題預(yù)測模型
      基于R語言的轎車銷量分析基于R語言的轎車銷量分析
      基于R語言時間序列的轎車銷量分析及預(yù)測
      R語言在統(tǒng)計分析中的使用技巧
      基于R語言的學(xué)生成績分析
      基于GPS軌跡數(shù)據(jù)進(jìn)行分析改善城市交通擁擠
      基于R語言的Moodle平臺數(shù)據(jù)挖掘技術(shù)的研究
      基于R語言的湖南產(chǎn)業(yè)結(jié)構(gòu)對其經(jīng)濟(jì)增長貢獻(xiàn)分析
      商(2016年24期)2016-07-20 08:03:39
      注重統(tǒng)計思維培養(yǎng)與應(yīng)用為主導(dǎo)的生物統(tǒng)計學(xué)課程建設(shè)
      考試周刊(2016年15期)2016-03-25 04:09:43
      人民幣匯率的均值回復(fù)檢驗及Hurst指數(shù)計算
      永靖县| 民和| 白沙| 霸州市| 景宁| 涿鹿县| 东乡县| 麻栗坡县| 溧水县| 滦南县| 松阳县| 南靖县| 仙居县| 台北市| 龙里县| 常宁市| 吴江市| 辽阳市| 探索| 阿克陶县| 东港市| 辽阳市| 灌阳县| 七台河市| 武乡县| 清涧县| 滕州市| 响水县| 万宁市| 陆川县| 滨州市| 海门市| 松滋市| 青河县| 长丰县| 商都县| 秦皇岛市| 内江市| 姜堰市| 东明县| 温宿县|