摘 要:為解決函數(shù)型數(shù)據(jù)缺失插補(bǔ)問題,在函數(shù)型數(shù)據(jù)分析框架下,以缺失森林模型(MF)為基礎(chǔ),采用基于條件期望主成分分析的函數(shù)型插補(bǔ)方法PACE進(jìn)行初始插補(bǔ),并通過K-means聚類借助樣本之間的相關(guān)性插補(bǔ),給出了一種融合類信息的函數(shù)型多重插補(bǔ)方法。模擬數(shù)據(jù)插補(bǔ)實(shí)驗(yàn)結(jié)果表明,在不同缺失比例(5%~55%)下,本文方法相較于Hot.deck、MF、均值插補(bǔ)、PACE、MFP、SFI、HFI等7種插補(bǔ)方法,更能保證插補(bǔ)的準(zhǔn)確性和有效性。同時(shí),針對(duì)股票數(shù)據(jù)的實(shí)例應(yīng)用驗(yàn)證了本文方法插補(bǔ)得到的數(shù)據(jù)符合實(shí)際情況和規(guī)律。
關(guān)鍵詞:函數(shù)型數(shù)據(jù);缺失森林;多重插補(bǔ);缺失插補(bǔ)方法
中圖分類號(hào):O212"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1673-5072(2024)05-0481-07
隨著數(shù)據(jù)采集程度的不斷提高,出現(xiàn)了一種無窮維、具備連續(xù)特征的數(shù)據(jù),稱為函數(shù)型數(shù)據(jù)。它是一種基于時(shí)間或空間的數(shù)據(jù)類型,描述某個(gè)變量隨著時(shí)間或空間的推移而變化的規(guī)律,例如股票價(jià)格、氣溫和心率數(shù)據(jù)等都是函數(shù)型數(shù)據(jù)。如果將這些具備函數(shù)特征的數(shù)據(jù)看成一個(gè)整體進(jìn)行統(tǒng)計(jì)分析,則稱為函數(shù)型數(shù)據(jù)分析 (Functional Data Analysis,F(xiàn)DA)[1]。FDA方法已經(jīng)成為醫(yī)學(xué)[2-3]、經(jīng)濟(jì)[4]、環(huán)境[5]等領(lǐng)域中處理大規(guī)模復(fù)雜數(shù)據(jù)的重要工具。
函數(shù)型數(shù)據(jù)往往不能被直接觀測,實(shí)際采集結(jié)果通常是具備曲線特征的離散采樣點(diǎn),然而在函數(shù)型數(shù)據(jù)的收集過程中,數(shù)據(jù)缺失是較為常見的數(shù)據(jù)質(zhì)量問題。例如:在環(huán)境監(jiān)測和交通系統(tǒng)中,由于設(shè)備、電源、傳輸以及監(jiān)測點(diǎn)增設(shè)或停運(yùn)等原因,通常會(huì)導(dǎo)致監(jiān)測數(shù)據(jù)存在大量的條狀、塊狀缺失[5-6];在醫(yī)學(xué)領(lǐng)域中,由于個(gè)體縱向數(shù)據(jù)搜集、測量成本過高等原因,常會(huì)導(dǎo)致測量的數(shù)據(jù)存在缺失或稀疏不規(guī)則[7-8];在投資理財(cái)領(lǐng)域,股票數(shù)據(jù)經(jīng)常由于停盤等因素導(dǎo)致其中存在缺失[9]等。數(shù)據(jù)缺失不僅會(huì)妨礙現(xiàn)有FDA方法的應(yīng)用,還會(huì)降低樣本的代表性,不同程度增大統(tǒng)計(jì)分析的復(fù)雜性和難度,降低統(tǒng)計(jì)推斷的精度。因此,如何科學(xué)有效地處理缺失數(shù)據(jù)是各領(lǐng)域亟待解決的問題。
近年來,學(xué)者們對(duì)函數(shù)型數(shù)據(jù)插補(bǔ)方法展開了研究。如Yao等[10]構(gòu)建了一種基于條件期望主成分分析(Principal Components Analysis through Conditional Expectation,PACE)的稀疏不規(guī)則函數(shù)型數(shù)據(jù)插補(bǔ)方法,該方法是一種單一插補(bǔ)方法,其參數(shù)估計(jì)概念簡單,且易于實(shí)現(xiàn)。然而PACE仍存在一些不足之處:第一,PACE沒有考慮后續(xù)的模型是否適合,這導(dǎo)致估計(jì)模型參數(shù)時(shí)存在偏差[11];第二,PACE作為一種單一插補(bǔ)方法,在形成置信區(qū)間、預(yù)測區(qū)間或p值時(shí),沒有考慮插補(bǔ)的不確定性[12];第三,該方法的預(yù)測精度高度依賴數(shù)據(jù)的分布,在處理非線性數(shù)據(jù)時(shí)存在一定的局限性。為了克服單一插補(bǔ)方法局限,有學(xué)者提出了一些針對(duì)函數(shù)型數(shù)據(jù)的多重插補(bǔ)方法。例如:對(duì)于縱向缺失數(shù)據(jù),Twisk等[13]利用多重插補(bǔ)(Multiple Imputation,MI)算法估計(jì)缺失值;Ferro[14]提出了橫截面多重插補(bǔ)方法,并提供了完全信息最大似然的相似估計(jì);此外,Adam等[8]將鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)(Multiple Imputation by Chained Equations,MICE)與函數(shù)型回歸模型相結(jié)合,提出針對(duì)響應(yīng)變量缺失的fregMICE算法;Rao和Reimherr[15]提出修復(fù)函數(shù)型缺失數(shù)據(jù)的多重插補(bǔ)方法,并應(yīng)用于處理稀疏的血壓監(jiān)測數(shù)據(jù)。然而這些函數(shù)型多重插補(bǔ)方法在處理缺失數(shù)據(jù)時(shí)并未充分考慮到樣本曲線之間的相關(guān)性和規(guī)律性。如空氣質(zhì)量監(jiān)測站點(diǎn)在時(shí)空上具有一定的相關(guān)性,距離越近的監(jiān)測站點(diǎn)在同一時(shí)間段觀測到的數(shù)據(jù)之間相關(guān)性越強(qiáng),所以樣本之間的相關(guān)性是插補(bǔ)缺失值的一項(xiàng)重要依據(jù)[16]。
因此,針對(duì)上述問題,本文提出一種基于缺失森林模型(Missforest,MF)的稀疏函數(shù)型數(shù)據(jù)修復(fù)方法(Missforest Combining Class Information and PACE,CMFP),該方法以MF為核心,采用PACE初始插補(bǔ),結(jié)合K-means聚類挖掘樣本曲線之間的潛在變化模式。本文充分利用樣本曲線的函數(shù)特征和類信息,給出一種融合類信息的函數(shù)型多重插補(bǔ)方法,為稀疏函數(shù)型數(shù)據(jù)提供一種迭代插補(bǔ)方案。
1 基于缺失森林模型的稀疏函數(shù)型數(shù)據(jù)修復(fù)方法
考慮L2(τ)中的隨機(jī)函數(shù)X(t)用于描述樣本曲線的變動(dòng)軌跡,其中L2(τ)表示封閉時(shí)間間隔τ上平方可積函數(shù)的Hilbert空間。假設(shè)X(t)有均值函數(shù)E(X(t)=μ(t))和協(xié)方差函數(shù)CX(t,s)=cov(X(s),X(t)),PACE[10]通過條件期望估計(jì)函數(shù)型主成份得分,其主成分展開式如下:
Xi(t)=μX(t)+∑SymboleB@j=1ξijvj(t),(1)
其中vj(t)是CX的特征函數(shù)。主成分得分通過式(2)得到,
ξij=〈Xi-μX,vj〉。(2)
MF具體執(zhí)行步驟如算法1所示。
算法1:MF插補(bǔ)算法
輸入:n×p的函數(shù)型缺失數(shù)據(jù)矩陣X,終止迭代條件γ。
步驟1 對(duì)存在缺失值的變量運(yùn)用該變量的平均值對(duì)缺失值進(jìn)行插補(bǔ);
步驟2 計(jì)算缺失數(shù)據(jù)集X中各個(gè)變量的缺失率,將缺失率從小到大排序,并將對(duì)應(yīng)的變量存入向量m中;
步驟3 判斷是否達(dá)到γ和最大迭代次數(shù),若達(dá)到則算法停止,輸出插補(bǔ)后的矩陣Ximpnew,記為Xnew,若沒達(dá)到,則繼續(xù)步驟4—6;
步驟4 存儲(chǔ)先前插補(bǔ)后的矩陣,記為Ximpnew;
步驟5 對(duì)于s∈m,依次執(zhí)行:
①訓(xùn)練隨機(jī)森林模型:y(s)obs~x(s)obs;
②利用①訓(xùn)練好的隨機(jī)森林模型輸入x(s)mis預(yù)測y(s)mis值;
③使用y(s)mis值更新插補(bǔ)后的矩陣,記為Ximpnew;
步驟6 更新γ和最大迭代次數(shù),返回步驟3。
輸出:插補(bǔ)后的矩陣Ximp。
其中Xs表示含有缺失的變量;y(s)obs表示Xs的觀測值;y(s)mis表示Xs的缺失值;x(s)obs表示Xs以外的觀測值;x(s)mis表示Xs的缺失值以外的其余觀測值。終止條件γ定義為Ximpnew和Ximpold之間的差異,如果γ增大,則達(dá)到終止條件,算法結(jié)束,輸出插補(bǔ)結(jié)果Ximp。 Ximpnew和Ximpold間的差異定義如下:
ΔN=∑j∈N(Ximpnew-Ximpold)2∑j∈N(Ximpnew)2,
其中,N為各變量的集合。
CMFP方法的執(zhí)行步驟如算法2所示。
算法2:CMFP插補(bǔ)算法
輸入:n×p的函數(shù)型缺失數(shù)據(jù)矩陣X,終止迭代條件γ。
步驟1 對(duì)缺失數(shù)據(jù)矩陣X利用PACE進(jìn)行初始插補(bǔ);
步驟2 計(jì)算初始插補(bǔ)后數(shù)據(jù)的函數(shù)型主成分得分,使用K-means對(duì)函數(shù)型主成分得分進(jìn)行聚類,將樣本劃分為k(k=1,2,…,N)類,記最終聚類結(jié)果為{C1,C2,…,CN};
步驟3 對(duì){C1,C2,…,CN}分別使用MF方法,得到對(duì)應(yīng)的插補(bǔ)結(jié)果{C1,C2,…,CN};
步驟4 將插補(bǔ)結(jié)果{C1,C2,…,CN}按照缺失數(shù)據(jù)矩陣X中變量的順序進(jìn)行整合。
輸出:插補(bǔ)后的矩陣C。
2 模擬試驗(yàn)
2.1 試驗(yàn)設(shè)計(jì)
為驗(yàn)證CMFP方法在插補(bǔ)函數(shù)型數(shù)據(jù)時(shí)的有效性,構(gòu)造模擬數(shù)據(jù)集,并在不同缺失比例下評(píng)價(jià)其插補(bǔ)性能。本文通過以下3個(gè)步驟完成試驗(yàn)設(shè)計(jì):
步驟1 隨機(jī)構(gòu)造一個(gè)100×50的模擬數(shù)據(jù)集[15]。具體為:模擬50條獨(dú)立同分布的曲線{X1(t),…,X50(t)},這些曲線服從均值為0,協(xié)方差為CX(t,s)=σ2Γ(v)2v-12v|t-s|ρvKv2v|t-s|ρ的高斯分布,其中Kv是第二類的修正貝塞爾函數(shù)。設(shè)置參數(shù)ρ=0.5,v=5/2,σ2=1,曲線在區(qū)間[0,1]上等距選取100個(gè)時(shí)間點(diǎn)進(jìn)行估計(jì)。假設(shè)每一個(gè)觀測點(diǎn)均包含一個(gè)均值為0,方差為3的正態(tài)測量誤差,最終得到函數(shù)型數(shù)據(jù)離散的觀測矩陣。
步驟2 隨機(jī)生成含有缺失的數(shù)據(jù)集。為驗(yàn)證CMFP方法在不同缺失比例下均有較好的插補(bǔ)效果,設(shè)置缺失率分別為5%、15%、25%、35%、45%、55%。
步驟3 對(duì)比方法與評(píng)價(jià)指標(biāo)的確定。將CMFP方法與Hot.deck[17]、MF[18]、均值插補(bǔ)[19]、PACE[10]、MFP[15]、SFI[20]、HFI[20]等7種方法進(jìn)行插補(bǔ)性能的對(duì)比。評(píng)價(jià)指標(biāo)采用平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Square Error,RMSE),其計(jì)算公式如下:
MAE=1n1∑n1i=1y^i-yi,RMSE=1n1∑n1i=1(y^i-yi)2,
其中,y^i是第i個(gè)缺失值的插補(bǔ)值,yi是對(duì)應(yīng)的真實(shí)值,n1為不完整變量中缺失值的個(gè)數(shù)。MAE和RMSE值的大小反映了插補(bǔ)值與真實(shí)值之間的誤差,其值越小表示插補(bǔ)值與真實(shí)值越接近,插補(bǔ)效果越好,算法性能越高。
2.2 確定最佳聚類數(shù)目
在CMFP方法中,聚類數(shù)目會(huì)對(duì)插補(bǔ)結(jié)果產(chǎn)生一定的影響,將聚類數(shù)目設(shè)置為1~5,通過組內(nèi)誤差平方和(Sum of Squared Error,SSE)確定最佳聚類數(shù)目,不同聚類數(shù)目下SSE值如圖1所示。隨著聚類數(shù)目增多,樣本數(shù)量越來越少,距離越來越近,因此SSE值隨著聚類數(shù)目增多而減少,當(dāng)SSE值下降較大存在“肘點(diǎn)”或減少較緩慢時(shí),插補(bǔ)誤差趨于平穩(wěn),停止聚類。從圖1可以看出,當(dāng)聚類數(shù)目為2時(shí)存在“肘點(diǎn)”,且聚類數(shù)目大于等于3時(shí),SSE值下降趨勢平緩。進(jìn)一步通過RMSE和MAE 2個(gè)評(píng)價(jià)指標(biāo)確定最佳聚類數(shù)目,評(píng)價(jià)指標(biāo)結(jié)果如表1所示。在不同缺失比例下,CMFP方法聚類數(shù)目為2的插補(bǔ)誤差均小于聚類數(shù)目為3的誤差。因此,設(shè)定最佳聚類數(shù)目為2。
2.3 試驗(yàn)結(jié)果
試驗(yàn)主要通過R語言實(shí)現(xiàn),計(jì)算機(jī)環(huán)境為:Intel(R) Core(TM) i5-5200U CPU2.20 GHz,內(nèi)存4GB,Windows10 64位操作系統(tǒng)。試驗(yàn)結(jié)果如表2、表3所示:任何缺失比例下,Hot.deck、均值插補(bǔ)、PACE、SFI和HFI的插補(bǔ)誤差均較大,其原因在于Hot.deck和均值插補(bǔ)作為傳統(tǒng)多元統(tǒng)計(jì)插補(bǔ)方法,在插補(bǔ)函數(shù)型數(shù)據(jù)時(shí)并沒有考慮到樣本的曲線特征,而PACE、SFI和HFI作為單一函數(shù)型插補(bǔ)方法,插補(bǔ)有效性較差;MF、MFP和CMFP 3種方法均具有較小的插補(bǔ)誤差,且較為接近。為了直觀地觀察MF、MFP和CMFP 3種方法的插補(bǔ)效果,將評(píng)價(jià)指標(biāo)可視化,如圖2和圖3所示:在不同的缺失率下,CMFP方法相較于MF和MFP方法,RMSE分別降低了1.08%~8.53%和1.27%~8.78%,MAE分別降低了0.82%~4.91%和0.61%~4.37%,CMFP方法插補(bǔ)性能在8種方法中表現(xiàn)最優(yōu)。
3 實(shí)例應(yīng)用
為了進(jìn)一步驗(yàn)證CMFP方法的實(shí)際應(yīng)用效果,將該方法應(yīng)用于樣本曲線變化波動(dòng)較大的股票交易收盤價(jià)數(shù)據(jù)。由于股票分類中最常用的方法是按照股票行業(yè)進(jìn)行分類,并且曾有學(xué)者指出行業(yè)分類的結(jié)果會(huì)影響股票的價(jià)格[21],同時(shí)行業(yè)因素能解釋股票收益率26%波動(dòng)率的結(jié)論,說明同行業(yè)的股票數(shù)據(jù)之間具有一定的相關(guān)性,可按照行業(yè)對(duì)股票數(shù)據(jù)進(jìn)行分類,因此按照2021年第3季度證監(jiān)會(huì)上市公司行業(yè)分類結(jié)果(http://www.csrc.gov.cn/csrc/c100103/c1558619/content.shtml),以2022年1月1日—2022年12月31日交易數(shù)據(jù)中的收盤價(jià)作為研究對(duì)象來驗(yàn)證CMFP方法的適用性。現(xiàn)選取其中4類中的24只股票,包括農(nóng)業(yè)類5只、開采輔助活動(dòng)類4只、貨幣金融服務(wù)類8只、綜合類7只(表4)。
為更好地驗(yàn)證CMFP方法的有效性,選取的股票數(shù)據(jù)不含缺失值,因此對(duì)股票數(shù)據(jù)進(jìn)行5%、25%、55%的隨機(jī)缺失,并應(yīng)用CMFP方法估計(jì)缺失數(shù)據(jù)。以農(nóng)業(yè)類股票為例,基于皮爾遜相關(guān)系數(shù)將農(nóng)業(yè)類5只股票完整數(shù)據(jù)(缺失率為0)的相關(guān)系數(shù)和在不同缺失比例下插補(bǔ)后數(shù)據(jù)的相關(guān)系數(shù)進(jìn)行對(duì)比,如果完整數(shù)據(jù)與插補(bǔ)后數(shù)據(jù)的相關(guān)系數(shù)比較接近,則說明插補(bǔ)值符合原有數(shù)據(jù)規(guī)律,插補(bǔ)方法有效。從表5可看出,不論缺失比例如何,完整數(shù)據(jù)與插補(bǔ)后數(shù)據(jù)的相關(guān)關(guān)系基本保持一致,例如完整數(shù)據(jù)中隆平高科與荃銀高科的相關(guān)系數(shù)是0.8658,不同缺失比例下,利用CMFP方法插補(bǔ)后數(shù)據(jù)的相關(guān)系數(shù)分別為0.8666、0.8657和0.8684,插補(bǔ)值符合原有數(shù)據(jù)的潛在變化規(guī)律,故CMFP方法估計(jì)的缺失值有效。
此外,為了說明CMFP方法對(duì)后續(xù)統(tǒng)計(jì)分析的影響,對(duì)不同缺失率下插補(bǔ)的完整數(shù)據(jù)進(jìn)行K-means聚類,結(jié)果如表6所示。
結(jié)合表4、表6可以看出,缺失率為5%和55%時(shí),第一類股票與農(nóng)業(yè)類股票相比,增加了宏大爆破和金誠信2只股票;第二類股票與開采輔助類活動(dòng)類股票相比,有3只股票的變動(dòng),分別增加了紫金銀行,減少了宏大爆破和金誠信2只股票;第三類股票與貨幣金融服務(wù)類股票相比,有2只股票的變動(dòng),分別增加了創(chuàng)元科技,減少了紫金銀行;第四類股票與綜合類股票相比,減少了1只股票,為創(chuàng)元科技。缺失率為25%時(shí),第一類股票與農(nóng)業(yè)類股票相比,增加了1只股票,為中曼石油;第二類股票與開采輔助類活動(dòng)類股票相比,減少了1只股票,為中曼石油;第三類股票與貨幣金融服務(wù)類股票相比以及第四類股票與綜合類股票相比,均無變動(dòng)。
通過對(duì)比不同行業(yè)股票分類結(jié)果與不同缺失率下插補(bǔ)后聚類分析結(jié)果可以得到,插補(bǔ)后不同類別內(nèi)股票數(shù)量及名稱沒有明顯變動(dòng),說明插補(bǔ)值對(duì)聚類分析的影響較小。因此,CMFP方法插補(bǔ)得到的數(shù)據(jù)符合實(shí)際情況,可以在一定程度上降低缺失值對(duì)后續(xù)統(tǒng)計(jì)分析和模型性能的影響。
4 結(jié) 論
近年來,隨著數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,對(duì)稀疏函數(shù)型數(shù)據(jù)的修復(fù)方法也成為了研究的熱點(diǎn)之一。本文在彌補(bǔ)已有插補(bǔ)方法不足的基礎(chǔ)上,提出一種基于缺失森林模型的稀疏函數(shù)型數(shù)據(jù)多重插補(bǔ)方法CMFP,旨在為稀疏函數(shù)型數(shù)據(jù)插補(bǔ)提供一種可行方案。通過在模擬數(shù)據(jù)和實(shí)例數(shù)據(jù)上實(shí)驗(yàn)的結(jié)果表明,CMFP方法相較于其他插補(bǔ)方法具有較小的插補(bǔ)誤差,在一定程度上提高了插補(bǔ)的準(zhǔn)確性。同時(shí),通過相關(guān)系數(shù)矩陣表明,該方法插補(bǔ)得到數(shù)據(jù)與現(xiàn)實(shí)情況相符,可為后續(xù)統(tǒng)計(jì)分析奠定較為準(zhǔn)確的數(shù)據(jù)基礎(chǔ)。
參考文獻(xiàn):
[1] RAMSAY J O,SILVERMAN B W.Functional data analysis[M].2nd.New York:Springer,2005.
[2] HAREZLAK J,WU M C,WANG M,et al.Biomarker discovery for arsenic exposure using functional data analysis and feature learning of mass spectrometry proteomic data[J].Journal of Proteome Research,2008,7(1):217-224.
[3] GERTJEISS J,GOLDSMITH J,CRAINICEANU C,et al.Longitudinal scalar-on-functions regression with application to tractography data[J].Biostatistics,2013,14(3):447-461.
[4] RAMSAY J O,RAMSAY J B.Functional data analysis of the dynamics of the monthly index of nondurable goods production[J].Journal of Econometrics,2002,107(1):327-344.
[5] 黃恒君,漆威.海量半結(jié)構(gòu)化數(shù)據(jù)采集、存儲(chǔ)及分析:基于實(shí)時(shí)空氣質(zhì)量數(shù)據(jù)處理的實(shí)踐[J].統(tǒng)計(jì)研究,2014,31(5):10-16.
[6] CHIOU J M,ZHANG Y C,CHEN W H.A functional data approach to missing value imputation and outlier detection for traffic flow data[J].Transportmetrica B:Transport Dynamics,2014,2(2):106-129.
[7] JAMES G M,SUGAR C A.Clustering for sparsely sampled functional data[J].Journal of the American Statistical Association,2003,98(462):397-408.
[8] ADAM C,EVA P,OFER H.Elucidating age and sex-dependent association between frontal eeg asymmetry and depression:An application of multiple imputation in functional regression[J].Journal of the American Statistical Association,2022,117(537):12-26.
[9] 鐘宇航.基于廣義Rescal分解的股票缺失值填充[D].成都:西南財(cái)經(jīng)大學(xué),2022.
[10]YAO F,MULLER H,WANG J.Functional data analysis for sparse longitudinal data[J].Journal of the American Statistical Association,2005,100(470):577-590.
[11]PETROVICH J,REIMHERR M,DAVMONT C.Highly irregular functional generalized linear regression with electronic health records[J].Journal of the Royal Statistical Society Series C:Applied Statistics,2022,71(4):806-833.
[12]龐新生.缺失數(shù)據(jù)插補(bǔ)處理方法的比較研究[J].統(tǒng)計(jì)與決策,2012(24):18-22.
[13]TWISK J,DE B M,DE V W,et al.Multiple imputation of missing values was not necessary before performing a longitudinal mixed-model analysis[J].Journal of Clinical Epidemiology,2013,66(9):1022-1028.
[14]FERRO M A.Missing data in longitudinal studies:cross-sectional multiple imputation provides similar estimates to full-information maximum likelihood[J].Ann Epidemiol,2014,24(1):75-77.
[15]RAO A R,REIMHERR M.Modern multiple imputation with functional data[J].Stat,2021,10(1):e331.
[16]ZHANG H S,ZHANG Y,LI Z H,et al.Spatial-temporal traffic data analysis based on global data management using MAS[J].IEEE Transactions on Intelligent Transportation Systems,2004,5(4):267-275.
[17]BERTSIMAS D,PAWOLOWSKI C,ZHOU Y D.From predictive methods to missing data imputation:an optimization approach[J].The Journal of Machine Learning Research,2017,18(1):7133-7171.
[18]STEKHOVEN D J,BUHLMANN P.Missforest--non-parametric missing value imputation for mixed-type data[J].Bioinformatics,2012,28(1):112-118.
[19]JINNINEN H,NISKA H,TUPPURAINEN K,et al.Methods for imputation of missing values in air quality data sets[J].Atmospheric Environment,2004,38(18):2895-2907.
[20]KIDZINSKI L,HASTIE T.Longitudinal data analysis using matrix completion[J].ResearchGate,2018.
[21]張紫璇,段紅梅.基于混沌游戲表示和自適應(yīng)仿射傳播聚類的股票板塊分類[J].財(cái)會(huì)月刊,2020(19):152-155.
Restoration Method of Sparse Functional Data Based on Missforest Model
GAO Hai-yanab,LI Wei-xina,MA Wen-juana
(a.School of Statistics and Data Science,b.Key Laboratory of Digital Economy and Social Computing Science,Lanzhou University of Finance and Economics Lanzhou Gansu 730020,China)
Abstract:In the framework of functional data analysis and with the aid of Missforest model (MF),this paper proposes a functional multiple interpolation method combining class information by employing the functional interpolation method PACE based on conditional expectation principal component analysis for initial interpolation,and utilizing the correlation interpolation between samples through K-means clustering in order to solve the missing interpolation problem of functional data.The experiment results of simulation data interpolation show that the proposed method under different missing rates (5%~55%) can ensure the accuracy and effectiveness of interolation in a better way,compared with other seven imputation methods such as Hot.deck,MF,Mean imputation,PACE,MFP,SFI and HFI.At the same time,an application example of stock data has verified that the data imputed by the proposed method conforms to the actual situation and rules.
Keywords:functional data; Missforest; multiple imputation;missing imputation method