隨機(jī)缺失函數(shù)型數(shù)據(jù)的k近鄰估計及其應(yīng)用

2020-04-08 11:17:10程彥茹凌能祥

合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版) 2020年3期

關(guān)鍵詞：估計量樣本量結(jié)節(jié)

程彥茹, 凌能祥

(合肥工業(yè)大學(xué) 數(shù)學(xué)學(xué)院,安徽合肥 230601)

考慮函數(shù)型數(shù)據(jù)非參數(shù)回歸模型：

Y=m(χ)+ε

(1)

其中,Y為響應(yīng)變量(標(biāo)量);χ為取值于無限維向量空間SH?H中的函數(shù)型解釋變量;m(·)為從SH到R的未知回歸算子;ε為隨機(jī)誤差,且滿足:

E(ε|χ)=0,a.s.;0

文獻(xiàn)[1]提出的函數(shù)型非參數(shù)回歸算子的k近鄰估計量,用交叉驗(yàn)證尋找最優(yōu)的正整數(shù)k來代替?zhèn)鹘y(tǒng)NW核回歸估計中的連續(xù)窗寬h,更符合函數(shù)型數(shù)據(jù)的局部結(jié)構(gòu),相關(guān)文獻(xiàn)可參見文獻(xiàn)[2-5]。

考慮到實(shí)際中觀測手段、天氣狀況及儀器設(shè)備等影響,收集的數(shù)據(jù)常常是不完全的,響應(yīng)變量隨機(jī)缺失就是一種常見的情形。因此本文主要研究響應(yīng)變量Y隨機(jī)缺失時非參數(shù)回歸模型(1)的k近鄰估計,即當(dāng)Y缺失時,δ=0;反之δ=1,并且滿足給定χ時,δ與Y是條件獨(dú)立的,即P(δ=1|Y,χ)=P(δ=1|χ)=p(χ),a.s.。

1 估計量的構(gòu)造及主要結(jié)果

1.1 模型及估計

假設(shè)隨機(jī)向量{(χi,δi,Yi)|1≤i≤n}來自總體(χ,δ,Y),Yi缺失時,δi=0;反之δi=1。則Yi=m(χi)+εi,i=1, 2,…,n。m(·)的k近鄰回歸估計定義如下:

(2)

其中,K(·)為實(shí)值核函數(shù);d(·,·)為空間H上的半度量;Hn,k(χ)為隨機(jī)窗寬,滿足:

其中,B(χ,h)為以χ為中心,h>0為半徑的小球。若Hn,k(χ)=hn(χ),其中hn(χ)為一列非隨機(jī)正序列,且隨著n→∞時,趨近于0,則(2)式轉(zhuǎn)化為文獻(xiàn)[6]提出的NW核估計量，即

(3)

為了通過熵的概念來證明H的子集SH上的一致結(jié)果,給出空間SH上Kolmogorovε熵的定義為ψSH(ε)=log(Nε(SH)),其中Nε(SH)為在空間H上必須覆蓋SH的開球半徑ε的最小值。

1.2 主要結(jié)果

由于篇幅有限,一些前提假設(shè)可見文獻(xiàn)[4]中假設(shè)H1～H6。以下是估計量的漸近性質(zhì)。

(4)

2 引理及定理證明

為證明定理1,需要如下2個引理。類似于文獻(xiàn)[4],令{(Ai,Bi)|1≤i≤n}為取值于(Ω×R,A×(R))的隨機(jī)向量,其中(Ω,A)為通常的可測空間。令SΩ為Ω的固定子集,G(·,·):R×(SΩ×Ω)→R+為函數(shù),且?χ∈SΩ,G(·, (χ,·))為可測的。同時對?t,t′∈R,t

G(t,z)≤G(t′,z), ?z∈SΩ×Ω。

對于?χ∈SΩ,n≥1,定義:

(2) 當(dāng)n→∞時,有

O(un)。

則有:

(5)

證明見文獻(xiàn)[4]。

引理2 在文獻(xiàn)[4]假設(shè)H1～H6下,有

(6)

證明見文獻(xiàn)[7]。

下面在引理1、引理2的基礎(chǔ)上給出定理1的證明。

嚴(yán)格意義上講，甲狀腺結(jié)節(jié)性病變從其發(fā)病特點(diǎn)上區(qū)分，可分為兩類。第一類，單發(fā)性結(jié)節(jié)；第二類，多發(fā)性結(jié)節(jié)。在臨床診斷治療領(lǐng)域，需要密切關(guān)注的是病變性的結(jié)節(jié)特征。具體來看，包括結(jié)節(jié)的大小、部位、質(zhì)地、功能等。如上所述，甲狀腺結(jié)節(jié)病變主要呈現(xiàn)為單發(fā)性和多發(fā)性，包括有增生性、腫瘤性、膠體性、囊性、甲狀腺炎性等?？傊?，在臨床治療尤其是早期控制階段，對不同類型的甲狀腺結(jié)節(jié)性病變予以對應(yīng)的治療措施是非常關(guān)鍵的。正如開篇所言，B超檢查診斷的臨床意義巨大。

3 模擬研究

本節(jié)通過模擬研究來驗(yàn)證k近鄰回歸估計的有效性,同時在有限樣本下將本文提出的k近鄰回歸估計與文獻(xiàn)[7]提出的NW核回歸估計的預(yù)測效果進(jìn)行對比。

t∈[0, π],

n=200的曲線樣本如圖1所示。同時,取核函數(shù)為K(u)=1-u2,u∈(0,1),半度量為：

?χi,χj∈SH。

圖1 n=200的曲線樣本

其中，MSEj為第j個檢驗(yàn)樣本的MSE,具體結(jié)果見表1所列。本文缺失機(jī)制同文獻(xiàn)[8],α越大,缺失率越小。

從表1可以看出,在相同樣本量下,2種估計量的AMSE都隨著缺失率的減小(α增大)而逐漸減小;在缺失率相同的情況下,樣本量越大,2種估計量的預(yù)測效果越好;而在樣本量與缺失率均相同的前提下,k近鄰估計量的預(yù)測效果比NW核估計量的預(yù)測效果好。表中數(shù)據(jù)說明,k近鄰估計量可以較好地處理缺失數(shù)據(jù)的預(yù)測問題；結(jié)合文獻(xiàn)[1,2,9]的結(jié)論，可以發(fā)現(xiàn)在任何情況下,k近鄰估計量與NW核估計量相比有明顯的優(yōu)勢。

表1 2種估計量在不同樣本量和缺失率下預(yù)測的AMSE

4 真實(shí)數(shù)據(jù)分析

圖2 N=781條溫度曲線

圖3 不同缺失率下的預(yù)測結(jié)果

5 結(jié) 論

理論驗(yàn)證k近鄰估計的合理性后,模擬實(shí)驗(yàn)以及真實(shí)數(shù)據(jù)分析都展示了k近鄰估計在函數(shù)型數(shù)據(jù)為解釋變量,響應(yīng)變量隨機(jī)缺失時的預(yù)測能力,與NW核估計相比,k近鄰估計不僅預(yù)測效果更好,同時也考慮到了數(shù)據(jù)的局部性質(zhì),為函數(shù)型數(shù)據(jù)在實(shí)際生活中的應(yīng)用提供了更廣闊的平臺。