程彥茹, 凌能祥
(合肥工業(yè)大學(xué) 數(shù)學(xué)學(xué)院,安徽 合肥 230601)
考慮函數(shù)型數(shù)據(jù)非參數(shù)回歸模型:
Y=m(χ)+ε
(1)
其中,Y為響應(yīng)變量(標(biāo)量);χ為取值于無限維向量空間SH?H中的函數(shù)型解釋變量;m(·)為從SH到R的未知回歸算子;ε為隨機(jī)誤差,且滿足:
E(ε|χ)=0,a.s.;0 文獻(xiàn)[1]提出的函數(shù)型非參數(shù)回歸算子的k近鄰估計量,用交叉驗(yàn)證尋找最優(yōu)的正整數(shù)k來代替?zhèn)鹘y(tǒng)NW核回歸估計中的連續(xù)窗寬h,更符合函數(shù)型數(shù)據(jù)的局部結(jié)構(gòu),相關(guān)文獻(xiàn)可參見文獻(xiàn)[2-5]。 考慮到實(shí)際中觀測手段、天氣狀況及儀器設(shè)備等影響,收集的數(shù)據(jù)常常是不完全的,響應(yīng)變量隨機(jī)缺失就是一種常見的情形。因此本文主要研究響應(yīng)變量Y隨機(jī)缺失時非參數(shù)回歸模型(1)的k近鄰估計,即當(dāng)Y缺失時,δ=0;反之δ=1,并且滿足給定χ時,δ與Y是條件獨(dú)立的,即P(δ=1|Y,χ)=P(δ=1|χ)=p(χ),a.s.。 假設(shè)隨機(jī)向量{(χi,δi,Yi)|1≤i≤n}來自總體(χ,δ,Y),Yi缺失時,δi=0;反之δi=1。則Yi=m(χi)+εi,i=1, 2,…,n。m(·)的k近鄰回歸估計定義如下: (2) 其中,K(·)為實(shí)值核函數(shù);d(·,·)為空間H上的半度量;Hn,k(χ)為隨機(jī)窗寬,滿足: 其中,B(χ,h)為以χ為中心,h>0為半徑的小球。若Hn,k(χ)=hn(χ),其中hn(χ)為一列非隨機(jī)正序列,且隨著n→∞時,趨近于0,則(2)式轉(zhuǎn)化為文獻(xiàn)[6]提出的NW核估計量,即 (3) 為了通過熵的概念來證明H的子集SH上的一致結(jié)果,給出空間SH上Kolmogorovε熵的定義為ψSH(ε)=log(Nε(SH)),其中Nε(SH)為在空間H上必須覆蓋SH的開球半徑ε的最小值。 由于篇幅有限,一些前提假設(shè)可見文獻(xiàn)[4]中假設(shè)H1~H6。以下是估計量的漸近性質(zhì)。 (4) 為證明定理1,需要如下2個引理。類似于文獻(xiàn)[4],令{(Ai,Bi)|1≤i≤n}為取值于(Ω×R,A×(R))的隨機(jī)向量,其中(Ω,A)為通常的可測空間。令SΩ為Ω的固定子集,G(·,·):R×(SΩ×Ω)→R+為函數(shù),且?χ∈SΩ,G(·, (χ,·))為可測的。同時對?t,t′∈R,t G(t,z)≤G(t′,z), ?z∈SΩ×Ω。 對于?χ∈SΩ,n≥1,定義: (2) 當(dāng)n→∞時,有 O(un)。 則有: (5) 證明見文獻(xiàn)[4]。 引理2 在文獻(xiàn)[4]假設(shè)H1~H6下,有 (6) 證明見文獻(xiàn)[7]。 下面在引理1、引理2的基礎(chǔ)上給出定理1的證明。 嚴(yán)格意義上講,甲狀腺結(jié)節(jié)性病變從其發(fā)病特點(diǎn)上區(qū)分,可分為兩類。第一類,單發(fā)性結(jié)節(jié);第二類,多發(fā)性結(jié)節(jié)。在臨床診斷治療領(lǐng)域,需要密切關(guān)注的是病變性的結(jié)節(jié)特征。具體來看,包括結(jié)節(jié)的大小、部位、質(zhì)地、功能等。如上所述,甲狀腺結(jié)節(jié)病變主要呈現(xiàn)為單發(fā)性和多發(fā)性,包括有增生性、腫瘤性、膠體性、囊性、甲狀腺炎性等??傊?,在臨床治療尤其是早期控制階段,對不同類型的甲狀腺結(jié)節(jié)性病變予以對應(yīng)的治療措施是非常關(guān)鍵的。正如開篇所言,B超檢查診斷的臨床意義巨大。 本節(jié)通過模擬研究來驗(yàn)證k近鄰回歸估計 的有效性,同時在有限樣本下將本文提出的k近鄰回歸估計與文獻(xiàn)[7]提出的NW核回歸估計的預(yù)測效果進(jìn)行對比。 t∈[0, π], n=200的曲線樣本如圖1所示。同時,取核函數(shù)為K(u)=1-u2,u∈(0,1),半度量為: ?χi,χj∈SH。 圖1 n=200的曲線樣本 其中,MSEj為第j個檢驗(yàn)樣本的MSE,具體結(jié)果見表1所列。本文缺失機(jī)制同文獻(xiàn)[8],α越大,缺失率越小。 從表1可以看出,在相同樣本量下,2種估計量的AMSE都隨著缺失率的減小(α增大)而逐漸減小;在缺失率相同的情況下,樣本量越大,2種估計量的預(yù)測效果越好;而在樣本量與缺失率均相同的前提下,k近鄰估計量的預(yù)測效果比NW核估計量的預(yù)測效果好。表中數(shù)據(jù)說明,k近鄰估計量可以較好地處理缺失數(shù)據(jù)的預(yù)測問題;結(jié)合文獻(xiàn)[1,2,9]的結(jié)論,可以發(fā)現(xiàn)在任何情況下,k近鄰估計量與NW核估計量相比有明顯的優(yōu)勢。 表1 2種估計量在不同樣本量和缺失率下預(yù)測的AMSE 圖2 N=781條溫度曲線 圖3 不同缺失率下的預(yù)測結(jié)果 理論驗(yàn)證k近鄰估計的合理性后,模擬實(shí)驗(yàn)以及真實(shí)數(shù)據(jù)分析都展示了k近鄰估計在函數(shù)型數(shù)據(jù)為解釋變量,響應(yīng)變量隨機(jī)缺失時的預(yù)測能力,與NW核估計相比,k近鄰估計不僅預(yù)測效果更好,同時也考慮到了數(shù)據(jù)的局部性質(zhì),為函數(shù)型數(shù)據(jù)在實(shí)際生活中的應(yīng)用提供了更廣闊的平臺。1 估計量的構(gòu)造及主要結(jié)果
1.1 模型及估計
1.2 主要結(jié)果
2 引理及定理證明
3 模擬研究
4 真實(shí)數(shù)據(jù)分析
5 結(jié) 論