云南大學數(shù)學與統(tǒng)計學院
為突破大數(shù)據(jù)分析瓶頸,項目圍繞大數(shù)據(jù)中的高維缺失數(shù)據(jù)分析的關(guān)鍵科學問題,開展統(tǒng)計推斷理論和方法研究,提出篩選特征和插補缺失數(shù)據(jù)的新方法,取得一系列突破性研究成果,其主要創(chuàng)新點如下:
一是針對大數(shù)據(jù)的超高維問題,提出篩選特征的新方法。對大數(shù)據(jù)中的超高維異質(zhì)屬性數(shù)據(jù),通過定義與屬性水平相關(guān)的啞變量,提出不依賴于模型假設(shè)篩選特征的分類自適應(yīng)法,可直接用于屬性響應(yīng)變量有偏抽樣數(shù)據(jù)的特征篩選,克服現(xiàn)有特征篩選法沒有考慮數(shù)據(jù)異質(zhì)性和數(shù)據(jù)有偏抽樣的缺陷;對超高維連續(xù)型數(shù)據(jù),通過引入切片技術(shù)和數(shù)據(jù)融合思想,提出不依賴于模型假設(shè)篩選特征的切片融合均值方差濾波法,解決現(xiàn)有超高維特征篩選法僅適用于某一特定數(shù)據(jù)類型的缺陷;建立特征篩選方法的Sure Screening 性質(zhì)和秩相合性等漸近理論。
二是針對過度識別的矩模型,提出解決模型參數(shù)推斷中的不適定性問題的新方法。對不完全正確的發(fā)散維過度識別矩模型,提出同時估計模型參數(shù)和挑選變量的懲罰指數(shù)傾斜似然法,建立參數(shù)估計量和檢驗統(tǒng)計量的漸近理論,解決矩模型不完全正確時參數(shù)推斷中的不適定性問題,彌補現(xiàn)有矩模型參數(shù)估計理論僅限于矩模型正確之不足;針對復雜抽樣調(diào)查數(shù)據(jù),通過融合抽樣設(shè)計效應(yīng),構(gòu)建過度識別的光滑/非可微矩模型,基于獨立樣本先驗和相依壓縮先驗發(fā)展了估計模型參數(shù)和選模型的貝葉斯經(jīng)驗似然法,建立貝葉斯參數(shù)估計的相合性和貝葉斯置信區(qū)間的基于設(shè)計的頻率性質(zhì)等漸近理論,克服現(xiàn)有方法沒有融合設(shè)計效應(yīng)和相依壓縮先驗信息的缺陷,為復雜抽樣調(diào)查數(shù)據(jù)的統(tǒng)計建模提供新理論、新方法。
三是針對數(shù)據(jù)缺失問題,提出插補缺失數(shù)據(jù)的新方法,建立缺失數(shù)據(jù)模型參數(shù)估計的漸近理論。對不可忽略缺失數(shù)據(jù),基于指數(shù)傾斜模型提出不依賴于傾向得分模型的估計方程整體插補方法,克服基于傾向得分模型的傳統(tǒng)插補法依賴于Logistic 回歸模型的缺陷,開啟不可忽略缺失數(shù)據(jù)模型參數(shù)估計研究的新方向;對可忽略缺失數(shù)據(jù),提出基于缺失數(shù)據(jù)的條件分位數(shù)的插補新方法;基于提出的插補方法,對缺失數(shù)據(jù)線性模型、分位數(shù)回歸模型、非光滑估計方程和非線性動態(tài)因子分析模型等發(fā)展模型參數(shù)的穩(wěn)健估計和評價缺失數(shù)據(jù)機制模型合理性的貝葉斯局部影響分析,克服現(xiàn)有參數(shù)估計方法對異常點或重尾誤差不穩(wěn)健的問題,解決缺失數(shù)據(jù)機制模型“不可檢驗”問題;對不可忽略缺失數(shù)據(jù)估計方程,通過調(diào)整技術(shù)構(gòu)建新的估計方程,建立著名的Wilks 定理,揭示了含討厭參數(shù)的估計方程Wilks 定理不成立的原因。
圖1 手寫數(shù)據(jù)圖
一是對前瞻性樣本屬性(或分類)變量數(shù)據(jù),代表作[2]對屬性響應(yīng)變量每一水平定義一個與之相關(guān)的啞變量,根據(jù)啞變量與特征之間的相關(guān)系數(shù)定義邊際篩選統(tǒng)計量,在屬性響應(yīng)變量與特征獨立的情況下證明得到:所定義的邊際篩選統(tǒng)計量為零,這是建立分類自適應(yīng)特征篩選法的一個非常重要的結(jié)論;基于邊際篩選統(tǒng)計量的樣本估計值,提出了篩選重要特征的分類自適應(yīng)法;在一定的正則條件下證明了所提出的特征篩選方法不僅具有統(tǒng)計學上的Sure Screening 性質(zhì)和秩相合性,而且能有效地克服現(xiàn)有超高維數(shù)據(jù)特征篩選法“不考慮數(shù)據(jù)異質(zhì)性”所引起的不可靠、不穩(wěn)定等不適定性問題,突破了現(xiàn)有超高維數(shù)據(jù)特征篩選大都僅適用于變量之間具有線性相關(guān)關(guān)系的特征篩選這一限制,解決了超高維異質(zhì)性的特征篩選問題,是一種不依賴于模型假設(shè)的自適應(yīng)方法。該方法應(yīng)用到手寫數(shù)據(jù),其結(jié)果(見圖1-2)表明,說明本項目提出的方法是切實可行的。
二是針對復雜抽樣調(diào)查數(shù)據(jù),代表作[1]通過融合抽樣設(shè)計效應(yīng)構(gòu)造過度識別的非可微矩模型,基于獨立樣本先驗和相依壓縮先驗提出了估計模型有限總體參數(shù)向量和計算參數(shù)向量置信區(qū)間的半?yún)?shù)貝葉斯經(jīng)驗似然法和挑選變量的半?yún)?shù)貝葉斯經(jīng)驗似然準則,發(fā)展了計算高效且快捷的馬爾科夫鏈蒙特卡羅算法,證明了基于設(shè)計的貝葉斯經(jīng)驗似然后驗分布滿足“Bernstein-von Mises定理”、基于一般抽樣設(shè)計的貝葉斯經(jīng)驗似然估計量具有相合性、基于半?yún)?shù)貝葉斯似然的模型選擇準則在候選模型包含正確模型下具有模型選擇的相合性(即依概率1選擇正確模型)、基于不等概率抽樣設(shè)計的貝葉斯置信區(qū)間能達到預先指定的覆蓋概率,基于設(shè)計的貝葉斯經(jīng)驗似然方法克服了在模型框架下非抽樣調(diào)查數(shù)據(jù)分析需要數(shù)據(jù)獨立同分布假設(shè)、沒有考慮融合設(shè)計效應(yīng)和相依壓縮先驗信息的缺陷,基于設(shè)計的馬爾科夫鏈蒙特卡羅近似算法解決了計算邊際似然函數(shù)涉及多重積分的問題,基于樣本經(jīng)驗似然函數(shù)的貝葉斯方法克服了經(jīng)典方法對復雜抽樣設(shè)計問題普適性較弱的缺陷,為估計復雜抽樣調(diào)查數(shù)據(jù)中的非可微參數(shù)(如總體分位數(shù))提供了新理論和新方法。數(shù)值模擬結(jié)果(見表1)表明,本項目提出的方法是切實可行的。
三是針對不可忽略缺失數(shù)據(jù)的半?yún)?shù)估計方程,在沒有指定傾向得分的參數(shù)模型形式的情況下,提出了不依賴于傾向得分模型的估計方程整體插補方法,克服了傳統(tǒng)基于傾向得分模型的缺失數(shù)據(jù)插補法依賴于Logistic回歸模型假設(shè)的局限性,拓展和發(fā)展了傳統(tǒng)缺失數(shù)據(jù)插補技術(shù),開啟了不可忽略缺失數(shù)據(jù)模型參數(shù)估計研究的新方向?;诖瞬逖a技術(shù),提出了估計PS的基于驗證樣本和半?yún)?shù)經(jīng)驗似然法,將輔助信息融于Calibration條件極大地提高了傾向得分估計的效率;通過構(gòu)造逆概率加權(quán)估計方程、增廣逆概率加權(quán)估計方程提出了估計模型參數(shù)的廣義矩估計法、廣義經(jīng)驗似然估計法。數(shù)值模擬結(jié)果和實例數(shù)據(jù)結(jié)果發(fā)現(xiàn):即使錯誤指定傾向得分參數(shù)模型的函數(shù)形式,參數(shù)的廣義矩估計量仍具有相合性,且基于傾向得分參數(shù)模型的廣義矩估計法能極大地改進現(xiàn)有參數(shù)估計效果;將廣義經(jīng)驗似然法和廣義矩估計法結(jié)合對過度識別半?yún)?shù)估計方程建立了新的參數(shù)估計理論,避免了現(xiàn)有單一參數(shù)估計方法的有偏性或效率低等問題。
表1 模擬結(jié)果
表2 模擬結(jié)果
圖2 模擬結(jié)果
四是針對含不可忽略缺失數(shù)據(jù)的非線性動態(tài)因子分析模型,通過用Dirichlet Process先驗近似時間序列參數(shù)的分布,發(fā)展了估計模型參數(shù)和動態(tài)因子的貝葉斯方法,綜合Gibbs抽樣技術(shù)和Metropolis-Hastings算法提出了計算模型參數(shù)和動態(tài)因子的貝葉斯估計的混合算法;通過視擾動模型為微分幾何中的流形,借助微分幾何的理論給出了度量模型擾動大小的度量張量(Metric Tensor)的定義,發(fā)展了評價模型微小擾動的貝葉斯局部影響分析方法。模擬驗證(見圖3):這一方法不僅能識別數(shù)據(jù)集中的強影響點,更重要的是可用來判斷先驗分布假設(shè)和缺失數(shù)據(jù)機制模型的合理性,解決了缺失數(shù)據(jù)機制模型“不可用數(shù)據(jù)檢驗”這一難題。