摘" 要: 為提升數(shù)據(jù)的完整性,保證數(shù)據(jù)的效用程度,提出一種基于概率相似度的不完備數(shù)據(jù)填補方法。量化計算不完備數(shù)據(jù)的概率相似度矩陣,將計算結果和ROUSTIDA算法相結合進行不完備數(shù)據(jù)填補,獲取完備數(shù)據(jù)集。在此基礎上,構建決策規(guī)則,保證多屬性缺失數(shù)據(jù)的填補性能,并且設定可辨識矩陣優(yōu)化算法的不完備數(shù)據(jù)填補效果。測試結果顯示,所提方法能夠計算不同數(shù)據(jù)對象之間的相似度值,可有效完成數(shù)據(jù)填補,填補后數(shù)據(jù)的完備程度均在95%以上,填補數(shù)據(jù)的填補值誤差均在0.17以下,填補效果良好。
關鍵詞: 概率相似度; 不完備數(shù)據(jù); 數(shù)據(jù)填補; ROUSTIDA算法; 相似度矩陣; 可辨識矩陣; 決策規(guī)則
中圖分類號: TN919?34; TP301" " " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)04?0079?04
Research on filling incomplete data based on probability similarity
TONG Lihong, SUN Shibao
(Henan University of Science and Technology, Luoyang 471000, China)
Abstract: In order to improve the integrity of data and ensure the utility level of data, a method for filling incomplete data based on probability similarity is proposed. The probabilistic similarity matrix of incomplete data is calculated quantitatively, and the calculated results are combined with ROUSTIDA algorithm to fill the incomplete data, so as to obtain the complete data set. On this basis, the decision rules are constructed to ensure the filling performance of missing data with multiple attributes, and the incomplete data filling effect of identifiable matrix optimization algorithm is set. The testing results show that the proposed method can calculate the similarity values between different data objects and effectively complete data fill. The completeness of the filled data is above 95%, and the filling error of the filled data is below 0.17, indicating good filling effect.
Keywords: probability similarity; incomplete data; data fill; ROUSTIDA algorithm; similarity matrix; discernible matrix; decision rule
0" 引" 言
在實際應用和研究中,由于各種原因,數(shù)據(jù)往往會存在缺失或不完整的情況,這給數(shù)據(jù)分析和建模帶來了挑戰(zhàn)[1]。因此,研究不完備數(shù)據(jù)填補方法旨在發(fā)展有效的技術和算法,能夠利用已有數(shù)據(jù)的信息填補缺失部分,提高數(shù)據(jù)處理和分析的準確性和效率,從而更好地支持決策制定和問題解決[2?3],為各行業(yè)提供更可靠的數(shù)據(jù)處理方案,推動數(shù)據(jù)科學和人工智能技術的發(fā)展和應用。
文獻[4]為實現(xiàn)數(shù)據(jù)的有效填補,采用稀疏向量描述缺失數(shù)據(jù),通過構建稀疏矩陣進行數(shù)據(jù)的稀疏化處理,再利用迭代加權閾值算法完成數(shù)據(jù)填補。在應用過程中,如果數(shù)據(jù)屬性差異較大,該方法的填補效果不理想。文獻[5]為保證數(shù)據(jù)填補效果,依據(jù)不完整數(shù)據(jù)屬性之間的關聯(lián)復雜程度構建數(shù)據(jù)填補模型,選擇學習能力較好的單輸出子網完成填補。但在應用過程中,當屬性值存在不唯一填補對象時,該方法的填補效果較差。文獻[6]首先提取數(shù)據(jù)特征,并利用KPCA進行降維,再設計改進的GAN結構實現(xiàn)對低維向量的數(shù)據(jù)填補。這一研究使得數(shù)據(jù)處理更高效,但是其填補誤差較大。文獻[7]提出了基于強化學習的多變量時序數(shù)據(jù)補全方法,引入圖神經網絡模塊預測缺失值,并為強化學習提供狀態(tài)向量和獎勵,指導選擇相似節(jié)點和建立時序關系,降低誤差率。然而該方法無法準確捕捉屬性之間的復雜關系和非線性模式,忽略了特征之間的潛在依賴關系,導致填補結果準確性較低。
概率相似度是用于衡量兩個概率分布結果之間相似程度的一種方法,該算法在填補過程中可通過選擇合理的決策規(guī)則進行填補數(shù)據(jù)的選擇,保證不完備數(shù)據(jù)的填補效果。因此,文中提出一種基于概率相似度的不完備數(shù)據(jù)填補方法。
1" 不完備數(shù)據(jù)填補算法設計
1.1" 不完備數(shù)據(jù)的概率相似性量化計算
概率相似性算法是依據(jù)對象之間的相似關系完成不完備數(shù)據(jù)的填補,并且該關系為定性關系,在不完備數(shù)據(jù)填補之前,首先對對象之間的概率相似性進行量化計算。
用[I=X,A,V,f]表示不完備數(shù)據(jù)集,其中:[X=x1,x2,…,xn]、[A=a1,a2,…,am]分別表示對象和對象屬性兩種集合;[V]表示值域;[f]表示映射函數(shù),其主要作用是實現(xiàn)各個屬性的賦值。依據(jù)決策屬性值對[I]進行劃分,形成不同的子系統(tǒng),即[I=I1?I2?…?In];如果兩個給定對象分別用[xi]和[xj]表示,且滿足[xi,xj∈In],則在相同的決策子系統(tǒng)中,[xi]和[xj]之間的相似度計算公式為:
[μ+xi,xj=ek∈EP+ekxi,xj] (1)
式中:[P+ekxi,xj]表示相似概率;[E]表示值域;[ek]表示值域中的第[k]個屬性。進行條件屬性填補時,當[μ+xi,xj]的值較高時,可提升數(shù)據(jù)填補效果[8]。但是僅依據(jù)相同決策子系統(tǒng)中對象的相似度進行填補,不考慮不同決策子系統(tǒng)中[xi]和[xj]之間的相似度,[xi]和[xj]在條件屬性上的取值會相同,進而引發(fā)規(guī)則沖突。因此,為保證填補效果,文中對上述兩種情況下[xi]和[xj]之間的[μ+xi,xj]結果進行考慮,不同決策子系統(tǒng)中[xi]和[xj]之間的相似度計算公式為:
[μ-xi,xj=i,j=1Inxi,xj2] (2)
依據(jù)公式(1)和公式(2)計算雙概率相似度矩陣,其計算公式為:
[μi,j=μ+xi,xj," xi,xj∈In,i≠jμ-xi,xj," xi∈In,xj?In,i≠j1," i=j] (3)
1.2" 數(shù)據(jù)填補方法
傳統(tǒng)方法往往基于簡單的插值算法或統(tǒng)計方法來填補缺失值,無法準確捕捉屬性之間的復雜關系和非線性模式,并且獨立地處理每個特征的缺失值,忽略了特征之間的潛在依賴關系,導致填補結果缺乏一致性和準確性。針對該問題,本文在完成不完備數(shù)據(jù)的概率相似性量化計算后,采用ROUSTIDA(Robust Spline?based Imputation for Data Augmentation)算法進行不完備數(shù)據(jù)填補。ROUSTIDA算法利用樣條插值方法對缺失值進行填補,可以更準確地建模數(shù)據(jù)的非線性關系和變化趨勢,提高填補結果的準確性。
1.2.1" 不完備數(shù)據(jù)填補流程
依據(jù)1.1節(jié)中獲取的[μi,j]結果,結合ROUSTIDA算法進行不完備數(shù)據(jù)填補,詳細步驟如下。
輸入:不完備數(shù)據(jù)[I=X,A,V,f];
輸出:完備數(shù)據(jù)[I=X,A,V,f]。
步驟1:依據(jù)決策屬性值對[I]進行劃分,形成不同的子系統(tǒng),即[I=I1?I2?…?In],計算各個子系統(tǒng)的可辨識性。
步驟2:計算與[xi]相似度最大的對象,構成集合。
步驟3:重復循環(huán)上述步驟,獲取各個子系統(tǒng)的完備數(shù)據(jù)集。
步驟4:如果[I=I1?I2?…?In],停止循環(huán),生成完備數(shù)據(jù)集。
1.2.2" 決策規(guī)則構建
決策規(guī)則的確定對于數(shù)據(jù)填補效果有直接影響,因此為保證填補效果,進行決策規(guī)則構建,詳細步驟如下。
步驟1:依據(jù)1.2.1節(jié)的處理流程對不完備數(shù)據(jù)進行處理后[9?10],獲取完備后的全部決策屬性表。
步驟2:構建根節(jié)點[N],計算決策屬性對于樣本集的劃分結果,如果所有屬性值一致,將其標記為[J],進入步驟4;反之,進入下一步。
步驟3:計算近似分類質量,同時計算各個屬性的[μi,j]結果。將其中[μi,j]的最大值對應的決策屬性作為測試屬性,計算該屬性結果的數(shù)量[n],依據(jù)數(shù)量結果對數(shù)據(jù)集進行劃分。
步驟4:計算各個子集的抑制因子[λekxi],并將計算結果和閾值[κ]進行對比,如果[λek≥κ],則將[ek]上[xi]的取值[hek,xi]定義為條件屬性結果,葉節(jié)點則直接采用[A0]表示,完成該子集計算,所有子集完成計算后停止算法[11?13];如果[λeklt;κ],將當前[hek,xi]值定義為當前對象集,并重新回轉至步驟3。
依據(jù)上述步驟即可獲取決策規(guī)則,依據(jù)該規(guī)則實現(xiàn)不完備數(shù)據(jù)的處理,保證多屬性缺失數(shù)據(jù)的填補性能。
1.2.3" 算法優(yōu)化
ROUSTIDA算法在應用過程中,如果多個對象之間相似度較高,該算法無法實現(xiàn)不完備數(shù)據(jù)填補,因此,文中為有效解決該問題,對ROUSTIDA算法進行優(yōu)化。
該優(yōu)化算法主要是設定可辨識矩陣[R],對各個屬性級別之間的差值進行辨識,保證總差值最小。如果該矩陣中第[i]行第[j]列元素用[Ri,j]表示,其計算公式為:
[Ri,j=i,j=1nXi-Xj] (4)
式中[Xi]和[Xj]分別表示第[i]行的對象屬性和第[j]列的對象屬性。各個屬性級別之間的差值計算公式為:
[dj=i,j∈nRi,j?akxi-akxj] (5)
依據(jù)公式(5)的計算確定屬性類別,該值越小表明兩個屬性之間的相似度越高。本文依據(jù)該結果調整無差別對象的選擇標準,并且依據(jù)差值最小的對象進行對應的屬性填充。
2" 測試分析
為測試文中方法的應用效果,在測試數(shù)據(jù)庫中隨機選擇3種數(shù)據(jù)集進行測試,分別用Y1(該數(shù)據(jù)集中共包含155個對象,5個對象屬性,3種類別的植物)、Y2(該數(shù)據(jù)集中共包含300個對象,30個對象屬性,7種類別的動物)、Y3(該數(shù)據(jù)集中共包含225個對象,10個對象屬性,4種類機器故障)表示。文中方法在進行不完備數(shù)據(jù)填補時,需計算[μi,j]的結果,依據(jù)該結果進行數(shù)據(jù)填補。為驗證文中方法的應用效果,隨機在3種數(shù)據(jù)集中選擇10組給定對象,計算各組對象的[μi,j]結果,如表1所示。
文中方法通過量化計算不完備數(shù)據(jù)的概率相似度矩陣,以概率的角度衡量數(shù)據(jù)對象之間的相似度,為后續(xù)數(shù)據(jù)填補提供了準確的依據(jù)。對表1計算結果進行分析后得出:采用文中方法進行3種數(shù)據(jù)集中10組對象之間相似度的計算后,可判斷對象之間的相似程度,為不完備數(shù)據(jù)填補提供可靠依據(jù)。
為驗證文中方法對于不完備數(shù)據(jù)的填補效果,采用該方法進行數(shù)據(jù)填補,獲取的數(shù)據(jù)填補前后的結果如圖1所示。
對圖1進行分析后得出:原始數(shù)據(jù)中存在明顯的數(shù)據(jù)缺失現(xiàn)象,通過文中方法進行數(shù)據(jù)填補后,能夠有效完成缺失數(shù)據(jù)的填補,并且填補效果較好;填補后數(shù)據(jù)的整體性較好,不存在明顯數(shù)據(jù)缺失分布。
為驗證文中方法對于不完備數(shù)據(jù)的填補效果,測試該方法在不同的樣本數(shù)量下,隨著缺失數(shù)據(jù)比例的逐漸增加,對不完備數(shù)據(jù)進行填補后數(shù)據(jù)的完備程度,結果如圖2所示。
對圖2進行分析后得出:在不同的樣本數(shù)量下,隨著缺失數(shù)據(jù)比例的逐漸增加,采用文中方法進行不完備數(shù)據(jù)填補后,數(shù)據(jù)的完備程度均在95%以上,能夠完成不完備數(shù)據(jù)的填補,應用效果良好。
為進一步驗證文中方法對于不完備數(shù)據(jù)的填補效果,選擇填補值誤差[εFVE]作為評價指標,該值主要用于衡量填補數(shù)據(jù)的有效性,取值在0~1之間,其值越大表明填補的數(shù)據(jù)有效性越差,其值越小則說明填補的數(shù)據(jù)有效性越佳。該指標的計算公式為:
[εFVE=1Ni=1NOi-Oi2] (6)
式中:[N]表示缺失的數(shù)據(jù)數(shù)量;[Oi]和[Oi]分別表示實際數(shù)據(jù)值和填補數(shù)據(jù)值。
依據(jù)公式(6)計算文中方法在不同的缺失比例下,對3種數(shù)據(jù)進行填補后的[εFVE],結果見表2。
對表2計算結果進行分析后得出:3種數(shù)據(jù)集在發(fā)生不同比例的缺失后,采用文中方法對其進行填補,填補數(shù)據(jù)的填補值誤差均在0.17以下,說明本文方法的填補效果良好,能夠保證填補后數(shù)據(jù)的有效性。這是因為本文方法將概率相似度計算結果與ROUSTIDA算法結合,利用ROUSTIDA算法可以更準確地建模數(shù)據(jù)的非線性關系和變化趨勢的優(yōu)勢進行不完備數(shù)據(jù)填補,從而獲取完備數(shù)據(jù)集。
3" 結" 論
本文提出一種基于概率相似度的不完備數(shù)據(jù)填補方法,主要研究內容如下。
1) 通過量化計算不完備數(shù)據(jù)的概率相似度矩陣,以概率的角度衡量數(shù)據(jù)對象之間的相似度,為后續(xù)數(shù)據(jù)填補提供準確的依據(jù)。
2) 將概率相似度計算結果與ROUSTIDA算法結合,利用ROUSTIDA算法的優(yōu)勢進行不完備數(shù)據(jù)填補,從而獲取完備數(shù)據(jù)集。
3) 針對多屬性缺失數(shù)據(jù)建立相應的決策規(guī)則,以保證數(shù)據(jù)填補的性能和準確性。
4) 設計了可辨識矩陣優(yōu)化算法,進一步提升不完備數(shù)據(jù)填補效果,提高填補后數(shù)據(jù)的完備程度和準確性。
5) 經過測試驗證,本文方法能夠有效計算數(shù)據(jù)對象間的相似度值,實現(xiàn)數(shù)據(jù)的填補,填補后數(shù)據(jù)的完備度達到95%以上,填補值誤差在0.17以下,填補效果顯著。
綜上所述,本文方法結合概率相似度計算、ROUSTIDA算法和決策規(guī)則,在不完備數(shù)據(jù)填補領域取得了良好的填補效果和創(chuàng)新突破??紤]到實際數(shù)據(jù)中的不確定性和噪聲,未來將嘗試建立更健壯的模型來處理不完備數(shù)據(jù),在數(shù)據(jù)填補過程中量化和管理不確定性信息。
參考文獻
[1] 孫林,李夢夢,徐久成.基于鄰域區(qū)分度的不完備混合數(shù)據(jù)屬性約簡方法[J].江蘇科技大學學報(自然科學版),2022,36(1):82?89.
[2] 劉恒孜,呂寧,姜侯,等.基于DCT?PLS算法的MODIS LST缺值填補方法研究[J].地球信息科學學報,2022,24(2):378?390.
[3] 盧繼哲,劉宣,唐悅,等.基于聚類和LSTM的電力分鐘凍結數(shù)據(jù)缺失值填充方法[J].控制工程,2022,29(4):611?616.
[4] 任兵,郭艷,李寧,等.基于壓縮感知的相關性數(shù)據(jù)填補方法[J].計算機科學,2023,50(7):82?88.
[5] 關李晶,何潔帆,張立勇,等.基于單輸出子網迭代學習的缺失值填補方法[J].大連理工大學學報,2022,62(4):427?432.
[6] 蔡榕,楊雪,田江,等.基于相關性分析和生成對抗網絡的電網缺失數(shù)據(jù)填補方法[J].電力工程技術,2024,43(1):229?237.
[7] 陳俊揚,戴志江,李雪亮,等.基于強化學習的多變量時序數(shù)據(jù)缺失值補全方法[J].中國科技論文,2023,18(11):1205?1212.
[8] 詹康,王逸文,何熊熊.基于數(shù)據(jù)相似度和引力理論的密度峰聚類算法[J].高技術通訊,2023,33(1):88?96.
[9] 董云薪,林耿,張清偉,等.基于Apriori算法填充數(shù)據(jù)及改進相似度的推薦算法[J].計算機科學,2022,49(2):307?311.
[10] 黃清浩,甘世林,仲子航,等.假想策略下處理缺失數(shù)據(jù)的參照填補法[J].中國衛(wèi)生統(tǒng)計,2023,40(3):331?334.
[11] 喬非,翟曉東,王巧玲.面向多維特性數(shù)據(jù)的缺失值檢測及填補方法對比[J].同濟大學學報(自然科學版),2023,51(12):1972?1982.
[12] 鄭智泉,陳妍,王孟孟,等.不同缺失率下的數(shù)據(jù)填補算法穩(wěn)定性研究[J].統(tǒng)計與決策,2023,39(8):12?17.
[13] 王一棠,龐勇,張立勇,等.基于TS建模的不完整盾構機數(shù)據(jù)填補算法[J].機械設計,2022,39(3):26?31.
作者簡介:仝利紅(1978—),女,河南洛陽人,碩士研究生,實驗師,研究方向為大數(shù)據(jù)分析、軟件工程。
孫士保(1970—),男,河南信陽人,博士研究生,教授,研究方向為智能信息處理、機器學習、數(shù)據(jù)挖掘。