趙媛媛 季潔
摘 要:針對國省干線公路采集的交通數(shù)據(jù)存在缺失值的情況,文章提出了基于拉格朗日插值法的缺失數(shù)據(jù)恢復方法。首先,找出缺失數(shù)據(jù)所在位置以及所屬時間段;其次,采集該位置和該時間段的歷史平均交通數(shù)據(jù);再次,利用拉格朗日插值法對缺失數(shù)據(jù)進行填補;最后,比較正常數(shù)據(jù)算出的插補值與真實數(shù)據(jù),評價插補的結果。試驗結果顯示,該方法簡單、方便、易實現(xiàn),可以完成對簡單的公路數(shù)據(jù)缺失值的恢復,確保數(shù)據(jù)在交通控制、路網(wǎng)規(guī)劃等應用中的可靠性。
關鍵詞:拉格朗日插值法;缺失值;交通數(shù)據(jù)
1? ? 研究背景
對國省干線的交通狀況進行分析時,需要利用各種先進的交通信息采集技術采集國省干線上的交通數(shù)據(jù),并對采集到的數(shù)據(jù)進行相應的處理和應用,如集成、抽樣、壓縮、存儲、發(fā)布等[1]。這些數(shù)據(jù)中隱含的交通時空分布規(guī)律對有關部門在交通控制、路網(wǎng)規(guī)劃等方面有著較大的參考和利用價值[2]。
然而,由于交通采集設備故障、施工損壞、環(huán)境和氣象惡劣等因素的存在,會導致所采集到的交通數(shù)據(jù)有缺失的現(xiàn)象。數(shù)據(jù)缺失降低了數(shù)據(jù)的質量,對利用數(shù)據(jù)進行交通運行狀況分析、交通控制、路網(wǎng)規(guī)劃等均會產(chǎn)生不利的影響。面對海量的交通數(shù)據(jù),數(shù)據(jù)缺失不可避免,因此需要選擇合適的方法對缺失數(shù)據(jù)進行處理,以此來保證數(shù)據(jù)的質量,保證數(shù)據(jù)在交通控制、路網(wǎng)規(guī)劃等方面的可用性。
2? ? 現(xiàn)狀分析
目前,常用的缺失值處理方法大致有兩種:刪除和填充。(1)刪除數(shù)據(jù)即剔除存在缺失的一組數(shù)據(jù),從而保證保留的數(shù)據(jù)是完整的。這種方法簡單但需犧牲某些數(shù)據(jù)屬性,而各個數(shù)據(jù)間存在著一定的關聯(lián),直接剔除可能會對數(shù)據(jù)的分析結果造成不利影響,數(shù)據(jù)刪除不常用于缺失值處理。(2)填充數(shù)據(jù)即選取合適的數(shù)據(jù)填補缺失數(shù)據(jù),以保證數(shù)據(jù)集的完整性,利用數(shù)據(jù)填充的方法可以獲得較優(yōu)質的數(shù)據(jù)分析結果。針對國省干線交通數(shù)據(jù)的缺失值,可以借助已采集的正確數(shù)據(jù)進行異常數(shù)據(jù)的差值處理,因為拉格朗日差值法有著簡單、方便、易實現(xiàn)的優(yōu)點,所以將其用于國省干線簡單缺失數(shù)據(jù)的恢復可以取得較理想的結果。
拉格朗日插值法廣泛應用于各個領域的數(shù)據(jù)處理,取得了較好的效果。楊皓翔等[4]運用拉格朗日插值法減少了邊坡位移監(jiān)測數(shù)據(jù)的誤差對新陳代謝模型預測精度的影響。丁閃閃等[7]運用平均法和拉格朗日插值法對交通數(shù)據(jù)采集過程中的異常數(shù)據(jù)進行修正,結果表明,拉格朗日插值法相較于傳統(tǒng)的平均法準確性更高。陳飛等[8]提出了基于拉格朗日插值的方法來實現(xiàn)射頻信號衰減的修正,在保證修正數(shù)據(jù)準確度的前提下既減少了修正的工作量又降低了系統(tǒng)后期維護的難度。秦利剛[9]將拉格朗日插值法運用于頻譜分析中,不但克服了因頻率漂移造成數(shù)據(jù)點采樣不足的問題,還克服了拉格朗日插值算法在頻譜分析中的應用的泄漏問題。蔡文等[9]利用改進型的拉格朗日插值算法改善了視頻分割處理圖片失真的問題,實驗表明改善后的拉格朗日算法即重心拉格朗日算法具有明顯優(yōu)越性。綜上所述,拉格朗日插值法在各個領域的數(shù)據(jù)處理方面均取得了較好的效果,因此,選擇拉格朗日插值法恢復國省干線的缺失數(shù)據(jù)。
3? ? 方法原理
3.1? 算法原理
拉格朗日插值法基本原理:在插值點的附近選取若干合適的節(jié)點,構造一個簡單的插值函數(shù)y=p(x),要求構造的插值函數(shù)穿過選取的節(jié)點。在所選數(shù)據(jù)區(qū)間用插值函數(shù)作為原來函數(shù)f(x)的值,使得f(xi)=p(xi),i=1,2,3,…,n成立。由此可見,插值法的實質是根據(jù)已知的節(jié)點數(shù)據(jù)或線圖上某些已知點的數(shù)據(jù)構造一個既簡單又能夠保證精度的插值函數(shù)p(x),并利用該插值函數(shù)快速獲取原函數(shù)在對應位置的數(shù)據(jù),這種利用若干節(jié)點來構造插值函數(shù)的方法稱為拉格朗日插值法[3]。
對于原函數(shù)f(x)分別有給定的n+1個取值點,分別為(x0,y0),(x1,y1), … ,(xn,yn),其中,x對應自變量的位置,y為原函數(shù)f(x)在該點的取值。解設任意兩個不同的xj都互不相同,以下拉格朗日差值法填補缺失值的步驟。
第一步:求已知n+1個點對的拉格朗日基本多項式lj(x)(或稱插值基函數(shù))。其表達式為:
拉格朗日基本多項式lj(x)的特點是在xj上取值為1,在其他的點xi(i ≠j)上取值為0。
第二步:求已知n+1個點對的拉格朗日差值多項式L(x)。其表達式為:
第三步:將缺失的函數(shù)值對應的點代入插值多項式得到缺失值的近似值L(x),完成缺失數(shù)據(jù)的填補任務。
3.2? 算法流程
面對海量的交通數(shù)據(jù),利用拉格朗日插值法進行缺失值填補需要借助于計算機,其具體算法流程如圖1所示。
3.3? 拉格朗日插值法在國省干線缺失值中的使用
在面對公路的交通數(shù)據(jù)缺失時,拉格朗日插值法的具體使用步驟如下:
第一步,確定缺失數(shù)據(jù)所在的位置(路段)以及缺失情況。
第二步,確定缺失數(shù)據(jù)對應的時間段。
第三步,根據(jù)缺失數(shù)據(jù)的特征,采集缺失數(shù)據(jù)對應的指定時間段(點)和路段的歷史(平均)交通數(shù)據(jù)。
第四步,利用拉格朗日插值法填補缺失值,先構造拉格朗日多項式,對指定數(shù)據(jù)進行插值。其中,指定路段、時間段(點)作為自變量xi,歷史(平均)交通數(shù)據(jù)作為因變量即插值函數(shù)值f(xi)。
第五步,驗證插值效果:取正常數(shù)據(jù)作為測試集,對測試集采用相同的方法進行插值,結合真實數(shù)據(jù),對測試集的插值進行誤差檢測,評價插值效果。選取均方誤差(MSE)、均方根誤差(RMSE)以及平均絕對百分比誤差(MAPE)作為評價指標。誤差越小,插值效果越好,反之亦然。以下為各評價指標的含義。
均方誤差MSE(Mean Square Error):
均方根誤差RMSE(Root Mean Square Error):
平均絕對百分比誤差MAPE(Mean Absolute Percentage Error):
其中,yi表示真實值,表示預測值,n表示樣本容量。
4? ? 實例分析
為驗證拉格朗日插值法對缺失值修復的效果,從完整無缺失的路段中隨機選取部分值作為缺失數(shù)據(jù),采用拉格朗日插值法進行數(shù)據(jù)恢復,并對所得結果與實際值進行比較。
本文選取了南京G235東壩下行段全月數(shù)據(jù)為例進行說明,將每日中午12時的小客車速度作為缺失值,利用其余時段速度的已知值對該值進行修復,得到的結果如圖2—3所示,總體誤差指標如表1所示。
結果表明,拉格朗日插值結果與真實值的均方誤差在可接受范圍內(nèi),平均絕對百分比誤差小,拉格朗日插值法在缺失數(shù)據(jù)恢復工作中效果較好。
5? ? 結語
文章基于拉格朗日插值法對國省干線的交通數(shù)據(jù)缺失值進行填補,并結合具體實例驗證了拉格朗日插值法對于缺失值填補的有效性。對于一些簡單的缺失值,拉格朗日插值法簡單、方便、易實現(xiàn),且拉格朗日插值法公式的結構整齊緊密,為理論研究提供了便利。利用拉格朗日插值法填充國省干線交通數(shù)據(jù)的缺失值,可以提高數(shù)據(jù)的質量,也確保了數(shù)據(jù)在交通控制、路網(wǎng)規(guī)劃等應用中的可靠性。
[參考文獻]
[1]耿彥斌,于雷,趙慧.ITS數(shù)據(jù)質量控制技術及應用研究[J].中國安全科學學報,2005(1):82-87.
[2]韓衛(wèi)國,王勁峰,胡建軍.交通流量數(shù)據(jù)缺失值的插補方法[J].交通與計算機,2005(1):39-42.
[3]林昌華,楊巖.拉格朗日插值法在工程設計及CAD中的應用[J].重慶理工大學學報。2013(12):34-37.
[4]楊皓翔.基于拉格朗日插值法的新陳代謝模型在邊坡位移監(jiān)測中的應用[J].安全與環(huán)境工程,2017(2):33-38.
[5]胡玄子,陳小雪.數(shù)據(jù)處理中缺失數(shù)據(jù)填充方法的研究[J].湖北工業(yè)大學學報,2013(5):82-84.
[6]徐小麗.拉格朗日插值法在工程應用中的算法實現(xiàn)[J].林區(qū)教學,2010(1):17-19.
[7]丁閃閃,季錦章.基于小波分析和拉格朗日的交通異常數(shù)據(jù)處理[J].公路與汽運,2015(169):59-63.
[8]陳飛,朱坤,賈建兵,等.基于拉格朗日插值法的ATS射頻信號衰減修正研究[J].海軍航空工程學院學報,2018(1):45-48.
[9]秦利剛.拉格朗日插值算法在頻譜分析中的應用[J].電子世界,2014(5):112.
[10]蔡文,吳黎明.改進型的拉格朗日插值在視頻分割處理的實現(xiàn)[J].自動化與信息工程,2014(2):29-32.
[11]HE R,ZHANG L W,HE X X.Interval recognition algorithm of the pavement surface condition based on lagrange interpolation method[J].Mathematical Problems in Engineering,2020(1):1-8.
(編輯 姚 鑫)