邵毅明,甘元藝,侯雨彤,鐘 穎
(重慶交通大學(xué) 交通運(yùn)輸學(xué)院,重慶 400074)
準(zhǔn)確、可靠的交通流預(yù)測信息可以直接應(yīng)用于先進(jìn)的交通管理系統(tǒng)和信息服務(wù)系統(tǒng),為出行者提供實(shí)時(shí)有效的交通運(yùn)行信息[1]。同時(shí),可靠的交通流預(yù)測是交通管理部門采取交通控制和誘導(dǎo)措施的重要依據(jù)。通過對短時(shí)交通流的預(yù)測,可以提前調(diào)整交通管理控制手段,從而提高交通運(yùn)行效率[2-4]。交通流數(shù)據(jù)是時(shí)間序列數(shù)據(jù),數(shù)據(jù)質(zhì)量直接影響交通流預(yù)測結(jié)果的精度。在實(shí)際道路交通系統(tǒng)中,由于檢測設(shè)備、傳輸設(shè)備等出現(xiàn)故障的原因,使采集的交通流數(shù)據(jù)或多或少存在缺失[5-6]。雖然缺失數(shù)據(jù)的數(shù)量隨著信息技術(shù)的發(fā)展有逐漸變少的趨勢,但是為了保證交通流預(yù)測結(jié)果的準(zhǔn)確性,在少量數(shù)據(jù)缺失的情況下,依然有必要對交通流數(shù)據(jù)修復(fù)方法進(jìn)行研究。
目前,交通流缺失數(shù)據(jù)時(shí)間相關(guān)性修復(fù)方法多是采用歷史均值法、歷史相鄰加權(quán)法以及預(yù)測修復(fù)3種[7]。歷史均值法采用前n天當(dāng)前時(shí)間點(diǎn)的對應(yīng)數(shù)據(jù)均值并填充[8],歷史相鄰加權(quán)法獲取前一天同一時(shí)刻的歷史數(shù)據(jù)和當(dāng)天前一時(shí)刻的實(shí)測值進(jìn)行加權(quán)平均來修復(fù)缺失數(shù)據(jù)[9]。歷史均值法、歷史相鄰加權(quán)法屬于基于歷史數(shù)據(jù)的缺失數(shù)據(jù)修復(fù),這兩類方法簡單易行,能夠解決時(shí)間序列修復(fù)對連續(xù)異常數(shù)據(jù)修復(fù)能力不足的問題,但存在不能反映交通流真實(shí)變化的情況。交通流數(shù)據(jù)從本質(zhì)上而言屬于時(shí)間序列數(shù)據(jù),所以基于時(shí)間序列的各種缺失值修復(fù)方法都適合交通流缺失數(shù)據(jù)的修復(fù),預(yù)測修復(fù)就是典型[10]。預(yù)測修復(fù)主要將待修復(fù)變量作為目標(biāo)變量,與其相關(guān)的變量作為特征向量,構(gòu)建預(yù)測模型,實(shí)現(xiàn)對缺失數(shù)據(jù)的預(yù)測修復(fù)。已有研究采用RBF神經(jīng)網(wǎng)絡(luò)方法[10]、LSSVM的組合閾值修復(fù)方法[11]、SVR方法[12]、偏最小二乘法[13]等進(jìn)行預(yù)測修復(fù)。
RF集成了bagging和隨機(jī)選擇特征分裂等方法的特點(diǎn),不僅對噪聲和異常值具有較好的容忍度,且相較于AdaBoost、SVM等方法,具有運(yùn)行速度快、精度高、參數(shù)調(diào)節(jié)方便等優(yōu)點(diǎn),現(xiàn)階段RF算法主要應(yīng)用于交通流預(yù)測方面,有學(xué)者通過實(shí)例驗(yàn)證了RF預(yù)測城市短時(shí)交通流具有合理性和高效性[14-15]。RF預(yù)測結(jié)果與模型參數(shù)的優(yōu)化密切相關(guān),當(dāng)前研究多是探討RF模型在預(yù)測中的應(yīng)用,未探索優(yōu)化方式。GA是通過模擬生物在自然環(huán)境中的遺傳和進(jìn)化過程形成的自適應(yīng)全局優(yōu)化搜索算法,可用于不同領(lǐng)域的參數(shù)尋優(yōu)、路徑規(guī)劃等[16]。結(jié)合以上情況,在考慮交通流時(shí)間序列相關(guān)性的基礎(chǔ)上利用優(yōu)化的RF算法對存在少量數(shù)據(jù)缺失的交通流數(shù)據(jù)修復(fù)進(jìn)行研究:用GA優(yōu)化RF模型的重要參數(shù),以修復(fù)誤差最小為主要目標(biāo),提出GA-RF的交通流缺失數(shù)據(jù)修復(fù)方法。采用重慶市南岸區(qū)某路段的交通流數(shù)據(jù)進(jìn)行模型實(shí)證,并與其他數(shù)據(jù)修復(fù)方法進(jìn)行對比,結(jié)果顯示GA-RF模型在少量交通流數(shù)據(jù)缺失情況下,修復(fù)誤差低于歷史均值法及歷史相鄰加權(quán)法,修復(fù)精度更高,具有更好的修復(fù)性能。
RF模型簡單、容易實(shí)現(xiàn)、計(jì)算開銷小,被譽(yù)為“代表集成學(xué)習(xí)技術(shù)水平的方法”[17],能同時(shí)解決分類與回歸問題。RF的“森林”體現(xiàn)在模型是由一定數(shù)量的決策樹構(gòu)成,而“隨機(jī)”則體現(xiàn)在樣本的隨機(jī)性和特征的隨機(jī)性。設(shè)訓(xùn)練數(shù)據(jù)組共有N條數(shù)據(jù),要構(gòu)建的決策樹個(gè)數(shù),即森林的大小為M,每個(gè)數(shù)據(jù)點(diǎn)有P維特征,則RF的執(zhí)行過程如圖1所示。
圖1 隨機(jī)森林算法示意圖
其中,training_data為N行P列的樣本數(shù)據(jù)集,從該樣本集中有放回采樣M次形成M個(gè)不完全相同的子數(shù)據(jù)集bootstrap(i),分別在M個(gè)子數(shù)據(jù)上訓(xùn)練單一決策樹模型,形成含有M棵樹的“森林”,給定一個(gè)新的待識別對象,隨機(jī)森林中每一棵樹會(huì)根據(jù)該對象的屬性給出各自的預(yù)測結(jié)果,最后依據(jù)每一棵樹的預(yù)測結(jié)果得出整個(gè)隨機(jī)森林的預(yù)測結(jié)果。而根據(jù)問題類型的不同,給出的結(jié)果或?yàn)殡x散值,或?yàn)檫B續(xù)值。當(dāng)結(jié)果為離散值時(shí),表明當(dāng)前問題為分類問題,遵從“少數(shù)服從多數(shù)”原則,采用投票法決定最終預(yù)測類別;反之,當(dāng)為連續(xù)值時(shí),表明為回歸問題,則通過對各單一決策樹的預(yù)測結(jié)果進(jìn)行加權(quán)平均得到最終的預(yù)測值。隨機(jī)森林是一種非線性建模工具,精度高且具備一定的容忍度,不易出現(xiàn)過擬合[18]。
RF模型含有許多重要參數(shù),參數(shù)的不同取值組合可以產(chǎn)生不一樣的結(jié)果。為得到更好的預(yù)測精確度,需對模型的重要參數(shù)進(jìn)行調(diào)參操作?,F(xiàn)有的學(xué)習(xí)曲線調(diào)參步驟復(fù)雜、訓(xùn)練時(shí)間長,因此提出GA-RF模型,在搜索空間內(nèi)利用GA算法對RF模型的重要參數(shù)尋優(yōu),使RF的調(diào)參過程更加高效、便捷。
GA-RF交通流缺失值修復(fù)模型的修復(fù)流程如圖2所示,包括數(shù)據(jù)處理模塊、參數(shù)調(diào)優(yōu)模塊和預(yù)測修復(fù)模塊。
圖2 基于GA-RF模型的交通流缺失值修復(fù)框架圖
首先,數(shù)據(jù)處理模塊先剔除異常數(shù)據(jù),用剔除異常數(shù)據(jù)后的歷史交通流數(shù)據(jù)構(gòu)造樣本訓(xùn)練集及測試集;然后參數(shù)調(diào)優(yōu)模塊采用遺傳算法對RF中樹模型的數(shù)量(n_estimators)、最大深度(max_depth)、節(jié)點(diǎn)分支后每個(gè)子節(jié)點(diǎn)最少包含的訓(xùn)練樣本(min_sample_leaf)、1個(gè)節(jié)點(diǎn)能進(jìn)行分支的最少訓(xùn)練樣本(min_samples_split)4個(gè)參數(shù)在搜索空間進(jìn)行優(yōu)化,確定參數(shù)的最佳組合;預(yù)測修復(fù)模塊利用構(gòu)造好的訓(xùn)練集以及尋優(yōu)后的參數(shù)組合對RF模型進(jìn)行訓(xùn)練,形成GA-RF模型,最后將測試數(shù)據(jù)輸入GA-RF模型中進(jìn)行預(yù)測修復(fù),對修復(fù)值與真實(shí)值進(jìn)行誤差分析并輸出。
基于隨機(jī)森林算法對交通流缺失數(shù)據(jù)進(jìn)行修復(fù)的基本原理為:將剔除異常數(shù)據(jù)后的歷史交通流數(shù)據(jù)分為樣本訓(xùn)練集及測試集,利用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,測試集數(shù)據(jù)判斷模型預(yù)測精度;然后將路段的真實(shí)待修復(fù)數(shù)據(jù)集中的缺失數(shù)據(jù)列作為待預(yù)測對象,利用訓(xùn)練好的模型對其進(jìn)行預(yù)測修復(fù)。假設(shè)目標(biāo)路段在某段時(shí)間內(nèi)的平均速度的數(shù)據(jù)集為X_data,觀測時(shí)間間隔為5 min,X_data共有M行,每行有N維特征,則數(shù)據(jù)集X_data可表示為:
式中:Y為目標(biāo)變量標(biāo)簽列,X為Y的特征向量矩陣,從交通流時(shí)間序列相關(guān)性出發(fā)構(gòu)造特征向量,即令xt為t時(shí)刻目標(biāo)路段交通流,xt-n為t時(shí)刻前第n個(gè)時(shí)刻的交通流,則交通流時(shí)間序列相關(guān)性可表示為:
式(2)表明,當(dāng)前時(shí)刻路段交通流與其前n個(gè)時(shí)段交通流相關(guān),其中xt相當(dāng)于式(1)中的目標(biāo)變量標(biāo)簽列Y,xt-1至xt-n則相當(dāng)于式(1)中的特征向量X,則從初始時(shí)刻到t時(shí)刻,樣本數(shù)據(jù)集中的特征向量矩陣X如式(3)所示,目標(biāo)向量Y如式(4)所示:
由于交通流時(shí)間序列數(shù)據(jù)存在缺失值,因此,考慮時(shí)間序列相關(guān)性構(gòu)造的特征向量也存在缺失數(shù)據(jù),而用于模型訓(xùn)練的數(shù)據(jù)應(yīng)是完整數(shù)據(jù)集,故從構(gòu)建好的X_data數(shù)據(jù)集中提取各特征均不包含nan值的數(shù)據(jù)行特征集合作為最終的訓(xùn)練集,按一定比例將其劃分為訓(xùn)練數(shù)據(jù)集(X_train,Y_train)、驗(yàn)證集(X_val,Y_val),其中訓(xùn)練數(shù)據(jù)集用于模型的訓(xùn)練,驗(yàn)證集則用于模型的調(diào)參。為明確模型的修復(fù)精度,選擇交通流數(shù)據(jù)較為完整的某天數(shù)據(jù)作為測試集,人為隨機(jī)構(gòu)造缺失值,利用訓(xùn)練好的模型對缺失數(shù)據(jù)進(jìn)行預(yù)測修復(fù),比較修復(fù)值與真實(shí)值的誤差,對模型預(yù)測修復(fù)精度進(jìn)行評價(jià)。最后,提取Y為nan的數(shù)據(jù)行作為路段的真實(shí)待修復(fù)數(shù)據(jù)集合,利用構(gòu)建好的GA-RF模型修復(fù)路段交通流中的缺失數(shù)據(jù)。
RF的重要參數(shù)及其含義如表1所示。
表1 隨機(jī)森林模型重要參數(shù)
以平均絕對誤差(MAE)作為評價(jià)指標(biāo),參數(shù)調(diào)優(yōu)過程就是通過不斷迭代,尋求以上4個(gè)重要參數(shù)的最佳組合,使基于該參數(shù)組合的模型具有最低的MAE。整個(gè)過程是一個(gè)全局尋優(yōu)問題,在眾多參數(shù)組合中尋找最優(yōu)參數(shù)組合。
遺傳算法是通過模擬生物在自然環(huán)境中的遺傳和進(jìn)化過程形成的自適應(yīng)全局優(yōu)化搜索算法,可用于不同領(lǐng)域的參數(shù)尋優(yōu)、路徑規(guī)劃等,其運(yùn)算過程主要包含初始種群的產(chǎn)生、個(gè)體適應(yīng)度的計(jì)算、根據(jù)適應(yīng)度值對種群中的個(gè)體進(jìn)行選擇、交叉以及變異、產(chǎn)生新種群,以此循環(huán),迭代直至滿足條件后終止[19-20]。GA優(yōu)化RF主要采用GA對RF模型參數(shù)進(jìn)行尋優(yōu),使模型預(yù)測性能在一定程度上達(dá)到最優(yōu)。采用GA對RF的n_estimators、max_depth、min_samples_leaf、min_samples_split進(jìn)行調(diào)優(yōu),獲取搜索空間的最優(yōu)參數(shù)組合,構(gòu)成GARF模型。參數(shù)調(diào)優(yōu)具體步驟如下:①種群初始化并進(jìn)行編碼;②將RF模型的MAE作為適應(yīng)度函數(shù);③將解的個(gè)體進(jìn)行選擇交叉變異操作,進(jìn)行解碼;④獲得適應(yīng)度目標(biāo)值和最佳參數(shù);⑤計(jì)算基于最佳參數(shù)的MAE;⑥終止條件判斷,若未達(dá)到迭代次數(shù),則返回③繼續(xù)計(jì)算;若達(dá)到迭代次數(shù),則停止計(jì)算,輸出調(diào)優(yōu)參數(shù)的最佳組合。
GA-RF數(shù)據(jù)修復(fù)方法的最后一步為利用構(gòu)造好的訓(xùn)練集(X_train,Y_train)以及尋優(yōu)后的參數(shù)組合對GA-RF模型進(jìn)行訓(xùn)練,然后利用訓(xùn)練好的模型對缺失數(shù)據(jù)測試集進(jìn)行預(yù)測修復(fù),選定評價(jià)指標(biāo)對修復(fù)結(jié)果進(jìn)行評價(jià)。設(shè)時(shí)間窗窗口長度為5,即假定待修復(fù)時(shí)刻交通流與其前5個(gè)時(shí)刻的交通流數(shù)據(jù)相關(guān),則待修復(fù)缺失數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)如表2所示。
如表2所示,某時(shí)段內(nèi)存在待修復(fù)缺失數(shù)據(jù),取缺失數(shù)據(jù)所在時(shí)刻的前5個(gè)時(shí)刻的平均速度數(shù)據(jù)作為特征矩陣,對缺失數(shù)據(jù)進(jìn)行預(yù)測修復(fù)。由于5個(gè)特征向量是由目標(biāo)變量標(biāo)簽列衍生的,故特征向量中也存在缺失值,且該缺失值來自于當(dāng)前待修復(fù)時(shí)刻的先前時(shí)刻。因此,只要第1個(gè)缺失數(shù)據(jù)的前5個(gè)數(shù)據(jù)不存在nan,即可通過構(gòu)造特征向量、提取待修復(fù)缺失數(shù)據(jù)、預(yù)測修復(fù)的循環(huán)操作實(shí)現(xiàn)對缺失數(shù)據(jù)的全部填充,缺失數(shù)據(jù)修復(fù)具體步驟如下:
表2 待修復(fù)缺失數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)
步驟1 考慮交通流時(shí)間序列相關(guān)性對含缺失數(shù)據(jù)的M個(gè)交通流數(shù)據(jù)進(jìn)行N維特征向量提取,形成M行N+1列數(shù)據(jù)矩陣row_data;
步驟2提取row_data中標(biāo)簽列為nan的數(shù)據(jù)行,構(gòu)成待修復(fù)缺失數(shù)據(jù)集missing_data;
步驟3判斷第1個(gè)缺失數(shù)據(jù)所有特征列是否含有nan,有轉(zhuǎn)步驟4,無則轉(zhuǎn)步驟5;
步驟4采用缺失值所在時(shí)段的均值對nan進(jìn)行修復(fù),并實(shí)時(shí)更新row_data;
步驟5 提取missing_data中特征列完整的數(shù)據(jù)行,調(diào)用構(gòu)建好的模型對缺失數(shù)據(jù)進(jìn)行預(yù)測修復(fù),并用修復(fù)后的缺失數(shù)據(jù)實(shí)時(shí)更新row_data中對應(yīng)的缺失數(shù)據(jù),然后轉(zhuǎn)回步驟2,反復(fù)進(jìn)行,直至missing_data行數(shù)等于0,則所有缺失數(shù)據(jù)修復(fù)完畢。
為了驗(yàn)證所提出的GA-RF模型的可行性,選用重慶市南岸區(qū)某路段的交通流數(shù)據(jù)展開GA-RF模型實(shí)證:在測試數(shù)據(jù)集中隨機(jī)構(gòu)造少量缺失數(shù)據(jù),以MAE為主要評價(jià)指標(biāo),均方根誤差(RMSE)、均方誤差(MSE)、平均絕對百分比誤差(MAPE)評價(jià)指標(biāo)作為輔助,以主要評價(jià)指標(biāo)最小為目標(biāo),對缺失數(shù)據(jù)修復(fù)的有效性進(jìn)行評價(jià),并在同等缺失比例下將GA-RF的修復(fù)效果與RF方法、歷史均值法及歷史相鄰加權(quán)法修復(fù)效果進(jìn)行對比實(shí)驗(yàn)。
全部代碼均通過Python程序語言實(shí)現(xiàn),Anacond包中的spyder4.1.3版本作為集成開發(fā)環(huán)境,Windows 10(64位)操作系統(tǒng)、Intel(R)Core(TM)i5-10210U CPU@2.11 GHz處理器、16GB內(nèi)存等作為硬件支撐平臺(tái)。
以重慶市南岸區(qū)某路段的歷史交通流平均速度數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),用于GA-RF的交通流缺失數(shù)據(jù)修復(fù)實(shí)驗(yàn)。實(shí)驗(yàn)采集了該路段從2018.07.21—2019.06.26的交通流平均速度,由于本次研究只針對工作日,故提取數(shù)據(jù)集中的工作日數(shù)據(jù),構(gòu)建從0∶00-24∶00、以5 min為增長梯度的完整時(shí)間序列。數(shù)據(jù)集的平均速度分布如圖3所示,橫坐標(biāo)表示時(shí)段分布,縱坐標(biāo)表示該時(shí)段的平均速度,圖中數(shù)據(jù)集應(yīng)包含62 784個(gè)交通流數(shù)據(jù),對數(shù)據(jù)集進(jìn)行分析,部分?jǐn)?shù)據(jù)存在缺失和異常。
圖3 數(shù)據(jù)集平均速度分布
將構(gòu)造后的時(shí)間序列與原始時(shí)間序列進(jìn)行笛卡爾積,挖掘原始樣本中的缺失數(shù)據(jù),共計(jì)1 284條,并以nan進(jìn)行標(biāo)識,則以天為計(jì)量單位的路段交通流缺失數(shù)據(jù)分布情況如圖4所示。
圖4 以天為計(jì)量單位的缺失數(shù)據(jù)分布
異常值分析是保證數(shù)據(jù)質(zhì)量的前提,找出數(shù)據(jù)的異常值,有利于最終得出的模型的穩(wěn)定性。利用箱型圖剔除異常值獲取離群數(shù)據(jù)(包含離群數(shù)據(jù)1 834條),剔除離群數(shù)據(jù)后缺失數(shù)據(jù)分布如圖5所示。
圖5 剔除異常值后的缺失數(shù)據(jù)分布
圖4、5橫坐標(biāo)表示第n個(gè)工作日,縱坐標(biāo)為缺失數(shù)據(jù)個(gè)數(shù)。由圖5可知,2018.07.21—2019.06.26期間,該路段每天的缺失和異常數(shù)據(jù)大多穩(wěn)定在5~25,缺失比例在2%~9%,只有個(gè)別工作日的缺失值個(gè)數(shù)超過10%。
交通流預(yù)測時(shí)間窗口為5,即利用待修復(fù)時(shí)刻的前5個(gè)時(shí)刻的交通流數(shù)據(jù)作為特征列對模型進(jìn)行訓(xùn)練、預(yù)測,然后利用預(yù)測結(jié)果對缺失數(shù)據(jù)進(jìn)行修復(fù)。將2019年6月14日之前的工作日數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,用GA對RF的n_estimators、max_depth、min_samples_leaf以及min_samples_split4個(gè)參數(shù)進(jìn)行聯(lián)合尋優(yōu),以MAE作為目標(biāo)函數(shù)返回值,衡量在每種參數(shù)組合下模型在未知數(shù)據(jù)上的準(zhǔn)確率,誤差越大,表明模型的預(yù)測效果越不好,因此,全局優(yōu)化是一個(gè)求最小值的過程,設(shè)置初始種群中個(gè)體NIND為10,迭代次數(shù)為200,交叉概率pc為0.7,變異概率pm為0.1。
在利用遺傳算法確定最佳參數(shù)組合的200次迭代中,各參數(shù)搜索空間如表3所示。
表3 待優(yōu)化參數(shù)搜索空間
經(jīng)過訓(xùn)練,訓(xùn)練結(jié)果如圖6所示,橫坐標(biāo)代表迭代次數(shù),縱坐標(biāo)代表MAE,在GA-RF模型中,隨迭代次數(shù)的增加,模型在驗(yàn)證集上最優(yōu)解的MAE越來越小,最終呈現(xiàn)為平行于x軸的一條直線(如圖7所示),找到搜索空間的最優(yōu)解,得到最佳參數(shù)。
圖6 GA-RF模型訓(xùn)練曲線
圖7 GA-RF預(yù)測模型收斂曲線
為評價(jià)模型的修復(fù)精度,在測試數(shù)據(jù)集中,選6月24日交通流數(shù)據(jù)作為測試數(shù)據(jù),構(gòu)造3%、6%缺失比例的隨機(jī)缺失數(shù)據(jù),利用GA-RF模型分別對2種比例缺失的數(shù)據(jù)進(jìn)行預(yù)測修復(fù)實(shí)驗(yàn),并將GA-RF模型預(yù)測修復(fù)結(jié)果與RF預(yù)測修復(fù)、歷史均值修復(fù)、歷史相鄰加權(quán)法結(jié)果進(jìn)行對比。圖8、圖9給出了3%和6%的缺失比例下,采用RF、GA-RF、歷史均值法以及歷史相鄰加權(quán)法4種修復(fù)方法的修復(fù)結(jié)果與真實(shí)值的對比曲線,每一個(gè)marker為一缺失數(shù)據(jù)。由圖8、9可看出,GA-RF模型的預(yù)測修復(fù)結(jié)果曲線較其他幾種方式更貼近原始數(shù)據(jù)曲線。
圖8 3%缺失比例下多種修復(fù)方法效果
圖9 6%缺失比例下多種修復(fù)方法效果
為進(jìn)一步客觀評價(jià)不同修復(fù)方法的修復(fù)效果,以MAE為主要評價(jià)指標(biāo),均方根誤差(RMSE)、均方誤差(MSE)、平均絕對百分比誤差(MAPE)評價(jià)指標(biāo)作為輔助對缺失數(shù)據(jù)修復(fù)的有效性進(jìn)行評價(jià),以主要評價(jià)指標(biāo)最小為目標(biāo),得到不同修復(fù)方法下的修復(fù)誤差,如表4所示。
表4 不同修復(fù)方法誤差 %
從表4中可以看出,目標(biāo)路段測試數(shù)據(jù)在實(shí)證的2種缺失比例下使用GA-RF模型進(jìn)行預(yù)測修復(fù)的MAE、RMSE、MSE、MAPE均比RF模型、歷史均值和歷史相鄰加權(quán)的小,MAE反映了修復(fù)數(shù)據(jù)偏離真實(shí)值的程度,其值越小表示修復(fù)值與真實(shí)值的偏離程度越小,說明兩者越近,修復(fù)精度更高。
經(jīng)過GA優(yōu)化后的RF在2種缺失比例下的預(yù)測修復(fù)精度均得到了提升,其中,在缺失比例為3%時(shí),參數(shù)調(diào)優(yōu)后的MAE從5.00減少到4.11,準(zhǔn)確率提升了17.8%。
利用GA-RF交通流缺失數(shù)據(jù)修復(fù)方法,將目標(biāo)路段數(shù)據(jù)以天為單位進(jìn)行分組循環(huán)預(yù)測修復(fù),選取2019年6月24日的全天交通流數(shù)據(jù),當(dāng)日數(shù)據(jù)缺失比例、缺失時(shí)間分布如表5所示。
表5 真實(shí)值修復(fù)數(shù)據(jù)基礎(chǔ)信息
目標(biāo)路段當(dāng)天路段缺失值共有4個(gè),缺失比例約1%。圖10繪制了2019年6月24日全天各時(shí)段的平均速度數(shù)據(jù),其中“?”標(biāo)識處表明該時(shí)段數(shù)據(jù)缺失,圖中為GA-RF模型預(yù)測的修復(fù)值,其余線條部分為真實(shí)交通流數(shù)據(jù)值。
圖10 2019年6月24日缺失數(shù)據(jù)修復(fù)效果
由圖10可知,利用GA-RF模型進(jìn)行預(yù)測修復(fù)的交通流缺失數(shù)據(jù)均符合路段交通流整體走勢,修復(fù)結(jié)果可靠,可作為交通流預(yù)測研究依據(jù)。
1)基于遺傳算法優(yōu)化隨機(jī)森林構(gòu)建的預(yù)測模型能很好地實(shí)現(xiàn)對5%左右數(shù)據(jù)缺失的交通流數(shù)據(jù)修復(fù)。
2)GA-RF模型預(yù)測修復(fù)效果優(yōu)于RF模型,采用GA-RF的重要參數(shù)進(jìn)行尋優(yōu)是有必要的,能在一定程度上降低模型的預(yù)測誤差,提升模型預(yù)測準(zhǔn)確性。
3)采用GA-RF模型對5%左右數(shù)據(jù)缺失下的交通流進(jìn)行預(yù)測修復(fù)所得到的MAE、RMSE、MSE、MAPE均低于同等缺失比例下的歷史均值法修復(fù)誤差、歷史相鄰加權(quán)法修復(fù)誤差,GA-RF模型的修復(fù)精度更高。