關(guān)鍵詞:DTW算法;Tensor方法;DBSCAN算法;交通流數(shù)據(jù);數(shù)據(jù)恢復(fù)
中圖分類號:TP311.13;U491 文獻標(biāo)識碼:A
文章編號:1009-3044(2025)03-0012-04 開放科學(xué)(資源服務(wù)) 標(biāo)識碼(OSID) :
0引言
近年來,交通流數(shù)據(jù)恢復(fù)問題吸引了廣泛的研究興趣,科研學(xué)者探索了多種方法來解決這一問題,其中包括傳統(tǒng)統(tǒng)計學(xué)方法、深度學(xué)習(xí)方法和張量方法等。在交通流數(shù)據(jù)恢復(fù)中,傳統(tǒng)統(tǒng)計學(xué)方法基于歷史數(shù)據(jù),采用平均值、中位數(shù)、插值、時間序列、最近鄰等手段填補缺失值[1]。深度學(xué)習(xí)算法在交通流數(shù)據(jù)恢復(fù)中也被廣泛應(yīng)用,研究人員利用多種深度學(xué)習(xí)網(wǎng)絡(luò)處理缺失數(shù)據(jù)。特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)及其變體長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和門控循環(huán)單元(Gated Recur?rent Unit,GRU)[2],因其能夠高效建模時間特性數(shù)據(jù),捕捉時間相關(guān)性,廣泛用于精確恢復(fù)交通流數(shù)據(jù)。然而,時間序列方法通常只考慮時間信息,往往忽視了交通流數(shù)據(jù)的空間特性。
面對多維交通流大數(shù)據(jù),張量分解方法在計算效率上優(yōu)于深度學(xué)習(xí),同時保持高精度。該方法將數(shù)據(jù)表示為高階張量,其中包含多維信息,通過張量分解方法可以學(xué)習(xí)整體數(shù)據(jù)的分布模式和潛在相關(guān)性,從而恢復(fù)缺失數(shù)據(jù)。在其他領(lǐng)域,張量恢復(fù)缺失值的研究已取得明顯進展[3-6]。在交通領(lǐng)域,Tan等人[7]首次提出張量分解恢復(fù)交通流數(shù)據(jù),張量分解能夠更好地挖掘時空相關(guān)性的多維數(shù)據(jù)內(nèi)在相關(guān)性。Ben Said等人[8]結(jié)合位置和時間信息,構(gòu)建位置和時間張量進行恢復(fù),分別構(gòu)造了位置矩陣和時間矩陣,并通過CP補全目標(biāo)函數(shù)進行數(shù)據(jù)恢復(fù)。Nie等人[9]創(chuàng)新性地定義了低秩張量補全模型下的張量范式,適用于極端缺失情況。Zhou等人[10]融合不同交通流數(shù)據(jù)張量,全面評估交通狀況以提升效果。Chen等人[11]將貝葉斯概率張量分解拓展至高階模型,應(yīng)用于時空交通流恢復(fù)。
綜上所述,張量分解在補全高維時空交通流數(shù)據(jù)方面展現(xiàn)出了強大的能力,能夠有效捕捉數(shù)據(jù)的潛在結(jié)構(gòu),并解決數(shù)據(jù)缺失的問題。在此基礎(chǔ)上,本文提出了一種融合時空相關(guān)性的張量分解算法。該算法首先利用DTW(動態(tài)時間規(guī)整)算法優(yōu)化對齊路徑,然后通過DBSCAN聚類構(gòu)建相似時間序列矩陣,最后通過先進的張量分解技術(shù)恢復(fù)缺失的數(shù)據(jù)值。這一方法不僅顯著提高了數(shù)據(jù)恢復(fù)的精度,還構(gòu)建了一個包含數(shù)據(jù)預(yù)處理、DBTensor方法及性能評估的完整框架,確保了該方法在實際應(yīng)用中的可行性和有效性。通過充分利用不完整的交通流數(shù)據(jù),該方法能夠全面評估數(shù)據(jù)的性能,為交通領(lǐng)域的數(shù)據(jù)處理和分析提供了新的思路和方法。
1相關(guān)算法
1.1DTW算法原理
DTW算法是一種用于測量時間序列相似性的經(jīng)典動態(tài)規(guī)劃算法,它可以找到兩個時間序列之間的最佳匹配路徑。計算兩個序列之間的DTW距離D(i,j)的公式如下:
1.2DBSCAN聚類算法
DBSCAN算法通過評估樣本點的密度來區(qū)分簇類與噪聲點。它引入了核心點、邊界點和噪聲點的分類,同時利用密度直達、密度可達以及密度相連的概念來構(gòu)建簇類。DBSCAN算法的主要步驟包括:
1)初始化設(shè)置參數(shù)eps(領(lǐng)域半徑)和min_samples(成為核心對象鄰域中最小點數(shù));
2)尋找核心對象;
3)擴展聚類;
4)重復(fù)步驟3);
5)標(biāo)記噪聲;
2DBTensor算法框架
張量分解在處理交通流數(shù)據(jù)時存在局限,特別是在挖掘時空特征和應(yīng)對缺失值方面。為此,本文提出DBTensor算法,結(jié)合時空相關(guān)性恢復(fù)缺失值。該算法首先使用DTW算法尋找交通流序列的最優(yōu)對齊路徑,識別相似時空特性;然后,采用DBSCAN聚類方法搜索相似序列,挖掘時空相關(guān)性;最后,利用張量分解技術(shù)恢復(fù)缺失值,保持數(shù)據(jù)的時空一致性。DBTensor恢復(fù)方法的框架如圖1所示。
DBTensor算法流程如下所示。
1)數(shù)據(jù)預(yù)處理階段:對原始數(shù)據(jù)進行細致的處理,明確標(biāo)記出所有的缺失值。
2)DTW距離矩陣計算:利用DTW算法,精確地計算出數(shù)據(jù)集中各元素之間的距離,得到距離矩陣。
3)聚類分析與參數(shù)調(diào)整:根據(jù)計算得到的距離矩陣,采用DBSCAN進行聚類分析。通過調(diào)整DBSCAN的參數(shù)eps和min_samples,并觀察輪廓系數(shù)的大小,確保數(shù)據(jù)被合理且準確地分類,并重構(gòu)張量。
4)Tensor恢復(fù)數(shù)據(jù):使用CP補全算法,對缺失值進行精確的恢復(fù),從而得到完整且準確的數(shù)據(jù)集。
5)算法評估:通過RMSE、MAPE和MAE評估算法的數(shù)據(jù)恢復(fù)效果。
3實驗結(jié)果與分析
3.1實驗數(shù)據(jù)集
實驗使用加利福尼亞高速公路網(wǎng)絡(luò)PEMS交通流數(shù)據(jù)集和云南省交通2018年2月1日至9月26日的5個高速站點環(huán)路檢測器采集的交通流數(shù)據(jù),聚合周期為5分鐘、30分鐘和60分鐘。數(shù)據(jù)集如表1所示。根據(jù)數(shù)據(jù)構(gòu)建三階張量為R一天時間間隔×檢測日期天×傳感器檢測路段。
3.2實驗結(jié)果與分析
本研究中,訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的比例為3∶1。為了評估隨機缺失模式下缺失值恢復(fù)的效果,本文設(shè)定了交通流數(shù)據(jù)的缺失率,分別為10%至60%,每間隔10%遞增。實驗采用了四組交通流數(shù)據(jù),首先對這些數(shù)據(jù)進行了歸一化處理,并利用DTW計算出最優(yōu)彎曲路徑距離矩陣。隨后,本文使用DBSCAN算法對距離矩陣進行聚類,其中將參數(shù)eps設(shè)為0.79,min_samples設(shè)為7,輪廓系數(shù)為0.624。本次實驗設(shè)置的參數(shù)并不是對所有數(shù)據(jù)集的最優(yōu)參數(shù)。實際應(yīng)用中,通過選取最優(yōu)參數(shù)可以得到更好的相似分類結(jié)果。實驗發(fā)現(xiàn),DBTensor方法在不同缺失率下的恢復(fù)效果存在差異。為此,本文比較了DBTensor與CP、SVD、MF、KNN這4種插補方法在不同缺失率下的RMSE值,結(jié)果如圖2所示。
根據(jù)圖2(a)(b)(c)(d)可以看出,在4個數(shù)據(jù)集上,DBTensor方法與其他方法相比,擬合度更高。隨著缺失率的增加,DBTensor方法的恢復(fù)精度也會有所降低,但仍保持相對優(yōu)勢。當(dāng)數(shù)據(jù)缺失率超過50%時,DBTensor的恢復(fù)效果相較于其他算法的優(yōu)勢更加明顯,但其擬合效果不如缺失率更低時。
在隨機缺失的場景下,表2至表7匯總了各恢復(fù)算法的實驗結(jié)果,其中最優(yōu)結(jié)果已被加粗突出顯示。通過對實驗結(jié)果的細致分析,本文可以總結(jié)出以下幾點關(guān)鍵結(jié)論:
1)在相同的缺失率條件下,CP算法在缺失值恢復(fù)方面展現(xiàn)出了比其他三種方法更為出色的表現(xiàn)。然而,經(jīng)過改進后的CP算法在數(shù)據(jù)恢復(fù)效果上相較于傳統(tǒng)的CP算法又有著更為顯著的優(yōu)勢。這表明通過算法的改進,本文能夠進一步提升數(shù)據(jù)恢復(fù)的質(zhì)量和準確性。
2)針對云南省的數(shù)據(jù)集而言,當(dāng)缺失率低于50%時,SVD算法在數(shù)據(jù)恢復(fù)方面表現(xiàn)更佳,能夠較好地還原原始數(shù)據(jù)的特征。然而,當(dāng)缺失率超過50%時,改進后的算法則展現(xiàn)出了更高的擬合度,能夠更好地應(yīng)對高缺失率帶來的挑戰(zhàn)。這一發(fā)現(xiàn)為本文針對不同缺失率情況選擇合適的算法提供了重要的參考。
3)針對本文所實驗的4個數(shù)據(jù)集,本文提出的DBTensor方法展現(xiàn)出了卓越的性能。在大多數(shù)情況下,其數(shù)據(jù)恢復(fù)效果優(yōu)于其他方法,這充分證明了DBTensor在處理不同數(shù)據(jù)集和缺失率時的有效性和可靠性。
4)隨著數(shù)據(jù)缺失率的增加,所有數(shù)據(jù)恢復(fù)算法的效果都會有所下降。然而,本文提出的DBTensor算法在這方面展現(xiàn)出了良好的穩(wěn)定性。在各種情況下,DBTensor算法的數(shù)據(jù)恢復(fù)效果均優(yōu)于其他算法,進一步驗證了其在實際應(yīng)用中的有效性和可靠性。這一發(fā)現(xiàn)為本文選擇高效的數(shù)據(jù)恢復(fù)算法提供了新的思路和方向。
綜上所述,DBTensor算法在數(shù)據(jù)恢復(fù)方面展現(xiàn)出了顯著的優(yōu)勢和潛力,為處理高缺失率、復(fù)雜數(shù)據(jù)集提供了有力的支持。
4結(jié)論與展望
本文提出了一種結(jié)合DTW算法和Tensor方法的交通流數(shù)據(jù)恢復(fù)策略。該策略利用DTW算法在時間序列相似性匹配上的優(yōu)勢,結(jié)合Tensor方法在數(shù)據(jù)分解和重構(gòu)上的能力,實現(xiàn)了對缺失交通流數(shù)據(jù)的精確恢復(fù)。實驗結(jié)果表明,本文提出的算法在交通流數(shù)據(jù)恢復(fù)方面表現(xiàn)出了良好的性能和準確性。與傳統(tǒng)的數(shù)據(jù)恢復(fù)方法相比,該算法在恢復(fù)缺失數(shù)據(jù)時具有更高的精度和魯棒性。這不僅驗證了算法的有效性,也為城市交通管理和決策提供了更加可靠的數(shù)據(jù)支持。
為了進一步提高數(shù)據(jù)填補的精度,本文將繼續(xù)深化對DTW算法和Tensor方法在交通流數(shù)據(jù)恢復(fù)中的研究。一方面,本文將探索更加高效的DTW算法實現(xiàn),以降低算法的時間復(fù)雜度,提高數(shù)據(jù)處理的效率。另一方面,本文也將研究Tensor方法的改進和優(yōu)化,以進一步提高數(shù)據(jù)恢復(fù)的準確性。通過這些努力,本文期望能夠進一步推動智能交通系統(tǒng)的發(fā)展,為城市交通管理和決策提供更加智能、高效和可靠的數(shù)據(jù)支持。