徐建閩 魏鑫 林永杰 盧凱
(華南理工大學 土木與交通學院,廣東 廣州 510640)
關于城市交通路徑鏈的提取研究一直是交通領域與信息領域的熱點。近年來隨著城市高清智能視頻識別技術的改進和系統(tǒng)應用,車牌識別數(shù)據(jù)的質量得到不斷提升,利用視頻檢測的城市路網(wǎng)中車輛出行軌跡鏈進行數(shù)據(jù)聚類、挖掘與碰撞分析,系統(tǒng)、全面地評估城市交通網(wǎng)絡中車輛的出行規(guī)律和路徑選擇行為,可以為交通需求分析、規(guī)劃與設計、交通設施布設、信號優(yōu)化和誘導等提供基礎數(shù)據(jù)支撐。
自動車牌識別數(shù)據(jù)[1]相對其它交通采集源具有采集時間連續(xù)、持續(xù)時間長、數(shù)據(jù)準確度高、采集樣本量大、車輛個體特征信息豐富等明顯優(yōu)勢。但也有較多不足,如:成本高,難以覆蓋所有交叉口及方向;復雜環(huán)境下檢測準確率偏低,尤其多路口連續(xù)性檢測時信息丟失嚴重。上述不足均會導致獲取的車輛軌跡不連續(xù)、存在丟失問題。
針對目前大部分城市普及建設的視頻車牌識別軌跡數(shù)據(jù)存在丟失的問題,國內(nèi)外學者開展了一系列的路徑鏈重構方法研究[2],其目的是通過車牌識別數(shù)據(jù)集反推漏檢的車輛真實軌跡點,還原出完整的出行路徑鏈。Frentzos等[3]在建立車輛歷史行駛信息的R樹狀結構后執(zhí)行最近鄰路徑搜索,將搜索結果插入缺失點位還原路徑;Castillo等[4]將軌跡數(shù)據(jù)作為路徑流估計的重要依據(jù),通過貝葉斯網(wǎng)絡和Wardrop最小變異模型重建路徑流來估計OD矩陣;Sun等[5]在Castillo等[4]研究的基礎上采用貝葉斯推理估計了潛在的路徑選擇概率,并通過蒙特卡洛模擬計算得到最大后驗概率的潛在路徑作為重構路徑;阮樹斌等[6]提出了一種K近鄰和灰色關聯(lián)法的組合算法,通過在前K個最短候選重構路徑中采用優(yōu)化決策因子的灰色關聯(lián)度方法還原真實的出行軌跡;Feng等[7]提出了一種結合路徑時空軌跡因子與粒子濾波器的路徑重構方法,并研究了路網(wǎng)視頻設備布設率與重構準確率的關系。
上述對路徑鏈重構的研究主要思路是以最短路徑算法[3]、基于路段限速的多目標決策算法(KSP+GRA算法[6]和SC+TOPSIS算法[8])、粒子濾波算法[9]等方法進行重構。其中,最短路徑算法假定出行車輛主要是選擇路徑長度或出行耗時最短的路徑;基于路段限速的多目標決策算法其核心思想是假定路段行程車速保持在上、下閾值之內(nèi),融合車牌識別數(shù)據(jù)的動態(tài)指標、靜態(tài)指標、路徑長度、交叉口流量、歷史軌跡權重等時空軌跡校正因子,進行多目標決策優(yōu)化;基于粒子濾波的算法是將上述多目標決策算法中的屬性因子作為粒子更新的狀態(tài)輸入粒子濾波器,估計器的輸出即為重構路徑。
由于上述方法多依賴主觀因素構造出行者決策特征,將選擇概率最大的出行路徑作為實際路線,忽視了已獲得的部分完整路徑鏈樣本所蘊含的出行規(guī)律和決定因素。上述方法的重構隨機性較強,缺乏對城市級車牌識別海量數(shù)據(jù)源的深度挖掘,模型關鍵參數(shù)的取值難以自動調(diào)整,僅適用于特定城市的交通路網(wǎng),在點位缺失較多或交通外部擾動影響較大時,魯棒性不高。本研究針對上述路徑鏈重構算法的局限性,充分利用城市主管部門采集的海量車牌識別數(shù)據(jù),提出了基于機器學習算法——梯度提升決策樹的城市車輛路徑鏈重構方法。首先,介紹了車牌識別數(shù)據(jù)提取路徑鏈的通用方法,通過分析提取了影響出行路徑選擇的關鍵特征;然后,利用機器學習算法中梯度提升決策樹[10](Gradient Boosting Decision Tree,GBDT)識別了影響出行路徑選擇的主要特征及其重要度,并以此建立了基于GBDT的局部丟失路徑的重構算法;最后,結合實際數(shù)據(jù)驗證了算法的準確性和計算效率。
圖1較為形象地表征了出行軌跡重構[7]問題。圖1(a)中檢測點位1、2、7、18、23、24分別表示車輛被車牌識別系統(tǒng)正確捕捉到的點位編號(如路口或斷面位置),假定點位12與17為設備實際漏檢或錯檢的位置。因此,車輛軌跡中只能得到路徑鏈1- 2- 7和18- 23- 24兩段,圖中虛線箭頭表示缺失的局部路徑鏈,需根據(jù)算法進行重構才能獲得完整的出行鏈。為了更加形象地闡述重構思路,定義點位7為還原軌跡起點O,點位18為還原軌跡終點D。圖1(b)中陰影圓標出的為缺失軌跡OD7- 18經(jīng)過的交叉口點位,根據(jù)點位18記錄的車輛進口方向能確定重構路徑最有可能來自于路線①、②或③中的一條,其中D點的進口路線①有3種重構方案(7- 12- 17- 18、7- 8- 13- 12- 17- 18、7- 8- 9- 14- 13- 12- 17- 18),路線②有3種重構方案(7- 12- 13- 18、7- 8- 13- 18、7- 9- 14- 13- 18),路線③也有3種重構方案(7- 12- 13- 14- 19- 18、7- 8- 13- 14- 19- 18、7- 8- 9- 14- 19- 18)。上述重構均滿足路網(wǎng)拓撲結構,可將其作為OD7- 18重構軌跡的可行解。隨著路網(wǎng)節(jié)點數(shù)和連接復雜度的增加,將會產(chǎn)生更多可行解。
(a)設備漏檢與真實行駛路徑
(b)缺失路徑鏈重構方案
研究者們公認的車牌識別數(shù)據(jù)隱藏了有效的路徑鏈信息,但受外部復雜環(huán)境和內(nèi)在識別方法的影響,其提取的路徑鏈信息含有大量噪聲,對機器學習算法的建模會造成較大影響,因此需對噪聲信息進行識別與剔除。
通常,車牌識別數(shù)據(jù)由車牌號碼、設備編號、點位編號、進口方向、車道編號和記錄時間等字段組成。對應的,路徑鏈先根據(jù)車牌號碼將檢測記錄按捕獲時間升序排列進行初步提??;然后,結合城市路網(wǎng)結構進行路徑鏈一階分離;最后,由路段行程時間的上下限閾值進行二階分離,得到車輛的路徑子鏈。
為了提取有效的車輛路徑鏈,先定義車輛的時空數(shù)據(jù)信息,設k為車輛編號,tk,i為第k輛車第i條記錄的捕獲時刻,nk,i為第k輛車第i條記錄所經(jīng)的交叉口編號;同時,定義城市路網(wǎng)拓撲鄰接矩陣P,其矩陣元素為
(1)
對車牌數(shù)據(jù)質量進行初步分析,檢測到的異常數(shù)據(jù)主要包括無效數(shù)據(jù)和冗余數(shù)據(jù),異常數(shù)據(jù)分析結果如表1所示。
表1 車牌識別數(shù)據(jù)異常數(shù)據(jù)分析
Table 1 Abnormal data analysis for license plate recognition data
異常類型表現(xiàn)形式異常原因無效數(shù)據(jù)套牌檢測車牌為套牌無牌檢測車牌缺失未識別車牌檢測到車牌但無法識別冗余數(shù)據(jù)多檢錯拍車輛在交叉口同一進口方向被連續(xù)檢測到廣角錯拍車輛在交叉口不同方向被檢測到
受城市路網(wǎng)復雜性、路況和檢測不確定性等的影響,利用車牌識別數(shù)據(jù)估計的行程時間存在大量噪聲,其中偏離路段正常行程時間范圍的數(shù)據(jù)主要有以下兩類:①行程時間上偏,主要原因是繞路、中途停車或識別錯誤等;②行程時間下偏,主要是車輛被單設備多拍,特殊車輛或違規(guī)車輛超速行駛,車牌識別數(shù)據(jù)有誤等。為了去除路徑鏈數(shù)據(jù)集中的大量噪聲,設計了數(shù)據(jù)清洗算法對噪聲進行處理,具體步驟如下。
Step1無效數(shù)據(jù)處理
將車牌編號字段中存在套牌、無牌、未識別的數(shù)據(jù)記錄進行剔除。
Step2冗余數(shù)據(jù)處理
設定設備檢測時間間隔閾值μ,μ≥tred+Δt,其中tred表示路口紅燈時間,Δt為車輛平均啟動損失時間與制動損失時間之和。
對于設備多檢錯拍與廣角錯拍兩種情況,若Tk,i<μ,則剔除tk,i+1對應的記錄。其中,相鄰兩條記錄的時間間隔定義為
Tk,i=tk,i+1-tk,i
(2)
Step3路徑鏈一階分離
設b為車輛k一天中路徑鏈上的某條子鏈,tk,b,i為第k輛車在第b條子鏈中的第i條檢測記錄的時刻,nk,b,i為第i條檢測記錄所經(jīng)過的路口編號。
結合路網(wǎng)拓撲鄰接矩陣進行路徑鏈一階分離,采用式(3)對交叉口不相連的行程時間觀測值進行濾除,剔除Tk,b,i≠的行程時間觀測值。
Tk,b,i=(tk,b,i+1-tk,b,i)pnk,i,nk,i+1
(3)
式中:Tk,b,i表示第k輛車第b條子鏈中相鄰兩條檢測記錄i和i+1之間的行程時間觀測值。
Step4城市路段行程時間區(qū)間估計
(i)設置統(tǒng)計時間窗Tw。由于日交通流波動較大,對應的路段行程時間觀測值也具有較大波動,需要將時間劃分為多組時間窗進行分析。由于凌晨、夜間視頻設備檢測的車牌數(shù)據(jù)較少,為保證各時間窗均能采集足夠數(shù)量的行程時間觀測樣本,對0 — 6點和19 — 24點兩組時段采用1 h作為統(tǒng)計間隔,6 — 19點采用15 min作為統(tǒng)計間隔,故全天時間窗Tw=63,時間窗的大小可依據(jù)城市交通在時間上的變化特點進行調(diào)整,保證各時間窗內(nèi)的行程時間觀測樣本量充足。
(ii)行程時間異常值處理。由Step 3統(tǒng)計整理得到所有車輛對應的Tk,b,i,其異常值處理采用統(tǒng)計時間窗過濾[11]的方法。根據(jù)tk,b,i所在的時間窗確定Tk,b,i的統(tǒng)計時間窗,對應的交叉口為nk,b,i和nk,b,i+1,對各時間窗下的行程時間觀測值依次以均值、標準差、中位值和平均絕對偏差進行過濾,循環(huán)執(zhí)行上述操作直至行程時間觀測值不再發(fā)生變化,則異常值處理完畢。選取圖2所示的路網(wǎng)視頻檢測點分布圖中點位10至11的路段行程時間進行異常值處理,數(shù)據(jù)對應日期為2018年10月10日,得到處理前、后的數(shù)據(jù)變化如圖3。
(4)
(5)
式中,ξ為調(diào)整系數(shù)[6],一般設置為1.15,目的是防止車輛在路段行駛過程中的短暫減速及行程時間濾波過度等因素導致的估計區(qū)間偏小的問題。
圖2 路網(wǎng)視頻檢測點分布圖
(a)濾波前
(b)濾波后
Fig.3 Before-and-after distribution of link travel time under data filtering
Step5路徑鏈二階分離
Step6對車牌數(shù)據(jù)中統(tǒng)計的所有車輛執(zhí)行上述5個步驟,得到去噪后的路徑鏈數(shù)據(jù)集Dc。
以圖2所示的某市南明區(qū)路網(wǎng)進行數(shù)據(jù)統(tǒng)計分析,圖中小圓圈代表路口視頻檢測點,并用兩種線形標出的橢圓表示出行對OD5- 3及OD1- 11。考慮到城市路網(wǎng)的復雜性,若采用路徑搜索算法[12]構造可行重構解,計算效率低。因此,選用途經(jīng)OD點位的歷史軌跡作為真實的待重構路徑解集,如路徑OD5- 3對應的歷史軌跡可行重構解集B1={b11,b12,b13,b14,b15}分別對應路徑5- 1- 2- 3、5- 6- 2- 3、5- 1- 2- 6- 7- 3、5- 6- 7- 3、5- 10- 11- 9- 7- 3;而OD1- 11對應的歷史軌跡的可行重構解集B2={b21,b22,b23,b24,b25}分別對應路徑1- 2- 3- 7- 9- 11、1- 2- 6- 7- 9- 11、1- 5- 6- 7- 9- 11、1- 5- 10- 11、1- 5- 6- 2- 3- 7- 9- 11。
歷史車牌識別數(shù)據(jù)集Dh選取圖2區(qū)域2018年10月8日—11月11日的車牌識別數(shù)據(jù),共計 3 125 余萬條記錄。實際中,視頻檢測設備的漏錯檢廣泛存在,已有研究者對該片區(qū)的視頻檢測設備進行了分析[6]。本研究以B1和B2重構路徑解經(jīng)過的所有交叉口為對象,由于人工數(shù)據(jù)收集能力有限,僅以工作日10月10日14—15點各交叉口人工調(diào)查流量作為參考,視頻檢測的流量(簡稱“采集值”)和實際人工調(diào)研的流量(簡稱“調(diào)研值”)對比如表2所示,對應路口左轉、直行、右轉3個方向的流量檢測率如圖4所示??傮w上,所有點位全天的平均檢測率約81.84%,對應左轉、直行和右轉的平均檢測率分別為82.89%、87.75%、74.88%,其右轉檢測率較低。
表2 某市南明區(qū)平峰時段1 h流量
Table 2 One- hour traffic volume during non- peak hours in the Nanming District of a city
位置 左轉直行右轉 采集值調(diào)研值采集值調(diào)研值采集值調(diào)研值點位153265515961844456616點位2171208516593199269點位3232275684763138192點位549056614771669393579點位6169211523573193257點位7276352811966161212點位9109123321361151186點位1035543610661240381482點位1136944411241278329439
圖4 路網(wǎng)視頻點位檢測率
為說明視頻檢測漏檢對路徑鏈提取的影響,先假設車輛經(jīng)過n個交叉口、其設備間的檢測率獨立,又因研究區(qū)域內(nèi)各點位檢測率較接近,則完整路徑鏈被檢測到的概率大致為0.82n。進一步分析可知,視頻設備準確檢測m個連續(xù)交叉口(這種情況下才能被路徑鏈提取算法檢測識別)的概率P為
P=(n-m+1)0.82m0.18n-m, ?m≤n
(6)
具體地,以車輛經(jīng)過5個交叉口為例,完整路徑鏈檢測率僅為37.07%,這意味著車輛連續(xù)經(jīng)過5個交叉口,即有62.93%的機率丟失部分路徑,需要研究重構算法還原真實路徑。由此可知,視頻設備檢測率越低,路徑鏈丟失的概率越大。若僅靠前文闡述的方法粗略提取路徑鏈,則會丟失大量的有用信息。
為探究車牌識別數(shù)據(jù)中隱藏的出行特征與駕駛者路徑選擇之間的關系,進一步挖掘可量化的變量,借助機器學習模型進行訓練還原丟失的路徑,需要對已提取的完整路徑鏈進行特征分析。GBDT算法[10]具有構建復雜非線性關系的能力,對輸入空間中的離群點有較好的魯棒性,可較準確地擬合數(shù)據(jù)集中的非噪聲數(shù)據(jù),同時算法在訓練過程中,能計算各個分裂節(jié)點的對應特征在分裂時的收益(即特征的重要度),該收益可作為路徑鏈重構模型中特征變量選取的有效性的評價指標,因此本研究選用該算法進行特征有效性分析。
圖5 O點時間窗、行程時間與出行路徑的關系圖
Fig.5 Relationship amongO-point time window,travel time,and travel path
圖6 O點的時間窗、進口方向與出行路徑關系圖
Fig.6 Relationship amongO- point time window,O- point entry direction,and travel path
圖7 O點時間窗、D點出口方向與出行路徑的關系圖
Fig.7 Relationship amongO- point time window,D- point exit direction,and travel path
由圖7可知:當s取值不同時,路徑b11、b12和b14之間存在較大差異,而b13和b15也類似,與p的取值具有類似的功能,可對該特征變量執(zhí)行相同處理。
除了特征變量外,其余變量不做逐一列舉。此外,為驗證前述出行特征對駕駛者路徑選擇具有重要性,采用GBDT模型進行有效性驗證,在模型訓練過程中,定義第f個特征的重要度Jf為
(7)
式中,M為GBDT模型中回歸樹的總數(shù)量。
對于每棵回歸樹的特征重要度計算方式如下:
(8)
其中,L為樹的葉子節(jié)點數(shù),vt是和節(jié)點相關聯(lián)的特征,lt是節(jié)點t分裂后損失的減少值。
對路徑重構數(shù)據(jù)集Dr進行分層抽樣,抽取共計18 892條樣本(占樣本總量20%)進行模型訓練,本研究采用Embedded的特征選擇方法,具體步驟為采用梯度提升決策樹算法進行5折交叉驗證訓練后取其平均重要度占比進行選擇[13],限于篇幅,文中僅列舉經(jīng)過篩選后得到如表3所示的特征及其占比。
表3 GBDT模型特征重要度占比
根據(jù)前述基于視頻車牌識別的路徑鏈提取分析可知,因視頻檢測設備存在漏檢,導致路網(wǎng)中車輛軌跡鏈的局部路徑大量丟失。為了輔助交通運營、管理與決策,需對丟失的局部路徑進行重構,還原車輛在網(wǎng)絡中的完整出行軌跡。借助視頻檢測的部分出行路徑鏈完整的車輛數(shù)據(jù),結合第2節(jié)提取的影響駕駛員選擇出行路徑鏈的關鍵特征及其重要度,本節(jié)研究基于梯度提升決策樹[10]方法估計部分車輛丟失的局部路徑。
梯度提升決策樹是一種以CART[14]作為基元學習器的Boosting[15]方法,該算法首先根據(jù)初始訓練集實際的輸出值擬合一棵回歸樹;然后根據(jù)基元學習器的擬合殘差來擬合下一棵回歸樹;此后,均以本輪基元學習器的擬合殘差為目標進行下一輪擬合,循環(huán)重復,直至訓練的基元學習器的數(shù)量達到事先設置的數(shù)量。在構建每一棵回歸樹的過程中,模型逐漸學習到一種組合的出行特征與出行模型匹配的能力,從而表征兩者之間復雜的非線性關系。此外,通過模型的超參數(shù)調(diào)整限制其復雜度,當訓練數(shù)據(jù)較少時能防止過擬合。
基于2.2節(jié)已得到的路徑重構數(shù)據(jù)集Dr進行GBDT建模的流程如下。
定義模型整體損失函數(shù)L(y,f(x)),由第2.2節(jié)對重構數(shù)據(jù)集構造特征的過程所述,可將路徑鏈重構建模抽象為多模式分類問題,因此可采用ln對數(shù)損失函數(shù)作為優(yōu)化目標函數(shù),即
(9)
式中,pu(xq)為模型重構為各重構路徑解的概率,其計算方法如下
(10)
其中,f(?)為模型判別輸出為重構路徑l時的概率。
算法具體步驟如下:
步驟1初始化f0(x)=0;
步驟2對于m=1,2,…,M
(i)對q=1,2,…,Q,計算梯度
(11)
(iii)對j=1,2,…,Jm,計算
(12)
(iv)更新
fm(x)=fm-1(x)+ηTm(x;βm)
(13)
式中,η為權重縮減系數(shù),即模型學習率,其作用是協(xié)調(diào)迭代次數(shù)。
步驟3模型數(shù)據(jù)訓練完畢,得到集成學習器
(14)
選取2.2節(jié)城市路網(wǎng)中OD5- 3及OD1- 11進行重構路徑模型的準確性分析實驗。將路徑重構數(shù)據(jù)集Dr中2018年11月1日前的數(shù)據(jù)作為訓練集,之后的數(shù)據(jù)作為測試集。對OD5- 3、OD1- 11分別提取訓練樣本66 596、56 737條,測試樣本27 866、18 912條,測試集在數(shù)據(jù)集中的占比分別約為30%和25%。
為驗證文中所提方法的實際效果,選取了4種算法與GBDT算法[10]進行對比,包括機器學習算法(CART算法[14]、BP神經(jīng)網(wǎng)絡算法[16])和傳統(tǒng)的重構算法(TOPSIS算法[8]、粒子濾波算法[9])。
在GBDT模型訓練前需進行數(shù)據(jù)標準化,針對離散型特征變量采用獨熱編碼處理。另外,訓練過程中需調(diào)整基元學習器個數(shù)、學習率、決策樹最大深度、最大葉節(jié)點數(shù)和分裂節(jié)點所需最少樣本數(shù)5個參數(shù)進行超參數(shù)優(yōu)化,以提高模型的性能。常采用的超參數(shù)調(diào)整方法主要包括網(wǎng)格搜索法[17]、隨機搜索法、貝葉斯優(yōu)化、梯度優(yōu)化,文中采用了網(wǎng)格搜索法進行超參數(shù)調(diào)整,使用5折交叉驗證進行參數(shù)尋優(yōu),先進行參數(shù)試探,再將CART回歸樹的數(shù)量搜索范圍設定為5至565,學習率范圍設定為0.005至0.9,得到圖8和圖9所示的不同超參數(shù)情況下出行鏈重構準確性的變化關系。
從圖8可看出:當η<0.7時,路徑鏈重構準確性隨著K值的增加先增加后減小;當η≥0.7時,隨著K值的增加先減小,后趨于平穩(wěn);η=0.5時,有較高準確性。從圖9可知:K=5時,重構準確性隨著η的增加而增加;當K>5時,準確性隨著η的增加先增加后減?。划擪=55時,有較高準確性。
圖8 回歸樹的數(shù)量與重構準確率的關系
Fig.8 Relationship between the number of regression trees and the accuracy of reconstruction
圖9 學習率與重構準確率的關系
Fig.9 Relationship between learning rate and the accuracy of reconstruction
綜合考慮模型的復雜度及訓練時間,文中選取η=0.5、K=55后,其它超參數(shù)的調(diào)整較為簡單,主要采用網(wǎng)格搜索法進行優(yōu)化,選取樹的最大深度h=7,分裂節(jié)點所需最少樣本數(shù)為50。
通過選取上述最優(yōu)的超參數(shù)進行模型訓練,對路網(wǎng)中OD5- 3與OD1- 11的丟失路徑進行重構實驗,考慮到路徑鏈重構的目標是更準確地重構真實的路徑鏈,因此這里采用分類模型評估指標中的Macro-P[18]進行評估。分別對比GBDT算法、CART決策樹、BP神經(jīng)網(wǎng)絡、粒子濾波算法(PF)、多目標優(yōu)化決策算法(TOPSIS)的Macro-P值及重構用時,在實驗過程中,各重構模型均在CPU Intel i7- 8750H、RAM 16 GB的電腦配置下運行,結果如表4所示。
表4 不同重構算法的準確性及耗時對比
Table 4 Comparison of accuracy and consuming timeunder diffe-rent reconstruction models
模型OD5-3OD1-11Macro-P值/%重構用時/sMacro-P值/%重構用時/sGBDT93.244.288.545.0CART91.020.383.360.6BP93.20456.385.84512.5PF75.24904.472.39945.2TOPSIS78.361150.773.441246.3
由表4可知,對路徑OD5- 3和OD1- 11測試的GBDT算法平均重構準確率為91%,同時對比其他模型可知:①非線性能力強的GBDT算法和BP算法的Macro-P值均高于其它3類,但GBDT算法的訓練收斂速度約為BP神經(jīng)網(wǎng)絡的100倍,其利用一階導數(shù)近似擬合殘差有效降低了運算開銷;②CART算法的Macro-P值相對較低,主要是因為僅生成一棵回歸樹對訓練集進行擬合,容易造成過擬合;③傳統(tǒng)PF及TOPSIS算法主要基于路徑擇優(yōu)的思想,借助路徑行程時間匹配度屬性及部分主觀的路徑擇優(yōu)屬性進行最優(yōu)化決策,在重構過程中,需對每條缺失的路徑鏈計算擇優(yōu)屬性,因此運算時間開銷較大。從2.2節(jié)數(shù)據(jù)分析中可知,GBDT模型通過構建多個特征與出行路徑的強相關性,在防止過擬合的同時,調(diào)整分裂最小節(jié)點數(shù)、最大葉節(jié)點數(shù)等參數(shù)逐層擬合殘差,既挖掘了數(shù)據(jù)中隱藏的出行規(guī)律,提高了重構路徑鏈精度,又簡化了重構過程中產(chǎn)生的中間決策概率,降低了重構的復雜度。
針對城市路網(wǎng)中視頻檢測設備獲取的車牌識別數(shù)據(jù)不完整性,導致提取的路徑鏈信息存在大量丟失的問題,提出了基于GBDT機器學習模型的城市車輛丟失路徑鏈重構方法。通過對異常的車牌識別數(shù)據(jù)進行清洗后提取了準確的路徑鏈,基于此提取了重構模型的關鍵變量,構造了可用于模型訓練的數(shù)據(jù)集,通過與現(xiàn)有算法和其它機器學習算法的對比,證明了GBDT算法的高準確性和高效率。由此可知,梯度提升決策樹算法在處理城市車輛路徑鏈重構問題上有較大優(yōu)勢,研究還表明采用機器學習算法相對于傳統(tǒng)最短路搜索方法,具有表征車牌數(shù)據(jù)中隱藏的駕駛員路徑選擇行為的能力。