楊 飛,姜海航,劉好德,姚振興,霍婭敏*,周子一
(1.西南交通大學(xué)交通運(yùn)輸與物流學(xué)院,成都611756;2.交通運(yùn)輸部科學(xué)研究院城市交通與軌道交通研究中心,北京100029;3.長(zhǎng)安大學(xué)公路學(xué)院,西安710054;4.東南大學(xué)交通學(xué)院,南京211189)
傳統(tǒng)居民出行調(diào)查方法已經(jīng)越來(lái)越難以滿足當(dāng)前交通規(guī)劃和政策制定的需要.近年來(lái)基于手機(jī)信令數(shù)據(jù)的交通信息采集技術(shù)受到廣泛關(guān)注,但由于其較低的時(shí)空解析度,難以滿足對(duì)個(gè)體交通方式等微觀出行參數(shù)的提取.研究證明基于GPS軌跡數(shù)據(jù)的交通調(diào)查技術(shù)在精細(xì)化出行鏈信息提取上有較大優(yōu)勢(shì)[1].
上世紀(jì)九十年代,已有學(xué)者開(kāi)展利用手持GPS儀器進(jìn)行交通調(diào)查的實(shí)地研究,提出一些基于規(guī)則的方法,證明在交通方式提取中的有效性[2].然而由于GPS儀器較為昂貴,將其大規(guī)模應(yīng)用到居民出行調(diào)查中比較困難.智能手機(jī)的普及為研究注入新的活力.許多機(jī)器學(xué)習(xí)算法被應(yīng)用到交通方式提取中,如貝葉斯網(wǎng)絡(luò)[3-6],隨機(jī)森林[4,6],人工神經(jīng)網(wǎng)絡(luò)[6-7],支持向量機(jī)[5-6,8],決策樹(shù)[4-6,8]等.在算法對(duì)比研究中,SVM 相比于其他算法有更好的整體應(yīng)用效果[5-6,8-9].
已有研究很少關(guān)注高峰擁堵?tīng)顟B(tài)下的交通方式識(shí)別效果.道路交通狀態(tài)是影響交通方式識(shí)別效果的主要因素[4].不同交通狀態(tài)下車輛速度特征呈現(xiàn)較大差異.例如小汽車擁堵時(shí)容易間斷性停車,與公交車在站點(diǎn)??康奶卣鞲酉嗨?;在道路嚴(yán)重?fù)矶聲r(shí),機(jī)動(dòng)車運(yùn)行比較緩慢,其速度特征與非機(jī)動(dòng)車甚至步行類似.因此GPS軌跡數(shù)據(jù)在不同交通狀態(tài)下的應(yīng)用效果有待驗(yàn)證.
另外,由于公交車和小汽車相似的運(yùn)行速度特征,當(dāng)前研究使用的機(jī)器學(xué)習(xí)算法的識(shí)別精度仍有待進(jìn)一步提升.交通方式識(shí)別的難點(diǎn)主要因?yàn)槭艿綇?fù)雜交通環(huán)境(如交通擁堵或交叉口)的影響,小汽車運(yùn)行速度的降低使其時(shí)域?qū)傩耘c公交車更加相似.一些研究指出,時(shí)域中的信息缺失有可能在頻域中得到一定的彌補(bǔ)[8].通過(guò)研究GPS數(shù)據(jù)的頻域?qū)傩杂型棺R(shí)別精度得到進(jìn)一步提升.
綜上所述,本文使用GPS軌跡數(shù)據(jù)識(shí)別常見(jiàn)的4種交通方式,提出基于SVM的輸入屬性和參數(shù)的優(yōu)化方法,在傳統(tǒng)時(shí)域?qū)傩曰A(chǔ)上加入基于STFT的頻域?qū)傩?,并利用GA對(duì)SVM的重要參數(shù)聯(lián)合優(yōu)化,探究不同交通狀態(tài)下交通方式的識(shí)別效果.
交通方式識(shí)別方法分為3步:首先,使用STFT構(gòu)建新的輸入屬性;然后,利用GA對(duì)SVM模型參數(shù)進(jìn)行優(yōu)化;最后,構(gòu)建優(yōu)化的SVM分類器用于交通方式識(shí)別.流程如圖1所示.
圖1 方法論流程Fig.1 Procedure of methodology in this paper
SVM的輸入屬性選取直接影響算法的應(yīng)用效果.本文選取GPS數(shù)據(jù)的速度和加速度的衍生屬性作為SVM的輸入屬性.其中,加速度值來(lái)源于計(jì)算相鄰時(shí)刻速度差.借鑒信號(hào)分析方法將輸入屬性分為兩類:頻域?qū)傩院蜁r(shí)域?qū)傩?
頻域?qū)傩酝ㄟ^(guò)STFT 分解速度和加速度值獲取,可以較好地描述信號(hào)的時(shí)頻局域特性[10],計(jì)算公式為
式中:x(m)為單位時(shí)間窗口T內(nèi)速度或加速度值;m為信號(hào)的時(shí)間軸;n為截取的時(shí)間窗口在時(shí)間軸上的位置;w(?)為窗函數(shù),取長(zhǎng)度為T的Hamming窗;ω為數(shù)字頻率,取1 Hz;j為虛數(shù)單位.
STFT 將速度和加速度數(shù)據(jù)的離散時(shí)間信號(hào)以窗口為單位轉(zhuǎn)換為一系列不同頻率的正弦波.每一個(gè)正弦波表示一個(gè)頻率分量,其在頻譜上的峰值即為當(dāng)前窗口下的頻域?qū)傩?以速度值轉(zhuǎn)換后得到的各窗口下峰值最高頻域?qū)傩詾槔?,不同交通方式的速度和頻域值波動(dòng)特征如圖2所示.可以看出,由于受到交叉口或交通擁堵等因素的影響,不同交通方式的速度會(huì)出現(xiàn)較大程度的波動(dòng),尤其是公交車和小汽車,但其對(duì)應(yīng)的頻域?qū)傩圆▌?dòng)則較為平緩,且不同方式的頻域值處于不同的區(qū)間.這表明:頻域?qū)傩栽谝欢ǔ潭壬蠌浹a(bǔ)由于速度波動(dòng)對(duì)交通方式感知所帶來(lái)的偏差,從頻域視角保留交通方式的運(yùn)行特征.
圖2 不同交通方式的最高頻域?qū)傩圆▌?dòng)特征Fig.2 Fluctuation characteristic of highest frequency domain feature of different transportation modes
將速度和加速度數(shù)據(jù)轉(zhuǎn)換到頻域后,觀察測(cè)試發(fā)現(xiàn)絕大多數(shù)信息包含在各自的前6個(gè)結(jié)果分量里,即信號(hào)在頻域中振幅最高的6個(gè).分別使用速度和加速度的前6個(gè)分量振幅作為新的獨(dú)立輸入屬性,生成12個(gè)頻域?qū)傩?
時(shí)域?qū)傩悦枋鑫锢硇盘?hào)在時(shí)間軸上的變化特性.參考已有研究[5-6],考慮到不同交通方式速度和加速度的峰值、平均值以及波動(dòng)性的差異性,選取單位時(shí)間窗口T 內(nèi)的速度和加速度均值mean(v(t))和mean(a(t)),最大值max(v(t))和max(a(t)),方差值var(v(t))和var(a(t))作為SVM的6個(gè)時(shí)域輸入屬性.其中,v(t)和a(t)分別表示為時(shí)間窗口長(zhǎng)度T下的速度值和加速度值.
時(shí)域?qū)傩耘c頻域?qū)傩院喜ⅲM成18個(gè)輸入屬性.
SVM建立在統(tǒng)計(jì)學(xué)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,將屬性向量映射到更高維的空間里,在這個(gè)空間里建立一個(gè)最大間隔超平面,通過(guò)尋找方向合適的分隔超平面,使不同類別中的樣本位置和這個(gè)超平面的距離最大化,能夠有效解決非線性、高維度的分類問(wèn)題[9].其主要函數(shù)和約束條件為
式中:xn為包含不同輸入屬性(如mean(v(t)))的第n個(gè)觀測(cè)值;yn為第n個(gè)觀測(cè)值的交通方式;w為不同類別決策邊界參數(shù);wT為w的轉(zhuǎn)置;C為懲罰系數(shù);ξn為邊界誤差松弛因子;bSVM為決策邊界函數(shù)截距;N為樣本總數(shù)量;φ(xn)為核函數(shù),其作用是將低維非線性數(shù)據(jù)映射到高維空間,使得數(shù)據(jù)線性可分.選取普適性更強(qiáng)的徑向基核函數(shù),表達(dá)式為
式中:σ為核參數(shù),與懲罰系數(shù)C均為影響SVM分類效果的重要參數(shù).
SVM中懲罰因子C和核參數(shù)σ對(duì)于出行方式識(shí)別有直接影響,選用啟發(fā)式搜索的GA對(duì)訓(xùn)練參數(shù)C和σ進(jìn)行聯(lián)合優(yōu)化,以達(dá)到更加理想的出行方式分類效果.GA是借鑒自然遺傳選擇的隨機(jī)搜索最優(yōu)化算法,根據(jù)自主確定的適應(yīng)度函數(shù)并通過(guò)遺傳中的選擇、交叉和變異對(duì)參數(shù)個(gè)體進(jìn)行篩選,達(dá)到更優(yōu)的參數(shù)組合[11],流程圖如圖3所示,優(yōu)化方法步驟如下:
Step 1隨機(jī)選取70%的手機(jī)GPS數(shù)據(jù)作為訓(xùn)練集,另外30%作為測(cè)試集.為降低不同輸入屬性之間由于單位量級(jí)不同造成的對(duì)出行方式識(shí)別精度的影響,對(duì)所有初始輸入屬性進(jìn)行min-max標(biāo)準(zhǔn)化處理,將各輸入屬性無(wú)量綱化在[0,1]區(qū)間.
式中:xi和xai分別為歸一化前、后的輸入屬性特征值;xi-min和xi-max分別為第i個(gè)屬性特征歸一化前的特征最小值和最大值.
Step 2隨機(jī)生成C和σ30次,并將它們編碼成為二進(jìn)制.每一組兩個(gè)參數(shù)構(gòu)成的二進(jìn)制組合視為一個(gè)個(gè)體的DNA,即生成30個(gè)個(gè)體種群.
Step 3SVM模型被用來(lái)檢測(cè)每個(gè)個(gè)體的存活可能性,即適應(yīng)度.將5 折交叉驗(yàn)證精度作為適應(yīng)度函數(shù).即,如果由C和σ組成的個(gè)體能夠在SVM模型中獲得更高的識(shí)別精度,它的存活幾率也將更高.
Step 4通過(guò)經(jīng)典的GA 遺傳選擇過(guò)程:“選擇-交叉-變異”,對(duì)個(gè)體進(jìn)行篩選.確定種群大小、迭代次數(shù)、交叉概率和變異率等GA 參數(shù).通過(guò)多次遺傳選擇,能夠獲得更高精度的個(gè)體將存留.其中達(dá)到最高識(shí)別精度的個(gè)體作為最優(yōu)參數(shù)組合
利用自主開(kāi)發(fā)的智能手機(jī)APP 進(jìn)行數(shù)據(jù)采集,包括:GPS數(shù)據(jù)、三軸加速度、陀螺儀等多種類型數(shù)據(jù),采集頻率為每秒一次.實(shí)地?cái)?shù)據(jù)采集在中國(guó)成都市多種不同類型的道路上進(jìn)行.2015—2018年期間,超過(guò)100位志愿者參與數(shù)據(jù)采集實(shí)驗(yàn),出行方式包括:步行、自行車、公交車和小汽車4種.由于在地下缺失GPS 信號(hào),因此未安排地鐵出行數(shù)據(jù)采集.同時(shí),將道路交通狀態(tài)分為3種,包括:暢通狀態(tài)、一般擁堵?tīng)顟B(tài)和高峰嚴(yán)重?fù)矶聽(tīng)顟B(tài).根據(jù)美國(guó)交通研究委員會(huì)編寫的《道路通行能力手冊(cè)》,3種狀態(tài)分別對(duì)應(yīng)A-B 級(jí)、C-D 級(jí)和E-F 級(jí)服務(wù)水平.出行試驗(yàn)過(guò)程中,要求志愿者同步記錄出行日志,包括:出行停留點(diǎn)、出行方式、出行方式換乘時(shí)刻等信息,作為算法評(píng)估的真實(shí)數(shù)據(jù).最終,共有超過(guò)2 960 h、106 560 00條數(shù)據(jù)記錄被采集到,數(shù)據(jù)格式樣例如表1所示.
圖3 基于GA的SVM 參數(shù)優(yōu)化Fig.3 SVM parameter optimization based on GA
表1 手機(jī)APP采集數(shù)據(jù)樣例Table1 An example of collected data from smartphone APP
在GPS軌跡數(shù)據(jù)中,不同交通方式速度特征的差異是方式識(shí)別的關(guān)鍵.例如,步行和自行車的速度通常約為5 km/h和18 km/h,公交車和小汽車正常行駛時(shí)超過(guò)25 km/h.道路交通狀態(tài)很大程度上影響機(jī)動(dòng)車的運(yùn)行特征,從而會(huì)對(duì)交通方式識(shí)別產(chǎn)生干擾.圖4為不同交通狀態(tài)下“步行—公交車—步行”出行模式的速度特征.可以看出,隨著擁堵程度的加劇,公交車整體運(yùn)行速度下降,啟停頻率增加,更容易發(fā)生較長(zhǎng)時(shí)間低速運(yùn)行甚至停車現(xiàn)象,與非機(jī)動(dòng)化方式更加相似.
圖4 不同交通狀態(tài)下“步行—公交車—步行”出行方式速度特征Fig.4 Speed characteristic of“walk-bus-walk”mode under different traffic conditions
根據(jù)已有研究和重復(fù)試驗(yàn),時(shí)間窗口長(zhǎng)度T取值為60 s[6-7].使用matlab進(jìn)行GA-SVM模型的建立和訓(xùn)練,設(shè)置GA 尋優(yōu)算法中:最大遺傳代數(shù)為55,種群數(shù)量為30,交叉概率為0.9,變異概率為0.05,以SVM 五折交叉驗(yàn)證整體識(shí)別精度作為適應(yīng)度值.GA 參數(shù)尋優(yōu)過(guò)程如圖5所示.可以看出,GA適應(yīng)度隨著進(jìn)化代數(shù)的增加逐漸提高,由于變異概率等隨機(jī)因素影響,雖然平均適應(yīng)度一直波動(dòng),但在第24代以后最佳適應(yīng)度收斂至穩(wěn)定值,平均適應(yīng)度整體趨于穩(wěn)定,最終得到最佳懲罰參數(shù)Copt=354.6,最佳核參數(shù)σopt=0.367.
圖5 GA-SVM 適應(yīng)度變化曲線Fig.5 Fitness changing curves of GA-SVM
為驗(yàn)證加入頻域?qū)傩缘挠行?,?duì)僅使用傳統(tǒng)時(shí)域?qū)傩院图尤腩l域?qū)傩越M成的18個(gè)合并屬性的識(shí)別結(jié)果進(jìn)行對(duì)比,結(jié)果如圖6所示.可以看出,相比于只使用時(shí)域?qū)傩?,加入頻域?qū)傩院蟮?種出行方式的識(shí)別精度均有一定程度提升,尤其對(duì)公交車和小汽車這兩種機(jī)動(dòng)化方式,提高約7%的識(shí)別正確率.
圖6 時(shí)域?qū)傩院秃喜傩宰R(shí)別正確率Fig.6 Recognition accuracy of using time domain and pooled features
表2為不同交通狀態(tài)下各交通方式的識(shí)別結(jié)果.由于步行和自行車幾乎不受交通擁堵影響,因此,不做交通狀態(tài)區(qū)分,識(shí)別正確率分別達(dá)到99.2%和97.7%.機(jī)動(dòng)車的識(shí)別正確率對(duì)交通狀態(tài)有著較強(qiáng)的敏感性:在道路暢通狀態(tài)下,公交車和小汽車幾乎自由流運(yùn)行,識(shí)別精度均在91%以上;在道路一般擁堵?tīng)顟B(tài)時(shí),由于小汽車的整體運(yùn)行速度降低,公交車和小汽車之間更加容易互相混淆,使得二者識(shí)別正確率下降,但仍然在83%以上;當(dāng)?shù)缆穱?yán)重?fù)矶聽(tīng)顟B(tài)時(shí),由于機(jī)動(dòng)車運(yùn)行速度較慢甚至較長(zhǎng)時(shí)間停車,更加易與非機(jī)動(dòng)化方式相混淆,分別有31.3%和33.9%的公交車和小汽車被識(shí)別為非機(jī)動(dòng)化方式,識(shí)別效果不理想.
表2 不同交通狀態(tài)下交通方式識(shí)別正確率統(tǒng)計(jì)結(jié)果Table2 Statistical result of trip mode detection accuracy under different traffic conditions
交通方式轉(zhuǎn)換點(diǎn),即通常說(shuō)的上、下車時(shí)刻,是交通調(diào)查的重要內(nèi)容.一次完整的出行通常以“步行—M—步行”模式進(jìn)行,統(tǒng)計(jì)步行和機(jī)動(dòng)化方式M間的轉(zhuǎn)換點(diǎn)識(shí)別誤差,如表3和圖7所示.在道路暢通狀態(tài)下,公交車和小汽車方式轉(zhuǎn)換點(diǎn)識(shí)別效果理想,所有識(shí)別誤差均在30 s以內(nèi),平均識(shí)別誤差分別為7.3 s和5.6 s;在道路一般擁堵?tīng)顟B(tài)時(shí),轉(zhuǎn)換點(diǎn)識(shí)別誤差有較為明顯上升,公交車和小汽車分別有17.1%和20.9%的誤差值超過(guò)30s,平均誤差在35 s以內(nèi);當(dāng)交通狀態(tài)達(dá)到嚴(yán)重?fù)矶聽(tīng)顟B(tài)時(shí),轉(zhuǎn)換點(diǎn)識(shí)別誤差大幅度增加,公交車和小汽車的平均誤差分別由30.1 s和34.9 s 增加至168.6 s和228.3 s,這是由于道路嚴(yán)重?fù)矶聲r(shí),車輛間跟馳距離通常很小,上、下車前后,車輛路邊等待停靠和低速行駛時(shí)間較長(zhǎng),容易被識(shí)別為步行.最大識(shí)別誤差在13 min以內(nèi),相比于基于主觀回憶的人工問(wèn)卷交通調(diào)查,結(jié)果能為交通調(diào)查提供參考.
表3 不同交通狀態(tài)下交通方式轉(zhuǎn)換點(diǎn)識(shí)別誤差區(qū)間分布Table3 Interval distribution of mode transfer time recognition error under different traffic conditions
圖7 不同交通狀態(tài)下交通方式轉(zhuǎn)換點(diǎn)識(shí)別誤差箱線圖Fig.7 Boxplots of mode transfer time detection errors under different traffic conditions
本文提出GA-SVM的交通方式識(shí)別優(yōu)化方法,加入STFT 生成的頻域?qū)傩?,在已有研究的基礎(chǔ)上進(jìn)一步優(yōu)化影響SVM分類效果的輸入屬性和參數(shù).對(duì)不同交通狀態(tài)下交通方式和交通方式轉(zhuǎn)換點(diǎn)的識(shí)別效果做深入分析.結(jié)果表明,頻域?qū)傩缘募尤雽?duì)交通方式識(shí)別精度有明顯提高;在道路嚴(yán)重?fù)矶聲r(shí),盡管交通方式識(shí)別效果不理想,但交通方式轉(zhuǎn)換點(diǎn)識(shí)別結(jié)果相比于基于主觀回憶的人工調(diào)查的較高誤差仍然有一定參考價(jià)值.
基于GPS軌跡數(shù)據(jù)的交通調(diào)查技術(shù)在道路嚴(yán)重?fù)矶聲r(shí)的識(shí)別效果需要進(jìn)一步提高,未來(lái)將融合手機(jī)信令數(shù)據(jù)等多源數(shù)據(jù)對(duì)出行OD 等交通參數(shù)進(jìn)行識(shí)別,為手機(jī)數(shù)據(jù)在交通調(diào)查中的實(shí)踐應(yīng)用提供技術(shù)支撐.