楊津達,曹永春,林 強,滿正行,劉新帥
(西北民族大學 數(shù)學與計算機科學學院,甘肅 蘭州 730030)
交通擁堵已經(jīng)成為各大城市面臨的共性問題之一,嚴重困擾著交通的各參與方,包括政府管理部門和駕駛員.為了提供交通出行的參考信息,相關(guān)學者和企業(yè)從不同角度研究交通狀態(tài)識別和預(yù)測問題,以期構(gòu)建“智能交通系統(tǒng)”.文獻[1]利用自行安置的攝像頭,采集城市道路交通圖像,通過SVM對圖像的分析,實現(xiàn)對擁堵和非擁堵兩種交通狀態(tài)的識別;文獻[2]通過自駕車跟蹤公交車行駛,利用GPS數(shù)據(jù)采集硬件獲取運行車輛的GPS位置和速度,并結(jié)合SVR和SVC研究了短期交通狀態(tài)識別與預(yù)測.利用浮動車技術(shù),文獻[3]獲取城市出租車的GPS和道路視頻數(shù)據(jù),并利用SVM二叉樹多分類算法的識別模型進行區(qū)域路網(wǎng)交通流狀態(tài)的識別.上述方法采用傳統(tǒng)的道路交通檢測設(shè)備進行交通狀態(tài)的檢測與識別.由于其安裝和維護成本高以及覆蓋面積小等缺點,在實際應(yīng)用中存在諸多問題.
隨著智能手機中的傳感器越來越精密、種類越來越多,利用智能手機傳感器進行模式識別的研究受到了眾多學者的關(guān)注.基于智能手機傳感器數(shù)據(jù),文獻[4]研究了5種交通出行方式及其組合出行方式的識別;文獻[5]研究了路面平整度的評價方法;文獻[6,7]研究了用戶的日常活動行為的識別;文獻[8,9]研究并實現(xiàn)了準確的空間定位;文獻[10]研究了人體運動識別及應(yīng)用;文獻[11]研究了人體跌倒檢測.這些研究成果以智能手機傳感器數(shù)據(jù)為研究對象并獲得了較好的識別效果,表明智能手機內(nèi)嵌傳感器數(shù)據(jù)可以表征以智能手機為載體對象的相關(guān)行為或特征.文獻[12]通過比較發(fā)現(xiàn),專業(yè)傳感器設(shè)備和智能手機內(nèi)嵌傳感器在行駛車輛中的加速度數(shù)據(jù)高度吻合,說明目前智能手機內(nèi)嵌傳感器精度已很高.充分利用越來越精密的手機傳感器數(shù)據(jù)進行交通狀態(tài)識別是解決傳統(tǒng)檢測設(shè)備不足的一個新思路.雖然目前這方面的研究較少,但已有學者進行了相關(guān)研究工作.文獻[13]利用手機運動傳感器數(shù)據(jù)進行交通流狀態(tài)識別,通過收集手機各類傳感器的數(shù)據(jù),利用網(wǎng)格尋優(yōu)法優(yōu)化參數(shù)后的SVM模型,對交通流狀態(tài)進行識別,達到了不錯的識別效果.該研究選用較特殊路段且識別模型復(fù)雜、模型輸入?yún)?shù)較多.
借助日益普及的智能手機,特別是其內(nèi)嵌的各類傳感器,本文研究了基于動力學傳感器數(shù)據(jù)的交通狀態(tài)識別模型,以支持車輛運行狀態(tài)的實時檢測及交通狀態(tài)信息自動推送服務(wù).為了實現(xiàn)這一目的,本文在選用一般城市道路為實驗路段的基礎(chǔ)上,研究了以手機加速度傳感器數(shù)據(jù)及其均值、方差為特征輸入的交通狀態(tài)識別方法.實驗結(jié)果表明,本文提出的方法具有良好的識別性能,為實時檢測細粒度交通狀態(tài)墊定了技術(shù)基礎(chǔ),因而能夠為駕駛員提供較為準確的實時交通狀態(tài)信息,有助于緩解交通擁堵.同時,實時可靠的交通狀態(tài)信息也能為政府管理部門提供包括道路優(yōu)化和分時管理的決策依據(jù).
安放在運行車輛內(nèi)的智能手機加速度傳感器數(shù)據(jù)能夠表征運行車輛所處道路的交通擁擠狀況,但直接以加速度傳感器原始數(shù)據(jù)作為交通狀態(tài)識別模型的特征輸入,識別效果往往不理想.為獲得精確的交通狀態(tài)識別結(jié)果,需要進一步對原始數(shù)據(jù)進行統(tǒng)計分析,獲取能較好表征交通狀態(tài)的模型輸入?yún)?shù).為此,基于手機傳感器的交通狀態(tài)識別過程可分為三個階段:一是手機加速度傳感器原始數(shù)據(jù)的采集;二是對手機傳感器原始數(shù)據(jù)的預(yù)處理和分類模型所需的特征參數(shù)選??;三是構(gòu)建適合于交通狀態(tài)識別的分類模型.
放置在運行車輛中的手機加速度傳感器的三軸加速度數(shù)據(jù)反映了車輛在行駛過程中前后、左右運動和上下顛簸的趨勢.為減少對三軸加速度數(shù)據(jù)的坐標映射運算,數(shù)據(jù)采集過程中將手機水平固定放置在行駛車輛中.如圖1所示,手機屏幕朝上水平放置于車輛內(nèi),Y軸正方向與車輛前進方向保持一致,此時X軸加速度表示車輛變道的速度變化程度,Y軸加速度表示車輛行駛方向的速度變化程度,Z軸加速度則表示車輛的顛簸程度.
圖1 手機放置及三軸加速度方向
為方便數(shù)據(jù)采集,本文基于JAVA語言開發(fā)了一個Android平臺數(shù)據(jù)采集軟件.利用Android系統(tǒng)的SensorManager服務(wù)獲得手機加速度傳感器的三軸加速度數(shù)據(jù).通過采集軟件的圖形界面,可方便控制數(shù)據(jù)采集的開始和結(jié)束、顯示車輛運行速度、設(shè)置加速度數(shù)據(jù)采集頻率并添加道路擁堵狀態(tài)的標簽.我們將車輛運行速度的采樣頻率設(shè)置為1次/秒,三軸加速度數(shù)據(jù)采集的頻率設(shè)置為5次/秒,每條數(shù)據(jù)包含了時間、三軸加速度和速度值.
考慮到采集數(shù)據(jù)的真實性和分類模型的可靠性,我們選取老校區(qū)到新校區(qū)的路段采集數(shù)據(jù).該路段既包括市區(qū)擁堵路段,也包括一般路段和車流量較少的暢通路段,同時考慮到不同時段數(shù)據(jù)特征對模型的影響.我們分別安排三組采集人員在上下班高峰時段和一般時段進行了多次采集,最終組成三個數(shù)據(jù)集Dataset_1、Dataset_2、Dataset_3,分別由419、429、402條數(shù)據(jù)組成.每個數(shù)據(jù)集包含暢通、擁擠和堵塞三種交通狀態(tài)下的加速度傳感器數(shù)據(jù),通過這三個數(shù)據(jù)集來驗證本文所構(gòu)建交通狀態(tài)識別模型的性能.
由于傳感器本身的物理特性以及采集過程中周圍環(huán)境的影響,采集的原始數(shù)據(jù)可能會有缺失和噪音,對交通狀態(tài)識別結(jié)果會產(chǎn)生較大影響,因此需要對其進行插值和濾波預(yù)處理.對于缺失的數(shù)據(jù),利用相同屬性數(shù)據(jù)的均值進行插補;對于噪音數(shù)據(jù),即異常值數(shù)據(jù),利用其相鄰前后數(shù)據(jù)的平均值修正該異常值.
選取恰當?shù)奶卣鲗煌顟B(tài)識別模型的識別準確率有重要影響.特征組合中的各個特征量不僅要體現(xiàn)相同類別的相似性,還要反映不同類別間的差異性.時間序列特征一般包括時域特征、頻域特征和時頻特征.在交通狀態(tài)識別中,頻域特征和時頻特征對模型的識別效果影響較小且會帶來過多特征參數(shù).本文基于傳感器原始加速度數(shù)據(jù)提取時域特征均值、方差以及合加速度,其計算方式如下各式所示.
(1)
(2)
(3)
本文利用采集的三軸加速度原始數(shù)據(jù),設(shè)定時間窗口大小為1 s,步長為1,提取每一軸數(shù)據(jù)的均值、方差及三軸的合加速度.通過python對數(shù)據(jù)進行處理并可視化呈現(xiàn),進一步分析各特征向量的波動規(guī)律對不同交通狀態(tài)特征的反映.圖2和圖3分別是三種交通狀態(tài)的原始加速度數(shù)據(jù)和時域特征方差的對比分析.
圖2 不同交通狀態(tài)的加速度傳感器原始數(shù)據(jù)對比圖
由圖2和圖3可以看出,由于在暢通狀態(tài)下車輛速度很快,左右水平方向和垂直方向的顛簸導致這兩個方向上的加速度變化較大,因此X軸和Z軸加速度數(shù)據(jù)的波動幅度較大.在暢通狀態(tài)下車輛基本勻速行駛,在前進方向的Y軸加速度數(shù)據(jù)的波動幅度很?。粨頂D狀態(tài)下,車輛速度雖然較慢,但仍以一定的速度行駛,因此X軸和Z軸加速度數(shù)據(jù)會有較小的波動,且在擁擠狀態(tài)下道路車輛較多,會導致目標車輛一定的加減速.與暢通狀態(tài)相比,在Y軸上的加速度相應(yīng)較大.堵塞狀態(tài)下的車輛大多在停止及加減速狀態(tài)下頻繁轉(zhuǎn)換,引起Y軸和Z軸加速度數(shù)據(jù)波動較頻繁且波動幅度較擁擠的狀態(tài),但由于堵塞狀態(tài)車輛速度很低,反映在X軸加速度數(shù)據(jù)的波動就相對很小.
圖3 不同交通狀態(tài)的加速度傳感器數(shù)據(jù)方差對比圖
如前所述,三軸加速度傳感器數(shù)據(jù)及其時域特征(均值、方差、合加速度)能反映車輛所在道路的交通運行狀態(tài),說明它們與交通狀態(tài)有密切關(guān)系.在構(gòu)建了交通狀態(tài)識別模型后,我們將以上述10個特征數(shù)據(jù)的組合作為模型的輸入?yún)?shù),進一步驗證模型有效性及各特征數(shù)據(jù)對模型識別效果的作用.
交通狀態(tài)識別問題屬于分類問題,常用的分類模型有K-近鄰分類器、樸素貝葉斯分類器、支持向量機(SVM)、決策樹算法等.基于SVM模型在解決小樣本、非線性、多分類問題中的優(yōu)秀表現(xiàn)以及較強的泛化能力,本文選用SVM作為交通狀態(tài)識別模型.
SVM通過映射函數(shù)Φ(x)將分類樣本從線性不可分的原始空間映射到更高維的特征空間,從而使樣本線性可分,模型描述如式(4)所示.
s.t.yi(wTΦ(xi)+b)≥1,i=1,2,3,…,m.
(4)
其中yi為分類類別,w為權(quán)值向量,b為偏置量,Φ(x)為非線性映射函數(shù).
引入松弛變量ξ,可得
(5)
其中,C>0,為懲罰系數(shù).
在非線性問題的特征空間中,利用拉格朗日方程對上式對偶化后,引入核函數(shù),得到最終決策函數(shù)式(6).
(6)
其中αi為拉格朗日乘子,K(xi,xj)為核函數(shù).
構(gòu)造出一個具有良好性能的SVM分類模型,核函數(shù)的選擇是關(guān)鍵.徑向基核函數(shù)(Radial Basis Function,RBF)具有良好性能及對噪聲較強的抗干擾能力,在先驗知識不足的情況下往往被選用.多項式核函數(shù)(Polynomial)屬于全局核函數(shù),允許相距較遠的數(shù)據(jù)點對核函數(shù)的值有一定影響,避免了分類結(jié)果陷入局部最優(yōu),且對于非線性問題,分類效果較好.因此本文在SVM模型中分別使用這兩種核函數(shù)進行交通狀態(tài)識別,并比較它們的分類效果.
核函數(shù)的選擇包括兩部分工作:一是核函數(shù)類型的選擇,二是確定核函數(shù)類型后相關(guān)參數(shù)的選擇.分類模型中相關(guān)參數(shù)的選擇會對模型性能起到?jīng)Q定性作用.在SVM分類模型中需要確定的兩個重要參數(shù)是懲罰系數(shù)C和RBF核函數(shù)參數(shù)g.考慮到網(wǎng)格搜索方法較高的精確度和本文模型較少的參數(shù)量,我們采用網(wǎng)格搜索方法確定最優(yōu)模型參數(shù).網(wǎng)格搜索法通過一定范圍將待搜索參數(shù)劃分為網(wǎng)格,然后遍歷網(wǎng)格中的所有參數(shù)組合來尋找使模型性能最優(yōu)的參數(shù)組合,結(jié)合K折交叉驗證獲得模型最佳參數(shù)組合(C,g),最終將參數(shù)優(yōu)化后的SVM模型作為交通狀態(tài)識別模型.
在構(gòu)建了交通狀態(tài)識別模型后,本部分利用在實際交通環(huán)境中收集到的3個加速度傳感器數(shù)據(jù)集實驗并驗證本文提出方法在交通狀態(tài)識別應(yīng)用中的有效性.
為分析加速度傳感器數(shù)據(jù)及其時域特征對交通狀態(tài)識別模型分類效果的影響,從而確定模型的最優(yōu)特征輸入,我們定義了由加速度傳感器數(shù)據(jù)(ax,ay,az)及其均值(max,may,maz)、方差(vax,vay,vaz)和合加速度a組成的10組特征組合(分別表示為fg1,fg2,…,fg10),具體形式如表1所示.
表1不同特征組合及其組合方式
為簡單起見,本文將交通狀態(tài)分為3類,即暢通、擁擠、堵塞,類別標簽分別表示為1、2、3.為避免交通狀態(tài)識別模型出現(xiàn)過擬合和欠擬合,在進行實驗時對所有數(shù)據(jù)集均隨機選取80%作為訓練集,其余20%作為測試集.最終實驗結(jié)果以每個數(shù)據(jù)集中以10次實驗結(jié)果評價指標的平均值表示.
本文采用混淆矩陣評價交通狀態(tài)識別模型的分類結(jié)果,如表2所示,混淆矩陣用n行n列的矩陣表示,每一列代表預(yù)測類別的樣本數(shù)目,每一行代表實際類別的樣本數(shù)目,對角線上的樣本總數(shù)表示正確分類的樣本數(shù).因此,各評價指標表示為:準確率acc=(TP+TN)/(TP+FN+FP+TN),表示所有預(yù)測正確的樣本占總樣本的比例.檢測率TPR=TP/(TP+FN),表示正樣本中正確預(yù)測為正樣本的樣本數(shù)占所有正樣本的比例;誤報率FPR=FP/(FP+TN),表示負樣本中預(yù)測為正樣本的樣本數(shù)占所有負樣本的比例.
表2混淆矩陣
基于前述交通狀態(tài)識別模型構(gòu)建的思路,本文實驗分兩個階段,在第1階段,本文以表1中各組特征組合分別作為Polynomial核函數(shù)SVM模型和RBF核函數(shù)SVM模型的特征輸入.比較兩種不同核函數(shù)分類模型的交通狀態(tài)識別效果,并進一步分析不同特征對交通狀態(tài)識別的作用.在第2階段,本文利用網(wǎng)格搜索方法對RBF核函數(shù)的SVM模型進行參數(shù)尋優(yōu),以確定適合交通狀態(tài)識別模型的最優(yōu)參數(shù)組合.實驗中設(shè)置交叉驗證折數(shù)K=10,參數(shù)C、g尋優(yōu)范圍為(2-5,25),搜索步長為0.03125.具體搜索過程為:首先在C、g坐標系上構(gòu)建二維網(wǎng)格,網(wǎng)格節(jié)點就是C、g的參數(shù)組合;接著對每一組(C,g),將數(shù)據(jù)集隨機分成10個互不相交的子集.每個子集的數(shù)目大小大致相等,輪流將其中9組作為訓練集,剩下的1組作為測試集驗證模型并得到此測試集下的模型分類準確率.最終得到10組測試集下的分類準確率并計算其平均值,以平均準確率最高的(C,g)參數(shù)值對作為SVM模型的最佳參數(shù)值.
首先進行Polynomial核函數(shù)SVM模型和RBF核函數(shù)SVM模型識別效果的比較實驗,基于3個數(shù)據(jù)集,用10種特征組合分別訓練兩個核函數(shù)的SVM模型.對每種核函數(shù)的模型進行10組實驗,核函數(shù)參數(shù)均為默認值,實驗結(jié)果如表3和表4所示.
表3Polynomial核函數(shù)SVM模型的實驗結(jié)果
表4 RBF核函數(shù)SVM模型的實驗結(jié)果
對比表3和表4中兩種核函數(shù)在不同特征組合輸入下的識別效果可以看出,雖然兩種核函數(shù)不同特征組合的輸入下的識別結(jié)果在訓練集中近似,甚至Polynomial核函數(shù)在有些特征組合輸入下識別準確率更高,但RBF核函數(shù)在測試集上的識別準確率整體上高于Polynomial核函數(shù)的SVM模型,說明RBF核函數(shù)的SVM模型泛化程度更好.
進一步分析同一種核函數(shù)的SVM模型在不同特征組合輸入下的識別效果可以看出,以fg3、fg4為輸入特征,相比fg1為輸入特征的模型識別準確率有明顯提高.說明均值、方差這兩個時域特征對于交通狀態(tài)識別作用非常關(guān)鍵;以fg9為輸入特征比fg5為輸入特征的模型識別準確率有明顯優(yōu)勢,說明原始三軸加速度數(shù)據(jù)對交通狀態(tài)識別作用較大.最后分別比較fg1與fg2、fg3與fg6、fg4與fg7、fg5與fg8及fg9、fg10作為輸入特征的識別準確率.可以看出,在增加了合加速度特征輸入后識別準確率幾乎不變或有所降低,說明合加速度對模型的識別效果作用不大.
綜合上述情況來看,以原始數(shù)據(jù)及其均值、方差的組合(即fg9)作為輸入特征,可使模型具有最佳交通狀態(tài)識別效果.
在第2階段實驗中,本文以原始三軸加速度數(shù)據(jù)及其均值、方差的組合(fg9)作為RBF核函數(shù)SVM模型的特征輸入,分別在3個數(shù)據(jù)集上根據(jù)預(yù)先設(shè)定好的參數(shù)范圍,利用網(wǎng)格搜索方法優(yōu)化模型參數(shù)C和g,得到(C,g)最優(yōu)參數(shù)值為(23,2-1).分別在3個數(shù)據(jù)集上用設(shè)置了最優(yōu)參數(shù)的交通狀態(tài)識別模型進行實驗,實驗結(jié)果如表5所示.
表5最優(yōu)(C,g)值下的RBF核函數(shù)SVM模型實驗結(jié)果
從表5結(jié)果可以看出,對模型參數(shù)經(jīng)過優(yōu)化后,在不同的數(shù)據(jù)集上模型識別準確率均有所提高,但在不同數(shù)據(jù)集上的識別準確率有一定差異.其差異主要是不同數(shù)據(jù)集采集人員對交通狀態(tài)的標記誤差及車輛運行環(huán)境的差異等因素導致.
根據(jù)3個數(shù)據(jù)集上測試結(jié)果的混淆矩陣,分別計算測試集每個樣本的TPR、FPR,得到3組(TPR,F(xiàn)PR),繪制不同數(shù)據(jù)集上ROC曲線,如圖4所示.
圖4 3個數(shù)據(jù)集上模型識別結(jié)果的ROC曲線
利用上述ROC曲線計算3個數(shù)據(jù)集上的AUC值(ROC曲線下的面積),結(jié)果如表6.
表63個數(shù)據(jù)集下ROC曲線的AUC值
從圖4和表6可以看出,每個數(shù)據(jù)集的ROC曲線均接近左上角且AUC值在0.9以上,說明本文模型擁有良好的識別性能.不同數(shù)據(jù)集上實驗結(jié)果存在一定差異的原因是由于不同數(shù)據(jù)集采集人員對交通狀態(tài)的標記誤差及車輛運行環(huán)境的差異等因素導致.
本文研究了基于手機傳感器的車輛行駛狀態(tài)數(shù)據(jù)收集及交通狀態(tài)識別方法,首先利用自開發(fā)的數(shù)據(jù)采集軟件獲取能夠反映道路交通狀態(tài)的傳感器數(shù)據(jù),并對其統(tǒng)計特征進行分析,發(fā)現(xiàn)加速度傳感器原始數(shù)據(jù)及其均值、方差與道路交通狀態(tài)有較高的相關(guān)性.接著構(gòu)建了適合于交通狀態(tài)識別的SVM模型.模型選用Polynomial和RBF核函數(shù)以比較不同核函數(shù)對交通狀態(tài)識別效果.最后利用在真實運行環(huán)境中獲取的3個手機加速度傳感器數(shù)據(jù)集驗證了模型的有效性.實驗結(jié)果表明,RBF核函數(shù)SVM模型識別效果優(yōu)于Polynomial核函數(shù)的模型,并且發(fā)現(xiàn)加速度傳感器數(shù)據(jù)及其均值、方差對交通狀態(tài)的識別有重要作用.在確定了RBF核函數(shù)SVM模型的最佳模型參數(shù)后,最高識別準確率達到了94.05%.這表明本文模型具有有效性和良好性能.
本文未來需要進一步研究的內(nèi)容包括:一是研究能夠反映交通狀態(tài)的手機傳感器數(shù)據(jù),如陀螺儀、磁力傳感器等傳感器數(shù)據(jù)對交通狀態(tài)識別的影響;二是進一步研究除均值、方差外的更多時域特征對交通狀態(tài)識別的作用;三是嘗試對模型參數(shù)優(yōu)化方法進行改進.通過上述幾方面的進一步研究,以期提高交通狀態(tài)識別模型更高的識別準確率.