白東, 錢松榮
(復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院, 上海 200433)
基于SVM的駕駛行為健康度評(píng)估模型
白東, 錢松榮
(復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院, 上海 200433)
我國(guó)家庭的私家車戶擁有量逐年上升,大量車行駛和公路。隨之而來的后果就是道路擁擠、行車安全性下降、環(huán)境污染嚴(yán)重、駕駛體驗(yàn)下降等問題。因此,為駕駛員提供一個(gè)駕駛輔助系統(tǒng)是很有必要的,而駕駛行為健康度的評(píng)估模型是這個(gè)系統(tǒng)的核心。以O(shè)BD數(shù)據(jù)為基礎(chǔ),提出一種基于支持向量機(jī)的駕駛行為健康度評(píng)估模型。通過處理顯著影響駕駛行為健康度的OBD數(shù)據(jù),提取特征值,進(jìn)行最優(yōu)分類超平面的獲取,再利用幾何間隔作為駕駛行為健康度的評(píng)價(jià)指標(biāo),大大降低了主觀因素在評(píng)估模型中的影響。實(shí)驗(yàn)證明可以該模型是有效可行的。
駕駛行為分析; 支持向量機(jī); 車載診斷系統(tǒng); 評(píng)估模型
汽車讓人們的交通旅行更加快捷便利,但也帶來了種種的問題,比如環(huán)境污染、交通事故等等。尤其在當(dāng)前的形勢(shì)下,我國(guó)的私家車擁有量逐年上升,大量的新手駕駛員行車上路。由于新手駕駛員的駕駛經(jīng)驗(yàn)不夠豐富,很多新手駕駛員的駕駛操作不夠合理規(guī)范,這些不良的駕駛行為導(dǎo)致了許多不必要的車輛損耗和環(huán)境污染,以及更嚴(yán)重的交通事故。相關(guān)的研究資料表明,92%以上的交通事故是由駕駛員個(gè)人因素導(dǎo)致的[1]。因此,研究駕駛員的駕駛行為對(duì)安全駕駛、環(huán)保駕駛有著重要的研究意義。
目前,在駕駛行為研究領(lǐng)域根據(jù)研究行車過程的側(cè)重點(diǎn)不同主要分為如下幾類:基于車輛OBD數(shù)據(jù)的駕駛行為分析方法、基于駕駛員本身動(dòng)作特征的駕駛行為分析方法以及基于駕駛員生理和心理參數(shù)的駕駛行為分析方法。其中,基于車輛OBD數(shù)據(jù)的分析方法有著主觀因素低、實(shí)驗(yàn)變量可控、結(jié)果準(zhǔn)確等優(yōu)點(diǎn),因此,本文采用的是基于車輛OBD數(shù)據(jù)的分析方法。
本文目標(biāo)是建立一個(gè)駕駛行為健康度的評(píng)估模型。一個(gè)普遍適用于各個(gè)行業(yè)的評(píng)估模型的方法是通過對(duì)影響目標(biāo)參數(shù)的各個(gè)因素進(jìn)行打分,并將各個(gè)影響因素所得分?jǐn)?shù)進(jìn)行加權(quán)求和,得到一個(gè)最終的評(píng)價(jià)分?jǐn)?shù)。實(shí)現(xiàn)該模型的常用的方法包括主成分分析法、模糊層次分析法、神經(jīng)網(wǎng)絡(luò)分析法、支持向量機(jī)法等等。在這些的駕駛行為分析方法中,支持向量機(jī)(Support Vector Machine, SVM)是一種快速有效的分析方法,傳統(tǒng)的駕駛行為健康度的評(píng)估模型是利用專家的主觀評(píng)估進(jìn)行駕駛行為類別劃分,之后利用SVM進(jìn)行駕駛行為模型的訓(xùn)練,從而得到不同駕駛行為的評(píng)估模型。這一方法簡(jiǎn)單有效,但是過多的引入了專家的個(gè)人意見,使得評(píng)估模型的主觀因素大大增加,限于不同專家的理解,導(dǎo)致評(píng)估結(jié)果準(zhǔn)確性浮動(dòng)很大。所以如何降低評(píng)估模型中的人為因素顯得十分重要。
本文提出一種基于SVM的駕駛行為健康度評(píng)估模型。該模型利用SVM對(duì)最易判別的駕駛行為健康度進(jìn)行分類,并利用幾何間隔在駕駛行為健康度中的實(shí)際意義來判斷駕駛行為的健康度級(jí)別,大大降低了評(píng)估模型的人為因素。
支持向量機(jī)是以統(tǒng)計(jì)學(xué)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小理論為基礎(chǔ),根據(jù)有限的樣本信息在模型的復(fù)雜性和準(zhǔn)確性之間尋找最佳的分類平面,以取得最佳的分類效果和推廣能力[2]。支持向量機(jī)有著分類泛化能力強(qiáng)、計(jì)算簡(jiǎn)便快速、結(jié)果易于理解等優(yōu)點(diǎn),因此支持向量機(jī)的應(yīng)用非常廣泛。
支持向量機(jī)的本質(zhì)是將訓(xùn)練數(shù)據(jù)映射到高維空間內(nèi),尋找最優(yōu)分類超平面的模型。假設(shè)在空間維度為n的數(shù)據(jù)空間內(nèi),存在一個(gè)超平面,如式(1)。
wTx+b=0
(1)
該超平面能夠?qū)?shù)據(jù)準(zhǔn)確的分開為兩類且有著最小的置信范圍,即數(shù)據(jù)點(diǎn)與超平面的幾何間隔最大,則該超平面被稱為最優(yōu)分類超平面。
設(shè)訓(xùn)練數(shù)據(jù)集為T={(xi,yi)},i=1,2,…,N,xi∈Rn,yi∈{1,-1},選取合適的核函數(shù)進(jìn)行映射,選取合適的懲罰因數(shù)C,構(gòu)造求解最優(yōu)化問題,如式(2)、(3)、(4)。
其中w為超平面的法向量,ξi為松弛變量。
求解該最優(yōu)化問題,可構(gòu)造SVM的決策函數(shù)為式(5)。
f(x)=sgn(wTxi+b)
(5)
幾何間隔與下文的評(píng)估模型建立有著重要關(guān)系,因此在此處簡(jiǎn)介。幾何間隔是決定最優(yōu)分類超平面的重要參數(shù),也是判斷分類正確與否的關(guān)鍵指標(biāo)。定義幾何間隔為向量點(diǎn)到超平面的距離。幾何間隔的示例,如圖1所示。
圖1 幾何間隔示例
(6)
評(píng)估模型主要從兩個(gè)角度進(jìn)行評(píng)估。一是整體評(píng)估,整體評(píng)估是對(duì)駕駛行為健康度的一個(gè)整體評(píng)價(jià),主要用于對(duì)駕駛行為的分類和整體好壞的估計(jì),本文將評(píng)價(jià)分為優(yōu)秀,一般,不良,不合格四個(gè)級(jí)別;二是各項(xiàng)評(píng)估,各項(xiàng)評(píng)估是對(duì)影響駕駛行為健康度的幾個(gè)駕駛參數(shù)進(jìn)行評(píng)估,主要用于對(duì)某一駕駛行為的細(xì)節(jié)分析,有助于為后期的駕駛行為改進(jìn)提出指導(dǎo)意見。
1.3.1 整體評(píng)估
駕駛行為健康度的判別是一個(gè)比較困難操作,因?yàn)轳{駛行為健康度的標(biāo)準(zhǔn)難以確定。傳統(tǒng)的評(píng)估模型采用專家打分的方法,并加以人為的分?jǐn)?shù)權(quán)重,但這樣會(huì)在判定過程中加入太多主觀因素。筆者發(fā)現(xiàn)駕駛行為健康度的判斷難點(diǎn)在于健康度處于中等層次的判斷,非常優(yōu)秀的駕駛行為和不合格的駕駛行為可以比較明顯的區(qū)分出來,而介于兩者之間的駕駛行為則需要一個(gè)評(píng)判標(biāo)準(zhǔn)?;谶@一點(diǎn),本文設(shè)計(jì)的SVM訓(xùn)練數(shù)據(jù)僅包含兩種標(biāo)簽,即優(yōu)秀駕駛行為和不合格駕駛行為。利用前文介紹的最優(yōu)分類超平面,可以得到一種不需要人為因素參與的駕駛行為健康度評(píng)估模型。
為方便理解,本文以二維數(shù)據(jù)空間為例進(jìn)行說明,SVM分類的示例,如圖2所示。
圖2 二維SVM分類示例
圖中的叉點(diǎn)和原點(diǎn)分別表示優(yōu)秀駕駛行為和不合格駕駛行為的數(shù)據(jù)點(diǎn);直線wTx+b=0表示最優(yōu)分類超平面;直線xTx+b=+1表示優(yōu)秀駕駛行為邊界面;直線wTx+b=-1表示不合格駕駛行為邊界面;γ0代表標(biāo)準(zhǔn)幾何間隔,即支持向量到最優(yōu)分類超平面的幾何間隔,圖中為1。
(7)
為了細(xì)化評(píng)估情況,也便于后續(xù)研究的分析,評(píng)估的詳細(xì)情況采用評(píng)估指數(shù)進(jìn)行判斷,評(píng)估指數(shù)I的計(jì)算方法如式(8)。
(8)
“優(yōu)秀”的評(píng)估指數(shù)為10,“不合格”的評(píng)估指數(shù)為-10,“一般”和“不良”的評(píng)估指數(shù)計(jì)算方法如上所示。
1.3.2 各項(xiàng)評(píng)估
各項(xiàng)評(píng)估彌補(bǔ)了整體評(píng)估只注重整體結(jié)果而忽視影響駕駛行為健康度的各項(xiàng)因素的缺點(diǎn),各項(xiàng)評(píng)估采用打分的方式進(jìn)行健康度評(píng)估。首先,確定各項(xiàng)影響因素的分?jǐn)?shù)閾值xk和xm,設(shè)影響因素的數(shù)據(jù)集為T={xi|i=1,2,…,n},則確定得分G(x)的判斷如式(9)。
(9)
根據(jù)所得分?jǐn)?shù),亦可將各項(xiàng)指標(biāo)的評(píng)估分為“優(yōu)秀”,“普通”,“不合格”三個(gè)級(jí)別。各項(xiàng)評(píng)估可以在整體評(píng)估的基礎(chǔ)上,對(duì)影響駕駛行為健康度的具體指標(biāo)做出評(píng)估,有助于幫助駕駛員養(yǎng)成良好駕駛行為習(xí)慣,也有助于基于本文基礎(chǔ)的后續(xù)研究。
圖3 系統(tǒng)框架
其中,虛線代表使用“優(yōu)秀”,“不合格”兩種標(biāo)簽數(shù)據(jù)的訓(xùn)練過程;實(shí)線代表整個(gè)評(píng)估流程。首先,使用訓(xùn)練數(shù)據(jù)集經(jīng)過特征提取之后,進(jìn)行SVM的分類,得到“優(yōu)秀”和“不合格”的支持向量、分界面以及最優(yōu)分類超平面;然后,將采集的OBD數(shù)據(jù)進(jìn)行特征提取并輸入分類器,可以得到每個(gè)數(shù)據(jù)向量點(diǎn)的幾何間隔,根據(jù)幾何間隔按式(7)(8)即可得到整體評(píng)估的結(jié)果;另外,經(jīng)特征提取的OBD數(shù)據(jù)可通過對(duì)各個(gè)特征進(jìn)行打分,由式(9)可得到各項(xiàng)評(píng)估結(jié)果。
本文使用的車輛行車OBD數(shù)據(jù)記錄來源自數(shù)據(jù)堂公司提供的北京的30輛車自2014年4月22日到2014年12月8日的行車OBD數(shù)據(jù),該資源的站點(diǎn)是http://www.datatang.com/detail/367。數(shù)據(jù)主要包括:車輛編號(hào)、日期時(shí)間、速度、里程、引擎轉(zhuǎn)速、引擎負(fù)荷、駕駛時(shí)長(zhǎng)、引擎工作時(shí)長(zhǎng)、油壓、電壓、氣壓、催化劑等各項(xiàng)參數(shù)。
經(jīng)過仔細(xì)的分析數(shù)據(jù)集的特點(diǎn),發(fā)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)集中瞬時(shí)數(shù)據(jù)與時(shí)間段數(shù)據(jù)的采集時(shí)間不關(guān)聯(lián)且瞬時(shí)數(shù)據(jù)的采集時(shí)間間隔不一致,因此無法將瞬時(shí)數(shù)據(jù)與時(shí)間段數(shù)據(jù)進(jìn)行時(shí)間單位的統(tǒng)一。所以,為了保證實(shí)驗(yàn)數(shù)據(jù)的可靠性,實(shí)驗(yàn)數(shù)據(jù)選取一段時(shí)間內(nèi)的車輛駕駛參數(shù),即數(shù)據(jù)集中的“北京_30_駕駛行為表”中的數(shù)據(jù)。另外,由于數(shù)據(jù)集并沒有對(duì)車輛的行駛路況做分類,于是,本文根據(jù)單位距離的剎車次數(shù)以及加速次數(shù)簡(jiǎn)易的判斷行駛路況,剔除單位剎車次數(shù)和加速次數(shù)小于10的數(shù)據(jù),其余數(shù)據(jù)作為復(fù)雜路況下的駕駛數(shù)據(jù),如表1所示。
數(shù)據(jù)特征能夠表示所用數(shù)據(jù)的信息,對(duì)駕駛行為健康度有著影響。本文將3.2節(jié)所選樣本進(jìn)行特征提取,所提取的特征值,如表2所示。
表1 部分樣本數(shù)據(jù)
表2 特征值說明
將提取的特征值作為向量F=(F1,F2,F3,F4,F5,F6),根據(jù)各個(gè)特征值對(duì)駕駛行為健康度的影響情況確定權(quán)重矩陣k=(0.2,0.1,0.05,0.05,0.3,0.3),結(jié)合公式(9)計(jì)算G(F)·kT得到各項(xiàng)加權(quán)的評(píng)分結(jié)果,對(duì)結(jié)果求和得到該段時(shí)間駕駛行為健康度的總分。根據(jù)總分,分別取其中最高10%和最低10%的數(shù)據(jù)記標(biāo)簽為“優(yōu)秀”和“不合格”,得到訓(xùn)練數(shù)據(jù)集T。
取T中50%作為訓(xùn)練數(shù)據(jù),50%作為模型測(cè)評(píng)數(shù)據(jù),進(jìn)行SVM訓(xùn)練和預(yù)測(cè),得到分類正確率為92.413 8%,分類正確率主要影響到模型的評(píng)估權(quán)威性。影響正確率的主要原因在于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)源并非由實(shí)驗(yàn)室控制變量所得,導(dǎo)致不可控變量較多,比如:駕駛路況不同、道路擁堵情況無法控制等等。盡管在數(shù)據(jù)預(yù)處理過程中對(duì)這些變量進(jìn)行了簡(jiǎn)單篩選,但仍無法排除其影響。如有良好的實(shí)驗(yàn)條件,可對(duì)上述變量進(jìn)行控制實(shí)驗(yàn),得到更加精確、科學(xué)的結(jié)果。
表3 部分采集數(shù)據(jù)的評(píng)估結(jié)果
可見,本文提出的駕駛行為健康度評(píng)估模型可以很好的排除人為因素的影響,得到比較客觀的評(píng)估結(jié)果。
傳統(tǒng)的評(píng)估模型會(huì)引入太多的個(gè)人主觀因素,本文提出一種新的駕駛行為健康度的評(píng)估模型,該模型基于SVM分類,利用向量點(diǎn)到最優(yōu)分類超平面的幾何間隔,對(duì)駕駛行為健康度進(jìn)行了科學(xué)有效的分級(jí)和評(píng)估,將整體評(píng)估級(jí)別分為“優(yōu)秀”、“一般”、“不良”、“不合格”四個(gè)級(jí)別。同時(shí),在整體評(píng)估的基礎(chǔ)上,對(duì)影響整體評(píng)估結(jié)果的各項(xiàng)因素也進(jìn)行打分評(píng)估。該模型相比于傳統(tǒng)的評(píng)估模型,對(duì)個(gè)人主觀因素的剔除效果明顯。在后續(xù)的研究中,可以對(duì)影響駕駛行為健康度的多個(gè)變量進(jìn)行控制變量的實(shí)驗(yàn),可得到更好的分類效果和評(píng)估準(zhǔn)確度。
[1] Yihu Wu, Jiajia Li, Dan Yu, Haitao Cheng. Research on Quantitative Method about Driver. Reliability[J]. Journal of Software, 2011, 6(6):1110-1116.
[2] Xiaoyan Zhu,Alberto Garcia-Diaz,Mingzhou Jin,et al. Vehicle fuel consumption minimization in routing over-dimensioned and overweight trucks in capacitated transportation networks[J]. Journal of Cleaner Production,2013.
[3] 梁軍,沙志強(qiáng),陳龍. 基于人工神經(jīng)網(wǎng)絡(luò)的駕駛行為動(dòng)態(tài)集成學(xué)習(xí)算法[J]. 交通運(yùn)輸系統(tǒng)工程與信息,2012,12(2): 34-40.
[4] 李小俊,姚煥新. 汽車油耗檢測(cè)方法的分析與比較[J]. 寧波工程學(xué)院學(xué)報(bào),2013(2):49-53.
[5] 白鵬,張喜斌,張斌,等.支持向量機(jī)理論及工程應(yīng)用實(shí)例[M].西安: 西安電子科技大學(xué)出版社,2008:66- 67.
DrivingBehaviorEvaluationModelBasedonSVM
Bai Dong, Qian Songrong
(College of Information Science & Technology, Fudan University, Shanghai 200433, China)
With an increasing number of vehicles in our country, a large number of drivers join the family of driving. The consequences are obvious, for instance, road becomes crowded, traffic safety is reduced, and also environmental pollution, bad driving experience etc. Therefore, it is necessary to provide a driving support system for drivers. Driving behavior evaluation model is the key to the system. By using OBD data, a driving behavior health evaluation model is created based on SVM. The characters are extracted by dealing with OBD data that significantly affect the driving behavior. Then optimal hyperplane is get. The geometric margin is used to evaluate the driving behavior. The human factors are reduced. Experiments show that the model can be effective and feasible.
Driving behavior analysis; SVM; OBD; Evaluation model
1007-757X(2017)12-0040-04
白東(1991-),男,上海,碩士,研究方向:數(shù)據(jù)通信與網(wǎng)絡(luò)。
錢松榮(1960-),男,上海,教授,研究方向:網(wǎng)絡(luò)與數(shù)據(jù)通信、物聯(lián)網(wǎng)核心技術(shù)。
TP311
A
2017.04.28)