收稿日期:2023-09-13
DOI:10.19850/j.cnki.2096-4706.2024.07.020
摘? 要:駕駛員駕駛平穩(wěn)性分析對研究交通安全影響因素起著至關重要的作用。為此提出基于車載自動診斷系統(tǒng)(OBD)采集數(shù)據(jù),利用多項式回歸進行短時間內(nèi)車輛速度預測研究。首先分析影響車輛駕駛速度的客觀因素,如地勢、天氣、行駛路徑等。其次通過控制客觀因素不變,整合有效駕駛速度數(shù)據(jù)進行多項式回歸預測,得到模型的參數(shù)。通過真實值與預測值的比對,得到均方差MSE與擬合優(yōu)度,進而得到最優(yōu)參數(shù)。最后通過大量的實驗數(shù)據(jù),驗證了該模型在此次研究中取得了很好的預測結果。
關鍵詞:多項式回歸;駕駛行為;OBD;統(tǒng)計分析;時間序列分析;ARIMA
中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2024)07-0091-04
The Analysis of Driver Driving Stability Based on OBD Data Acquisition
LI Wenting
(Qiming Information Technology Co., Ltd., Changchun? 130122, China)
Abstract: The analysis of driver driving stability plays a crucial role in studying the factors affecting traffic safety. To this end, it is proposed to use polynomial regression to predict vehicle speed in a short period of time based on data collected by an on-board automatic diagnostic system (OBD). Firstly, it analyzes the objective factors that affect the driving speed of vehicles, such as terrain, weather, driving path, etc. Secondly, by controlling objective factors to remain unchanged and integrating effective driving speed data for polynomial regression prediction, the parameters of the model are obtained. By comparing the true value with the predicted value, the mean squared error (MSE) and goodness of fit are obtained, thereby obtaining the optimal parameters. Finally, through a large amount of experimental data, it is verified that the model has achieved good prediction results in this study.
Keywords: polynomial regression; driving behavior; OBD; statistical analysis; time series analysis; ARIMA
0? 引? 言
隨著汽車行業(yè)的發(fā)展與人們生活水平的提高,汽車的普及率在逐年上升,交通事故的發(fā)生也越來越多,而造成交通事故的一個主要原因就是不良駕駛行為,分析駕駛員的不良駕駛行為既可以輔助減少交通事故,又能夠為車險提供強有力的依據(jù),因此越來越多人關注不良駕駛行為的研究,此項研究具有重大意義。
因大數(shù)據(jù)技術的急速發(fā)展,越來越多的學者運用大數(shù)據(jù)對駕駛人員的不良駕駛行為進行分析,并取得了一定的研究成果。梁陳磊[1]等人以OBD獲取的汽車行駛CAN數(shù)據(jù)流為基礎,運用關聯(lián)分析的方法研究不良駕駛行為之間的內(nèi)在聯(lián)系,為個性化駕駛提供相應的理論依據(jù)。雷財林[2]等人針對駕駛行為評價指標大多通過主觀方法確定的局限,基于人工智能領域粗糙集理論,提出考慮天氣情況、道路條件等道路安全評價體系構建思路。鄭美容[3]分析與評估駕駛行為,建立行車安全評估模型,為智能交通系統(tǒng)建設提供參考。可以看到目前針對個人不良駕駛行為研究較少[4-6]。
本文通過OBD獲取大量個人駕駛信息數(shù)據(jù)流,嚴格控制天氣、路段與車輛基本情況等外部信息影響,通過時間序列、回歸等方法,對駕駛人員的駕駛平穩(wěn)性進行分析,輔助較少因不良駕駛行為導致的交通事故發(fā)生,同時為車輛保險提供更強有力的支持。
1? 有關數(shù)據(jù)介紹
1.1? 數(shù)據(jù)來源
OBD是車載自動診斷系統(tǒng),從外觀上看是一個小盒子,插在車上可讀取車輛的數(shù)據(jù)參數(shù)和相關信息,可以實時記錄和監(jiān)測發(fā)動機的運行情況和尾氣后處理裝置的工作狀態(tài)。同時可將采集到的數(shù)據(jù)實時傳到監(jiān)測平臺上。業(yè)內(nèi)俗稱“T-Box”。
1.2? 數(shù)據(jù)ETL
常規(guī)OBD采集的信號量(特征)數(shù)量在500+,常用的信號量數(shù)量在100+。由于特征數(shù)量較多,需要從中篩選出與本次研究相關的特征。與張鵬[7]等人研究基于CNN-LSTM的QAR數(shù)據(jù)特征提取方法不同,本文通過基于業(yè)務理解,數(shù)據(jù)表現(xiàn)等多方因素提取特征。特征主要分為以下幾類:
1)天氣信息。獲取天氣信息主要是基于設備經(jīng)緯度識別行政區(qū)劃代碼,后訪問百度地圖API得到該地區(qū)當前天氣數(shù)據(jù);包括溫度、濕度、風力等。在惡劣的天氣條件下,如降雨強度的增加,導致能見度減小,會對駕駛人員的駕駛速度產(chǎn)生嚴重的影響。在車輛速度預測過程中,為了減少天氣原因的干擾,在選取訓練測試數(shù)據(jù)時,保證車輛行駛過程中溫度,濕度(浮動±5),風力等級相同。
2)地理位置信息。用于描述車輛位置,包括省市縣及該地區(qū)地勢類別(平原、高原、盆地等)在入模型的數(shù)據(jù)中。
3)車輛基本信息。主要包括車輛的底盤號、車輛類型及用途、注冊地址等。
4)車輛運行信息。用于描述車輛當前運行情況,包括行駛里程、故障信息、車速、油門開合角度、加速度等。
1.3? 數(shù)據(jù)整合
1)有效駕駛切割。通過OBD采集的駕駛數(shù)據(jù)是零散的,在做速度預測時,為了保證預測的結果準確度高。需要將駕駛數(shù)據(jù)分為N次有效駕駛,在每一次有效駕駛數(shù)據(jù)中分別建立預測模型。分段的標準如下在駕駛員的一天駕駛數(shù)據(jù)中,速度為0,發(fā)動機轉速為0判定車輛處于停止狀態(tài)。同時行駛距離大于1 km且與下一次駕駛間隔一分鐘判定為一次有效駕駛。
2)環(huán)境數(shù)據(jù)匹配。提取某一用戶A一年的駕駛數(shù)據(jù),根據(jù)經(jīng)緯度及日期時間匹配當天當?shù)氐牡乩硇畔⒓碍h(huán)境信息。保證入模型的行駛數(shù)據(jù)地勢類別相同,經(jīng)緯度距離在50 km以內(nèi)。同時溫度及濕度相差±5°,當天天氣晴朗。
此行為是為了減少環(huán)境對速度預測的干擾。提升速度預測的準確度。以每10秒鐘數(shù)據(jù)為一個節(jié)點,用前10秒的數(shù)據(jù)預測第11秒的速度。
1.4? 數(shù)據(jù)處理
速度數(shù)據(jù)的有效處理,通過識別車輛經(jīng)緯度信息,篩選經(jīng)常在市區(qū)內(nèi)行駛的車輛。這部分車輛的速度應在0~80 km/h之間。隨機抽取一段車輛駕駛速度數(shù)據(jù),如圖1所示,車輛一次行駛速度分布情況。發(fā)現(xiàn)車輛速度會出現(xiàn)負值或超速(大于100 km/h)的情況。同時通過箱線圖尋找數(shù)據(jù)的異常點,箱線圖能夠明確的展示離群點的信息,同時能夠讓我們了解數(shù)據(jù)是否對稱,數(shù)據(jù)如何分組、數(shù)據(jù)的峰度。后剔除包含異常點的駕駛數(shù)據(jù)。
圖1? 車輛一次行駛速度分布情況
2? 基于多項式回歸的速度預測
2.1? 整體思路
與董紅召[8]等人研究OBD支持下公交車到達時間的回歸預測方法不同,本文借助曲線擬合回歸算法中的多元多項式擬合算法。考慮到前10秒駕駛速度和下一秒駕駛速度不一定呈線性關系,因此,借助一個非線性模型進行訓練是較為合理的。多元多項式擬合算法用平方誤差和作為損失函數(shù),以方差最小作為擬合標準,采用最小二乘法。最小二乘法通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配,這與我們評價的參考指標也能很好地契合。最終,我們通過擬合優(yōu)度從不同冪次的模型中選出最優(yōu)模型。
2.1.1? 原始數(shù)據(jù)
抽取一次有效行駛數(shù)據(jù),車輛行駛速度隨時間的變化數(shù)據(jù)。樣例數(shù)據(jù)如表1所示。
2.1.2? 數(shù)據(jù)多項式擬合
將原始數(shù)據(jù)帶入學習模型進行學習,使其損失函數(shù)最小化,推導出不同的冪次和系數(shù)。給定一個最小擬合優(yōu)度R2 = 0.99,直至訓練模型達到的擬合優(yōu)度0.99即認為其擬合情況滿足要求,此時的冪次和系數(shù)即為我們所求。擬合結果參數(shù)如表2所示。
2.1.3? 擬合方程優(yōu)化
可以看出1到4次多元多項式的擬合優(yōu)度都大于0.99,但是均方差MSE越來越大,說明出現(xiàn)了過擬合情況。因此,我們選擇1次多元多項式。同時選取多組數(shù)據(jù)進行預測,觀察其誤差、均方差以及誤差圖像,判斷駕駛員的駕駛平穩(wěn)性。
2.1.4? 預測結果
經(jīng)過多次訓練,得到預測誤差、均方差如表3所示。表中誤差大多數(shù)都在[0,1],均方差位于[0,1]可以借此評判駕駛員的駕駛平穩(wěn)性;也可根據(jù)最終的誤差曲線來評判駕駛員的駕駛平穩(wěn)性,繪制速度擬合趨勢曲線,如圖2所示,圖像顯示誤差曲線在零線浮動,說明此駕駛員的駕駛是較為平穩(wěn)的。
2.2? 術語介紹
以下為部分術語介紹[9,10]:
1)學習模型。m是每一次參與擬合的數(shù)據(jù)量,n是每次學習的最高次冪。 是擬合的下一秒速度,xi,xj是前i,j秒速度。
a是多元多項式的系數(shù),也是我們曲線擬合需要求得的未知數(shù)。
n次多元多項式有a0000到ammk(n-k)(0≤k≤n)這
(n + 1) (n + 2) / 2個未知的擬合系數(shù),我們要做的就是求出這最佳的n值和(n + 1) (n + 2) / 2個擬合系數(shù)。
2)損失函數(shù)。 是第i個下一秒擬合速度,yi是第i個下一秒實際速度,平方誤差和作為損失函數(shù),使其最小化為模型的優(yōu)化目標。
3)目標函數(shù)。根據(jù)目標函數(shù)所推導出的a0000到ammk(n-l)(0≤k≤n)便是n次冪時最佳的(n+1) (n + 2) / 2個擬合系數(shù)。
4)擬合優(yōu)度。擬合優(yōu)度R2越接近于1,說明曲線的擬合效果越好,可以提供一個值,當R2大于這個值時,我們便判定其達到了我們預期的擬合效果,確定其為最終模型。
5)均方差。均方差表示進行預測的實際速度和擬合速度的誤差平方和均值,用于評判駕駛員駕駛的平穩(wěn)性。MSE越小說明駕駛員駕駛得越平穩(wěn)。
6)訓練集。表示用于模型訓練的已知數(shù)據(jù)集。
3? 基于時間序列的速度預測
3.1 整體思路
在此應用場景下,速度的變化受多種因素影響,有些影響因素的數(shù)據(jù)難以收集,以至于用回歸模型來發(fā)現(xiàn)其變化發(fā)展規(guī)律會產(chǎn)生偏差,此時,時間序列分析模型也許會更好,因為不需建立因果關系模型,僅需要通過自身數(shù)據(jù)就可以建模。時間序列分析是按照時間順序取得的一系列觀測值,通過對相鄰時間的相互作用進行分析,進而達到預測未來事件的目的。本次車輛行駛速度的預測就是按照時間順序取得的一系列觀測值,利用速度序列觀測值之間的依賴關系和相關性,進行動態(tài)預測。
3.1.1? 序列平穩(wěn)性檢驗
時間序列模型要求序列是平穩(wěn)的,通過數(shù)據(jù)得到擬合曲線,在短時間內(nèi)能順著現(xiàn)有的形態(tài)延續(xù)下去??衫每梢暬瘮?shù)據(jù)的方式查看序列平穩(wěn),同時利用ADF檢驗。檢驗結果P-value小于0.05,拒絕原假設,故為趨勢項平穩(wěn),故不需要再進行差分,使得序列平穩(wěn)化。
3.1.2? 白噪聲檢驗
白噪聲是嚴平穩(wěn)中的一種,是完全隨機的序列,通俗講過去的行為與未來毫無關系,無法從中得到有用的結果。利用Ljung-Box進行白噪聲檢驗,p值小于0.05,所以在95%的置信水平下認為序列為非白噪聲。
3.1.3? 確定p,q值
利用自相關圖和偏自相關圖確定q,p值,通過測試數(shù)據(jù)得到下圖,圖3為測試數(shù)據(jù)的偏自相關圖;自相關圖中出現(xiàn)拖尾,圖3中的數(shù)據(jù)在4處出現(xiàn)截尾。由此確定,p值為4,q值為0。同時利用BIC進行校驗,選取bic值最小的p,q組合。
圖3? 測試數(shù)據(jù)的偏自相關圖
3.1.4? 訓練模型及預測
得到ARIMA模型的參數(shù)后,利用訓練數(shù)據(jù)進行模型訓練。測試數(shù)據(jù)進行模型驗證。發(fā)現(xiàn)預測的時長越長,模型效果越差。該模型的MSE與多項式回歸模型的值大致相同,兩個模型在當前這份訓練數(shù)據(jù)及測試數(shù)據(jù)中表現(xiàn)能力相差不多。預測值與實際值對比如圖4所示。
3.2? 術語介紹
1)自相關函數(shù)(ACF)。自相關函數(shù)反映了同一序列在不同時序的取值之間的相關性。
2)偏自相關函數(shù)(PACF)。PACF剔除了中間k-1個隨機變量x(t-1),x(t-2),…,x(t-k+1)的干擾之后,x(t-k)對x(t)影響的相關程度。
3)貝葉斯信息準則(BIC)。K是模型參數(shù)個數(shù),n是樣本數(shù)量,L是似然函數(shù)。
4? 結? 論
基于OBD數(shù)據(jù)采集的多項式回歸速度預測中,減少了天氣,地勢,路徑對車輛速度的影響因素。同時對速度數(shù)據(jù)進行了細致分析,通過速度分布以及圖形展示,去除了速度的異常數(shù)據(jù)?;诙囗検交貧w算法,通過前幾秒速度對未來幾秒速度進行回歸擬合。針對每一位駕駛員均進行速度預測,如預測數(shù)據(jù)與實際數(shù)據(jù)相差較小,則認為在該段時間內(nèi),駕駛員駕駛平穩(wěn)??蓪υu價駕駛員駕駛習慣有一定的借鑒意義。通過大量的訓練數(shù)據(jù)及測試數(shù)據(jù)(數(shù)據(jù)量在千萬級),得到速度預測模型的最優(yōu)參數(shù)。通過利用兩種方法進行速度擬合發(fā)現(xiàn),對于短時的速度預測,ARIMA的方法擬合能力會更強一些,但是該方法需要對時間序列都單獨擬合和預測,且速度數(shù)據(jù)都是毫秒級別的,序列的數(shù)據(jù)會非常大,同樣執(zhí)行時間也會變長。相同的數(shù)據(jù)多項式的執(zhí)行時間就會縮短很多。兩種方法各有利弊,需要通過業(yè)務需求來抉擇。
為了進一步研究駕駛平穩(wěn)性,接下來可增加路況信息,如剔除較為擁堵的路段進行進一步的改進研究,使其對速度的預測更加具有優(yōu)勢。同時增加平穩(wěn)性評價指標,不單單從速度擬合方向。
參考文獻:
[1] 梁陳磊,儲江偉,李紅.基于OBD數(shù)據(jù)挖掘的不良駕駛行為關聯(lián)分析 [J].現(xiàn)代電子技術,2022,45(21):145-150.
[2] 雷財林,鐘添翼,蔡曉禹,等.基于車聯(lián)網(wǎng)OBD數(shù)據(jù)的道路安全評價方法 [J].公路與汽運,2019(1):30-36.
[3] 鄭美容.基于聚類分析的駕駛行為安全評估模型 [J].黃河科技學院學報,2023,25(2):80-87.
[4] 柳鵬飛,陸見光,徐磊,等.公路貨運危險駕駛行為智能預測技術研究 [J].汽車技術,2024(3):56-62.
[5] 盧建濤.惡劣天氣下高速公路風險評估與預警研究 [D].上海:同濟大學,2019.
[6] 張俊.基于車聯(lián)網(wǎng)數(shù)據(jù)的駕駛行為識別與風險評估方法研究 [D].合肥:中國科學技術大學,2020.
[7] 張鵬,楊濤,劉亞楠,等.基于CNN-LSTM的QAR數(shù)據(jù)特征提取與預測 [J].計算機應用研究,2019,36(10):2958-2961.
[8] 董紅召,趙龍鋼,趙晨馨,等.OBD支持下公交車到達時間的回歸預測方法 [J].高技術通訊,2021,31(4):425-434.
[9] 周志華.機器學習[M].北京:清華大學出版社,2017.
[10] 李航.統(tǒng)計學習方法 [M].北京:清華大學出版社,2019.
作者簡介:李文婷(1993—),女,漢族,吉林長春人,中級工程師,本科,研究方向:汽車診斷故障數(shù)據(jù)的統(tǒng)計與建模分析與方法。