李宗華 翟鈞 刁冠通 李曉光 吳炬
重慶長安新能源汽車科技有限公司 重慶 401133
近年來,新能源汽車行業(yè)的發(fā)展得到了進一步的加快,汽車智能化成為當下汽車行業(yè)發(fā)展的趨勢。通過對新能源汽車運行過程中產(chǎn)生的數(shù)據(jù)進行收集以進行分析和挖掘,進而得到駕駛?cè)藛T的用車畫像。分析用車畫像能夠得到駕駛過程中包括速度偏好、駕駛風格、用車時間偏好、駕駛熟練度等用戶特征。利用用戶特征,業(yè)務人員快速獲取用戶的信息認知,發(fā)現(xiàn)顯著用車特征,獲取業(yè)務研發(fā)靈感。用戶畫像還可以用來精細化運營,針對不同特征的用戶實現(xiàn)細粒度的推薦等服務。
在構(gòu)建用戶用車時的畫像研究中,一般有挖掘駕駛指標和利用用戶畫像評判駕駛行為兩種研究[1]。利用車聯(lián)網(wǎng)采集得到的數(shù)據(jù),鄭恒杰等[2]通過對提取的特征值進行聚類分析,并采用BP神經(jīng)網(wǎng)絡對駕駛員行為進行分類和評價。孫川等[3]利用因子分析構(gòu)建駕駛行為綜合變量,并利用聚類分析得到用戶的駕駛行為。王瀟等[4]利用數(shù)據(jù)挖掘方法,研究車輛速度、加速度等行駛數(shù)據(jù),以對駕駛員駕駛行為進行規(guī)范。Christian G[5]等通過對駕駛過程中方向盤數(shù)據(jù)的收集,利用人工神經(jīng)網(wǎng)絡模型分析其波動變化情況,以此判斷駕駛員注意力是否集中以及做出綜合故障檢測。此外,一些研究針對駕駛員外部特征、認知行為、駕駛員心理等進行研究,有助于幫助規(guī)避包括疲憊駕駛等駕駛風險[6-7]。萬蔚等[8-9]利用模擬駕駛器實驗,對獲取的速度、方向盤轉(zhuǎn)角等數(shù)據(jù)進行分析,表征駕駛員疲勞和正常駕駛的行為特征,以有效判別駕駛員的疲勞駕駛狀態(tài)。
從以上的研究可以看出,利用車聯(lián)網(wǎng)大數(shù)據(jù)對駕駛行為進行研究,有助于了解駕駛用戶的駕駛特征,以對駕駛行為提出改進意見。本文首先從用戶駕駛行程中的速度偏好、駕駛風格、時間偏好、熟練度四個方面來描述用戶的用車畫像,然后提出一種基于K-means算法的聚類模型來生成用戶畫像,最后將該模型部署到大數(shù)據(jù)云平臺,通過實際線上用戶的駕駛行程數(shù)據(jù),得到每個用戶的速度偏好標簽、駕駛風格標簽、用車時間偏好標簽、熟練度標簽。
用戶畫像[10],是根據(jù)用戶人口統(tǒng)計學信息、社交關系、偏好習慣和消費行為等信息而抽象出來的標簽化畫像。構(gòu)建用戶畫像的核心工作是給用戶貼“標簽”,利用這些標簽集合,能夠抽象出一個用戶的信息全貌,以準確把握用戶的喜好,給用戶提供個性化服務[11]。其中,每個標簽分別描述了用戶的一個維度,各個維度之間相互聯(lián)系,從而共同構(gòu)成對用戶的一個整體描述。汽車用戶駕駛行為畫像有不同的維度表征,本研究采用速度偏好、駕駛風格、時間偏好、熟練度這四個常用的維度?;谲囕v用戶大數(shù)據(jù)平臺,從中提取包括5種車型共計12萬多輛(12,499,255)乘用車的駕駛行程數(shù)據(jù),其中涉及的車輛數(shù)為154輛。
用戶駕駛行程中的速度偏好鮮明地表明了駕駛員的個人差異和駕駛技能差異,分析速度偏好的數(shù)據(jù)可以從車輛監(jiān)控的原始信號構(gòu)造的相關數(shù)據(jù)指標反映出來。例如,通過平均車速,能統(tǒng)計并分析出駕駛行程中低速、中速、高速的分布情況,進而可得出此用戶的速度偏好情況。此外,還可以通過加速踏板以及制動踏板信號數(shù)據(jù),通過計算它們的平均值,作為表征行程中駕駛激烈程度情況的一種維度。
用戶的駕駛風格可分為平緩駕駛和激烈駕駛兩類,駕駛風格與行車安全、燃油經(jīng)濟性、汽車磨損等息息相關,每個用戶都擁有不同的駕駛風格。一般來說,激進的駕駛風格往往更容易引發(fā)交通事故,同時也加快了汽車磨損以及增加油耗及排放。因此,對駕駛風格進行分析對于提高燃油經(jīng)濟性和改進能量管理策略至關重要。
在實際的駕駛風格分析中,利用駕駛行程中的具體數(shù)據(jù),從不同角度計算并構(gòu)建出可以表達安全性的特征變量,然后利用這些變量對駕駛風格進行分析,常用的一些指標有速度標準差和加速踏板標準差等。
時間偏好主要反映出不同駕駛?cè)藛T在一天中各個時間段的駕駛情況,一般將時間分為早晨、上午、下午和夜間四個時段。在不同時段的駕駛?cè)藛T特征能夠反映出駕駛?cè)藛T的職業(yè),例如,對于普通上班族,他們更有可能是在早上和下午駕駛車輛,即他們的時間偏好為早晨偏好和下午偏好。
熟練度主要反映了用戶駕駛車輛的熟練程度,表明了用戶對駕駛技能掌握的差異。根據(jù)我們以往的經(jīng)驗將駕駛熟練度分為新手駕駛、熟練駕駛、進階駕駛、精英駕駛。通過對用戶駕駛熟練度的分析,可以看出用戶的駕齡以及駕駛技巧嫻熟度,刻畫出不同用戶的畫像標簽。
通過以上駕駛行程中的速度偏好、駕駛風格、時間偏好、熟練度這4個維度的分析,提出了一種基于K-means聚類算法的用戶畫像刻畫方法。首先確定不同維度聚類的個數(shù),本文將速度偏好聚類成慢速、中速、高速三類;駕駛風格聚類成平緩駕駛、激烈駕駛兩類;熟練度聚類成新手駕駛、熟練駕駛、進階駕駛、精英駕駛四類;時間偏好聚類成夜間偏好、早晨偏好、上午偏好、下午偏好四類。首先,對提取的數(shù)據(jù)進行預處理;其次,采用z-score對數(shù)據(jù)進行標準化;再次,根據(jù)每個維度提取出不同的特征;最后,使用K-means聚類算法得到用戶駕駛行程中每個維度的不同標簽。
2.1.1 速度偏好特征
根據(jù)用戶駕駛行程中產(chǎn)生的數(shù)據(jù),我們提取了部分關于速度偏好的特征,變量名稱以及對變量的描述如表1所示:
表1 速度偏好特征
在表1中,利用在單位行程中速度的平均值表示駕駛過程中的速度,以及使用加速踏板和制動踏板平均值來分別表示行程中的加速和減速特征。為了使模型達到更好的聚類效果,在特征工程環(huán)節(jié),我們分析了部分特征對聚類類別的影響,根據(jù)速度平均值和加速踏板的均值來對速度偏好進行區(qū)分,一般而言,速度平均值和加速踏板值越高,則速度偏好更傾向于高速偏好。
2.1.2 駕駛風格偏好特征
駕駛風格偏好可以通過加速踏板標準差、速度標準差等數(shù)據(jù)進行反映,部分駕駛風格偏好特征如表2所示。
表2 駕駛風格偏好特征
根據(jù)速度和加速踏板的標準差來對行程中的駕駛風格進行劃分,有激烈駕駛和平緩駕駛兩種風格。通過在單位行程中速度的標準差和加速踏板的標準差來判斷駕駛風格,標準差較大,表示該駕駛員更傾向于激烈駕駛的風格。
2.1.3 時間偏好特征
時間偏好主要通過駕駛時段進行反映,通過將一天中的24個小時劃分為四個時段,每個時段表示不同的時間偏好特征,其中早晨的時間段為凌晨4點到早上9點,上午偏好為上午9點到中午12點,下午偏好為中午12點到下午18點,夜間偏好則為下午18點到凌晨4點。
2.1.4 熟練度特征
熟練度特征主要反映駕駛?cè)藛T的駕駛嫻熟度,在本研究中,采用單位行程時間、行駛總里程、行駛總時長進行表征,在本研究中,分為進階駕駛、精英駕駛和新手駕駛。一般來說,行駛總里程越長、單位行程時間越短,則越更傾向于精英駕駛。
由于以上特征表示的是不同的量綱,數(shù)據(jù)標準化的目的是消除不同量綱的影響,以解決不同指標之間可比性的問題,從而將不同量級的數(shù)據(jù)統(tǒng)一轉(zhuǎn)化成同一個量級。這里用到的標準化算法是z-score[12]算法,計算公式如下:
其中μ代表總體數(shù)據(jù)的均值,σ代表總體數(shù)據(jù)的標準差,x代表個體的觀測值。
基于用戶行程數(shù)據(jù),對這些數(shù)據(jù)進行預處理及標準化處理。接下來,根據(jù)前面對每個維度的劃分,采用K-means[13]算法對速度偏好、駕駛風格偏好、熟練度三個維度進行聚類分析,將每個維度聚類得到不同的類別。利用K-means算法對每個維度進行劃分,主要包括以下幾個步驟:
(1)選擇初始中心點,假定我們要對N個樣本觀測做聚類,要求聚為K類,隨機選擇K個點作為初始中心點。
(2)計算樣本中每個點到中心點的距離,按照距離初始中心點最小的原則,把所有觀測分到各中心點所在的類中。
(3)計算K個類中所有樣本點的均值,然后重新計算K個類中的中心點。
(4)重復第2、3步,直到滿足收斂條件(中心點不再改變或達到指定的迭代次數(shù)),聚類過程結(jié)束。
數(shù)據(jù)預處理主要是為了清理在實驗過程中可能對實驗造成很大誤差的一些臟數(shù)據(jù)。數(shù)據(jù)預處理過程中,一般首先需要一些不符合預設條件的數(shù)據(jù)。然后就是對缺失值進行處理,分為缺失值填充和缺失值剔除。缺失值填充包括均值填充和中位數(shù)填充,缺失值剔除主要是對數(shù)據(jù)集中NAN值進行剔除。此外,還要對一些一場數(shù)據(jù)進行處理,一般采用的方法是直接刪除,例如,剔除了行程時長小于7分鐘和時長大于4小時的駕駛行程。此外,行駛里程小于2千米或者大于300千米的行程,平均速度小于0或者大于150的行程數(shù)據(jù)也視為異常數(shù)據(jù),對這些數(shù)據(jù)進行刪除處理。
以速度偏好為例,首先按照劃分的類別慢速、中速、高速隨機選擇三個初始中心點,然后分別計算每個數(shù)據(jù)點到初始中心點的距離,這個距離我們采用歐拉距離[14]進行計算,將距離中心點更近的數(shù)據(jù)點標記為中心點的類別。接下來在劃分好的三個類別中重新計算中心點,得到第二次迭代的中心點,然后根據(jù)重新劃分的中心點對其他點進行類別劃分,得到第二次聚類的結(jié)果,重復以上操作直到滿足收斂條件,聚類結(jié)束,最終得到提前設定的三個類別。同樣,我們對駕駛風格、熟練度進行了聚類分析。
速度偏好聚類結(jié)果如圖1所示,從圖1可以看出,數(shù)據(jù)被分成三類,數(shù)據(jù)之間間隔較大,說明K-means聚類算法對于駕駛行程數(shù)據(jù)的速度偏好劃分比較理想。
圖1 速度偏好聚類結(jié)果
駕駛風格聚類結(jié)果如圖2所示,駕駛風格數(shù)據(jù)被分為兩類,數(shù)據(jù)之間間隔較大,說明算法對駕駛風格數(shù)據(jù)的聚類比較理想。
圖2 駕駛風格聚類結(jié)果
熟練度聚類結(jié)果如圖3所示,從圖中可以看出,駕駛熟練度被很好地聚類成四類。
圖3 熟練度聚類結(jié)果
可以看出,采用K-means對車聯(lián)網(wǎng)數(shù)據(jù)進行聚類分析,能夠有效地將用戶的速度偏好、駕駛風格、熟練度等駕駛行為特征進行有效的劃分,可以準確識別出不同特征用戶的畫像。
通過對用戶畫像進行構(gòu)建,可以看出用戶的駕駛行為,通過將模型部署至大數(shù)據(jù)云平臺,利用實際線上用戶的駕駛行程數(shù)據(jù),該模型能夠針對每個車主可輸出每個用戶的用戶畫像,包括速度偏好、駕駛風格,駕駛時間偏好、熟練度的方式可視化給用戶,幫助用戶了解自己駕駛行程中的情況。另外,駕駛用戶畫像可以進一步幫助業(yè)務人員深入了解用戶需求,提高精細化運營水平,同時也為研發(fā)提供支撐。
本文使用新能源車輛用戶的行程數(shù)據(jù),利用大數(shù)據(jù)分析和無監(jiān)督的機器學習算法,提出了一種刻畫用戶駕駛行程中的畫像的方法。首先,分析了用戶在速度偏好、駕駛風格,駕駛時間偏好四個維度的一些特征;其次,使用K-means聚類算法歸類出用戶在上述四個維度的不同標簽;最后,模型通過上述四個維度的標簽直觀地刻畫出不同用戶駕駛行程的不同畫像。
用戶用車行為畫像可以構(gòu)建不同應用場景,一方面可以幫助業(yè)務人員獲取更多用戶信息,深度了解用戶需求;另一方面也可以提高精細化運營水平,針對不同用戶提供個性化服務。這對新能源汽車服務、用戶的用車和出行體驗、新能源汽車配套設施建設等的提升和優(yōu)化,有著重要的參考思路和意義。