顧 珉,施華君
(華東計(jì)算技術(shù)研究所,上海 201808)
對(duì)汽車(chē)行駛工況的構(gòu)建可以有效地反映一個(gè)城市甚至一個(gè)國(guó)家的汽車(chē)行業(yè)的發(fā)展水平,對(duì)于汽車(chē)行業(yè)、環(huán)境保護(hù)都有著深刻的影響[1-3].工況的變化對(duì)于汽車(chē)燃料消耗、污染物排放都有著重要的影響,因此本文主要針對(duì)汽車(chē)行駛工況進(jìn)行科學(xué)有效的研究.作為國(guó)內(nèi)知名的汽車(chē)之城,上海市嘉定區(qū)擁有著豐富的汽車(chē)制造資源,我國(guó)上汽集團(tuán)正是坐落于此.由于目前該地區(qū)還沒(méi)有關(guān)于汽車(chē)行駛工況的成熟的研究,因此本文選擇上海市嘉定區(qū)作為實(shí)驗(yàn)區(qū)域.實(shí)驗(yàn)數(shù)據(jù)是通過(guò)為期2 周的實(shí)驗(yàn)測(cè)量獲得,實(shí)驗(yàn)分別對(duì)3 輛同款同性能汽車(chē)從早中晚三個(gè)不同的時(shí)段,通過(guò)傳感器反饋收集所得,以能充分滿(mǎn)足實(shí)驗(yàn)所需的一般性.
研究工況的主要參數(shù)涉及到加速時(shí)間比例、怠速時(shí)間比例、減速時(shí)間比例、平均速度、平均行駛速度、加速段平均加速度、減速段平均減速段、最大加速度、最小減速度和平均加速度等.因此為了衡量工況的各項(xiàng)性能,本文在獲取數(shù)據(jù)的行車(chē)實(shí)驗(yàn)時(shí),記錄下包含且不只包含以上參數(shù)在內(nèi)的多項(xiàng)參數(shù),利用這些潛在的影響因素進(jìn)行后續(xù)的實(shí)驗(yàn).
同時(shí)針對(duì)可能存在的怠速問(wèn)題,本文進(jìn)行了一個(gè)全面的討論.因?yàn)槠?chē)在堵車(chē)狀態(tài)或者失去信號(hào)的狀態(tài)下,信號(hào)可能會(huì)不完整,因此需要討論汽車(chē)在一定范圍的時(shí)間缺失值下,是否仍視為處于同一個(gè)連續(xù)運(yùn)動(dòng)區(qū)間的時(shí)間片段.這樣不但滿(mǎn)足對(duì)數(shù)據(jù)完整性的要求,而且也符合實(shí)際生活中的意義,處理過(guò)后對(duì)數(shù)據(jù)進(jìn)行運(yùn)動(dòng)學(xué)片段劃分.對(duì)于不同路況行駛的測(cè)量數(shù)據(jù),其中上述涉及到的影響因素都通過(guò)每秒記錄一次的方式保存下來(lái).由于數(shù)據(jù)集本身的一些特殊性,根據(jù)實(shí)際情況分析,根據(jù)GPS 信號(hào)消失的時(shí)間長(zhǎng)短,對(duì)于消失時(shí)間較長(zhǎng)的數(shù)據(jù)段進(jìn)行切割和刪除.而對(duì)于較短和殘缺的數(shù)據(jù)段,主要采用了線性插值法、拉格朗日插值法、樣條插值等不同的方法進(jìn)行實(shí)驗(yàn).考慮到與實(shí)際情況可能有所偏差,然后在得到的新數(shù)據(jù)集中,進(jìn)行異常值的過(guò)濾、篩選和清洗,通過(guò)計(jì)算瞬時(shí)加速度來(lái)檢測(cè)加速度異常的情況,并用限幅算法進(jìn)一步調(diào)整到合理的區(qū)間.
最終在構(gòu)建工況的問(wèn)題里,本文對(duì)之前數(shù)據(jù)預(yù)處理后所得的新數(shù)據(jù)集,進(jìn)行了以下流程:提取特征—降維—聚類(lèi)—提取典型片段—合成—評(píng)價(jià).由于時(shí)間序列本身的前后倚賴(lài)關(guān)系和復(fù)雜性,我們進(jìn)一步對(duì)每個(gè)片段不同維度的特征進(jìn)行了細(xì)粒度更高的提取,從而得到了一個(gè)影響因素在29 維的運(yùn)動(dòng)片段特征數(shù)據(jù)集.維度過(guò)大是因?yàn)椴糠謱傩源嬖谝欢ǖ娜哂?出于對(duì)計(jì)算效率以及準(zhǔn)確性的考量,需要對(duì)數(shù)據(jù)進(jìn)行降維.基于這種思想,本文提出了一個(gè)改進(jìn)的降維方法,首先利用T-SNE 算法提取主成分以獲得非線性信息,接著使用PCA 主成分分析發(fā)現(xiàn)實(shí)驗(yàn)效果并不理想,因此最終選擇了深度學(xué)習(xí)中比較流行的降噪自編碼器進(jìn)行降維處理,取得了不俗的實(shí)驗(yàn)效果,且非常貼近實(shí)際意義.在聚類(lèi)過(guò)程中,經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)K-Means 的歐氏距離在數(shù)據(jù)集上效果不是很理想,因此本文考慮結(jié)合時(shí)間序列相關(guān)性,將度量替換成DTW (動(dòng)態(tài)時(shí)間規(guī)劃)和Pearson相關(guān)性,取得貼近現(xiàn)實(shí)意義的結(jié)果.
同時(shí)我們根據(jù)收集數(shù)據(jù)和研究發(fā)現(xiàn),工況與速度頻率信息可能還有著密切的關(guān)系,而傳統(tǒng)的工況研究里并沒(méi)有涉及到此方面的研究,因此本文還決定將速度因素加入到新的考量中.因此本文采用了基于EMD和平均近似熵的時(shí)間序列復(fù)雜度度量方法[4].先對(duì)所有運(yùn)動(dòng)片段進(jìn)行了EMD(本征模態(tài)分解),得到了自適應(yīng)個(gè)數(shù)的模態(tài).熵是一種能夠反映序列復(fù)雜度的指標(biāo),為了衡量這些模態(tài)的復(fù)雜度信息,設(shè)計(jì)模態(tài)計(jì)算近似熵并求平均值作為一個(gè)運(yùn)動(dòng)片段的復(fù)雜度描述,再根據(jù)復(fù)雜度對(duì)屬于同一類(lèi)的運(yùn)動(dòng)片段進(jìn)行排序,加入隨機(jī)種子,得到最終的候選片段.圖1為本實(shí)驗(yàn)總體所采取的流程圖.
圖1 實(shí)驗(yàn)總體流程圖
數(shù)據(jù)采集階段,對(duì)汽車(chē)上安置的傳感器所收集的數(shù)據(jù)采用一秒一次的方式進(jìn)行記錄,雖然傳感器已經(jīng)有了相當(dāng)?shù)木?但是可能還會(huì)出現(xiàn)一些不良的數(shù)據(jù)[5,6].經(jīng)過(guò)后期調(diào)研和數(shù)據(jù)檢查發(fā)現(xiàn),不良數(shù)據(jù)的原因主要分為3 類(lèi),第1 類(lèi)是缺省值,這個(gè)通常是傳感器在經(jīng)過(guò)高樓或者隧道時(shí)丟失信號(hào)造成;第2 類(lèi)是汽車(chē)加、減速度的異常,這個(gè)通常是傳感器自身出現(xiàn)的問(wèn)題;第3 類(lèi)是怠速情況下的異常,其中通常認(rèn)為汽車(chē)在長(zhǎng)時(shí)間處于10 km/h 的速度以下視為怠速,怠速的異常最主要原因通常是長(zhǎng)時(shí)間停車(chē)未關(guān)閉檢測(cè)器,也可能是堵車(chē)等交通路況復(fù)雜導(dǎo)致.
由于這些原因造成的數(shù)據(jù)不連續(xù)情況,經(jīng)過(guò)仔細(xì)考慮,本文對(duì)3 類(lèi)異常出現(xiàn)的原因進(jìn)行總結(jié),針對(duì)第1 類(lèi)情況和第2 類(lèi)情況,可以首先對(duì)異常的數(shù)據(jù)進(jìn)行清零,然后再使用插值的方法進(jìn)行補(bǔ)全.而針對(duì)怠速問(wèn)題,本文采用限幅算法對(duì)車(chē)速進(jìn)行約束,如果汽車(chē)在180 s內(nèi)一直小于10 km/h 的速度視為異常狀態(tài),對(duì)這段時(shí)間就采用忽略的方法,而對(duì)180 s 內(nèi)能恢復(fù)速度的采用插值的方法.
本文實(shí)驗(yàn)對(duì)收集到的數(shù)據(jù)處理的方法如下:首先以時(shí)間序列作為劃分度量,分別得到汽車(chē)行駛的時(shí)間區(qū)間,汽車(chē)從上路到熄火的完整過(guò)程應(yīng)視為同一個(gè)切片,實(shí)驗(yàn)劃分以相鄰兩個(gè)記錄的時(shí)間點(diǎn)間隔為依據(jù),如果相距5 分鐘以上的片段則進(jìn)行劃分和切片,對(duì)這些時(shí)間跨度小于5 分鐘但不連續(xù)的運(yùn)動(dòng)區(qū)間進(jìn)行數(shù)據(jù)補(bǔ)全的處理,然后主要是進(jìn)行插值補(bǔ)全的方法.針對(duì)插值的方法,本文對(duì)線性插值法和拉格朗日插值法兩種不同的方法分別進(jìn)行討論,為了得到更優(yōu)的結(jié)果需要分別進(jìn)行實(shí)驗(yàn).
(1)線性插值法,即在兩個(gè)片段之間按照兩個(gè)區(qū)間邊界的情況進(jìn)行插值,呈現(xiàn)出一條線性遞增或遞減的曲線.
(2)拉格朗日插值法,即在已知的連續(xù)片段下,按照過(guò)這n+1 個(gè)點(diǎn),且次數(shù)不超過(guò)n的多項(xiàng)式y(tǒng)=Pn(X),要估計(jì)任何一點(diǎn) ξ,ξ≠Xi,,i=0,1,2,···,n,用該多項(xiàng)式計(jì)算結(jié)果進(jìn)行插值.在這種情況下,插值曲線呈現(xiàn)出類(lèi)拋物線的形式.
在這兩種插值法的比較下,本文通過(guò)實(shí)驗(yàn)分別編程分析,最終發(fā)現(xiàn)線性插值法的效果更優(yōu).通過(guò)分析原因,主要是由于在信號(hào)丟失的情況下,汽車(chē)往往還能保持勻速或者其他非怠速狀態(tài)的運(yùn)動(dòng)方式,即怠速時(shí)間比會(huì)小于正常數(shù)據(jù)的比例,因此,在時(shí)間段插值的補(bǔ)全結(jié)果里,我們都采用了線性插值法.
預(yù)處理實(shí)驗(yàn)階段,本文利用Python 和Matlab 作為主要編程工具,首先將收集得到的數(shù)據(jù)導(dǎo)入,檢查是否存在缺省值.接著,以時(shí)間作為唯一的index 進(jìn)行篩選,第一步對(duì)時(shí)間中的小時(shí)進(jìn)行劃分,目的是將文件以時(shí)間為單位,將原始文件分為了13 個(gè)行間間隔為1 小時(shí)的新文件,接著利用相似的方法,繼續(xù)將文件細(xì)分成最大間隔為5 分鐘的不同數(shù)據(jù)段.在此基礎(chǔ)上,本文對(duì)加減速度異常進(jìn)行篩選后,利用線性插值法,將所有劃分的時(shí)間段進(jìn)行補(bǔ)全,最終得到處理后所有新文件記錄時(shí)間的行間隔均為1 s.
運(yùn)動(dòng)學(xué)片段是指從一個(gè)怠速階段開(kāi)始到另一個(gè)怠速階段開(kāi)啟的車(chē)速區(qū)間,這是構(gòu)建汽車(chē)工況最主要的依據(jù)來(lái)源,因此需要針對(duì)怠速的各項(xiàng)特征進(jìn)行分割運(yùn)動(dòng)學(xué)片段.針對(duì)之前經(jīng)過(guò)預(yù)處理得到的數(shù)據(jù)集,本文對(duì)5 s 以?xún)?nèi)能夠恢復(fù)到正常速度的值視為連續(xù)運(yùn)動(dòng)片段,因而進(jìn)行保留,而對(duì)5 s 內(nèi)不能恢復(fù)到非怠速狀態(tài)的值視為異常,因而進(jìn)行清零.最終根據(jù)怠速的定義(即小于每小時(shí)10 km 的速度)進(jìn)行運(yùn)動(dòng)學(xué)片段的分割,將初始數(shù)據(jù)集中進(jìn)一步細(xì)化成一個(gè)個(gè)獨(dú)立的運(yùn)動(dòng)學(xué)片段.
根據(jù)怠速的定義,設(shè)定在真怠速狀態(tài)下的速度為0,因此經(jīng)過(guò)預(yù)處理后得到一組0 或者10 以上的數(shù)據(jù),本文的算法是以相鄰不連續(xù)的兩個(gè)0 作為怠速的劃分.這具體是通過(guò)構(gòu)建的函數(shù)cut_slice (data,level)來(lái)實(shí)現(xiàn),其中具體參數(shù)data 表示數(shù)據(jù),level 表示劃分的標(biāo)準(zhǔn),在本文中設(shè)為兩段小于10.
算法流程是通過(guò)遍歷在預(yù)處理后的數(shù)據(jù)集后,以時(shí)間片劃分作為主要基準(zhǔn),對(duì)加速度、怠速等異常清理后得到,特別是針對(duì)怠速的處理,本文實(shí)驗(yàn)編寫(xiě)了data_search (data,level,time)函數(shù),編程思想是將怠速的最大值設(shè)為10 km/h,如果5 s 以?xún)?nèi)仍然處于怠速狀態(tài),那么我們就將兩個(gè)大于10 的值之間以0 填充,視為真怠速,否則即為假怠速,假怠速物理意義是車(chē)速在進(jìn)入小于10 km/h 后能夠很快恢復(fù)到10 km/h 以上,這樣仍應(yīng)保留數(shù)據(jù)視為行駛連續(xù)過(guò)程.
運(yùn)動(dòng)學(xué)片段提取的實(shí)驗(yàn)流程是通過(guò)遍歷在預(yù)處理過(guò)程下,根據(jù)時(shí)間為主要基準(zhǔn),加速度、怠速等異常清理后的時(shí)間切片,對(duì)每段切片再分別進(jìn)行運(yùn)動(dòng)學(xué)片段的提取,最終匯總成實(shí)驗(yàn)結(jié)果.核心算法是:考慮不同的怠速定義之下對(duì)實(shí)驗(yàn)結(jié)果的影響,本文分別設(shè)定能夠從正常速度(大于10 km/h 的速度)恢復(fù)到下一個(gè)正常速度的最小時(shí)間間隔為3 s 和5 s,根據(jù)兩者的實(shí)際情況及物理含義,分別代表汽車(chē)減速—>怠速—>加速的最短時(shí)間,完成運(yùn)動(dòng)學(xué)片段的切割.根據(jù)實(shí)驗(yàn)結(jié)果,本文最終采用了假設(shè)中的5 s 作為最大閾值,在此基礎(chǔ)上,得到了運(yùn)動(dòng)學(xué)片段的劃分結(jié)果.圖2為實(shí)驗(yàn)下運(yùn)動(dòng)學(xué)片段的部分展示.
圖2 運(yùn)動(dòng)學(xué)片段的部分展示
考慮到汽車(chē)合理的汽車(chē)運(yùn)動(dòng)特征評(píng)估體系,本文工況對(duì)于工況本身涉及的參數(shù),主要包括平均速度(km/h)、平均行駛速度(km/h)、平均加速度(m /s2)、平均減速度(m /s2)、怠速時(shí)間比(%)、加速時(shí)間比(%)、減速時(shí)間比(%)、速度標(biāo)準(zhǔn)差(km/h)、加速度標(biāo)準(zhǔn)差(m /s2)等,最后根據(jù)實(shí)驗(yàn)得出的工況圖以及汽車(chē)特征評(píng)估體系計(jì)算出汽車(chē)行駛工況與城市所采集數(shù)據(jù)源(經(jīng)處理后的數(shù)據(jù))的各指標(biāo)(運(yùn)動(dòng)特征)值,并且說(shuō)明本文結(jié)果的合理性.
為了更有效的描述運(yùn)動(dòng)學(xué)片段并對(duì)其進(jìn)行分類(lèi),通常采用特征值來(lái)表示運(yùn)動(dòng)學(xué)片段所具有的特點(diǎn).而特征值個(gè)數(shù)的選擇是此次實(shí)驗(yàn)的一大難點(diǎn),如果只選用少量的特征,如加速度、平均速度等作為特征值,可能包含的信息并不是很全面,這樣得到的分類(lèi)一般不是很好.本實(shí)驗(yàn)中,大量的特征值其實(shí)存在著巨大的冗余,還會(huì)導(dǎo)致運(yùn)算時(shí)間過(guò)長(zhǎng),計(jì)算開(kāi)銷(xiāo)太大.因此經(jīng)過(guò)綜合考慮和實(shí)驗(yàn)驗(yàn)證,本文對(duì)收集數(shù)據(jù)的29 個(gè)特征值結(jié)合運(yùn)動(dòng)學(xué)片段進(jìn)行描述,并在此基礎(chǔ)上采用降維思想,提升運(yùn)算速度,減少冗余.本文實(shí)驗(yàn)采取了多種降維的思想,根據(jù)實(shí)驗(yàn)結(jié)果的好壞選擇結(jié)果.
首先利用Pearson 相關(guān)性來(lái)辨識(shí)特征的線性相關(guān)性,但是實(shí)驗(yàn)發(fā)現(xiàn)這樣的效果并不是很好,如圖3所示,因?yàn)閷?shí)驗(yàn)結(jié)果除了對(duì)角線是自相關(guān)以外,別的關(guān)聯(lián)度不是很高,因此決定采取第2 種非線性降維的方法.
圖3 協(xié)方差矩陣
T-SNE 是一種常用的非線性降維度方法,首先對(duì)這些明顯的線性相關(guān)項(xiàng)直接去除,并插入這些項(xiàng)的TSNE 壓縮項(xiàng),主要是利用T 分布和隨機(jī)近鄰嵌入的思想,隨機(jī)近鄰嵌入通過(guò)將高維空間映射到低維空間轉(zhuǎn)化為概率來(lái)實(shí)現(xiàn),采用傳統(tǒng)的歐氏距離,將距離關(guān)系通過(guò)概率的相似性來(lái)表示.如高維空間的兩個(gè)數(shù)據(jù)點(diǎn)xi和xj,xi以條件概率Pj|i選擇xj作為它的鄰近點(diǎn).考慮到xi為中心點(diǎn)的高斯分布,若xj越靠近xi,則Pj|i越大.定義Pj|i如下:
但是T-SNE 是一種非線性降維,這就導(dǎo)致其降維結(jié)果具有一定的隨機(jī)性,因此為了保證此次實(shí)驗(yàn)的通用性,本文決定采用另一種降維方法——主成分分析,這是一種常用的線性降維方法.因?yàn)槟壳皬木C合表現(xiàn)來(lái)看,PCA 降維是丟失原始信息相對(duì)較少的一種線性降維方式,而根據(jù)線性投影的方式,將高維空間里的數(shù)據(jù)映射到低維空間中,以投影的方差大小來(lái)衡量?jī)?yōu)劣.根據(jù)PCA 優(yōu)化目標(biāo),需要設(shè)定n維向量W為目標(biāo)子空間的一個(gè)坐標(biāo)軸方向,以此獲得最大化數(shù)據(jù)映射后的方差,如下為PCA 的一般通式:
其中,m是 數(shù)據(jù)實(shí)例的個(gè)數(shù),xi是 數(shù)據(jù)實(shí)例i的向量表達(dá),是所有數(shù)據(jù)實(shí)例的平均向量.式中W為所有映射向量為列向量的矩陣,經(jīng)過(guò)線性代數(shù)變換,得到如下優(yōu)化目標(biāo):
其中,tr 表示矩陣的跡,化簡(jiǎn)過(guò)后,得到如下數(shù)據(jù)協(xié)方差矩陣:
該式最優(yōu)解是由協(xié)方差矩陣的前k個(gè)最大特征值,把其所對(duì)的特征向量作為新的列向量所形成的,正交基可以清楚地表示了數(shù)據(jù)中原有的特征向量.PCA 最終的輸出是Y=WTx,因此X 的原始維度降低到了K維.
針對(duì)上述PCA 需要處理的數(shù)據(jù),由于原數(shù)據(jù)涉及到多種不同形式,因此需要采取歸一化或標(biāo)準(zhǔn)化的方法,使數(shù)據(jù)消除量綱的影響.因此本文實(shí)驗(yàn)里分別采用了標(biāo)準(zhǔn)化和歸一化的方法,實(shí)驗(yàn)結(jié)果如圖4所示.
圖4 標(biāo)準(zhǔn)化歸一化結(jié)果
本文在對(duì)傳統(tǒng)PCA 降維方法進(jìn)行實(shí)驗(yàn)的同時(shí),考慮到PCA 可能不一定適用于如此高維度的實(shí)驗(yàn)分析,因此借鑒了如今深度學(xué)習(xí)中非常流行的降噪自動(dòng)編碼器(de-noise Autoencoder,dA)[7]降維,dA 是一種類(lèi)似PCA 的無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法,目的是與傳統(tǒng)的PCA 降維進(jìn)行對(duì)比,從而選擇更優(yōu)的降維方式.
而根據(jù)自編碼器的定義,dA 是一種利用反向傳播算法使得輸出值等于輸入值的神經(jīng)網(wǎng)絡(luò),通過(guò)將輸入壓縮成潛在的空間表征,然后將這種表征重構(gòu)為輸出來(lái)實(shí)現(xiàn).相比于傳統(tǒng)PCA 算法,自編碼器在適當(dāng)?shù)木S度和系數(shù)約束下可以學(xué)習(xí)到比PCA 更有意義的數(shù)據(jù)映射.
同時(shí),降噪自編碼器作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法,相較于傳統(tǒng)PCA 算法,增加了非線性補(bǔ)充,這就降噪自編碼器比PCA 具有更加靈活的特點(diǎn),不但能進(jìn)行線性變換,還可以進(jìn)行非線性變換,因此可以學(xué)習(xí)到比PCA 更加有意義的數(shù)據(jù)分析.針對(duì)數(shù)據(jù)模糊情況,降噪自編碼器還可以通過(guò)設(shè)置噪聲,恢復(fù)以前可能“損壞”的原始數(shù)據(jù).因此,將通過(guò)實(shí)驗(yàn)來(lái)對(duì)這兩種不同的降維方法進(jìn)行實(shí)驗(yàn)驗(yàn)證.
本文首先使用SPSS 軟件對(duì)數(shù)據(jù)進(jìn)行主成分分析,最終PCA 實(shí)驗(yàn)驗(yàn)證保留了最有特征的4 項(xiàng).具體實(shí)驗(yàn)流程如下,首先對(duì)于原始文件中的18 萬(wàn)條數(shù)據(jù),通過(guò)預(yù)處理過(guò)程,將其分割成1230 個(gè)運(yùn)動(dòng)學(xué)片段.利用Python 建立函數(shù)將計(jì)算得到的各運(yùn)動(dòng)片段的特征值作為SPSS 的輸入,最終,得到一個(gè)1230×29 的特征矩陣.接著,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,用以消除量綱對(duì)特征分析的影響.使用SPSS 將得到的特征文件的標(biāo)準(zhǔn)化處理,并使用因子分析,選擇主成分分析,得到4 個(gè)主要的特征,主成分表用來(lái)列出所有的主成分,且按照特征根的從大到小排列如圖5所示,前4 項(xiàng)分別主要包括著著運(yùn)動(dòng)片段時(shí)間、平均速度、加速時(shí)間和減速時(shí)間.
圖5 主成分分析結(jié)果
可以從圖5中直觀地看出,經(jīng)過(guò)主成分分析提取后得到了7 個(gè)相關(guān)成分的方差、貢獻(xiàn)率以及累計(jì)貢獻(xiàn)率.然而從PCA 分類(lèi)結(jié)果來(lái)看,傳統(tǒng)PCA 并沒(méi)有將該29 項(xiàng)特征值進(jìn)行很好的降維,結(jié)果中至少前7 個(gè)成分包含了29 個(gè)特征值的超過(guò)90%的信息,然而主成分分析僅僅列出其中4 項(xiàng)作為降維后的主成分,且實(shí)驗(yàn)數(shù)據(jù)上前4 項(xiàng)的累積占比也僅占72.436%,這就與主成分分析所達(dá)到的效果不相吻合,分析原因可能是因?yàn)镻CA 降維是線性降維,本實(shí)驗(yàn)可能在初始數(shù)據(jù)存在一定的偏差,同時(shí)在運(yùn)動(dòng)學(xué)片段的分割上也不是均勻且連續(xù),因此PCA 對(duì)于該實(shí)驗(yàn)的降維效果不是很理想.
因此,結(jié)合之前的分析,本文采取深度學(xué)習(xí)中的dA 降維方法重新對(duì)該實(shí)驗(yàn)進(jìn)行降維,具體實(shí)驗(yàn)流程如下,首先設(shè)置初始網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)為數(shù)據(jù)維度29,由于維度不是很高,因此設(shè)置網(wǎng)絡(luò)深度為4,同時(shí)對(duì)中間隱層的節(jié)點(diǎn)數(shù)逐漸收斂到15 和10,激活函數(shù)選擇了tanh.針對(duì)可能存在一定的原始數(shù)據(jù)損害情況,因此將噪聲系數(shù)設(shè)置為0.2.
實(shí)驗(yàn)發(fā)現(xiàn),在設(shè)置噪聲系數(shù)后,對(duì)初始數(shù)據(jù)的不連續(xù)性以及可能存在的損壞進(jìn)行了很好的修復(fù).同時(shí)在經(jīng)過(guò)反復(fù)地實(shí)驗(yàn)后,在得到了當(dāng)輸出節(jié)點(diǎn)數(shù)為7 作為最終的降維結(jié)果時(shí),如圖6所示,實(shí)驗(yàn)效果是最優(yōu)的,這也與之前傳統(tǒng)PCA 分類(lèi)所體現(xiàn)出的實(shí)驗(yàn)效果高度吻合,而且這個(gè)降維后的主成分也十分貼近實(shí)際意義.
圖6 主成分分析結(jié)果
經(jīng)過(guò)實(shí)驗(yàn)證明,本文選擇前7 個(gè)作為主成分進(jìn)行分析,大大減少了冗余情況.分析結(jié)果發(fā)現(xiàn),第1 主成分主要反映運(yùn)動(dòng)片段時(shí)間、加速段時(shí)間、減速段時(shí)間、勻速段時(shí)間、平均速度、行駛時(shí)平均速度;第2 主成分主要反映速度標(biāo)準(zhǔn)差、怠速時(shí)間和行駛距離;第3 主成分主要反映加速段平均加速度、加速度標(biāo)準(zhǔn)差、加速度最大值,即可以理解主要反映行駛過(guò)程中加速度相關(guān)信息;第4 主成分主要反映行駛時(shí)間標(biāo)準(zhǔn)差、速度為10 到20 m/s 的信息;第5 主成分主要反映加速段的最大加速度、減速段的最大加速度以及勻速段的占比;第6 主成分主要反映運(yùn)行片段時(shí)間標(biāo)準(zhǔn)偏差、中等行駛速度(速度為30 到50 m/s);第7 主成分主要反映速度為零的時(shí)間、加速段平均加速度和減速段平均加速度.
在取得了影響因子的最主要成分后,本文對(duì)之前數(shù)據(jù)集中分離出的1230 個(gè)樣本進(jìn)行聚類(lèi)[8,9],主要采用了動(dòng)態(tài)聚類(lèi)的思想方法,具體實(shí)驗(yàn)步驟如下.
首先需要定義以變量或指標(biāo)的個(gè)數(shù)為維度的空間里的一種距離,根據(jù)K-Means 算法,需要計(jì)算出1230 個(gè)樣本兩兩之間的距離,本文在計(jì)算傳統(tǒng)層次聚類(lèi)方式時(shí),考慮到傳統(tǒng)歐式距離是一般層次聚類(lèi)所選的主要度量方式.但由于本文實(shí)驗(yàn)數(shù)據(jù)是以時(shí)間序列為基準(zhǔn)的,擁有很強(qiáng)的間斷性和不等長(zhǎng)的特點(diǎn),且時(shí)間序列還存在著伸縮或者平移的可能性,因此選用傳統(tǒng)的歐氏距離不能反映兩段序列之間的相似性.即使序列有等長(zhǎng)的可能,歐氏距離在對(duì)時(shí)間序列進(jìn)行距離的度量時(shí),由于僅僅以時(shí)間軸對(duì)齊方式來(lái)計(jì)算各個(gè)序列值的距離,而沒(méi)有考慮序列的平移,因此極易導(dǎo)致距離計(jì)算結(jié)果的不準(zhǔn)確,最終算法準(zhǔn)確性也會(huì)下降.
基于上述所說(shuō)的歐氏距離在進(jìn)行時(shí)間序列上度量計(jì)算的諸多不足,本文采用DTW 算法作為改進(jìn),采用DTW 作為距離計(jì)算的度量.具體流程如下:
(1)初始階段,將每個(gè)分段序列單獨(dú)視為一個(gè)簇,同時(shí)計(jì)算每個(gè)分段序列之間的DTW 距離,將得到一個(gè)初始距離矩陣;
(2)對(duì)距離按升序方式進(jìn)行排序,將升序后數(shù)組中按索引存入二維數(shù)組中;
(3)將數(shù)組中第1 個(gè)值(最小值)對(duì)應(yīng)的子序列合并到一個(gè)新簇中;
(4)從數(shù)組第2 個(gè)值開(kāi)始,先判斷其對(duì)應(yīng)的兩個(gè)子序列有無(wú)合并.若未合并,則將兩個(gè)序列合并為一簇;若其中一個(gè)已合并,則將另一個(gè)子序列合并到該簇;若兩個(gè)子序列分別合并到不同簇中,則將兩個(gè)粗合并為一個(gè)簇.每次合并時(shí)簇的個(gè)數(shù)減1;
(5)取數(shù)組下一個(gè)值,并將簇的個(gè)數(shù)減1;
(6)重復(fù)步驟(4)和步驟(5),直至數(shù)組中所有元素均處理完.
最終本文主要通過(guò)組間連接的聚類(lèi)方法,使用DTW 作為距離度量得到圖7示意的聚類(lèi)結(jié)果.
圖7 聚類(lèi)過(guò)程
以往的研究對(duì)從各個(gè)子工況中提取典型運(yùn)動(dòng)片段,基本上采用的平均速度匹配,近似一種隨機(jī)挑選的方法.實(shí)際上,工況與汽車(chē)的速度波動(dòng)有著密切的聯(lián)系,運(yùn)動(dòng)片段的頻域信號(hào)往往隱藏著速度變化的信息.EMD 本征模態(tài)分解可以理解成一種自適應(yīng)的小波分解,它的優(yōu)點(diǎn)在于并不需要預(yù)先設(shè)定分解的頻段,所以可以從運(yùn)動(dòng)片段中自然分解出很多潛在的行為.
如圖8,一個(gè)運(yùn)動(dòng)片段中分解出了5 個(gè)模態(tài).第3 個(gè)模態(tài)與減速有關(guān),第1 個(gè)第2 個(gè)模態(tài)與趨勢(shì)有關(guān),第4 個(gè)模態(tài)與速度突變有關(guān).當(dāng)然并不是所有的運(yùn)動(dòng)片段都有相同的對(duì)應(yīng),所以我們需要一種方法去評(píng)價(jià)這個(gè)運(yùn)動(dòng)片段所包含的信息.相對(duì)的認(rèn)為,信息越多,越能代表這一類(lèi)的信息,而熵經(jīng)常被用于衡量一個(gè)序列的信息復(fù)雜度.我們采用運(yùn)動(dòng)片段所有模態(tài)的平均近似熵來(lái)描述這個(gè)這個(gè)運(yùn)動(dòng)片段的特征.
圖8 本征模態(tài)分解
按比例加入隨機(jī)種子,得到最終的候選片段,從各分類(lèi)中選擇相應(yīng)數(shù)量的運(yùn)動(dòng)片段組成1200 到1300 s的運(yùn)動(dòng)工況,校驗(yàn)標(biāo)準(zhǔn)參照與總體平均值的偏差不超過(guò)5%.最終構(gòu)建出的嘉定區(qū)汽車(chē)行駛工況如圖9所示,從整體來(lái)看,可以看出嘉定汽車(chē)行駛的工況在連續(xù)行駛的大部分時(shí)間還是處于一個(gè)相對(duì)比較連續(xù)的過(guò)程,證明堵車(chē)情況較好,總體行駛工況結(jié)論為:嘉定區(qū)汽車(chē)行駛速度中等,加減速度較為頻繁,怠速時(shí)間比例總體偏低.
本文運(yùn)用機(jī)器學(xué)習(xí)和人工智能的方法,結(jié)合實(shí)際應(yīng)用需求,創(chuàng)新性地提供了一種利用降噪自編碼器降維方式對(duì)汽車(chē)工況實(shí)驗(yàn)數(shù)據(jù)進(jìn)行降維的方法,為創(chuàng)建和構(gòu)造汽車(chē)行駛工況的研究提供了一些可行性的方法,也希望為我國(guó)未來(lái)其余城市的汽車(chē)行駛工況研究提供參考.同時(shí),提出了對(duì)于汽車(chē)行駛工況的主要影響因素,當(dāng)然不同城市的工況可能會(huì)存在著差異,但是本文將一種通用的研究方法提出以供參考,希望為我國(guó)環(huán)境保護(hù)和汽車(chē)工業(yè)的發(fā)展提供一定的幫助.
圖9 工況構(gòu)建圖