徐孟龍,李 俊,劉慧文,伍文廣,馬媛媛,史曉磊
(1.北京博電新力電氣股份有限公司,北京 100176;2.國(guó)網(wǎng)電動(dòng)汽車(chē)服務(wù)有限公司,北京 100052;3.長(zhǎng)沙理工大學(xué),湖南 長(zhǎng)沙 410114)
2020年初新冠肺炎疫情爆發(fā),世界經(jīng)濟(jì)被按下暫停鍵,我國(guó)2020年第一季度GDP增速為-6.8%,與2019年同期的6.4%相比下降了13.2%。工業(yè)生產(chǎn)增速經(jīng)歷了斷崖式下跌,為提振經(jīng)濟(jì),穩(wěn)定就業(yè),應(yīng)對(duì)中美貿(mào)易摩擦帶來(lái)的高科技禁用等一系列風(fēng)險(xiǎn),以及我國(guó)為轉(zhuǎn)型升級(jí)打造科技強(qiáng)國(guó)的內(nèi)在需求驅(qū)動(dòng)下,中共中央政治局常務(wù)委員會(huì)召開(kāi)會(huì)議,會(huì)議強(qiáng)調(diào)加快“新基建”建設(shè)進(jìn)度?!靶禄ā笔菄?guó)家在2018年中央經(jīng)濟(jì)工作會(huì)議上提出的,以科技產(chǎn)業(yè)升級(jí)為核心的配套基礎(chǔ)設(shè)施建設(shè)計(jì)劃,其核心內(nèi)容包括:5G、特高壓、城際高速鐵路和城市軌道交通、新能源汽車(chē)充電樁、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)。
新能源汽車(chē)充電樁建設(shè)成為新基建風(fēng)口,在新能源充電樁爆發(fā)式增長(zhǎng)下,新的問(wèn)題也隨之而來(lái),電動(dòng)汽車(chē)充電故障率不斷攀升,電氣故障、通信故障,以及車(chē)樁兼容性問(wèn)題突出,目前主要通過(guò)人工現(xiàn)場(chǎng)檢測(cè)發(fā)現(xiàn)和處理故障,這種運(yùn)維模式在目前充電樁數(shù)量暴增的情況下將難以為繼。另一方面,雖然充電樁內(nèi)部TCU單元可以與充電控制器進(jìn)行CAN通信,并進(jìn)行數(shù)據(jù)記錄,但記錄的信息十分簡(jiǎn)單,無(wú)法反映充電細(xì)節(jié),更無(wú)法記錄車(chē)樁之間真實(shí)的交互過(guò)程和信息,制約著新能源汽車(chē)的發(fā)展。
為解決上述問(wèn)題,本文介紹了采用高速數(shù)據(jù)采集技術(shù)、機(jī)器學(xué)習(xí)技術(shù)來(lái)采集、識(shí)別故障,實(shí)現(xiàn)了直流充電樁故障在線(xiàn)診斷、故障預(yù)測(cè)功能。設(shè)計(jì)了一種安裝在充電樁內(nèi)部的電動(dòng)汽車(chē)充電故障監(jiān)控系統(tǒng),該系統(tǒng)采集電壓、電流、門(mén)禁、急停等信號(hào)后,通過(guò)IoT上傳到云服務(wù)器。結(jié)合數(shù)據(jù)處理技術(shù)和隨機(jī)森林分類(lèi)算法可以構(gòu)建一種直流充電樁在線(xiàn)診斷和故障預(yù)測(cè)方法。本文簡(jiǎn)要介紹了隨機(jī)森林思想及其核心算法,以及拓?fù)浜陀?xùn)練過(guò)程。分析了模型的均方誤差和訓(xùn)練損耗。探討了如何優(yōu)化模型,提高精度,避免過(guò)度擬合。最后通過(guò)項(xiàng)目實(shí)際應(yīng)用對(duì)比了故障預(yù)測(cè)與真實(shí)情況的誤差,發(fā)現(xiàn)故障識(shí)別準(zhǔn)確率超97%。
充電過(guò)程監(jiān)測(cè)裝置安裝在充電樁內(nèi)部,包括控制模塊、監(jiān)測(cè)采樣模塊、電源模塊、存儲(chǔ)模塊和WiFi/4G模塊,可滿(mǎn)足最大1 000 V/250 A直流充電樁的要求。采樣率為1 kS/s,支持多種觸發(fā)模式。
裝置采用高速數(shù)據(jù)采樣和處理器技術(shù),記錄完整的充電過(guò)程中每個(gè)觸點(diǎn)的工作狀態(tài)。當(dāng)監(jiān)測(cè)裝置檢測(cè)到直流充電樁開(kāi)始充電時(shí),自動(dòng)啟動(dòng)電壓電流采集和CAN總線(xiàn)報(bào)文采集,從而記錄整個(gè)充電過(guò)程的電壓電流變化和CAN總線(xiàn)報(bào)文。文件、數(shù)據(jù)在本地存入SD卡的同時(shí)也通過(guò)4G網(wǎng)絡(luò)上傳到云平臺(tái),進(jìn)行云端存儲(chǔ)和分析等工作。功率監(jiān)控單元總體框架如圖1所示。
圖1 功率監(jiān)控單元總體框架
裝置主要分為以下幾個(gè)部分:
(1)主控部分選用Xilinx ZYNQ7000系列CPU,其具備監(jiān)測(cè)系統(tǒng)數(shù)據(jù)的采集、處理和通信等功能。
(2)電源模塊負(fù)責(zé)為監(jiān)測(cè)系統(tǒng)供電,數(shù)字電路和模擬電路分開(kāi)供電,保證系統(tǒng)的穩(wěn)定性和采集精度。
(3)CAN報(bào)文采集模塊用于監(jiān)測(cè)直流充電樁和電動(dòng)汽車(chē)間的CAN通信數(shù)據(jù),并對(duì)報(bào)文進(jìn)行解析。WiFi/4G模塊負(fù)責(zé)向云端服務(wù)器傳輸數(shù)據(jù)。
(4)存儲(chǔ)模塊負(fù)責(zé)存儲(chǔ)采集的報(bào)文、電壓電流數(shù)據(jù)及監(jiān)測(cè)報(bào)告等。
(5)模擬采集模塊負(fù)責(zé)采集充電過(guò)程中的充電電壓、充電電流和輔助電源信號(hào)等模擬量,模擬采集模塊共有5個(gè)采集通道,各通道相互隔離,分別采集充電電壓、充電電流、輔助電源電壓、CC1電壓、CC2電壓。
決策樹(shù)有很多種類(lèi),例如大家熟知的ID3(迭代二分頻器3)、CART(回歸分類(lèi)樹(shù))、C45(ID3升級(jí))等,均屬于分類(lèi)器范疇。如圖2所示,決策樹(shù)都有一個(gè)根節(jié)點(diǎn),從根節(jié)點(diǎn)通過(guò)學(xué)習(xí)算法對(duì)每個(gè)結(jié)點(diǎn)遞歸分裂,最終得到?jīng)Q策節(jié)點(diǎn)。
圖2 決策樹(shù)示意圖
決策樹(shù)學(xué)習(xí)算法是一種近似離散值目標(biāo)函數(shù)的方法,其中學(xué)習(xí)的函數(shù)由決策樹(shù)表示。決策樹(shù)學(xué)習(xí)算法是歸納推理領(lǐng)域應(yīng)用最廣泛的方法之一。
對(duì)于決策樹(shù)算法而言,分裂判據(jù)至關(guān)重要,它決定了決策樹(shù)的節(jié)點(diǎn)如何向下分裂。目前有很多分裂判據(jù)被用來(lái)對(duì)節(jié)點(diǎn)進(jìn)行分裂,這些分裂措施根據(jù)分裂前后記錄的類(lèi)分布來(lái)定義。
信息熵是1948年香農(nóng)首先提出的,主要用來(lái)描述一個(gè)信號(hào)或者一個(gè)事件中有多少有效信息,它與一個(gè)已知概率分布事件的不確定度有關(guān),通俗地說(shuō),一件事發(fā)生的概率越高,則其不確定度越低,信息熵就越低,必然事件和不可能事件的信息熵為0。信息熵定義為與隨機(jī)結(jié)果相關(guān)的平均信息含量的度量。對(duì)于離散隨機(jī)變量X,其信息熵表示為:
式中,p(x)=P(X=x)是隨機(jī)變量X第i次結(jié)果的概率。信息熵也可以被用于一般概率分布,不限于離散值事件。
基尼系數(shù)是信息量的另一種度量,在決策樹(shù)生成期間,數(shù)據(jù)的“不確定性”越小,則其可能性就越大。如果我們?nèi)個(gè)隨機(jī)變量,則基尼系數(shù)可以表示為:
式中:p表示取第j個(gè)變量的概率;y為研究的變量,表明y不確定性越大,則Gini(y)越大。
決策樹(shù)根據(jù)分裂判據(jù)不斷分裂生長(zhǎng),直到達(dá)到終止判據(jù)生效,最終形成葉節(jié)點(diǎn)。終止判據(jù)通常有如下條件:
(1)當(dāng)訓(xùn)練集中所有個(gè)體都屬于一個(gè)單一值y;
(2)達(dá)到?jīng)Q策樹(shù)設(shè)定的最大深度;
(3)達(dá)到終止閾值。
由于單棵決策樹(shù)在訓(xùn)練過(guò)程中不可避免的會(huì)遇到過(guò)度擬合,即對(duì)本數(shù)據(jù)集可以進(jìn)行高精度分類(lèi),但遇到其他數(shù)據(jù)集分類(lèi)精度就會(huì)降低。為解決這一問(wèn)題,提出了隨機(jī)森林算法。隨機(jī)森林算法是通過(guò)對(duì)隨機(jī)森林中多棵決策樹(shù)的結(jié)果進(jìn)行統(tǒng)計(jì)或者平均,之后將許多決策樹(shù)輸出的結(jié)果匯集成為最終輸出,以減少單棵決策樹(shù)對(duì)某一數(shù)據(jù)集的過(guò)度擬合問(wèn)題。
隨機(jī)森林拓?fù)浣Y(jié)構(gòu)如圖3所示。隨機(jī)森林的建立便于對(duì)原始數(shù)據(jù)集D中個(gè)體進(jìn)行隨機(jī)可放回式n次提取,得到n個(gè)樣本S,其中j=1,2,...,n,通過(guò)n個(gè)樣本可以訓(xùn)練得到n棵決策樹(shù)模型。對(duì)每一棵決策樹(shù)通過(guò)分裂判據(jù)進(jìn)行分裂生長(zhǎng),然后將每棵決策樹(shù)的結(jié)果進(jìn)行統(tǒng)一投票表決,輸出最終結(jié)果。
圖3 隨機(jī)森林拓?fù)浣Y(jié)構(gòu)
通過(guò)圖1中的WiFi/4G模塊將充電樁監(jiān)控設(shè)備采集的數(shù)據(jù)上送至云服務(wù)器,數(shù)據(jù)包括:K1和K2驅(qū)動(dòng)、電子鎖反饋、急停信號(hào)、門(mén)禁反饋、THDV-M、THDI-M。通過(guò)這6個(gè)維度的特征來(lái)預(yù)測(cè)充電樁故障。由于現(xiàn)場(chǎng)環(huán)境復(fù)雜,通過(guò)IoT技術(shù)獲取的數(shù)據(jù)不可避免存在各種問(wèn)題,例如:采樣環(huán)節(jié)由于電磁干擾、環(huán)境溫濕度的變化等導(dǎo)致數(shù)據(jù)異常、噪聲和數(shù)據(jù)不一致等問(wèn)題。數(shù)據(jù)傳輸環(huán)節(jié)由于丟包、中斷等原因?qū)е聰?shù)據(jù)缺失,這些問(wèn)題在源頭上給數(shù)據(jù)分析帶來(lái)了困難,甚至造成了分析結(jié)果錯(cuò)誤。為提高數(shù)據(jù)分析質(zhì)量,必須在應(yīng)用這些數(shù)據(jù)之前先對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,如補(bǔ)充缺失的數(shù)據(jù)、清除異常數(shù)據(jù)等。
對(duì)清洗完成的數(shù)據(jù)進(jìn)行歸一化處理,如:Min-Max歸一化(Min-Max Normalization),該方法是對(duì)原始數(shù)據(jù)的線(xiàn)性變換,使結(jié)果值映射到[0,1],轉(zhuǎn)換函數(shù)如下:
式中:max為樣本數(shù)據(jù)的最大值;min為樣本數(shù)據(jù)的最小值。歸一化是讓不同維度之間的特征在數(shù)值上有一定的比較性,對(duì)于分類(lèi)器而言,歸一化處理可以提高分類(lèi)的準(zhǔn)確性和計(jì)算效率。數(shù)據(jù)預(yù)處理結(jié)果見(jiàn)表1所列。
表1 數(shù)據(jù)預(yù)處理結(jié)果
隨機(jī)森林算法對(duì)于分類(lèi)問(wèn)題具有較高的準(zhǔn)確率,在較大的數(shù)據(jù)集上也能夠穩(wěn)定運(yùn)行,對(duì)于多維特征的樣本能夠一次分類(lèi)并且無(wú)需降維處理,而且可以對(duì)每個(gè)特征維度分類(lèi)結(jié)果的重要性給予評(píng)估。
對(duì)于結(jié)果,使用平均絕對(duì)百分比誤差(MAPE)和均方根誤差(RMSE)進(jìn)行評(píng)估。誤差計(jì)算公式見(jiàn)式(4)和式(5):
首先對(duì)數(shù)據(jù)集中122 144個(gè)樣本進(jìn)行劃分,其中80%數(shù)據(jù)用作訓(xùn)練數(shù)據(jù),20%數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),用于驗(yàn)證模型精度。通過(guò)訓(xùn)練,我們得到隨機(jī)森林分類(lèi)器模型TrainedRF_Model13(data),然后將20%的驗(yàn)證數(shù)據(jù)輸入TrainedRF_Model13(data)即可得到圖4所示結(jié)果。其中,True class表示驗(yàn)證數(shù)據(jù)真實(shí)的故障狀態(tài),Predicted class表示隨機(jī)森林分類(lèi)器模型TrainedRF_Model13(data)預(yù)測(cè)的結(jié)果。
圖4 隨機(jī)森林分類(lèi)器TrainedRF_Model13(data)預(yù)測(cè)結(jié)果
True Class 0表示充電樁正常,即無(wú)任何故障,Predicted Class 1表示隨機(jī)森林分類(lèi)器TrainedRF_Model13(data)判斷為充電樁異常,即預(yù)測(cè)發(fā)生了故障??梢钥吹剑S機(jī)森林分類(lèi)器TrainedRF_Model13(data)判斷充電樁工作正常并與真實(shí)情況相符的準(zhǔn)確度為89%,表明11%的數(shù)據(jù)被判斷錯(cuò)誤,即充電樁無(wú)故障但分類(lèi)器卻預(yù)測(cè)其發(fā)生故障,這部分樣本數(shù)量為1 314。另一方面,True Class 1即充電樁工作確實(shí)存在異常,而分類(lèi)器也判斷為異常的準(zhǔn)確度為89%,這表明有11%的數(shù)據(jù)判斷錯(cuò)誤,即存在故障但分類(lèi)器卻認(rèn)為運(yùn)行正常,這部分樣本數(shù)量為1 356??梢钥吹剑壳跋到y(tǒng)分類(lèi)精度不高,有很多值被判斷錯(cuò)誤。我們匯總本次測(cè)試相關(guān)信息:隨機(jī)森林模型由5棵決策樹(shù)構(gòu)成,特征維度為6,葉結(jié)點(diǎn)為2,訓(xùn)練時(shí)間為6.829 6 s,預(yù)測(cè)精度為89.1%。
在本次訓(xùn)練和驗(yàn)證過(guò)程中我們可以看到6個(gè)特征維度對(duì)預(yù)測(cè)結(jié)果的影響力度,圖5可以看出對(duì)預(yù)測(cè)結(jié)果影響最大,也是最重要的特征THDVM(電壓總諧波畸變率),其次是THDIM(電流總諧波畸變率),這2個(gè)特征的重要性明顯高于其他特征維度。
圖5 特征維度對(duì)預(yù)測(cè)結(jié)果的重要性
為提高模型精度,對(duì)模型參數(shù)進(jìn)行調(diào)整,將隨機(jī)森林中決策樹(shù)的數(shù)量由5棵提升至30棵,特征維度仍然為6,葉結(jié)點(diǎn)為2,得到圖6所示預(yù)測(cè)結(jié)果。
圖6 隨機(jī)森林分類(lèi)器TrainedRF_Model13(data)預(yù)測(cè)結(jié)果
我們可以看到,True Class 0即充電樁工作正常情況下的準(zhǔn)確度達(dá)97%,即3%的數(shù)據(jù)被判斷錯(cuò)誤,這部分樣本數(shù)量為733。另一方面,True Class 1即充電樁工作異常情況下的準(zhǔn)確度為96%,這表明4%的數(shù)據(jù)判斷錯(cuò)誤,即原本存在故障但分類(lèi)器卻認(rèn)為系統(tǒng)運(yùn)行正常,這部分?jǐn)?shù)據(jù)為977。
不難看出,隨機(jī)森林中決策樹(shù)越多模型精度就越高,但相應(yīng)的訓(xùn)練時(shí)間也越長(zhǎng),對(duì)硬件的算力要求也越高。而且提高決策樹(shù)數(shù)量也存在瓶頸,起初增加決策樹(shù)的數(shù)量可以極大地提高模型精度,但當(dāng)決策樹(shù)的數(shù)量達(dá)到一定程度后,再提高決策樹(shù)的數(shù)量就無(wú)法大幅提高精度了,有的甚至?xí)咕认陆?。圖7展示了決策樹(shù)數(shù)量對(duì)精度的影響,可以看到,決策樹(shù)的數(shù)量由1增加到10時(shí),對(duì)模型精度有極大地提升,但超過(guò)10時(shí),對(duì)模型精度的提升就變得非常有限,而且決策樹(shù)越多模型越容易過(guò)擬合,模型靈活性將大大降低,同時(shí)模型訓(xùn)練時(shí)間也大幅增加。所以最佳模型是綜合模型精度、訓(xùn)練時(shí)間、算力、避免過(guò)度擬合等各方面考慮后選取的最優(yōu)方案。
圖7 決策樹(shù)數(shù)量與模型精度關(guān)系
參看表2,我們可以將幾組訓(xùn)練驗(yàn)證完成的模型進(jìn)行比對(duì),觀(guān)察各模型在精度、訓(xùn)練時(shí)間、訓(xùn)練損耗等方面的優(yōu)劣,更加直觀(guān)地得出最優(yōu)模型。
表2 模型優(yōu)化結(jié)果對(duì)比表
ROC曲線(xiàn)的最佳工作點(diǎn)以1-by-2數(shù)組形式返回,其中包含最佳ROC工作點(diǎn)的誤報(bào)率(FPR)和真正率(TPR)值。perfcurve僅計(jì)算標(biāo)準(zhǔn)ROC曲線(xiàn)的OPTROCPT,否則設(shè)置為NaN。為獲得ROC曲線(xiàn)的最佳工作點(diǎn),perfcurve首先需找到斜率S。
從圖8可以看出,在分類(lèi)器最佳工作點(diǎn)(0.04,0.97),對(duì)于正常狀態(tài)的預(yù)測(cè)錯(cuò)誤率為0.04,即4%的錯(cuò)誤率,對(duì)于異常狀態(tài)的預(yù)測(cè)正確率為0.97,即97%的異常狀態(tài)能夠被預(yù)測(cè)出來(lái)。
圖8 隨機(jī)森林分類(lèi)器TrainedRF_Model13(data)預(yù)測(cè)結(jié)果
目前該設(shè)備已經(jīng)開(kāi)展試點(diǎn)應(yīng)用,部分被安裝在北京市新能源汽車(chē)充電樁中,通過(guò)較長(zhǎng)時(shí)間的云上托管運(yùn)維,故障識(shí)別準(zhǔn)確率高于97%,極大降低了運(yùn)維的時(shí)間成本和人力成本。設(shè)備現(xiàn)場(chǎng)安裝調(diào)試如圖9所示。
圖9 設(shè)備現(xiàn)場(chǎng)安裝調(diào)試圖片
本文介紹了采用高速數(shù)據(jù)采集技術(shù)、機(jī)器學(xué)習(xí)技術(shù)對(duì)新能源汽車(chē)充電故障進(jìn)行采集和識(shí)別,實(shí)現(xiàn)故障在線(xiàn)診斷和故障預(yù)測(cè)功能。通過(guò)安裝在充電樁內(nèi)部的故障監(jiān)控系統(tǒng)采集電壓、電流、門(mén)禁、急停等信號(hào),借助IoT技術(shù)上傳到云服務(wù)器,結(jié)合數(shù)據(jù)處理技術(shù),隨機(jī)森林分類(lèi)算法構(gòu)建了一種充電樁在線(xiàn)診斷、故障預(yù)測(cè)的方法,最終實(shí)現(xiàn)智能運(yùn)維。本文同時(shí)介紹了隨機(jī)森林思想以及核心算法、拓?fù)浜陀?xùn)練過(guò)程。分析了訓(xùn)練結(jié)果的均方誤差和訓(xùn)練損耗,對(duì)模型優(yōu)化、提高精度、避免過(guò)度擬合等問(wèn)題進(jìn)行了探索,最后通過(guò)項(xiàng)目實(shí)際應(yīng)用對(duì)比了故障預(yù)測(cè)與真實(shí)情況的誤差,并且得到故障識(shí)別準(zhǔn)確率高于97%的結(jié)論。