楊麗麗,田偉澤,徐媛媛,吳才聰
(中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083)
車輛燃油消耗的研究在車輛使用成本分析,環(huán)境治理等方面具有重要意義[1-2]。影響車輛的燃油消耗的因素大致可以分為四類:車輛行駛工況(加速、減速、發(fā)動機(jī)工況等)、道路狀況、天氣、車輛自身特性[3-6]。
研究表明車輛不同的行駛工況會導(dǎo)致±25%燃油消耗差異[7]。目前在城市交通領(lǐng)域,基于行駛工況進(jìn)行油耗預(yù)測的研究較多。候亞美等[8]基于平均速度、交叉口密度、停駛比等數(shù)據(jù)構(gòu)建了后向反饋(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)模型預(yù)測城市道路出租車油耗。趙曉華等[9]根據(jù)出租車在北京80個快速基礎(chǔ)路段上的平均速度及加速度衍生出16個指標(biāo),經(jīng)過主成分分析,建立了BP神經(jīng)網(wǎng)絡(luò)的城市快速路出租車油耗預(yù)測模型。Xu等[10]基于卡車在125個高速公路和主干道路段內(nèi)的平均行駛速度及加速度,定義了能耗指標(biāo),描述了油耗與速度及加速度之間的動態(tài)關(guān)系。Wickramanayake等[11]根據(jù)上行下行時道路坡度相反的條件,分別構(gòu)建了梯度增強樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)的3種長途公交車油耗預(yù)測模型。張登等[12]根據(jù)多種車身靜態(tài)數(shù)據(jù),包括車型、車長、質(zhì)量、發(fā)動機(jī)最大功率等,建立了適用于多種車型的油耗預(yù)測模型。上述研究基本上是基于結(jié)構(gòu)化道路對油耗與行駛工況的研究,然而無論是靜態(tài)數(shù)據(jù)預(yù)測出的標(biāo)準(zhǔn)油耗還是考慮了實際行駛工況的預(yù)測油耗,因模型中車型或者路況相對確定,都難以直接遷移到農(nóng)機(jī)中。
相比于城市交通領(lǐng)域,車輛燃油消耗在非道路車輛領(lǐng)域特別是農(nóng)用車輛,國內(nèi)外研究較少。隨著中國農(nóng)業(yè)機(jī)械化水平的不斷提高,農(nóng)業(yè)機(jī)械的保有量在不斷的增加,根據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù)顯示2019年中國農(nóng)機(jī)總動力為10.27億kW,總量近2億臺套[13]。農(nóng)業(yè)機(jī)械對化石燃料的消耗也不斷增長。預(yù)估農(nóng)機(jī)工作時的燃油消耗對于環(huán)境治理,農(nóng)機(jī)合作社成本投入,機(jī)手駕駛技術(shù)評價,燃油監(jiān)管等有著十分重要的實際意義[14]。農(nóng)機(jī)工作環(huán)境移動通信網(wǎng)絡(luò)較差,GNSS數(shù)據(jù)回傳不及時,農(nóng)機(jī)轉(zhuǎn)場時田間路況復(fù)雜多變,農(nóng)機(jī)油耗存在和其所從事生產(chǎn)工作類型密不可分的問題。羅紅旗等[15]根據(jù)旋耕深度、旋耕寬幅、車輛前進(jìn)速度3個因素構(gòu)建了回歸方程用于玉米免耕播種機(jī)油耗預(yù)測,但收割作業(yè)相比于播種作業(yè)更加復(fù)雜,收割機(jī)作業(yè)時的發(fā)動機(jī)轉(zhuǎn)速、發(fā)動機(jī)扭矩、加速度、收割機(jī)負(fù)載等因素對燃油消耗均有影響,因此此方法并不適用于收割機(jī)。相比于城市道路車輛,影響農(nóng)業(yè)車輛燃油消耗因素相對復(fù)雜,單純基于速度及加速度的行駛工況不能對車輛燃油消耗進(jìn)行準(zhǔn)確預(yù)測。
本文以2020年沃得4LB-150AA型號谷物聯(lián)合收割機(jī)為研究對象,采集田內(nèi)連續(xù)工作時的收割機(jī)行駛工況數(shù)據(jù)、發(fā)動機(jī)工況數(shù)據(jù),提取出與油耗相關(guān)的特征,基于隨機(jī)森林方法構(gòu)建谷物聯(lián)合收割機(jī)實時作業(yè)油耗預(yù)測模型。試驗結(jié)果表明,模型輸出具有較高準(zhǔn)確率。
農(nóng)機(jī)實際工況下的數(shù)據(jù)采集是基于精準(zhǔn)農(nóng)業(yè)應(yīng)用項目數(shù)據(jù)服務(wù)平臺的2020年22輛谷物聯(lián)合收割機(jī)全年工作數(shù)據(jù),篩選農(nóng)機(jī)型號為沃得半喂入式4LB-150AA型谷物聯(lián)合收割機(jī)的記錄。采樣平均間隔1.3 s,共計130 788條記錄。原始數(shù)據(jù)包括采集自CAN總線的發(fā)動機(jī)轉(zhuǎn)速、發(fā)動機(jī)扭矩、發(fā)動機(jī)機(jī)油壓力、瞬時油耗及同一時間采集自GNSS終端的瞬時速度、經(jīng)度、緯度。
收割機(jī)短時間段內(nèi)的行駛工況數(shù)據(jù)可以更好反映收割機(jī)作業(yè)狀況,因此本文將采集的數(shù)據(jù)按照20~60 s的時間步長進(jìn)行隨機(jī)步長分組,共計320組。根據(jù)瞬時數(shù)據(jù)對農(nóng)機(jī)工況進(jìn)行統(tǒng)計如表1所示。
表1 農(nóng)機(jī)工況統(tǒng)計量 Table 1 Statistics of agricultural machinery conditions
由表1可知,農(nóng)機(jī)工作速度范圍在0~6.0 km/h,數(shù)據(jù)中存在扭矩和油耗為0的值,與數(shù)據(jù)采集時農(nóng)機(jī)正在作業(yè)不相符,因此作為異常值進(jìn)行處理。同時,各項數(shù)據(jù)范圍及單位不統(tǒng)一,建模之前需要對輸入特征進(jìn)行無量綱化處理。本文定義以下數(shù)據(jù)預(yù)處理規(guī)則:
規(guī)則一:通過插值清除扭矩和油耗的異常值,見式(1):
式中l(wèi)t為t時刻的異常值;lt+1為t+1時刻的正常值;lt-1為t-1時刻的正常值。
規(guī)則二:采取標(biāo)準(zhǔn)化對數(shù)據(jù)進(jìn)行無量綱化。將數(shù)據(jù)按均值中心化后,再按照標(biāo)準(zhǔn)差進(jìn)行縮放,使各項數(shù)據(jù)均滿足均值為0,標(biāo)準(zhǔn)差為1,服從正態(tài)分布。見式(2):
式中X′為無量綱化后的特征數(shù)據(jù);X為原始特征數(shù)據(jù);u為該特征均值;σ為該特征的標(biāo)準(zhǔn)差。
為區(qū)分采集原始數(shù)據(jù)集中的收割機(jī)工作省份,根據(jù)車輛工作時的經(jīng)緯度坐標(biāo)采用反向地理編碼計算,得到22輛收割機(jī)數(shù)據(jù)分別來自遼寧、吉林、山東、江蘇、湖北、浙江6個省份,對省份名稱標(biāo)簽數(shù)字化。
影響收割機(jī)燃油消耗的因素眾多,參考國內(nèi)外汽車工況的指標(biāo)選取[16-19],本文基于采集的原始收割機(jī)瞬時工況,衍生出7個與油耗相關(guān)的指標(biāo)。指標(biāo)定義如下所示:
1)平均速度、發(fā)動機(jī)扭矩均值、發(fā)動機(jī)轉(zhuǎn)速均值:
式中Xi分別代表第i秒農(nóng)機(jī)速度(km/h);發(fā)動機(jī)扭矩(N·m)和發(fā)動機(jī)轉(zhuǎn)速(r/min);T為單個組內(nèi)的總時長,s;f(X)表示在Xi取值不同時分別對應(yīng)的平均速度Vmean(km/h)、平均扭矩Nmean(N·m)和平均轉(zhuǎn)速Smean(r/min)。
2)加速度均值,減速度均值:
式中ai+為單個組內(nèi)第i秒車輛加速度,m/s2;Ta+為單個組內(nèi)加速時長,s;a+mean為單個組內(nèi)加速度均值,m/s2;ai+為單個組內(nèi)第i秒車輛減速度,m/s2;Ta-為單個組內(nèi)減速時長,s;a-mean為單個組內(nèi)減速度均值,m/s2。
3)加速度方差,減速度方差:
式中Sa+為單個組內(nèi)加速度方差,m/s2;Sa-為單個組內(nèi)減速度方差,m/s2;其他變量定義同式(4)。
2.1.1 影響因素分析方法
為了找出1.3中所定義的指標(biāo)與收割機(jī)油耗之間的相關(guān)性,并剔除與油耗不相關(guān)的指標(biāo),先進(jìn)行單一指標(biāo)對油耗影響的分析,然后通過斯皮爾曼相關(guān)系數(shù)分析各個指標(biāo)與油耗之間的相關(guān)性。
斯皮爾曼相關(guān)作為一種常見的基于濾波器的特征選擇方法,廣泛的應(yīng)用于度量兩個變量之間的相關(guān)性[20],其計算方法如下所示:
式中rk為第k個指標(biāo)與油耗的相關(guān)系數(shù);n為樣本容量;dkj為第k個指標(biāo)與油耗之間的等級差;j為第k個指標(biāo)中的樣本下標(biāo)。
2.1.2 油耗影響因素分析結(jié)果
1)單一指標(biāo)對油耗的影響
收割機(jī)作業(yè)速度與該速度下對應(yīng)的平均油耗關(guān)系如圖1所示。圖2統(tǒng)計了320組發(fā)動機(jī)工況及行駛工況與該工況下對應(yīng)的油耗。
由圖1可知,當(dāng)收割機(jī)作業(yè)速度在0~2 km/h范圍時,油耗隨著作業(yè)速度的增加增幅相對較小,當(dāng)收割機(jī)作業(yè)速度從2 km/h升至5 km/h時,顯示油耗隨著作業(yè)速度上升急劇上升,車輛行駛時車速與發(fā)動機(jī)功率大致呈現(xiàn)三次方關(guān)系[21],此階段車速增加緩慢但是功率會迅速增大,進(jìn)而導(dǎo)致油耗急速增加。圖中當(dāng)車速大于5 km/h時油耗會隨著車速的增加略微下降,考慮到農(nóng)作物的長勢對收割機(jī)作業(yè)速度的影響較大[22],通常農(nóng)作物長勢稠密、植株高、產(chǎn)量高時收割機(jī)作業(yè)速度在3~5 km/h。收割機(jī)速度在5~6 km/h時,一般對應(yīng)于2檔作業(yè),此時往往在收獲比較干燥、稀疏的農(nóng)作物,這時發(fā)動機(jī)負(fù)荷較低,燃油消耗較低。
由圖2可知,隨著發(fā)動機(jī)轉(zhuǎn)速和發(fā)動機(jī)扭矩的增加,收割機(jī)油耗也會隨之增加,其中扭矩數(shù)據(jù)雖然有一部分的離群點,但是總體上依舊具有較強的相關(guān)性,收割機(jī)在作業(yè)時較大的加速度與減速度也會增加燃油消耗,因此在收割作業(yè)時應(yīng)盡量避免急加速、急減速或者盡量保持勻速作業(yè)會更加有利于節(jié)油降耗。
2) 區(qū)域收割機(jī)田間作業(yè)油耗差異分析
研究表明不同區(qū)域的農(nóng)機(jī)作業(yè)方式及油耗存在較大差異[23-24],根據(jù)中國現(xiàn)有的農(nóng)業(yè)區(qū)劃[25],結(jié)合地形地貌,本文將遼寧、吉林、山東、江蘇、湖北、浙江6個省份劃分為東北地區(qū)(遼寧、吉林)、平原地區(qū)(山東、江蘇,包括華北及長江中下游平原地區(qū)),丘陵地區(qū)(湖北、浙江)三個區(qū)域。數(shù)據(jù)量共計130 788條,其中各省份數(shù)據(jù)均不少于12 000條。參考國家統(tǒng)計局谷物單位面積產(chǎn)量數(shù)據(jù)[26],三個區(qū)域的平均油耗及谷物單位面積產(chǎn)量統(tǒng)計結(jié)果如圖3所示。
從圖3可以看出單位面積產(chǎn)量最高的東北地區(qū)收割機(jī)作業(yè)時平均油耗明顯高于其他兩個地區(qū),隨著單位面積產(chǎn)量的下降,收割機(jī)平均油耗也呈現(xiàn)出下降趨勢。單位面積產(chǎn)量越高,收割機(jī)作業(yè)時發(fā)動機(jī)負(fù)荷越高,進(jìn)而導(dǎo)致油耗偏高。單位面積產(chǎn)量和收割機(jī)平均油耗有一定的相關(guān)性。
3)各指標(biāo)與油耗的相關(guān)性分析
各指標(biāo)與油耗的相關(guān)系數(shù)如表2所示。
表2 指標(biāo)與油耗之間的相關(guān)系數(shù) Table 2 Correlation coefficient between index and fuel consumption
由表2數(shù)據(jù)可以看出本文中所選取的指標(biāo)與油耗顯著相關(guān)(P<0.01),其中發(fā)動機(jī)平均扭矩、平均轉(zhuǎn)速、行駛平均速度與收割機(jī)油耗相關(guān)性較高,相關(guān)系數(shù)在0.6以上。其次是加速度均值、減速度均值、加速度方差、減速度方差這些與行駛工況相關(guān)的指標(biāo),相關(guān)系數(shù)在0.4以上。從相關(guān)系數(shù)的計算結(jié)果中也可以證明結(jié)合發(fā)動機(jī)工況數(shù)據(jù)對于預(yù)測收割機(jī)燃油消耗會更加準(zhǔn)確。
本文基于Python3.7語言和Sklearn0.23.1機(jī)器學(xué)習(xí)庫構(gòu)建了隨機(jī)森林模型,電腦運行內(nèi)存為16G。將表2中的指標(biāo)數(shù)據(jù)作為油耗預(yù)測模型的輸入特征,并將輸入特征及真實油耗y一同進(jìn)行無量綱化處理,將320組數(shù)據(jù)按照8:2的比例分割為256個訓(xùn)練數(shù)據(jù)樣本和64個測試數(shù)據(jù)樣本。為保證預(yù)測模型的準(zhǔn)確性和穩(wěn)定性,對訓(xùn)練集做了10折交叉驗證,采用網(wǎng)格搜索的方法找出模型最優(yōu)參數(shù)。
隨機(jī)森林是典型的集成學(xué)習(xí)算法,裝袋法的代表模型[27-28]。其弱學(xué)習(xí)器為 CART(Classification and Regression Trees)決策樹模型。
決策樹的數(shù)量對油耗預(yù)測精度的影響最大,決策樹數(shù)量太少,預(yù)測誤差會變大,決策樹數(shù)量太多,計算量會劇增,當(dāng)決策樹到達(dá)一定數(shù)量后,預(yù)測精度提升會很少?;陔S機(jī)森林的油耗預(yù)測模型中決策樹的數(shù)量與模型平均絕對誤差及模型訓(xùn)練時長的關(guān)系曲線如圖4所示。
從圖4可以看出當(dāng)決策樹數(shù)量為150后,決策樹數(shù)量繼續(xù)增加,平均絕對誤差曲線趨于平緩,但模型訓(xùn)練時長持續(xù)增加,因此決策樹數(shù)量為150較為合適。
基于隨機(jī)森林的油耗預(yù)測模型結(jié)構(gòu)如圖5所示,通過對256個訓(xùn)練集進(jìn)行有放回的隨機(jī)采樣,構(gòu)建出150個采樣集,每個隨機(jī)采樣集大約包含167個訓(xùn)練樣本,基于150個采樣集構(gòu)建150棵決策樹作為油耗預(yù)測模型的弱學(xué)習(xí)器,決策樹的每個結(jié)點包括n個樣本,進(jìn)行分裂時隨機(jī)選擇k個樣本構(gòu)成一個特征子集X′(對油耗有影響的特征向量),通過特征子集X′進(jìn)行結(jié)點分裂,每個結(jié)點可以分裂為R1(q,s),R2(q,s)兩個新的結(jié)點。其中q為X′中影響油耗的指標(biāo),s為結(jié)點分裂閾值,s的目標(biāo)函數(shù)為
式中yl為第l條記錄的真實油耗,L/h;xl為第l條記錄中影響油耗的特征向量;c1為R1結(jié)點中真實油耗的平均值,L/h;c2為R2結(jié)點中真實油耗的平均值,L/h。回歸決策樹通常會導(dǎo)致偏差較小,方差偏大,使得油耗預(yù)測模型在訓(xùn)練集上產(chǎn)生過擬合現(xiàn)象,所以需要對建好的決策樹稍加控制。本文采用較為常見的控制策略,對樹的深度h、每個結(jié)點包含的最少樣本數(shù)N、分裂一個結(jié)點需要的最小樣本數(shù)m加以限制,通過網(wǎng)格搜索的方法找出h為21,N為2,m為2,相比于不加控制,油耗預(yù)測誤差降低了0.01。隨后對150棵決策樹的油耗預(yù)測結(jié)果求解算術(shù)平均值作為最終預(yù)測結(jié)果。
支撐向量機(jī)作為一種有監(jiān)督的學(xué)習(xí)方法,在油耗預(yù)測研究中有較多應(yīng)用,并且有較高的預(yù)測精度[29-31],因此為驗證通過發(fā)動機(jī)工況數(shù)據(jù)及行駛工況數(shù)據(jù)構(gòu)建基于隨機(jī)森林的油耗預(yù)測模型的高效性,本文將基于支撐向量機(jī)的油耗預(yù)測模型[29-31]作為對比方案進(jìn)行參考。
為了評價2種模型對油耗的預(yù)測準(zhǔn)確性,本文比較了3種指標(biāo),分別為均方根誤差RMSE、平均絕對誤差MAE、決定系數(shù)R2,3種評價指標(biāo)計算方式如下所示
式中yu′為測試樣本中第u個預(yù)測油耗,L/h;yu為測試樣本中第u個真實油耗,L/h;n為樣本數(shù)量;為真實油耗的平均值,L/h。
兩種模型的油耗預(yù)測輸出與真實油耗關(guān)系如圖6所示。其中A+B類型的點表示使用表2中全部指標(biāo)進(jìn)行油耗預(yù)測時模型的預(yù)測輸出,A類型的點表示單獨使用表2中A類指標(biāo)對油耗進(jìn)行預(yù)測時模型的預(yù)測輸出,從圖6可以看出加入發(fā)動機(jī)工況(B類)數(shù)據(jù)后,兩種模型的油耗預(yù)測值與真實值的數(shù)值相似,并且要比單獨使用A類數(shù)據(jù)進(jìn)行油耗預(yù)測誤差更小。模型的3種指標(biāo)計算結(jié)果如表3所示。
表3 基于不同模型和指標(biāo)評估結(jié)果 Table 3 Results for model evaluation based on different models and indices
從表3中可以看出,支撐向量機(jī)和隨機(jī)森林兩種油耗預(yù)測模型在加入發(fā)動機(jī)工況數(shù)據(jù)訓(xùn)練后,3種評價指標(biāo)的數(shù)值均明顯變優(yōu),均方根誤差分別為0.15和0.14 L/h,平均絕對誤差分別為0.25和0.24 L/h,R2均大于0.5,R2最大值為0.84,說明兩種模型均可以準(zhǔn)確預(yù)測收割機(jī)燃油消耗,但基于隨機(jī)森林的油耗預(yù)測模型無論是否使用發(fā)動機(jī)工況數(shù)據(jù)油耗預(yù)測誤差均是最小的。
本文根據(jù)谷物聯(lián)合收割機(jī)作業(yè)時的行駛工況數(shù)據(jù)及發(fā)動機(jī)工況數(shù)據(jù),確定了與油耗相關(guān)的7個關(guān)鍵指標(biāo),基于斯皮爾曼相關(guān)系數(shù)分析了各個指標(biāo)與油耗的相關(guān)性,其中平均轉(zhuǎn)速、平均扭矩、平均速度與油耗的相關(guān)性較高,其次是加速度均值、減速度均值、加速度方差、減速度方差。通過大量數(shù)據(jù)的統(tǒng)計分析發(fā)現(xiàn)不同區(qū)域收割機(jī)作業(yè)的燃油消耗存在差異,并且和區(qū)域單位面積產(chǎn)量相關(guān)性較高。
本文選取7個指標(biāo)并結(jié)合省份信息構(gòu)建基于隨機(jī)森林的油耗預(yù)測模型,并與支撐向量機(jī)模型進(jìn)行對比。結(jié)果表明,兩種模型均能夠準(zhǔn)確的預(yù)測燃油消耗,但基于隨機(jī)森林的油耗模型預(yù)測誤差更小,均方根誤差為0.14 L/h。
本文以谷物聯(lián)合收割機(jī)油耗為研究對象,在未來研究中,會考慮更多類型的農(nóng)業(yè)機(jī)械,并將綜合考慮多種地形、多種天氣下的油耗,為農(nóng)機(jī)的工況優(yōu)化及精準(zhǔn)油耗監(jiān)管提供參考。