• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于因果分析和相似日選擇的共享單車(chē)需求量預(yù)測(cè)組合模型

      2021-04-16 06:44:58徐長(zhǎng)興汪偉平昌錫銘包旭吳建軍
      山東科學(xué) 2021年2期
      關(guān)鍵詞:格蘭杰需求量關(guān)聯(lián)度

      徐長(zhǎng)興,汪偉平*,昌錫銘,包旭,吳建軍

      (1.北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100044;2.淮陰工學(xué)院 交通工程學(xué)院,江蘇 淮安 223000)

      無(wú)樁式共享單車(chē)是在共享經(jīng)濟(jì)和物聯(lián)網(wǎng)等技術(shù)浪潮下產(chǎn)生的一種新的慢行交通模式,是城市公共自行車(chē)系統(tǒng)的重要組成部分[1]。共享單車(chē)取消了傳統(tǒng)公共自行車(chē)固定的停車(chē)樁,解決了因停車(chē)樁數(shù)量少而造成的“還車(chē)難”等問(wèn)題。共享單車(chē)的出現(xiàn)在有效解決城市居民出行“最后一公里”問(wèn)題的同時(shí),也對(duì)減少大氣污染和緩解城市交通擁堵等起到了積極作用。

      雖然目前無(wú)樁式共享單車(chē)呈現(xiàn)出良好的發(fā)展態(tài)勢(shì),但是在特定時(shí)間段的某些區(qū)域仍存在借還車(chē)次不平衡、車(chē)輛投放數(shù)量不合理、車(chē)輛調(diào)度不及時(shí)等問(wèn)題。人們出行特征的時(shí)空非均衡性,特別是早晚高峰客流的潮汐現(xiàn)象導(dǎo)致了共享單車(chē)系統(tǒng)在時(shí)空上分布的不均衡[2]。區(qū)域內(nèi)單車(chē)需求大于供給,會(huì)導(dǎo)致無(wú)車(chē)可借,產(chǎn)生“借車(chē)難”等問(wèn)題,反之會(huì)導(dǎo)致大量單車(chē)無(wú)人使用而長(zhǎng)時(shí)間閑置,占用公共空間。

      高效及時(shí)的單車(chē)調(diào)度是單車(chē)系統(tǒng)時(shí)空分布再平衡的重要途徑,而準(zhǔn)確的短時(shí)出行需求預(yù)測(cè)是單車(chē)科學(xué)調(diào)度的基礎(chǔ)。若采取人工巡查的方式或者監(jiān)測(cè)平臺(tái)利用GPS定位監(jiān)控到不平衡之后再派卡車(chē)執(zhí)行單車(chē)的調(diào)配,缺乏對(duì)未來(lái)需求量的預(yù)判,會(huì)造成嚴(yán)重的滯后和效率低下[3]。因此,準(zhǔn)確地預(yù)測(cè)區(qū)域內(nèi)各時(shí)段的需求量是進(jìn)行車(chē)輛調(diào)度和共享單車(chē)系統(tǒng)布局優(yōu)化的基礎(chǔ),也是提高企業(yè)服務(wù)質(zhì)量和用戶體驗(yàn)的關(guān)鍵環(huán)節(jié)。

      從預(yù)測(cè)模型發(fā)展角度,共享單車(chē)的需求預(yù)測(cè)方法可以分為傳統(tǒng)的統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)兩大類(lèi)。統(tǒng)計(jì)學(xué)方法如差分整合移動(dòng)平均自回歸模型(autoregressive integrated moving average model,ARIMA)、多元回歸分析、馬爾可夫鏈[4]等傳統(tǒng)統(tǒng)計(jì)推斷模型,是最早被應(yīng)用到共享單車(chē)需求預(yù)測(cè)的一類(lèi)方法。Kaltenbrunner等[5]基于巴塞羅那社區(qū)自行車(chē)項(xiàng)目某站點(diǎn)的數(shù)據(jù),運(yùn)用ARIMA模型,對(duì)可用自行車(chē)的數(shù)量進(jìn)行了預(yù)測(cè)。閆廈[6]根據(jù)單車(chē)需求量的時(shí)序性,建立了考慮季節(jié)周期的ARIMA模型,該模型可以刻畫(huà)出行需求的周期性和趨勢(shì)性。盡管ARIMA等統(tǒng)計(jì)推斷模型在時(shí)間序列建模中顯示出一定的有效性,但是無(wú)法刻畫(huà)需求量與各影響因素之間的時(shí)空依賴性等復(fù)雜非線性關(guān)系。而且,實(shí)際應(yīng)用中數(shù)據(jù)的噪聲會(huì)降低參數(shù)估計(jì)的可靠性,因而預(yù)測(cè)效果不是特別理想。近年來(lái),隨著海量出行數(shù)據(jù)的積累和計(jì)算能力的提高,利用機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)交通系統(tǒng)的動(dòng)態(tài)特性逐漸成為一個(gè)研究熱點(diǎn)。支持向量回歸(support vector regression, SVR)、隨機(jī)森林(random forest, RF)和神經(jīng)網(wǎng)絡(luò)(neural networks, NN)的模型已廣泛用于共享單車(chē)的短時(shí)需求預(yù)測(cè)。根據(jù)無(wú)樁式共享單車(chē)需求量的時(shí)間序列特征,孔靜[3]建立了基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法模型,由于缺乏對(duì)天氣、位置等外部影響因素的建模,預(yù)測(cè)效果并不理想。機(jī)器學(xué)習(xí)算法能夠綜合考慮出行需求的時(shí)間序列特征和外部影響因素。研究表明影響單車(chē)需求量的外部因素主要包括天氣因素(溫度、降水量、風(fēng)速等)[7]和位置因素[8],此外還受到人口統(tǒng)計(jì)特征、建筑環(huán)境特征[9]和交通事件等[10]因素的影響。種穎珊等[11]基于2015年美國(guó)灣區(qū)70號(hào)站點(diǎn)的自行車(chē)需求量數(shù)據(jù),研究了時(shí)間因子、氣象因子以及關(guān)聯(lián)站點(diǎn)對(duì)需求量的影響,建立了基于隨機(jī)森林與時(shí)空聚類(lèi)的模型,實(shí)現(xiàn)了對(duì)有樁自行車(chē)需求量的預(yù)測(cè)。Li等[12]提出了一種分層預(yù)測(cè)模型,運(yùn)用二分聚類(lèi)算法和漸變?cè)鰪?qiáng)回歸樹(shù)模型來(lái)預(yù)測(cè)站點(diǎn)的借還車(chē)數(shù)量。

      盡管機(jī)器學(xué)習(xí)算法可以有效地對(duì)共享單車(chē)短時(shí)出行需求的時(shí)間趨勢(shì)進(jìn)行識(shí)別和預(yù)測(cè),但是很多機(jī)器學(xué)習(xí)算法都是黑箱模型,無(wú)法刻畫(huà)需求量與影響因素之間的關(guān)系,從而使得預(yù)測(cè)結(jié)果的可解釋性較低。在實(shí)際建模中,由于數(shù)據(jù)噪聲、數(shù)據(jù)量小等原因,單個(gè)機(jī)器學(xué)習(xí)算法的預(yù)測(cè)性能往往不高,對(duì)于不同預(yù)測(cè)任務(wù)的泛化性能差[13]。集成學(xué)習(xí)通過(guò)構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),可獲得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能。Stacking策略是一種典型的集成學(xué)習(xí)方法[14],將初級(jí)學(xué)習(xí)器的輸出作為次級(jí)學(xué)習(xí)器的輸入,從而實(shí)現(xiàn)融合多個(gè)學(xué)習(xí)器的預(yù)測(cè)結(jié)果。相較于對(duì)弱學(xué)習(xí)器的結(jié)果做平均或者投票等簡(jiǎn)單的邏輯處理,Stacking策略能夠結(jié)合多個(gè)模型的優(yōu)點(diǎn),降低泛化誤差,提升預(yù)測(cè)的準(zhǔn)確性。作為刻畫(huà)兩變量之間因果關(guān)系的分析模型之一,格蘭杰因果關(guān)系模型可以刻畫(huà)共享單車(chē)的出行需求與天氣指標(biāo)之間的因果關(guān)系?;疑P(guān)聯(lián)分析通過(guò)關(guān)聯(lián)度指標(biāo),可以對(duì)共享單車(chē)系統(tǒng)中不同日期之間的相似程度進(jìn)行量化分析。

      因此,本文基于北京市共享單車(chē)用戶的騎行數(shù)據(jù)和天氣數(shù)據(jù),將研究區(qū)域劃分為若干網(wǎng)格單元,提出了一種基于Stacking策略的共享單車(chē)需求組合預(yù)測(cè)模型,構(gòu)建了以神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林回歸、支持向量回歸等算法為基模型的不確定性集成模型。該框架通過(guò)將多個(gè)學(xué)習(xí)器進(jìn)行結(jié)合,在無(wú)樁式共享單車(chē)分區(qū)域的短時(shí)需求量預(yù)測(cè)任務(wù)中可獲得比單一學(xué)習(xí)器顯著優(yōu)越的準(zhǔn)確性和泛化性能。本文的貢獻(xiàn)在于:一是將格蘭杰因果檢驗(yàn)方法應(yīng)用到篩選影響單車(chē)需求量的天氣指標(biāo)中,相較傳統(tǒng)的僅僅依靠皮爾遜相關(guān)系數(shù)等相關(guān)性指標(biāo),更加合理;二是充分考慮了待預(yù)測(cè)日各時(shí)段與歷史日的天氣特征向量間的相似性,采用灰色關(guān)聯(lián)度指標(biāo),篩選出具有高度相似性的相似日樣本集,該方法可以對(duì)訓(xùn)練樣本進(jìn)行有效約簡(jiǎn),減少了模型的訓(xùn)練時(shí)間;三是基于神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林回歸、支持向量回歸等算法建立組合預(yù)測(cè)模型,提高了單車(chē)需求量預(yù)測(cè)模型的預(yù)測(cè)精度和泛化性能。

      1 數(shù)據(jù)來(lái)源和影響因子分析

      1.1 數(shù)據(jù)來(lái)源

      同一區(qū)域有多個(gè)品牌的共享單車(chē),目前各個(gè)單車(chē)運(yùn)營(yíng)企業(yè)的車(chē)輛調(diào)度工作環(huán)節(jié)是相互獨(dú)立的,因此需要針對(duì)各個(gè)品牌共享單車(chē)的需求量分別進(jìn)行預(yù)測(cè)??紤]到市場(chǎng)份額、用戶黏性等因素,本文選用北京市摩拜單車(chē)用戶騎行數(shù)據(jù)進(jìn)行研究,時(shí)間范圍是2017年5月10日—31日。北京市是全國(guó)共享單車(chē)投放數(shù)量最多的城市之一,摩拜單車(chē)在共享單車(chē)投放總量中占比最大。因此選擇北京市摩拜單車(chē)用戶騎行數(shù)據(jù)來(lái)研究共享單車(chē)的需求預(yù)測(cè)問(wèn)題,具有一定的典型性和代表性。通過(guò)對(duì)單車(chē)空間分布的初步研究,發(fā)現(xiàn)北京城郊區(qū)的單車(chē)密度較低,而四環(huán)內(nèi)單車(chē)投放密度、出行需求較大,因此選取該區(qū)域作為研究對(duì)象。研究區(qū)域的具體位置為東經(jīng)116.278°—116.499°,北緯39.836°—39.997°。主要的字段名稱(chēng)和描述統(tǒng)計(jì)見(jiàn)表1。

      表1 字段描述

      氣象數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù)主要從國(guó)家氣象科學(xué)數(shù)據(jù)中心和相關(guān)天氣網(wǎng)站(http://rp5.ru)(2017年5月10日—31日)收集得到。獲得的數(shù)據(jù)包括地面2 m處的溫度和相對(duì)濕度、氣象站水平的大氣壓、地面高度10 m處的風(fēng)速、水平能見(jiàn)度等。將下雨、霧霾、大風(fēng)、晴天四類(lèi)天氣事件分別賦值為0、1、2、3。對(duì)于殘缺的數(shù)據(jù),采用線性插值法進(jìn)行補(bǔ)全數(shù)據(jù)。表2匯總了所考慮變量的描述統(tǒng)計(jì)量。

      表2 天氣指標(biāo)的描述性統(tǒng)計(jì)分析

      1.2 影響因素分析

      1.2.1 時(shí)間因素的影響

      1.2.2 天氣因素的影響

      共享單車(chē)相比于地鐵、公交等更容易受到天氣、空氣質(zhì)量等因素的影響。通過(guò)計(jì)算各天氣指標(biāo)與需求量的皮爾遜相關(guān)系數(shù)可知,需求量與溫度、風(fēng)速、能見(jiàn)度、露點(diǎn)、云量、天氣事件、PM2.5的皮爾遜相關(guān)系數(shù)分別為0.38、0.21、0.07、0.03、0.09、0.11、0.07,均大于0,因此呈正相關(guān)關(guān)系;需求量與氣壓、濕度、降水量的皮爾遜相關(guān)系數(shù)分別為-0.22、-0.26、-0.04,因此呈負(fù)相關(guān)關(guān)系。通過(guò)對(duì)天氣數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)不同日期的天氣狀況差異較大。本文采用的數(shù)據(jù)中包含了下雨、霧霾、大風(fēng)、晴天等常見(jiàn)的天氣狀況,因此具有一定的代表性和典型性。

      2 出行需求預(yù)測(cè)模型

      2.1 基于因果檢驗(yàn)的天氣指標(biāo)選擇

      天氣因素是影響需求量的一個(gè)重要因素,然而刻畫(huà)天氣因素的指標(biāo)有很多,如何科學(xué)地選取指標(biāo)對(duì)提高預(yù)測(cè)模型的準(zhǔn)確度至關(guān)重要。有學(xué)者從相關(guān)性的角度出發(fā),借助皮爾遜相關(guān)系數(shù)等選取與出行需求相關(guān)性較大的天氣指標(biāo)。然而辛普森悖論的存在證明了相關(guān)性的不足,該悖論證明存在隨機(jī)變量X和變量Y在邊緣上正相關(guān),但是給定另外一個(gè)變量Z后,在Z的每一個(gè)水平上,X和Y都具有負(fù)相關(guān)的可能性[15]。因此僅僅依靠皮爾遜相關(guān)系數(shù)等相關(guān)性指標(biāo)去篩選天氣指標(biāo)顯然是不合適的。如何從數(shù)據(jù)中發(fā)現(xiàn)其蘊(yùn)藏的內(nèi)在因果關(guān)系,是近年來(lái)數(shù)據(jù)科學(xué)研究領(lǐng)域的熱點(diǎn)之一。因此,共享單車(chē)的出行需求與天氣指標(biāo)之間的因果關(guān)系及其背后的因果機(jī)制需要進(jìn)一步挖掘。

      格蘭杰因果關(guān)系模型是由諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主格蘭杰于1969年首次提出的一種刻畫(huà)二變量之間因果關(guān)系的分析模型,是數(shù)據(jù)科學(xué)、金融分析、醫(yī)學(xué)等領(lǐng)域挖掘數(shù)據(jù)間內(nèi)在因果關(guān)系的重要工具。其基本思想是:若序列X有助于解釋序列Y的未來(lái)變化趨勢(shì),即在序列Y關(guān)于自身歷史信息的回歸模型中,添加X(jué)的歷史信息會(huì)顯著地提升回歸模型的解釋能力,那么序列X是序列Y的格蘭杰原因[16]。另外,為了避免非平穩(wěn)序列帶來(lái)的虛假因果,必須保證檢驗(yàn)的序列是平穩(wěn)的。

      檢驗(yàn)天氣指標(biāo)X是否為引起需求量Y變化的格蘭杰原因的步驟如下。

      首先,建立如下兩個(gè)向量自回歸模型:

      (1)

      (2)

      式中:α0表示常數(shù)項(xiàng);αi和βi是模型的系數(shù);p和q分別為變量需求量Y和天氣指標(biāo)X的最大滯后期數(shù),可以采用赤池信息準(zhǔn)則(Akaike information criterion,AIC)進(jìn)行確定;εt為白噪聲。若天氣指標(biāo)X不是引起需求量Y變化的格蘭杰原因,則自回歸模型中系數(shù)βi應(yīng)該為0,因此檢驗(yàn)的原假設(shè)設(shè)定為H0:β1=β2=…=βq=0。采用的檢驗(yàn)統(tǒng)計(jì)量分別為兩個(gè)自回歸模型,即公式(1)和(2)的殘差平方和R1和R2構(gòu)造的F統(tǒng)計(jì)量。

      (3)

      式中,R1、R2分別為公式(1)和公式(2)的殘差平方和,n為樣本容量。如果滿足F>Fα(q,n-p-q-1),表明天氣指標(biāo)X和需求量Y存在統(tǒng)計(jì)意義下的格蘭杰因果關(guān)系,即天氣指標(biāo)X有助于預(yù)測(cè)需求量Y。

      2.2 基于灰色關(guān)聯(lián)分析的相似日確定

      當(dāng)前的需求量預(yù)測(cè)模型往往會(huì)選擇與待預(yù)測(cè)日相鄰的歷史數(shù)據(jù)或者依據(jù)人工經(jīng)驗(yàn)選取的相似日作為輸入,具有一定的盲目性和不合理性。預(yù)測(cè)的效果往往不理想,尤其是待預(yù)測(cè)日的天氣狀況與前若干天差別較大時(shí),需求量會(huì)發(fā)生明顯的波動(dòng)變化。因此,為了提高需求量的預(yù)測(cè)精度,合理有效地選取預(yù)測(cè)相似日非常重要[17]。

      通過(guò)計(jì)算待預(yù)測(cè)時(shí)段與歷史時(shí)段的灰色關(guān)聯(lián)度指標(biāo),確定與待預(yù)測(cè)日各時(shí)段相似程度最高且日期屬性(工作日或非工作日)相同的樣本集數(shù)據(jù)。相似日的灰色關(guān)聯(lián)度指標(biāo)計(jì)算步驟如下。

      首先選取溫度、風(fēng)速等m個(gè)通過(guò)格蘭杰因果檢驗(yàn)的天氣因素構(gòu)建因素矩陣,則第i時(shí)段樣本的天氣特征向量和待預(yù)測(cè)時(shí)段的天氣特征向量可以表示為:

      Xi=[xi1,xi2,…,xim],i=1,2,…,N,

      (4)

      X0=[x01,x02,…,x0m],

      (5)

      式中,N為歷史同時(shí)段樣本總數(shù),xim為第i個(gè)樣本的第m個(gè)天氣因素值,x0m為待預(yù)測(cè)時(shí)段特征向量的第m個(gè)影響因素值。經(jīng)過(guò)無(wú)量綱化后得到灰色關(guān)聯(lián)判斷矩陣,將相同日期屬性的天氣特征向量作為比較序列,然后計(jì)算每個(gè)比較序列與待預(yù)測(cè)參考序列對(duì)應(yīng)元素的關(guān)聯(lián)系數(shù)ρik,計(jì)算關(guān)聯(lián)系數(shù)的表達(dá)式為:

      (6)

      式中,分辨系數(shù)p∈[0,1],分辨系數(shù)p值越大,計(jì)算出的關(guān)聯(lián)系數(shù)方差越小,區(qū)分能力越弱。本文的p值取0.5,并且將比較序列與待預(yù)測(cè)時(shí)段參考序列對(duì)應(yīng)元素關(guān)聯(lián)系數(shù)的均值作為關(guān)聯(lián)度指標(biāo)。關(guān)聯(lián)度指標(biāo)可以反映各歷史時(shí)間段與待預(yù)測(cè)時(shí)段參考序列的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)度指標(biāo)的計(jì)算公式為:

      (7)

      依據(jù)關(guān)聯(lián)度指標(biāo)ri,選取與待預(yù)測(cè)日各時(shí)段關(guān)聯(lián)度較大的時(shí)段數(shù)據(jù)作為預(yù)測(cè)模型的輸入。

      2.3 基于Stacking策略的機(jī)器學(xué)習(xí)組合預(yù)測(cè)模型

      Stacking策略是一種典型的集成學(xué)習(xí)方法,能夠綜合各單一模型的特點(diǎn)而具有一定的優(yōu)越性。Stacking策略的原理如圖2所示。在初始訓(xùn)練集上訓(xùn)練得到初級(jí)學(xué)習(xí)器的預(yù)測(cè)值,然后在包含初級(jí)學(xué)習(xí)器預(yù)測(cè)值的新數(shù)據(jù)集中訓(xùn)練次級(jí)學(xué)習(xí)器,最后將次級(jí)學(xué)習(xí)器的結(jié)果輸出作為最終的預(yù)測(cè)結(jié)果。相較于對(duì)弱學(xué)習(xí)器的結(jié)果做平均或者投票等簡(jiǎn)單的邏輯處理,Stacking策略是通過(guò)訓(xùn)練一個(gè)次級(jí)學(xué)習(xí)器將初級(jí)弱學(xué)習(xí)器組合起來(lái),從而能夠降低泛化誤差,提升預(yù)測(cè)的準(zhǔn)確性。

      圖2 Stacking策略的原理Fig.2 The principle of Stacking strategy

      Stacking策略中初級(jí)弱學(xué)習(xí)器的預(yù)測(cè)性能對(duì)最終輸出結(jié)果的準(zhǔn)確性有著重要的影響,按照多樣性和準(zhǔn)確性的原則,本文選取支持向量回歸(SVR)、隨機(jī)森林回歸(RF)、神經(jīng)網(wǎng)絡(luò)(NN)和多元線性回歸(multiple linear regression, MLR)作為第一層的初級(jí)學(xué)習(xí)器,在初始訓(xùn)練集上訓(xùn)練得到初級(jí)學(xué)習(xí)器的預(yù)測(cè)值。常見(jiàn)的次級(jí)學(xué)習(xí)器有多元線性回歸模型和擬合優(yōu)度法。擬合優(yōu)度法根據(jù)模型的均方誤差(RMSE)的大小來(lái)確定各模型的權(quán)重系數(shù)。模型的權(quán)重計(jì)算方式如下:

      (8)

      式中,M為初級(jí)學(xué)習(xí)器的個(gè)數(shù)。本文提出的Stacking框架集成了多種不同的算法,而且利用灰色關(guān)聯(lián)度對(duì)每個(gè)初級(jí)學(xué)習(xí)器的輸入特征集進(jìn)行了優(yōu)化,可獲得比單一學(xué)習(xí)器顯著優(yōu)越的預(yù)測(cè)精度和泛化性能。

      2.4 共享單車(chē)出行需求組合預(yù)測(cè)模型

      綜上所述,本文提出了基于因果檢驗(yàn)和灰色關(guān)聯(lián)分析的需求量組合預(yù)測(cè)模型,模型結(jié)構(gòu)如圖3所示。模型算法的步驟如下:

      (1)對(duì)天氣指標(biāo)和共享單車(chē)需求量進(jìn)行因果關(guān)系檢驗(yàn)。在特征選擇環(huán)節(jié),采用2.1節(jié)中的格蘭杰因果檢驗(yàn)方法,對(duì)影響單車(chē)需求量的天氣指標(biāo)進(jìn)行格蘭杰因果檢驗(yàn),篩選出通過(guò)檢驗(yàn)的天氣指標(biāo),然后對(duì)歷史樣本集進(jìn)行相似日選取。

      (2)基于篩選出的天氣指標(biāo),采用灰色關(guān)聯(lián)分析法來(lái)得到與待預(yù)測(cè)日各時(shí)段相似程度最高且日期屬性相同的相似日,形成具有高度相似性的相似日樣本集。

      (3)在基于Stacking策略的組合模型中,將與待預(yù)測(cè)日各時(shí)段灰色關(guān)聯(lián)度最高的若干相似日的需求量作為輸入數(shù)據(jù)。組合預(yù)測(cè)模型可以選取支持向量回歸、隨機(jī)森林回歸、神經(jīng)網(wǎng)絡(luò)和多元線性回歸等作為第一層的初級(jí)學(xué)習(xí)器。Stacking 框架集成了多種不同的算法,能夠綜合各單一模型所具有的特點(diǎn)而具有一定的優(yōu)越性。該框架利用灰色關(guān)聯(lián)度對(duì)每個(gè)初級(jí)學(xué)習(xí)器的輸入進(jìn)行了優(yōu)化,提高了初級(jí)學(xué)習(xí)器的預(yù)測(cè)性能。

      圖3 預(yù)測(cè)模型框架圖Fig.3 Predictive model framework

      對(duì)于評(píng)估預(yù)測(cè)方法效果的指標(biāo),采用均方誤差(RMSE)、均方根誤差(RRMSE)、平均絕對(duì)誤差(RMAE)和平均絕對(duì)百分比誤差(RMAPE)來(lái)衡量預(yù)測(cè)值與真實(shí)值之間的偏差,其計(jì)算公式如下:

      (9)

      (10)

      (11)

      (12)

      3 實(shí)例分析

      本文采用北京市2017年5月10日—31日的共計(jì)3 214 096條共享單車(chē)出行數(shù)據(jù),對(duì)提出的組合模型進(jìn)行驗(yàn)證,其中70%的數(shù)據(jù)為訓(xùn)練集。為了考察共享單車(chē)出行需求的空間特性,本文將原始數(shù)據(jù)根據(jù)位置信息進(jìn)行網(wǎng)格化處理,即將網(wǎng)格單元作為需求量預(yù)測(cè)模型的基本空間單位。將研究區(qū)域劃分成了1482個(gè)邊長(zhǎng)為500 m的正方形網(wǎng)格單元。

      3.1 需求的空間特性

      共享單車(chē)的出行需求受地理位置的影響,同一時(shí)間不同區(qū)域的需求量是不同的。共享單車(chē)在某工作日的出行需求的空間分布特征如圖4(a)所示。網(wǎng)格單元的顏色越深,表示該區(qū)域需求量越大。同一時(shí)間,不同區(qū)域的需求量差異較大,共享單車(chē)的出行需求具有時(shí)空性。圖4(b)是共享單車(chē)需求量分布的直方圖,網(wǎng)格單元中共享單車(chē)一天的需求量集中在40~100,不同網(wǎng)格區(qū)域內(nèi)出行需求量差異較大。

      圖4 共享單車(chē)出行需求量的分布Fig.4 Distribution of demand for shared bikes

      根據(jù)騰訊企鵝情報(bào)對(duì)中國(guó)共享單車(chē)發(fā)展情況的調(diào)查,62.90%的客戶通常在最后一公里使用共享單車(chē)[18]?;谡鎸?shí)的共享單車(chē)出行數(shù)據(jù)分析,單次騎行距離的分布如圖5所示,90%的騎行距離小于1244 m,說(shuō)明了共享單車(chē)主要用于短途出行,是解決“最后一公里”的主要出行方式。

      圖5 共享單車(chē)出行距離分布Fig.5 Distribution of shared bike travel distance

      3.2 相似日確定

      在對(duì)天氣指標(biāo)格進(jìn)行格蘭杰因果檢驗(yàn)之前,采用單位根方法進(jìn)行平穩(wěn)性檢驗(yàn)。對(duì)于非平穩(wěn)序列,進(jìn)行差分化處理,直到通過(guò)平穩(wěn)性檢驗(yàn)。表3中是在顯著性水平α=0.1下,最終通過(guò)格蘭杰因果檢驗(yàn)的指標(biāo)。

      表3 因果分析結(jié)果

      檢驗(yàn)的結(jié)果表明,溫度、風(fēng)速、濕度和氣壓4個(gè)天氣指標(biāo)與共享單車(chē)出行需求存在統(tǒng)計(jì)意義下的格蘭杰 因果關(guān)系,即有助于預(yù)測(cè)共享單車(chē)出行需求量。利用已通過(guò)格蘭杰因果檢驗(yàn)的天氣指標(biāo)數(shù)據(jù),計(jì)算待預(yù)測(cè)日各時(shí)段與歷史數(shù)據(jù)之間的灰色關(guān)聯(lián)度,通過(guò)灰色關(guān)聯(lián)度的大小來(lái)選取待預(yù)測(cè)日各時(shí)段的相似日訓(xùn)練集。圖6是采樣時(shí)刻為5月31日8時(shí)與前14個(gè)工作日8時(shí)的樣本集之間的灰色關(guān)聯(lián)度。可以看出,與5月31日8時(shí)關(guān)聯(lián)度最大的是5月23日8時(shí)的數(shù)據(jù),灰色關(guān)聯(lián)度達(dá)到0.946。關(guān)聯(lián)度最小的是5月25日同時(shí)期的數(shù)據(jù),僅為0.66。本文依據(jù)關(guān)聯(lián)度指標(biāo),各預(yù)測(cè)時(shí)段分別選取5個(gè)相似日的歷史數(shù)據(jù)作為預(yù)測(cè)模型的輸入。

      圖6 相似日的灰色關(guān)聯(lián)度Fig.6 Gray relevance of similar days

      3.3 模型預(yù)測(cè)精度分析

      初級(jí)學(xué)習(xí)器和次級(jí)學(xué)習(xí)器的選擇對(duì)組合模型的預(yù)測(cè)精度有著重要影響。本文首先比較了不同組合策略下模型的預(yù)測(cè)精度。

      為了比較不同組合策略的預(yù)測(cè)精度,確定最優(yōu)組合模型的結(jié)構(gòu),本文運(yùn)用多種組合策略,分別建立需求量預(yù)測(cè)模型。如表4所示,不同組合策略下的模型預(yù)測(cè)精度差異較大。策略2采用隨機(jī)森林和支持向量回歸作為初級(jí)學(xué)習(xí)器,策略3在策略2的基礎(chǔ)上,初級(jí)學(xué)習(xí)器將隨機(jī)森林變?yōu)榱松窠?jīng)網(wǎng)絡(luò),并新增了線性回歸模型。相較策略2,由于初級(jí)學(xué)習(xí)器的不同,策略3的RMSE下降了20.1%。策略4的初級(jí)學(xué)習(xí)器與策略3相同,但是次級(jí)學(xué)習(xí)器采用擬合優(yōu)度法。相較策略4,由于次級(jí)學(xué)習(xí)器的不同,策略3的RMSE下降了28%。初級(jí)學(xué)習(xí)器的預(yù)測(cè)精度對(duì)組合模型的預(yù)測(cè)精度有著重要影響。若初級(jí)學(xué)習(xí)器預(yù)測(cè)性能較差,可能會(huì)造成組合模型的預(yù)測(cè)精度降低。如相較策略3,策略9新增了隨機(jī)森林作為初級(jí)學(xué)習(xí)器,但是策略9的RMSE反而增加了6%。說(shuō)明組合模型的預(yù)測(cè)精度與學(xué)習(xí)器的個(gè)數(shù)沒(méi)有必然聯(lián)系,需要深入探究不同學(xué)習(xí)器的組合策略。由于組合策略3的預(yù)測(cè)誤差最小,因此本文采用的最優(yōu)組合模型以神經(jīng)網(wǎng)絡(luò)、線性回歸和支持向量回歸為初級(jí)學(xué)習(xí)器,線性回歸為次級(jí)學(xué)習(xí)器。

      表4 組合模型的預(yù)測(cè)精度

      為了驗(yàn)證相似日選擇方法的有效性,本文按照是否采取基于相似日選取的方法,將模型訓(xùn)練輸入分為樣本集1和樣本集2。除了ARIMA模型以外,其余機(jī)器學(xué)習(xí)算法均是選取的與待預(yù)測(cè)日相同日期屬性的樣本集。樣本集1是基于待預(yù)測(cè)日相鄰前5 d的歷史數(shù)據(jù),樣本集2是基于本文提出的相似日方法選取的關(guān)聯(lián)度最大的5 d歷史數(shù)據(jù)。不同樣本輸入下的模型預(yù)測(cè)精度如表5所示??梢钥闯?,相較樣本集1,采用樣本集2作為輸入,隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、多元線性回歸、支持向量回歸的預(yù)測(cè)誤差都明顯降低,說(shuō)明采用本文提出的相似日選取方法可以顯著提高傳統(tǒng)模型的預(yù)測(cè)精度。另外,相較初級(jí)學(xué)習(xí)器中預(yù)測(cè)精度最高的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,本文提出的組合模型的RMAPE下降了9.1%。表明與其他預(yù)測(cè)基礎(chǔ)模型相比,本文提出的組合模型具有更高的預(yù)測(cè)精度,可為實(shí)際車(chē)輛調(diào)度提供參考依據(jù)。

      表5 預(yù)測(cè)精度比較

      4 結(jié)論

      共享單車(chē)的需求量預(yù)測(cè)是提高企業(yè)服務(wù)質(zhì)量、效益和用戶體驗(yàn)的關(guān)鍵環(huán)節(jié)。為了篩選出影響單車(chē)需求量的關(guān)鍵天氣指標(biāo),本文引入了格蘭杰因果檢驗(yàn)方法。為了衡量待預(yù)測(cè)日各時(shí)段與歷史日的天氣特征向量間的相似性,本文采用灰色關(guān)聯(lián)分析法篩選出了具有高度相似性的相似日樣本集。該方法可以有效地對(duì)訓(xùn)練樣本進(jìn)行特征選擇,減少了模型的計(jì)算訓(xùn)練時(shí)間并提高模型的泛化能力。在基于Stacking策略的組合模型中,以神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林回歸、支持向量回歸等算法作為初級(jí)學(xué)習(xí)器,運(yùn)用多種組合策略,確定的最優(yōu)組合預(yù)測(cè)模型綜合了各單一模型所具有優(yōu)勢(shì),降低了預(yù)測(cè)誤差并提高了模型的泛化性能。最后以北京市共享單車(chē)用戶的騎行數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)例分析,驗(yàn)證了本文模型的準(zhǔn)確性。本研究可以用于實(shí)際大規(guī)模需求預(yù)測(cè),為優(yōu)化共享單車(chē)系統(tǒng)布局、實(shí)現(xiàn)車(chē)輛合理調(diào)度提供參考。

      猜你喜歡
      格蘭杰需求量關(guān)聯(lián)度
      從數(shù)學(xué)角度看“彈性”
      基于灰色關(guān)聯(lián)度的水質(zhì)評(píng)價(jià)分析
      格蘭杰因果關(guān)系在神經(jīng)科學(xué)領(lǐng)域的發(fā)展及缺陷
      電子科技(2015年8期)2015-12-18 13:17:56
      基于灰關(guān)聯(lián)度的鋰電池組SOH評(píng)價(jià)方法研究
      2017年我國(guó)汽車(chē)軟管需求量將達(dá)6.4億m
      橡膠科技(2015年3期)2015-02-26 14:45:02
      榜單
      基于BP神經(jīng)網(wǎng)絡(luò)人均豬肉需求量預(yù)測(cè)
      基于灰色關(guān)聯(lián)度的公交線網(wǎng)模糊評(píng)價(jià)
      河南科技(2014年16期)2014-02-27 14:13:25
      格蘭杰因果關(guān)系在復(fù)雜網(wǎng)絡(luò)中的應(yīng)用*
      2013年日本國(guó)內(nèi)紙與紙板市場(chǎng)需求量預(yù)計(jì)減少1.5%
      六安市| 枣强县| 内丘县| 镇平县| 安化县| 黄浦区| 南召县| 周宁县| 邵阳市| 瓮安县| 昭平县| 施秉县| 和田县| 广东省| 绿春县| 广丰县| 郓城县| 措勤县| 太白县| 凤山市| 巴中市| 得荣县| 雅安市| 蓬溪县| 泰州市| 涿鹿县| 于田县| 新野县| 阿尔山市| 竹北市| 济源市| 潜山县| 宣武区| 岳阳市| 定襄县| 新龙县| 扎赉特旗| 常德市| 五大连池市| 麻城市| 澳门|