• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)驅(qū)動下的共享單車短期需求預(yù)測
      ——基于機器學(xué)習(xí)模型的比較分析

      2018-09-06 10:48:50焦志倫劉秉鐮張子豪
      商業(yè)經(jīng)濟與管理 2018年8期
      關(guān)鍵詞:需求預(yù)測單車機器

      焦志倫,金 紅,劉秉鐮,張子豪

      (1.南開大學(xué) 經(jīng)濟與社會發(fā)展研究院,天津 300071;2.美國堪訊企業(yè)咨詢服務(wù)有限公司,紐約 NY10017)

      一、 引 言

      隨著信息技術(shù)的高速發(fā)展和廣泛應(yīng)用,互聯(lián)網(wǎng)平臺實現(xiàn)了多邊供需對接和即時交易,推動了分時租賃和共享經(jīng)濟的高速發(fā)展。其中,共享單車是以互聯(lián)網(wǎng)平臺為基礎(chǔ)的自行車分時租賃和共享服務(wù)。*共享經(jīng)濟概念由Felson和Spaeth(1978)首次提出[35],主要特點是個體通過第三方平臺實現(xiàn)點對點(Peer to Peer)的直接交易。目前對共享經(jīng)濟的概念仍存不同理解。本文將自行車的分時租賃和共享服務(wù)統(tǒng)稱為“共享單車”。共享單車新興業(yè)態(tài)的發(fā)展,填補了城市居民交通出行“最后一公里”的服務(wù)鏈條,為廣大消費者帶來了出行便利。到2016年,全球范圍內(nèi)主要城市中約有超過1000個正在運營的共享單車項目,超過300個項目正在計劃和建設(shè)中[1]。同時,在快速發(fā)展過程中,共享單車行業(yè)也為城市經(jīng)濟和社會帶來了一些“負外部性”,例如,一些城市的共享單車廢棄車輛堆成“百里墳場”,造成對社會資源的浪費;又如,共享單車在街頭無序投放,影響了正常交通通行和城市形象。造成這些問題背后的原因,除了風(fēng)險投資推動下的市場競爭之外,也與共享單車企業(yè)對具體時間地點短期需求預(yù)測不精確、資源調(diào)度不合理有關(guān)。如何利用大數(shù)據(jù)精確預(yù)測共享單車短期需求,從而科學(xué)合理地確定單車投放和調(diào)度安排,不僅是企業(yè)運營效率問題,也與社會資源合理使用、城市空間合理布局以及共享單車企業(yè)政府監(jiān)管等問題密切相關(guān)。

      在共享單車需求預(yù)測方面,除了技術(shù)代際差異和運營模式差異,*按照DeMaio(2009)的總結(jié),在現(xiàn)代互聯(lián)網(wǎng)技術(shù)應(yīng)用到單車租賃行業(yè)之前,共享單車在技術(shù)和模式上經(jīng)歷過三代發(fā)展,包括1965年首次在阿姆斯特丹出現(xiàn)的第一代“白色單車”(White Bikes),第二代1995年在丹麥迅速發(fā)展的“城市單車”(City Bikes)和第三代1996年在英國出現(xiàn)的磁卡單車。目前,以互聯(lián)網(wǎng)、定位技術(shù)、移動設(shè)備、網(wǎng)絡(luò)支付為基礎(chǔ)的新一代共享單車可稱為第四代。共享單車的需求可能受到宏觀經(jīng)濟條件、收入水平和價格等因素的影響。對于經(jīng)濟社會條件相對固定(價格固定)環(huán)境下的短期共享單車需求,更細節(jié)的因素會起到主要作用,如Campbell等(2016)通過對北京共享單車項目的調(diào)查指出,影響共享單車需求因素主要有距離、氣溫、降水、空氣質(zhì)量等,用戶自身的人口統(tǒng)計特征(含收入、性別、職業(yè)等)對單車需求沒有明顯影響[3]。Matton和Godavarthy(2017)指出氣溫、風(fēng)力、降水等氣候條件是影響共享單車需求的主要因素[4];Faghih-Imani等(2014)提出,時點因素也是影響共享單車需求的重要變量,包括每天的時間段、是否周末、高峰時間等[5];一些文獻也同時討論了天氣因素和時點因素[6-8]。此外,現(xiàn)有文獻也討論了地點相關(guān)的影響因素,主要包括人口密度[9-10]、自行車專用道設(shè)施情況[10-12]、與城市CBD和大學(xué)的距離[5,10,13]等。

      從預(yù)測方法上看,現(xiàn)有文獻對共享單車需求的預(yù)測通常采用的方法集中在傳統(tǒng)線性O(shè)LS模型、二分類和多分類Logit模型[3,14]等。Kaspi等(2016)提出了一個貝葉斯估計模型,用來預(yù)測某一站點存在的無法使用的單車數(shù)量[15]。Einav和Levin(2014)指出,信息技術(shù)使大規(guī)模運營管理層數(shù)據(jù)和私人部門數(shù)據(jù)的獲得性逐步提升,為經(jīng)濟學(xué)的研究提供了新的機遇。應(yīng)用大數(shù)據(jù)對具體問題進行實證分析和處理,需要新的工具和方法[16]。機器學(xué)習(xí)(Machine Learning,ML)是基于大數(shù)據(jù)的建模和分析方法,是“能通過經(jīng)驗積累自動改進的計算機算法”[17]。其中,機器學(xué)習(xí)工具體系中的監(jiān)督學(xué)習(xí)主要關(guān)注“預(yù)測”問題,在大數(shù)據(jù)條件下,監(jiān)督學(xué)習(xí)在預(yù)測方面具有較為顯著的優(yōu)勢。

      首先,機器學(xué)習(xí)模型的“樣本內(nèi)”(In-sample)擬合效果更好。Mullainathan和Spiess(2017)使用美國房產(chǎn)調(diào)查的多維度大樣本數(shù)據(jù)對自有房產(chǎn)的對數(shù)美元價格進行擬合,擬合結(jié)果發(fā)現(xiàn)傳統(tǒng)OLS的組內(nèi)估計效果(R2)為47.3%,但使用隨機森林(Random Forest)等機器學(xué)習(xí)方法的估計效果均超過80%[18]。其次,樣本外(Out-of-sample)預(yù)測效果更好。Bajari等(2015)使用IRI市場研究數(shù)據(jù)中連鎖百貨商店的837460條數(shù)據(jù)進行估計,結(jié)果顯示線性回歸、條件Logit模型對樣本外數(shù)據(jù)預(yù)測的標準誤差(RMSE)分別為1.193和1.234,而表現(xiàn)更好的機器學(xué)習(xí)模型,如隨機森林和支持向量機(SVM)的RMSE分別達到0.965和1.068[19]。第三,機器學(xué)習(xí)模型更適合處理含有大量協(xié)變量的多維數(shù)據(jù)。在Bajari等(2015)的模型中,如果允許店鋪和產(chǎn)品固定效應(yīng)存在,那模型將包含上千個解釋變量,使用傳統(tǒng)計量模型將造成估計效率下降且存在大量共線性問題,嚴重降低組內(nèi)組外樣本的預(yù)測水平。對此,Belloni等(2014)指出,應(yīng)用機器學(xué)習(xí)中的套索(LASSO)模型等可以很好地應(yīng)對模型協(xié)變量過多的問題[20]。

      目前,在經(jīng)濟管理學(xué)框架下的共享單車實踐領(lǐng)域引入機器學(xué)習(xí)模型進行短期需求預(yù)測的文獻相對較少,Bacciu等(2017)采用機器學(xué)習(xí)中的支持向量機和隨機森林模型預(yù)測了共享單車站點是否會在短時間內(nèi)有單車歸還[21],但沒有系統(tǒng)討論單車使用的短期需求問題。總體來看,有關(guān)共享單車需求預(yù)測的相關(guān)文獻成果十分有限,同時對不同機器學(xué)習(xí)模型進行應(yīng)用比較的研究更加缺乏。

      本文嘗試將套索回歸、嶺回歸、隨機森林和迭代決策樹等機器學(xué)習(xí)模型引入共享單車短期需求預(yù)測的分析中,并比較這些模型與普通OLS回歸在預(yù)測精度等方面的差異。本文的貢獻在于,一是將大數(shù)據(jù)機器學(xué)習(xí)方法引入共享單車行業(yè)的“小時級”短期需求預(yù)測,提升行業(yè)對即時性需求的預(yù)測效率,從而輔助企業(yè)的實時調(diào)度,提高單車資源的整體利用水平;二是通過模型比較,系統(tǒng)討論機器學(xué)習(xí)模型對共享單車短期需求預(yù)測的適用性,識別和評價多種不同機器學(xué)習(xí)模型之間的預(yù)測精度和預(yù)測效果。

      二、 研究設(shè)計與數(shù)據(jù)分析

      (一) 模型選擇

      本研究關(guān)注不同區(qū)域共享單車短期(每小時時間段內(nèi))需求預(yù)測,按照Faghih-Imani等(2017)、Gebhart和Noland(2014)等現(xiàn)有文獻的研究基礎(chǔ)[5,7],本文將影響共享單車需求的協(xié)變量選取為具體的時間特征因素、天氣條件因素和站點位置因素等。在設(shè)定各類因素的具體變量時,需要詳細考慮相關(guān)時點的細分特征,如月份、日期、是否周末、是否法定假期、以小時區(qū)分的出行時段、是否高峰期等,這些涉及到對原始時間數(shù)據(jù)進行大量的清洗和分析處理工作。同理,對于天氣和位置因素,也需要進行細分特征的變量處理。最終加入OLS模型的解釋變量為75個,加入其他機器學(xué)習(xí)模型的變量可能有變化,如Lasso模型會壓縮協(xié)變量數(shù)量,而以決策樹為基礎(chǔ)的組合模型則會增加變量,即包含了原有變量的交乘項、高階項等。

      在預(yù)測模型選取上,從需求變量自身出發(fā)的時間序列類預(yù)測模型在短期實時預(yù)測方面存在明顯缺陷,這些模型包括最后期、趨勢外推、自回歸、移動平均、指數(shù)平滑等。對于依托其他單一或少量相關(guān)變量的預(yù)測方法,如彈性系數(shù)、增長系數(shù)、周期系數(shù)、重力模型等,在實際操作中可能會損失很多維度信息。相對于這些方法,基于小數(shù)據(jù)樣本的灰度預(yù)測、傳統(tǒng)回歸分析等可以進一步捕捉更多協(xié)變量信息,但仍無法滿足大數(shù)據(jù)條件下的分析需要,而基于大數(shù)據(jù)的機器學(xué)習(xí)模型和算法則在提升預(yù)測精度、控制“數(shù)據(jù)維度災(zāi)難”上更有優(yōu)勢[22]。各類預(yù)測方法特點及其主要特點如表1所示。

      表1 主要預(yù)測方法及其主要特點比較

      機器學(xué)習(xí)中有關(guān)預(yù)測的模型、算法也存在多種選擇,且新的模型算法還在不斷發(fā)展。目前監(jiān)督學(xué)習(xí)中的預(yù)測模型主要包括套索回歸(Lasso)、嶺回歸(Ridge)、支持向量機(SVM)、回歸樹(DT)等。此外,一些集成方法同時訓(xùn)練多個模型,在預(yù)測效果上可能更有優(yōu)勢。這些集成模型包括隨機森林(RF)、迭代決策樹(Gradient Boost Decision Tree,GBDT)等。

      大數(shù)據(jù)條件下的共享單車需求預(yù)測具有樣本量大、細分影響因素多的特征,如果將單車短期實時需求預(yù)測的目標時段設(shè)定為每小時,則僅該小時的時間特征影響因素就包含24個時段變量、7個星期變量、是否周末、是否其他法定假日等多個維度。因此,本文在機器學(xué)習(xí)模型選擇時重點考慮了這一條件,最終同時選擇了4個機器學(xué)習(xí)模型進行同步預(yù)測和比較,包括Ridge、Lasso兩個回歸模型以及RF、GBDT兩種集成模型。Ridge和Lasso在減少模型估計維度方面具有優(yōu)勢。RF、GBDT兩種集成模型則具有融合優(yōu)勢,在工業(yè)生產(chǎn)和一般服務(wù)需求類預(yù)測中應(yīng)用較多,也常常表現(xiàn)出比其他機器學(xué)習(xí)模型更高的預(yù)測精度、性能和穩(wěn)定性。

      具體來看,在減少估計維度方面,Ridge提供了應(yīng)對多重共線問題(X為奇異矩陣)的解決方法[28],即提供一個二階懲罰函數(shù)來獲得精煉模型。

      (1)

      其中懲罰函數(shù)的系數(shù)λ越大,估計矩陣的奇異性影響越小,估計參數(shù)β的估計值也逐步穩(wěn)定。類似的,Lasso回歸也提供了帶有懲罰函數(shù)的回歸結(jié)果[29]。

      (2)

      不同的是,Lasso是針對系數(shù)絕對值而非系數(shù)平方項進行懲罰。Lasso可以看作是改進的Ridge方法,在預(yù)測方程的協(xié)變量較多時,可以通過Lasso的懲罰函數(shù)迫使部分協(xié)變量的估計系數(shù)為零,從而達到降低維度的目的。

      RF、GBDT兩類集成模型都依托回歸樹算法,回歸樹算法是將數(shù)據(jù)的特征空間劃分為若干決策區(qū)間(葉子),使得每一個區(qū)間都是空間中不相交的區(qū)域,然后匯報每個劃分模塊的函數(shù)均值[30]。在回歸樹基礎(chǔ)上,RF和GBDT更好地彌補了單個回歸樹功能簡單且容易出現(xiàn)過度擬合的問題[31]。RF是多個回歸樹組成的決策體系[32],其中每棵樹的生成都依賴隨機選出的少量變量,最終的決策則通過對潛在隨機向量樹進行“投票”表決生成。在回歸預(yù)測條件下,“投票”機制就是對這些樹的結(jié)果進行平均,得到因變量預(yù)測值。類似的,GBDT也是通過對多棵樹的結(jié)果進行綜合,不同的是每一棵樹是從之前所有樹的殘差中來學(xué)習(xí)的,并以新樹每個葉子的信息增益來進行最后全局預(yù)測[33]。

      (二) 數(shù)據(jù)說明

      本文選取的數(shù)據(jù)為舊金山灣區(qū)共享單車項目數(shù)據(jù)。灣區(qū)共享單車項目(SFBay Area Bike Share)自2013年8月開始運營,前期投資700萬美元,由灣區(qū)空氣質(zhì)量管理機構(gòu)和城市交通機構(gòu)管理,在舊金山、圣何塞、帕洛阿爾托等五個灣區(qū)城市70個報刊亭附近推出700輛自行車,自行車一半數(shù)量投入到舊金山,另外一半投入到其他城市,采用會員注冊和有站模式(Station-based Bike Sharing,SBBS)管理,會員年費88美元。會員在30分鐘通勤時間內(nèi)歸還自行車享受免費待遇。為游客設(shè)計的非會員3天和1天的無限次通票為22美元和9美元。*更詳細的信息可見http://kalw.org/post/sf-bay-area-bike-share-launches-thursday#stream/0。2016年8至9月份期間,該項目轉(zhuǎn)由福特公司運營,并重新命名為“Ford GoBike”。本文選取項目運營前兩年的數(shù)據(jù)進行預(yù)測研究,數(shù)據(jù)均來源于公開發(fā)布數(shù)據(jù)。*讀者可以在https://www.kaggle.com/benhamner/sf-bay-area-bike-share上獲取相關(guān)數(shù)據(jù)。由于項目運營第一個月時,不同城市站點的安裝啟用時間不同,因此,本文數(shù)據(jù)最終選取的時間范圍為2013年8月29日至2015年8月31日二年時間的運營數(shù)據(jù),共669959個觀測值。具體的變量名稱和描述統(tǒng)計見表2。

      表2 主要變量及其描述統(tǒng)計

      注:其他與本文結(jié)論相關(guān)度不高的變量沒有進行描述。

      初步考察共享單車需求的主要影響因素。圖1是以日期和需求量為橫縱坐標制作的散點圖,并以局部加權(quán)回歸畫出了一條回歸線??梢钥吹剑煌掌诘男枨罅靠傮w上具有明顯的二分化差異,引致這種差異的時間因素可能是工作日與周末的日期屬性因素。圖2進一步以工作日和周末劃分樣本,并繪制散點圖及局部加權(quán)回歸線,可以看到工作日(圖中用weekday表示)的共享單車需求頻次明顯高于周末(圖中用weekend表示),進一步體現(xiàn)了工作日與周末兩個日期特征對需求的影響。同時,我們也看到工作日圖中存在很多需求量較小的點,我們猜測這些點的出現(xiàn)與兩種情況相關(guān):一是當(dāng)天存在極端天氣;二是當(dāng)天雖然不是周末,但卻是一些法定節(jié)日,可以視同周末處理。除了天氣外,本文建立需求模型時也納入了這些法定節(jié)日的影響。*最終納入模型的有法定假期的節(jié)日每年有17天,分別按照樣本對應(yīng)的日期加入虛擬變量。

      圖1 日期與共享單車需求量的散點圖和局部加權(quán)回歸線

      圖2 工作日與周末兩個日期屬性與共享單車需求量的散點圖和局部加權(quán)回歸線

      圖3 時間段與共享單車需求量的關(guān)系

      圖3進一步考察了每天的不同時間段對共享單車需求的情況,如圖所示,在每天的上午8點和下午5點的時候,需求量達到高峰,全樣本每小時累積需求在15000車次左右,明顯超過了其他時間段的需求,表明很多人使用單車是出于上下班通勤目的,時間段尤其是上下班高峰時間是影響單車需求的重要因素。此外,對于天氣因素,我們預(yù)期很多天氣變量存在一個舒適值區(qū)間,在區(qū)間內(nèi)需求量較大,過高或過低的極端溫度、濕度、風(fēng)力等都會對需求有負向作用。對于地理位置因素,舊金山城區(qū)的需求量明顯高于其他灣區(qū)城市。由于篇幅關(guān)系,對其他變量不再繪圖分析討論。

      (三) 算法實施與參數(shù)調(diào)整

      本文關(guān)注基于機器學(xué)習(xí)模型的共享單車短期需求預(yù)測,對于OLS模型,本文暫沒有采用引入動態(tài)因素的自回歸、向量自回歸、移動平均等時間序列因素,也沒有采用面板估計模型。對于OLS的模型識別問題,引入模型的解釋變量均為時間特征、天氣特征和站點位置特征的變量,這些變量與模型殘差相關(guān)性極為有限,且因果關(guān)系解釋并不是本模型關(guān)注重點,因此沒有采用相關(guān)識別策略。

      在應(yīng)用機器學(xué)習(xí)模型時,本文將樣本劃分為訓(xùn)練集樣本(2013年8月29日至2015年3月30日樣本,約占總觀測值的78.19%)和測試集樣本(剩余觀測值)。在對訓(xùn)練集樣本進行交叉驗證時,Athey和Imbens(2017)建議劃分k(例如k=10)組子樣本,留下其中第m組,并將其余的子樣本組進行模型估計,并將擬合模型應(yīng)用于留下的子樣本組m。重復(fù)迭代模型,最終選擇的正則化調(diào)整參數(shù)為交叉驗證模型殘差平方和最小的模型參數(shù)[34]。本文對機器學(xué)習(xí)模型采用k=10的交叉驗證設(shè)定。

      為了防止過度擬合問題,機器學(xué)習(xí)模型需要進行模型的正則化調(diào)整,設(shè)置最佳模型參數(shù)。對于Lasso和Ridge,首先通過10組子樣本的交叉驗證繪制CV曲線圖尋找最佳的懲罰函數(shù)系數(shù)λ,可見圖4和圖5,依次表示采用最小MSE判定獲取的適度簡潔模型。其中,Lasso模型結(jié)果顯示,采用最小MSE取值的λmin=0.005和采用1倍誤差取值的λ1se=0.191,分別對應(yīng)74個和47個解釋變量,其余變量系數(shù)被設(shè)為0。相應(yīng)的,Ridge模型CV圖計算的λ分別為1.822和3.184,Ridge模型包含的變量個數(shù)均為75個。

      圖4 Lasso的CV交叉驗證圖(左)和系數(shù)變化圖(右)

      圖5 Ridge的CV交叉驗證曲線圖(左)和系數(shù)變化圖(右)

      對于RF和GBDT,設(shè)定決策樹的數(shù)量參數(shù)為n=50,每棵樹參與分類選擇的變量個數(shù)m分別設(shè)為{10,20,30},在逐個建立森林中的每棵樹i時,將用自助法選擇mi≤m個預(yù)測變量,以信息增益最大原則為分類屬性進行節(jié)點分割,建立一個無需修剪的深度最大的回歸樹。建立n棵回歸樹之后,由這些樹最后結(jié)果的均值作為因變量預(yù)測值。對于GBDT,設(shè)定學(xué)習(xí)速度的eta值為0.15。RF和GBDT參數(shù)調(diào)整的指標選擇為組內(nèi)標準誤差(RMSE)。最終模型效果的評估依靠測試集樣本的R2和RMSE來衡量,R2越大和RMSE越小的模型,表明擬合優(yōu)度越高和標準誤差越小,在預(yù)測共享單車短期需求方面具有更大優(yōu)勢。

      三、 模型評估與預(yù)測結(jié)果

      表3 主要變量及其描述統(tǒng)計

      表3匯報了不同模型下訓(xùn)練集樣本與測試集樣本的估計精確度。從比較結(jié)果可以看出,應(yīng)用OLS模型,以訓(xùn)練樣本擬合,擬合模型的可決系數(shù)R2為0.5418,RMSE為20.2086,將擬合模型應(yīng)用到測試集樣本,樣本外預(yù)測結(jié)果R2為0.3638,RMSE為24.8286。具體比較,測試集的R2下降17.8個百分點,RMSE提升4.62個單位,表明與訓(xùn)練集結(jié)果相比,測試集預(yù)測擬合優(yōu)度大幅下降、誤差大幅提升,即OLS模型的樣本外預(yù)測效果明顯變差。

      對比機器學(xué)習(xí)模型的估計結(jié)果,Lasso和Radge對訓(xùn)練集樣本的預(yù)測效率沒有提升,對測試集樣本的預(yù)測效果也沒有明顯變化。具體來看,Lasso和Ridge組內(nèi)預(yù)測的R2有所下降,RMSE有所提升,預(yù)測總體效果下降。在組外預(yù)測方面,Lasso預(yù)測的RMSE有所提升,但提升幅度不大,Ridge預(yù)測效果在RMSE誤差方面增大,預(yù)測效果欠佳??傮w上講,Lasso與Radge兩個模型在設(shè)計上主要是解決模型變量維度過多的問題,在對共享單車需求預(yù)測中,由于模型選取依據(jù)了經(jīng)濟學(xué)的基本理論,非直接影響的變量基本沒有選取,其自變量之間的共線性問題也并不突出,因此沒有體現(xiàn)出這類模型的優(yōu)勢。

      從RF和GBDT兩種基于決策樹的機器學(xué)習(xí)模型來看,這兩個模型在預(yù)測共享單車需求方面比之前的模型效果存在較為明顯的改進。從訓(xùn)練集的樣本內(nèi)估計來看,兩個模型的R2比普通OLS回歸模型有大幅提升,RMSE比OLS模型的誤差有大幅降低。從樣本外預(yù)測效果來看,RF和GBDT模型在R2上提升分別達到約39和29個百分點,在RMSE誤差降低方面分別達到16和14個單位?;诖丝梢哉J為,相比OLS等其他模型,這兩個集成模型在樣本內(nèi)擬合和樣本外預(yù)測方面都具有較大優(yōu)勢。

      對RF和GBDT這兩個模型進行比較,在當(dāng)前樣本條件和模型設(shè)置下,GBDT比RF在樣本內(nèi)預(yù)測的效率更高,其中GBDT的樣本內(nèi)RMSE可以降低到0.8364。但從樣本外預(yù)測效果來看,RF比GBDT在樣本外預(yù)測的效果更佳,其中RF模型的R2比GBDT模型高約10個百分點,RMSE低約2.4個單位。此外,GBDT模型的樣本外誤差與樣本內(nèi)誤差的差距較大,達到10.002個單位,表明GBDT模型的設(shè)置存在一定的過渡擬合問題。

      表4 影響共享單車需求的主要因素及其指標(前5名變量)

      對于影響共享單車需求的主要因素,不同模型的結(jié)論也存在差異。OLS回歸、Lasso和Ridge模型可以估計出模型協(xié)變量的回歸系數(shù),OLS模型還能獲得t統(tǒng)計量匯報的顯著性指標,相比之下,RF和GBDT不能確定各個參數(shù)的系數(shù),但是可以通過算法實施過程中的某些指標獲得變量的相對重要性。從模型結(jié)果來看,對共享單車需求量影響最大的前五名變量(表4)中,OLS、Lasso和Ridge指向了相同的五個變量(在重要性次序上稍有不同),包括上午8點、9點(hour8.AM,hour9.AM)和下午4點、5點(hour4.PM,hour5.PM)兩個上下班通勤高峰期的四個時間段變量和特定空間位置(舊金山城市)變量。RF和GBDT則將工作日特征(weekday1)和周末(weekday7)作為僅次于特定城市、上下班高峰時間段的重要影響指標。

      進一步拓展影響需求預(yù)測重要變量的范圍,從對共享單車需求量影響最大的前十名變量來看(見表5),OLS、Lasso和Ridge模型表明,對共享單車需求量影響最大的前十名變量主要是位置(舊金山城市)和時間特征變量,其中時間特征變量主要集中在高峰時間段方面。RF和GBDT模型選出的重要變量則綜合包含了位置、時間和天氣特征,在位置變量上,RF和GBDT模型選擇了舊金山和San Jose,在時間變量上選擇了高峰時段、工作日和周末變量,在天氣特征上選擇了風(fēng)向(wind_dir_degrees)和最高氣溫(max_temperature_f)兩個變量。

      表5 影響共享單車需求的主要因素(前10名變量)

      整體來看,我們認為影響短期(每小時)共享單車需求的重要因素涵蓋位置特征、高峰時段特征、工作日特征和天氣特征。具體來看,各因素中都存在影響需求的主要變量,其中,位置特征主要變量為是否為舊金山站點;高峰時段特征的主要變量為上午8點、下午5點,其次是與這兩個時間段相鄰的時段;工作日特征主要變量是周日或周一(周六變量影響較弱),天氣特征最主要變量是最高氣溫和風(fēng)向。在模型選擇上,通過以上因素預(yù)測基于小時的短期共享單車需求,采用RF和GBDT方法的模型預(yù)測效率更高,即在樣本內(nèi)擬合和樣本外預(yù)測中得到的擬合優(yōu)度較高,標準誤差較小。進一步來說,在現(xiàn)有樣本和模型設(shè)定下,RF取得的預(yù)測效果最好,可以作為共享單車短期實時需求預(yù)測的重要工具。

      四、 結(jié)論及展望

      通過舊金山灣區(qū)共享單車項目的669959個樣本觀測值,綜合采用線性最小二乘回歸(OLS)和機器學(xué)習(xí)模型中的套索回歸(Lasso)、嶺回歸(Ridge)、隨機森林(RF)和迭代決策樹(GBDT)模型,本文探討了共享單車短期(每小時)需求預(yù)測的影響因素和模型設(shè)計問題。研究發(fā)現(xiàn),首先,從共享單車的需求影響因素來看,共享單車短期需求的主要影響因素包括位置因素(是否屬于舊金山)、高峰時間段因素(上午8點和下午5點)、工作日因素(周日和周一)以及天氣條件因素(最高溫度和風(fēng)向)。

      其次,從預(yù)測模型比較來看,相比與OLS、Lasso和Ridge模型,RF和GBDT兩類集成模型在預(yù)測共享單車需求時具有較高的擬合優(yōu)度和較低的標準誤差。原因在于,RF和GBDT模型在進行模型預(yù)測分析時能夠綜合考慮模型協(xié)變量之間的相互作用,因而觀測到的影響因素也更加廣泛。這是此類機器學(xué)習(xí)模型在算法上的優(yōu)勢,例如,OLS模型能夠觀測到高峰時段(如hour8.AM)的重要影響,但該變量在疊加周末、假日時的影響會有所減弱,在同時疊加周末和極端天氣特征時,影響則進一步減弱。這是OLS模型在預(yù)測過程中無法考量的問題。即使按照一些理論的指導(dǎo),在OLS模型中添加高峰時段與周末等因素的交乘項,但也可能忽略一些理論尚未發(fā)現(xiàn)的交互作用或高階作用,因而限制了OLS模型的預(yù)測效果。此外,Lasso和Ridge模型的優(yōu)勢在于處理協(xié)變量數(shù)量過多或變量之間存在多重共線的情況,對于變量之間的交互作用也缺乏處理,對于本研究的共享單車需求預(yù)測,這兩類模型預(yù)測并不具有優(yōu)勢,因而預(yù)測效果與OLS相當(dāng)。

      共享單車已經(jīng)成為多個國家的新興經(jīng)濟業(yè)態(tài),共享單車的需求預(yù)測問題,與企業(yè)車輛投放、調(diào)配及社會公共資源的合理利用密切相關(guān)。在該領(lǐng)域未來的研究中,可繼續(xù)擴展到不同商業(yè)模式下共享單車的需求預(yù)測差異。例如,對于有站模式和無站模式的需求預(yù)測,主要影響因素可能有所不同,無站模式下,運營商對供需不平衡區(qū)域進行調(diào)度的能力可能成為單車需求的現(xiàn)實約束,需求的時點因素和空間因素可能存在更多類型的疊加機制。此外,加快將機器學(xué)習(xí)模型應(yīng)用擴展到其他領(lǐng)域的預(yù)測研究中,發(fā)現(xiàn)更多細節(jié)因素變量的作用機制,也可能提升預(yù)測研究對其他經(jīng)濟解釋型研究和因果效應(yīng)研究的助力作用。

      猜你喜歡
      需求預(yù)測單車機器
      基于貝葉斯最大熵的電動汽車充電需求預(yù)測
      吉林電力(2022年2期)2022-11-10 09:24:42
      機器狗
      共享單車為什么在國外火不起來
      意林彩版(2022年1期)2022-05-03 10:25:07
      機器狗
      飛吧,單車
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      對惡意破壞共享單車行為要“零容忍”
      共享單車(外四首)
      岷峨詩稿(2017年4期)2017-04-20 06:26:34
      基于計算實驗的公共交通需求預(yù)測方法
      無敵機器蛛
      韶山市| 金川县| 木里| 肃宁县| 梅河口市| 陈巴尔虎旗| 黎平县| 碌曲县| 腾冲县| 青州市| 云阳县| 甘谷县| 泰顺县| 曲水县| 泸州市| 公安县| 许昌市| 巨鹿县| 喀什市| 郧西县| 雅安市| 彭州市| 保定市| 门头沟区| 阿克| 岳池县| 阿拉善盟| 崇州市| 泸州市| 洞口县| 安远县| 安龙县| 平和县| 江北区| 绍兴市| 海原县| 丹东市| 汾西县| 鄂尔多斯市| 合江县| 泽州县|