上海財(cái)經(jīng)大學(xué)公共政策與治理研究院交通經(jīng)濟(jì)與政策研究中心,上海財(cái)經(jīng)大學(xué)公共經(jīng)濟(jì)與管理學(xué)院
近年來,網(wǎng)約車的出現(xiàn)改變了人們的日常出行方式,網(wǎng)約車平臺(tái)所采用的技術(shù)與理論成為經(jīng)濟(jì)學(xué)、管理學(xué)、交通運(yùn)輸工程及計(jì)算機(jī)科學(xué)領(lǐng)域的研究熱點(diǎn),眾多學(xué)者從不同專業(yè)角度進(jìn)行了探討[1,2]。與傳統(tǒng)的出租車運(yùn)營(yíng)方式有所不同,網(wǎng)約車平臺(tái)根據(jù)客戶需求提供個(gè)體機(jī)動(dòng)化定制服務(wù),供需匹配算法及動(dòng)態(tài)定價(jià)策略是其中的兩項(xiàng)關(guān)鍵技術(shù),相關(guān)算法模型、定價(jià)方式及運(yùn)行效果引發(fā)研究者的高度關(guān)注[3-5]。這些研究構(gòu)建了多種定價(jià)策略的理論模型,研究的重點(diǎn)在于如何通過價(jià)格調(diào)節(jié)手段實(shí)現(xiàn)司機(jī)與乘客的快速匹配,以提高平臺(tái)運(yùn)營(yíng)效率,節(jié)省客戶等待時(shí)間,實(shí)現(xiàn)乘客、司機(jī)及平臺(tái)三方利益最大化。
網(wǎng)約車定價(jià)問題的研究意義表現(xiàn)在以下三個(gè)方面:首先,通過分析網(wǎng)約車的定價(jià)規(guī)則并使其透明化,可以幫助消費(fèi)者獲得更多的信息,確保乘客在出行交易中的知情權(quán),維護(hù)其正當(dāng)權(quán)益。其次,有助于政府部門實(shí)施有效的價(jià)格監(jiān)管,防止平臺(tái)過度攫取消費(fèi)者利益、獲得壟斷利潤(rùn)。第三,有助于評(píng)估交通基礎(chǔ)設(shè)施的使用效率,維護(hù)市場(chǎng)秩序,促進(jìn)不同運(yùn)輸方式之間的公平有序競(jìng)爭(zhēng)。因此在“互聯(lián)網(wǎng)+交通”高速發(fā)展時(shí)期,借助大數(shù)據(jù)分析工具,對(duì)網(wǎng)約車定價(jià)方式進(jìn)行深入分析和探討,對(duì)構(gòu)建平臺(tái)、司機(jī)、乘客及監(jiān)管者等參與方的合作共贏關(guān)系以及推動(dòng)網(wǎng)約車平臺(tái)健康持續(xù)發(fā)展具有重大的現(xiàn)實(shí)意義。
網(wǎng)約車定價(jià)是一種復(fù)雜的市場(chǎng)行為,現(xiàn)有研究側(cè)重建立理論模型進(jìn)行分析,而市場(chǎng)行為的復(fù)雜性很難完全采用理論來準(zhǔn)確刻畫。為此,本文采用基于真實(shí)訂單數(shù)據(jù)的實(shí)證研究方式,根據(jù)某網(wǎng)約車平臺(tái)公開的近百萬條訂單記錄,在統(tǒng)計(jì)分析的基礎(chǔ)上提取出多種可能影響定價(jià)規(guī)則的特征,采用包裹法結(jié)合增l減r法等多種方法對(duì)這些特征進(jìn)行判斷選擇,篩選出決定該網(wǎng)約車平臺(tái)定價(jià)規(guī)則的關(guān)鍵因素。分析發(fā)現(xiàn),這些特征可分為三類:
第一類包含行程距離、行程時(shí)間、車型等,這與傳統(tǒng)的出租車定價(jià)規(guī)則相似。
第二類包含每小時(shí)訂單數(shù)、起點(diǎn)區(qū)域訂單數(shù)、終點(diǎn)區(qū)域訂單數(shù)等,顯示網(wǎng)約車平臺(tái)會(huì)根據(jù)不同時(shí)段、區(qū)域的乘車需求變化適時(shí)地調(diào)整定價(jià)。
第三類與乘客累積消費(fèi)金額、累積預(yù)約次數(shù)等信息相關(guān),表明網(wǎng)約車平臺(tái)注重收集乘客個(gè)人數(shù)據(jù),分析其消費(fèi)行為,并在最終的服務(wù)定價(jià)上明顯地反映出來。
本文應(yīng)用提升決策樹算法(gradient boosting decision tree,GBDT)對(duì)訂單的行程金額進(jìn)行回歸分析,預(yù)測(cè)結(jié)果均值為74.67±4.63元。這表明,本文篩選出的特征及建立的算法模型可以對(duì)網(wǎng)約車定價(jià)規(guī)則做出準(zhǔn)確的刻畫描述。本文詳細(xì)分析了這些關(guān)鍵特征所起的作用及算法模型的輸出結(jié)果,研究成果可為政府監(jiān)管及相關(guān)理論研究提供重要的技術(shù)參考。
本文數(shù)據(jù)取自國(guó)內(nèi)某知名網(wǎng)約車平臺(tái)的公開數(shù)據(jù)集,該數(shù)據(jù)集包含2017年7月全部訂單數(shù)據(jù)及8月1~7日部分時(shí)段訂單數(shù)據(jù),共988175條記錄。表1顯示每條訂單記錄包含11個(gè)字段。
表1 訂單記錄包含字段及含義
本文的研究目的是挖掘數(shù)據(jù)集中每個(gè)“行程金額”數(shù)據(jù)背后隱含的定價(jià)規(guī)律。從數(shù)值上看,行程金額最小值為15元,最大值為5077.1元,中位數(shù)為59.68元,均值為75.62元,標(biāo)準(zhǔn)差為67.16元。采用自組織混合網(wǎng)絡(luò)模型[6]進(jìn)行概率密度估計(jì),所得的分布函數(shù)如圖1所示。
從圖1可看出,行程金額(單位為元,以下省略)具有長(zhǎng)尾分布特性,98.4%的數(shù)據(jù)集中分布在[15.0, 241.6]區(qū)間范圍內(nèi),而在[241.6, 5077.1]區(qū)間數(shù)據(jù)分布非常稀疏。對(duì)[241.6, 5077.1]區(qū)間數(shù)據(jù)采用箱線圖(boxplot)進(jìn)行分析,發(fā)現(xiàn)其下四分位數(shù)Q1=261.36,上四分位數(shù)Q3=361.0,四分位間距IQR=99.64,高位極端異常值=659.92。在訂單記錄中,行程金額大于659.92的記錄共有708條,均值為1387.73,平均每條訂單的行程距離為163.07公里,這已超出一般市內(nèi)交通運(yùn)輸?shù)姆秶?,并且最終成功交易數(shù)僅占18.5%。顯然,這部分?jǐn)?shù)據(jù)具有完全不同的統(tǒng)計(jì)特性,需剔除出來逐條分析處理。本文重點(diǎn)分析余下987467條記錄的數(shù)據(jù)。
圖1 行程金額的分布函數(shù)
從訂單狀態(tài)可看出,當(dāng)乘客發(fā)出用車需求時(shí),平臺(tái)可能存在沒有司機(jī)接單的情況,將有或無司機(jī)接單兩種情況分別進(jìn)行統(tǒng)計(jì),可得兩者的概率密度分布函數(shù)如圖2所示。從圖中可以看出,無人接單的記錄,其價(jià)格分布平均右移,在數(shù)值上表現(xiàn)為無司機(jī)接單記錄的平均每公里運(yùn)價(jià)比有司機(jī)接單記錄高出約18.8%。這表明,網(wǎng)約車平臺(tái)可以及時(shí)掌握車輛供給信息,并通過提高價(jià)格來激勵(lì)車輛進(jìn)入市場(chǎng)以實(shí)現(xiàn)供需雙方的平衡。
圖2 有司機(jī)接單與無司機(jī)接單情況下的價(jià)格分布函數(shù)
大數(shù)據(jù)與機(jī)器學(xué)習(xí)中所有方法都依賴于一組用來描述對(duì)象性質(zhì)的特征。每一種算法的成敗取決于其所構(gòu)造的特征能否很好地反映所研究問題的本質(zhì)。正如本文的研究,如果選擇了錯(cuò)誤的特征,就會(huì)對(duì)網(wǎng)約車定價(jià)問題產(chǎn)生錯(cuò)誤的理解。特征選擇通??煞譃檫^濾法與包裹法[7]。過濾法先利用可分性準(zhǔn)則來選擇特征,再進(jìn)行分類或者回歸擬合;包裹法則利用所有的特征來設(shè)計(jì)算法,然后考察各個(gè)特征在算法中的貢獻(xiàn),逐步剔除貢獻(xiàn)最小或無關(guān)的特征。本文在不同階段分別選擇性地使用這兩種方法。
從表1可以看出,本文所使用的數(shù)據(jù)集中,司機(jī)、乘客、起點(diǎn)區(qū)域、終點(diǎn)區(qū)域僅有編號(hào)信息且進(jìn)行了hash變換。這些特征無法直接使用,但可以通過統(tǒng)計(jì)變換計(jì)算出這些字段相應(yīng)的頻次、均值、方差等統(tǒng)計(jì)量,然后利用對(duì)應(yīng)的統(tǒng)計(jì)值來表征這些特征。其次,在某些情況下,必須根據(jù)分析目標(biāo)針對(duì)性地構(gòu)造出相關(guān)的統(tǒng)計(jì)特征。例如,我們推測(cè)每位司機(jī)所使用的車輛類型不盡相同,不同車型可能對(duì)應(yīng)不同的收費(fèi)標(biāo)準(zhǔn),為此可以統(tǒng)計(jì)出每位司機(jī)每公里的平均運(yùn)費(fèi),以此判別不同車型及其收費(fèi)標(biāo)準(zhǔn)。
通過統(tǒng)計(jì)分析及特征構(gòu)造,理論上可以組合出近乎無限維數(shù)的特征,這時(shí)需采用繪制數(shù)據(jù)分布曲線、散點(diǎn)圖(scatter plot)、計(jì)算相關(guān)系數(shù)等方法進(jìn)行基本的分析判斷。圖3、4給出了兩組特征的分布曲線和散布圖示例。
圖3 行程距離與運(yùn)價(jià)的散點(diǎn)圖
圖4 每小時(shí)訂單需求量及平均運(yùn)價(jià)
從圖3可以看出,行程距離與運(yùn)價(jià)之間為強(qiáng)相關(guān)(Spearman秩相關(guān)系數(shù)為0.9186),并且它們之間呈現(xiàn)出明顯的線性關(guān)系。從圖4每小時(shí)訂單需求總數(shù)及平均運(yùn)價(jià)上看,在每天凌晨2點(diǎn)至6點(diǎn)之間,網(wǎng)約車需求量大幅下降,而此時(shí)的服務(wù)價(jià)格比其它時(shí)段高出約20%。
在初步判斷篩選的基礎(chǔ)上,我們進(jìn)一步利用包裹法進(jìn)行特征選擇。本文以GBDT算法作為包裹器(wrapper),將算法與特征選擇集成起來。特征選擇理論上可采用分支定界、遺傳算法等多種方法,但必須考慮到包裹法本身非常耗費(fèi)計(jì)算資源,與這些算法結(jié)合將產(chǎn)生巨大的計(jì)算量而變得難以運(yùn)行。綜合性能與效率兩方面的考慮,本文選用增l減r法來進(jìn)行特征選擇,具體步驟如下:
(1)針對(duì)運(yùn)價(jià)估計(jì)問題,選擇最小化均方差(MSE)為特征判別準(zhǔn)則;
(2)選擇行程距離、行程時(shí)間等關(guān)鍵因素作為主要特征;
(3)逐步增加l個(gè)與其它特征組合后準(zhǔn)則最優(yōu)的特征;
(4)逐步剔除r個(gè)(r<l)與其它特征組合后準(zhǔn)則最差的特征;
(5)重復(fù)步驟(3)-(4),直至沒有特征的增減會(huì)引起準(zhǔn)則的變化。
通過上述算法步驟,最終確定以下13維特征為決定網(wǎng)約車運(yùn)價(jià)的關(guān)鍵因素(見表2)。
表2 決定網(wǎng)約車運(yùn)價(jià)的關(guān)鍵特征及與運(yùn)價(jià)的相關(guān)系數(shù)
利用表2篩選出的13維特征,本節(jié)應(yīng)用多元線性回歸、隨機(jī)森林、支持向量機(jī)、GBDT等多種算法從多種角度進(jìn)行建模分析,驗(yàn)證所選擇特征的合理性及回歸分析結(jié)果的可靠性。特征分析過程中,我們將數(shù)據(jù)分為[15.0, 241.6]、[241.6, 659.9]兩個(gè)組別進(jìn)行討論。
多元線性回歸方法的分析結(jié)果如表3所示。線性模型雖然形式簡(jiǎn)單,但易于建模且蘊(yùn)含著機(jī)器學(xué)習(xí)中的一些基本概念與思想,同時(shí)可直觀地表達(dá)各個(gè)特征在預(yù)測(cè)中的重要性,可對(duì)各種特征在回歸模型中所起的作用給出總體的解釋。
從回歸結(jié)果可以看出:(1)兩組數(shù)據(jù)的復(fù)相關(guān)系數(shù)分別為0.939和0.830,說明多元線性回歸效果良好;(2)在兩組數(shù)據(jù)中,行程距離、司機(jī)每公里運(yùn)價(jià)(按車型)、每小時(shí)平均運(yùn)價(jià)、Day of week等特征對(duì)運(yùn)價(jià)的作用均相當(dāng)顯著;(3)乘客的累積消費(fèi)金額對(duì)定價(jià)的影響也非常明顯,并且呈現(xiàn)正相關(guān)特性;乘客累積預(yù)約次數(shù)對(duì)定價(jià)也有一定影響,呈負(fù)相關(guān)性,相當(dāng)于消費(fèi)(預(yù)約)次數(shù)越多,平臺(tái)對(duì)價(jià)格給予一定的折扣。
GBDT算法擬合結(jié)果如表4所示。提升樹可以擬合輸入與輸出數(shù)據(jù)之間復(fù)雜的關(guān)系,是機(jī)器學(xué)習(xí)及大數(shù)據(jù)分析中性能最好的方法之一[8]。在提升樹算法中我們采用8折交叉驗(yàn)證的方法,將數(shù)據(jù)集分為8等份,每次依次取出1份數(shù)據(jù)作為校驗(yàn)數(shù)據(jù),其余7份數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),最后以8次交叉驗(yàn)證的平均值作為最后的結(jié)果。從表4可以看出,在提升樹算法中學(xué)習(xí)結(jié)果得到大幅度的提升,第1組數(shù)據(jù)的最小化均方差MSE從14.36下降到8.26,第2組數(shù)據(jù)的MSE從45.49下降到11.65。
對(duì)于決策樹算法,通常可用每個(gè)特征被選中的頻次及由此對(duì)優(yōu)化目標(biāo)函數(shù)所帶來的作用來衡量其貢獻(xiàn)大小。本節(jié)以每個(gè)特征所帶來的均方誤差減少值除以總的均方誤差減少值,來表示每個(gè)特征的重要程度(以百分比表示)。從表4可以看出,有些在相關(guān)性分析或線性回歸中不被認(rèn)為重要的特征(如乘客累積消費(fèi)金額)實(shí)際上對(duì)網(wǎng)約車定價(jià)產(chǎn)生了重要的影響,而有些特征正好相反(如Day of week)。這是由于在相關(guān)性分析或線性回歸分析中,每一維的特征都被分開單獨(dú)考慮,而提升決策樹算法則將所有特征綜合在一起,從更高的維度分析問題,因此能得到更精確的分析結(jié)果。
從表4中可以看出,隨著學(xué)習(xí)算法的提升,“乘客累積消費(fèi)金額”這一特征的重要性不斷提高,在長(zhǎng)距離訂單(第2組數(shù)據(jù))中,其重要程度甚至超過了30%。從數(shù)據(jù)上看主要有兩種原因:(1)對(duì)于長(zhǎng)距離訂單,行程時(shí)間無法精確估計(jì),因此這一特征的重要性下降,而其它特征的作用就會(huì)明顯表現(xiàn)出來。(2)長(zhǎng)距離訂單的定價(jià)規(guī)則有更大的隨意性,往往會(huì)因人而異,“乘客累積消費(fèi)金額”則部分反映了乘客的消費(fèi)習(xí)慣和乘車偏好,因此它對(duì)定價(jià)的正向影響在長(zhǎng)距離訂單中的權(quán)重有所增加。
表3 多元線性回歸分析結(jié)果(按第1組數(shù)據(jù)偏相關(guān)系數(shù)排序)
表4 提升決策樹分析結(jié)果(按第1組數(shù)據(jù)重要性排序)
對(duì)全部987 467條記錄(均值=74.67)統(tǒng)一建立一個(gè)包含30 000顆決策樹的GBDT回歸模型,采用8折交叉驗(yàn)證得到平均絕對(duì)誤差為4.63,即預(yù)測(cè)結(jié)果為74.67-4.63,相對(duì)誤差僅為6.2%。這一結(jié)果表明,利用本文所篩選出的特征可對(duì)網(wǎng)約車定價(jià)規(guī)則做出準(zhǔn)確的刻畫描述。
需進(jìn)一步說明的是,本文所使用的訓(xùn)練數(shù)據(jù)集數(shù)據(jù)量相對(duì)有限,由此造成有些統(tǒng)計(jì)量會(huì)帶有一定程度的偏差,對(duì)算法的預(yù)測(cè)精度也會(huì)帶來較大影響。此外,數(shù)據(jù)中有許多關(guān)鍵信息被hash處理而刻意隱藏。在獲得更充分?jǐn)?shù)據(jù)的前提下,本文算法的預(yù)測(cè)精度還可較大幅度地提高。
本文應(yīng)用多種特征選擇方法,從網(wǎng)約車大數(shù)據(jù)中合理篩選出定價(jià)規(guī)則的關(guān)鍵特征,在此基礎(chǔ)上進(jìn)行回歸分析,得到較為精確的預(yù)測(cè)結(jié)果。分析發(fā)現(xiàn),網(wǎng)約車的定價(jià)特征可分為三個(gè)組成部分。第一部分定價(jià)特征與傳統(tǒng)的出租車定價(jià)規(guī)則相似,比如行程距離和時(shí)間、每小時(shí)平均運(yùn)價(jià)以及司機(jī)每公里運(yùn)價(jià)(按車型)等。第二部分包含訂單需求變化信息,比如每小時(shí)訂單數(shù)、起點(diǎn)和終點(diǎn)區(qū)域訂單數(shù)等,表明網(wǎng)約車平臺(tái)會(huì)根據(jù)乘車需求的時(shí)空變化適時(shí)調(diào)整定價(jià),充分體現(xiàn)出動(dòng)態(tài)定價(jià)的優(yōu)勢(shì)。第三部分與乘客的消費(fèi)信息相關(guān),說明網(wǎng)約車平臺(tái)注重收集數(shù)據(jù)分析乘客消費(fèi)習(xí)慣,存在消費(fèi)越多則定價(jià)越高的相關(guān)關(guān)系,同時(shí)也反映出消費(fèi)次數(shù)越多給予一定價(jià)格折扣的激勵(lì)策略。
這種按照需求變化和乘客消費(fèi)習(xí)慣的定價(jià)策略及其所帶來的影響值得進(jìn)一步深入分析與討論。首先,第一部分定價(jià)特征說明網(wǎng)約車與傳統(tǒng)巡游出租車本質(zhì)上屬于同質(zhì)服務(wù),兩者在價(jià)格機(jī)制上遵循大體相同的原則,即以行程距離、行程時(shí)間、車型等因素作為定價(jià)的主要依據(jù)。其次,第二部分特征表明網(wǎng)約車定價(jià)相比出租車考慮了更多精細(xì)化因素,由于需求和供給在時(shí)空上的分布不均勻、也不匹配,此時(shí)動(dòng)態(tài)定價(jià)體現(xiàn)了價(jià)格對(duì)供給的激勵(lì)作用,有利于市場(chǎng)資源實(shí)時(shí)配置,這正是網(wǎng)約車的競(jìng)爭(zhēng)優(yōu)勢(shì)所在。第三部分特征反映網(wǎng)約車平臺(tái)利用大數(shù)據(jù)對(duì)消費(fèi)者偏好進(jìn)行刻畫并實(shí)施個(gè)性化定價(jià),這也是判斷平臺(tái)是否存在價(jià)格壟斷和過度攫取消費(fèi)者利益的重要依據(jù),進(jìn)一步對(duì)消費(fèi)水平和定價(jià)關(guān)系的合理性做出判斷后,可為政府部門對(duì)平臺(tái)的價(jià)格監(jiān)管提供分析工具和判斷標(biāo)準(zhǔn)。