謝小蘭+彭亞發(fā)
【摘要】根據(jù)東陽市公共自行車各站點間的自流動性的特點,借助于成熟的回歸分析方法,提出了迭代回歸模型。通過挖掘城市公共自行車系統(tǒng)中的原始數(shù)據(jù),依據(jù)公共自行車需求與用地類型,居住人口和建筑面積等相關(guān)變量,利用多元回歸分析法確定統(tǒng)計數(shù)據(jù)與自行車投放預(yù)測量間近似的函數(shù)關(guān)系,再通過若干次迭代提高預(yù)測精度,以達到更準確的預(yù)測站點投放自行車的數(shù)量。迭代回歸模型不僅能夠有效預(yù)測并改善目前公共自行車站點的投放數(shù)量需求,同時能夠?qū)Τ醮卧O(shè)置公共自行車站點的城市提供投放依據(jù),在滿足城市居民低碳出行需求的同時節(jié)約資源,具有一定的實用價值與現(xiàn)實意義。
【關(guān)鍵詞】數(shù)據(jù)挖掘;公共自行車;回歸模型
1引言
當前,城市大氣污染和交通擁堵問題日益嚴峻,汽車排放的尾氣已經(jīng)成為影響城市空氣質(zhì)量的最主要因素。而城市公共自行車能夠在很大程度上緩解這一問題,城市公共自行車系統(tǒng)作為大眾運輸?shù)闹匾M成部分,在短程接駁、站間換乘以及休閑旅游中發(fā)揮著巨大的作用,因為在城市短距離的空間,騎自行車出行很顯然是一種低碳環(huán)保的方式。東陽市公共自行車系統(tǒng)服務(wù)項目自2014年11月第一期運營以來,受到市民的廣泛關(guān)注,據(jù)了解,東陽從一期公共自行車投入運營以來到目前,已辦理公共自行車租賃功能的公交IC卡1.2萬余張,自行車租用量累計40余萬人次。二期投入運營后,東陽市公共自行車租賃點累計達到135個,公共自行車投放累計達3000輛。但是,隨著市民對公共自行車的需求量不斷的增大,東陽市公共自行車系統(tǒng)在運行過程中逐漸出現(xiàn)站點規(guī)模等級化程度不高。站點的分布規(guī)模不成層次系統(tǒng),出現(xiàn)有的站點利用率不高,閑置太多車輛,造成資源浪費,而有的站點租車換車緊張的現(xiàn)象;各站點內(nèi)鎖樁數(shù)量的設(shè)置趨于經(jīng)驗化,各站點投放公共自行車數(shù)量經(jīng)驗化主要體現(xiàn)在投放模式比較單一粗放,沒有充分的考慮站點之間的不同所造成的不同需求。公共自行車投放數(shù)量的不科學(xué)造成部分站點內(nèi)的自行車供不應(yīng)求,而也有不少站點的自行車供大于求,達不到資源優(yōu)化配置的效果,不能為城市人群提供更好的服務(wù),因此,如何合理高效的優(yōu)化城市公共自行車服務(wù)系統(tǒng)已成為當下亟待解決的問題。
因此,利用迭代回歸模型對東陽市公共自行車系統(tǒng)進行優(yōu)化,可以依托于租賃點日常自行車借出情況的詳細統(tǒng)計數(shù)據(jù),租賃點所在地區(qū)的土地利用情況,居民人口數(shù)量和建筑面積的數(shù)據(jù),建立迭代多元回歸模型來求解租賃點自行車投放數(shù)量,通過迭代循環(huán)近似求解出租賃點公共自行車的投放量。迭代回歸模型在公共自行車系統(tǒng)優(yōu)化中的應(yīng)用研究,可以預(yù)測數(shù)據(jù)來源于東陽市公共自行車系統(tǒng)對站點每日不同時段的自行車租借人次與周轉(zhuǎn)率的準確統(tǒng)計,數(shù)據(jù)準確可靠,預(yù)測采用回歸分析法與迭代法相結(jié)合方法,逐步逼近實際需求,回歸分析法基于觀測數(shù)據(jù)與影響范圍內(nèi)的土地利用建立適當?shù)淖兞恳蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)的關(guān)系,迭代法則保證了預(yù)測數(shù)據(jù)與實際需求的盡可能的接近,兩種方法的結(jié)合保障了預(yù)測方法的科學(xué)與精確,從而確保了模型較高的可靠性。
2東陽公共自行車數(shù)據(jù)再處理分析
數(shù)據(jù)挖掘需要處理大量的數(shù)據(jù),這些數(shù)據(jù)都會存儲在公共自行車服務(wù)系統(tǒng)數(shù)據(jù)庫中,但這些原始的數(shù)據(jù)沒有經(jīng)過預(yù)處理分析統(tǒng)計是不適合直接挖掘,需要對原始數(shù)據(jù)進行有針對性的篩選、轉(zhuǎn)換和消除一些冗余數(shù)據(jù)等,因為數(shù)據(jù)預(yù)處理工作是否到位直接影響著挖掘算法是否高效。
以東陽市公共自行車服務(wù)系統(tǒng)中提供的原始數(shù)據(jù)進行統(tǒng)計分析。首先應(yīng)將數(shù)據(jù)表進行分別統(tǒng)計分析,統(tǒng)計公共自行車服務(wù)系統(tǒng)中每天所有站點的借車頻次和還車頻次,對有異常的數(shù)據(jù),利用統(tǒng)計判別法給予剔除,并按累計的借車頻次和還車頻次分別給出排序,同時,統(tǒng)計分析出每次用車時長的分布情況。通過數(shù)據(jù)分析,結(jié)合繪制的圖形進行描述統(tǒng)計。統(tǒng)計借車頻次最高和還車頻次最高的站點,需根據(jù)相關(guān)數(shù)據(jù)進行逐一統(tǒng)計,并綜合統(tǒng)計數(shù)據(jù)統(tǒng)計每張借車卡累計借車次數(shù),同時根據(jù)統(tǒng)計數(shù)據(jù)分析分布情況。另外,需要定義兩個站點之間的距離為從某一站點借車到另一站點還車所用的最短時長,由此,從數(shù)據(jù)中可以得到一些基本站點之間的距離,對于不能從數(shù)據(jù)中讀取的兩個站點間的距離可以應(yīng)用算法進行求解。
公共自行車的原始數(shù)據(jù)都是數(shù)據(jù)挖掘技術(shù)的必要準備數(shù)據(jù),數(shù)據(jù)的準確度將直接影響公共自行車服務(wù)系統(tǒng)優(yōu)化模型的構(gòu)建。對于公共自行車站點與鎖樁數(shù)量設(shè)置效果的評定,數(shù)據(jù)處理分析的準確度將對優(yōu)化模型的構(gòu)建產(chǎn)生直接的影響,因此對于關(guān)鍵數(shù)據(jù)要進行再處理和精確分析。假如某個站點的自行車利用率高,借車和還車的頻次相協(xié)調(diào),那么這個站點設(shè)置的很成功,就要對這類數(shù)據(jù)進行分析保存。對一些站點自行車利用率不高,數(shù)據(jù)沒有明顯變化,那么可以取平均值為衡量標準,利用相關(guān)原始數(shù)據(jù)統(tǒng)計分析歸納最終可得到68個樣本,截取部分數(shù)據(jù)如表1所示。
表1公共自行車站點布置情況統(tǒng)計表(部分)
站點
ID主要
對象
性質(zhì)區(qū)域?qū)ο蟮?/p>
經(jīng)濟水平站點區(qū)
域類別住宅
距離商場區(qū)
距離附近
站點人流量站點
鎖樁
密度站點
設(shè)置
效果
等級Z001外地人低商場區(qū)近近少大不GOODZ003本地人高高級宅區(qū)較近近無大不MID3迭代模型的建立與回歸方法的求解
回歸分析法從被測變量和與它有關(guān)的解釋變量間的因果關(guān)系出發(fā),通過建立回歸分析模型,預(yù)測對象未來發(fā)展的一種定量方法。通常處在一個系統(tǒng)中的各種變量可以有兩種關(guān)系即函數(shù)關(guān)系和相關(guān)關(guān)系。當事物之間具有確定關(guān)系時,則變量之間表現(xiàn)為某種函數(shù)關(guān)系。另外有些事物,比如租賃點投放自行車數(shù)量與土地利用類型,周邊一定范圍居住人口數(shù)量和有效建筑面積之間,雖然有著密切的聯(lián)系,但并不能準確的用某一函數(shù)關(guān)系式確定投放數(shù)量與三者間的關(guān)系,稱這類事物之間具有相關(guān)關(guān)系。
通過比較現(xiàn)有預(yù)測模型的缺陷,從而提出迭代回歸模型的有效性和可靠性?;貧w分析法從被測變量和與它有關(guān)的解釋變量間的因果關(guān)系出發(fā),通過建立回歸分析模型,預(yù)測對象未來發(fā)展的一種定量方法。通常處在一個系統(tǒng)中的各種變量可以有兩種關(guān)系即函數(shù)關(guān)系和相關(guān)關(guān)系。當事物之間具有確定關(guān)系時,則變量之間表現(xiàn)為某種函數(shù)關(guān)系。另外有些事物,比如站點投放自行車數(shù)量與土地利用類型,周邊一定范圍居住人口數(shù)量和有效建筑面積之間,雖然有著密切的聯(lián)系,但并不能準確的用某一函數(shù)關(guān)系式確定投放數(shù)量與三者間的關(guān)系,稱這類事物之間具有相關(guān)關(guān)系。迭代回歸模型的建模要立足金華市范圍內(nèi)設(shè)置的所有自行車站點,每個站點的投放數(shù)量上必然存在供不應(yīng)求與供大于求的情況,也必然存在一部分運作良好,供需平衡的站點。這些供需平衡的站點的自行車投放數(shù)量必然與周邊包括土地利用類型,居住人口數(shù)量和建筑面積等等條件相適應(yīng),即投放數(shù)量與周邊條件之間具有的這種確定的關(guān)系,投放數(shù)量是多種相關(guān)因素的函數(shù),滿足一定的近似函數(shù)關(guān)系式。具體算法分析如下。
首先以屬性P進行假設(shè),假設(shè)正例集的個數(shù)為x個,反例集的個數(shù)為y個,那P的信息量為Ix,y=-xx+ylog2xx+y-yx+ylog2yx+y,E(P)為EP=∑ki=1mi+nix+yEPi
其中EPi=-mimi+nilog2mimi+ni-nimi+nilog2nimi+ni。設(shè)r=mi-nimi+ni;則EPi=1+r2log21+r2+1-r2log21-r2=1+r2ln2ln(1+r)+1-r2ln2ln(1-r)-1。把ln(1+x)和ln(1-x)展開,則EPi=1+r2ln2∑∞n=1(-1)n-1rnn-1-r2ln2∑∞n=1rnn-1=…=1ln2∑∞n=1r2n2n(2n-1)-1
根據(jù)公式推出EPi=1ln2(r22+r412+r630+r856+…)-1代入上式計算出誤差在0.1以內(nèi)并推出EP≈∑ki=1mi+nix+y[1-0.72*r2]。為了克服算法以非最優(yōu)屬性作為新節(jié)點的缺點,在算法中設(shè)置一個權(quán)值J,設(shè)屬性P有a種值,則J=1/a。將屬性P的信息增益公式G(P)=I(x,y)-EP改為G′(P)=[I(x,y)-∑ki=1mi+nix+y(1-0.72*r2)]1a。
4總結(jié)
立足東陽市公共自行車各站點間的自流動性的特點,借助于數(shù)據(jù)挖掘技術(shù)中成熟的回歸分析方法,提出了迭代回歸模型。通過挖掘公共自行車系統(tǒng)中的原始數(shù)據(jù),依據(jù)公共自行車需求與用地類型,居住人口和建筑面積等相關(guān)變量,利用多元回歸分析法確定統(tǒng)計數(shù)據(jù)與自行車投放預(yù)測量間近似的函數(shù)關(guān)系,再通過若干次迭代提高預(yù)測精度,以達到更準確的預(yù)測站點投放自行車的數(shù)量。迭代回歸模型不僅能夠有效預(yù)測并改善目前公共自行車站點的投放數(shù)量需求,同時能夠?qū)Τ醮卧O(shè)置公共自行車站點或增加站點的城市提供投放依據(jù),在滿足金華市居民低碳出行需求的同時節(jié)約資源。
基金項目:
本文為2016浙江廣廈建設(shè)職業(yè)技術(shù)學(xué)院“應(yīng)用數(shù)據(jù)挖掘技術(shù)優(yōu)化東陽公共自行車系統(tǒng)研究”的研究成果,課題編號:16ZR011。