李 煒 杭州東信北郵信息技術(shù)有限公司,北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室副教授
隨著無線網(wǎng)絡(luò)通信的快速普及,通過無線網(wǎng)絡(luò)提供設(shè)備來偵測用戶設(shè)備相關(guān)信息變得越來越容易,這為客流分析及人群移動性等研究課題提供了新的方法和途徑。本文將利用無線通信技術(shù)(Wi-Fi)來獲取用戶信息,結(jié)合用戶周圍的環(huán)境信息(地理位置信息)來對現(xiàn)實(shí)世界中的客流及用戶行為進(jìn)行分析的技術(shù)稱為基于Wi-Fi探測數(shù)據(jù)的客流分析?;赪i-Fi探測數(shù)據(jù)的客流分析對用戶、大型活動負(fù)責(zé)人乃至場館經(jīng)營者都具有很大價(jià)值,用戶將受益于個性化服務(wù),大型活動負(fù)責(zé)人將使用戶最大化地參與活動,場館經(jīng)營者將全面了解并掌控場館的客流情況并進(jìn)行有效的管理控制。
本文通過在公共場所提供智能Wi-Fi信號設(shè)備進(jìn)行Wi-Fi信號探測,收集到包括設(shè)備MAC地址、RSSI信號強(qiáng)度、信號時間戳等在內(nèi)的設(shè)備數(shù)據(jù)。收集到數(shù)據(jù)之后,使用滑動窗口加權(quán)平均的方案對數(shù)據(jù)進(jìn)行清洗。然后,通過開源Web可視化工具對統(tǒng)計(jì)結(jié)果進(jìn)行可視化展現(xiàn),同時提供交互可視化工具。之后,采用改進(jìn)的基于滑動窗口的二次指數(shù)平滑算法對短時客流進(jìn)行了預(yù)測。同時,對不同區(qū)間的真實(shí)客流數(shù)據(jù)進(jìn)行了實(shí)地統(tǒng)計(jì),利用回歸分析的方法,建立了各區(qū)間內(nèi)Wi-Fi探測數(shù)據(jù)和真實(shí)客流量的回歸方程,從而為公共場所經(jīng)營者提供了分時段的客流準(zhǔn)確數(shù)據(jù)參考。
如圖1所示,本研究內(nèi)容包括基于Wi-Fi設(shè)備信號探測系統(tǒng)、Wi-Fi探測數(shù)據(jù)采集系統(tǒng)、Wi-Fi探測數(shù)據(jù)可視化平臺等項(xiàng)目。首先,Wi-Fi設(shè)備信號探測系統(tǒng)中,在智能Wi-Fi設(shè)備上部署了基于openWRT研發(fā)的程序,能夠偵測環(huán)境中的Wi-Fi信號幀并以一定格式(設(shè)備MAC地址、設(shè)備信息、RSSI強(qiáng)度、時間戳等)上報(bào)給服務(wù)器。而Wi-Fi探測數(shù)據(jù)采集系統(tǒng)中,服務(wù)器端接收分布式的Wi-Fi設(shè)備上報(bào)的探測數(shù)據(jù),進(jìn)行儲存并通過長連接形式傳送給數(shù)據(jù)使用方。Wi-Fi探測數(shù)據(jù)可視化分析系統(tǒng)中,服務(wù)端通過長連接從數(shù)據(jù)采集系統(tǒng)中獲取探測原始數(shù)據(jù),通過對原始數(shù)據(jù)進(jìn)行處理,得到偵測到的每一設(shè)備的設(shè)備信息、駐留時長以及某一探測點(diǎn)的實(shí)時客流、歷史客流、客流變化等信息,并將相關(guān)數(shù)據(jù)存儲在數(shù)據(jù)庫中。探測數(shù)據(jù)可視化呈現(xiàn)子系統(tǒng),包括實(shí)時數(shù)據(jù)監(jiān)控面板、歷史數(shù)據(jù)分析面板、設(shè)備分組管理面板、系統(tǒng)用戶管理面板4個部分。
圖1 數(shù)據(jù)收集分析可視化系統(tǒng)結(jié)構(gòu)圖
本文基于可視化平臺提供的某一月每一天的Wi-Fi探測數(shù)據(jù)進(jìn)行客流趨勢分析和統(tǒng)計(jì),然后將統(tǒng)計(jì)分析和預(yù)測結(jié)果反饋給可視化平臺進(jìn)行可視化呈現(xiàn),兩者相輔相成。
同一天不同時段的客流量是一個典型的時間序列上的趨勢預(yù)測問題,對于趨勢預(yù)測問題,指數(shù)平滑算法是一個常用的經(jīng)典算法。指數(shù)平滑算法一般分為一次指數(shù)平滑算法、二次指數(shù)平滑算法、三次指數(shù)平滑算法。一次指數(shù)平滑算法像擁有無限記憶且權(quán)值呈指數(shù)級遞減的移動平均法。越近的歷史記錄對當(dāng)前平滑值的計(jì)算權(quán)值越大。一次指數(shù)平滑算法足夠簡單、易于理解,但一次指數(shù)平滑法中沒有考慮序列中的趨勢信息,得到的預(yù)測結(jié)果并不適合于具有趨勢的時間序列,如果用來處理有趨勢的序列,平滑值將始終滯后于原始數(shù)據(jù)。而且如果數(shù)據(jù)波動較大,波動的變化將需要多次迭代才能收斂。在一個客流波峰過程中,如果在波峰開始部分預(yù)測的比較準(zhǔn)確,那么在接下來的時間內(nèi)預(yù)測值將始終低于實(shí)際值。在波峰之后,預(yù)測值又將始終高于實(shí)際值。調(diào)整的過程較慢。
對于一次指數(shù)平滑算法無法預(yù)測趨勢的問題,業(yè)界一般采用二次指數(shù)平滑算法來解決,二次指數(shù)平滑算法保留了平滑信息和趨勢信息,使得模型可以預(yù)測具有趨勢的時間序列。
二次指數(shù)平滑算法很好地解決了一次指數(shù)平滑算法沒有體現(xiàn)時間序列趨勢性的問題,但對于具有周期性的時間序列數(shù)據(jù),沒有將周期性(或者季節(jié)性)考慮進(jìn)去。例如,對于客流數(shù)據(jù),多日期、同時段的客流數(shù)據(jù)可能具有規(guī)律性,每個月相同日期的客流也可能具有規(guī)律性。從時間軸的視角上看,也就是客流變化可能會具有每月和每天的周期性。針對此類問題,業(yè)界現(xiàn)有的解決方案有三次指數(shù)平滑算法等。三次指數(shù)平滑算法也叫做Holt-Winter指數(shù)平滑算法,三次指數(shù)平滑算法相比二次指數(shù)平滑算法,增加了第三個變量來描述周期性。
但本文研究的基于Wi-Fi探測數(shù)據(jù)的客流統(tǒng)計(jì)問題,數(shù)據(jù)量較大,同時指數(shù)平滑算法是一種遞歸算法,迭代運(yùn)算,逐步收斂,通過遞歸循環(huán)將空閑時間的歷史記錄用于當(dāng)前的預(yù)測中。過多的樣本量會使遞歸序列變長,加大運(yùn)算量和運(yùn)算空間,會給系統(tǒng)性能造成負(fù)擔(dān)。
針對此問題,本研究通過觀察客流數(shù)據(jù)的可視化結(jié)果得知,客流變化具有嚴(yán)格的周期性,每天的客流數(shù)據(jù)構(gòu)成一個周期,因而使用三次指數(shù)平滑算法進(jìn)行從頭迭代來考慮周期性的必要性較小。通過對多日期同時段的客流數(shù)據(jù)進(jìn)行縱向?qū)Ρ?,從日期序列上對?dāng)前時段客流量進(jìn)行預(yù)測,從而考慮客流周期性的影響。通過對同一天不同時段的客流量數(shù)據(jù)進(jìn)行迭代運(yùn)算來從時間序列上對當(dāng)前時段客流量進(jìn)行預(yù)測,從而考慮趨勢性的影響。在兩個時間序列上均采用基于滑動窗口的二次指數(shù)平滑算法進(jìn)行計(jì)算,便可使用較少的計(jì)算量實(shí)現(xiàn)客流預(yù)測的趨勢性和周期性。
si為基于同一天時間序列的當(dāng)前平滑值。
xi+h為基于同一天時間序列的當(dāng)前預(yù)測值。
基于相同的公式,可以得到y(tǒng)i+h,代表基于多日期同時段的時間序列得到的當(dāng)前預(yù)測值。
之后,可以將一天內(nèi)的客流趨勢預(yù)測結(jié)果和周期性的預(yù)測結(jié)果通過平衡參數(shù)進(jìn)行加權(quán)平均,從而得到誤差率更低的預(yù)測結(jié)果。
最后,通過對客流數(shù)據(jù)進(jìn)行合理的時段分區(qū)和實(shí)際客流統(tǒng)計(jì),并通過回歸分析,可以得到不同時段內(nèi)實(shí)際客流值和Wi-Fi探測值之間的回歸方程,最后求得實(shí)際客流值的預(yù)測公式。
本文選取了在某物業(yè)小區(qū)部署的Wi-Fi設(shè)備在某月的Wi-Fi探測數(shù)據(jù)來進(jìn)行分析。該月每日客流總量在200人左右,本文選取了某一天(該月20日)的客流數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
首先,本研究在同一天不同時段的時間序列客流數(shù)據(jù)上應(yīng)用了二次指數(shù)平滑算法。通過試驗(yàn),擇優(yōu)設(shè)定參數(shù)s0=x0,t0=0,α =0.75,β =0.7,h=1。執(zhí)行數(shù)據(jù)處理程序,得到的數(shù)據(jù)經(jīng)過可視化之后,效果如圖2所示。
分析數(shù)據(jù)可知,在數(shù)據(jù)變化較為平穩(wěn)時,該預(yù)測方案能保持95%以上的準(zhǔn)確率。通過計(jì)算,在該種方案下,客流預(yù)測的平均誤差率是10.32%,即平均準(zhǔn)確率為89.68%。進(jìn)一步觀察可視化結(jié)果并結(jié)合數(shù)據(jù)分析可以發(fā)現(xiàn),當(dāng)數(shù)據(jù)變化率較大時,該種預(yù)測方案的預(yù)測結(jié)果會出現(xiàn)較大的誤差率。主要原因是客流趨勢在預(yù)測點(diǎn)之前處于單調(diào)增加或者單調(diào)減少的趨勢中,負(fù)責(zé)記錄趨勢因素的參數(shù)起的作用過大,這一問題將在接下來的基于多日期、同時段時間序列的二次指數(shù)平滑算法的應(yīng)用中嘗試解決。
在多日期同時段時間序列的客流數(shù)據(jù)分析中,本研究根據(jù)現(xiàn)有的數(shù)據(jù)粒度,將一天劃分為48個時間區(qū)間,每個區(qū)間存在一個客流數(shù)據(jù)值。在算法實(shí)現(xiàn)程序中,本研究構(gòu)造了48個數(shù)組,每個數(shù)組里面有當(dāng)前月份當(dāng)前日期之前的N天內(nèi)同一時段的客流數(shù)據(jù)值。對于每個數(shù)組,應(yīng)用二次指數(shù)平滑算法進(jìn)行了預(yù)測。
由二次指數(shù)平滑算法的公式可知,實(shí)際客流量的歷史記錄以加權(quán)平均的方式影響當(dāng)前的預(yù)測,距離當(dāng)前預(yù)測時間越久,對預(yù)測結(jié)果的影響越小。為此,設(shè)計(jì)了滑動窗口的方法。通過控制滑動窗口的大小,減少預(yù)測時的計(jì)算量。不同滑動窗口下該預(yù)測方案的誤差率變化如圖3所示。
從相關(guān)數(shù)據(jù)可以看出,在滑動窗口為6或1時,該方案的誤差率相對較小,為15%左右;考慮到充分利用歷史數(shù)據(jù)和減少誤差率的需求,本研究把滑動窗口值設(shè)定為6。
圖2 同一天不同時段的時間序列的預(yù)測結(jié)果
圖3 預(yù)測結(jié)果準(zhǔn)確率隨計(jì)算的歷史天數(shù)的變化
此時經(jīng)過計(jì)算,該預(yù)測方案下的平均誤差率為15.31%,略高于基于同一天內(nèi)的時間序列的預(yù)測方案。分析可知,在多日期同時段由于時段跨度較大,客流趨勢的規(guī)律性弱于在同一天不同時段的客流趨勢規(guī)律性,因而得到了相對較高的誤差率。在接下來的綜合方案中,會根據(jù)這一情況調(diào)整該方案所得預(yù)測結(jié)果的權(quán)重。
在上文中,無論基于單日不同時段時間序列的預(yù)測方案,還是基于多日同時段時間序列的預(yù)測方案,都只考慮了時間序列的趨勢性或者周期性因素中的一個,無法兼顧兩者。本研究提出了結(jié)合同一天內(nèi)的時間序列和多日期同時段時間序列使用二次指數(shù)平滑算法進(jìn)行預(yù)測的方案。假設(shè)基于多日期同時段時間序列預(yù)測結(jié)果是xi+h,基于多日期同時段時間序列的預(yù)測結(jié)果是yi+h,使用以下公式將兩個預(yù)測結(jié)果進(jìn)行加權(quán)平均。其中r是可變參數(shù)。
在試驗(yàn)過程中,對不同r的取值下誤差率的情況進(jìn)行了試驗(yàn)計(jì)算,得到了不同的r下平均誤差率的變化如圖4所示。
計(jì)算結(jié)果顯示,當(dāng)r=0.63時,結(jié)合方案可以取得最低的誤差率為8.34%,相比基于同一天內(nèi)的時間序列的預(yù)測方案誤差率下降了19%,相對基于多日期同時段時間序列的預(yù)測方案誤差率下降了45%。試驗(yàn)結(jié)果表明,該方案確實(shí)能夠提升基于二次指數(shù)平滑算法的預(yù)測方案的準(zhǔn)確率。
圖4 總誤差率隨參數(shù)r的變化趨勢
為了研究Wi-Fi客流統(tǒng)計(jì)數(shù)據(jù)和實(shí)際客流直接的關(guān)系,本研究在該月對該物業(yè)小區(qū)的實(shí)際客流進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果顯示,實(shí)際客流與Wi-Fi探測客流之間的相關(guān)性在高峰期和低峰期有較大差別。本研究采取了有序聚類Fisher算法,劃分了每天的客流峰值區(qū)間,并建立了Wi-Fi探測客流量x和實(shí)際統(tǒng)計(jì)客流量y的回歸方程,結(jié)果如表1所示。
表1 不同時段預(yù)測客流量和實(shí)際統(tǒng)計(jì)客流量的回歸方程
每個客流量區(qū)間的回歸方程的顯著性檢驗(yàn)指標(biāo)|R|均大于0.85,說明Wi-Fi探測所得的客流量和實(shí)際統(tǒng)計(jì)的客流量y存在一定程度的線性相關(guān)性,可以將Wi-Fi探測數(shù)據(jù)所得的客流量通過回歸方程近似計(jì)算出實(shí)際客流量。
本文利用部署在某物業(yè)小區(qū)的Wi-Fi提供設(shè)備采集的客流數(shù)據(jù),通過對同一天不同時段的時間序列和多日期同時段的時間序列的客流數(shù)據(jù)分別應(yīng)用二次指數(shù)平滑算法,并通過試驗(yàn)確定了平衡參數(shù),對兩個緯度的預(yù)測結(jié)果進(jìn)行加權(quán)平均,使得最后的綜合預(yù)測結(jié)果相比單一維度的預(yù)測結(jié)果平均誤差率降低19%~45%,準(zhǔn)確率保持在92%左右。之后,通過對實(shí)際客流量進(jìn)行人工統(tǒng)計(jì)并與Wi-Fi探測結(jié)果在不同的峰值區(qū)間進(jìn)行回歸分析得到相應(yīng)時段的回歸方程,進(jìn)一步提高了預(yù)測客流量的準(zhǔn)確率。由于時間和條件所限,本文中使用的數(shù)據(jù)量還不夠大,進(jìn)行試驗(yàn)驗(yàn)證的樣本數(shù)量也有限,實(shí)際統(tǒng)計(jì)客流的方式也可換用更為先進(jìn)的方式。在今后的研究中,還會進(jìn)一步完善試驗(yàn)條件從而得到更加完善的預(yù)測方案和實(shí)際效果。
[1]張明光,張鈺,陳曉婧,等.基于Holt-Winter超短期負(fù)荷預(yù)測的配電網(wǎng)狀態(tài)估計(jì)算法[J].蘭州理工大學(xué)學(xué)報(bào),2016,42(2):92-96.
[2]朱翠濤,王艷歡.基于滑動窗口的指數(shù)平均動態(tài)電源管理預(yù)測算法[J].中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,28(04):102-105.
[3]方開泰.有序樣品的一些聚類方法[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),1982,5(1):94-101.
[4]楊智偉,趙騫,趙勝川,金雷,毛羿.基于公交IC卡數(shù)據(jù)信息的客流預(yù)測方法研究[J].交通標(biāo)準(zhǔn)化,2009(09):115-119.
[5]茆詩松,丁元,周紀(jì)薌.回歸分析及其試驗(yàn)設(shè)計(jì)[M].上海:華東師范大學(xué)出版社,1981.