• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Spark框架的實時交通流量預測方法

      2020-07-31 17:37:50章茂庭楊楠蔣順英鄭永玲白宇
      現代信息科技 2020年4期

      章茂庭 楊楠 蔣順英 鄭永玲 白宇

      摘 ?要:在數據科技時代,針對集中式挖掘平臺下傳統LSTM網絡模型在處理移動軌跡大數據時存在的計算與存儲問題,提出一種Spark框架下基于LSTM優(yōu)化模型的實時交通流量預測方法,旨在于提高交通流量預測的精確性。實踐結果表明,基于真實的出租車GPS軌跡大數據,Spark框架下的LSTM優(yōu)化模型可以實時準確地預測交通流量。

      關鍵詞:實時交通流量預測;Spark;LSTM;GPS軌跡大數據;參數調整

      中圖分類號:TP202+.2;U491.1+23 ? ? 文獻標識碼:A 文章編號:2096-4706(2020)04-0001-08

      Abstract:In the era of data science and technology,the traditional LSTM network model in the centralized mining platform has the problems of computing and storage when dealing with the big data of mobile trajectory,this paper proposes a real-time traffic flow prediction method based on the LSTM optimization model under the Spark framework,which aims to the improvements of accuracy of traffic flow prediction. The experiment results of a case study demonstrate that with real-world taxi GPS trajectory big data,the proposed LSTM optimization model based on the Spark framework can accurately predict traffic flow in real time.

      Keywords:real-term traffic flow prediction;Spark;LSTM;GPS track big data;parameter adjustment

      0 ?引 ?言

      近年來,我國推行“最多跑一次”改革在公共資源利用方面的不斷深入,尤其是在公共數據整合與共享中推動著政府治理能力的提升,特別是通過交通流量可以衡定交通擁堵狀況,進而提供準確的交通流量預測誘導信息[1]。實時交通流量預測是城市智能交通系統誘導和控制的關鍵技術[2],是利用當前和歷史的交通流量信息對未來的交通流量進行預測,進而幫助出行者進行路徑規(guī)劃,緩解交通擁堵和減少環(huán)境污染等[3]。

      在數據驅動的智能交通系統中,實時交通流量預測已經引起了國內外學者的廣泛關注[4]。當前,已有的交通流量預測模型大致可分為三類[4,5]:參數模型、非參數模型和混合模型。參數模型僅針對線性數據,如Kalman濾波模型[5]、自回歸平均模型[6]等。非參數模型可以有效彌補參數模型缺陷,如K近鄰模型[7]、支持向量機模型[8]、神經網絡模型[9]等。非參數模型存在結構復雜、計算量大和模型參數確定等問題,混合模型在交通流預測中更具優(yōu)勢。近年來,Xia等人提出一種基于MapReduce的面向分布式建模通用框架的時空權重K近鄰優(yōu)化模型(STW-KNN)[10],有效提高了交通流量預測的精度、效率和可擴展性;Luo等人提出一種基于KNN-LSTM的交通流預測方法,采用KNN算法對預測目標站點所在區(qū)域的路網進行空間相關性篩選,并將其構造的數據集輸入LSTM中進行訓練[11];Liu等人通過由多個存儲單元組成的二維網絡,提出一種基于LSTM的新型高魯棒性交通流預測模型[12];Li等人利用GCN和LSTM混合的深度學習方法,考慮交通流的時空相關性并提取時空特性,進而實現交通流量預測[13];劉釗等人考慮預測路段與其近鄰路段的歷史交通流量提出一種KNN與SVR組合的預測模型[14];陳小波等人提出一種基于遺傳算法和最小均方SVR模型的路網組合模型,并實現在流量預測中的應用[15];Wang等人通過引入長短期記憶網絡、殘差連接、深層次網絡和雙向交通流并考慮預測時降水因素,提出一種基于深雙向長短期記憶模型和降水因素影響的深度交通流預測體系結構P-DBL(Deep Bi-directional Long short-term memory),提高了流量預測的精度[16];Ma等人提出一種新的長短期記憶神經網絡體系結構(LSTM-NN),可以有效捕捉非線性交通動態(tài),并能克服反向傳播誤差衰減問題,具有較好的時間序列預測能力[17];Jeong等人考慮時間對交通流的影響,提出一種基于LSTM模型的預測方法[18];Fu等人提出一種使用CNN與LSTM相結合的混合深度學習框架,提高交通流量的預測精度[19];Chen等人基于在線開放交通狀況數據,提出一種挖掘交通狀況隱藏模式的LSTM預測模型,基于深度學習方法使用堆疊式自動編碼器(Stacked Auto-Encoder)模型,提出一種新穎且預測性能較高的交通流量預測方法[20]。

      現有傳統的集中式LSTM模型無法有效解決交通流大數據的分布式存儲和并行計算問題。為此,本文基于貴州民族大學海量數據統計與分析方向的研究,并且針對目前大多數研究集中式學習模型,在大數據環(huán)境下提出基于Spark框架的分布式LSTM優(yōu)化模型,采用移動軌跡大樣本數據提高預測的精確性。

      1 ?LSTM優(yōu)化模型

      LSTM模型是一種為解決一般RNN存在長期依賴問題而設計的獨特結構。它存在一個隱藏狀態(tài),稱為細胞狀態(tài)(Cell State),記為C(t),遺忘門的輸出為f(t),該細胞狀態(tài)通過Sigmoid激活函數由上一序列的隱藏狀態(tài)h(t-1)和本序列X(t)得到。輸出 ?,表示遺忘上一層隱藏函數細胞狀態(tài)的概率,表達式為:

      基于傳統的LSTM模型,進行參數設置和迭代優(yōu)化。對于LSTM模型,當模型訓練時,各連接點的權值通過輸入數據的訓練而獲得。當確定步長后,不斷調整整個網絡的誤差權值而使得誤差最小以及確定最優(yōu)迭代次數。其中5層網絡層(包括輸入層和輸出層)、16個隱含層節(jié)點、激活函數tanh、損失函數mean_squared_error、優(yōu)化函數RMSProp、Back、Batch、迭代次數等超參數由人為確定且相當重要,合理與否將直接影響模型預測的準確性。為此,在實驗中可以根據經驗法或試湊法對參數進行調整而最終確定。

      上述參數確定后,需要明確的是影響模型預測準確性的Back、Batch和迭代次數。由于Back與選定數據有關,可以通過實驗進而確定Back和Batch的最佳組合。為此,在實驗中以2n的倍數進行數值設定1、2、4、8、…、2n(n=0,1,2,…,n),并進行循環(huán)訓練而最終確定參數(在實驗中,取1、2、4、8,迭代訓練100次)。參數訓練組合方式,如圖1所示。通過實驗確定Back和Batch,接著進行迭代次數訓練(迭代次數分別為100、150、200、250…)。通過訓練結果的對比分析,確定最佳的迭代次數。

      基于上述參數和迭代優(yōu)化方法,確定最優(yōu)參數和最佳迭代次數。

      同時,為了降低實時預測應用的計算成本和內存消耗,在基于Spark并行處理框架的Hadoop分布式計算平臺中實現LSTM優(yōu)化模型,實現交通流量的并行預測,提高預測的實時性。Spark框架下實現的LSTM優(yōu)化模型如圖2所示。

      2 ?數據預處理

      2.1 ?數據選取

      案例研究所采用的數據源,選取于2012年11月北京市12 000輛出租車所產生的GPS軌跡數據(約50 GB)。為了更為直觀地展示GPS軌跡數據,通過提取11月5日GPS軌跡點的密度分布,如圖3(a)所示。可以發(fā)現,該密度分布基本可以形成北京市路網。同時,選取北京市三里河東路(三個路段)作為目標路段展開研究,如圖3(b)所示。

      2.2 ?數據處理

      在數據預處理中,首先提取出租車GPS軌跡數據(如2012年11月5日),其次判斷車輛運行軌跡是否在目標路段區(qū)域,最后根據時間間隔統計車輛數量。在數據預處理中,將GPS軌跡數據解壓上傳至HDFS,并進行數據清洗,如圖4所示。

      基于Spark并行分布式計算平臺的數據預處理主要包括數據提取、數據統計和數據集成三個步驟:

      (1)數據提?。和ㄟ^textFile()函數讀取存儲在HDFS中的原始數據,定義鍵值對,其中key1表示時間和車輛ID,value1表示目標路段編號。若讀入數據的GPS軌跡處于選定目標路段區(qū)域則提取并存入鍵值對,反之則舍棄。接著,使用sortByKey()函數對時間和車輛ID排序,并去除當前時間間隔內同一車輛的重復數據,為此便可獲得目標路段在當前時間間隔內的車輛信息。

      (2)數據統計:讀取步驟1中所提取的數據信息,定義鍵值對,其中key2表示時間和區(qū)域編號,value2表示目標路段編號加1。接著,使用reduceByKey()函數對當前時間間隔內的出租車數量進行統計,得到選定目標路段在各時間間隔內的車輛數量(即交通流量)。

      (3)數據集成:將目標路段在當前時間間隔t內的出租車車輛總數整合為一維數組Xt,由Xt構成矩陣X。定義鍵值對,其中key3表示時間間隔,value3則表示各目標路段的出租車總數,使用sortByKey()函數按時間進行排序,并將結果輸入HDFS所得到的數據將作為后續(xù)的訓練數據庫。

      在數據預處理的數據清洗中發(fā)現,GPS軌跡數據可能受到GPS信號不穩(wěn)定等因素的影響。為了得到平穩(wěn)時間序列曲線便于網絡訓練,采用Kalman濾波對已統計數據集進行平滑處理,如圖5所示。

      3 ?案例研究與結果分析

      3.1 ?實驗環(huán)境

      在案例研究中,基于Hadoop搭建Spark并行與分布式計算平臺。在搭建的Spark集群中,Master作為Work節(jié)點(4個Work節(jié)點),基本配置為Intel至強i7-3550、ECC DDR3 8G。所有實驗均運行于Ubuntu 18.64操作系統,并配置Hadoop 3.1.1+Spark 2.4.3+Java+DL4J。

      3.2 ?評價指標

      為了驗證參數調整和迭代優(yōu)化的合理性,進而驗證優(yōu)化模型的有效性,本實驗采用以下四個評價指標:MAPE(平均絕對百分比誤差)、RMSE(均方根誤差)、MAE(平均絕對誤差)和ME(最大誤差),分別被定義如下:

      其中,Xt是交通流量的實際值, 是交通流量的預測值,n是在所提供的時間間隔內交通流量處理的總數。正如其他研究[26-28],模型預測準確性主要取決于MAPE,MAPE值越低則預測準確性越高。

      3.3 ?網絡模型構建

      LSTM網絡輸入采用8維,第一個隱藏層輸入保持8維,輸出為8*8矩陣;第二個隱藏層接收上層的輸出8*8矩陣,輸出則變?yōu)?維;第三個隱藏層輸入輸出皆為8維,網絡模型的輸出為1維。在這里,采用tanh激活函數便于更新模型,采用RMSProp優(yōu)化函數便于快速找更新模型權重。LSTM優(yōu)化模型構建流程,如圖6所示。

      3.4 ?實驗結果分析

      為了更加直觀地反映模型的預測性能,通過反歸一化增大數量級。根據LSTM優(yōu)化模型的調參方法進行反復實驗,每次對相同參數開展3次實驗并取均值,實驗結果如表1所示。

      當Back固定和改變Batch時,獲得最低的MAPE平均值,實驗結果如圖7所示(鑒于實驗結果趨勢相似,從而選取第二次進行呈現)。

      基于案例研究可知,得到最優(yōu)參數Back=4和Batch=8時,預測模型的精確度最高。為此,選擇參數Back=4和Batch=8帶入LSTM模型,并分別迭代100、150、200和250次進行訓練,得到不同迭代次數的實驗結果,如表2、圖8所示。

      基于上述實驗結果的對比分析,在分別迭代100、150、200和250次的實驗中,當迭代150次時的MAPE值最低。為

      此,基于開源庫Deeplearning4J框架,使用SparkDl4jMultiLayer加載LSTM網絡模型配置,利用Data Normalization將數據歸一化封裝成JavaRDD訓練數據形式,從而完成實時并行預測。

      從圖9可知,參數調節(jié)和迭代優(yōu)化使得LSTM模型訓練所獲得的MAPE值更低。具體來說,當Back=4,Batch=8和迭代次數為150時,MAPE為15.955%。上述實驗結果表明,基于真實的出租車軌跡大數據,Spark框架下的LSTM優(yōu)化模型可以實時準確地預測交通流量。

      4 ?結 ?論

      本文基于Spark框架提出分布式LSTM優(yōu)化模型的交通流預測方法,實現大規(guī)模軌跡數據的分布式存儲與并行計算,提高交通流量預測精確性。該方法在Spark并行分布式計算框架下基于Kalman濾波平滑處理軌跡大數據,通過參數調節(jié)和迭代計算實現LSTM模型的優(yōu)化,并在Spark框架下實現交通流量的并行預測。在案例研究中,基于真實的出租車GPS軌跡大數據,實時準確地預測了北京市三里河東路的交通流量。當Back=4,Batch=8,迭代次數為150時,所提出的方法能獲得MAPE為15.955%的預測準確性。

      參考文獻:

      [1] 杜小勇,陳躍國,范舉,等.數據整理——大數據治理的關鍵技術 [J].大數據,2019,5(3):13-22.

      [2] ZHANG J,WANG F Y,WANG K,et al. Data-Driven Intelligent Transportation Systems:A Survey [J]. IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS,2011,12(4):1624-1639.

      [3] JIA Y H,WU J P,XU M. Traffic Flow Prediction with Rainfall Impact Using a Deep Learning Method [J]. Journal of Advanced Transportation,2017:1-10.

      [4] 陸化普,孫智源,屈聞聰.大數據及其在城市智能交通系統中的應用綜述 [J].交通運輸系統工程與信息,2015,15(5):45-52.

      [5] 陳聰,張國惠,馬曉磊,等.利用大數據挖掘和知識發(fā)現技術輔助智慧城市發(fā)展 [J].大數據,2016,2(3):39-48.

      [6] QIAO S L,SUN R C,FAN G P,et al. Short-term traffic flow forecast based on parallel long short-term memory neural network [C]. Proceedings of 2017 IEEE 8th International Conference on Software Engineering and Service Science,IEEE BEIJING SECTION,2017:253-257.

      [7] ZHAO Z,CHEN W,WU X,et al. LSTM network:a deep learning approach for short-term traffic forecast [J]. Intelligent Transport Systems Iet,2017,11(2):68-75.

      [8] OKUTANI I,STEPHANEDES Y J. Dynamic prediction of traffic volume through Kalman filtering theory [J]. Transportation Research Part B Methodological,1984,18(1):1-11.

      [9] ALGHAMDI T,ELGAZZAR K,BAYOUMI M,et al. Forecasting traffic congestion using ARIMA modeling [C]. 2019 15th International Wireless Communications and Mobile Computing Conference (IWCMC),2019:1227-1232.

      [10] XIA D W,WANG B F,LI H Q,et al. A distributed spatial-temporal weighted model on MapReduce for short-term traffic flow forecasting [J]. Neurocomputing,2016,179(Feb.29):246-263.

      [11] LUO X L,LI D Y,YANG Y,et al. Spatiotemporal Traffic Flow Prediction with KNN and LSTM [J]. Journal of Advanced Transportation,2019,(PT.1):537-546.

      [12] LIU B Y,CHENG J R,CAI K Q,et al. Singular point probability improve LSTM network performance for long-term traffic flow prediction [C]// National Conference of Theoretical Computer Science,2017:328-340.

      [13] LI Z S,XIONG G,CHEN Y Y,et al. A hybrid deep learning approach with GCN and LSTM for traffic flow prediction [C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC). IEEE,2019:1929-1933.

      [14] 劉釗,杜威,閆冬梅,等.基于K近鄰算法和支持向量回歸組合的短時交通流預測 [J].公路交通科技,2017,34(5):122-128+158.

      [15] 陳小波,劉祥,韋中杰,等.基于GA-LSSVR模型的路網短時交通流預測研究 [J].交通運輸系統工程與信息,2017,17 (1):60-66+81.

      [16] WANG J Y,XU X F,WANG F S,et al. A deep prediction architecture for traffic flow with precipitation information [C]// International Conference on Sensing and Imaging. Springer,Cham,2018:329-338.

      [17] MA X L,TAO Z M,WANG Y H,et al. Long short-term memory neural network for traffic speed prediction using remote microwave sensor data [J]. Transportation Research Part C:Emerging Technologies,2015,54:187-197.

      [18] JEONG Y S,BYON Y J,CASTRO-NETO M M,et al. Supervised Weighting-Online Learning Algorithm for Short-Term Traffic Flow Prediction [J]. IEEE Transactions on Intelligent Transportation Systems,2013,14(4):1700-1707.

      [19] FU R,ZHANG Z,LI L. Using LSTM and GRU neural network methods for traffic flow prediction [C]// Youth Academic Conference of Chinese Association of Automation. IEEE,2016:324-328.

      [20] CHEN Y Y,LV Y S,LI Z J,et al. Long short-term memory model for traffic congestion prediction with online open data [C]// 2016 IEEE 19th International Conference on Intelligent Transportation Systems (ITSC). IEEE,2016:132-137.

      [21] AGAFONOV A,YUMAGANOV A. Spatial-temporal K Nearest Neighbors model on MapReduce for traffic flow prediction [C]//International Conference on Intelligent Data Engineering and Automated Learning. Springer,Cham,2018:253-260.

      [22] LUO C,HUANG C,CAO J D,et al. Short-term traffic flow prediction based on least square support vector machine with hybrid optimization algorithm [J]. Neural Processing Letters,2019:1-18.

      [23] CHAI Y C,HUANG D R,ZHAO L. A Short-term traffic flow prediction method based on wavelet analysis and neural network [C]//2016 Chinese Control and Decision Conference (CCDC). IEEE,2016:7030-1034.

      作者簡介:章茂庭(1994-),女,漢族,貴州三穗人,就讀于數據科學與信息工程學院,統計學研究生,研究方向:海量數據統計與分析;楊楠(1997-),女,漢族,貴州盤縣人,就讀于數據科學與信息工程學院,統計學研究生,研究方向:海量數據統計與分析;蔣順英(1996-),女,漢族,貴州興義人,就讀于數據科學與信息工程學院,統計學研究生,研究方向:海量數據統計與分析;鄭永玲(1995-),女,漢族,貴州畢節(jié)人,就讀于數據科學與信息工程學院,統計學研究生,研究方向:海量數據統計與分析;白宇(1994-),女,漢族,貴州仁懷人,就讀于數據科學與信息工程學院,統計學研究生,研究方向:海量數據統計與分析。

      阿拉善盟| 彭山县| 巴东县| 乳山市| 和政县| 郯城县| 双流县| 甘肃省| 贵南县| 蓬溪县| 益阳市| 怀安县| 土默特左旗| 湾仔区| 毕节市| 精河县| 南平市| 绿春县| 望奎县| 夏河县| 乌拉特中旗| 贵南县| 唐山市| 仙桃市| 侯马市| 通江县| 鹿泉市| 灵璧县| 屏山县| 隆尧县| 湘潭县| 新乐市| 顺昌县| 江安县| 乡宁县| 固镇县| 藁城市| 河津市| 凌云县| 乌鲁木齐县| 连平县|