孫立 張昊 張棟棟 楊陽 王寶磊
1 基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)設(shè)計背景
港口每天產(chǎn)生海量數(shù)據(jù),包括港區(qū)內(nèi)貨物流動數(shù)據(jù)、船舶靠泊數(shù)據(jù)、設(shè)備使用數(shù)據(jù)、設(shè)備能耗數(shù)據(jù)等。通過大數(shù)據(jù)技術(shù)處理,這些數(shù)據(jù)能描繪出企業(yè)、貨物、物流、行業(yè)的潛在特征,從而對決策制定起到輔助作用。當前,港口數(shù)據(jù)從計劃和管理數(shù)據(jù)、物聯(lián)網(wǎng)傳感器生產(chǎn)數(shù)據(jù)逐步擴大到互聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)量激增且數(shù)據(jù)復雜性提升,由此產(chǎn)生數(shù)據(jù)標準、共享、安全、服務等相關(guān)問題。港口行業(yè)具有資本密集型、規(guī)模經(jīng)濟性和周期性特點:一方面,港口企業(yè)產(chǎn)品具有不可存續(xù)性,港口只能通過保有一定的吞吐能力來適應吞吐量增長需求;另一方面,港口吞吐量需求具有派生性,一旦經(jīng)濟衰退,貿(mào)易量減少,就會出現(xiàn)產(chǎn)能過剩、設(shè)備閑置的局面,造成資源浪費。目前,港口設(shè)備固定資產(chǎn)投資決策呈現(xiàn)粗放式,存在缺乏綜合經(jīng)濟分析、投資決策效率低等問題。
信息技術(shù)的迅猛發(fā)展對數(shù)據(jù)庫技術(shù)提出更高要求,主要體現(xiàn)在以下方面:(1)高并發(fā)讀寫需求;(2)海量數(shù)據(jù)的高效存儲和訪問需求;(3)高可擴展性和可用性需求。[1]在此背景下,非關(guān)系型數(shù)據(jù)庫(NoSQL)應運而生,以滿足以上數(shù)據(jù)處理需求。典型的數(shù)據(jù)庫包括Redis、Memcached、Cassandra、MongoDB、Neo4j等。在大數(shù)據(jù)處理技術(shù)方面,最主流的平臺是Hadoop。Hadoop由分布式文件系統(tǒng)(hadoop distributed file system,HDFS)、并行計算框架(MapReduce)、非結(jié)構(gòu)化數(shù)據(jù)庫(Hbase)組成,分別適用Google GFS、Google MapReduce和Google BigTable 開源實現(xiàn)。HDFS具有高容錯性,適合部署在價格低廉的硬件上,同時適用于具有超大數(shù)據(jù)集的應用程序。在大數(shù)據(jù)分析方面的代表性研究有Hive[2]、Pig[3]等數(shù)據(jù)倉庫工具,F(xiàn)acebook等公司在數(shù)據(jù)實時分析方面也進行了相關(guān)研究[4-7]。
2 基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)設(shè)計方案
2.1 系統(tǒng)結(jié)構(gòu)
基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)業(yè)務功能覆蓋總體概覽、投資額管理、港口設(shè)備數(shù)據(jù)查詢、裝卸設(shè)備數(shù)據(jù)查詢、官方數(shù)據(jù)查詢、決策輔助支持等。如圖1所示,該系統(tǒng)采取基于瀏覽器和服務器的三層體系結(jié)構(gòu)設(shè)計:表示層為港口設(shè)備多元分析系統(tǒng)的用戶接口部分,即用戶與系統(tǒng)信息交互界面;網(wǎng)站服務器組成的控制層負責接收客戶端發(fā)送的請求,包括各種數(shù)據(jù)庫查詢和操作請求,并反饋響應結(jié)果,包括數(shù)據(jù)查詢結(jié)果和數(shù)據(jù)操作結(jié)果等;數(shù)據(jù)層存儲港口設(shè)備相關(guān)數(shù)據(jù),包括設(shè)備投資額、設(shè)備臺賬和設(shè)備類別等數(shù)據(jù),以便提供控制層調(diào)用邏輯,此外,數(shù)據(jù)層可在控制層的控制下隨時存取和修改數(shù)據(jù)。
2.2 系統(tǒng)功能
如圖2所示,基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)采用模塊化功能設(shè)計,主要由數(shù)據(jù)采集模塊、設(shè)備分類管理模塊、數(shù)據(jù)查詢模塊和預測決策模塊組成。如圖3所示:系統(tǒng)首頁上部顯示區(qū)域有6個虛擬框,分別顯示設(shè)備總數(shù)、設(shè)備總值、單機運行數(shù)據(jù)總量、臺賬數(shù)據(jù)總量、歷年累計吞吐量和當年吞吐量;系統(tǒng)首頁左側(cè)區(qū)域顯示不同類別設(shè)備總值占比環(huán)圖;系統(tǒng)首頁右側(cè)區(qū)域顯示年投資總額情況。
2.2.1 數(shù)據(jù)采集模塊
數(shù)據(jù)采集模塊主要采集設(shè)備投資數(shù)據(jù)、設(shè)備相關(guān)數(shù)據(jù)(包括設(shè)備臺賬數(shù)據(jù)和設(shè)備單機運行數(shù)據(jù)等)和官方統(tǒng)計數(shù)據(jù)等。數(shù)據(jù)采集形式分為Excel導入、網(wǎng)絡(luò)爬取、手工錄入等。
2.2.2 設(shè)備分類管理模塊
設(shè)備分類管理模塊的主要功能是在預制設(shè)備分類表的基礎(chǔ)上完成對設(shè)備投資數(shù)據(jù)的自動分類。通過一定量訓練集得到相關(guān)的分類標準后,該模塊可實現(xiàn)類別增加和刪除操作,同時將操作結(jié)果同步至數(shù)據(jù)庫以實現(xiàn)自動分類,并且能夠執(zhí)行相應的維護操作。
2.2.3 數(shù)據(jù)查詢模塊
數(shù)據(jù)查詢模塊用于查詢設(shè)備臺賬數(shù)據(jù)和設(shè)備單機運行數(shù)據(jù)中部分具有決策參考意義的數(shù)據(jù),并能針對重要裝卸設(shè)備進行運算,實現(xiàn)對設(shè)備數(shù)據(jù)的直觀查詢。
2.2.4 預測決策模塊
預測決策模塊用于分析、預測各類設(shè)備投資額,并對預測結(jié)果和歷史趨勢以圖表形式進行可視化呈現(xiàn),同時實現(xiàn)單類數(shù)據(jù)的提取查詢功能。設(shè)備固定資產(chǎn)投資是港口企業(yè)經(jīng)營活動的重要內(nèi)容之一,是涉及港口企業(yè)生產(chǎn)經(jīng)營全局、影響港口企業(yè)生產(chǎn)經(jīng)營方向和結(jié)構(gòu)的戰(zhàn)略性投資活動。然而,港口行業(yè)發(fā)展具有周期性,受世界經(jīng)濟和國際貿(mào)易等影響較大,且設(shè)備投資具有資金占用量大、投資回收期長、投資環(huán)境復雜、影響因素多等特點,這使得港口設(shè)備固定資產(chǎn)投資存在一定風險,且這些風險往往難以預測。在設(shè)備投資輔助決策模塊運行狀態(tài)下,系統(tǒng)根據(jù)預測數(shù)據(jù)和歷史數(shù)據(jù)給出決策建議,并提醒項目管理人員對問題項目進行人工復查。
3 基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)關(guān)鍵技術(shù)
3.1 基于貝葉斯網(wǎng)絡(luò)的自動分類方法
以天津港數(shù)據(jù)為例,基于貝葉斯網(wǎng)絡(luò)的自動分類方法按照數(shù)據(jù)屬性、功能和用途,將所有數(shù)據(jù)分為裝卸設(shè)備、計量、供暖制冷、電力、通信、車輛、信息化、環(huán)保、消防和其他等類別。基于貝葉斯網(wǎng)絡(luò)的自動分類方法的實現(xiàn)流程如圖4所示,人工分類的數(shù)據(jù)樣本隨機分為訓練數(shù)據(jù)集和分類測試數(shù)據(jù)集。
3.2 基于反饋神經(jīng)網(wǎng)絡(luò)的港口吞吐量預測
影響港口吞吐量的因素十分復雜,主要可以分為以下兩類:(1)港口自身基礎(chǔ)設(shè)施因素,主要包括碼頭岸線規(guī)模、泊位等級等,涉及的數(shù)據(jù)包括岸線長度、泊位數(shù)量、萬噸級泊位數(shù)量等;(2)港口外部環(huán)境因素,主要包括地理位置、腹地經(jīng)濟、政策環(huán)境等,以天津港為例,涉及的數(shù)據(jù)包括北京市、天津市和河北省的外貿(mào)進出口額和三大產(chǎn)業(yè)產(chǎn)值等。
人工神經(jīng)網(wǎng)絡(luò)模型由大量的神經(jīng)元結(jié)構(gòu)和神經(jīng)元加權(quán)連接而成。反向傳播神經(jīng)網(wǎng)絡(luò)是一種多層的前向性神經(jīng)網(wǎng)絡(luò)(包含輸入層、隱含層和輸出層),具有信號向前傳播而誤差反向傳播的特點。標準反向傳播神經(jīng)網(wǎng)絡(luò)采用梯度下降算法,網(wǎng)絡(luò)權(quán)值沿著性能函數(shù)梯度反向調(diào)整。以天津港為例,通過反向傳播神經(jīng)網(wǎng)絡(luò)分析上一年的港口貨物吞吐量和集裝箱吞吐量等輸入數(shù)據(jù),可以預測下一年的港口吞吐量情況。反向傳播神經(jīng)網(wǎng)絡(luò)的誤差與輸入存在較大相關(guān)性,且誤差的自相關(guān)性較強,使得系統(tǒng)隨著時間推移呈現(xiàn)明顯的退化現(xiàn)象,這表明反向傳播神經(jīng)網(wǎng)絡(luò)需要進一步優(yōu)化。
傳統(tǒng)反向傳播神經(jīng)網(wǎng)絡(luò)的退化現(xiàn)象主要是由過度擬合引起的;因此,引入貝葉斯正規(guī)化來增加魯棒性,通過其參數(shù)以概率分布的形式進一步提供不確定性估計。與傳統(tǒng)反向傳播神經(jīng)網(wǎng)絡(luò)相比,貝葉斯正規(guī)化反向傳播神經(jīng)網(wǎng)絡(luò)輸入與誤差的相關(guān)性明顯降低,低于可信閾值。貝葉斯正規(guī)化反向傳播神經(jīng)網(wǎng)絡(luò)具有過擬合的特性,其預測結(jié)果雖然存在一定誤差,但總體在可接受的范圍內(nèi),未來可進一步用來分析具體時期影響和限制港口吞吐量增長的關(guān)鍵因素。
3.3 設(shè)備合理擁有量模型
如圖5所示,預測港口吞吐量是為了針對港口規(guī)模及定位進行合理適度超前投資。建立設(shè)備合理擁有量模型的主要目的是:合理配置資源,降低設(shè)備維修成本,提高設(shè)備完好率和利用率,以取得最佳經(jīng)濟效益。
3.4 基于時間序列的設(shè)備投資預測
基于時間序列的設(shè)備投資預測的目的在于:對設(shè)備投資額數(shù)據(jù)進行清洗;通過皮爾遜相關(guān)系數(shù),確定數(shù)據(jù)之間的線性關(guān)系。針對天津港的實際情況,需要對設(shè)備投資額數(shù)據(jù)進行前期處理:若發(fā)現(xiàn)異常值,則需要與港口相關(guān)部門溝通,獲得合理解釋;否則,替換異常值。在預測時,單靠一種方法很難具有說服力,因此,有必要采用多種方法比較擬合精度。
3.4.1 皮爾遜相關(guān)系數(shù)
針對港口某個設(shè)備投資額數(shù)據(jù)的皮爾遜相關(guān)系數(shù)可表示為
式中:r的取值范圍為[ 1,1]。當|r|≤0.3時,表明不存在線性關(guān)系;當0.3<|r|≤0.5時,表明存在低度線性關(guān)系;當0.5<|r|≤0.8時,表明存在顯著線性關(guān)系;當|r|>0.8時,表明存在高度線性關(guān)系。
最后,采取統(tǒng)計列表的方法分析各個設(shè)備投資額數(shù)據(jù)間的皮爾遜相關(guān)系數(shù),針對與集裝箱吞吐量相關(guān)性極強的設(shè)備投資額數(shù)據(jù),建立一元線性回歸方程或多項式回歸方程,并用列表的方式標明各個數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)。
3.4.2 ARIMA模型
ARIMA模型的建模過程如下:首先,對某個時間序列設(shè)備投資額數(shù)據(jù)進行白噪聲檢驗,如果檢驗結(jié)果為白噪聲序列,則表明沒有預測的必要性;然后,通過設(shè)備投資額數(shù)據(jù)自相關(guān)圖檢驗數(shù)據(jù)的平穩(wěn)性,通過差分運算將非平穩(wěn)數(shù)據(jù)轉(zhuǎn)化為滿足預測要求的平穩(wěn)序列(見圖6)。
3.4.3 線性回歸分析
線性回歸模型的建模過程如下:首先,對影響設(shè)備投資額數(shù)據(jù)的因素進行定性分析,確定與因變量相關(guān)的自變量因素;然后,利用最小二乘法擬合各個變量之間的常數(shù)項與系數(shù);最后,擬合方程。針對設(shè)備投資預測的多元線性回歸模型可表示為
當式中變量Xk只有1個時,該模型為一元線性回歸模型。
3.4.4 灰色預測理論
在灰色模型分析過程中,對設(shè)備原始投資數(shù)據(jù)的處理十分重要。數(shù)據(jù)處理方法主要分為累加和累減,其目的是去除或減少其他非主要信息數(shù)據(jù)的干擾,以便獲得數(shù)據(jù)內(nèi)在規(guī)律,處理后的數(shù)列稱為灰色序列算子。
4 結(jié)束語
綜上所述,基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)項目主要包括以下內(nèi)容:(1)基于貝葉斯網(wǎng)絡(luò)的自動分類方法技術(shù)對設(shè)備投資項目名稱進行分類;(2)基于反饋神經(jīng)網(wǎng)絡(luò)技術(shù)預測港口吞吐量并分析港口吞吐量影響因素;(3)基于時間序列的設(shè)備投資預測模型適用于觀測樣本少、無法完全提取數(shù)據(jù)影響因素的情況;(4)港口設(shè)備合理擁有量模型用于計算港口碼頭裝卸設(shè)備配置數(shù)量,以輔助設(shè)備采購決策。
港口日常生產(chǎn)作業(yè)過程同時是產(chǎn)生海量數(shù)據(jù)的過程,通過各種手段獲取這些數(shù)據(jù)顯得格外重要。為了獲得更多有價值的資源和信息,需要從全方位采集和存儲港口數(shù)據(jù)。大數(shù)據(jù)技術(shù)的應用有助于從海量港口數(shù)據(jù)中挖掘更多有價值的信息用于指導港口企業(yè)提升運營效率,這對增強港口企業(yè)綜合競爭力有著十分重要的意義。
參考文獻:
[1] 交通運輸部. 關(guān)于推進港口轉(zhuǎn)型升級的指導意見[J]. 綜合運輸,2014(7):84-87.
[2] THUSOO A, SARMA J S, JAIN N, et al. Hive-a petabyte scale data warehouse using Hadoop[C]//2010 IEEE 26th International Conference on Data Engineering (ICDE 2010),March 1-6, 2010, Long Beach, California. New York: IEEE, 2010: 996-1005.
[3] GATES A F, NATKOVICH O, CHOPRA S, et al. Building a high-level dataflow system on top of Map-Reduce: the Pig experience[C]// Proceedings of the VLDB Endowment, 2009, 2(2): 1414-1425.
[4] HOLLOWAY A L, DEWITT D J. Read-optimized databases, in depth[C]//Proceedings of the VLDB Endowment, 2008, 1(1): 502-513.
[5] THUSOO A, SHAO Z, ANTHONY S, et al. Data warehous-ing and analytics infrastructure at facebook[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data. ACM, 2010:1013-1020.
[6] ABADI D J, MADDEN S R. HACHEM N. Column-Stores vs. Row-Stores: How different are they really? [C]//Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. ACM, 2008:967-980.
[7] PAVLO A, PAULSON E, RASIN A, et al. A comparison of approaches to large-scale data analysis[C]//Proceedings of the 2009 ACM SIGMOD International Conference on Manage-ment of Data. ACM, 2009:165-178.
(編輯:曹莉瓊 收稿日期:2019-04-16)