劉玉喆,保麗霞,吳金友,祁 坤,苗燁麒,劉 輝
[1.上海市城市建設(shè)設(shè)計研究總院(集團)有限公司,上海 200125; 2.上海市地下空間設(shè)計研究總院有限公司,上海 200125;3. 上海國際汽車城(集團)有限公司,上海 201805; 4. 吉林大學(xué),吉林 長春 130012]
高速公路的建設(shè)促進了各地區(qū)的經(jīng)濟聯(lián)系,有效拉動內(nèi)需,對中國經(jīng)濟的發(fā)展起著關(guān)鍵作用,其中高速公路收費是提高高速公路效益的必要手段。但隨著駕駛里程的增加,高速公路產(chǎn)生的費用也會增加。因此部分駕駛員懷著僥幸心理運用各種手段逃繳通行費。典型的逃費行為包括:(1)交換卡逃費,主要存在于固定線路客車、集團貨運車隊和私人車隊。通過交換通行卡或前端車輛,達到少交過路費的目的;(2)沖擊收費道,通常是指后車緊隨前面車輛,達到逃避收費的目的;(3)干擾和逃避重量逃費,該方式是逃費的主要方式。此外還存在反轉(zhuǎn)貨物、更換主軸箱、吊掛等逃避重量的方式;(4)偽造專用車輛逃費,是指利用政府對某些車輛減免稅的政策,如使用假卡、假證件、偽裝商品等逃避過路費。這種現(xiàn)象不僅擾亂了交通運輸運營的秩序,甚至對駕駛員的生命財產(chǎn)造成嚴(yán)重的威脅,不利于高速公路的長期平穩(wěn)發(fā)展。
為此,不少學(xué)者針對高速公路逃費檢測問題進行深入研究。高速公路收費數(shù)據(jù)具有數(shù)據(jù)量大且復(fù)雜度高的特點。薛璞[1]建立了基于大數(shù)據(jù)及數(shù)據(jù)挖掘技術(shù)收費逃費檢測模型。李松江等[2]提出了IGA-IBP算法實現(xiàn)了高速公路的逃費預(yù)測,通過優(yōu)化遺傳算法中的變異算子來減少誤差以及提高收斂速度。鄒嵩涵[3]首先基于密度峰值的特征選擇算法對高速公路數(shù)據(jù)集進行降維,然后通過K-Means算法自適應(yīng)確定DBSCAN聚類算法的參數(shù),提高了逃費檢測的效率。Zhao等[4]采用基于負荷權(quán)重的高斯混合模型(Gaussian mixture model,GMM)的聚類方法來識別運輸車輛的逃費行為。該方法借助不同行駛循環(huán)的載荷分布存在的顯著差異,對不同行駛循環(huán)中的載荷重量進行測試,以此確定某一行駛循環(huán)中載荷近似為高斯混合分布(Gaussian mixture distribution,GMD)。然后,通過GMM對某一行駛循環(huán)中歷史車輛的載荷進行聚類。借助于期望最大化(Expectationmaximization,EM)算法用于計算GMM的參數(shù)。最后,根據(jù)高斯分布的3σ準(zhǔn)則,科學(xué)地得出合理的裝車間隔,區(qū)分運輸車輛逃費行為。康振等[5]采取貝葉斯分析的方法對歷史數(shù)據(jù)中通行行為指標(biāo)進行篩選,并結(jié)合最大熵模型確定指標(biāo)權(quán)重,完成對車輛逃費的預(yù)測與檢測。
鄭再超等[6]對解決逃費現(xiàn)象的理論對策和技術(shù)手段進行了總結(jié),并指出研究人員可進一步改進算法水平,提高數(shù)據(jù)預(yù)測的精確度。這是由于高速公路逃費行為比正常駕駛行為少得多,是典型的數(shù)據(jù)不平衡分類問題,導(dǎo)致目前對逃費檢測精度不夠高。近年來,對抗性訓(xùn)練,尤其是生成式對抗網(wǎng)絡(luò)[7](Generative Adversarial Nets,簡稱GAN),在類間不平衡的異常檢測中占據(jù)著越來越重要的地位。GAN最初由Goodfellow等人提出,被視為一種無監(jiān)督機器學(xué)習(xí)算法,在圖像識別、異常檢測等領(lǐng)域均取得了顯著的應(yīng)用效果。為此,該文嘗試使用GAN來提高逃費檢測的精度。
隨著中國經(jīng)濟與技術(shù)的進步,高速公路的收費模式逐漸由全封閉式進口收費/出口驗票的人工收費方式,轉(zhuǎn)變?yōu)镋TC聯(lián)網(wǎng)及不停車收費方式。雖然高速公路收費方式在不斷變化與改進,但對應(yīng)的逃費方式也在不斷變化。由早期的兩車倒(換)卡、卸車頭甩掛、計重貨車“墊磅”等方式,轉(zhuǎn)變?yōu)楦w化、隱蔽化的方式。例如入口車牌卡號不符、出入口車型車種不符、通行時間過長或過短、短程重載或長程空載、通行時間重疊、車重降低、車型變更、假冒特殊車輛等。
在原始的逃費數(shù)據(jù)集中包含多個屬性,但并不是所有屬性均對逃費檢測模型有促進作用。相反地,過多的屬性會產(chǎn)生“維度災(zāi)難”與過擬合的問題。因此需要合理選擇合適的特征,不僅能加快模型的訓(xùn)練速度,還能獲得更高的準(zhǔn)確度。為此該文基于典型高速公路逃費類型選擇合適的數(shù)據(jù)屬性,具體如表1所示。
表1 所選擇的特征屬性
如圖1所示為該文所提出的基于GAN的高速公路逃費檢測模型的網(wǎng)絡(luò)架構(gòu),該模型由兩個部分組成:生成器與判別器。
圖1 網(wǎng)絡(luò)架構(gòu)
由于該模型中采用了編碼-解碼-編碼的網(wǎng)絡(luò)結(jié)構(gòu),因此該文的損失函數(shù)包含三部分:欺詐損失、表面損失以及潛在損失。
欺詐損失的目的是誘導(dǎo)判別器將生成器產(chǎn)生的數(shù)據(jù)誤識別為正常樣本,定位如下:
表面損失用來測量真實樣本與生成樣本之間的距離,即:
對于判別器,該文采用Salimans[9]等人提出的特征匹配損失進行對抗學(xué)習(xí),以降低GAN訓(xùn)練的不穩(wěn)定性。
此外,該文使用Adam優(yōu)化器來更新等式(7)與(8)。
實驗數(shù)據(jù)采用河北省2018年收費系統(tǒng)中記錄的全省高速公路所產(chǎn)生的流水?dāng)?shù)據(jù)。車輛每次進入和駛出收費站都會在相應(yīng)的入口記錄表和出口記錄表中留下一條記錄,每條記錄記錄了車輛、收費站、交易和系統(tǒng)操作等信息。依據(jù)實例的完整度共篩選出960 000條數(shù)據(jù),并劃分為80%作為訓(xùn)練集,20%作為測試集。
數(shù)據(jù)分類預(yù)測模型算法較多,為了驗證預(yù)測結(jié)果的性能,選取了決策樹(Decision Tree,DT)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量機(Support Vector Machine,SVM)、孤立森林(Isolation Forest,IF)與該文所提出的GAN 模型進行比較。對比結(jié)果如表2所示,可以看出,該文提出的GAN模型的性能最佳。
表2 對比結(jié)果
高速公路聯(lián)網(wǎng)收費系統(tǒng)的建設(shè),使高速公路運營管理變得更加科學(xué)高效。然而,車輛逃費手段多種多樣,不僅導(dǎo)致高速公路通行費收入的極大損失,更影響交通安全。該文所提出的基于GAN的逃費檢測算法主要包含兩大模塊:生成器與鑒別器,利用生成器生成期望的正常行為并使用鑒別器區(qū)分正常與異常行為。實驗結(jié)果表明,該文所提出的算法具有更高的準(zhǔn)確度。將此算法應(yīng)用于高速公路收費管理運營系統(tǒng)中,可有效提升稽查自動化與智能化水平。