王 美,龍 華,邵玉斌,杜慶治
(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)
恐怖襲擊事件分類在對恐怖事件預測分析中一直有非常重要的向導性作用。到目前為止,挖掘恐怖襲擊事件數據間的相關性,以及對恐怖事件進行量化分類仍是一個巨大的挑戰(zhàn)。諸多文獻[1-3]采用定性方法理論如博弈論聚類分析該問題,但文中方法都比較抽象或是割裂開了影響因素間的關系。隨著科學技術的發(fā)展,用于從數據中挖掘有價值信息的機器學習(Machine Learning,ML)[4-5]方法越來越多的應用于發(fā)掘恐怖襲擊事件背后隱藏的關系。
2010年Pagán[6]開始使用K最近鄰(k-Nearest Neighbor,KNN)和分類決策樹RPART分類器等ML方法對GTD中伊拉克組織的恐怖襲擊事件進行分類分析,但由于特征選取與分類方法的不完善,最終分類效果不太理想,交叉驗證錯誤率均在40%左右。為了合理的提取特征,Iqbal和Murad[7]對數據進行了降維,并對缺失值過多特征首次采用刪除處理方式,不足的是文中使用了手動選擇特征方式降維,使得分類結果有很強的主觀色彩,不構成嚴謹的分析結果。針對以上問題,Haowen Mo在文獻[8]中采用了最大相關性(Max-Relevance)以及最大相關性最小冗余(Minimal- redundancy Maximal-relevancy,MRMR)特征選擇方法替代手動選擇特征獲取有效特征集,并結合支持向量機(Support Vector Machine,SVM),樸素貝葉斯(Naive Bayes,NB)和Logistic回歸(Logistic Regression,LR)分類器對恐怖襲擊事件進行分類研究,文中顯示分類準確率均在70%以上,是采用ML方法對(Global Terrorism Database,GTD)進行分類以來效果最佳的模型,其中以LR方法分類效果最好,正是如此,研究者提出GTD中大多數特征參數和分類變量呈線性關系。
是否GTD中大多數特征參數和分類變量呈線性關系,這是一個需要認真分析的問題,也是本文討論的主題,因為第一點GTD是高維度數據集,則特征分量之間的相互關系不能忽略,所以原理上SVM應比LR分類效果好,但事實相反,第二點GTD有大量缺失數據,即數據集較稀疏,文獻[9]學者提出對于此類數據SVM不能很好工作,但因子分解機(Factorization Machine,FM)模型效果較好,基于前面兩點分析,文中采用FM與LR模型對GTD進行分類效果對比,以MCC為比較指標,其越大越好。若FM對GTD分類效果較好,由于FM屬于(d=2)低階模型,進而考慮是否高階模型(d>2)分類效果更好,故文中采用了Huifeng Guo[10]提出的深度分解機(Factorization Machines Based Neural Network DeepFM)應用于GTD,基于FM與DeepFM可判斷是否必要對GTD數據的高階特征進行提取分析,此處基于基尼系數對比模型效果。
本文提出一種基于FM與DeepFM模型對GTD特征的研究,第二節(jié)對FM、DeepFM預測模型以及分類閾值算法進行介紹,第三節(jié)使用FM、LR與DeepFM預測模型對GTD數據集進行分類實驗。第四節(jié)文章總結。
FM是一個通用的機器學習模型[9,11],利用參數的因子分解對多維不同類別的變量間交互進行建模,FM模型是將SVM模型中兩個特征間的關系參數wij,用輔助向量V來代替求解,可將2階因子分解機特征向量相互作用模型方程定義如下:
模型中:<.,.>為維度為k的兩個特征間的內積,可謂交互權重值。
(1)w0表示全局偏值,w0∈R;
(2)wi表示第i個特征變量的影響程度,W∈Rn;
(3) = < vi, vj>表示模型中第i個變量與第j個變量的交互參數。相對于支持向量機模型中求取每個交互特征參數wij∈R,FM模型中則用分解因子的辦法求取其參數值。而這也正是FM對于高階稀疏數據集能進行很好的參數評估的原因。
總的來說FM建模思想從簡單線性模型演變而來,簡單的線性函數通過給特征加一階權重W計算,然而無法學習到特征之間的交互;為了學習特征間的相互性,對xi與xj之間加入二階項權重值wij,如SVM[12]多項式核函數,但在該多項式模型中,若訓練集中未找到xi=1,xj=1,那么wij梯度恒為0,不利于測試集的預測;所以對wij引入了輔助函數V,V∈Rn×k,進行因子分解求解wij,因為沒有模型能直接評估出兩個特征交互的參數值,所以此處對成對的交互特征參數值計算方法進行重新定義:
從上式看計算方法時間從O(kn2)變成了僅呈線性復雜度的O(kn),可見FM具有可以在線性時間內計算的閉合方程,所以FM的參數(w0,W,V)可通過隨機梯度下降法ALS學習到。算法通過隨機梯度方式求解,具體計算細節(jié)見ALGORITHM 1,如下:
ALGORITHM 1:Alternating Least-Squares(ALS)
Input: Training data D,regularization parameters λ,Normal distribution variance parameter δ
Output: Model parameters Θ=(w0,W,V)
Initialization: w0:=0; w:=0; v~N(0,δ)
Repeat
FOR i∈ {1,2,…,N} DO
分類閾值算法,加入該算法以實現二分類,假設訓練集中屬于A分類的有a件,不屬于A分類的有b件,則取閾值函數:
當事件xi預測值p>p′時,預測結果屬于A分類,反之不屬于。TFM(T-Factorization Machine)模型即將FM計算得到的預測結果,與分類閾值結果比較然后歸類即可。
DeepFM是2017年Huifeng Guo提出的一種基于神經網絡的因子機算法,該方法包含兩個部分因子機FM和深度學習Deep,預測結果是兩者之和如式(4),FM和Deep共用輸入層和嵌入層。FM處理低階數據,Deep處理高階數據。
FM的預測表達式y(tǒng)FM,至于深度神經網絡yDNN:假設δ表示激活函數,αL、WL、bL分別表示第L層神經網絡的輸出值、權重和模型偏差,則有α(L+1)=δ(WLαL+bL),以此類推得到深度學習得到的預測值為:
實驗中我們采用了GTD:全球恐怖主義研究數據庫(Global Terrorism Database)數據集S。GTD記錄了從1970年至今世界各地的恐怖事件信息,并且不斷的更新各種恐怖事件,至今已超過14萬恐怖襲擊事件,且每一個事件超過45個特征記錄值,這使其成為目前是介紹基于恐怖事件的最全面的非機密數據[13]。文章中分別選取了南亞地區(qū)A組織、B組織以及C組織所為事件分別打標簽得到三個訓練集,如表1。并提取2001年至2017年近17年南亞地區(qū)未打標簽事件為測試集。
表1 恐怖事件組織和標簽
LR(Logistic Regression)邏輯回歸模型是一個統(tǒng)計過程,用于測量一個或多個預測變量與響應變量之間的多變量線性關系[14],LR主要考慮參數的權重W,常用于線性模型中,W通過最大似然函數求得,且分類閾值為0.5。TFM相對于LR模型來說考慮了特征間的相關性,以及GTD數據稀疏的特點,使得預測模型更準確,結果如表2所示,表2中馬修斯系數(Matthews Correlation Coefficient,MCC)同時考慮了被模型預測為負的負樣本(True Negative,TN),被模型預測為負的正樣本(False Negative,FN),被模型預測為正的正樣本(True Positive,TP),被模型預測為正的負樣本(False Positive,FP)的四個指標,表達式見式(6),MCC越大分類效果越好;準確率表示預測正確的數占樣本數的比例。表中可看出相對于LR模型,TFM準確率和馬修斯系數分別提高了0.1%和2%,說明GTD中大多數特征參數和分類變量并非都呈線性關系,低階(d=2)FM分類模型比線性LR(d=1)效果更佳。
表2 TFM與LR模型比較
實驗得出針對GTD分類,FM略好于LR模型,但介于FM屬于(d=2)低階模型,是否高階模型(d>2)分類效果更好,此處實驗中通過FM與DeepFM實驗得到的基尼系數進行比較分析。由圖1和圖2顯示,FM模型相對于DeepFM提前33%的時間基尼系數達到0.8良好情況且最后收斂結果大體一致,可說明沒有必要再進行深度學習,只用考慮低維度數據,即只用考慮低階(d=2)部分即可,所以可分析得到針對GTD的分類低階(d=2)FM分類模型比高階(d>2)DeepFM效果更佳。
圖1 FM模型基尼系數
圖2 DeepFM模型基尼系數
我們強調ML可用于分析恐怖主義數據的特征關系,具有高準確性和快速性。故本文基于GTD數據集,使用Python3.6統(tǒng)計數據,就FM模型與DeepFM模型展開研究。實驗結果顯示針對GTD數據集的分類問題低階(d=2)FM分類模型比線性LR(d=1)和高階DeepFM(d>2)模型效果更佳,所以GTD數據中并非大多數特征參數和分類變量呈線性關系,盡管數據稀疏,也應考慮二階數據,在實驗最后,我們將3組訓練集和一個測試集用于TFM模型,其預測結果理想,TFM模型確實有助于我們進行分類操作。GTD分類后的數據可用于更多實驗研究,如采用時空掃描方法對一個區(qū)域的恐怖襲擊事件進行評估預警等,再預警過程中精確地分類數據能使評估預警數據更為準確、可靠等。該模型更廣泛的拓展應用待下一步研究。