石少沖, 陳 鵬,2, 原鵬輝, 侯 超, 明紅霞
(1.中國人民公安大學(xué)信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院, 北京 102600;2.公安部安全防范技術(shù)與風(fēng)險(xiǎn)評估重點(diǎn)實(shí)驗(yàn)室, 北京 102600)
在我國商品經(jīng)濟(jì)快速發(fā)展、人流物流交換日益頻繁的當(dāng)下,社會治安環(huán)境日益錯綜復(fù)雜。與此同時(shí),各種治安、刑事案件的發(fā)案量與日劇增并居高不下。因此,在警務(wù)資源十分有限的條件下,如何有效地控制和預(yù)防犯罪的發(fā)生對公安部門極為重要。傳統(tǒng)的解決思路是通過基于案件的時(shí)空信息利用各類模型預(yù)測犯罪案件數(shù)量[1-5]或預(yù)測犯罪熱點(diǎn)區(qū)域[6-8],進(jìn)而改變警力配置,優(yōu)化警力布局的方式,使公安部門從被動警務(wù)變?yōu)橹鲃泳瘎?wù)。但從運(yùn)籌學(xué)的理論角度,這種做法的局限性在于犯罪人員很容易通過改變作案目標(biāo)或作案區(qū)域從而使公安機(jī)關(guān)的主動防控手段失效,所以這類預(yù)測方法主要適用于公安部門的巡邏布警、治安防控等規(guī)?;Y源應(yīng)用業(yè)務(wù)中。
隨著近年來信息技術(shù)的快速發(fā)展以及感知能力的提升,圍繞著個體的特征數(shù)據(jù)越來越豐富,也為人們開展犯罪個體身份和行為的預(yù)測提供了基礎(chǔ),相關(guān)研究成果逐漸增多。如孫菲菲等提出了利用嫌疑人心理因素特征預(yù)測其犯罪概率的方法[9],羅森林等利用嫌疑人部分屬性信息構(gòu)建了犯罪人犯罪傾向的預(yù)測模型[10],等等。但是,從目前這方面已進(jìn)行的研究來看,這種通過犯罪人屬性預(yù)測犯罪人行為的研究尚存在著一些不足。首先,從應(yīng)用的方向上來看,目前相關(guān)研究主要根據(jù)犯罪人的各類特征對其犯罪風(fēng)險(xiǎn)程度進(jìn)行評價(jià),而不是從偵查的角度,利用案件所呈現(xiàn)出的各類特征信息來快速判別犯罪人員的類別,實(shí)現(xiàn)偵查方向的快速確定;其次,從方法的適用性來看,無論是孫菲菲還是羅森林的工作大量采用了犯罪人心理、收入、情感、壓力等公安非實(shí)時(shí)感知數(shù)據(jù),具有較大的稀缺性,往往會因?qū)嶋H獲取嫌疑人的屬性特征較為碎片化而達(dá)不到模型預(yù)測所需的條件;再次,在不同的案件中,犯罪人的行為預(yù)測模型構(gòu)建可能會隨著案件類型的變化而產(chǎn)生較大的變異,即所建立的模型嚴(yán)重依賴工作場景,因此遷移性和擴(kuò)展性較差。近年來,一些研究人員從犯罪偵查的角度開展了一些利用案件信息挖掘犯罪人身份的嘗試,如文獻(xiàn)[11]等,但仍存在著不區(qū)分案件類型、缺乏具體的應(yīng)用目標(biāo)、缺少國內(nèi)案例數(shù)據(jù)的驗(yàn)證等問題。綜上,根據(jù)目前關(guān)于犯罪人預(yù)測研究工作所存在的一些不足,本文從犯罪偵查的角度提出了利用犯罪案件現(xiàn)場信息建立犯罪人特征識別模型的構(gòu)建方法,并以國內(nèi)的實(shí)際犯罪數(shù)據(jù)為基礎(chǔ)進(jìn)行理論驗(yàn)證,進(jìn)而為信息化偵查提供一些有益的探索。
犯罪人地域特征是公安機(jī)關(guān)最為關(guān)注的犯罪人特征之一。在我國城市間人口的遷移頻度不斷增強(qiáng)的過程中,城市犯罪主體中外來人口占比也越來越高,特別是在一些地區(qū),案發(fā)后確認(rèn)犯罪人的地域來源已經(jīng)成為公安部門偵辦案件的一個重要突破點(diǎn)。利用犯罪人的地域特征信息,公安機(jī)關(guān)可以借助基礎(chǔ)信息庫關(guān)聯(lián)出犯罪人更多的身份信息,從而實(shí)現(xiàn)偵查方向的快速確定。本文將探索基于案件現(xiàn)場信息的犯罪人地域特征識別方法。
城市的現(xiàn)代化進(jìn)程促使了人員、信息、物資日益頻繁的流動,犯罪也隨著城市的現(xiàn)代化進(jìn)程演化出一系列的特點(diǎn)。犯罪學(xué)專家和公安實(shí)戰(zhàn)工作中發(fā)現(xiàn)案發(fā)現(xiàn)場與犯罪人的地域特征有很強(qiáng)的關(guān)聯(lián)性[12-14], 特別是針對侵財(cái)類案件,犯罪的地域性和親緣性更加明顯。這些特點(diǎn)就為通過研究犯罪現(xiàn)場的信息構(gòu)成來識別犯罪人的地域特征提供了可能。而犯罪現(xiàn)場是一種可以從“人”、“事”、“地”、“物”四類維度去描述一種事實(shí)活動[15],犯罪人通過其所作所為的“事”同 “物”和“地”聯(lián)系起來構(gòu)成一起案件現(xiàn)場的要素,如圖1所示。
圖1 案件現(xiàn)場構(gòu)成要素
但根據(jù)“人”、“地”、“事”、“物”均是包含著多維信息特征集合,將“人”、“地”、“事”中提取單一維度的特征更有力于模型的構(gòu)建。案件作為承載“地”、“事”、“物”的客體,可以從“事”中抽取為時(shí)間、手段兩個特征,可以從“地”抽取為區(qū)域、部位兩個特征,可以從“物”中將受害客體和侵害對象抽取為目標(biāo)特征,如圖2所示。所謂的時(shí)間描述的是案件的發(fā)生時(shí)間,區(qū)域描述的是案件發(fā)生的地理區(qū)域,部位是指犯罪者選擇攻擊的空間類型,目標(biāo)描述的是犯罪人選擇的對象種類,手段描述的是犯罪人的工具手段。一般情況下,來自相同地域的犯罪人群體往往由于具有相近的社會關(guān)系在作案時(shí)間、作案區(qū)域、作案目標(biāo)、作案部位和作案手段上具有較高的相似性,利用時(shí)間、區(qū)域、目標(biāo)、手段、部位等來確認(rèn)犯罪人的地域特征具有較高的可行性。
圖2 犯罪人地域特征識別模型
圖3 犯罪人地域特征識別模型機(jī)理
本文研究路線如圖3所示,通過對原始數(shù)據(jù)預(yù)處理和清洗階段來說明犯罪人地域特征識別模型的建立和工作過程。首先根據(jù)上述犯罪學(xué)和證據(jù)分析原理定義時(shí)間、區(qū)域、部位、目標(biāo)和手段五種案件現(xiàn)場特征信息,并根據(jù)定義對案件現(xiàn)場的描述中抽取對應(yīng)特征的元素,構(gòu)建特征集合。時(shí)間特征集合里的元素可以以小時(shí)為單位劃分,區(qū)域特征集合里的元素可以以行政區(qū)劃為單位劃分,部位特征集合里的元素可以易受攻擊的薄弱位置為單位劃分,目標(biāo)特征集合里的元素可以以學(xué)校、商場、居住區(qū)等空間類型劃分,手段特征集合里的元素可以根據(jù)犯罪人的不同作案方法來劃分。
然后,對案件的原始數(shù)據(jù)進(jìn)行清洗過程中,對數(shù)據(jù)中信息缺失項(xiàng)進(jìn)行缺失值插補(bǔ),去除錯誤的數(shù)據(jù)項(xiàng),剔除與案件現(xiàn)場無關(guān)的數(shù)據(jù)項(xiàng)。接著進(jìn)行數(shù)據(jù)規(guī)約,對時(shí)間、區(qū)域、部位、目標(biāo)和手段各自特征集合中相似元素進(jìn)行合并化簡,如在目標(biāo)特征中將與學(xué)校有關(guān)的元素合并為同一類;在目標(biāo)特征中將商店有關(guān)的元素合并成一類;在時(shí)間特征中將1~6時(shí)合并為后半夜,7~12時(shí)合并為上午,13~18時(shí)合并為下午,19~24時(shí)合并為前半夜,并對相應(yīng)的案例樣本打上犯罪人地域特征的標(biāo)簽,最后選擇合適的算法對標(biāo)簽化和標(biāo)準(zhǔn)化的數(shù)據(jù)構(gòu)建犯罪人地域特征識別模型,進(jìn)而實(shí)現(xiàn)對犯罪人地域特征的識別。
在偵查工作中,描述和刻畫案件和案發(fā)現(xiàn)場的文本型的離散變量很多,不同的特征量化方式對回歸等模型的分類精度造成很大的影響,也會人為增加大量帶入誤差。另外,犯罪人地域特征與案發(fā)現(xiàn)場的關(guān)聯(lián)性并不是一種簡單的線性關(guān)系,很難進(jìn)行全面精準(zhǔn)詳細(xì)地表達(dá)。而決策樹模型對文本型數(shù)據(jù)具有很好的包容性,廣泛地應(yīng)用于農(nóng)業(yè)、商業(yè)、醫(yī)學(xué)、地理遙感影像等領(lǐng)域[16-21]。決策樹模型也能夠?qū)Π赴l(fā)現(xiàn)場特征進(jìn)行非線性分割,并以貼近人類的思維過程的方式生成可視化的分類規(guī)則從而建立非線性系統(tǒng)分類模型,并且模型易于理解和表達(dá)、可信度較高。而且公安機(jī)關(guān)特別需要將機(jī)器從數(shù)據(jù)中學(xué)得的知識能夠直接地展現(xiàn)出來,決策樹提供很好的展現(xiàn)方法,因此,本文將利用決策樹算法刻畫案發(fā)現(xiàn)場與犯罪人地域特征的非線性映射關(guān)系,構(gòu)建犯罪人地域特征識別模型進(jìn)而實(shí)現(xiàn)對犯罪人地域特征的識別。
決策樹是機(jī)器學(xué)習(xí)算法的一種的[22],所謂機(jī)器學(xué)習(xí),即是計(jì)算機(jī)從大數(shù)據(jù)中學(xué)習(xí)得到一種假設(shè)函數(shù)模型H,利用假設(shè)函數(shù)模型H可以對新的對象x進(jìn)行預(yù)測或?qū)ο髕通過假設(shè)函數(shù)模型H映射到對象x的類標(biāo)號y里。在決策樹算法里,信息增益可以作為衡量所選取的特征A對于減少樣本的不確定性程度的能力,信息增益數(shù)值越大就代表這個特征越好。但選取信息增益不能避免決策樹樹分支過多的情況。相比而言,信息增益比是對信息增益的一種改進(jìn),選取信息增益比作為衡量所選取的特征A是否最優(yōu)的指標(biāo)比選用信息增益作為指標(biāo)更加可靠。信息增益比能夠?qū)Q策樹分支過多的情況進(jìn)行懲罰,從而抑制決策樹分支過多的情況。信息增益和信息增益比的公式如下所示:
g(D,A)=H(D)-H(D|A)
(1)
(2)
(3)
其中,H(D)為數(shù)據(jù)集D的經(jīng)驗(yàn)熵,H(D|A)為在特征A給定條件下數(shù)據(jù)集D的經(jīng)驗(yàn)條件熵,g(D,A) 為特征A對于數(shù)據(jù)集D的信息增益,HA(D)為訓(xùn)練數(shù)據(jù)集D關(guān)于特征A的值熵,n是特征A的取值個數(shù)。
在機(jī)器學(xué)習(xí)中有一系列測試性度量方法可以合理的反映所訓(xùn)練模型對于未知數(shù)據(jù)的分類能力[23],如正確率、Kappa值、真陽率、真陰率、查準(zhǔn)率、查全率、F度量等。各自公式如下所示:
(4)
(5)
(6)
(7)
(8)
(9)
(10)
其中,TP為真陽性(True Positive)代表正確分類為陽性樣本的數(shù)量;TN為真陽性(True Negative)代表正確分類為陰性樣本的數(shù)量;FP為假陽性(False Positive)代表錯誤分類為陽性樣本的數(shù)量;FN為假陰性(False Negative)代表錯誤分類為陰性樣本的數(shù)量。Pr(a)指的是分類器真實(shí)值一致性比例,Pr(e)表示期望一致性的比例。
在公安機(jī)關(guān)實(shí)戰(zhàn)工作中,盜竊電動自行車案件是伴隨2008年電動自行車迅速普及過程中產(chǎn)生的一種新型的財(cái)產(chǎn)犯罪。在這種新型的財(cái)產(chǎn)犯罪中,一方面犯罪分子能以較低的犯罪成本獲得較高的收益從而促使盜竊者多次犯罪,另一方面因盜竊電動自行車案發(fā)地隨機(jī),作案手段簡單多樣,案件現(xiàn)場痕跡物證少,偵查人員不易快速大量偵破相應(yīng)案件。對于北京地區(qū),北京盜竊電動自行車案件還有作案人地域特征多樣的特點(diǎn),即北京地區(qū)盜竊電動自行車案件融合了全國各地區(qū)盜竊電動車案的特點(diǎn),具有更強(qiáng)的代表性和可信度。因此本文采用來著于北京市2008~2014年間盜竊電動自行車案破案數(shù)據(jù)。
將北京市2008~2014年間盜竊電動自行車案破案數(shù)據(jù)按照圖2犯罪人地域特征識別模型進(jìn)行整理,此外,從刑事偵查的角度來講,由于一般的案件現(xiàn)場均包括時(shí)間、區(qū)域、目標(biāo)、部位和手段5種信息,基于這5類信息構(gòu)建犯罪人的特征預(yù)測模型具有很好的遷移性和擴(kuò)展性,也適用于其他類型的侵財(cái)類案件,有利于大大縮小犯罪嫌疑人的排查范圍、提高偵查速度。
將所整理的案例進(jìn)行數(shù)據(jù)清洗,進(jìn)行相應(yīng)的標(biāo)簽化和規(guī)約化。其中,破案數(shù)據(jù)中來自X省的罪犯最多,作案地較廣,具備典型性。本文將將重點(diǎn)識別犯罪嫌疑人是否來自于X省。經(jīng)過對數(shù)據(jù)的清洗和預(yù)處理得到判斷犯罪嫌疑人是否屬于X省的數(shù)據(jù)集,其包含1 269條有效數(shù)據(jù),數(shù)據(jù)樣如表1所示。
表1 實(shí)驗(yàn)中使用的部分?jǐn)?shù)據(jù)集
將陽性的類別設(shè)置為“是”,將陰性的類別設(shè)置為“否”。應(yīng)用基于信息增益比決策樹的辦法對清洗后的數(shù)據(jù)集進(jìn)行分類預(yù)測,使用交叉驗(yàn)證辦法對模型進(jìn)行測驗(yàn),依次進(jìn)行2-10折測驗(yàn)。檢驗(yàn)完成后,計(jì)算不同折數(shù)下的正確率、Kappa值、真陽率、真陰率、查準(zhǔn)率和查全率、F度量和AUC值。其中,AUC值是ROC曲線與x軸所圍成的面積,ROC曲線是以樣本的真陽率為x軸,以樣本的真陰率為y軸所繪制的曲線。若AUC值為0.5意味著模型為隨機(jī)分類,AUC值越接近于1意味著模型的分類預(yù)測能力越強(qiáng),可信度越高。
表2為經(jīng)過2至10折交叉檢驗(yàn)?zāi)P托阅茉u價(jià)結(jié)果,模模型分類正確均值為79.835%,方差為0.875,Kappa均值為0. 579,方差為0.017,表明模型預(yù)測值和真實(shí)值之間具有較好的一致性;真陽率均值為0.798,方差為0.009,真陰率均值為0.804,方差為0.011,AUC均值為0.848,方差為0.004,表明模型具有良好的正確分類為陽性樣本和陰性樣本的能力;查準(zhǔn)率均值為0.811,方差為0.007,查全率同真陽率相同為0.798,方差為0.009,F(xiàn)均值為0.801,方差為0.008,表明模型具有很好的精準(zhǔn)度和很寬的動態(tài)范圍。整體而言,利用決策樹算法對盜竊電動車案件的犯罪嫌疑人地域特性穩(wěn)定性較好,分類效果較好。
表2 犯罪人分類預(yù)測結(jié)果
為進(jìn)一步測試決策樹模型的分類能力和可靠程度,將可處理文本數(shù)據(jù)的樸素貝葉斯、邏輯回歸、貝葉斯網(wǎng)絡(luò)和隨機(jī)森林4種模型的分類預(yù)測效果同決策樹模型進(jìn)行對比。AUC值同真陽率和真陰率均有關(guān),可作為模型區(qū)分陽性、陰性樣本的綜合指標(biāo);F度量為查準(zhǔn)率和查全率的調(diào)和平均值,可作為模型精準(zhǔn)程度和動態(tài)范圍的綜合指標(biāo)。采用AUC值和F度量可方便不同模型間的對比。
通過表3不同分類算法模型評價(jià)結(jié)果的對比和分析可得,決策樹模型在對盜竊電動自行車犯罪分子地域特性分類過程中,擁有較樸素貝葉斯、邏輯回歸、貝葉斯網(wǎng)絡(luò)3種模型更好的精準(zhǔn)度和較寬的動態(tài)范圍,有比較好區(qū)分陽性樣本和隱性樣本的能力。盡管隨機(jī)森林的性能稍優(yōu)于決策樹,但其是在決策樹算法的變形,針對本問題時(shí),其效果也并非遠(yuǎn)遠(yuǎn)優(yōu)于決策樹,而且在大樣本情況下,決策樹模型運(yùn)行速度比隨機(jī)森林模型較快,對犯罪人分類預(yù)測正確率相對較高??傮w而言。表中4種分類算法的分類正確度均都在77.8%以上,這從側(cè)面證明根據(jù)時(shí)間、區(qū)域、部位、目標(biāo)和手段5種特征可以實(shí)現(xiàn)對犯罪地域特征的分類識別。
表3 不同分類算法模型評價(jià)結(jié)果
利用Weka 3.8軟件繪制以作案手段、作案目標(biāo)、作案部位、作案區(qū)域和作案時(shí)段信息為特征向量,基于信息增益比所構(gòu)建的決策樹,即犯罪人地域特性分類預(yù)測模型,這就是機(jī)器從數(shù)據(jù)中學(xué)習(xí)分類規(guī)則。圖1顯示了所繪制的決策樹的部分圖形 。決策樹選擇“作案區(qū)域”為根節(jié)點(diǎn),表明“作案區(qū)域”的信息增益比最大,以此劃分更能獲得更純的子節(jié)點(diǎn)。在圖1中“作案區(qū)域”為西城區(qū),“作案手段”為撬鎖開鎖,“作案部位”為路邊,“作案時(shí)間”為晚上,表明決策樹模型可正確分類10個樣本、錯誤分類2個樣本;若“作案時(shí)間”為下午,決策樹模型可正確預(yù)測9個樣本、錯誤分類3個樣本;作案區(qū)域?yàn)椤皯讶釁^(qū)”能完全正確分類95個樣本。
如果新的案發(fā)現(xiàn)場為“作案手段”為撬鎖開鎖,“作案目標(biāo)”為商業(yè)區(qū),“作案部位”為路邊,“作案區(qū)域”為懷柔區(qū),“作案時(shí)間”為晚上,結(jié)合所生成的模型預(yù)測判斷犯罪嫌疑人來自X省。在實(shí)踐過程中應(yīng)不斷更新決策樹模型,使模型能學(xué)習(xí)盜竊電動自行車案的新情況,保證模型有很好的擴(kuò)展性和實(shí)時(shí)性。
圖4 決策樹的部分結(jié)構(gòu)
本文基于犯罪學(xué)和信息偵查學(xué)原理,建立了利用時(shí)間、區(qū)域、部位、目標(biāo)和手段等5種案件現(xiàn)場信息識別犯罪人地域特征的理論模型,并通過北京市盜竊電動自行車案例利用決策樹算法進(jìn)行了實(shí)際驗(yàn)證。結(jié)果表明,5種特征可以有效地實(shí)現(xiàn)對犯罪地域特征的分類識別,決策樹模型能夠?qū)τ?xùn)練數(shù)據(jù)中所蘊(yùn)含的知識或分類規(guī)則進(jìn)行充分的學(xué)習(xí),并具備較好的知識擴(kuò)展能力,利用該模型實(shí)現(xiàn)對犯罪人地域特征的分類識別的方法可行,且其分類正確率在80%左右。在警務(wù)工作中,大多數(shù)案件均包含這幾類現(xiàn)場信息數(shù)據(jù),模型對其他侵財(cái)類型具有較好的遷移性和擴(kuò)展性。雖然本研究中,決策樹算法各項(xiàng)性能并不是最優(yōu),但從效果對比得知,在數(shù)據(jù)量較大時(shí),決策樹算法較樸素貝葉斯等其他算法在預(yù)測精度和運(yùn)算時(shí)間成本上更為優(yōu)良,采用了決策樹算法作為分類器來構(gòu)建分類模型具有一定的合理性。本工作的缺陷與不足是由于公安信息保密原因所獲取的樣本量較小,時(shí)效性不強(qiáng),特征向量不夠充分,因此下一階段將重點(diǎn)研究犯罪人籍貫地的多分類預(yù)測和犯罪人團(tuán)伙關(guān)系的預(yù)測,以進(jìn)一步提升模型的適用性。