張力,李永超
(河南省新鄉(xiāng)市公安局)
案事件預(yù)警、預(yù)防主要研究的內(nèi)容是基于同一類過往案事件信息及其涉及的嫌疑人、受害人、物品等信息,提取其外貌、行為、軌跡等各種特征,明確各個(gè)特征的權(quán)重,構(gòu)建該類案事件涉及人員的特征模型算法,并利用新發(fā)該類案事件涉及人員物品的數(shù)據(jù)特征,對模型算法參數(shù)進(jìn)行驗(yàn)證、優(yōu)化、完善。同時(shí),利用該算法對人員數(shù)據(jù)特征庫進(jìn)行動態(tài)相似度計(jì)算,監(jiān)測分析所有人的數(shù)據(jù)特征,達(dá)到對該類案事件高精度預(yù)測的目標(biāo)。
通過提取某類案件的時(shí)間規(guī)律和空間規(guī)律進(jìn)行時(shí)空關(guān)聯(lián)分析,獲得此類型案件的時(shí)間、空間的聚集性關(guān)聯(lián)規(guī)則關(guān)系,從而獲得出該類案件在某個(gè)時(shí)間、某個(gè)地點(diǎn)發(fā)生的概率,為民警打防工作提供理論支撐。同時(shí),根據(jù)案件作案方式、作案工具、案件特點(diǎn)等特征,結(jié)合該類案件的時(shí)間、空間聚集關(guān)聯(lián)規(guī)則,為民警案件串并提供新的手段。
提取某市公安局400多起已破盜竊電動車案件,對其進(jìn)行關(guān)聯(lián)規(guī)則分析和時(shí)空聚集性分析,并對案件串并案關(guān)聯(lián)分析,通過分析盜竊電車高發(fā)時(shí)間段為后半夜24時(shí)左右,下午17時(shí)-21時(shí),中午12時(shí)左右。提取案件的位置坐標(biāo)信息處理后撒點(diǎn),發(fā)現(xiàn)在位置分布上聚集分布。
隨機(jī)抽樣統(tǒng)計(jì)模擬方法蒙特卡羅,泛指所有基于統(tǒng)計(jì)采樣進(jìn)行數(shù)值計(jì)算的方法。蒙特卡羅方法的基本思想是,如果需要處理對某種事件出現(xiàn)的概率進(jìn)行求解的問題時(shí),或者是計(jì)算某個(gè)隨機(jī)變量的期望值時(shí),通過某一種“試驗(yàn)”的方法,計(jì)算得到這種事件出現(xiàn)的頻率,或者這個(gè)隨機(jī)變數(shù)的平均值,并以此作為該問題的一個(gè)解。我們使用該方法對盜竊案件進(jìn)行時(shí)空聚集性分析。
通過Apriori算法挖掘電車盜竊案件的數(shù)據(jù)關(guān)聯(lián)規(guī)則,找出案件信息中在不同的時(shí)間段頻繁重復(fù)出現(xiàn)的數(shù)據(jù),總結(jié)分析得出上午在小區(qū)街路巷多使用撬鎖盜竊電動車。前夜多在在居民小區(qū)發(fā)生盜車占盜竊類案件的4.6%。
通過分析案件的特征以及人員的特征,依據(jù)案件特征提取人員的特征,我們將這些分解成向量,之后再計(jì)算向量距離,便可以得出該案件和人員的相似度了。這種方法很簡單,在計(jì)算用戶特征向量和被推薦項(xiàng)的特征向量的相似性時(shí),使用的是cosine方法,計(jì)算兩個(gè)向量之間夾角的cosine值。例如:某小區(qū)的盜竊案件已知嫌疑人的特征,對人員進(jìn)行數(shù)據(jù)排查。首先提取案件特征示,與人員的基礎(chǔ)特征、行為特征進(jìn)行對應(yīng)。
通過將所有人員的特征的和案件的特征進(jìn)行相似度計(jì)算,最終提取相似度0.90以上的人員,作為案件的嫌疑人推薦給民警,提高排查效率。ATag表示案件特征,RTag表示人員特征,對應(yīng)的值為向量化的值。
由于公安案事件業(yè)務(wù)的特殊性,采用tf-idf(詞頻-逆文檔頻率)的方式計(jì)算案件特征權(quán)重,會有較大偏差,案件特征的權(quán)重主要依靠行業(yè)知識或民警的經(jīng)驗(yàn)?;诂F(xiàn)有知識或民警經(jīng)驗(yàn)設(shè)置權(quán)重,改善設(shè)計(jì)人員推薦算法,能有效提高嫌疑人推薦的精確度問題,解決案件的大規(guī)模嫌疑人排查工作,并隨著知識的增加、經(jīng)驗(yàn)的豐富、特征的完善,推薦結(jié)果也越來越精確。
機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,其目標(biāo)致力于研究通過計(jì)算機(jī)來模擬人類學(xué)習(xí)行為的方法,從而獲取新的知識或技能,進(jìn)一步重新組織已有的知識,并不斷改善自身的性能[3]。因此使用機(jī)器學(xué)習(xí)進(jìn)行由人到案的預(yù)測模型設(shè)計(jì),成為有效方法,為我們在公安業(yè)務(wù)中案事件預(yù)測預(yù)警提供一定的信息支撐。
模型構(gòu)建需要大量的數(shù)據(jù)參與,主要包含訓(xùn)練集和測試集。案件預(yù)測模型構(gòu)建過程中使用訓(xùn)練集對數(shù)據(jù)進(jìn)行學(xué)習(xí)、訓(xùn)練,構(gòu)建模型。構(gòu)建后的模型使用測試集進(jìn)行驗(yàn)證,通過驗(yàn)證模型輸出結(jié)果的性能,進(jìn)一步對模型進(jìn)行優(yōu)化。
構(gòu)建案件預(yù)測模型遵循一定的流程(見圖1):
嚴(yán)寒的冬季已是冰封水面,為了讓魚兒安全越冬,我們建議在結(jié)冰前把增氧機(jī)移向料臺附近,每天定時(shí)開機(jī)半小時(shí)左右,這樣以保證增氧機(jī)附近即使在嚴(yán)寒的冬季也不結(jié)冰,以達(dá)到冰下水體長期通風(fēng)換氣、提高水體溶氧的作用。另外,對滲水的池塘,要定時(shí)加注新水,保證冰下水的深度最好在1~1.5m之間。加水時(shí)一定要從下而上加水,切莫形成二茬冰,防止魚類凍傷凍死。同時(shí)在大雪天氣要合理地清掃積雪,保證冰下浮游植物的光合作用。
案件預(yù)測預(yù)防模型采用SVM算法對訓(xùn)練集進(jìn)行處理。案件有多個(gè)案件特征,人員也有多個(gè)特征,人員數(shù)據(jù)和歷史案件構(gòu)成了模型的訓(xùn)練樣本,但是案件特別是某一類案件的樣本數(shù)量都算不上海量。SVM算法不需要大量的原始樣本數(shù)據(jù)進(jìn)行訓(xùn)練,但其參數(shù)C和g,即懲罰系數(shù)和核函數(shù)半徑,需要根據(jù)經(jīng)驗(yàn)來選取,并根據(jù)結(jié)果進(jìn)行優(yōu)化選擇。
因?yàn)镾VM分類器原理上只能單輸出,對應(yīng)特征預(yù)測模型即輸出其中一個(gè)特征,所以根據(jù)人員特征的數(shù)量構(gòu)造對應(yīng)的分類器,即構(gòu)造特征預(yù)測分模型。
分模型的訓(xùn)練過程(見圖2):基于PSO算法參數(shù)尋優(yōu)得到SVM的最優(yōu)參數(shù)C和g,然后利用SVM算法對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,并得到分模型。
訓(xùn)練過程中,S為原始數(shù)據(jù)集,SK表示包含某個(gè)特征的數(shù)據(jù)集,即分模型數(shù)據(jù)集,MK表示分模型,dk表示分模型的特征輸出。匯總后,最終形成嫌疑人特征集合。
圖1 基于SVM的嫌疑人特征預(yù)測原理圖[4]
圖2 分模型的訓(xùn)練過程
4.3.1 預(yù)測模型的特征選擇
根據(jù)保密需要、犯罪案件信息以及案事件預(yù)測的目標(biāo),預(yù)測模型的選擇的輸出嫌疑人特征為:年齡、性別、民族、是否重點(diǎn)人員和是否吸毒。
根據(jù)嫌疑人特征需要構(gòu)建5個(gè)SVM分類器,分模型的輸入為案件基本信息特征和受害者特征,SVM分類器的輸出結(jié)果是分模型是嫌疑人的某一個(gè)特征值的集合。也就是說案件預(yù)測預(yù)防模型的輸出為特征集合。
4.3.2 驗(yàn)證模型過程
①驗(yàn)證過程中選取歷史案件共計(jì)2981條數(shù)據(jù),作為原始數(shù)據(jù)集,將該數(shù)據(jù)集數(shù)據(jù)信息進(jìn)行特征值量化。例如時(shí)間特征的量化,把一天24個(gè)小時(shí)劃分為:6:00 ~ 12:00 為 1,12:00 ~ 15:00為 2,15:00~ 18:00 為 3,18:00 ~21:00 為 4,21:00 ~ 24:00t為 5,24:00~次日6:00為6。年齡特征量化,把年齡劃分為0~18歲為1,18~30歲為2,30~40歲為3,40歲~50歲為5,50~60歲為6,60歲以上為7。性別、案件類型、職業(yè)情況、民族、教育情況、婚姻狀況等均采用公安數(shù)據(jù)標(biāo)準(zhǔn)代碼進(jìn)行簡化。將案件嫌疑人的特征也進(jìn)行量化處理。
②將所有數(shù)據(jù)進(jìn)行歸一化處理后,隨機(jī)提取2881條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。歸一化后將各個(gè)特征的值將處在[0~1]之間。歸一化選擇線性函數(shù)歸一化,公式如下:
式中:為特征歸一化后的值,X為原始值,Xmax、Xmin分別為特征的最大值和最小值。
③使用粒子群算法對分模型進(jìn)行SVM參數(shù)設(shè)置、并優(yōu)化,確定參數(shù)。
④使用SVM訓(xùn)練得到嫌疑人特征的分模型,然后匯總分模型作為最終的嫌疑人特征模型。
⑤模型驗(yàn)證過程。將剩余的100條數(shù)據(jù)作為測試數(shù)據(jù)集,驗(yàn)證模型的性能。
1)參數(shù)優(yōu)結(jié)果
使用粒子群算法對分模型進(jìn)行SVM參數(shù)設(shè)置,通過對5個(gè)分模型SVM參數(shù)尋優(yōu),得到最后參數(shù)C和g,然后使用該最優(yōu)參數(shù)來訓(xùn)練數(shù)據(jù)集,構(gòu)造5個(gè)分模型,將分模型輸出匯總,并作為特征預(yù)測模型的輸出。
2)分模型的精確率和召回率
利用得到的參數(shù),采用10折交叉驗(yàn)證的方法,可以得到各個(gè)分模型的精確率Pc和召回率Rc,并計(jì)算加權(quán)調(diào)和平均值Fc,其中模型的預(yù)測效果比較好的是性別和是否重點(diǎn)成員兩個(gè)特征的值分別達(dá)到了84.9%和93.1%。民族和吸毒情況模型的值為74.5%和67.2%,也達(dá)到良好效果。年齡預(yù)測模型的值最低為58.6%。
基于案事件預(yù)測、預(yù)警、預(yù)防問題,從公安業(yè)務(wù)三個(gè)場景研究預(yù)測模型的設(shè)計(jì)方法。主要依靠從各類數(shù)據(jù)中,提取的案件和人員特征數(shù)據(jù)進(jìn)行分析預(yù)測,達(dá)到了一定的效果,為案事件的預(yù)測預(yù)警預(yù)防探索新的方法。由于目前案件、人員特征數(shù)據(jù)還不夠全、也不夠多,后期需要進(jìn)一步完善公安行業(yè)的特征數(shù)據(jù),并通過大量的數(shù)據(jù)提高各個(gè)模型的精度,實(shí)現(xiàn)服務(wù)實(shí)戰(zhàn)的目標(biāo)。