魏文燕,呂 鑫,高 琰
(1.中南大學(xué),湖南 長(zhǎng)沙410012;2.長(zhǎng)沙市公安局,湖南 長(zhǎng)沙 410005)
文本挖掘技術(shù)在公安領(lǐng)域案件分析中的應(yīng)用
魏文燕1,呂 鑫2,高 琰1
(1.中南大學(xué),湖南 長(zhǎng)沙410012;2.長(zhǎng)沙市公安局,湖南 長(zhǎng)沙 410005)
為輔助民警辦案,提高搜集情報(bào)、偵查破案的能力,結(jié)合公安領(lǐng)域案件文本數(shù)據(jù)的特點(diǎn),將文本挖掘技術(shù)應(yīng)用于公安領(lǐng)域案件的分析處理中,提出了一個(gè)基于文本挖掘技術(shù)的案件信息處理框架??蚣苤饕ǎ盒畔⒊槿∧K,案件分類模塊。信息抽取模塊主要運(yùn)用正則表達(dá)式方法,可以有效地提取出所需求的線索信息,在完成線索信息提取之后,將具有相同線索信息的案件進(jìn)行串并案。在案件分類模塊中,構(gòu)建了層次SVM分類器和規(guī)則分類器,將兩者結(jié)合對(duì)案件進(jìn)行分類。在一定規(guī)模的數(shù)據(jù)集下對(duì)該框架進(jìn)行了功能和性能測(cè)試,獲得了較為滿意的結(jié)果。
案件分析;信息抽??;文本挖掘;SVM分類
隨著社會(huì)的發(fā)展,各行各業(yè)都積累了許多有意義的數(shù)據(jù)資料,公安領(lǐng)域也不例外,案件信息以每年百萬條的速度遞增。目前公安部門雖然有完善的案件信息管理系統(tǒng),可以方便地對(duì)案件進(jìn)行查詢、篩選、統(tǒng)計(jì)等處理,為警務(wù)人員減少了一定的勞動(dòng)量,但是依靠這些傳統(tǒng)方法,很難挖掘出有價(jià)值的線索。因此,為有效維護(hù)社會(huì)信息條件下的國(guó)家安全和社會(huì)穩(wěn)定,公安機(jī)關(guān)就必須加強(qiáng)對(duì)各類信息的全面整合、綜合分析和預(yù)警監(jiān)測(cè),不斷提高搜集情報(bào)、偵查破案、處置重大警情的能力[1]。
公安領(lǐng)域的案件信息都是以文本的形式記錄在案的,這些案件文本中包含著各種重要的線索,如涉案電話號(hào)碼、網(wǎng)址等,提取出這些線索可以有效地幫助案件的偵破和串并案的發(fā)現(xiàn)。其次,業(yè)務(wù)人員在錄入案件的時(shí)候還需選擇案件類別,由于許多因素干擾,登記的案件類別可能并不是準(zhǔn)確的,不利于公安研判分析。因此借助機(jī)器學(xué)習(xí)下文本分類技術(shù)將案件自動(dòng)分類,不僅可以節(jié)省人力,還能保證一定的案件分類準(zhǔn)確率,提高公安研判分析效率。目前,已有不少專家學(xué)者對(duì)公安領(lǐng)域的數(shù)據(jù)分析進(jìn)行了研究,如李曉冰論述了利用Excel對(duì)詐騙案件源數(shù)據(jù)進(jìn)行存儲(chǔ)和統(tǒng)計(jì)分析,根據(jù)統(tǒng)計(jì)分析的結(jié)果提取對(duì)案件分析有效的訓(xùn)練樣本,然后應(yīng)用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則分析,對(duì)詐騙案件內(nèi)部屬性之間存在的關(guān)系進(jìn)行挖掘[2]。如圖像方面的應(yīng)用研究:方世強(qiáng)論述了將數(shù)字圖像處理技術(shù)應(yīng)用于進(jìn)行機(jī)動(dòng)車車牌識(shí)別的技術(shù)和重要性[3];譚熾烈論述了在海量數(shù)據(jù)時(shí)代將智能分析技術(shù)應(yīng)用于公安領(lǐng)域的視頻監(jiān)控[4]。其他還有改進(jìn)公安辦公方式的研究,聶展云利用智能手機(jī)、平板電腦等智能化移動(dòng)終端由于其攜帶方便、移動(dòng)性強(qiáng)、操作簡(jiǎn)單、用戶體驗(yàn)好、應(yīng)用豐富等特性,開發(fā)移動(dòng)警務(wù)平臺(tái),更好地應(yīng)用于各級(jí)公安民警的實(shí)戰(zhàn)工作[5]。
本文所提出的案件文本挖掘系統(tǒng)的框架重點(diǎn)為兩個(gè)功能模塊,案件要素抽取功能模塊和案件自動(dòng)分類功能模塊,基于這兩個(gè)功能模塊可深入開展業(yè)務(wù)應(yīng)用,如利用提取的案件要素信息進(jìn)行聚類、串并案件;將案件正確分類后進(jìn)行研判等業(yè)務(wù)應(yīng)用。系統(tǒng)的框架結(jié)構(gòu)如圖1所示。
(一)案件要素抽取的工作內(nèi)容
案件要素抽取是提取案件中有用的信息點(diǎn),或者說有利于破案的線索。根據(jù)公安方面提出的要求,需要提取目標(biāo)信息點(diǎn)為作案時(shí)間、涉案金額、身份證號(hào)、涉案網(wǎng)址、涉案銀行賬號(hào)、電話號(hào)碼、QQ號(hào)碼、交通工具、作案人員結(jié)構(gòu)、公交線路、公交站點(diǎn)。作案時(shí)間可用于統(tǒng)計(jì)某個(gè)時(shí)間段內(nèi)的總體或某類犯罪案件發(fā)生頻率,涉案金額主要應(yīng)用于統(tǒng)計(jì)犯罪案件造成的經(jīng)濟(jì)損失,其他的信息點(diǎn)均為重要的破案線索,利用線索的相關(guān)性,可對(duì)案件做進(jìn)一步處理,如串案、并案。其中,提取的作案時(shí)間如“2016年1月1日”,“2016年10月”,格式化為“2016/01/01”、“2016/10”;涉案金額描述形式多樣,如“被偷現(xiàn)金500元,蘋果手機(jī)一臺(tái),現(xiàn)價(jià)值約為2000元,共計(jì)損失2500元”,所提取涉案金額為2500,為了保證后期統(tǒng)計(jì)的正確性,所以將分散的涉案金額進(jìn)行合計(jì)或只提取合計(jì)損失金額,最終只保留一個(gè)總金額;提取的交通工具信息點(diǎn)的描述形如“一輛銀白色轎車”、“無牌黑色面包車”;作案人員的描述形如“一個(gè)中年男子”、“兩名男子和一名女子”等,提取并修整為“□男□女”格式,如“2男1女”。
圖1 系統(tǒng)的框架結(jié)構(gòu)
這部分應(yīng)用正則表達(dá)式匹配方法。正則表達(dá)式在文本匹配和文本抽取方面有著強(qiáng)大的功能,在實(shí)際工作中如匹配用戶郵箱,手機(jī)號(hào)碼,抽取網(wǎng)頁內(nèi)容和網(wǎng)絡(luò)安全檢測(cè)等領(lǐng)域有著廣泛的應(yīng)用[6]。對(duì)于案件文本,雖然是以半結(jié)構(gòu)化文本的形式記錄在庫的,但其內(nèi)容本身結(jié)構(gòu)并不復(fù)雜,比較單一,符合時(shí)間、地點(diǎn)、人物、事件此類簡(jiǎn)單的語法結(jié)構(gòu)。難點(diǎn)在于必須考慮正則表達(dá)式的容錯(cuò)性,因此,在充分研究分析案件文本數(shù)據(jù)之后,詳盡羅列出各項(xiàng)信息抽取的規(guī)則,并測(cè)試修改,最終整合成正則表達(dá)式。將正則表達(dá)式匹配案件文本中的語句,抽取相應(yīng)的信息。示例如下表所示:
表1 信息抽取示例表
(一)簡(jiǎn)化案件信息錄入。自動(dòng)填充相關(guān)信息項(xiàng),使警務(wù)人員免于重復(fù)冗余的信息錄入;
(二)支持多維度分析統(tǒng)計(jì)案件。在作案時(shí)間、涉案金額、身份證號(hào)、銀行賬號(hào)、電話號(hào)碼、QQ號(hào)碼、涉案網(wǎng)址、人員結(jié)構(gòu)、交通工具、公交線路、公交站點(diǎn)這11個(gè)維度下對(duì)案件進(jìn)行綜合統(tǒng)計(jì)分析,有助于案件材料的歸納整理工作;
(三)自動(dòng)串并案件。在原導(dǎo)入的案件數(shù)據(jù)的基礎(chǔ)上,返回“串并編號(hào)”和“串并要素”。則具有相同“串并編號(hào)”的案件即為系統(tǒng)自動(dòng)串并的案件,“串并要素”即為同組串并案件具有的相同要素信息(涉案網(wǎng)址、涉案銀行賬號(hào)、電話號(hào)碼、QQ號(hào)碼)。警務(wù)人員通過“串并編號(hào)”的最大值即可掌握串并案件的總組數(shù),快速了解正在活動(dòng)的犯罪團(tuán)伙數(shù)量;同一“串并編號(hào)”的數(shù)量反映出每組案件的規(guī)模,從而能夠科學(xué)安排警力優(yōu)先針對(duì)社會(huì)影響較大的多發(fā)性案件開展偵查;通過相同的“串并編號(hào)”可將相關(guān)案件線索串聯(lián)起來,更有效的偵破打擊違法犯罪。所抽取出的案件要素為串并案件提供依據(jù),串并案的意義不僅在于為偵查活動(dòng)提供情報(bào)信息,還在于能夠增加案件信息(特別是近年來流行的電信詐騙、微信詐騙等),促使公安機(jī)關(guān)受理案件,及時(shí)發(fā)現(xiàn)此類案件新的詐騙特點(diǎn),是偵查人員全面了解案情,及時(shí)調(diào)整主動(dòng)偵查的方向[7]。
案件分類功能模塊的工作流程如下圖所示:
圖2 案件分類工作流程圖
(一)文本預(yù)處理
在案件分類之前,需要做好案件文本預(yù)處理工作,本文中的文本預(yù)處理具體流程如下圖3所示。
中文分詞是文本預(yù)處理流程的第一步。本文采用分詞效果和運(yùn)行速度都較為優(yōu)秀的“Jieba”分詞?!癑ieba”
圖3 文本預(yù)處理流程圖
分詞是一款目前應(yīng)用廣泛、口碑較好的分詞工具。該分詞工具可以讓用戶自行添加自定義詞典和停用詞詞典,這兩個(gè)特性對(duì)于案件文本的分詞,具有實(shí)際應(yīng)用價(jià)值,案件文本中包含不少公安領(lǐng)域?qū)I(yè)詞匯和地區(qū)、道路等名稱詞匯,將這些特殊詞匯添加至自定義詞典,同時(shí)將區(qū)分度差的高頻詞匯放入停用詞典,可顯著提升分詞效果。
第二步,將案件文本轉(zhuǎn)換成計(jì)算機(jī)能夠理解的表示形式。本文采用向量空間模型(Vector Space Model,VSM)表示案件文本。該模型的主要思想是:將每一文檔都映射為由一組規(guī)范化正交詞條矢量張成的向量空間中的一個(gè)點(diǎn)。對(duì)于所有的文檔類和未知文檔,都可以用此空間中的詞條向量(T1 , W1 , T2 , W2 ,…, Tn , Wn)來表示(其中,Ti為特征向量詞條;Wi為Ti 的權(quán)重)[8]。一般需要構(gòu)造一個(gè)評(píng)價(jià)函數(shù)來表示詞條權(quán)重,其計(jì)算的唯一準(zhǔn)則就是要最大限度地區(qū)別不同文檔。傳統(tǒng)的特征項(xiàng)的權(quán)重計(jì)算方法還有TF/IDF方法,布爾模型方法等,本文采用TF/IDF權(quán)重計(jì)算方法。
特征降維有兩上級(jí)方法。一類稱為特征選擇(Term Selection),另一類稱為特征抽?。═erm Extraction)。降維后生成的特征集合的每一個(gè)元素具有更強(qiáng)的代表性,維數(shù)的減少意味著耗費(fèi)更少的計(jì)算資源[9]。
本文采用的特征降維的方法:
建立停用詞集合,分詞過程中篩去停用詞;
建立公安領(lǐng)域的同義詞詞典,經(jīng)過同義詞替換減少特征集合的維度;
在分詞過程中,對(duì)分詞的結(jié)果進(jìn)行詞性標(biāo)注,篩去詞性為人名的詞。
(二)基于SVM的文本分類
案件自動(dòng)分類模塊是指訓(xùn)練好的分類器對(duì)給定的未知類別案件文本,自動(dòng)將其歸為某一類別。浙江大學(xué)的程春惠等人曾將改進(jìn)的樸素貝葉斯算法應(yīng)用于犯罪案件文本的分類,取得較高的分類準(zhǔn)確率。本文分類器采用的算法為支持向量機(jī)(Support Vector Machine,SVM)分類算法。其具有堅(jiān)實(shí)的理論依據(jù)和成功的實(shí)踐經(jīng)驗(yàn),在許多領(lǐng)域(如手寫數(shù)字識(shí)別,物體識(shí)別和文本分類)得到應(yīng)用[10]。
對(duì)于支持向量機(jī)分類器,選擇合適的核函數(shù)、調(diào)整類別權(quán)重與獲取滿意的分類準(zhǔn)確率休戚相關(guān)。常用的核函數(shù)有線性核(Linear Kernel)、多項(xiàng)式核(Polynomial Kernel)、徑向基核函數(shù)(Radial Basis Function)、Sigmoid核(Sigmoid Kernel)等[11]。本文的實(shí)驗(yàn),對(duì)比分析了在相同數(shù)據(jù)條件下,采用線性核函數(shù)可以達(dá)到較高的準(zhǔn)確率,這與許多文獻(xiàn)的結(jié)論一致[12]。
現(xiàn)實(shí)中,每天被錄入的案件種類繁多,常見的有電信詐騙、入室盜竊等,比較少見的有吸毒賭博、集資詐騙等。因此,本文根據(jù)總體案件文本類別數(shù)量不均衡的特征,采用了自動(dòng)調(diào)整類別權(quán)重平衡模式,類別權(quán)重值與該類出現(xiàn)的頻率成反比。設(shè)當(dāng)前樣本總數(shù)為n_ samples ,案件類別共有n_classes類,屬于類別y的案件出現(xiàn)次數(shù)為count(y),類別y的權(quán)重值計(jì)算公式為……1
(三)層次分類結(jié)構(gòu)
本文通過分析案件文本、案件類別和省廳案件細(xì)分化文件,發(fā)現(xiàn)案件的類別與類別之前存在層次關(guān)系,比如某一條關(guān)于在道路上實(shí)施搶劫財(cái)物的案件,不同的警務(wù)人員給定的類別就可能不同,其可被分為“搶劫”或“攔路搶劫”,實(shí)際上,攔路搶劫屬于搶劫的一個(gè)類別,換而言之,“搶劫”是上級(jí)類別,“攔路搶劫”屬于“搶劫”的下級(jí)類別。鑒于這種情況,本文合理地將分類器設(shè)計(jì)為層次結(jié)構(gòu),自頂向下,逐層分類。采用雙層分類結(jié)構(gòu)(類似于兩層樹結(jié)構(gòu)),訓(xùn)練時(shí),先將所有樣本以上級(jí)類別作為標(biāo)簽訓(xùn)練上級(jí)分類器(根分類器),然后根據(jù)各個(gè)上級(jí)的案件樣本子集,以下級(jí)類別作為標(biāo)簽訓(xùn)練出每個(gè)下級(jí)分類器(子分類器)。當(dāng)給定一個(gè)案件樣本,首先經(jīng)過上級(jí)分類器獲得上級(jí)類別,再經(jīng)下級(jí)分類器獲得下級(jí)類別(最終類別),如圖4。
圖4 層次分類結(jié)構(gòu)
基于層次結(jié)構(gòu)的支持向量機(jī)分類器,對(duì)于樣本類別之間具有層次關(guān)系的樣本集,可以提高分類準(zhǔn)確率。比如在案件樣本中,“車扒”和“扒竊”均為樣本類別名稱,實(shí)際上“車扒”是屬于“扒竊”的一種類型(在公交車上作案),如果將“車扒”和“扒竊”按同級(jí)類別進(jìn)行分類,“車扒”類的分類準(zhǔn)確率僅為0.855;而將“扒竊”作為上級(jí)類別,“車扒”作為“扒竊”的下一級(jí)類別,“車扒”類的分類準(zhǔn)確率為0.975。
在上級(jí)分類層中,案件類別差異較大,而類別數(shù)目較少,使得特征降維后的特征向量的類別區(qū)分能力強(qiáng),從原理上說,支持向量機(jī)的判決函數(shù)只與支持向量有關(guān),如果支持向量差異明顯,分類間隔的寬度就比較大,從而分類準(zhǔn)確率提高。在上級(jí)分類的準(zhǔn)確率得到充分保障基礎(chǔ)上,從下層各個(gè)下級(jí)類別的案件樣本子集中抽取出區(qū)分能力強(qiáng)的特征詞,構(gòu)成新的特征向量。各個(gè)下級(jí)類別的分類器都有屬于自己的特征向量,能減少不相關(guān)類別的信息干擾,這有利于尋找到最優(yōu)分類決策面。
通過訓(xùn)練集生成各個(gè)支持向量機(jī)分類器模型后,便可以進(jìn)行案件分類,分類工作的基本步驟如下:
除了田園,文學(xué)里的另一個(gè)神話是故鄉(xiāng),且經(jīng)常和田園神話糾纏在一起。前一段時(shí)間,大家都在寫“每個(gè)人的故鄉(xiāng)都在淪陷”,感嘆一份曾經(jīng)的美好在漸漸消失。隨著城市化進(jìn)程的推進(jìn),中國(guó)鄉(xiāng)村開始凋敝,這是事實(shí)。但是很多感嘆不是為了哀婉這個(gè),倒像在構(gòu)建一個(gè)關(guān)于過去的田園神話。
利用“jieba”分詞對(duì)案件進(jìn)行分詞,剔除詞性為人名的詞,然后經(jīng)過同義詞替換。
根據(jù)上級(jí)類別L1,調(diào)用對(duì)應(yīng)L1類別的下級(jí)分類器,假設(shè)該下級(jí)分類器的特征集為,采用TF/IDF權(quán)重計(jì)算方法向量化該案件得到新的特征向量,最后得到由該下級(jí)分類器預(yù)測(cè)出的最終案件類別。
(四)規(guī)則分類與SVM分類結(jié)合
在SVM分類過程中,分類器的置信度是一個(gè)值得重視的參量。在決策過程中,對(duì)測(cè)試樣本分別計(jì)算各個(gè)子分類器的決策函數(shù)值,并選取分類器決策函數(shù)值最大所對(duì)應(yīng)的類別作為測(cè)試樣本的預(yù)測(cè)類別。多采用以決策函數(shù)值作為衡量置信度大小的標(biāo)準(zhǔn)[13],在預(yù)測(cè)時(shí),記錄了每條測(cè)試樣本的每個(gè)SVM分類器的決策函數(shù)值。本文經(jīng)過分析研究和實(shí)驗(yàn),對(duì)滿足以下情況的案件樣本拒識(shí):
各個(gè)分類器的決策函數(shù)值均為負(fù)數(shù);
僅一個(gè)分類器的決策函數(shù)值為正數(shù),但其值很小,小于1;
出現(xiàn)三個(gè)及以上的分類器的決策函數(shù)值為正數(shù)。
通過對(duì)分類器的判決結(jié)果進(jìn)行基于決策函數(shù)的置信度評(píng)估,拒識(shí)置信度水平相對(duì)較低的決策結(jié)果,接受置信度水平較高的決策結(jié)果。對(duì)于被拒識(shí)的案件,本文調(diào)用規(guī)則匹配分類器確定其類別。
規(guī)則匹配分類器是依據(jù)產(chǎn)生式規(guī)則的思想,建立事實(shí)數(shù)據(jù)庫并設(shè)計(jì)規(guī)則庫,基于現(xiàn)有的規(guī)則庫示推理過程和行為。在所采用的確定性推理中,規(guī)則庫中的所有規(guī)則、事實(shí)數(shù)據(jù)庫中的所有事實(shí)和推導(dǎo)出來的結(jié)論都是正確的,它們要么成立要么不成立[14]。本文的規(guī)則匹配分類器是一個(gè)應(yīng)用規(guī)則庫(含875條規(guī)則,可進(jìn)行增刪改操作),利用邏輯關(guān)系匹配的方法檢驗(yàn)案件文本信息的工具。規(guī)則庫有多個(gè)屬性列,分別為序號(hào)列,關(guān)鍵詞列,排斥詞列,類別名稱列,上級(jí)類別列。規(guī)則以IF…THEN…的形式出現(xiàn),IF所帶的是前件(條件),THEN所帶的是后件(結(jié)論),多個(gè)條件是通過邏輯運(yùn)算AND,OR,NOT組合成復(fù)合條件,當(dāng)完全滿足條件才能推出對(duì)應(yīng)的結(jié)論。例如,規(guī)則庫中有這樣一條規(guī)則:IF(被盜EXIT AND 臥室EXIT)AND NOT(酒店EXIT OR 旅館EXIT)THEN(類別名稱=入室盜竊,上級(jí)類別=盜竊)。
當(dāng)給定一個(gè)案件,規(guī)則匹配分類器整體的匹配分類過程如圖5所示:當(dāng)出現(xiàn)遍歷所有規(guī)則仍沒有匹配成功,就說明對(duì)該案件分類失敗。規(guī)則匹配分類器依賴于人工經(jīng)驗(yàn)積累編寫而成的規(guī)則庫,適用于識(shí)別出現(xiàn)頻率低、具備明顯特征詞的案件,如“糾紛”、“舉報(bào)”、“涉毒”等類別的案件,對(duì)于邏輯關(guān)系復(fù)雜的案件類別容易產(chǎn)生錯(cuò)誤,而且由于規(guī)則庫中規(guī)則數(shù)量較多,對(duì)每一條待分類案件需要順序遍歷規(guī)則直到匹配符合,匹配每一條規(guī)則還需迭代各個(gè)關(guān)鍵詞和排斥詞,所以分類速度較慢,單條案件分類速度遠(yuǎn)慢于支持向量機(jī)分類的速度。因而本文采用以支持向量機(jī)分類為主,規(guī)則分類為輔的方法對(duì)案件進(jìn)行分類,同時(shí)保證了分類速度和分類準(zhǔn)確率。
圖5 匹配分類過程
本節(jié)對(duì)上述系統(tǒng)各模塊的功能進(jìn)行了測(cè)試和評(píng)估。本系統(tǒng)平臺(tái)為Windows8.1 64 bit操作系統(tǒng),實(shí)驗(yàn)程序所用的編寫語言為Python2.7.9,數(shù)據(jù)庫為MS Excel2013,程序界面簡(jiǎn)潔友好,簡(jiǎn)單易用。
(一)信息抽取評(píng)估與應(yīng)用
本部分實(shí)驗(yàn)以2015年10月01日至2015年10月05日的8031條案件樣本作為實(shí)驗(yàn)數(shù)據(jù),對(duì)信息抽取功能進(jìn)行了測(cè)試。
實(shí)驗(yàn)結(jié)果要素i被正確抽取的比例Pi為評(píng)價(jià)指標(biāo):
式中:rp為要素i被正確提取的案件個(gè)數(shù),wp為要素i被錯(cuò)誤提取的案件個(gè)數(shù),up為要素i存在但未被提取的案件個(gè)數(shù)。
信息抽取效果如圖6所示。
圖6 各信息要素被正確抽取率
信息抽取效果評(píng)估:
1. 金額提取基本準(zhǔn)確,但有些案件的金額涉及案件實(shí)際發(fā)生金額和非實(shí)際發(fā)生金額,實(shí)際發(fā)生金額如“被盜一部手機(jī),現(xiàn)價(jià)值2000元”,非實(shí)際發(fā)生金額如“對(duì)方打來電話說自己中了五千元大獎(jiǎng)”,其中的“五千元”也會(huì)被提取出來,這種情況下提取的是非有效金額。
2. 身份證號(hào)碼、電話號(hào)碼、手機(jī)號(hào)碼、QQ號(hào)碼提取基本全面、完整,但如上文提到暫時(shí)還不能實(shí)現(xiàn)區(qū)分號(hào)碼所屬為受害者還是嫌疑人,后續(xù)研究將借助語義分析的方法改進(jìn)[15]。
3. 案件中出現(xiàn)的時(shí)間基本都可以提取到,目前不能區(qū)分將報(bào)案時(shí)間和案件發(fā)生時(shí)間,需要進(jìn)一步的改進(jìn)。
(二)案件分類評(píng)估與應(yīng)用
本案件分類模塊可以隨時(shí)導(dǎo)入、添加訓(xùn)練樣本,獲得新的分類器模型,使系統(tǒng)滿足隨時(shí)改善(提高分類準(zhǔn)確率)的要求,也可以識(shí)別新類別的案件。
本文研究對(duì)象為盜竊、詐騙等涉及財(cái)產(chǎn)的財(cái)產(chǎn)案件,樣本集中多為財(cái)產(chǎn)案件,少量為非財(cái)產(chǎn)案件。對(duì)于非財(cái)產(chǎn)案件采用本文的拒識(shí)方法予以拒識(shí),并由規(guī)則分類器給出案件類別。
實(shí)驗(yàn)以準(zhǔn)確率作為評(píng)價(jià)指標(biāo),定義公式如下:
式中:tp是被正確地劃分為正例的個(gè)數(shù),fp是被錯(cuò)誤地劃分為正例的個(gè)數(shù)。
實(shí)驗(yàn)采用十折交叉驗(yàn)證法,對(duì)普通SVM分類(svm),層次SVM分類(hiersvm)、規(guī)則與層次SVM結(jié)合的分類(rule+hiersvm)的分類效果進(jìn)行了比較,結(jié)果如下:
圖7 分類器交叉驗(yàn)證實(shí)驗(yàn)結(jié)果
上表數(shù)據(jù)是對(duì)訓(xùn)練集進(jìn)行交叉驗(yàn)證實(shí)驗(yàn)所得到的結(jié)果。其中SVM分類器均采用了以TF/ IDF方法計(jì)算詞條權(quán)重,過濾了停用詞、人名和同義詞替換,核函數(shù)為線性核函數(shù),對(duì)錯(cuò)誤樣本的懲罰因子設(shè)為1。
普通SVM分類器和層次SVM分類器的不同之處為層次SVM分類器具有層次關(guān)系結(jié)構(gòu)。從圖表中數(shù)據(jù)可以看到,層次SVM分類器相對(duì)于普通SVM分類器,分類準(zhǔn)確率提高了7.124個(gè)百分點(diǎn)。本實(shí)驗(yàn)數(shù)據(jù)的層次結(jié)構(gòu)比較簡(jiǎn)單,理論上來說,具有更復(fù)雜層次的實(shí)驗(yàn)樣本數(shù)據(jù)更能凸顯層次分類器的分類效果。而規(guī)則與層次SVM結(jié)合的分類又比單純的層次SVM分類高出4.869個(gè)百分點(diǎn),說明對(duì)于數(shù)量較少的非財(cái)產(chǎn)案件采用規(guī)則匹配分類更為合理??傮w而言,規(guī)則與層次SVM結(jié)合的分類效果最優(yōu)。
案件分類可應(yīng)用于服務(wù)治安態(tài)勢(shì)分析,預(yù)測(cè)各類案件的發(fā)生趨勢(shì),輔助警務(wù)人員決策。
[1]王曉鑫. 論“大數(shù)據(jù)”時(shí)代下的公安數(shù)據(jù)采集[J].中國(guó)科技博覽,2015(5):234-234.
[2]李曉冰. 基于Apriori算法的詐騙案件關(guān)聯(lián)規(guī)則挖掘研究[J].中國(guó)管理信息化, 2015(13):219-222.
[3]方世強(qiáng). 淺談數(shù)字圖像處理技術(shù)識(shí)別車牌在公安領(lǐng)域中的應(yīng)用和重要性[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用, 2014(10):30-30.
[4]譚熾烈. 海量數(shù)據(jù)挖掘時(shí)代智能分析技術(shù)在公安領(lǐng)域的應(yīng)用[J]. 中國(guó)安防, 2016(7):71-74.
[5]聶展云. 移動(dòng)警務(wù)服務(wù)平臺(tái)在公安領(lǐng)域的研究和實(shí)踐[J].警察技術(shù), 2014(3):44-46.
[6]周海. 基于正則表達(dá)式數(shù)據(jù)挖掘研究[J].電腦編程技巧與維護(hù),2016(10):51-51.
[7]徐一鳴. 信息化偵查在微信詐騙案件中的應(yīng)用探析[J].湖南警察學(xué)院學(xué)報(bào),2016(3):35-35
[8]An J L, Wang Z O, Ma Z P. A new SVM multiclass classification method[J]. Information & Control, 2004, 33(3):262-267.
[9]張士豪, 顧益軍, 張俊豪. 微博自動(dòng)分類系統(tǒng)設(shè)計(jì)[J].信息網(wǎng)絡(luò)安全,2016(1):81-87.
[10]Morales N, Toledo J, Acosta L. Path planning using a Multiclass Support Vector Machine[J]. Applied Soft Computing, 2016 (43):498–509.
[11]Brereton R G, Lloyd G R. Support Vector Machines for Classification and Regression[J]. Analyst, 2009, 135(2):230-67.
[12]趙暉. 支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究[D].大連:大連理工大學(xué),2006.
[13]趙行. SVM分類器置信度的研究[D].北京:北京郵電大學(xué),2010.
[14]寧琳. 一種基于句法規(guī)則的文本挖掘技術(shù)的設(shè)計(jì)[J]. 現(xiàn)代情報(bào), 2016(2):140-144.
[15]陳靜. 基于知識(shí)的風(fēng)險(xiǎn)決策系統(tǒng)構(gòu)架的研究[D]. 湖北大學(xué), 2008.
[16]閆新娟. 基于隱馬爾科夫模型和神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)研究[D]. 南華大學(xué), 2014.
Application of Text Mining Technology in the Field of Public Security
WEI Wen-yan1, LV Xin2, GAO Yan1
(1. School of Information Science and Engineering, Central South University, Changsha, Hunan, 410012; 2. Changsha Public Security Bureau, Changsha, Hunan, 410005)
In order to assist the police handling the case, improve the ability to collect intelligence, detect and solve the case, this paper analyzes the characteristics of text data in the field of public security cases, and applies text mining technology to the analysis and processing of public security cases, and proposes a framework of case information processing based on text mining technology. The framework mainly includes: information extraction module, case classification module. The information extraction module mainly uses the regular expression method, which can extract the cue information effectively. After the extraction of the cue information, the case with the same cue information will be concatenated. In the case classification module, a SVM classifier and a rule classifier are constructed, which combine the two cases to classify the cases. The function and performance of the framework are tested under a certain data set, and satisfactory results are obtained.
natural language processing; data mining; information extraction; SVM
D631.2
A
2095-1140(2017)03-0000-00
2017-3-19
魏文燕(1991- ),女,浙江余姚人,中南大學(xué)信息科學(xué)與工程學(xué)院2014級(jí)控制工程專業(yè)碩士研究生,主要從事數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)研究;呂 鑫(1987- ),男,湖南長(zhǎng)沙人,長(zhǎng)沙市公安局助理工程師,主要從事警務(wù)人工智能研究;高 琰(1974- ),女,中南大學(xué)副教授,博士,主要從事數(shù)據(jù)挖掘、智能信息處理研究。