李昊泉 史夢(mèng)凡 陳舒楠
摘 ?要: 幾年前,機(jī)器學(xué)習(xí)在司法方面的應(yīng)用被提出并得到迅速發(fā)展。本文通過對(duì)判決文書的學(xué)習(xí),將訓(xùn)練出的模型以文本分類的方式,用于協(xié)助辦案人員進(jìn)行罪名預(yù)測(cè):1、在權(quán)威網(wǎng)站爬取大量判決文書,進(jìn)行信息預(yù)處理后,提煉出較為精煉的文本數(shù)據(jù)和罪名標(biāo)簽;2、對(duì)文本進(jìn)行分詞、結(jié)構(gòu)化處理、構(gòu)成詞匯表并與相應(yīng)的詞向量進(jìn)行1對(duì)1映射;3、應(yīng)用谷歌的Tensorflow搭建卷積神經(jīng)網(wǎng)絡(luò),設(shè)置參數(shù),訓(xùn)練模型并測(cè)試;4、反復(fù)調(diào)整參數(shù)后,改進(jìn)優(yōu)化算法,使分類效果理想。最終分類準(zhǔn)確率在95%以上。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò);文本分類;罪名預(yù)測(cè);分詞;優(yōu)化算法
中圖分類號(hào): TP183 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.049
本文著錄格式:李昊泉,史夢(mèng)凡,陳舒楠,等. 卷積神經(jīng)網(wǎng)絡(luò)在案件分類上的應(yīng)用[J]. 軟件,2019,40(4):222225
【Abstract】: Several years ago, application of machine learning in judicial field was proposed and developed rapidly. Through judgment documents study, the article applies trained model for assisting case handlers in crime prediction with text categorization: 1. collect a large number of judgment documents on authoritative websites, after preprocessing information, extract refined text data and accusation labels; 2. carry on word segmentation and structural processing of texts to form vocabulary, map with corresponding word vectors 1 to 1; 3. construct convolution neural network with Google's Tensorflow, set parameters, train model and test; 4. after adjusting parameters repeatedly, improve and optimize algorithm to make classification effect ideal, and final classification accuracy is over 95%.
【Key words】: Convolutional neural network; Text classification; Crime prediction; Word segmentation; Optimization algorithm
0 ?引言
近年來,機(jī)器學(xué)習(xí)飛速發(fā)展,尤其在自然語言處理、文本分類方面,人工智能應(yīng)用廣泛。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)不僅在圖像領(lǐng)域取得了很大的成就,近年來在文本分類方向也大放異彩[1]。
當(dāng)前對(duì)案件的定性普遍由人工進(jìn)行,使用機(jī)器學(xué)習(xí)搭建經(jīng)濟(jì)類犯罪案件偵查系統(tǒng)后,有利于增強(qiáng)調(diào)查者的能力,可以有效縮短偵查程序的過程,從而提高案件處理效率。
我們計(jì)劃選取近年來頻發(fā)的經(jīng)濟(jì)類案件作為訓(xùn)練數(shù)據(jù),在中國裁判文書網(wǎng)上爬取判決文書作為訓(xùn)練材料,訓(xùn)練完成的模型可以對(duì)輸入的案件陳述進(jìn)行快速分類,達(dá)到罪名預(yù)測(cè)的目的。執(zhí)法機(jī)關(guān)可以在案件定性時(shí)結(jié)合相關(guān)人員的意見進(jìn)行快速且準(zhǔn)確的判斷。為此,我們將設(shè)想付諸實(shí)現(xiàn)。
1 ?相關(guān)技術(shù)介紹
1.1 ?中文分詞
中文分詞在自然語言處理中的重要作用不言而喻,主要包含三個(gè)過程:文本預(yù)處理、文本特征提取、分類模型構(gòu)建。判決文書具有嚴(yán)謹(jǐn)、準(zhǔn)確等特征,因此本項(xiàng)目將重點(diǎn)放在文本預(yù)處理上。預(yù)處理過程中最重要的是分詞,我們選擇使用基于統(tǒng)計(jì)的分詞方法[2-3]。該方法主要統(tǒng)計(jì)上下文中字符與字符相鄰出現(xiàn)的概率,兩字符相鄰出現(xiàn)的概率越高,它們聯(lián)合起來恰好組成一個(gè)詞語的概率也越大。中文中組成詞匯的幾個(gè)字常一同出現(xiàn),由此來達(dá)到分詞的效果。
迄今為止,中文分詞已經(jīng)有許多較為成熟的工具包,如jieba、pynlpir、scseg等。本文選取的jieba工具具有多種分詞模式,對(duì)案件文書分詞有良好的效果[4]。
1.2 ?文檔、詞項(xiàng)矩陣
分詞完成后需將數(shù)據(jù)結(jié)構(gòu)化處理才能進(jìn)行下一步分析,本項(xiàng)目中所采用的結(jié)構(gòu)化處理方式為文檔、詞項(xiàng)矩陣法,即Document-Term Matrix。以項(xiàng)目中的文檔為例,我們?cè)诒姸喟讣愋椭羞x取信用卡詐騙和合同詐騙兩種類型的案件,文本一[經(jīng)濟(jì),犯罪,信用卡,詐騙,調(diào)查],文本二[經(jīng)濟(jì),犯罪,合同詐騙,研究],則基于這兩個(gè)文本構(gòu)建出的詞典包含7個(gè)不同的特征詞匯,{1:經(jīng)濟(jì),2:犯罪,3:信用卡,4:詐騙,5:調(diào)查,6:合同詐騙。7:研究},經(jīng)過轉(zhuǎn)化即可顯示為(1,1,1,1,1,0,0,)和(1,1,0,0,0,1,1),其中向量元素表示對(duì)應(yīng)詞匯出現(xiàn)的次數(shù),兩向量合并則獲得文檔-詞項(xiàng)矩陣。本項(xiàng)目中我們選用的轉(zhuǎn)化庫為scikit-learn庫。
1.3 ?優(yōu)化算法
優(yōu)化是指改變 x 以最小化或最大化某個(gè)函數(shù) f(x)的任務(wù)。對(duì)其進(jìn)行最小化時(shí),也稱為損失函數(shù)。