• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于罪名相關(guān)成分標(biāo)注的刑事裁判文書概要信息提取

      2018-06-22 01:12:52對外經(jīng)濟(jì)貿(mào)易大學(xué)金融學(xué)院北京0009對外經(jīng)濟(jì)貿(mào)易大學(xué)信息學(xué)院北京0009
      關(guān)鍵詞:馬爾科夫罪名文書

      , ,(.對外經(jīng)濟(jì)貿(mào)易大學(xué) 金融學(xué)院,北京0009;.對外經(jīng)濟(jì)貿(mào)易大學(xué) 信息學(xué)院,北京0009)

      2014年以來,我國的互聯(lián)網(wǎng)信貸市場發(fā)展迅猛,互聯(lián)網(wǎng)金融迎來了黃金發(fā)展期。但由于P2P網(wǎng)貸等互聯(lián)網(wǎng)金融平臺低門檻、高收益的特點,在繁榮發(fā)展的同時壞賬現(xiàn)象頻現(xiàn),亟需建立嚴(yán)謹(jǐn)有效的信用風(fēng)險控制模式。

      管理信用風(fēng)險需要充分了解貸款申請人的信用情況,以避免為了取得借款而虛構(gòu)個人信息、隱瞞違法犯罪。然而,相比于財務(wù)報表等結(jié)構(gòu)化數(shù)據(jù),貸款申請人犯罪記錄等司法領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù),由于非直觀性、非精簡性的特點,并沒有在信用風(fēng)險管理中得到足夠的重視。

      司法公開化的深入推行提供了權(quán)威的犯罪記錄信息,使基于這一非結(jié)構(gòu)化數(shù)據(jù)的有效信用風(fēng)險管理成為可能:自2014年1月1日起,《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布判決文書的規(guī)定》正式實施,明確各級人民法院的生效判決文書在中國判決文書網(wǎng)上統(tǒng)一公布。如果能夠提取這些由法院等權(quán)威機(jī)構(gòu)公開的刑事裁判文書中的關(guān)鍵信息,則可以為P2P網(wǎng)貸平臺的貸款申請人審核提供更加全面充分的參考數(shù)據(jù),有助于互聯(lián)網(wǎng)金融企業(yè)更好地管理其信用風(fēng)險。

      法院公開的刑事案件裁判文書的關(guān)鍵信息主要包括被告人姓名、案件發(fā)生地點、時間以及被告人所獲罪名。對裁判文書中被告人及其所獲罪名實體的識別與提取,體現(xiàn)了司法領(lǐng)域文本挖掘的特殊性,是本文的重點工作。對命名實體的識別方法主要分為兩類:

      一是人工總結(jié)待提取字段的識別規(guī)則和專用詞典:王寧等(2002)[1]基于語料庫對金融領(lǐng)域公司實體名稱的識別工作、梅奧診所(2011)[2]基于UMLS和SNOMED CT兩大受控術(shù)語詞典的cTAKES系統(tǒng)對病歷文本的挖掘、Zhang等(2013)[3]對建筑類文本的信息提取、Derczynski(2016)[4]基于大型消歧語料庫對推特文本的命名實體識別,均表現(xiàn)出在開放性測試中準(zhǔn)確率較低的缺陷。雖然靈活性欠佳,但針對格式固定的文本時不失高效簡便。因此,對于裁判文書中的格式較為固定的案件發(fā)生時間與地點,本研究將直接使用基于規(guī)則的方法來提取。

      二是基于機(jī)器學(xué)習(xí),尤其是監(jiān)督學(xué)習(xí)的方法,由于其靈活性與可塑性逐漸成為近年來的命名實體識別主流算法。機(jī)器學(xué)習(xí)的方法主要分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。半監(jiān)督與無監(jiān)督學(xué)習(xí)的主要手段為自展和聚類。Elsner等[5]使用基于聚類的無監(jiān)督學(xué)習(xí)來識別命名實體;Munro等[6]針對非對齊雙語語料,通過計算兩門語言之間的局部編輯距離偏差實現(xiàn)自展法,實現(xiàn)了無監(jiān)督學(xué)習(xí)下的命名實體識別。文獻(xiàn)[7]提出了基于自展法的半監(jiān)督學(xué)習(xí),得到平均75%的F值。雖然對訓(xùn)練預(yù)料的數(shù)量要求較少,但半監(jiān)督學(xué)習(xí)的效果對訓(xùn)練語料的代表性有一定要求;而無監(jiān)督學(xué)習(xí)參數(shù)的優(yōu)化,仍需要監(jiān)督學(xué)習(xí)的輔助;雖然不需要大規(guī)模人工標(biāo)記的訓(xùn)練語料,無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)均有耗時較長的缺陷。本研究借助最高人民法院發(fā)布的權(quán)威刑法罪名,提出罪名相關(guān)成分標(biāo)注算法,提供訓(xùn)練語料,使速度較快、準(zhǔn)確率較高的監(jiān)督學(xué)習(xí)成為可能。

      常用的監(jiān)督學(xué)習(xí)模型包括Bikel等使用的隱馬爾可夫模型(HMM)[8]、Sekine等[9]使用的決策樹、Borthwick等[10]使用的最大熵模型、Asahara等[11]使用的支持向量機(jī)模型、Lafferty等[12]提出的CRF模型等。Ekbal等[13]、Ritter等[14]基于支持向量機(jī)模型從推特中提取特定事件的相關(guān)信息,然而支持向量機(jī)模型局限于二元判斷,不適用更為復(fù)雜的命名實體識別工作。張華平等[15]基于隱馬爾科夫模型在中國人名識別開放測試中達(dá)到了91%的召回率;Ye等[16-18]建立條件隨機(jī)場模型從非結(jié)構(gòu)化的道橋報告文本中提取道橋相關(guān)信息,其準(zhǔn)確率達(dá)97%。在多數(shù)研究中CRF模型的準(zhǔn)確率要高于HMM和MEMM,但其解碼算法時間復(fù)雜度與特征空間的規(guī)模呈正比、收斂速度緩慢;相比之下,HMM和MEMM在保證一定的準(zhǔn)確率的同時可操作性較強(qiáng),因此,將采取HMM和MEMM來學(xué)習(xí)罪名實體的特征,對裁判文書中被告人及所獲罪名實體進(jìn)行識別與提取。

      本研究在對分析格式較為固定的案件發(fā)生時間與地點基于規(guī)則的提取進(jìn)行分析的基礎(chǔ)上,針對被告人與所獲罪名難以關(guān)聯(lián)、罪名難以作為命名實體被完整識別和公文書寫存在差異等困難,將基于罪名相關(guān)成分標(biāo)注語料庫建立隱馬爾科夫模型和最大熵馬爾科夫模型,使用該模型解碼并識別被告人及所獲罪名實體,最終進(jìn)行提取實驗并分析結(jié)果。

      1 刑事裁判文書案件發(fā)生時間與地點的識別提取

      刑事案件裁判文書中的案件發(fā)生時間與地點具有較為固定的格式,故人民法院的名稱或者人民檢察院的名稱中包含案件發(fā)生地點的信息,而刑事案件裁判文書的編號,如“(2015)南刑初字第23號”和如下裁判文書樣例所示的“(2011)嘉平刑初字第11號”等,則包含了案件發(fā)生年份這一時間信息。已隱去被告人姓名的裁判文書樣例如下:

      《陸XX容留他人吸毒罪一審刑事判決書》

      (2011)嘉平刑初字第11號

      公訴機(jī)關(guān)平湖市人民檢察院。

      被告人陸XX,綽號:全糖小蠻子,農(nóng)民。因吸食毒品,于2003年5月7日被本市公安局罰款2 000元,并被強(qiáng)制戒毒四個月。因本案,于2010年10月16日被嘉興市公安局港區(qū)分局刑事拘留,同年11月19日被依法逮捕?,F(xiàn)羈押于本市看守所。

      ……

      被告人陸XX犯容留他人吸毒罪,判處有期徒刑七個月,并處罰金3 000元(刑期從判決執(zhí)行之日計算,判決執(zhí)行以前先行羈押的,羈押一日折刑期一日。即自2010年10月16日起至2011年5月15日止;罰金款限本判決生效后十日內(nèi)繳納)。

      本文選擇用正則表達(dá)式從公訴機(jī)關(guān)或者法院的所在市中提取案件發(fā)生地點信息,從刑事案件裁判文書的編號中提取案件時間信息。正則表達(dá)式用事先定義好的一些特定字符及其組合,從字符串中提取特定部分。在本文工作中,用到了如“(.*)((.*))(.*)公訴機(jī)關(guān)(.*)”以對文書編號中的年份進(jìn)行提取,再如“(.*)公訴機(jī)關(guān)(.*?)人民檢察院(.*)”,以對公訴機(jī)關(guān)所在地進(jìn)行提取。

      正則表達(dá)式等基于規(guī)則的方法,應(yīng)用于文本結(jié)構(gòu)相對固定的案件發(fā)生時間與地點時,能夠?qū)崿F(xiàn)高效準(zhǔn)確的識別提取。但對于文本結(jié)構(gòu)較為復(fù)雜的被告人及其所獲罪名,該方法不再適用,需要采用基于機(jī)器學(xué)習(xí)的方法來識別提取被告人及其所獲罪名信息。

      2 刑事裁判文書被告人與被告人所獲罪名的識別提取

      裁判文書中被告人及其所獲罪名實體的識別與提取工作,主要面臨如下難點:①雖然現(xiàn)有的分詞系統(tǒng)如中國科學(xué)院中文詞法分析系統(tǒng)ICTCLAS能識別出裁判文書中的被告人姓名,但是僅識別出人名并不能滿足司法文本挖掘的需求:一份裁判文書中出現(xiàn)的人名可能是被告人姓名,也可能是辯護(hù)人姓名;一份判決文書中亦可同時為多個被告人定罪。因此,被告人姓名的識別提取,需要在識別過程中實現(xiàn)被告人姓名與其所獲罪名的關(guān)聯(lián)。②對于被告人三字以上的罪名,現(xiàn)有的分詞軟件并不能將其作為一個整體識別出來。根據(jù)中華人民共和國最高人民法院《關(guān)于執(zhí)行〈中華人民共和國刑法〉確定罪名的規(guī)定》及其補(bǔ)充規(guī)定,可以得到最高人民法院發(fā)布的最新刑法罪名,但基于詞典的方法并不可行:如當(dāng)裁判文書內(nèi)容為“非法提供答案罪”時,對應(yīng)在《刑法修正案(九)》第二十五條第三款中的刑法罪名全名則為“非法出售、提供試題、答案罪”,遍歷所有刑法罪名并對罪名內(nèi)部各成分排列組合后進(jìn)行對比,用時過長。③直接使用基于規(guī)則和詞典來進(jìn)行提取的方法有很大缺陷:盡管公文寫作遵循一定規(guī)范,但歷年來各地各級法院的裁判文書書寫仍在格式上存在諸多差異,一一總結(jié)工作量巨大。

      針對以上難點,選擇借助最高人民法院發(fā)布的權(quán)威刑法罪名,對罪名相關(guān)成分進(jìn)行標(biāo)注,通過基于此訓(xùn)練得到的HMM和MEMM實現(xiàn)對被告人及罪名實體的識別提取,工作流程如圖1所示。

      圖1 使用基于罪名相關(guān)成分標(biāo)注語料庫的HMM和MEMM進(jìn)行被告人及其所獲罪名識別提取流程Fig.1 The recognition and extraction process of names of the accused and the offense he/she commited using HMM and MEMM trained on crime-related component tags

      2.1 罪名相關(guān)成分標(biāo)注語料庫構(gòu)建

      2.1.1 罪名相關(guān)成分標(biāo)注集

      對裁判文書中被告人及其所獲罪名的識別與提取是司法文本挖掘工作的難點,而建立罪名相關(guān)成分標(biāo)注集、根據(jù)該標(biāo)注集建立訓(xùn)練語料庫,則是克服該難點的關(guān)鍵所在。

      通過觀察傳統(tǒng)的分詞軟件如ICTCLAS對刑事裁判文書的詞性標(biāo)注結(jié)果可以發(fā)現(xiàn),除了“盜竊罪”等三字短罪名能夠被識別出來,其余較長的罪名常常被劃分為兩個或兩個以上的詞語,例如“交通肇事罪”的分詞結(jié)果為“交通”和“肇事罪”。故需要根據(jù)罪名實體的分詞情況,對罪名實體內(nèi)部的構(gòu)成詞語建立標(biāo)注。同時,為了實現(xiàn)被告人姓名與其所獲罪名的關(guān)聯(lián),也需要對罪名實體的上下文詞語建立標(biāo)注。因此,本文將一個詞語序列中的所有詞劃分為罪名的內(nèi)部構(gòu)成詞語和罪名上下文詞語,統(tǒng)稱為罪名相關(guān)成分??偨Y(jié)罪名相關(guān)成分標(biāo)注集如表1所示。

      表1 罪名相關(guān)成分標(biāo)注集(注:文中隱去被告人姓名)Tab.1 The crime-related component tag set(Note: names of the accused have been hidden)

      2.1.2 罪名相關(guān)成分標(biāo)注語料庫構(gòu)建

      借助最高人民法院發(fā)布的權(quán)威罪名列表,本文重新標(biāo)注語料,將ICTCLAS的詞性標(biāo)注修改為如表1所示的罪名相關(guān)成分標(biāo)注,構(gòu)建面向刑事裁判文書的語料庫,具體算法如表2所示。

      采用上述算法,對多條刑事裁判文書進(jìn)行罪名相關(guān)成分標(biāo)注,得到多條標(biāo)注后的裁判文書,如“被告人/A 陸XX/B 犯/C 容留/F 他人/G 吸毒/H 罪/I,/D 判處/E 有期徒刑/Z 七/Z 個/Z 月/Z”,從而建立罪名相關(guān)成分標(biāo)注語料庫。

      表2 罪名相關(guān)成分標(biāo)注算法Tab.2 The crime-related component tagging algorithm

      2.2 基于罪名相關(guān)成分標(biāo)注語料庫的隱馬爾科夫模型

      隱馬爾科夫模型在自然語言處理領(lǐng)域的應(yīng)用,通常是將觀察值序列Ο={o0,o1……,oT-1}相對應(yīng)的狀態(tài)序列S={s0,s1……,sT-1}抽象成馬爾科夫鏈,針對相鄰狀態(tài)序列的轉(zhuǎn)移情況進(jìn)行建模。隱馬爾科夫模型的5個模型參數(shù)Q,V,A,B,π說明如下:Q={q0,q1,……,qN-1,},為所有狀態(tài)的集合,即如表1所示的罪名相關(guān)成分標(biāo)注;V={v0,v1,……,vM-1,},為所有可能觀察值的集合,即所有詞語的集合;A={aij}N×N,其中aij=P(st+1=qj|st=qi),0≤t≤T-1, 為狀態(tài)轉(zhuǎn)移概率矩陣;B={bj(k)}N×M,其中bj(k)=P(ot=vk|st=qj),0≤t≤T-1,為狀態(tài)——觀察值發(fā)射概率矩陣;π={πi}N×1,其中πi=P(s1=qi),為狀態(tài)初始分布概率向量。

      隱馬爾科夫的模型參數(shù)A,B,π通過學(xué)習(xí)罪名相關(guān)成分標(biāo)注語料庫最大似然估計得到。轉(zhuǎn)移概率矩陣A中由罪名相關(guān)成分qi轉(zhuǎn)移到罪名相關(guān)成分qj的轉(zhuǎn)移概率aij的計算公式為

      aij≈C(qi,qj)/C(qi)。

      (1)

      其中:C(qi,qj)為罪名相關(guān)成分qi且下一個罪名相關(guān)成分為qj的次數(shù),C(qi)為罪名相關(guān)成分qi在語料庫中出現(xiàn)的次數(shù)。

      發(fā)射概率矩陣B中罪名相關(guān)成分qj下詞語vk的發(fā)射概率bj(k)的計算公式為

      bj(k)≈C(vk,qj)/C(qj)。

      (2)

      其中:C(vk,qj)為語料庫中罪名相關(guān)成分為qj的詞語vk的出現(xiàn)次數(shù),C(qj)為罪名相關(guān)成分qj的詞語在語料中出現(xiàn)的總次數(shù)。

      在實際計算過程中,發(fā)射概率矩陣B并不預(yù)先在參數(shù)訓(xùn)練步驟算出,因為在實驗所用詞語序列中出現(xiàn)的詞語未必已經(jīng)登錄在語料庫中,故僅僅統(tǒng)計頻數(shù)C(vk,qj)和C(qj)即可。解決該問題的辦法如下:在使用Viterbi算法來標(biāo)注序列時,首先需要判斷語料庫中是否已經(jīng)存在該詞語。如果存在,則根據(jù)統(tǒng)計的頻數(shù)計算其發(fā)射概率,如果不存在,則默認(rèn)返回1,以避免出現(xiàn)概率為0的情況。

      2.3 基于罪名相關(guān)成分標(biāo)注語料庫的最大熵馬爾科夫模型

      最大熵馬爾科夫模型由Mccallum 等(2000)[19]在隱馬爾科夫模型的基礎(chǔ)上改造而得。最大熵馬爾科夫模型的兩個參數(shù)Q,π均與隱馬爾科夫模型的相同。與隱馬爾科夫模型相比,其不同之處在于:①最大熵馬爾科夫模型對特征的使用不再局限于前一個標(biāo)注狀態(tài),而是從觀察值中抽取若干非獨立特征,更加充分靈活地學(xué)習(xí)訓(xùn)練集。故最大熵馬爾科夫模型的參數(shù)V={v0,v1,……,vM-1,}不再是所有可能觀察值的集合,而是從所有觀察值中抽取出來的特征構(gòu)成的集合。②隱馬爾科夫模型中,當(dāng)前狀態(tài)只與前一狀態(tài)有關(guān);而最大熵馬爾科夫模型則通過對轉(zhuǎn)換函數(shù)P(st=qj|st-1=qi,ot=vk)建模,用該狀態(tài)轉(zhuǎn)換函數(shù)代替了隱馬爾科夫模型中的狀態(tài)轉(zhuǎn)移概率和狀態(tài)——觀察值發(fā)射概率,使得當(dāng)前狀態(tài)不僅依賴于前一狀態(tài),還依賴于當(dāng)前觀察值的特征,從而克服了隱馬爾科夫模型觀察值之間相互獨立的假設(shè),將上下文信息引入到模型中來。故最大熵馬爾科夫模型參數(shù)中不再有轉(zhuǎn)移概率矩陣A和發(fā)射概率矩陣B,取而代之的是由st-1的函數(shù)P(st=qj|st-1=qi,ot=vk)構(gòu)成的集合。

      最大熵馬爾科夫模型依據(jù)最大熵原理對st-1的函數(shù)P(st=qj|st-1=qi,ot=vk)進(jìn)行建模,認(rèn)為在滿足訓(xùn)練數(shù)據(jù)約束的同時擁有最大信息熵的概率分布是最佳模型。為了表示訓(xùn)練數(shù)據(jù)所面臨的約束,最大熵馬爾科夫模型定義了特征函數(shù)fvk,qi(ot,st),ot為當(dāng)前觀察值的特征,st為當(dāng)前觀察值可能對應(yīng)的標(biāo)注狀態(tài)。

      (3)

      (4)

      其中,由于是對st-1的函數(shù)P(st=qj|st-1=qi,ot=vk)建模,故t1,t2,……,tn,……tmst表示的是序列中stn=st-1時對應(yīng)的狀態(tài)轉(zhuǎn)移步次。

      在該約束下最大化信息熵,即可得到。

      (5)

      其中,λvk,qi是可以通過IIS算法訓(xùn)練得到的參數(shù),Z(ot,st-1)是正則化因子。

      2.4 基于Viterbi算法的罪名相關(guān)成分標(biāo)注

      在建立隱馬爾科夫模型和最大熵馬爾科夫模型后,基于其序列標(biāo)注均可以通過Viterbi算法來求解??紤]到計算過程中有可能出現(xiàn)概率值過小而面臨的數(shù)據(jù)下溢問題,對概率值取負(fù)對數(shù),將最大化問題轉(zhuǎn)換為最小化問題來進(jìn)行求解。

      對于一條刑事裁判文書的詞語序列Ο={o0,o1……,oT-1},以隱馬爾科夫模型為例,應(yīng)用Viterbi算法解碼其罪名相關(guān)成分標(biāo)注序列S={s0,s1……,sT-1}的具體算法如表3所示。

      最大熵馬爾模型下應(yīng)用Viterbi算法對裁判文書詞語序列進(jìn)行罪名相關(guān)成分標(biāo)注的步驟與隱馬爾可夫模型下的類似,只需將上述算法中的轉(zhuǎn)移概率和發(fā)射概率替代為狀態(tài)轉(zhuǎn)換函數(shù)即可。

      表3 隱馬爾科夫模型下應(yīng)用Viterbi算法對裁判文書詞語序列進(jìn)行罪名相關(guān)成分標(biāo)注Tab.3 Labeling word sequences in judicial documents with crime-related component tags using Viterbi Algorithm under HMM

      2.5 識別并提取被告人及其罪名

      對已經(jīng)進(jìn)行過罪名相關(guān)成分標(biāo)注的刑事裁判文書詞語序列進(jìn)行簡單的模式識別,從而提取出該條判決文書對應(yīng)的一條或多條被告人及其罪名信息。據(jù)表1罪名相關(guān)成分標(biāo)注集可知,罪名自身結(jié)構(gòu)主要有表4中的三種形式,找出標(biāo)注序列為“FG*H?I”、“FJ”、“K”的詞語序列,即可識別并提取出罪名實體。

      表4 罪名內(nèi)部結(jié)構(gòu)Tab.4 The inner structure of crime name

      罪名自身和其上下文主要為:“ABC+罪名+DE”。通過觀察和統(tǒng)計各個標(biāo)注的詞語,發(fā)現(xiàn)罪名前第2個詞語(即標(biāo)注為B的詞語)為人名的概率為76.16%,最高,而將近20%的誤差主要來源于“因”、“涉嫌”兩詞。因此選用罪名前第二個詞語作為該罪名對應(yīng)的被告人,并設(shè)置規(guī)則去掉“因”和“涉嫌”以修正提取結(jié)果。通過對罪名及其上下文進(jìn)行簡單模式識別,實現(xiàn)了被告人姓名及被告人獲罪罪名的關(guān)聯(lián),最終可以提取得到一條裁判文書中所含有的一條或多條被告人及其獲罪罪名信息。

      3 實驗與分析

      3.1 實驗語料

      將從中國裁判文書網(wǎng)(http://wenshu.court.gov.cn/)抓取的5 000篇的刑事裁判文書,經(jīng)過ICTCLAS詞性標(biāo)注后分成兩個部分,前4 000篇含有的6 378條概要信息用作訓(xùn)練數(shù)據(jù),隨機(jī)抽取并建立大小分別為1 000、2 000、3 000、4 000、5 000和6 000條概要信息的罪名相關(guān)成分標(biāo)注訓(xùn)練集,用于第3節(jié)中隱馬爾科夫模型和最大熵馬爾科夫模型的參數(shù)學(xué)習(xí);剩余的1 000篇作為測試集,測試集的刑事裁判文書中約有概要信息1 632條,存放在測試文書數(shù)據(jù)庫中;用于本節(jié)中的裁判文書概要信息提取實驗。具體實驗流程如圖2所示。

      圖2 裁判文書概要信息提取實驗流程Fig.2 The process of experiments on information extraction of judical documents

      3.2 評價指標(biāo)

      實驗把基于最高人民法院發(fā)布的權(quán)威刑法罪名和相關(guān)規(guī)則直接識別提取罪名實體的方法作為Baseline方法,與本文提出的基于罪名相關(guān)成分標(biāo)注語料庫的隱馬爾科夫、最大熵馬爾科夫模型來進(jìn)行罪名實體識別的算法進(jìn)行比較。使用準(zhǔn)確率P、召回率R和F值來評價刑事裁判文書概要信息的提取情況,具體參數(shù)為:

      P=本文算法正確提取出的概要信息條數(shù)/本文算法提取出的概要信息條數(shù),

      (6)

      R=本文算法正確提取出的概要信息條數(shù)/刑事裁判文書內(nèi)實際概要信息條數(shù),

      (7)

      F=R×P×(1+β2)/R+P×β2。

      (8)

      其中,β是準(zhǔn)確率與召回率之間的權(quán)衡因子。本研究認(rèn)為準(zhǔn)確率和召回率同樣重要,因此取β為1。

      由于在較充分總結(jié)規(guī)則的前提下,使用基于規(guī)則的方法直接提取案件發(fā)生時間與地點的準(zhǔn)確率極高,幾乎沒有任何錯誤,因此對概要信息的正確提取等同于對被告人及被告人所獲罪名的正確識別。

      除了準(zhǔn)確率P、召回率R和F值,由于提出的算法主要應(yīng)用于司法信息挖掘與互聯(lián)網(wǎng)信貸平臺建設(shè),需要對海量的裁判文書進(jìn)行操作,因此,算法的運行時間也是本研究關(guān)注的一個重要評價指標(biāo)。由于算法的運行速度取決于硬件條件等多種因素,其絕對運行時間并不具有可比性。故使用對其運行時間進(jìn)行相對衡量。

      相對運行時間=實際運行時間/t0。

      (9)

      其中,t0為學(xué)習(xí)最小訓(xùn)練集得到的模型運行時間。相對運行時間代表了模型在不同大小訓(xùn)練集下的時間復(fù)雜度。

      3.3 實驗及結(jié)果分析

      利用基于罪名相關(guān)成分標(biāo)注語料庫的HMM和MEMM模型,來對刑事裁判文書中的被告人及被告人所獲罪名進(jìn)行識別和提取。設(shè)計實驗一以觀察提出的算法基于不同大小的罪名相關(guān)成分標(biāo)注語料庫的HMM和MEMM的性能。實驗二是提出的算法和直接基于規(guī)則提取被告人及其罪名的Baseline方法的比較。

      3.3.1 實驗一

      在實驗一中,使用不同大小的罪名相關(guān)成分標(biāo)注語料庫訓(xùn)練出的隱馬爾科夫模型、最大熵馬爾科夫模型,對刑事裁判文書進(jìn)行概要信息提取,并通過準(zhǔn)確率、召回率、F值以及相對運行時間比較不同語料庫大小下該算法的性能。

      如圖3~5所示,隨著罪名相關(guān)成分訓(xùn)練集的增大,準(zhǔn)確率、召回率、F值逐步提高,但是提高幅度趨于平緩,最終維持在一個相對穩(wěn)定的水平。再對比最大熵馬爾科夫與隱馬爾科夫模型的表現(xiàn),可以發(fā)現(xiàn), 總體而言,最大熵馬爾科夫模型的準(zhǔn)確率、召回率和F值要高于隱馬爾科夫模型,隨著訓(xùn)練集的增大,二者差距亦逐漸增大。這是由于隱馬爾科夫模型假設(shè)詞語序列的各個詞語相互獨立,每個時刻的詞語只依賴于此時刻的標(biāo)注狀態(tài)。該假設(shè)在較小的訓(xùn)練集上較為合適,但隨著訓(xùn)練集的增大,隱馬爾科夫模型無法再覆蓋訓(xùn)練數(shù)據(jù)的更多特征。因此隱馬爾科夫模型相較于最大熵馬爾科夫模型,在準(zhǔn)確率、召回率方面的劣勢隨著用于訓(xùn)練的罪名相關(guān)成分語料庫的增大而凸顯。

      圖3 基于不同大小的罪名相關(guān)成分標(biāo)注語料庫的HMM和MEMM進(jìn)行概要信息提取的準(zhǔn)確率變化曲線Fig.3 The curve of the change of precisionof information extraction based on HMM and MEMM with respect to the size of training set labelled by crime-related tags

      圖4 基于不同大小的罪名相關(guān)成分標(biāo)注語料庫的HMM和MEMM進(jìn)行概要信息提取的召回率變化曲線Fig.4 The curve of the change of recallof information extraction based on HMM and MEMM with respect to the size of training set labelled by crime-related tags

      圖5 基于不同大小的罪名相關(guān)成分標(biāo)注語料庫的HMM和MEMM進(jìn)行概要信息提取的F值變化曲線Fig.5 The curve of the change of F values of information extraction based on HMM and MEMM with respect to the size of training set labelled by crime-related tags

      如圖6所示,雖然隨著訓(xùn)練集的增大,最大熵馬爾科夫在準(zhǔn)確率等方面的表現(xiàn)明顯優(yōu)于隱馬爾科夫模型,但是由于其覆蓋的特征增多,模型參數(shù)的訓(xùn)練收斂速度明顯減慢。因此,考慮到刑事裁判文書概要信息提取主要用于P2P網(wǎng)貸公司的貸款申請人的審核和信用風(fēng)險管理,要對海量的裁判文書進(jìn)行操作,在選擇使用本文提出的兩種機(jī)器學(xué)習(xí)模型時需在準(zhǔn)確率與速度之間做一定的權(quán)衡。

      圖6 基于不同大小的罪名相關(guān)成分標(biāo)注語料庫的HMM和MEMM進(jìn)行概要信息提取的相對運行時間變化曲線(注:對數(shù)刻度)Fig.6 The curve of the change of running time of information extraction based on HMM and MEMM with respect to the size of training set labelled by crime-related tags(Note: logarithmic scale)

      圖7 提出算法和基于規(guī)則的Baseline方法的準(zhǔn)確率、召回率、F值對比Fig.7 Comparison between the precision, recall and F values of method proposed by us and Baseline method based on rules

      3.3.2 實驗二

      實驗二比較了提出的算法和直接基于規(guī)則的Baseline方法,使用了最大熵馬爾科夫模型、隱馬爾科夫模型在不同大小訓(xùn)練集下的準(zhǔn)確率、召回率、F值的平均值,來與Baseline方法進(jìn)行比較。

      如圖7所示,對于刑事裁判文書的概要信息提取,基于罪名相關(guān)成分標(biāo)注的HMM進(jìn)行的被告人及其所獲罪名識別準(zhǔn)確率達(dá)到87.14%、召回率為88.45%和F值87.79%,基于MEMM進(jìn)行的識別達(dá)到了88.17%的準(zhǔn)確率、92.41%的召回率和90.25%的F值,相對于直接使用相關(guān)規(guī)則和最高人民法院發(fā)布的權(quán)威罪名的Baseline方法,克服了裁判文書格式的差異和罪名實體識別的困難,具有更好的效果。

      4 結(jié)論及下一步研究工作

      針對司法文本挖掘的難點,探索了基于機(jī)器學(xué)習(xí)的命名實體識別技術(shù)在該領(lǐng)域的一種應(yīng)用:針對刑事案件裁判文書,借助最高人民法院發(fā)布的權(quán)威罪名列表,先建立罪名相關(guān)成分標(biāo)注語料庫;通過對該語料庫的學(xué)習(xí)得到HMM和MEMM的模型參數(shù),從而實現(xiàn)了對司法文本的概要信息,尤其是對被告人及其所獲罪名實體的識別與提取。實驗證明,基于罪名相關(guān)成分標(biāo)注語料庫訓(xùn)練得到的隱馬爾科夫模型和最大熵馬爾科夫模型對刑事裁判文書概要信息的提取效果較好,其F值分別達(dá)到87.79%與90.25%,為進(jìn)一步的司法領(lǐng)域文本挖掘奠定基礎(chǔ),亦可用于互聯(lián)網(wǎng)信貸平臺的信用風(fēng)險管理。

      由于MEMM能夠更為靈活地學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,故MEMM特征函數(shù)的選取是重要的,在訓(xùn)練最大熵馬爾科夫模型(MEMM)時僅使用了較為簡單的低維特征。在以后的研究中,探索可為MEMM所利用的刑事案件裁判文書文本特征,以進(jìn)一步提高刑事案件裁判文書概要信息提取的精度。

      參考文獻(xiàn):

      [1]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學(xué)報,2002,16(2):1-6.

      WANG Ning,GE Ruifang,YUAN Chunfa,et al.Companyname identification in chinese financial domain[J].Journal of Chinese Information Processing,2002,16(2):1-6.

      [2]SAVOVA G K,MASANZ J J,OGREN P V,et al.Mayo clinical text analysis and knowledge extraction system (ctakes):Architecture,component evaluation and applications[J].Journal of the American Medical Informatics Association Jamia,2010,17(5):507-513.

      [3]ZHANG J,EL-GOHARY N M.Semantic nlp-based information extraction from construction regulatory documents for automated compliance checking[J].Journal of Computing in Civil Engineering,2013,30(2):710-711.

      [4]DERCZYNSKI L,MAYNARD D,RIZZO G,et al.Analysis of named entity recognition and linking for tweets[J].Information Processing & Management,2015,51(2):32-49.

      [5]ELSNER M,CHARNIAK E,JOHNSON M.Structured generative models for unsupervised named-entity clustering[C]∥Human Language Technologies Proceedings:Conference of the North American Chapter of the Association of Computational Linguistics.Boulder,Colorado,May 31-June 5,2009:164-172.

      [6]MUNRO R,MANNING C D.Accurate unsupervised joint named-entity extraction from unaligned parallel text[C]∥Named Entity Workshop.Association for Computational Linguistics,Jeju,July 10-12,2012:21-29.

      [7]THENMALAR S,BALAJI J,GEETHA T V.Semi-supervised bootstrapping approach for named entity recognition[J].International Journal on Natural Language Computing,2015,10(4):1-14.

      [8]BIKEL D M,MILLER S,SCHWARTZ R,et al.Nymble:Ahigh-performance learning name-finder[C]∥Proceedings of the Fifth Conference on Applied Natural Language Processing.Washington D C,March 31-April 3,1997:194-201.

      [9]SEKINE S.NYU:Description of the japanese ne system used for MET-2[C]∥Proceedings of the 7th Message Understanding Conference.Fairfax,Virginia,April 29-May 1,1998:28-32.

      [10]BORTHWICK A,STERLING J,AGICHTEIN E,et al.NYU:Description of the MENE named entity system as used in MUC-7[C]∥Proceedings of the 7th Message Understanding Conference.Fairfax,Virginia,April 29-May 1,1998:56-77.

      [11]ASAHARA M,MATSUMOTO Y.Japanese named entity extraction with redundant morphological analysis[C]∥Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Edonton,May 27-June 1,2003:8-15.

      [12]LAFFERTY J,MCCALLUM A,PEREIRA F,et al.Probabilistic models for segmenting and labeling sequence data[C]∥Proceedings of the 18th International Conference.on Machine Learning.San Francisco,California,June 28-July 1,2001:282-289.

      [13]EKBAL A,BANDYOPADHYAY S.Named entity recognition using support vector machine:A language independent approach[J].International Journal of Computer Systems Science & Engineering,2010(2):155.

      [14]RITTER A,WRIGHT E,CASEY W,et al.Weakly supervised extraction of computer security events from twitter[C]∥Proceedings of the 24th International Conference on World Wide Web.Florence,May 18-22,2015:896-905.

      [15]張華平,劉群.基于角色標(biāo)注的中國人名自動識別研究[J].計算機(jī)學(xué)報,2004,27(1):85-91.

      ZHANG Huaping,LIU Qun.Automatic recognition of Chinese personal name based on role tagging[J].Chinese Journal of Computers,2004,27(1):85-91.

      [16]YE F,CHEN Y,ZHOU G,et al.Intelligent recognition of named entity in electronic medical records[J].Chinese Journal of Biomedical Engineering,2011,30(2):256-262.

      [17]PENG N,DREDZE M.Named entity recognition for chinese social media with jointly trained embeddings[C]∥Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon,Sep.17-21,2015:548-554.

      [18]LIU K,EL-GOHARY N.Ontology-based sequence labelling for automated information extraction for supporting bridge data analytics[J].Procedia Engineering,2016,145(1):504-510.

      [19]MCCALLUM A,F(xiàn)REITAG D,PEREIRA F C N.Maximum entropy Markov models for information extraction and segmentation[C]∥Proceedings of the 17th International Conference on Machine Learning.San Francisco,June 29-July 2,2000:591-598.

      猜你喜歡
      馬爾科夫罪名文書
      太行山文書精品選(17)
      基于疊加馬爾科夫鏈的邊坡位移預(yù)測研究
      監(jiān)獄執(zhí)法文書規(guī)范探討
      基于改進(jìn)的灰色-馬爾科夫模型在風(fēng)機(jī)沉降中的應(yīng)用
      黑水城出土《宋西北邊境軍政文書》中“砲”類文書再討論
      西夏學(xué)(2019年1期)2019-02-10 06:22:40
      刑法罪名群論綱*
      重新認(rèn)識濫用職權(quán)和玩忽職守的關(guān)系*——兼論《刑法》第397條的結(jié)構(gòu)與罪名
      刑法論叢(2016年2期)2016-06-01 12:14:25
      馬爾科夫鏈在教學(xué)評價中的應(yīng)用
      減少死刑的立法路線圖
      減少死刑的立法路線圖
      凤凰县| 阿拉善盟| 胶州市| 蓬溪县| 盐源县| 循化| 乌恰县| 泊头市| 青田县| 定陶县| 手游| 汉沽区| 辉南县| 长宁区| 郑州市| 郎溪县| 泸州市| 蒙山县| 怀柔区| 尚义县| 广河县| 永胜县| 宁远县| 台湾省| 隆德县| 修武县| 惠安县| 东城区| 平武县| 朝阳区| 磐石市| 沙雅县| 湘阴县| 丹阳市| 措美县| 福建省| 峡江县| 西安市| 东海县| 耒阳市| 淮安市|