郭凡莎,楊風(fēng)暴
(中北大學(xué)信息與通信工程學(xué)院,山西 太原 030051)
隨著法制社會的到來和人們法制意識的增強,人們更多的是通過法院的訴訟程序解決糾紛來保護自己的合法利益和維護社會的公平正義。訴訟案件已經(jīng)日益成為社會關(guān)注的焦點,案件判決相關(guān)人員對從海量數(shù)據(jù)中快速、準(zhǔn)確地獲取出真正有用的案件信息的需求越來越迫切。訴訟案件的關(guān)鍵要素抽取是全局立案決策模型和檢察建議草案文本自動生成的首要步驟,可廣泛應(yīng)用于訴訟案件的查詢檢索、決策系統(tǒng)和效果跟蹤等研究。
美國某所學(xué)院經(jīng)過試驗建立起了一個能夠?qū)Ψ缸镄畔嵭凶詣訄蟮篮驼{(diào)查的系統(tǒng)[1-2]。在審訊時運用認(rèn)知心理學(xué)的相關(guān)知識,對證人進行訪談,讓證人恢復(fù)記憶,在記錄案件時運用自然語言,將實際情況事無巨細地記錄下來,從證人的訪談記錄中找到有關(guān)犯罪的信息。目前學(xué)術(shù)界研究如何構(gòu)建數(shù)據(jù)庫和文本挖掘的學(xué)者很多,而自然語言文本的信息抽取[3-8]研究較少。針對刑事判決書,佘貴清等人[9]利用正則表達式構(gòu)建文本抽取規(guī)則,最終實現(xiàn)審判案件的自動抽取;魏文燕等人[10]基于信息抽取和案件分類對公安案件文本的信息處理框架進行了研究。劉穩(wěn)等人[11]利用命名實體識別、框架知識表示和事件信息抽取技術(shù),實現(xiàn)了案件判決書信息的自動抽取。機器學(xué)習(xí)方法認(rèn)為信息抽取任務(wù)是序列標(biāo)注問題,CRF是解決序列標(biāo)注問題的主流方法[12-14]。熊佳茜[15]研究了中文微博交通信息文本,能夠?qū)崟r展現(xiàn)抽取的事件要素信息;Jonnalagadda等人[16]從臨床敘述中提取醫(yī)療問題,為醫(yī)生提供了疾病治療的智能分析;張劍等人[6]針對農(nóng)業(yè)領(lǐng)域中的命名實體進行細致的劃分,滿足了多樣和精確的需求。然而,法律領(lǐng)域有關(guān)的訴訟案件信息抽取尚處于起步階段。
綜上分析,本文提出一種基于CRF的交通肇事訴訟案件關(guān)鍵要素抽取方法。通過手動標(biāo)注訴訟案件的關(guān)鍵要素構(gòu)建基本語料庫,要素抽取是利用CRF模型工具對這個基本語料庫做進一步的分析,了解案件的文本特點,選擇不同的特征模板,通過實驗測試比較,選出F1值為80.15%的特征模板用于交通肇事訴訟案件的關(guān)鍵要素抽取研究,使案件判決相關(guān)人員能夠快速準(zhǔn)確地獲取真正有用的案件信息。
CRF(Conditional Random Fields)是一種非常具有代表性的判別式模型,它最早是由Lafferty等人[17]在21世紀(jì)初提出來的。它主要解決的是序列標(biāo)注的問題,它以輸入序列為基礎(chǔ),建立起輸出序列的模型。序列標(biāo)注適合被用于中文分詞、詞性標(biāo)注等領(lǐng)域中。
CRF模型如圖1所示,在圖中,各頂點之間的線表示的是各個隨機變量之間的內(nèi)在關(guān)系,在CRF中,設(shè)輸入的數(shù)據(jù)是訴訟案件文本X={X1,X2,X3,…,Xn},其對應(yīng)的標(biāo)注序列為Y={Y1,Y2,Y3,…,Yn}。當(dāng)給定輸入序列X時,輸出序列Y的條件概率計算方法為:
圖1 CRF模型
(1)
其中,Z(x)符號為歸化因子;參數(shù)λk表示的是特征權(quán)重;fk(yi-1,yi,x,i)表示的是特征函數(shù)。
對于交通肇事訴訟案件關(guān)鍵要素抽取問題,可將CRF模型使用于在已知訴訟案件文本x的情況下,求得令條件p達到最大值的y*,即最有可能的標(biāo)注序列,從而獲得關(guān)鍵要素。
本文利用CRF模型進行交通肇事訴訟案件的關(guān)鍵要素抽取,具體的過程就像圖2所表示的那樣,圖中第1步為預(yù)處理過程,主要對象為原始語料,標(biāo)注對象為訓(xùn)練和測試語料。第2步則是模型文件的完成,這一步要利用特征模板,主要方式是對訓(xùn)練集進行訓(xùn)練。第3步是使用第2步的模型測試一下測試集。第4步是模型評價。
圖2 基于CRF的訴訟案件關(guān)鍵要素抽取流程
本文的分詞工具選用哈工大PYLTP,而且還運用了2大模塊,分別為詞性標(biāo)注和命名實體識別模塊,運用這2個模塊對分詞進行處理,最后將語料庫建立起來??偟膩碚f,最終得到的語料庫符合標(biāo)準(zhǔn),語料庫將分詞結(jié)果作為第一列的元素,即句中的詞;將詞性標(biāo)注結(jié)果作為第二列元素;將命名實體識別結(jié)果作為第三列元素,即人名、地名、機構(gòu)名等。
在交通肇事訴訟案件中,結(jié)合案件判決相關(guān)人員辦案過程中的具體需求,抽取出有用的關(guān)鍵案件信息。利用CRF模型抽取出案件的主體、主次責(zé)任、事故類型和影響因素等關(guān)鍵要素。在實驗中,需要手動標(biāo)注案件的關(guān)鍵要素得到標(biāo)注語料庫,這個標(biāo)注為關(guān)鍵要素標(biāo)注。參考通用的標(biāo)注集[18],創(chuàng)建關(guān)鍵要素標(biāo)注集SBIEO。表1是關(guān)鍵要素標(biāo)注集及其說明。
表1 關(guān)鍵要素標(biāo)注集及其說明
在標(biāo)注集中,前4個符號代表這個詞是關(guān)鍵要素的哪一部分,后面幾個代表關(guān)鍵要素的類型,實際標(biāo)注過程中需要將兩者結(jié)合起來。選取交通肇事訴訟案件中“被告人吳永飛駕駛機動車輛在公路上行駛,違反交通運輸管理法規(guī),發(fā)生交通事故致被害人死亡。”的一句,具體標(biāo)注情況如表2所示。
表2 交通肇事案件關(guān)鍵要素標(biāo)注舉例
在關(guān)鍵要素標(biāo)注中,“被告人吳永飛”是一個主體關(guān)鍵要素,“被告人”是主體關(guān)鍵要素的開始,標(biāo)注為“B-K”,“吳永飛”是主體關(guān)鍵要素的結(jié)尾,標(biāo)注為“E-K”?!爸卤缓θ怂劳觥笔且粋€加刑因素的關(guān)鍵要素,“致”是加刑因素關(guān)鍵要素的開始,標(biāo)注為“B-N”,“被害人”是加刑因素關(guān)鍵要素的中間,標(biāo)注為“I-N”,“死亡”是加刑因素關(guān)鍵要素的結(jié)尾,標(biāo)注為“E-N”。
CRF是一種有監(jiān)督的基于統(tǒng)計機器學(xué)習(xí)模型,訓(xùn)練模型抽取性能的關(guān)鍵是特征模板的設(shè)計。首先對關(guān)鍵要素的標(biāo)注進行細化,將每個詞的位置充分標(biāo)記,在開頭、中間和末尾標(biāo)記清楚,然后,在每個詞w的上下文窗口(w-n,w-(n-1),…,w,…,wn-1,wn中選擇特征,其中n為詞的距離[19]。在本文所選擇的模型中,上下文信息是一個窗口,窗口長度越長代表著可以利用的信息越多,但窗口過大會產(chǎn)生過擬合現(xiàn)象,窗口過小會導(dǎo)致信息丟失。窗口長度、特征內(nèi)容選取以及特征項組合構(gòu)成了特征模板。
特征模板是將所要用到的特征用一種形式表述給條件隨機場[6]。CRF是通過特征生成一系列特征函數(shù),然后對每個詞進行匹配,從而識別該詞是否為一個關(guān)鍵要素,本文采用5種自定義特征以及詞本身、詞性和命名實體特征,通過各自的組合來構(gòu)成特征模板。組合示例如表3所示。
表3 特征組合
首先參考CRF++[20]的標(biāo)準(zhǔn)范例模板,制定關(guān)鍵要素特征模板Template_01。在自然語言中,文本中上下2個相連的詞之間通常在語義和詞性上有一定的關(guān)系,所以模板中窗口大小設(shè)置為3,考慮分詞結(jié)果和詞性標(biāo)注結(jié)果,同時聯(lián)合前后2個詞作為二元特征。也就是說,這個模板不僅要考慮前后項分詞的結(jié)果,還要考慮與前后項分詞的關(guān)系。詞性標(biāo)注結(jié)果也在該模板的考慮范圍之內(nèi),還要考慮前后項詞性標(biāo)注的結(jié)果,以及與前后項詞性標(biāo)注的關(guān)系。具體詳情如表4所示。
表4 特征模板Template_01詳情
本文采用精確率(Precsion)、召回率(Recall)和綜合指標(biāo)F1值(F1-Mueasure)來評價信息抽取系統(tǒng)的性能。P是精確率,也就是識別出的正確關(guān)鍵要素的數(shù)量在總要素中的比例。R是召回率,也就是識別出的正確關(guān)鍵要素在測試語料要素中的比例。綜合指標(biāo)F1是精確率與召回率的加權(quán)平均值,即:
(2)
實驗使用的原始語料是從openlaw網(wǎng)站通過爬蟲工具爬取的交通肇事訴訟案件。原始語料的案件預(yù)處理,得到的結(jié)果是一個只留“被告人”開頭,去除標(biāo)點符號、特殊字母、括號內(nèi)的注釋和冗余詞,文本長度在100~400字之間的5000個交通肇事訴訟案件語料庫。
實驗語料由訓(xùn)練語料和測試語料組成,語料規(guī)模分別是5000個交通肇事訴訟案件和案件的主體、主次責(zé)任、事故類型、加刑因素和減刑因素等5類關(guān)鍵要素知識庫。
中文分詞[21]是訴訟案件關(guān)鍵要素抽取的基礎(chǔ)和首要步驟,分詞的準(zhǔn)確率和效率對之后的抽取有很大影響。本文選擇了5種較為主流的分詞工具進行簡單的評測和比較,它們分別是最大正向匹配法、隱馬爾科夫模型、jieba分詞、中科院的PYNLPIR和哈工大PYLTP。
首先從預(yù)處理后原始語料庫中隨機選取100個交通肇事訴訟案件,手動對它們進行分割,分別用這5種工具進行分詞,實驗結(jié)果如表5所示。
表5 5種分詞工具性能比較
從實驗結(jié)果得知,5種分詞工具精確率最高為69.0%,召回率最高為77.3%,F(xiàn)1值最高為72.9%,其中哈工大的PYLTP效果最好。哈工大的PYLTP系統(tǒng)提供了一整套自底向上豐富、高效以及高精度的中文自然語言處理模塊[22],并且它是基于XML的語言處理結(jié)果來表示的。它的各個模塊使用不同的基于統(tǒng)計的方法實現(xiàn),其中,分詞模塊使用了CRF模型?,F(xiàn)已全面開源,而且提供Python接口。綜上分析考慮,選擇哈工大的PYLTP作為本文的分詞工具。
為了驗證基于條件隨機場的交通肇事訴訟案件關(guān)鍵要素抽取效果,設(shè)計不同特征模板的9組實驗。
特征模板Template_01中窗口大小設(shè)置為3,考慮分詞結(jié)果和詞性標(biāo)注結(jié)果,同時聯(lián)合上下2個詞作為二元特征;Template_02中窗口大小為3保持不變,考慮分詞結(jié)果和命名實體識別結(jié)果,同時聯(lián)合上下2個詞作為二元特征;Template_03中窗口大小為3保持不變,考慮分詞結(jié)果、詞性標(biāo)注結(jié)果和命名實體結(jié)果,同時聯(lián)合上下2個詞作為二元特征。Template_04、Template_05、Template_06是在Template_01、Template_02、Template_03的基礎(chǔ)上再聯(lián)合上下3個詞的三元特征。對于交通肇事訴訟案件文本,經(jīng)常出現(xiàn)的情況是,加刑因素和減刑因素詞的長度過長。而且因為模板測量結(jié)果的不準(zhǔn)確性,很多較長的關(guān)鍵要素都會被切為很多塊,說明窗口大小為3不一定能滿足關(guān)鍵要素抽取的需求,因此將Template_07、Template_08、Template_09的窗口大小擴大到5,其他條件和Template_04、Template_05、Template_06保持一致。實驗結(jié)果如表6所示。
表6 實驗結(jié)果
從整體實驗結(jié)果得知,特征模板的精確率在85%左右,Template_08最高,Template_01最低;召回率都在74%以上,變化不太明顯;F1值都在80%左右,Template_02最高,Template_01和Template_03最低。Template_01號模板表現(xiàn)最差。
只考慮了分詞結(jié)果和詞性標(biāo)注的模板Template_01表現(xiàn)最差,這說明只關(guān)注詞性標(biāo)注的結(jié)果來識別案件關(guān)鍵要素并不理想,很難將關(guān)鍵因素提取出來。而只考慮了分詞結(jié)果和命名實體的模板Template_02反而效果更好,達到了9個模板中最高的F1值,說明命名實體結(jié)果對案件關(guān)鍵要素識別的影響最大。在交通肇事訴訟案件的關(guān)鍵要素中,命名實體占的比重較大,案件的主體、加刑因素和減刑因素都有可能對應(yīng)的是命名實體中的人名。
特征模板Template_02和Template_05對比可知,同時聯(lián)合上下2個詞作為二元特征的模板效果要比聯(lián)合上下3個詞作為三元特征的模板效果好,說明在交通肇事訴訟案件的關(guān)鍵要素中,當(dāng)前后連續(xù)的詞只有2個時,語義和詞性的聯(lián)系更緊密。特征模板Template_05和Template_08對比可知,窗口大小為3時,更適合交通肇事訴訟案件的關(guān)鍵要素識別,說明窗口大小為3的關(guān)鍵要素要多于窗口為5的關(guān)鍵要素。經(jīng)測試實驗結(jié)果綜合分析考慮,選擇Template_02(F1值為80.15%)作為交通肇事訴訟案件關(guān)鍵要素抽取的特征模板。
為了更好地驗證CRF模型在交通肇事訴訟案件信息中關(guān)鍵要素抽取的有效性,本文將實驗結(jié)果與常用的序列標(biāo)注HMM[23]模型在相同的實驗環(huán)境和數(shù)據(jù)集下做對比,實驗結(jié)果如表7所示。
表7 模型性能比較
從實驗結(jié)果得知,CRF模型比HMM模型在準(zhǔn)確率、召回率、F1值上均有提升。HMM模型受限于每個詞僅依賴于當(dāng)前標(biāo)簽,并且每個標(biāo)簽僅依賴于前一個標(biāo)簽,而CRF可以使用更多樣的全局特征。在交通肇事訴訟案件關(guān)鍵要素抽取效果上具有更大的優(yōu)勢。
本文提出了一種基于CRF的交通肇事訴訟案件關(guān)鍵要素抽取模型,通過構(gòu)建關(guān)鍵要素標(biāo)注集并建成語料庫,設(shè)計了9個不同的特征模板用于實驗,獲得相關(guān)模型進行測試,從而選出F1值為80.15%的特征模板用于案件的關(guān)鍵要素抽取以及驗證了不同的分詞工具對關(guān)鍵要素識別的影響。該工作為快速正確地給出公平公正的裁判結(jié)果作了有效的探索和嘗試。但由于機器學(xué)習(xí)統(tǒng)計模型的性能很大程度上依賴于特征模板的設(shè)計,下一步的工作將會進一步改進實驗方法,引入長短期記憶網(wǎng)絡(luò)(LSTM)來改進CRF模型,實現(xiàn)高效智能的抽取,使案件判決相關(guān)人員減少閱讀大量案卷的時間,從而提高案件信息分析的質(zhì)量和效率,進而快速正確地給出公平公正的裁判結(jié)果。