• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙向編碼器表示模型和注意力機制的食品安全命名實體識別

    2021-02-24 02:20:26姜同強王嵐熙
    科學技術與工程 2021年3期
    關鍵詞:糾紛案件命名實體

    姜同強, 王嵐熙

    (1.北京工商大學計算機與信息工程學院, 北京 100048; 2.農(nóng)產(chǎn)品質(zhì)量安全追溯技術及應用國家工程實驗室, 北京 100048)

    隨著社會的進步,食品安全成為人們關注的重點問題,2015年4月,《中華人民共和國食品安全法》(以下簡稱《食品安全法》)在經(jīng)歷重磅升級后發(fā)布實施,新修訂的《食品安全法》強化了食品安全刑事責任的追究,并大幅提高了違法行為的處罰額度。根據(jù)北京二中院等法院公開的數(shù)據(jù)顯示,自2015年以來,食品安全糾紛案件呈現(xiàn)爆發(fā)式增長的趨勢,部分基層法院受理的該類型案件從每年不足10件激增至百余件。這類案件存在案件數(shù)量大、案件涉及領域廣、案件證明相關文書數(shù)量駁雜等諸多問題,大大增加了基層法院的工作強度和審理難度。因此食品糾紛案件智能化裁決是當今食品糾紛案件裁決發(fā)展的必然趨勢,通過智能化裁決,可以在一定程度上降低基層法院的工作強度,在相同類型的食品糾紛案件裁決上,也可以達到裁決結(jié)果一致的效果,提高國家公信力。

    實現(xiàn)食品糾紛案件智能化裁決的核心是構(gòu)建食品安全法律知識圖譜,構(gòu)建圖譜的第一步是知識抽取。在食品安全糾紛案件中,存在案件雙方當事人、案發(fā)地點、相關證據(jù)等信息,這些稱為法律案件的實體,如果能將現(xiàn)有的法律文書抽象出各種實體,直接找到相關實體信息,即命名實體識別。再輔助實體關系抽取和屬性抽取的相關技術,可以完成知識抽取的全部內(nèi)容。根據(jù)抽取到的知識,通過知識融合和知識加工,可以構(gòu)建出食品安全法律知識圖譜。利用知識圖譜,可以快速還原案件全貌,更有利于法院對于食品糾紛案件的判斷。

    命名實體識別的目標是從語料中準確識別出專有名詞或有意義的數(shù)量短語并加以歸類[1],最初的命名實體識別基于規(guī)則和字典人工設計識別模型,專家根據(jù)命名實體識別特點和所處語言環(huán)境指定相關規(guī)則。國外學者應用這種方法構(gòu)建出來的命名實體識別模型準確度較高,但由于中文在詞與詞之間沒有明顯間隔,且同一個詞在不同的語境下面的含義也不同,因此基于規(guī)則的命名實體識別方法在中文上面的準確度不是很高。另一方面這種方法需要耗費大量的人力物力,且可移植性較差。

    為了克服基于規(guī)則的命名實體識別方法的這種缺陷,出現(xiàn)了基于統(tǒng)計機器學習的方法,這種方法可以一定程度解決移植性差以及人力損耗過多的缺陷。但統(tǒng)計機器學習的方法仍需要人工進行特征選取,在訓練時需要大量標注人工標注的樣本,時間損耗依然很高。在這種情況下,考慮到深度學習方法具有可泛化性強、人工參與較少的特點,因此近些年來深度學習的方法廣泛應用于命名實體識別領域,并取得較好效果。

    深度學習進行命名實體識別的工作主要分為兩個方面,一種是基于卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)的命名實體識別方案,另一種是基于循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)的命名實體識別方案。在RNN方面,為了解決RNN網(wǎng)絡容易梯度消失或梯度爆炸導致的難以訓練、難以處理長序列的問題,Hochreiter等[2]提出了長短期記憶網(wǎng)絡(long short-term memory, LSTM)。Hammerton[3]首次使用單向的LSTM的技術進行命名實體識別,LSTM作為解決長序依賴問題的有效技術,很多研究人員將LSTM和條件隨機場(conditional random field, CRF)結(jié)合,形成了LSTM-CRF命名實體識別的基礎架構(gòu)。以LSTM-CRF作為主體框架,在此基礎上融合各類特征,Huang等[4]加入人工設計拼寫特征,在LSTM-CRF框架的基礎上引入雙向長短期記憶網(wǎng)絡(bi-directional long short-term memory, BiLSTM),提出了BiLSTM-CRF 模型,大大提高了命名實體識別的準確率。在CNN方面,Collobert等[5]于2011年提出了CNN-CRF 的結(jié)構(gòu),提出將CNN結(jié)構(gòu)與CRF算法相結(jié)合,將標簽轉(zhuǎn)移得分引入到目標函數(shù)中。

    食品糾紛案件法律文書的關鍵實體主要包括人名、食物名、食物成分、地名、機構(gòu)名、日期、法律條款、角色、罪名等。在目前命名實體識別的主流方法中,BiLSTM-CRF模型是最為廣泛應用于命名實體識別領域的。但在使用BiLSTM-CRF模型對食品案件糾紛裁判文書樣本進行訓練之后的結(jié)果并不理想,F(xiàn)1僅為85.96。分析原因是由于食品糾紛案件的法律文書種實體種類較多,每一個字在不同語境下的含義并不相同,使用傳統(tǒng)的詞向量方法并不能準確代表每一個字的不同含義。為了解決這一問題,現(xiàn)基于雙向長短時記憶網(wǎng)絡,引入雙向編碼器表示模型(bidirectional encoder representations from transformers, Bert),提出一種基于子向量預訓練的命名實體識別模型(食品糾紛案件法律文書命名實體識別模型,Bert-BiLSTM-Attention-CRF)。

    1 Bert-BiLSTM-Attention-CRF模型

    1.1 網(wǎng)絡總體結(jié)構(gòu)

    Bert-BiLSTM-Attention-CRF模型的總體結(jié)構(gòu)由四大部分組成,分別是Bert層、BiLSTM層、Attention層和CRF層。模型的輸入是按照每個字符輸入序列文本,輸出是每一個字符的標簽,表示標簽屬于哪一部分實體。輸入的序列按照每一個字符依次輸入到Bert層,通過Bert層的雙向Transformer 編碼結(jié)構(gòu),輸出每一個字符的字向量,并輸入到BiLSTM層中。字向量進入BiLSTM層中后,經(jīng)過輸入門、遺忘門和輸出門,引入注意力機制,得到包含上下文文本信息的文本序列雙向表達,對其進行合并,將合并后的結(jié)果經(jīng)過一層隱層映射后作為輸入,輸入到CRF層。CRF層計算序列文本中每一個字符的標簽得分并與標準標簽進行對比,運用動態(tài)優(yōu)化算法得到最終標簽。網(wǎng)絡結(jié)構(gòu)圖如圖1所示。

    圖1 Bert-BiLSTM-Attention-CRF模型結(jié)構(gòu)圖Fig.1 Bert-BiLSTM-Attention-CRF model structure diagram

    1.2 Bert預訓練詞向量模型

    食品糾紛案件的法律文書種實體種類較多,因此在BiLSTM-CRF模型中加入Bert層,對輸入的句子進行預訓練,得到句子中每一個字的向量表示,保證每一個字在不同語境下的向量表示不同。Bert模型在Bert-BiLSTM-Attention-CRF模型中可以看作是原來word2vec詞向量生成模型的改進。

    Bert預訓練語言模型是Devlin等[6]提出的,為了充分獲取字前后的信息,采用了雙向Transformer編碼器的結(jié)構(gòu)。Bert提出了兩個任務:用于詞級別表示的“Masked 語言模型”和用于句子級別表示的“下一個句子預測”,并進行聯(lián)合的訓練。

    Masked語言模型的本質(zhì)思想是連續(xù)詞袋模型(continuous bag of words, CBOW),但在細節(jié)方面有改進。和CBOW方法的核心思想一樣,Masked語言模型在做語言模型任務的時候,將要預測的單詞摳掉,然后根據(jù)它的上文Context-before和下文Context-after去預測單詞。Masked語言模型隨機選擇語料中15%的單詞,把它摳掉,也就是用[Mask]掩碼代替原始單詞,然后要求模型去正確預測被摳掉的單詞,具體原則如下:①將其中的80%的詞用[Mask]掩碼代替;②將其中的10%的詞“貍貓換太子”隨機替換成另外一個單詞;③剩下的10%的詞保持不變。

    下一個句子預測模型本質(zhì)上是一個二分類模型,指的是做語言模型預訓練的時候,分兩種情況選擇兩個句子,一種是選擇語料中真正順序相連的兩個句子;另外一種是第二個句子從語料庫中擲骰子,隨機選擇一個拼到第一個句子后面。

    Bert預訓練語言模型采用了雙向Transformer編碼結(jié)構(gòu),完全基于Attention機制對序列文本進行建模。其中最主要的模塊是自注意力模塊,核心思想在于計算一句話中所有詞之間的關系,根據(jù)詞之間的相互關系反映這句話中不同詞之間的關聯(lián)性和重要程度,再利用這種相互關系確定每一個詞的權重。權重包含詞本身,也包含與其他詞的關系,相較于詞向量(word embeddings, Word2vec)方法,更能反映整體文章意思的表達。相關公式為

    MultiHead(Q,K,V)=Concat(head1,head2,…,headh)W° (2)

    式中:Q、K、V為輸入的字向量矩陣;dk為輸入維度;Transformer采用多頭模式;通過h個線性變換對Q、K、V進行投影,最后將不同的headi拼接起來。

    深度學習在訓練過程中會出現(xiàn)退化,因此Transformer編碼單元中加入了殘差網(wǎng)絡和層歸一化,即

    FFN=max(0,xW1+b1)W2+b2(5)

    由于自注意力機制中無法考慮到時序特征,Transformer通過采用位置嵌入和類型嵌入來添加時序特征,詞嵌入是位置嵌入和類型嵌入的和。

    PE(pos,2i)=sin(pos/10 0002i/dmodel) (6)

    PE(pos,2i+i)=cos(pos/10 0002i/dmodel) (7)

    式中:pos為token的位置索引;i為向量的某一個維度;dmodel為模型的維度。

    Bert預訓練語言模型的網(wǎng)絡結(jié)構(gòu)如圖2所示。

    圖2 Bert預訓練語言模型的網(wǎng)絡結(jié)構(gòu)Fig.2 Network structure of Bert pre-trained language model

    1.3 BiLSTM層

    命名實體識別任務是典型的文本序列標注問題,RNN網(wǎng)絡結(jié)構(gòu)可以有效處理數(shù)據(jù)序列信息,具有一定的記憶功能,因此RNN網(wǎng)絡結(jié)構(gòu)可以用來解決序列標注的任務,可以用于命名實體識別任務。

    LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡,網(wǎng)絡通過輸入門、遺忘門和輸出門來處理序列化的數(shù)據(jù)。單向的LSTM只能捕捉到序列的歷史信息,對于文本序列標注的任務來說,最終生成的標簽應該結(jié)合上下文的信息。為了充分利用上下文的信息,Graves[7]提出了 BiLSTM 模型,將傳統(tǒng)的單向LSTM結(jié)構(gòu)變成了雙向的BiLSTM結(jié)構(gòu),有效地解決了上下文信息利用不足的問題,因此BiLSTM模型是現(xiàn)有的RNN網(wǎng)絡結(jié)構(gòu)用在命名實體識別任務的主要方法。雙向長短時記憶網(wǎng)絡模型BiLSTM是一種雙向的LSTM結(jié)構(gòu),同時包含文本上下文信息。BiLSTM結(jié)構(gòu)由一個前向LSTM層和一個后向LSTM層組成,兩個LSTM層連接著同一個輸入層。這種特殊的結(jié)構(gòu)可以為輸出層提供完整的序列點上下文信息,從而自動提取句子特征,達到更好的效果[8-13]。模型結(jié)構(gòu)如圖3所示。

    圖3 BiLSTM結(jié)構(gòu)圖Fig.3 BiLSTM structure diagram

    BiLSTM層的計算過程如下:

    ft=σ(Wf[ht-1,xt]+bf) (8)

    it=σ(Wi[ht-1,xt]+bi) (9)

    ot=σ(Wo[ht-1,xt]+bo) (12)

    ht=ottanh(Ct) (13)

    1.4 Attention層

    Attention層主要用于上下文語義信息的添加,編碼經(jīng)過BiLSTM層后,由于特征的權重相等,因此在區(qū)分實體種類時誤差較大,對于每一個字向量Xi,注意力機制通過分配權重αi,劃分字之間的邊界,從而解決邊界難以區(qū)分的問題。字向量組成的句子表達式為

    S=∑αi·Xi(14)

    1.5 CRF層

    BiLSTM和Attention層只考慮到了長遠的上下文信息,并沒有考慮標簽與標簽之間的依賴關系,由于BiLSTM的輸出為單元的每一個標簽分值,挑選分值最高的一個作為該單元的標簽,雖然可以得到句子中每個單元的正確標簽,但BiLSTM和Attention層不能保證標簽每一次的預測都是正確的,因此不能只通過BiLSTM和Attention層的結(jié)果確定最終字的標簽[14]。CRF層可以為最后預測的標簽添加一些約束來保證預測的標簽是合法的。在訓練數(shù)據(jù)訓練過程中,這些約束可以通過CRF層自動學習。有了這些約束條件,標簽序列中出現(xiàn)非法序列的概率會大大降低,因此需要引入CRF模型。

    CRF模型是在給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型,其特點是假設輸出隨機變量能構(gòu)成馬爾科夫隨機場[15-16]。簡單來說,CRF模型是定義在隱馬爾可夫過程的無向圖模型,外加可觀測符號X,這個X是整個可觀測向量。選用線性鏈條件隨機場,線性鏈條件隨機場的數(shù)學定義如下:

    有兩個線性鏈表示的隨機變量序列X和Y,其中X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn)。

    在給定的隨機序列X的條件下,隨機序列Y的條件概率分布P(Y|X)構(gòu)成條件隨機場,滿足馬爾可夫性,即

    P(Yi|X,Y1,…,Yi-1,Yi+1,…,Yn)=

    P(Yi|X,Yi-1,Yi+1),i=1,2,…,n(15)

    CRF層會根據(jù)給定的輸入序列X和輸出標簽序列Y,定義評估分數(shù)為

    式(16)中:Wi,j為標簽的轉(zhuǎn)移分數(shù);Pi,yi為該字符的第yi個標簽的分數(shù)。Pi的定義為

    Pi=Wsh(t)+bs(17)

    式(17)中:Ws為分數(shù)權重;bs為可調(diào)參數(shù);h(t)為上一層t時刻的輸入數(shù)據(jù)x(t)的隱藏狀態(tài)。

    在學習時,通過極大似然估計得到條件概率模型,對于訓練集{(xi,yi)},公式為

    式(18)中:n為輸入向量的維度;θ為參數(shù)向量;λ為模型系數(shù);P為原序列到預測序列的對應概率,公式為

    式(19)中:s(x,y)為評估分數(shù)。

    2 實驗結(jié)果與分析

    2.1 數(shù)據(jù)集

    運用爬蟲技術,在各大專業(yè)網(wǎng)站上爬取共計41 523個食品糾紛案件法律文書,文書的內(nèi)容主要包括文書頭部、文書主體、文書尾部三部分,其中文書頭部包括:文書基本信息、法律角色信息以及審理經(jīng)過;文書主體包括原被告訴稱、證據(jù)信息、法院判決結(jié)果;文書尾部部分為法庭工作人員信息。

    法律文書可以看作半結(jié)構(gòu)化數(shù)據(jù),因此使用正則匹配全文信息截取關鍵性的段落,修正截取段落中可能出現(xiàn)的亂碼,將數(shù)字、繁體文字等統(tǒng)一轉(zhuǎn)化為大寫的數(shù)字以及簡體中文。共得到40 000條有效數(shù)據(jù),將這些數(shù)據(jù)按7∶3作為訓練集和測試集。

    在獲取數(shù)據(jù)后,對數(shù)據(jù)進行預處理,使用BIO(B-begin, I-inside,O-outside)標注體系,通過人工標注的方法,對訓練集和測試集的數(shù)據(jù)進行標注。

    2.2 模型搭建和參數(shù)設置

    模型編譯環(huán)境:Windows10(64位)、Python 3.6.5。

    模型參數(shù):使用谷歌提供的BERT-Base模型和TensorFlow1.3進行模型搭建。實驗參數(shù)如下:使用默認12頭注意力機制的Transformer,字向量的長度為768維。丟棄率(dropout)設置為0.5,為提高尋找最優(yōu)解的速度和準確率,經(jīng)過多次對比試驗,學習率設置為0.001,采用Adam優(yōu)化器的效果最好;考慮到梯度的問題,將LSTM層數(shù)設置為2層,隱含單元為128,clip值設置為5。Attention層的參數(shù)設置為64;由于共有16類,因此將CRF全連接層的參數(shù)設置為16。

    2.3 實驗結(jié)果

    2.3.1 評價指標

    共進行了5組對比試驗,采用的模型分別為CRF++模型、LSTM模型、BiLSTM-CRF模型、BiLSTM-Attention-CRF模型和Bert-BiLSTM-Attention-CRF模型。其中,CRF++模型使用Unigram-Bigram作為特征模板,自動生成對應的特征函數(shù)。

    為了驗證模型的準確性和每一層的必要性,對除Bert-BiLSTM-Attention-CRF模型外的其他模型采用CBOW對字向量進行預訓練,各模型的參數(shù)不發(fā)生改變,即LSTM層設置為2層、128個隱含單元、丟棄率設置為0.5、優(yōu)化算法設置為Adam、學習率設置為0.001。

    衡量模型性能一般使用準確率P(precision)、召回率R(recall)以及測度值F(F-measure)三個評測指標,因此使用這三個指標對模型性能進行評價,三個指標的數(shù)學定義為

    式中:TP(true positive)為將正類預測為正類數(shù);FP(false positive)為將負類預測為正類數(shù),即誤報; FN(false negative)為將正類預測為負類數(shù),即漏報。

    模型的實驗結(jié)果如表1所示。

    表1 各混合模型比較

    2.3.2 實驗結(jié)果及分析

    (1)為驗證CRF層的必要性,采用LSTM模型和BiLSTM-CRF模型進行對比實驗。實驗結(jié)果表明,引入CRF層后,BiLSTM-CRF的準確率提升較大。分析原因,主要是因為CRF層可以根據(jù)相鄰標簽之間的關系調(diào)整網(wǎng)絡輸出的結(jié)果,驗證了CRF層的必要性。

    (2)為驗證BiLSTM層的必要性,采用CRF++模型和BiLSTM-CRF模型進行對比實驗,實驗結(jié)果表明,在食品安全裁判文書的實體識別任務中,BiLSTM-CRF模型的準確率遠遠優(yōu)于CRF++模型。分析原因,主要是因為CRF++模型對于實體的識別的基礎是分詞,時間、名稱等屬于未登錄詞,CRF++模型對于此類詞的識別能力較弱。BiLSTM-CRF模型對于邊界的劃分更加清晰,因此識別能力好于CRF++模型,驗證了BiLSTM層的必要性。

    (3)為驗證Attention層的必要性,采用BiLSTM-CRF模型和BiLSTM-Attention-CRF模型進行對比實驗。實驗結(jié)果表明,BiLSTM-Attention-CRF模型較BiLSTM-CRF模型在準確率上提高了4.33%,有了較大提高。分析原因,主要是因為多頭注意力機制能在不同的子空間捕捉上下文信息,從而獲得更加完善的文本特征信息,可以顯著提高準確性。

    (4)為驗證Bert層的必要性,采用BiLSTM-Attention-CRF模型和Bert-BiLSTM-Attention-CRF模型進行對比實驗,根據(jù)實驗結(jié)果,加入了Bert層之后,模型的準確率提高了2.43%,分析原因,主要是因為Bert層對于輸入的文本進行了預訓練,采用雙向Transformer編碼結(jié)構(gòu),完全基于Attention機制對序列文本進行建模,通過計算一句話中所有詞之間的關系,根據(jù)詞之間的相互關系反映這句話中不同詞之間的關聯(lián)性和重要程度,再利用這種相互關系確定每一個詞的權重。權重包含詞本身,也包含與其他詞的關系,相較于Word2vec方法,更能反映整體文章意思的表達。因此效果優(yōu)于BiLSTM-Attention-CRF模型。

    3 結(jié)論

    通過對食品糾紛案件法律文書的命名實體識別問題的研究,在BiLSTM-CRF模型的基礎上引入了Bert模型對輸入的字序列進行預訓練,通過雙向Transformer 結(jié)構(gòu)生成字向量,解決了傳統(tǒng)詞向量無法表示字的多種含義的問題。在BiLSTM層后加入注意力機制,采用多頭注意力機制能在不同的子空間捕捉上下文信息,獲得更加完善的文本特征信息,從而提高識別結(jié)果的準確率, 準確率相較于目前應用最多的BiLSTM-CRF模型提升了6.76%。為了保證訓練集和測試集的有效性,通過自動標注、人工校準的方法對數(shù)據(jù)進行了預處理。實驗結(jié)果表明,Bert-BiLSTM-Attention-CRF模型在食品糾紛案件法律文書的命名實體識別上有著較高的準確率和召回率,驗證了模型的有效性。

    猜你喜歡
    糾紛案件命名實體
    命名——助力有機化學的學習
    前海自貿(mào)區(qū):金融服務實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    相鄰糾紛案件判決的正當性困境及其論證補強
    法律方法(2019年3期)2019-09-11 06:27:10
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    對我國涉嫌犯罪的經(jīng)濟糾紛案件處理機制的評析及重構(gòu)
    消費導刊(2017年24期)2018-01-31 01:28:55
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    哲學評論(2017年1期)2017-07-31 18:04:00
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    論我國虛假陳述糾紛案件的法律適用及創(chuàng)新機制
    商事法論集(2016年2期)2016-06-27 07:21:16
    元氏县| 温宿县| 特克斯县| 浙江省| 沂源县| 望都县| 洛扎县| 罗田县| 梅州市| 治县。| 怀来县| 河间市| 托克托县| 南乐县| 凤庆县| 收藏| 长宁区| 隆安县| 运城市| 怀柔区| 藁城市| 平陆县| 四川省| 安新县| 白城市| 柞水县| 读书| 朝阳市| 阿鲁科尔沁旗| 锦屏县| 阳原县| 左贡县| 曲阳县| 临邑县| 嘉定区| 扬中市| 门源| 城市| 滕州市| 福州市| 浦城县|