• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT+BiLSTM+CRF的中文景點(diǎn)命名實(shí)體識(shí)別①

      2020-06-20 07:32:08孫連英
      關(guān)鍵詞:景點(diǎn)實(shí)體特征

      趙 平,孫連英,萬 瑩,葛 娜

      1(北京聯(lián)合大學(xué) 智慧城市學(xué)院,北京 100101)

      2(北京聯(lián)合大學(xué) 城市軌道交通與物流學(xué)院,北京 100101)

      1 引言

      隨著社會(huì)媒體的發(fā)展,越來越多的旅游者喜歡通過游記分享旅游體驗(yàn).游記文本中景點(diǎn)的提取對(duì)旅游領(lǐng)域問答系統(tǒng)、個(gè)性化推薦等研究具有重要的意義.

      1996年,命名實(shí)體識(shí)別(Named Entity Recognition,NER)一詞在MUC-6[1]上提出來的,為自然語言處理的一項(xiàng)基礎(chǔ)任務(wù).早期基于規(guī)則和詞典[2]主要依賴語言學(xué)家根據(jù)上下文語義結(jié)構(gòu)歸納的模板.該方法對(duì)于難以歸納的總結(jié)無法解決,識(shí)別效果不明顯,且歸納總結(jié)過程代價(jià)比較大,所以學(xué)者們使用機(jī)器學(xué)習(xí)方法[3-5]來解決這一問題,機(jī)器學(xué)習(xí)的方法主要采用數(shù)學(xué)統(tǒng)計(jì)進(jìn)行建模,對(duì)NER 問題分類3 類小問題:特征選擇、機(jī)器學(xué)習(xí)策略、序列標(biāo)注等.在處理NER 問題時(shí),使用大規(guī)模的標(biāo)注語料讓機(jī)器來訓(xùn)練模型,通過訓(xùn)練好的模型對(duì)測(cè)試語料進(jìn)行序列解碼等,得到命名實(shí)體.但機(jī)器學(xué)習(xí)方法對(duì)文本特征提取要求較高.目前,基于深度學(xué)習(xí)的NER 方法[6,7]比前兩種方法得到了更廣泛的應(yīng)用,目前流行的方法為BiLSTM 方法.由于BiLSTM 是對(duì)序列中各個(gè)位置的分?jǐn)?shù)值進(jìn)行獨(dú)立分類,不能考慮相鄰標(biāo)簽之間的信息.而CRF 能較好解決這個(gè)問題,模型最后一層使用條件隨機(jī)場(chǎng)模型作為句子級(jí)的序列標(biāo)注,如Li 等[8]提出基于LSTM-CRF 的命名實(shí)體識(shí)別方法.

      在對(duì)于旅游領(lǐng)域內(nèi)的景點(diǎn)識(shí)別研究,現(xiàn)有的主要是基于機(jī)器學(xué)習(xí)的方法,薛征山等[9]提出的基于隱馬爾可夫模型的旅游景點(diǎn)識(shí)別方法,該方法雖然在景點(diǎn)實(shí)體識(shí)別上有一定的效率,但是其未能考慮到上下文之間的語義信息,且在對(duì)文本提取特征的過程中未能解決文本特征表示的一詞多義問題,旅游領(lǐng)域景點(diǎn)詞語一般會(huì)存在不同語境下不同含義,比如“黃山”在不同語境下可以指安徽省黃山市,屬于地名,也可以指旅游景區(qū)“黃山”等,繼而景點(diǎn)實(shí)體識(shí)別效率一般.針對(duì)這個(gè)問題本文提出將深度學(xué)習(xí)方法應(yīng)用到旅游領(lǐng)域景點(diǎn)識(shí)別中,在現(xiàn)有研究基礎(chǔ)上,提出將BiLSTM+CRF 方法應(yīng)用旅游領(lǐng)域景點(diǎn)實(shí)體識(shí)別中.郭劍毅等[10]提出的基于層疊條件隨機(jī)場(chǎng)方法,該方法過于依賴人工構(gòu)建特征模板,對(duì)于旅游領(lǐng)域,景點(diǎn)實(shí)體數(shù)量過多,無法一一列舉,且在人工構(gòu)建特征模板的時(shí)候耗時(shí)耗力,未能考慮到上下文語境和語義的信息.針對(duì)該問題,本文將BERT 語言模型[11](Bidirectional Encoder Representation from Transformers,BERT)融合到BiLSTM-CRF 命名實(shí)體識(shí)別模型中.BERT 語言模型對(duì)自然語言處理任務(wù)效率有很大的提升,利用該模型可以解決文本特征表示時(shí)的一詞多義問題.BiLSTM 能夠充分利用先驗(yàn)知識(shí),獲取有效的上下文信息,CRF 可以考慮句子級(jí)相鄰標(biāo)簽之間的信息,并且獲得全局最優(yōu)序列.在實(shí)際旅游領(lǐng)域內(nèi)景點(diǎn)識(shí)別的測(cè)試中比以往學(xué)者的研究方法效率有顯著提升.P值,R值,F值分別為8.33%,1.71%,6.81%.

      2 BERT+BiLSTM+CRF 模型

      2.1 模型框架

      BERT+BiLSTM+CRF 模型由BERT 模塊、BiLSTM和CRF 3 個(gè)模塊組成.整體模型如圖1所示.首先使用BERT 模型獲取字向量,提取文本重要特征;然后通過BiILSTM 深度學(xué)習(xí)上下文特征信息,進(jìn)行命名實(shí)體識(shí)別;最后CRF 層對(duì)BiLSTM 的輸出序列處理,結(jié)合CRF 中的狀態(tài)轉(zhuǎn)移矩陣,根據(jù)相鄰之間標(biāo)簽得到一個(gè)全局最優(yōu)序列.

      圖1 BERT+BiLSTM+CRF 模型圖

      模型第一層是利用預(yù)訓(xùn)練的BERT 語言模型初始化獲取輸入文本信息中的字向量記為序列X=(x1,x2,x3,···,xn),所獲取的字向量能夠利用詞與詞之間的相互關(guān)系有效提取文本中的特征.

      模型第二層為雙向LSTM 層,第一層獲取的n維字向量作為雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)各個(gè)時(shí)間步的輸入,得到雙向LSTM 層的隱狀態(tài)序列(表示前向)和(表示后向),待前向與后向全部處理完,對(duì)各個(gè)隱狀態(tài)序列進(jìn)行按照位置拼接得到完整的隱狀態(tài)序列記為ht=(h1,h2,···,hn)∈Rn×m,接著線性輸出層將完整的隱狀態(tài)序列映射到s維(s維為標(biāo)注集的標(biāo)簽類別數(shù)目),記提取的句子特征為全部映射之后的序列為矩陣L=(l1,l2,···,ln)∈Rn×s,li∈Rs的每一維li,j分別對(duì)應(yīng)其字xi對(duì) 應(yīng)每個(gè)類別標(biāo)簽yi的分?jǐn)?shù)值.如果此時(shí)直接對(duì)每個(gè)位置的分?jǐn)?shù)值進(jìn)行獨(dú)立分類,選取每個(gè)分值最高的直接得到輸出結(jié)果,則不能考慮相鄰句子之間的信息,不能得到全局最優(yōu),分類結(jié)果不理想.所以引入模型最后一層.

      2.1.1 BERT 模型

      BERT[11]是一種自然語言處理預(yù)訓(xùn)練語言表征模型.BERT 能夠計(jì)算詞語之間的相互關(guān)系,并利用所計(jì)算的關(guān)系調(diào)節(jié)權(quán)重提取文本中的重要特征,利用自注意力機(jī)制的結(jié)構(gòu)來進(jìn)行預(yù)訓(xùn)練,基于所有層融合左右兩側(cè)語境來預(yù)訓(xùn)練深度雙向表征,比起以往的預(yù)訓(xùn)練模型,它捕捉到的是真正意義上的上下文信息,并能夠?qū)W習(xí)到連續(xù)文本片段之間的關(guān)系.模型預(yù)訓(xùn)練結(jié)構(gòu)圖如圖2所示.

      圖2 BERT 模型預(yù)訓(xùn)練結(jié)構(gòu)圖

      圖2中,Trm表示[11]自注意力機(jī)制(Transformer)編碼轉(zhuǎn)換器,E1,E2,···,EN表示模型的輸入,為詞向量,而T1,T2,···,TN表示模型的輸出.由于一般的語言模型不能很好理解句子之間的關(guān)系,而在命名實(shí)體識(shí)別中句子之間的語義關(guān)系是非常重要的,所以BERT 模型拼接句子L和M,并預(yù)測(cè)M是否位于原始文本中L之后.語言模型的預(yù)訓(xùn)練在文本特征提取時(shí),能解決一詞多義問題繼而能夠改進(jìn)命名實(shí)體識(shí)別的任務(wù),所以本文將BERT 語言模型結(jié)合到命名實(shí)體識(shí)別的任務(wù)中,取得了顯著的效果.

      2.1.2 BiLSTM

      長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)[12]是1997年提出來的,是目前最流行的遞歸神經(jīng)網(wǎng)絡(luò),其不僅對(duì)短期的輸入比較敏感,更能保存長(zhǎng)期的狀態(tài).LSTM 的主要由3 個(gè)開關(guān)來控制單元的輸入輸出.

      (1)遺忘門:單元狀態(tài)ct-1保留到當(dāng)前時(shí)刻ct的決策,計(jì)算公式如式(1):

      式中,Wfh對(duì)應(yīng)輸入項(xiàng)ht-1;Wfx對(duì)應(yīng)輸入項(xiàng)Xt;Wfh和Wfx組成遺忘門的權(quán)重矩陣Wf,bf為偏置頂,σ為激活函數(shù).

      (2)輸入門:當(dāng)前輸入Xt保存到ct的決定,計(jì)算公式如式(2):

      式中,Wi為 權(quán)重矩陣,bi是偏置頂.

      當(dāng)前時(shí)刻單元狀態(tài)ct,如式(4):

      式中,ct-1表 示前一個(gè)的單元狀態(tài),ft為遺忘門.符號(hào).表示按元素乘.

      (3)輸出門:計(jì)算如式(5):

      輸入門和單元狀態(tài)確定了長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的輸出,如式(6):

      神經(jīng)網(wǎng)絡(luò)可以根據(jù)文本中詞的分布式表示自動(dòng)提取特征,字向量的BiLSTM-CRF 模型,在BiLSTM 輸出預(yù)測(cè)曾后,由CRF 層利用上下文已經(jīng)預(yù)測(cè)的標(biāo)簽,找到全局最優(yōu)的標(biāo)注序列,實(shí)驗(yàn)對(duì)比分析見文第四部分.

      2.1.3 CRF

      CRF[13]用來分割和標(biāo)記序列數(shù)據(jù),根據(jù)輸入的觀察序列來預(yù)測(cè)對(duì)應(yīng)的狀態(tài)序列,同時(shí)考慮輸入的當(dāng)前狀態(tài)特征和各個(gè)標(biāo)簽類別轉(zhuǎn)移特征,被廣泛應(yīng)用于NER 的問題中.CRF 應(yīng)用到NER 的問題中主要是根據(jù)BiLSTM 模型的預(yù)測(cè)輸出序列求出使得目標(biāo)函數(shù)最優(yōu)化的序列.

      兩個(gè)隨機(jī)變量X和Y,在給定X的條件下,如果每個(gè)YV滿足未來狀態(tài)的條件概率與過去狀態(tài)條件獨(dú)立[13],如式(7):

      則(X,Y)為一個(gè)CRF.常用的一階鏈?zhǔn)浇Y(jié)構(gòu)CRF[13]如圖3所示.

      圖3 條件隨機(jī)場(chǎng)一階鏈?zhǔn)浇Y(jié)構(gòu)

      CRF 應(yīng)用到NER 中是在給定需要預(yù)測(cè)的文本序列X={x1,x2,···,xn},根據(jù)BERT-BiLSTM 模型的輸出預(yù)測(cè)序列Y={y1,y2,···,yn},通過條件概率P(y|x)進(jìn)行建模,則有式(8):

      其中,i表示當(dāng)前節(jié)點(diǎn)在x中的索引,m,n表示在當(dāng)前節(jié)點(diǎn)i上的特征函數(shù)總個(gè)數(shù).tn表示節(jié)點(diǎn)特征函數(shù),只和當(dāng)前位置有關(guān).μm表示局部特征函數(shù),只與當(dāng)前位置和前一個(gè)節(jié)點(diǎn)位置有關(guān).βnλm分別表示特征函數(shù)tn和 μm對(duì)應(yīng)的權(quán)重系數(shù),用于衡量特征函數(shù)的信任度.z(x)歸一化因子,如式(9):

      2.2 算法描述

      算法1.景點(diǎn)實(shí)體提取算法輸入:旅游游記文章輸出:景點(diǎn)實(shí)體集1.get_train_example(data_dir),get_test_example(data_dir),get_labels()/*獲取訓(xùn)練數(shù)據(jù)examples、測(cè)試數(shù)據(jù)predict_examples、標(biāo)簽集labels;2.convert_single_example()/* 分析樣本,將字、標(biāo)簽全部轉(zhuǎn)化為id,次數(shù)對(duì)文本進(jìn)行按照序列截?cái)?在句子開頭結(jié)尾加上標(biāo)識(shí)符,結(jié)構(gòu)化存儲(chǔ)到InputFeature 對(duì)象中,存為一個(gè)類*/3.TFRecordWriter(output_file)/*將步驟2 中的數(shù)據(jù)轉(zhuǎn)化為TF_Record格式*/4.for (ex_index,example)in enumerate (examples)/*遍歷所有訓(xùn)練樣本重復(fù)步驟2 和步驟3*/5.create_model(),model_fn()/*構(gòu)建模型,初始化參數(shù),使用BERT加載獲取每個(gè)字對(duì)應(yīng)的embedding,訓(xùn)練基于BERT-BiLSTMCRF 的實(shí)體識(shí)別模型*/6.filed_based_convert_examples_to_features()/*使用步驟2 中的predict_examples 作為模型的輸入,得到實(shí)體識(shí)別結(jié)果result*/7.end for 8.return result

      3 數(shù)據(jù)集

      3.1 構(gòu)建數(shù)據(jù)庫

      本文從馬蜂窩等互聯(lián)網(wǎng)旅游網(wǎng)站上通過爬蟲技術(shù)獲取1 萬余篇旅游游記文章,將數(shù)據(jù)解析成TXT 文件,進(jìn)行數(shù)據(jù)清洗,通過正則表達(dá)式去除無用的網(wǎng)址、特殊的標(biāo)點(diǎn)符號(hào)以及一些符號(hào)化的字等信息,按照優(yōu)先級(jí)處理特殊符號(hào),但是保留逗號(hào),句號(hào)等重要的標(biāo)點(diǎn)符號(hào).數(shù)據(jù)預(yù)處理流程如圖4所示.

      圖4 數(shù)據(jù)清洗預(yù)處理

      詞邊界特征能很好地表示邊界字符的位置信息,有助于確定實(shí)體邊界,所以本文按照BIO 標(biāo)注格式(B 表示景點(diǎn)開始標(biāo)志,I 表示詞的中間部分,O 表示其他非景點(diǎn)的詞)進(jìn)行自動(dòng)化標(biāo)注,并建立自己的旅游游記數(shù)據(jù)庫(TDB).標(biāo)注實(shí)例如表1所示,數(shù)據(jù)分布情況如表2所示.

      表1 標(biāo)注實(shí)例

      表2 數(shù)據(jù)分布情況

      4 實(shí)驗(yàn)過程

      4.1 評(píng)價(jià)指標(biāo)

      本文采用MUC 評(píng)測(cè)會(huì)議上所提出的命名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo),MUC-2 上[1]提出的NER 的最初評(píng)價(jià)指標(biāo):精確率(Precision,P),召回率[1](Recall,R).本文中主要采用P、R和F值(F值為召回率和精確率的加權(quán)調(diào)和平均值)作為評(píng)價(jià)指標(biāo)計(jì)算式(10)~式(12).如表3所示.

      表3 評(píng)價(jià)指標(biāo)相關(guān)解釋

      當(dāng) α =1時(shí),式(12)為最常見的F1 值,計(jì)算公式如式(12),當(dāng)F1 值較高說明實(shí)驗(yàn)方法比較有效.

      4.2 模型分層測(cè)試實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證本文所提出模型的有效性,從TDB 數(shù)據(jù)庫隨機(jī)抽取19 965 條句子作為訓(xùn)練集和19 690 條句子作為測(cè)試集進(jìn)行實(shí)驗(yàn).本文設(shè)置了4 組對(duì)比試驗(yàn),分別與CRF 模型,BiLSTM 模型,BiLSTM+CRF 模型進(jìn)行分層測(cè)試對(duì)比,來驗(yàn)證每個(gè)模塊的重要性.以下實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)均為同一數(shù)據(jù)集.實(shí)驗(yàn)對(duì)比分析如表4所示.

      表4 模型驗(yàn)證實(shí)驗(yàn)分析(%)

      由表4可知,本文所提出的方法P值,R值,F值在相對(duì)于其他3 組對(duì)比實(shí)驗(yàn)中效果最好的,P值,R值,F1 值上分別提升了0.86%,5.31%,3.09%.

      (1)單層BiLSTM 模型

      觀察實(shí)驗(yàn)測(cè)試數(shù)據(jù)可知,由于CRF 能夠充分考慮標(biāo)注序列的順序性,得到全局最優(yōu)標(biāo)注序列,所以缺少CRF 層會(huì)將一個(gè)完整實(shí)體拆分(如“故宮博物院”)拆分成“故宮”“博物院”兩個(gè)實(shí)體,而BiLSTM雖說能夠考慮上下文信息,但是其輸出序列只根據(jù)當(dāng)前詞輸出得分最大值,容易將完整實(shí)體細(xì)分.所以對(duì)于BiLSTM、BiLSTM+CRF 兩種方法而言,后者識(shí)別效果較好.

      (2)單層CRF 模型

      由于CRF 只是傳統(tǒng)的機(jī)器學(xué)習(xí)方法,過于依賴人工構(gòu)建的特征模板,缺乏深度學(xué)習(xí)方法中上下文信息的特征,而景點(diǎn)實(shí)體的識(shí)別對(duì)上下文語義理解依賴較大,所以BiLSTM+CRF 方法相比較而言,在P值上比CRF 提高了8.3%,R值提高了9.57%.

      (3)雙層BiLSTM+CRF 層

      去除BERT 模型時(shí),由于在文本特征提取的時(shí)候不能解決同一個(gè)單詞不同語境下的特征表示問題,針對(duì)一詞多義問題不能得到很好的解決,比如“北京海洋館”中的“海洋”在不同語境下可以指人名也可以指景點(diǎn)名,對(duì)于此類問題不能得到解決,導(dǎo)致準(zhǔn)確率,召回率等下降.

      (4)BERT+BiLSTM+CRF 模型

      結(jié)合三層的模型,可以通過BiLSTM 獲取上下文有效信息特征,可以解決特征表示的一詞多義問題,結(jié)合BiLSTM+CRF 的優(yōu)勢(shì),識(shí)別效率相對(duì)較高.

      4.3 相關(guān)工作對(duì)比分析

      經(jīng)調(diào)研發(fā)現(xiàn),目前對(duì)旅游領(lǐng)域內(nèi)景點(diǎn)識(shí)別的方法最好的方法為薛征山[9]和郭劍毅[10]兩人所提出的,為驗(yàn)證本文所提出方法的應(yīng)用性,從所構(gòu)建的TDB 數(shù)據(jù)庫中隨機(jī)抽取19 965 個(gè)句子作為訓(xùn)練集,和19 690 個(gè)句子作為測(cè)試集進(jìn)行實(shí)驗(yàn)設(shè)計(jì)了3 組實(shí)驗(yàn)對(duì)比分析,對(duì)旅游領(lǐng)域內(nèi)的游記文章進(jìn)行景點(diǎn)實(shí)體識(shí)別,并與以往研究者薛征山[9]提出的基于HMM 的中文旅游景點(diǎn)識(shí)別方法與郭劍毅[10]所提出的基于層疊條件隨機(jī)場(chǎng)方法進(jìn)行對(duì)比分析;使用3.3 節(jié)中的評(píng)價(jià)指標(biāo)得到實(shí)驗(yàn)結(jié)果如表5.

      表5 景點(diǎn)識(shí)別驗(yàn)證結(jié)果(%)

      觀察實(shí)驗(yàn)結(jié)果可知,本文所提出的基于深度學(xué)習(xí)方法比機(jī)器學(xué)習(xí)方法在識(shí)別效率上有大幅度的提升,主要原因?yàn)樯疃葘W(xué)習(xí)能夠?qū)W習(xí)文本上下文語義信息,而本文在此基礎(chǔ)上解決了文本特征表示時(shí)的一詞多義問題,所以該模型在旅游領(lǐng)域內(nèi)景點(diǎn)識(shí)別相對(duì)以往研究者效率有一定提升,其中P值和F值相對(duì)于薛征山[9]分別提高了8.33%和6.81%,R值相對(duì)于郭劍毅[10]提高了1.71%.

      5 結(jié)論

      本文研究設(shè)計(jì)了一種融合新的語言模型BERT 的BiLSTM+CRF 景點(diǎn)實(shí)體識(shí)別方法.利用BERT 語言模型能夠解決在文本特征表示的一詞多義問題,結(jié)合BiLSTM 深度學(xué)習(xí)方法充分學(xué)習(xí)上下文信息的特點(diǎn)以及CRF 機(jī)器學(xué)習(xí)方法提取全局最優(yōu)標(biāo)注序列,得到景點(diǎn)實(shí)體.在實(shí)驗(yàn)中進(jìn)行了驗(yàn)證,P值,R值和F值均高達(dá)95%以上,且P,R,F值相比以往研究者所提出的方法分別提高了8.33%,1.71%,6.81%.解決了旅游景點(diǎn)實(shí)體識(shí)別效率一般的問題,將為解決從旅游游記文本中自動(dòng)提取旅游線路的問題提供了技術(shù)支撐.

      猜你喜歡
      景點(diǎn)實(shí)體特征
      如何表達(dá)“特征”
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      不忠誠的四個(gè)特征
      打卡名校景點(diǎn)——那些必去朝圣的大學(xué)景點(diǎn)
      抓住特征巧觀察
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      英格蘭十大怪異景點(diǎn)
      海外星云(2016年7期)2016-12-01 04:18:07
      沒有景點(diǎn) 只是生活
      Coco薇(2015年11期)2015-11-09 13:19:52
      积石山| 保康县| 丹寨县| 洱源县| 乌拉特前旗| 阜阳市| 新蔡县| 毕节市| 贡嘎县| 临海市| 防城港市| 西充县| 通道| 双辽市| 遂平县| 专栏| 西城区| 尤溪县| 东兴市| 台前县| 荔浦县| 上栗县| 应城市| 五莲县| 奈曼旗| 耿马| 新竹市| 固安县| 博客| 吴旗县| 南江县| 信宜市| 霍林郭勒市| 东丰县| 浙江省| 玉田县| 拉萨市| 宿州市| 胶南市| 商都县| 游戏|