• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Trans-NER:一種遷移學(xué)習(xí)支持下的中文命名實體識別模型

    2019-08-13 12:38:24王銀瑞彭敦陸
    關(guān)鍵詞:字符實體向量

    王銀瑞,彭敦陸,陳 章,劉 叢

    (上海理工大學(xué)光電信息與計算機(jī)工程學(xué)院,上海200093)

    E-mail:wyinrui@sina.com

    1 引言

    隨著互聯(lián)網(wǎng)技術(shù)和信息產(chǎn)業(yè)的快速發(fā)展,新聞、教育、醫(yī)療等等不同領(lǐng)域每時每刻都在產(chǎn)生大量的文本數(shù)據(jù).面對這些海量文本數(shù)據(jù),如何準(zhǔn)確高效地進(jìn)行信息抽取和數(shù)據(jù)挖掘成為學(xué)術(shù)界和工業(yè)界關(guān)注的熱點問題,作為其中的主要技術(shù)的命名實體識別技術(shù)也受到研究者們的高度重視.

    命名實體識別(Named entity recognition,NER)技術(shù)旨在從文本數(shù)據(jù)中自動地發(fā)現(xiàn)信息實體以及識別它們對應(yīng)的類別[1],它是自然語言處理研究領(lǐng)域的核心任務(wù)之一.高效且準(zhǔn)確地識別出文本中包含的實體信息,對于計算機(jī)處理文本數(shù)據(jù)具有重要意義.在自然語言處理研究領(lǐng)域,信息檢索、知識圖譜、問答系統(tǒng)等多項高層任務(wù)均需要命名實體識別任務(wù)作為其基礎(chǔ)構(gòu)件.命名實體的識別效率及準(zhǔn)確度將影響到后續(xù)任務(wù),因此,對其進(jìn)行深入研究具有重要價值.

    研究者們已對中文命名實體識別任務(wù)進(jìn)行了廣泛而深入的研究:從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機(jī)器學(xué)習(xí)的方法,到近年來基于深度學(xué)習(xí)的方法,研究成果在學(xué)術(shù)界和工業(yè)界得到了廣泛認(rèn)可.機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法通常需要大量標(biāo)注數(shù)據(jù)以構(gòu)建效果良好的模型.然而,某些領(lǐng)域由于其領(lǐng)域特殊性,標(biāo)注數(shù)據(jù)獲取成本高或數(shù)量規(guī)模較小,這種情況下以上方法表現(xiàn)不佳.例如,在醫(yī)療領(lǐng)域,由于醫(yī)學(xué)知識的專業(yè)性,只能由專業(yè)人士對醫(yī)療文本進(jìn)行數(shù)據(jù)標(biāo)注工作,這增加了標(biāo)注數(shù)據(jù)獲取的成本[2].因此,如何在較小規(guī)模數(shù)據(jù)上獲得較好的識別效果成為了亟待解決的問題.

    近年來,遷移學(xué)習(xí)(Transfer Learning)已經(jīng)在學(xué)界引起了廣泛的關(guān)注與研究.遷移學(xué)習(xí)是利用已獲取的知識對相關(guān)領(lǐng)域的不同問題進(jìn)行求解的一種新機(jī)器學(xué)習(xí)方法,其目的是遷移已有的知識來解決目標(biāo)領(lǐng)域中僅有少量甚至沒有標(biāo)注數(shù)據(jù)的學(xué)習(xí)問題[3].遷移學(xué)習(xí)已逐步被學(xué)者們應(yīng)用在了深度學(xué)習(xí)領(lǐng)域,以解決數(shù)據(jù)集規(guī)模較小的問題.詞嵌入的研究與廣泛應(yīng)用即是遷移學(xué)習(xí)應(yīng)用在自然語言處理領(lǐng)域的實例.

    本文試圖將遷移學(xué)習(xí)技術(shù)引入中文NER模型以解決上述問題.利用大規(guī)模語料庫訓(xùn)練語言預(yù)測模型,并在此基礎(chǔ)上提出基于上下文特征的字符級向量生成算法,通過該算法將語言預(yù)測模型蘊(yùn)含的知識遷移至實體識別模型.實驗結(jié)果顯示,本文提出的模型相比其他模型具有較好的識別效果.

    2 相關(guān)工作

    2.1 命名實體識別

    NER一直是自然語言處理領(lǐng)域中的研究熱點,從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機(jī)器學(xué)習(xí)的方法,到近年來基于深度學(xué)習(xí)的方法都不斷有研究成果發(fā)表.

    最近的基于人工神經(jīng)網(wǎng)絡(luò)的英文命名實體識別方法取得了優(yōu)良的效果.文獻(xiàn)[4]較早地提出了使用神經(jīng)網(wǎng)絡(luò)來實現(xiàn)命名實體識別任務(wù),在他們的工作中提出了窗口方法與句子方法兩種網(wǎng)絡(luò)結(jié)構(gòu)來對文本進(jìn)行處理.文獻(xiàn)[5]在2016年的工作提出了一種循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)結(jié)合條件隨機(jī)場(Conditional Random Field,CRF)[6]的網(wǎng)絡(luò)結(jié)構(gòu).實驗結(jié)果表明,RNN-CRF結(jié)構(gòu)在命名實體識別任務(wù)中獲得了更好的效果,已經(jīng)超過了基于豐富特征的CRF模型,成為目前基于深度學(xué)習(xí)的NER方法中的較為主流模型.文獻(xiàn)[7]于2016年的工作中在RNN-CRF網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上使用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來生成英文字符向量.

    中文領(lǐng)域的命名實體識別研究也取得了顯著成果.文獻(xiàn)[8]在2003年的工作中提出了將統(tǒng)計方法與知識庫進(jìn)行結(jié)合的方法進(jìn)行命名實體識別.文獻(xiàn)[9]提出綜合多種特征進(jìn)行實體識別任務(wù),這些任務(wù)包括語法特征、詞性特征等.本文提出的中文實體識別模型相比上述研究,具有兩個不同特征:1)模型的輸入文本序列基于中文字符級向量表示;2)采用門控循環(huán)單元(Gated Recurrent Unit,GRU)構(gòu)造雙向循環(huán)神經(jīng)網(wǎng)絡(luò).字符級向量表示方法移除了模型對于分詞預(yù)處理過程的依賴,避免了分詞錯誤傳播和信息缺失使識別準(zhǔn)確率降低的弊端.GRU循環(huán)神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)相比,不僅具有相似的實驗效果,還具有更簡單的結(jié)構(gòu),更容易進(jìn)行訓(xùn)練[10].

    2.2 遷移學(xué)習(xí)

    在面對某一領(lǐng)域的具體問題時,通??赡軣o法得到構(gòu)建模型所需規(guī)模的數(shù)據(jù),而同一領(lǐng)域中的不同任務(wù)往往具有共同點.某一領(lǐng)域任務(wù)中模型訓(xùn)練的成果往往可以應(yīng)用在同一領(lǐng)域不同問題的模型中,這種技術(shù)叫做遷移學(xué)習(xí).文獻(xiàn)[11]在2010年的工作中對遷移學(xué)習(xí)做出了闡述:遷移學(xué)習(xí)旨在利用學(xué)習(xí)自源數(shù)據(jù)集的一些知識在目標(biāo)數(shù)據(jù)集上執(zhí)行任務(wù).借助遷移學(xué)習(xí)技術(shù),可以將已經(jīng)利用大量容易獲得的數(shù)據(jù)集進(jìn)行過訓(xùn)練的模型應(yīng)用在同一領(lǐng)域的不同任務(wù)上,例如將其中可以重用的層直接利用在新模型中,從而使在新任務(wù)的模型中所需的參數(shù)數(shù)量減少和規(guī)模減小.或者直接利用源模型的輸入作為其他任務(wù)模型的輸入.新模型可以利用遷移學(xué)習(xí)源模型中蘊(yùn)含的信息,從而可以更專注于特定問題的建模.

    在過去的幾年中,研究者們對如何將遷移學(xué)習(xí)應(yīng)用在人工神經(jīng)網(wǎng)絡(luò)模型中做出了大量的研究工作.遷移學(xué)習(xí)在自然語言處理領(lǐng)域也有大量的研究.詞嵌入的研究即應(yīng)用了遷移學(xué)習(xí)的思想,訓(xùn)練良好的詞嵌入可以應(yīng)用在多種自然語言處理任務(wù)中.文獻(xiàn)[12]在2016年工作中著重研究了利用了遷移學(xué)習(xí)的用于句子分類的卷積神經(jīng)網(wǎng)絡(luò).文獻(xiàn)[13]提出一種半監(jiān)督混合模型,應(yīng)用于序列標(biāo)注問題,該模型同時利用了未標(biāo)注數(shù)據(jù)和標(biāo)注數(shù)據(jù)訓(xùn)練模型,體現(xiàn)了遷移學(xué)習(xí)的思想.

    本文提出一種中文命名實體識別領(lǐng)域的遷移學(xué)習(xí)模型,Trans-NER模型.該模型包括一個源模型、一個目的模型及一種遷移方法.本文在第3節(jié)介紹了所構(gòu)建的源模型與提出的遷移方法,在第4節(jié)介紹Trans-NER模型的整體架構(gòu)與設(shè)置.

    3 基于上下文特征的字符級向量生成算法

    如何構(gòu)建源模型與如何遷移源模型蘊(yùn)含的知識是遷移學(xué)習(xí)的兩個重要問題.本文構(gòu)建語言預(yù)測模型作為源模型,提出基于上下文特征的字符級向量生成算法進(jìn)行知識遷移.

    3.1 語言預(yù)測模型

    目前詞向量(或詞嵌入、字向量)已廣泛應(yīng)用在NLP深度學(xué)習(xí)任務(wù)中,經(jīng)良好訓(xùn)練的詞向量可以在一定程度上表達(dá)詞義,并且可以通過向量計算來比較兩個詞的詞義差別.然而詞向量僅用一個向量來表示一個詞的特點,使其無法表達(dá)多重意義,即無法解決“一詞多義”的問題.語言預(yù)測模型可以綜合語境輸出詞的上下文特征信息,利用這一點彌補(bǔ)基礎(chǔ)詞向量的缺陷.

    本文將語言預(yù)測模型構(gòu)建為關(guān)于輸入中文文本序列T的概率分布P(T),理想情況下,P(T)表示句子T是一個合理的中文句子的概率.在現(xiàn)實場景下,由于語料庫規(guī)模與質(zhì)量的有限性,P(T)實際代表了句子T出現(xiàn)在語料庫中的似然.當(dāng)語料庫的規(guī)模足夠大,并且語料庫的質(zhì)量可以滿足問題的需求時,語言預(yù)測模型即可較好地擬合出符合中文語言規(guī)律的概率分布P(T).

    圖1 語言預(yù)測模型結(jié)構(gòu)Fig.1 Structure of language prediction model

    圖1 展示了語言預(yù)測模型結(jié)構(gòu)簡圖,可以分為3個部分:循環(huán)神經(jīng)網(wǎng)絡(luò)層、concatenate層和全連接層.下面依次對每個部分做出詳述,同時介紹整個模型的計算流程.

    3.1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)層

    該層包括兩個LSTM網(wǎng)絡(luò).前向LSTM網(wǎng)絡(luò)用于順序處理文本序列,后向LSTM用于逆序處理文本序列,以分別提取序列的以前及未來的信息.需要注意的是,這兩個LSTM網(wǎng)絡(luò)具有相同的結(jié)構(gòu)及節(jié)點數(shù)目配置,但在訓(xùn)練過程中具有不同參數(shù),相互獨(dú)立.

    通過前后兩個方向的LSTM網(wǎng)絡(luò),模型可以獲得句子序列的完整信息,從而估計出輸入序列(t1,t2,…,tN)的聯(lián)合概率分布:

    3.1.2 concatenate 層

    該層的功能為連接兩個循環(huán)網(wǎng)絡(luò)層輸出的向量.對于輸入序列(t1,t2,…,tN),每一個字符對應(yīng)一個向量表示 xi,將輸入序列映射為向量表示序列X=(x1,x2,…,xN).令下標(biāo)i表示字符在序列中的位置,hi表示雙向LSTM網(wǎng)絡(luò)輸出的隱藏層值,則hi由前向LSTM的隱藏層值和后向LSTM的隱藏層值連接組成,以同時利用序列以前的信息和未來的信息來對當(dāng)前位置i的字符做出預(yù)測.

    3.1.3 全連接層

    該部分將對循環(huán)神經(jīng)網(wǎng)絡(luò)部分提取出的上下文特征進(jìn)行分類與整合計算,并經(jīng)過tanh激活函數(shù)將其映射到字符級向量空間.使用公式表達(dá)如下:

    3.1.4 損失函數(shù)

    語言預(yù)測模型訓(xùn)練的目標(biāo)為最大化模型輸出正確預(yù)測的概率.直接計算該概率較為困難,可以通過最大化模型真實輸出與模型期望輸出xi的余弦相似度間接地達(dá)到目的.余弦相似度的計算公式為:

    設(shè)置該模型的損失函數(shù)為模型真實輸出與模型期望輸出余弦相似度的相反數(shù),公式表達(dá)如下:

    3.2 基于上下文特征的字符級向量生成算法

    如何將源模型的知識遷移至目的模型是遷移學(xué)習(xí)理論中的一個關(guān)鍵問題.考慮到自然語言處理領(lǐng)域任務(wù)都需要對文本進(jìn)行向量化處理的共性,本文提出基于上下文特征的字符級向量生成算法,利用該算法抽取出文本序列中包含的上下文特征信息,算法描述如圖2所示.

    算法需要的輸入為待處理文本序列、基礎(chǔ)字向量查找表WE及訓(xùn)練完畢的語言預(yù)測模型.這里使用的基礎(chǔ)字向量查找表WE與語言預(yù)測模型中的保持一致.為了敘述的簡便,將語言預(yù)測模型的兩個LSTM網(wǎng)絡(luò)的計算過程分別抽象為兩個函數(shù):FLstm()與BLstm().首先,對輸入文本序列的每一個字符進(jìn)行基礎(chǔ)字向量查表操作,將輸入文本序列轉(zhuǎn)換為基礎(chǔ)字向量序列(第1-4行),此時的字向量序列并不包含上下文特征信息.然后,算法利用語言預(yù)測模型的LSTM網(wǎng)絡(luò)部分計算每一個字符的上下文特征信息,具體過程如下:對于該字符的前置序列,使用前向LSTM計算隱藏層值輸出For_hi(第6-10行);對該字符的后置序列,使用后向LSTM計算隱藏層值輸出Back_hi(第11-15行).然后將基礎(chǔ)字向量和前向LSTM隱藏層值向量、后向LSTM隱藏層至向量進(jìn)行連接操作,形成新的向量表示(第16行),最后,輸出文本基于上下文特征信息的向量表示序列(第18-19行).

    圖2 字符級向量生成算法Fig.2 A character level vector generation algorithm

    輸入文本序列T(t1,t2,…,tN),其基礎(chǔ)向量化表示為X=(x1,x2,…,xN).經(jīng)算法處理后文本序列的新向量序列表示為:

    該新字向量序列表示將作為輸入應(yīng)用在實體識別任務(wù)中.

    4 Trans-NER中文命名實體識別模型

    圖3 Trans-NER模型結(jié)構(gòu)Fig.3 Structure of Trans-NER model

    圖3 展示了Trans-NER模型結(jié)構(gòu)圖.不同于其他實體識別算法或模型,Trans-NER模型接受整個文本序列作為輸入,經(jīng)過第一層算法的處理,得到每個字符基于上下文特征信息的新字向量.然后將新字向量序列輸入雙向GRU網(wǎng)絡(luò),提取每個字符的實體特征.隨后,利用全連接層將所提取到的特征映射為字符是否為實體單元的概率,最后利用CRF層輸出識別結(jié)果.下面的部分將對該模型的計算過程與設(shè)置做出描述.

    4.1 提取文本上下文特征

    借助本文所提的算法的優(yōu)勢,Trans-NER模型可以充分的提取出每個字符的上下文特征信息,同時字符級的向量表示方法使得模型不需要分詞的預(yù)處理過程.傳統(tǒng)的中文實體識別模型依賴于分詞過程,需要分詞器對輸入進(jìn)行預(yù)處理,這就導(dǎo)致分詞中出現(xiàn)的錯誤會傳播至實體識別模型,影響識別效果.本文提出的模型的輸入為整個序列,因此避免了該弊端.

    無不良反應(yīng)組患者的PT、TT、APTT及Fib分別為(20.15±0.86)s、(27.93±1.64)s、(41.19±2.08)s、(4.25±0.81)g/L;其PLT、HCT、Hb及RBC分別為(139.85±10.42)×109/L、(0.13±0.06)、(82.09±7.01)g/L、(2.62±1.38)×109/L。

    以文本序列T(t1,t2,…,tN)作為輸入,其基礎(chǔ)的向量化表示為X=(x1,x2,…,xN).利用算法處理后得到字符級向量表示 X'=(x1',x2',…,xN').作為下一層的輸入.

    4.2 提取實體特征

    模型使用雙向多層GRU網(wǎng)絡(luò)提取實體特征.GRU相比LSTM具有更簡單的結(jié)構(gòu),利于計算和訓(xùn)練;同時保持了LSTM一樣的效果,解決了傳統(tǒng)RNN網(wǎng)絡(luò)中出現(xiàn)的長期依賴問題.在每層網(wǎng)絡(luò)之間,加入Relu非線性激活函數(shù),增強(qiáng)模型的擬合效果.模型中全連接層將輸出每個字符為實體單元的概率.公式表達(dá)為:函數(shù)GRU()表示雙向GRU網(wǎng)絡(luò)的計算過程,函數(shù)Dense()表示全連接層的計算過程.P為輸出的概率分?jǐn)?shù)矩陣,其尺寸為N*K,N為序列的長度,K為實體標(biāo)簽集的大小.則Pi,j表示序列中第i個字符的標(biāo)簽為第j個標(biāo)簽的概率分?jǐn)?shù).

    4.3 相鄰標(biāo)簽依賴關(guān)系

    Trans-NER模型將對每個字符標(biāo)注出其對應(yīng)的實體識別標(biāo)簽,以輸出實體標(biāo)簽序列.由于自然語言的規(guī)律,在標(biāo)簽序列中,相鄰的標(biāo)簽之間存在一定的依賴關(guān)系,以BIOES標(biāo)注規(guī)則為例,B-LOC標(biāo)簽后不可能出現(xiàn)I-PER標(biāo)簽,而有較大可能出現(xiàn)I-LOC.因而對待標(biāo)注字符所在的序列綜合考慮以作出標(biāo)注,相比僅考慮單個字符會有更好的效果.本文使用了一個線性條件隨機(jī)場層對這種依賴關(guān)系建模,以解決序列中字符標(biāo)注結(jié)果影響相鄰字符標(biāo)注結(jié)果的問題.

    定義矩陣Z為狀態(tài)轉(zhuǎn)移矩陣,Zi,j表示已知當(dāng)前字符標(biāo)注為i時,下一個字符標(biāo)注為j的概率分?jǐn)?shù)大小.定義Y=(y1,y2,…,yN)為對應(yīng)輸入序列的一個可能輸出標(biāo)簽序列,結(jié)合其概率分?jǐn)?shù)矩陣P與狀態(tài)轉(zhuǎn)移矩陣Z進(jìn)行評分:

    其中y0和yN+1是句子起始和結(jié)束標(biāo)識符.然后進(jìn)行全局概率歸一化計算,計算出Y對應(yīng)的概率.

    其中YX'是對應(yīng)輸入序列X的所有可能標(biāo)注序列的集合.在訓(xùn)練過程中,使用反向傳播調(diào)整模型中的參數(shù),以最大化模型輸出正確標(biāo)注序列的概率.而在利用模型進(jìn)行實體識別時,選取分?jǐn)?shù)最高的標(biāo)注序列作為模型的輸出:

    5 實驗

    5.1 實驗數(shù)據(jù)與評價指標(biāo)

    本文采用的基礎(chǔ)字向量為100維字向量.采用的實驗數(shù)據(jù)為中國法律文書網(wǎng)1http://wenshu.court.gov.cn/上的大量公開法律文書,利用這些文檔構(gòu)建語言預(yù)測模型訓(xùn)練集與NER數(shù)據(jù)集.數(shù)據(jù)集的統(tǒng)計信息如表1所示.NER數(shù)據(jù)集使用IOB標(biāo)注模式(Inside,Outside,Beginning)進(jìn)行標(biāo)注,其中包括3種實體類型,人名、地名和組織名(PER,LOC,ORG),共 7 種標(biāo)簽('O','B-ORG','I-ORG','BPER','I-PER','B-LOC','I-LOC').

    表1 數(shù)據(jù)集Table 1 Dataset

    論文采用正確率P(%)、召回率R(%)及F值(%)評價模型的識別效果.計算公式如下:

    5.2 實驗設(shè)置與結(jié)果分析

    在實驗中,本文首先將Trans-NER模型與其他方法或模型進(jìn)行對比,以驗證遷移學(xué)習(xí)的有效性.隨后,通過一系列對比實驗研究不同因素對遷移學(xué)習(xí)效果的影響.

    5.2.1 實驗1.Trans-NER與其他模型的比較

    本文選取了幾種效果較好且較為流行的實體識別模型與Trans-NER模型進(jìn)行對比.這些模型包括CRF、層疊馬爾科夫模型、LSTM-CRF與GRU-CRF.實驗結(jié)果見表2.實驗結(jié)果顯示,Trans-NER模型在不同實驗指標(biāo)上均超過了其他模型.這說明在實體識別模型中應(yīng)用遷移學(xué)習(xí)技術(shù),提高了模型的識別效果.在接下來的實驗中,本文使用GRU-CRF模型作為基準(zhǔn)模型進(jìn)行對比實驗.

    表2 實驗1結(jié)果Table 2 Result of experiment 1

    5.2.2 實驗2.評估Trans-NER在不同規(guī)模數(shù)據(jù)集上的效果

    數(shù)據(jù)集是依據(jù)不同的比例從表1的NER數(shù)據(jù)集中進(jìn)行不放回隨機(jī)采樣生成.實驗結(jié)果見圖4.本實驗在不同大小的NER數(shù)據(jù)集上訓(xùn)練Trans-NER模型與基準(zhǔn)模型,并對兩種模型的表現(xiàn)進(jìn)行測試.不同大小的NER根據(jù)實驗結(jié)果,在不同的NER數(shù)據(jù)集規(guī)模上Trans-NER表現(xiàn)均優(yōu)于基準(zhǔn)模型.隨數(shù)據(jù)集的增大,不論是基準(zhǔn)模型還是遷移學(xué)習(xí)模型結(jié)果均有明顯的提高.這說明了數(shù)據(jù)集大小在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的重要性.同時,在40%至60%大小的數(shù)據(jù)集上,Trans-NER模型也明顯優(yōu)于基準(zhǔn)模型,表明在僅有少量數(shù)據(jù)的情況下,遷移學(xué)習(xí)技術(shù)也可以提升實體識別模型的表現(xiàn).

    圖4 實驗2結(jié)果對比Fig.4 Result contrast diagram of experiment 2

    圖5 實驗4結(jié)果Fig.5 Result of experiment 4

    表3 實驗3結(jié)果Table 3 Result of experiment 3

    5.2.3 實驗3.評估源模型訓(xùn)練集大小對Trans-NER影響

    該實驗分別在不同規(guī)模的語料庫上訓(xùn)練語言預(yù)測模型,并訓(xùn)練出相應(yīng)的Trans-NER模型,分別命名.例 如,100%-Trans-NER表示該模型的語言預(yù)測模型由100%的語料庫訓(xùn)練而成.實驗結(jié)果見表3.

    實驗結(jié)果表3顯示,相比基準(zhǔn)模型,60%-Trans-NER、80%-Trans-NER 和100%-Trans-NER 的 F 值(%)提升分別為 0.39、0.98、1.95.可以得出源模型訓(xùn)練集大小對遷移效果的影響:更大的源模型訓(xùn)練集可以訓(xùn)練出質(zhì)量良好的預(yù)訓(xùn)練模型,從而得到更好的遷移效果.而20%-Trans-NER與40%-Trans-NER的F值(%)相比基準(zhǔn)模型分別降低了1.71、0.84.利用過小的語料庫訓(xùn)練的源模型不僅不能提升實體識別模型的表現(xiàn),反而降低了其識別效果.

    5.2.4 實驗4.評估源模型LSTM 網(wǎng)絡(luò)節(jié)點個數(shù)對Trans-NER影響

    該實驗訓(xùn)練了4種不同LSTM網(wǎng)絡(luò)節(jié)點數(shù)量配置的語言預(yù)測模型,并分別訓(xùn)練相應(yīng)的Trans-NER模型.256-256表示對應(yīng)該Trans-NER模型的語言預(yù)測模型的LSTM網(wǎng)絡(luò)節(jié)點配置為第1層256個節(jié)點,第2層256個,以此類推.F值比較實驗結(jié)果見圖5.

    實驗結(jié)果圖5顯示,更大的源模型LSTM網(wǎng)絡(luò)節(jié)點數(shù)量帶來了更好的識別效果,512-256、768-256和1024-256相比基準(zhǔn)模型均有提升,同時1024-256的配置取得了最好的效果.然而更多的節(jié)點也會導(dǎo)致模型可能出現(xiàn)過擬合,同時訓(xùn)練成本也會增加.同時注意到在256-256的節(jié)點數(shù)量配置下,Trans-NER模型相比基準(zhǔn)模型F值(%)下降了0.71,這說明在遷移學(xué)習(xí)中,遷移學(xué)習(xí)源模型的質(zhì)量對遷移學(xué)習(xí)的效果有重要影響.

    綜上,多組實驗結(jié)果顯示本文提出的遷移學(xué)習(xí)模型Trans-NER在不同規(guī)模的數(shù)據(jù)集上均表現(xiàn)較好.同時試驗結(jié)果說明遷移學(xué)習(xí)源模型的質(zhì)量對遷移學(xué)習(xí)的效果有重要影響.由此可見,將遷移學(xué)習(xí)應(yīng)用在中文命名實體識別領(lǐng)域是可行的.

    6 結(jié)論

    本文將遷移學(xué)習(xí)應(yīng)用于自然語言處理領(lǐng)域的中文命名實體識別系統(tǒng)中,借助遷移學(xué)習(xí)的優(yōu)勢,利用了大量非結(jié)構(gòu)化文本訓(xùn)練得到的語言預(yù)測模型的學(xué)習(xí)成果,在一定程度上解決了實體識別任務(wù)在數(shù)據(jù)集不足的情況下表現(xiàn)不佳的問題.通過實驗證明該方法對于命名實體識別領(lǐng)域具有有效性,同時無需人工定義的特征,可以在相對較少的標(biāo)注語料成本上獲得效果的提升.在未來的研究工作中,本文提出的在自然語言處理領(lǐng)域的遷移學(xué)習(xí)思想可以嘗試?yán)迷谄渌匀徽Z言處理任務(wù)中,尤其是缺乏大量標(biāo)注數(shù)據(jù)的任務(wù)中,研究其對于效果的影響.

    猜你喜歡
    字符實體向量
    尋找更強(qiáng)的字符映射管理器
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    字符代表幾
    前海自貿(mào)區(qū):金融服務(wù)實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    一種USB接口字符液晶控制器設(shè)計
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
    振興實體經(jīng)濟(jì)地方如何“釘釘子”
    绥滨县| 固安县| 湘西| 漠河县| 吕梁市| 东台市| 台中县| 株洲市| 怀仁县| 从化市| 吉木萨尔县| 庆城县| 嘉兴市| 阳谷县| 新化县| 盱眙县| 台南县| 镇远县| 麻阳| 庆元县| 凤城市| 萨迦县| 徐州市| 高阳县| 莫力| 仁布县| 富蕴县| 秀山| 永善县| 芦山县| 宣恩县| 罗甸县| 夏邑县| 利津县| 新余市| 成都市| 阿克陶县| 五家渠市| 平江县| 宜兴市| 南康市|