獨(dú)凌子,肖桂榮
(福州大學(xué)空間數(shù)據(jù)挖掘與信息共享教育部重點(diǎn)實(shí)驗(yàn)室,福州大學(xué)數(shù)字中國(guó)研究院,福建 福州 350108)
命名實(shí)體識(shí)別作為自然語(yǔ)言處理的主要研究?jī)?nèi)容之一,也是GIServices領(lǐng)域知識(shí)圖譜、知識(shí)推理研究的核心問(wèn)題;其任務(wù)是找出一套有效的識(shí)別算法,抽出文本中的關(guān)鍵實(shí)體,并將其應(yīng)用于關(guān)系抽取、知識(shí)圖譜構(gòu)建中[1].早期主流命名實(shí)體識(shí)別方法包括基于規(guī)則的方法和基于統(tǒng)計(jì)的方法,基于規(guī)則的方法需要人工建立知識(shí)規(guī)則,這類(lèi)技術(shù)成本高,泛化能力差;基于統(tǒng)計(jì)的方法,如最大熵[2]、隱馬爾可夫[3]、條件隨機(jī)場(chǎng)[4],需要復(fù)雜的特征設(shè)計(jì),投入成本大.近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法取得了重大進(jìn)展,其主要思路是利用卷積神經(jīng)網(wǎng)絡(luò)[5],循環(huán)神經(jīng)網(wǎng)絡(luò)[6-7]學(xué)習(xí)文本的上下文信息,將命名實(shí)體識(shí)別轉(zhuǎn)換為序列標(biāo)注問(wèn)題,再利用CRF約束,增強(qiáng)實(shí)體上下文依賴性,提高了實(shí)體識(shí)別準(zhǔn)確率,這類(lèi)模型具有較強(qiáng)的泛化能力和魯棒性.為提高字詞向量表示能力,傳統(tǒng)深度學(xué)習(xí)模型在詞嵌入層加入靜態(tài)語(yǔ)言模型,如word2vec[a][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018、glove[8],然而這些單層神經(jīng)網(wǎng)絡(luò)訓(xùn)練出的詞向量與上下文無(wú)關(guān),只能表示單一的字符語(yǔ)義,面對(duì)一詞多義的現(xiàn)象則力不從心,為解決此問(wèn)題,陸續(xù)出現(xiàn)了Elmo[b][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018、GPT[9]、BERT[c][a]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.[b]Peters M E,Neumann M,lyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv:1802.05365,2018.[c]Devlin J,Chang M W,Lee K,et al.Bert:Pretraining of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018等動(dòng)態(tài)語(yǔ)言模型.BERT模型使用Transformer編碼器與自注意力機(jī)制(Self-Attention)真正實(shí)現(xiàn)雙向捕獲語(yǔ)義信息,能夠更好地結(jié)合文本上下文語(yǔ)義,在醫(yī)療[10]、科技[11-12]、警務(wù)[13]等領(lǐng)域都有不錯(cuò)的表現(xiàn).目前有關(guān)地理信息服務(wù)的命名實(shí)體識(shí)別[14-15]只針對(duì)于通用的地名、機(jī)構(gòu)名、人名識(shí)別.大量的地理信息服務(wù)領(lǐng)域知識(shí)廣泛存在于學(xué)術(shù)文獻(xiàn)中,這些知識(shí)包含大量專業(yè)術(shù)語(yǔ),存在實(shí)體嵌套,中文、英文、數(shù)字混合現(xiàn)象,已有的分詞工具無(wú)法識(shí)別此類(lèi)實(shí)體,同時(shí)地理信息服務(wù)領(lǐng)域缺乏必要的訓(xùn)練語(yǔ)料,加大了地理信息服務(wù)實(shí)體識(shí)別難度.
針對(duì)以上地理信息服務(wù)領(lǐng)域?qū)嶓w識(shí)別問(wèn)題,本文通過(guò)構(gòu)建地理信息服務(wù)語(yǔ)料庫(kù),提出了BERT-CNNBiLSTM-CRF模型來(lái)提升地理信息服務(wù)領(lǐng)域?qū)嶓w識(shí)別效果,該模型以傳統(tǒng)深度模型BiLSTM-CRF為基礎(chǔ),在模型詞嵌入層引入BERT預(yù)訓(xùn)練語(yǔ)言模型,用于字向量訓(xùn)練,以便提升文本語(yǔ)義表示能力,在BiLSTMCRF之前加入CNN層能夠更好地訓(xùn)練提取文本局部特征.
1.1 文獻(xiàn)實(shí)體分類(lèi)本文以CNKI中國(guó)知網(wǎng)文獻(xiàn)數(shù)據(jù)庫(kù)中2010—2020年之間以“地理信息服務(wù)”為主題的文獻(xiàn)作為實(shí)驗(yàn)數(shù)據(jù),通過(guò)分析已獲取文獻(xiàn)結(jié)構(gòu),以地理信息服務(wù)構(gòu)建過(guò)程為主線,結(jié)合崔鐵軍在《地理信息服務(wù)導(dǎo)論》[16]中對(duì)地理信息服務(wù)研究?jī)?nèi)容的劃分構(gòu)建適用于本文研究數(shù)據(jù)的知識(shí)體系.盡可能涵蓋地理信息服務(wù)文獻(xiàn)研究?jī)?nèi)容中的重要知識(shí)點(diǎn),研究認(rèn)為這些文獻(xiàn)主題以地理信息服務(wù)應(yīng)用研究與技術(shù)研究為主,圍繞如何構(gòu)建與空間位置相關(guān)的地理信息服務(wù)展開(kāi),依照地理信息服務(wù)構(gòu)建流程劃分知識(shí)體系更能涵蓋本文數(shù)據(jù)重要信息,該分類(lèi)體系遵循文獻(xiàn)思路結(jié)構(gòu),保留崔鐵軍等人對(duì)技術(shù)體系、服務(wù)類(lèi)型以及應(yīng)用領(lǐng)域的劃分方式,在此基礎(chǔ)上擴(kuò)展出文獻(xiàn)研究背景、研究數(shù)據(jù)、服務(wù)標(biāo)準(zhǔn)規(guī)范等重要信息,同時(shí)地理信息服務(wù)文獻(xiàn)中大量出現(xiàn)基礎(chǔ)設(shè)施、服務(wù)功能相關(guān)詞匯,因此將其作為大類(lèi)納入分類(lèi)體系.參考《GB/T 25529—2010地理信息分類(lèi)與編碼規(guī)則》分類(lèi)原則按照線分類(lèi)法,將地理信息服務(wù)文獻(xiàn)實(shí)體劃分為九個(gè)大類(lèi)要素:服務(wù)、數(shù)據(jù)、基礎(chǔ)設(shè)施、服務(wù)類(lèi)型、服務(wù)功能、政策法規(guī)、技術(shù)、行業(yè)標(biāo)準(zhǔn)、應(yīng)用領(lǐng)域.圖1為本文對(duì)地理信息服務(wù)文獻(xiàn)研究的知識(shí)體系劃分示意圖.
圖1 本文地理信息服務(wù)知識(shí)體系
數(shù)據(jù):地理信息數(shù)據(jù)是地理信息服務(wù)面向用戶最終呈現(xiàn)的內(nèi)容或提供的產(chǎn)品,地理信息服務(wù)的構(gòu)建的數(shù)據(jù)基礎(chǔ).本文參考《GBT13923—2006基礎(chǔ)地理信息要素分類(lèi)與代碼》將這些地理數(shù)據(jù)概括為水系、居民地及設(shè)施、交通、管線、境界與政區(qū)、地貌、植被與土質(zhì)、地名與空間定位基礎(chǔ)八種數(shù)據(jù)類(lèi)型.
地理信息服務(wù)類(lèi)型:分類(lèi)為地圖服務(wù)、位置服務(wù)、功能服務(wù),地圖服務(wù)即為用戶提供包含基礎(chǔ)地理要素的可視化電子地圖.位置服務(wù)主要以衛(wèi)星定位獲取位置信息,功能服務(wù)包括數(shù)據(jù)分析、空間分析、路徑規(guī)劃等服務(wù)功能.
技術(shù)體系:為地理信息服務(wù)構(gòu)建的方法基礎(chǔ),地理信息服務(wù)為多學(xué)科交叉領(lǐng)域,實(shí)現(xiàn)技術(shù)主要以計(jì)算機(jī)技術(shù)、地理信息技術(shù)為主.計(jì)算機(jī)技術(shù)用以實(shí)現(xiàn)服務(wù)框架構(gòu)建,地理信息技術(shù)用以獲取數(shù)據(jù)、數(shù)據(jù)處理、分析以及數(shù)據(jù)可視化.
服務(wù)功能:多以系統(tǒng)或API形式為用戶提供地理信息系統(tǒng)功能,如地圖瀏覽標(biāo)注、空間位置查詢、空間分析、數(shù)據(jù)交換、二次開(kāi)發(fā)等等.
政策背景:地理信息服務(wù)研究驅(qū)動(dòng)力多以國(guó)家政策主導(dǎo),同時(shí)地理數(shù)據(jù)的嚴(yán)密性與保密性都需要明確的國(guó)家政策作為規(guī)范約束.
基礎(chǔ)設(shè)施:是地理信息服務(wù)構(gòu)建的硬件基礎(chǔ),包括構(gòu)建服務(wù)所需的計(jì)算機(jī)硬件環(huán)境以及獲取數(shù)據(jù)以及數(shù)據(jù)可視化的設(shè)備(如衛(wèi)星、車(chē)載導(dǎo)航儀、各類(lèi)無(wú)人機(jī)、手機(jī)).
應(yīng)用領(lǐng)域:地理信息服務(wù)應(yīng)用領(lǐng)域包括政府企業(yè)、公眾生活的方方面面,涉及空間活動(dòng)的行業(yè)皆能成為其服務(wù)對(duì)象,主要涉及交通、礦產(chǎn)、生態(tài)環(huán)境、旅游、物流、城市規(guī)劃等行業(yè).
服務(wù)標(biāo)準(zhǔn):是地理信息服務(wù)構(gòu)建必須遵循的標(biāo)準(zhǔn),遵循統(tǒng)一的服務(wù)標(biāo)準(zhǔn)能夠解決數(shù)據(jù)交換、信息孤島問(wèn)題.具體涉及數(shù)據(jù)規(guī)范、服務(wù)規(guī)范、開(kāi)發(fā)技術(shù)規(guī)范,數(shù)據(jù)規(guī)范規(guī)定地理信息的分類(lèi)編碼、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)處理與維護(hù)更新流程;服務(wù)規(guī)范如OGC服務(wù)接口規(guī)范、服務(wù)分類(lèi)規(guī)范、服務(wù)元數(shù)據(jù)內(nèi)容、服務(wù)質(zhì)量管理等方面;開(kāi)發(fā)技術(shù)規(guī)范包括系統(tǒng)或接口的數(shù)據(jù)交換、界面美觀性、安全性等方面的技術(shù)規(guī)范.
地理信息服務(wù):圍繞上述八類(lèi)實(shí)體構(gòu)成了地理信息服務(wù)研究?jī)?nèi)容完整體系,實(shí)際上地理信息服務(wù)還包括許多元數(shù)據(jù)信息,如服務(wù)url、目的描述、發(fā)布單位、發(fā)布時(shí)間等,但由于本文研究數(shù)據(jù)為GIServices文獻(xiàn)文本,并不涉及上述信息,因此不列入研究之列.
由于文獻(xiàn)研究?jī)H以理論構(gòu)建進(jìn)行討論,未涉及具體實(shí)現(xiàn),本文僅針對(duì)其理論上的技術(shù)類(lèi)的名詞進(jìn)行提取,而未涉及具體技術(shù)實(shí)現(xiàn)內(nèi)容,如矢量數(shù)據(jù)存儲(chǔ)的具體屬性.
1.2 語(yǔ)料庫(kù)構(gòu)建利用格式轉(zhuǎn)換工具將文獻(xiàn)格式統(tǒng)一由CAJ格式轉(zhuǎn)為T(mén)XT格式,編碼統(tǒng)一設(shè)為UTF-8.去除原始數(shù)據(jù)中多余空行、空格識(shí)別錯(cuò)誤的標(biāo)點(diǎn)字詞.按照1-294序號(hào)依次命名文本,形成源數(shù)據(jù)文件source_data.采用BIO三段標(biāo)記法,對(duì)每個(gè)實(shí)體的第一個(gè)字標(biāo)記為“B-(實(shí)體類(lèi)別)”,之后統(tǒng)一標(biāo)注為“I-(實(shí)體類(lèi)別)”,其余未出現(xiàn)在字典的實(shí)體均標(biāo)注為O.依照表1設(shè)計(jì)的標(biāo)注規(guī)范標(biāo)注數(shù)據(jù)得到標(biāo)注后的文本,將其按照6:2:2的比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集.由于文獻(xiàn)大多以CAJ、PDF格式文件存儲(chǔ),經(jīng)過(guò)格式轉(zhuǎn)換之后存在內(nèi)容缺失,導(dǎo)致句子邊界模糊,造成少量單條語(yǔ)料長(zhǎng)度過(guò)大,部分單個(gè)詞匯之后也存在句號(hào),因此以句號(hào)作為句子分割標(biāo)準(zhǔn)做法不妥,若以固定長(zhǎng)度切割會(huì)導(dǎo)致一個(gè)實(shí)體可能被分為兩個(gè)部分,采用滑動(dòng)窗口切割句子,設(shè)置固定長(zhǎng)度的窗口值WINDOW_SIZE=75,窗口大小采用句子長(zhǎng)度的平均值,左右各延伸10個(gè)字符寬度作為填充,可以保證每條句子長(zhǎng)度相等,且每條語(yǔ)料留有一定的上下文內(nèi)容.經(jīng)過(guò)語(yǔ)料切分,得到訓(xùn)練語(yǔ)料8 758條,驗(yàn)證語(yǔ)料2 109條,測(cè)試語(yǔ)料2 541條.
表1 地理信息服務(wù)領(lǐng)域?qū)嶓w類(lèi)型
2.1 融合BERT模型的實(shí)體識(shí)別方法本文模型在BiLSTM-CRF模型基礎(chǔ)上進(jìn)行改進(jìn),詞嵌入層采用能夠動(dòng)態(tài)表示文本語(yǔ)義特征的BERT模型,相對(duì)于以往采用Word2vec、GLOVE等靜態(tài)模型的方法,該方法能夠表示更豐富的語(yǔ)義信息,解決句子多義性問(wèn)題;為了降低句子語(yǔ)義稀疏性對(duì)模型識(shí)別的干擾,在BERT模型之后加入一維卷積層,提取句子特征.模型分為四層,第一層加入BERT預(yù)訓(xùn)練詞向量模型,提高字向量語(yǔ)義表征能力,第二層卷積層,用于提取文本字符級(jí)特征,第三層Bi LSTM模型,能夠?qū)W習(xí)長(zhǎng)文本上下文信息,有效解決傳統(tǒng)RNN模型梯度爆炸或者梯度消失的問(wèn)題,之后采用CRF層計(jì)算實(shí)體所屬類(lèi)別概率,輸出分類(lèi)結(jié)果.模型結(jié)構(gòu)如圖2所示.
圖2 BERT-1DCNN-BiLSTM-CRF模型
2.2 BERT語(yǔ)言模型中文存在字與詞的區(qū)分,中文文本表示方法主要有三種,分別是基于字的向量表示、基于詞的向量表示以及字詞拼接的表示方法,結(jié)合以下因素,本文最終采用基于字向量的方法:(1)本文模型應(yīng)用對(duì)象為科學(xué)文獻(xiàn),這類(lèi)文本專業(yè)術(shù)語(yǔ)較多,多為嵌套實(shí)體,通用領(lǐng)域的分詞結(jié)果并不適用于該領(lǐng)域同時(shí)基于詞級(jí)別方法會(huì)對(duì)后續(xù)模型訓(xùn)練產(chǎn)生干擾;(2)文獻(xiàn)[17-18]通過(guò)字級(jí)別和詞級(jí)別統(tǒng)計(jì)方法對(duì)比,表明基于字符的命名實(shí)體識(shí)別方法一般具有更好的表現(xiàn).
現(xiàn)有可利用的地理信息服務(wù)文獻(xiàn)語(yǔ)料較少,難以通過(guò)現(xiàn)有數(shù)據(jù)訓(xùn)練出具有豐富語(yǔ)義的字向量,而字向量訓(xùn)練很大程度影響模型性能,因此在向量表示中引入預(yù)訓(xùn)練字向量.預(yù)訓(xùn)練字向量已在許多任務(wù)中表現(xiàn)出色[19-20],如詞袋模型(Continuous Bag-of-Words Model,CBOW)、Skip-gram(Continuous Skip-gram Model,Skip-gram),但在地理信息服務(wù)文獻(xiàn)中一詞多義現(xiàn)象廣泛存在,單一的字嵌入(Token Embedding)無(wú)法解決一詞多義問(wèn)題,同時(shí)靜態(tài)語(yǔ)言模型采用從左到右單向的編碼方式,無(wú)法獲取更多上下文信息.動(dòng)態(tài)語(yǔ)言模型的出現(xiàn)解決了中文多義性問(wèn)題,實(shí)現(xiàn)真正意義的深度雙向編碼.基于以上分析本層采用BERT模型解決一字多義問(wèn)題,豐富句子語(yǔ)義信息.
該層首先在語(yǔ)料中增加具有特殊作用的標(biāo)識(shí)符:在句子首位加入[CLS]標(biāo)志,在兩個(gè)句子之間加入[SEP]用于分隔兩個(gè)句子,[MASK]標(biāo)志遮蓋句子中部分字符.以one-hot方式編碼處理后的語(yǔ)料序列[w1,w2,w3,…,w n]得到高維、稀疏的字向量矩陣(Token Embedding)[e1,e2,e3,…,e n],每個(gè)字符的位置向量(Position Embedding)[p1,p2,p3,…,p n]及句子向量(Segment Embedding)[s1,s2,s3,…,s n];將每個(gè)字符對(duì)應(yīng)的三個(gè)Embedding疊加,形成BERT模型的輸入向量[E1,E2,E3,…,E n].結(jié)構(gòu)如圖3所示.
以往的標(biāo)準(zhǔn)語(yǔ)言模型均為從左到右的單向模型或者雙向淺層拼接模型,只能獲取文本單向信息,為訓(xùn)練深度雙向語(yǔ)言模型,BERT模型采用MLM的方法隨機(jī)遮蔽輸入的字符(以下稱token),預(yù)測(cè)被遮蔽的token,默認(rèn)遮蔽15%的字符.
其中80%被遮擋詞用符號(hào)masked token代替,10%用隨機(jī)詞替換,剩余10%保持不變.BERT模型結(jié)構(gòu)如圖3所示,其中,E1,E2,…,E N表示模型輸入向量,T1,T2,T3,…,TN為模型輸出向量,Tr m代表模型采用雙向Transformer作為編碼器,BERT模型結(jié)構(gòu)如圖4所示.
圖3 BERT預(yù)訓(xùn)練語(yǔ)言模型詞向量構(gòu)成
圖4 BERT模型
2.3 字間特征卷積模型Kim Y[d][d]Kim Y.Convolutional neural networks for sentence classification[J].arxiv preprint arXiv:1408.5882,2014.于2014年提出TextCNN概念,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本分類(lèi)中.其結(jié)構(gòu)包括:向量表示層、卷積層、池化層、全連接層.不同于文本分類(lèi)任務(wù),常規(guī)的CNN模型直接應(yīng)用于命名實(shí)體任務(wù)會(huì)導(dǎo)致特征損失,同時(shí)池化操作會(huì)造成大量信息丟失[21],因此在考慮字向量維度的完整性同時(shí)將卷積層實(shí)現(xiàn)局部特征提取的優(yōu)勢(shì)應(yīng)用于向量輸入與BiLSTM-CRF模型之間,本層接收BERT模型訓(xùn)練后的字向量[T1,T2,T3,…,T n]作為輸入向量,通過(guò)固定窗口的一維卷積層與填充設(shè)置,在不改變字向量維度前提下將字向量特征與上下文信息深度結(jié)合,更好地結(jié)合句子語(yǔ)境.經(jīng)過(guò)卷積計(jì)算獲得特征向量[C1,C2,C3,…,C n],結(jié)構(gòu)圖5所示:
圖5 字間卷積模型
2.4 BiLSTM-CRF模型該模型接收經(jīng)過(guò)卷積層計(jì)算后的字向量[C1,C2,C3,…,C n],將字向量[C1,C2,C3,…,C n]輸入到BiLSTM完成上下文信息提取,最后結(jié)合條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)完成實(shí)體標(biāo)注.
分析地理信息服務(wù)文獻(xiàn)實(shí)體發(fā)現(xiàn),其命名實(shí)體長(zhǎng)度較長(zhǎng),即使同一實(shí)體在不同語(yǔ)境表示意義也不同;實(shí)體對(duì)上下文依賴性強(qiáng),而長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)能夠在當(dāng)前時(shí)刻保留上一時(shí)刻信息,同時(shí)解決了循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失或梯度爆炸的問(wèn)題,使模型能夠獲取更遠(yuǎn)距離的信息.
命名實(shí)體識(shí)別方法通常以歸一化方法處理BiLSTM輸出層計(jì)算每個(gè)時(shí)刻所屬概率最高的類(lèi)別.這類(lèi)方法將標(biāo)簽看作相互獨(dú)立個(gè)體,不考慮標(biāo)簽之間依賴性,導(dǎo)致解碼出現(xiàn)非法標(biāo)簽如實(shí)體頭尾顛倒的識(shí)別結(jié)果.CRF模型為預(yù)測(cè)標(biāo)簽添加約束以保證預(yù)測(cè)標(biāo)簽的合法性.通過(guò)公式(1)計(jì)算出BiLSTM層輸出Y=[y1,y2,…,y n]的標(biāo)記序列T=[t1,t2,…,t n]的得分[18].
其中A為轉(zhuǎn)換矩陣,Pi,yi表示該字符第yi個(gè)標(biāo)簽得分.
利用公式(2)中Softmax函數(shù)得到歸一化后的概率分布,選取最大概率集合.得到CRF層最終標(biāo)注序列.
3.1 實(shí)驗(yàn)參數(shù)設(shè)置基于BERT-1DCNN-BiLSTM-CRF的實(shí)驗(yàn),BERT層采用BERT-Base Mutilingual Cased,是BERT模型中多語(yǔ)言版本,層數(shù)12,768個(gè)隱藏層,自注意機(jī)制采用12頭,110M參數(shù).CNN層卷積核大小為3×3,輸出張量大小為32,激活函數(shù)采用relu函數(shù);LSTM層隱藏單元設(shè)為128,優(yōu)化器采用Adam.雙向LSTM輸出神經(jīng)元數(shù)128;全連接層,輸出神經(jīng)元數(shù)64,激活函數(shù)采用tanh;CRF層輸出向量大小為20,即分為20類(lèi),每類(lèi)為20×1的one-hot向量.
經(jīng)過(guò)調(diào)整超參數(shù),模型在迭代次數(shù)達(dá)到100,訓(xùn)練批次大小為64,學(xué)習(xí)率為0.000 5,丟棄率0.4能達(dá)到最好效果.
3.2 結(jié)果分析實(shí)驗(yàn)采用通用評(píng)估指標(biāo)系統(tǒng)來(lái)評(píng)價(jià)本文模型的識(shí)別效果,此評(píng)估體系包括精確度、召回率、F1值.精確度(Precision)用于衡量所有樣本中預(yù)測(cè)正確的樣本正確率、召回率(Recall)用于衡量實(shí)際為正樣本中被正確預(yù)測(cè)的樣本概率、F1值則綜合精確度和召回率兩項(xiàng)指標(biāo),F(xiàn)1值越大模型識(shí)別效果越好,具體指標(biāo)計(jì)算公式如下所示:
其中,TP表示識(shí)別正確的實(shí)體個(gè)數(shù),F(xiàn)P表示識(shí)別錯(cuò)誤的實(shí)體個(gè)數(shù),F(xiàn)N表示沒(méi)有被識(shí)別出的實(shí)體個(gè)數(shù).
實(shí)驗(yàn)1
目的:研究BERT模型對(duì)地理信息服務(wù)文獻(xiàn)實(shí)體識(shí)別的影響,分別進(jìn)行三組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)在CNN-BiSLTM-CRF模型詞嵌入層分別采用隨機(jī)初始化字向量的方法、Word2Vec、BERT,為控制參數(shù)對(duì)實(shí)驗(yàn)的影響,每組實(shí)驗(yàn)超參數(shù)設(shè)置相同.從表2看出BERT語(yǔ)言模型的表現(xiàn)效果最好,對(duì)比Word2vecF1值提升3.3%,對(duì)比隨機(jī)初始化向量(BareEmbedding),F(xiàn)1值提升了8.1%,說(shuō)明BERT模型對(duì)文本的語(yǔ)義表征能力更強(qiáng).
表2 不同嵌入層實(shí)體識(shí)別結(jié)果
為了更好地分析詞嵌入層對(duì)模型的影響,表3列出九類(lèi)實(shí)體的識(shí)別結(jié)果.其中BERT模型明顯提高了服務(wù)名稱的識(shí)別效果,說(shuō)明加入預(yù)訓(xùn)練語(yǔ)言模型可以大大提高模型長(zhǎng)實(shí)體類(lèi)型識(shí)別準(zhǔn)確率.在標(biāo)準(zhǔn)識(shí)別上BERT模型F1值相比Bare提高了7.4%,由于預(yù)訓(xùn)練的Word2vec模型完全采用維基百科中文語(yǔ)料訓(xùn)練,因此Word2Vec模型無(wú)法有效表示英文類(lèi)實(shí)體.
表3 不同詞嵌入層各類(lèi)實(shí)體識(shí)別結(jié)果
實(shí)驗(yàn)2
目的:研究CNN層的加入對(duì)模型識(shí)別效果的影響.在加入BERT模型的基礎(chǔ)上對(duì)CNN-BiLSTM-CRF、BiLSTM-CRF模型進(jìn)行對(duì)比實(shí)驗(yàn),從表4可以看出在加入CNN層之后模型效果明顯提高,精確度相比BiLSTM-CRF模型提高了1.7%,召回率提高4.74%,F(xiàn)1值提高3.39%,說(shuō)明CNN能夠有效捕捉字符形態(tài)特征.
表4 加入CNN前后模型實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)3
目的:對(duì)比本文方法與傳統(tǒng)命名實(shí)體識(shí)別方法的識(shí)別效果.選取CNN-LSTM與BiGRU-CRF模型作為對(duì)比模型.CNN-LSTM與BiGRU-CRF模型采用隨機(jī)初始化字向量的方法.從表5的結(jié)果來(lái)看,本文所用方法效果最好.而CNN-LSTM的表現(xiàn)欠佳,其F1僅有0.432 4,由于雙向LSTM單元可以學(xué)習(xí)到文本上下文信息,而單向LSTM單元只依賴于當(dāng)前時(shí)刻前向的文本信息,因此雙向LSTM單元在長(zhǎng)文本識(shí)別中的表現(xiàn)相較于LSTM更好.
表5 不同模型實(shí)驗(yàn)結(jié)果
以上三組實(shí)驗(yàn)表明BERT模型的加入可以有效提高文本語(yǔ)義表征能力,CNN模型能夠獲取文本局部特征,基于BiLSTM-CRF改進(jìn)后的方法能夠有效提高BiLSTM-CRF實(shí)體識(shí)別精度,對(duì)比傳統(tǒng)深度學(xué)習(xí)模型,本文構(gòu)建的模型能夠有效提高實(shí)體識(shí)別能力,模型總體識(shí)別精確率達(dá)到0.80以上,具有較好的魯棒性.
本文針對(duì)GIServices文獻(xiàn)實(shí)體種類(lèi)多樣,表述方式多樣,存在嵌套實(shí)體、中英文混合等難點(diǎn),提出一種面向地理信息服務(wù)領(lǐng)域的實(shí)體識(shí)別方法,該方法解決了地理信息服務(wù)領(lǐng)域?qū)嶓w識(shí)別語(yǔ)義稀疏、實(shí)體復(fù)雜等問(wèn)題,提升了中文長(zhǎng)實(shí)體識(shí)別精度,實(shí)現(xiàn)了地理信息服務(wù)文獻(xiàn)自動(dòng)化實(shí)體識(shí)別.通過(guò)選取隨機(jī)初始化向量的方法BareEmbedding、Word2VecEmbedding作為對(duì)照組,測(cè)試BERT語(yǔ)言模型對(duì)傳統(tǒng)深度學(xué)習(xí)模型識(shí)別效果的影響.實(shí)驗(yàn)結(jié)果表明:引入BERT模型能夠充分發(fā)揮BERT模型在語(yǔ)義特征表示上的優(yōu)勢(shì),顯著提升了實(shí)體識(shí)別的準(zhǔn)確率;通過(guò)在BiLSTM-CRF模型加入CNN層,有效提高了字符特征的捕捉能力和識(shí)別能力;本文構(gòu)建的BERT-1DCNN-BiLSTM-CRF模型識(shí)別效果最優(yōu),F(xiàn)1值達(dá)到0.824,能夠較好地實(shí)現(xiàn)GIServices領(lǐng)域?qū)嶓w識(shí)別.下一步工作將此模型標(biāo)注后的實(shí)體應(yīng)用到實(shí)體關(guān)系抽取,為構(gòu)建GIServices領(lǐng)域知識(shí)圖譜提供有效方法.