• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于聯(lián)合模型的藏文實體關(guān)系抽取方法研究

    2019-01-22 03:32:08夏天賜
    中文信息學(xué)報 2018年12期
    關(guān)鍵詞:藏文集上實體

    夏天賜,孫 媛

    (1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 中央民族大學(xué) 國家語言資源監(jiān)測與研究中心 少數(shù)民族語言分中心,北京 100081)

    0 引言

    實體關(guān)系抽取任務(wù)作為信息抽取領(lǐng)域的重要研究課題,其主要目的是抽取句子中已標(biāo)記實體對之間的語義關(guān)系,即在實體識別的基礎(chǔ)上確定無結(jié)構(gòu)文本中實體對間的關(guān)系類別,并形成結(jié)構(gòu)化的數(shù)據(jù)以便存取。例如,是的妻子。實體關(guān)系抽取能自動識別實體“葉莉”和“姚明”是夫妻關(guān)系。

    傳統(tǒng)的實體關(guān)系抽取任務(wù)通常采用“流水線”方式。首先需要提取句子中相關(guān)實體,然后再識別實體之間的關(guān)系。這種方式的好處是,處理起來非常方便,且組合很靈活,但它忽略了兩個子任務(wù)之間的關(guān)聯(lián),且會產(chǎn)生錯誤的疊加,比如,實體識別任務(wù)產(chǎn)生的錯誤會傳遞給關(guān)系識別的任務(wù),導(dǎo)致整個模型錯誤率上升。

    不同于上述的“流水線”方式,聯(lián)合模型進(jìn)行實體關(guān)系抽取時,能夠從非結(jié)構(gòu)或者半結(jié)構(gòu)化的文本中提取出實體以及能夠識別語句中的語義關(guān)系。通過這種方式,我們能根據(jù)語義信息,從預(yù)定義的關(guān)系表中匹配語句中出現(xiàn)的實體之間的關(guān)系。提取實體和判別實體之間關(guān)系同時進(jìn)行,大大降低了錯誤率的疊加,并且產(chǎn)生結(jié)果更加快速和高效。

    聯(lián)合模型的框架是將實體識別和關(guān)系識別任務(wù)用簡單模型聯(lián)合起來。有效地聚集了實體和關(guān)系的信息,并且在這個任務(wù)中得出一個比較好的結(jié)果。然而,目前存在的聯(lián)合模型是基于特征的結(jié)構(gòu)化系統(tǒng),這個系統(tǒng)需要極其復(fù)雜的特征以及依靠很多的自然語言處理工具,在這種情況下,難免產(chǎn)生很多錯誤。為了降低人工處理的錯誤,目前業(yè)界普遍采用端到端的神經(jīng)網(wǎng)絡(luò)模型,這種模型已經(jīng)被運(yùn)用到各種序列標(biāo)注任務(wù)中,比如命名實體識別(NER)或者組合范疇語法(CCG)。而常用的神經(jīng)網(wǎng)絡(luò)模型是利用BiLSTM結(jié)構(gòu)來獲取句子表達(dá)或者句子信息來完成序列任務(wù)。

    在本文中,我們將集中介紹聯(lián)合模型抽取的任務(wù),從一個生文本中抽取出包含兩個(或以上)實體以及它們之間的關(guān)系,進(jìn)而構(gòu)成一個三元組(E1,E2,RE)。因此,我們可以直接構(gòu)建一個聯(lián)合模型提取實體以及實體關(guān)系,基于這種想法,我們將實體關(guān)系轉(zhuǎn)化為一種序列標(biāo)注問題,將句子切分成詞或者字,并且給每一個詞或字添加標(biāo)簽組(BIESO)。同時,為了提高提取信息的準(zhǔn)確率,我們也給每個詞或者字進(jìn)行詞性標(biāo)注。通過這種方法,我們僅通過神經(jīng)網(wǎng)絡(luò)就能構(gòu)建相應(yīng)的模型,而不需要進(jìn)行復(fù)雜的特征工程。

    1 相關(guān)工作

    實體關(guān)系抽取任務(wù)是構(gòu)建知識庫的一個重要環(huán)節(jié),目前處理這個任務(wù)有兩種方式,“流水線”方式和聯(lián)合學(xué)習(xí)方式。

    “流水線”方式處理這個任務(wù)分為兩個步驟: 命名實體識別和關(guān)系分類。

    典型的命名實體識別模型是基于統(tǒng)計模型,比如Passos[1]等提出從與實體相關(guān)的詞典中學(xué)習(xí)一種新的詞向量表達(dá)形式,并且利用新的神經(jīng)詞向量作為單詞語義表達(dá)。該方法在CoNLL03數(shù)據(jù)集上F1值達(dá)到90.09%。Luo[2]等提出一種新的實體關(guān)系抽取模型——JERL(Joint Entity Recognition and Linking),該模型主要將實體識別和知識庫中的實體進(jìn)行聯(lián)合來捕獲實體和知識庫中的依存關(guān)系,利用CRF(Conditional Random Field)模型進(jìn)行實體識別,然后利用知識庫中已有的實體進(jìn)行類別判斷。該模型在CoNLL03數(shù)據(jù)集上F1值達(dá)到91.2%。目前,很多神經(jīng)網(wǎng)絡(luò)模型也運(yùn)用到命名實體識別任務(wù)中,比如Chiu[3]等利用BiLSTM+CNN聯(lián)合模型進(jìn)行字級和詞級的特征提取。該模型首先從CNN模型預(yù)處理的字級特征向量中提取出新的特征向量,然后將提取出的新的特征向量輸入到BiLSTM中,進(jìn)行詞級的特征提取,最后輸出該實體的類別概率值。該模型在CoNLL03數(shù)據(jù)集上F1值達(dá)到90.77%。Huang[4]等利用BiLSTM+CRF混合模型將命名實體識別任務(wù)轉(zhuǎn)變?yōu)樾蛄袠?biāo)注問題。該模型將分詞后的詞向量直接輸入到BiLSTM中,提取出詞級特征,在最后判斷實體的類別時,利用CRF層將類別概率轉(zhuǎn)變成序列概率值輸出。該模型在CoNLL2000數(shù)據(jù)集上F1值為94.40%。Lample[5]等提出利用LSTM+CRF模型提取詞級特征同時基于過渡的方式構(gòu)造標(biāo)簽片段。該方法的實驗數(shù)據(jù)主要來源于有監(jiān)督的字級語料庫以及無監(jiān)督的非標(biāo)記的語料庫。首先,對輸出的句子利用依存句法的過渡方式進(jìn)行處理,構(gòu)造出有標(biāo)記的單詞,然后將預(yù)處理的單詞輸入到LSTM中,最后通過CRF輸出序列概率值。該方法在CoNLL2003(英文)上F1值達(dá)到91.20%,在CoNLL2003(德語)上F1值達(dá)到78.76%,在CoNLL2002(西班牙語)上F1值達(dá)到85.75%。

    對于關(guān)系分類任務(wù),主要有兩種方式,一是基于特征提取的人工處理方式,Rink[6]等采用SVM分類器進(jìn)行語義關(guān)系類別識別,然后利用語義關(guān)系類別進(jìn)行關(guān)系分類。該文采用上下文、語義角色索引以及可能存在名詞性關(guān)系等一系列特征進(jìn)行分類。該模型在SemEval-2010 Task 8數(shù)據(jù)集上F1值達(dá)到82.19%,Precision達(dá)到77.92%。Kambhatla[7]等利用最大熵模型組合不同詞匯、句法和語義等特征進(jìn)行關(guān)系分類。該方法在添加了多種特征,包括實體類型、依存關(guān)系以及句法樹等,F(xiàn)1值達(dá)到了52.50%,Precision達(dá)到了63.50%。另一種是基于神經(jīng)網(wǎng)絡(luò)的處理方式,Xu[8]等通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)合最短依存路徑進(jìn)行語義關(guān)系分類。首先將語句輸入到CNN網(wǎng)絡(luò)中,提取語句中的關(guān)系特征,最后通過依存特征進(jìn)行類別判斷。該方法在SemEval-2010 Task 8數(shù)據(jù)集上F1值達(dá)到了85.60%。Zheng[9]等提出基于CNN的模型和基于LSTM的模型,為了學(xué)習(xí)關(guān)系模式信息和給定實體的語法特征。首先,利用CNN進(jìn)行關(guān)系模式的提取,然后利用LSTM進(jìn)行實體語義的特征提取,最后將兩者結(jié)合進(jìn)行語義關(guān)系分類。該方法在ACE05數(shù)據(jù)集上F1值達(dá)到了53.60%,Precision到了60.00%。

    聯(lián)合學(xué)習(xí)方式處理實體關(guān)系任務(wù)通常只需要一個模型。大部分聯(lián)合模型是基于特征的結(jié)構(gòu),比如Ren[10]等提出一種基于Distant Supervision和Weakly Supervision對文本中的實體和關(guān)系聯(lián)合抽取的框架。該框架主要分為三個部分: ①候選集的生成;②聯(lián)合訓(xùn)練實體和向量空間;③實體類型和關(guān)系類型的推理預(yù)測。該方法在三個公開集上做測試: 在NYT數(shù)據(jù)集上F1值為46.30%,Precision為42.30%;在Wiki-KBP數(shù)據(jù)集上F1值為36.90%,Precision為34.80%;在BioInfer數(shù)據(jù)集上F1值為47.40%,Precision為53.60%。Yang[11]等利用聯(lián)合推理模型進(jìn)行觀點(diǎn)類實體和觀點(diǎn)類關(guān)系的抽取。在觀點(diǎn)類識別任務(wù)中,采用CRF模型將識別任務(wù)轉(zhuǎn)變成序列標(biāo)注任務(wù)。在觀點(diǎn)類關(guān)系抽取任務(wù)中,利用觀點(diǎn)—參數(shù)模型識別觀點(diǎn)類關(guān)系。該模型在MPQA數(shù)據(jù)集上F1值為57.04%。Singh[12]等利用聯(lián)合推理進(jìn)行三個任務(wù): 實體標(biāo)注、關(guān)系抽取以及共指。該模型利用聯(lián)合圖模式將三者結(jié)合在一起,相互作用,通過學(xué)習(xí)和推理的方式優(yōu)化聯(lián)合推理模型參數(shù)。該模型在ACE2004數(shù)據(jù)集上針對實體抽取任務(wù)的F1值為55.39%,針對實體標(biāo)注任務(wù)達(dá)到了82.9%的Precision。Miwa和Bansal[13]提出一種聯(lián)合實體檢測參數(shù)共享的關(guān)系抽取模型,模型中有兩個雙向的LSTM-RNN,一個是基于Word Sequence(bidirectional sequential LSTM-RNNs),主要用于實體檢測;另一個是基于Tree Structures(bidirectional tree-structures LSTM-RNNs),主要用于關(guān)系抽取。后者堆在前者上,前者的輸出和隱含層作為后者的輸入的一部分。Zheng[14]等利用聯(lián)合模型將實體關(guān)系抽取任務(wù)轉(zhuǎn)變成序列標(biāo)注任務(wù),主要是采用End-to-End的模型直接抽取實體和關(guān)系。

    藏文信息抽取處理技術(shù)起步較晚,通常也是采用“流水線”方式進(jìn)行實體關(guān)系抽取,即藏文命名實體識別和藏文關(guān)系分類。

    針對藏文命名實體識別,金明[15]等首次提出基于規(guī)則和HMM模型藏文命名實體的研究方案。羅智勇[16]等通過研究藏族人名漢譯的方法,提出了利用藏族人名的字級特征以及命名規(guī)則,結(jié)合詞典采用字頻統(tǒng)計和頻率對比策略,以及人名前后一個詞為單位共現(xiàn)概率作為可信度度的藏文人名識別模型,需要先給出預(yù)先定義的域值。在新華網(wǎng)藏族頻道文本和《人民日報》(2000~2001)上實驗的召回率分別為85.54%和81.73%。華卻才讓[17]等提出基于音節(jié)的藏文命名實體識別方案,采用基于音節(jié)訓(xùn)練模型,準(zhǔn)確識別藏文人名、地名和機(jī)構(gòu)名,識別的F1值達(dá)到86.03%。劉飛飛[18]等提出基于層次特征的藏文人名識別方法,將人名的內(nèi)部和上下文特征作為CRF特征,然后將人名并列關(guān)系特征設(shè)計為規(guī)則,進(jìn)一步提高識別效果,識別的F1值達(dá)到了95.02%。

    針對藏文關(guān)系分類,龍從軍[19]等通過研究藏語名次語義關(guān)系,提出組織名次的基本單位是義類,聯(lián)系名詞和名詞、名詞與其他詞之間的關(guān)系是語義關(guān)系。馬寧[20]等以模板的方式從互聯(lián)網(wǎng)中抓取純藏文文本,然后對文本進(jìn)行分詞、詞性標(biāo)注和命名實體識別,并對關(guān)鍵字和實體進(jìn)行過濾,抽取出候選模板,最后對抽取出的候選模板計算語義相似度,超過一定閾值就成為關(guān)系模板。

    本文基于以上設(shè)計思路,同時考慮到藏文信息抽取任務(wù)的研究相對滯后、藏文的語料稀少、結(jié)構(gòu)復(fù)雜、處理領(lǐng)域單一等問題,考慮將聯(lián)合模型運(yùn)用于藏文實體關(guān)系抽取任務(wù)中,按照字級或者詞級處理語料,然后利用詞性標(biāo)注特征進(jìn)行補(bǔ)充,同時也將藏文關(guān)系抽取任務(wù)轉(zhuǎn)變成藏文序列標(biāo)注任務(wù)。

    2 方法介紹

    2.1 總體框架介紹

    首先,我們對藏文語料分別按照詞級或者字級進(jìn)行序列標(biāo)注處理(見2.2節(jié)),然后利用自然語言工具,給每個詞或者字進(jìn)行詞性標(biāo)注(見2.3節(jié)),再輸入到神經(jīng)網(wǎng)絡(luò)編碼層(見2.4.2節(jié)),經(jīng)過編碼層解析,然后通過解碼層(見2.4.3節(jié)),最后通過輸出層輸出結(jié)果(見2.4.4節(jié)),總體框架如圖1所示。

    其中,模型最終輸出yi代表輸入藏文分詞或者分字的序列標(biāo)簽。如圖2所示(中文釋義: 扎西頓珠出生于迭部村莊),以分詞為例,其中“/”表示詞與詞之間的分隔符,“BP”表示關(guān)系分類中“BirthPlace”類別。最后的輸出與分詞結(jié)果一一對應(yīng)。

    圖1 總體框架

    圖2 示例圖

    2.2 詞級、字級處理

    2.2.1 藏文詞級處理

    首先,本文利用CRF++工具對藏文進(jìn)行分詞。然后,對分詞后的每個單詞分配一個標(biāo)簽。標(biāo)簽“O”代表該單詞與提及實體無關(guān)。除了標(biāo)簽“O”,其他單詞標(biāo)簽分為三個部分: 實體位置、關(guān)系類型以及關(guān)系角色。實體位置,本文使用“BIES”來表示,“B”代表實體起始位置,“I”代表實體中間位置,“E”代表實體結(jié)束位置,“S”代表單個實體。關(guān)系類型,從已知的關(guān)系集中查找。關(guān)系角色則根據(jù)上下文信息確定,并同時設(shè)置為“1”和“2”。示例如圖3所示。(中文釋義: 扎西頓珠出生于迭部村莊)

    圖3 藏文詞級處理示例

    2.2.2 藏文字級處理

    首先,本文按照藏文拼寫特征,利用藏文音節(jié)點(diǎn)進(jìn)行字級處理,然后對分字后的音節(jié)分配標(biāo)簽。與詞級對應(yīng),標(biāo)簽“O”代表該音節(jié)與提及實體無關(guān)。其他的音節(jié)標(biāo)簽同樣也分為三個部分: 實體位置、關(guān)系類型以及關(guān)系角色,各部分的定義與詞級一致。示例如圖4所示。(中文釋義: 扎西頓珠出生于迭部村莊)

    圖4 藏文字級處理示例

    2.3 詞性標(biāo)注

    由于藏文進(jìn)行序列標(biāo)注過后的信息較少,在與實體無關(guān)的單詞或者音節(jié)上都默認(rèn)標(biāo)簽為“O”,對結(jié)果的提取存在較大偏差。本文針對這種情況,在序列標(biāo)注過后的藏文詞或者字進(jìn)行詞性標(biāo)注,對所有的詞或者字分配詞性標(biāo)簽,降低最后提取的錯誤率。示例如圖5所示。(中文釋義: 扎西出生于迭部村莊)

    圖5 詞性標(biāo)注

    這里需要注意,我們進(jìn)行字標(biāo)注時,根據(jù)詞的詞性來定義,示例如圖6所示。(中文釋義: 澤旺拉姆)

    圖6 字性的定義

    不難發(fā)現(xiàn),很多藏文特有的詞性,例如,格助詞、屬格助詞等對幫助判斷兩個實體的關(guān)系有輔助的作用。同時本文也借鑒了這種藏文特有的詞性規(guī)則,比如利用屬格助詞來表達(dá)“包含”、“屬于”之類的關(guān)系,以此來強(qiáng)化和提高藏文實體抽取的準(zhǔn)確率。

    2.4 端到端模型

    目前,基于神經(jīng)網(wǎng)絡(luò)的端到端模型在序列標(biāo)注任務(wù)中起到良好的效果。本文也采用端到端的模型進(jìn)行實體關(guān)系抽取任務(wù)。模型主要包括預(yù)處理階段、BiLSTM編碼層、LSTM解碼層以及一個Softmax輸出層。

    2.4.1 預(yù)處理階段

    給定一句長度為l的藏文語句W= {x1,x2,x3,...,xl},先通過word2vec生成詞向量T={t1,t2,t3,...,tl},然后經(jīng)過CRF工具獲取每個詞的詞性P={p1,p2,p3,...,pl},并且通過Word-POS[21]的方法將詞向量和該詞詞性向量進(jìn)行拼接,組成新的向量表達(dá)TP={(t1,p1),(t2,p2),(t3,p3),...,(tl,pl)}。 流程如圖7所示。(中文釋義: 扎西出生于迭部村莊)

    圖7 預(yù)處理流程

    2.4.2 BiLSTM編碼層

    將預(yù)處理階段生成的向量表達(dá)TP輸入到BiLSTM中。BiLSTM能夠捕獲到句子中的語義信息。它主要包括前向LSTM層、后向LSTM層以及一個連接層。通過預(yù)處理得到的藏文語句向量表達(dá),輸入到BiLSTM中,這個結(jié)構(gòu)包含一系列的循環(huán)連接單元,稱為記憶區(qū)塊。每個當(dāng)前的記憶區(qū)塊能夠根據(jù)前一層的隱向量ht-1、前一層的單元向量ct-1以及當(dāng)前的輸入向量tpt-1,捕獲當(dāng)前的隱向量ht。 具體定義如式(1)~式(5)所示。

    輸入門:

    這一步主要決定是否對當(dāng)前輸入的文本信息中重要的詞或者字進(jìn)行更新。

    遺忘門:

    這一步?jīng)Q定以前的文本信息中是否丟棄無表達(dá)、無關(guān)的詞或者字。

    輸出門:

    最終輸出當(dāng)前時刻的文本信息狀態(tài)以及最后的特征輸出向量如式(6)所示。

    2.4.3 LSTM解碼層

    輸入門:

    (7)

    遺忘門:

    (8)

    輸出門:

    2.4.4 Softmax層

    針對最后的Softmax層,基于輸出的向量Pt,來預(yù)測實體的概率標(biāo)簽:

    其中,Wy是輸入Softmax矩陣,Nt是整個標(biāo)簽的數(shù)量,by是偏置項。

    3 實驗

    3.1 數(shù)據(jù)集

    數(shù)據(jù)集采用中央民族大學(xué)自然語言處理實驗室處理的藏文數(shù)據(jù)集,數(shù)據(jù)格式同NYT數(shù)據(jù)集。該藏文數(shù)據(jù)集共包括了2 400個三元組及其原句,并有11種常見的關(guān)系,在實驗中,我們采用的訓(xùn)練集有2 000句,測試集有400句。

    3.2 評估

    主要采用準(zhǔn)確率P和召回率R以及F1值作為評估指標(biāo),不同于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,我們沒有使用標(biāo)簽類型來訓(xùn)練模型,因此在評估過程中不需要考慮實體類型。同時我們會在訓(xùn)練集中隨機(jī)選出10%的數(shù)據(jù)作為驗證集來優(yōu)化模型的參數(shù)。

    3.3 參數(shù)設(shè)置

    我們使用Word2Vec工具來生成詞向量,對于詞向量維度可選[20,30,50,80]。本文基于實驗效果最好的維度50維,即d=50。神經(jīng)網(wǎng)絡(luò)隱層的數(shù)量依據(jù)啟發(fā)式規(guī)則,將LSTM編碼層單元數(shù)量設(shè)置成300層,LSTM解碼層單元數(shù)量設(shè)置成600層,學(xué)習(xí)率初始值設(shè)為0.002。具體參數(shù)如表1 所示。

    表1 參數(shù)表

    3.4 基線方法

    我們比較了各種算法在藏文實體關(guān)系抽取上的結(jié)果,包括傳統(tǒng)的SVM和LR方法,同時也比較了單一的GRU方法在任務(wù)上的結(jié)果,我們的方法取得了最好的結(jié)果。

    同時本文比較每個詞性對于實體關(guān)系的抽取的影響,經(jīng)過分析,選擇詞性NG(名詞)、詞性P(格助詞)、詞性V(動詞)、詞性A(動詞)作為特征控制變量輸入。即本文只選取其中一種詞性作為詞性特征輸入,并且將其他的詞性設(shè)置為空,進(jìn)行二次實驗。

    4 結(jié)果與分析

    4.1 方法比較

    在不同方法上的實驗結(jié)果,如表2所示。

    表2 方法結(jié)果比較

    從表2可以看出,針對藏文的分割粒度以及詞性標(biāo)注的影響,我們的方法較傳統(tǒng)的機(jī)器學(xué)習(xí)方法提升了很高的準(zhǔn)確率。同時,在神經(jīng)網(wǎng)絡(luò)的方法中,綜合比較了LSTM在藏文實體關(guān)系抽取任務(wù)上的不同處理,尤其是藏文語料的處理,我們采用了不同粒度對藏文進(jìn)行處理,對藏文進(jìn)行詞分割和字分割,并在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程中添加詞性標(biāo)注進(jìn)行優(yōu)化,我們的方法較純粹的神經(jīng)網(wǎng)絡(luò)模型也有一定的提升。

    4.2 詞性比較

    這里,本文僅在藏文字級處理上進(jìn)行進(jìn)一步的詞性標(biāo)注的比較,結(jié)果如表3所示。

    表3 詞性結(jié)果比較

    不難發(fā)現(xiàn),詞性NG的影響比較大,經(jīng)過分析我們發(fā)現(xiàn),藏文中詞性NG在所有詞性中占比最大,約為85%。在缺少詞性NG的情況下,提取的準(zhǔn)確率下降了至少10%,可見詞性NG對于藏文實體抽取的重要性很高。而詞性V在所有詞性中占比最小,約為2%。同時,我們也發(fā)現(xiàn),詞性P以及詞性A對于結(jié)果的影響偏差很接近,藏文中的格助詞以及形容詞在一定程度上能幫助提高藏文實體抽取的準(zhǔn)確度。

    由于藏文語料稀少、處理過程中需要有專業(yè)人士進(jìn)行校正,上述的切分過程都是先使用機(jī)器進(jìn)行程序化處理,然后經(jīng)過人工校正,處理周期較長,并且結(jié)果也需要有專業(yè)的人士來進(jìn)行修正,幫助優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)。

    經(jīng)過專業(yè)人士修正,我們發(fā)現(xiàn)實驗中也存在以下不足: ①在處理藏文詞或者藏文字過程中,藏文語句的長度過長,往往幾百行后才能找到相應(yīng)的實體和關(guān)系;②藏文語句中表達(dá)存在意思沖突現(xiàn)象,藏文中一個實體往往會表達(dá)多個意思,也就是說,藏文一句話中,除了標(biāo)注實體以外,其他詞或者字中也表達(dá)相同的意思,給神經(jīng)網(wǎng)絡(luò)模型造成誤判的現(xiàn)象;③本文方法中,在同一個句子中的兩個實體,往往也會出現(xiàn)在其他句子中,但關(guān)系表達(dá)不一致,也造成了錯誤率提高。

    5 總結(jié)

    本文主要針對藏文語料匱乏的情況,提出一種將實體關(guān)系抽取任務(wù)轉(zhuǎn)變成一種序列標(biāo)注任務(wù)的方法。同時,對藏文語料的處理也是本文的一大亮點(diǎn),我們的實驗相對于傳統(tǒng)的機(jī)器學(xué)習(xí)以及普通的神經(jīng)網(wǎng)路模型,取得了較好的準(zhǔn)確率。但是我們的方法在藏文的處理上也存在一些問題,針對神經(jīng)網(wǎng)絡(luò)的優(yōu)化也沒有做對比試驗。在針對藏文特有的語法規(guī)則以及性質(zhì)上面,本文沒有進(jìn)行深入的研究。

    在未來的工作中,我們會逐步優(yōu)化藏文的處理,盡量減少人工的參與,同時不斷優(yōu)化模型,添加藏文的特有規(guī)則,繼續(xù)添加藏文特有的詞性規(guī)則,使模型更適應(yīng)于藏文的實體關(guān)系抽取,為后續(xù)的藏文自然語言處理的深入研究提供基礎(chǔ)。

    猜你喜歡
    藏文集上實體
    Cookie-Cutter集上的Gibbs測度
    西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    前海自貿(mào)區(qū):金融服務(wù)實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    復(fù)扇形指標(biāo)集上的分布混沌
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
    振興實體經(jīng)濟(jì)地方如何“釘釘子”
    藏文音節(jié)字的頻次統(tǒng)計
    双城市| 甘孜县| 华阴市| 陕西省| 龙胜| 九龙城区| 博罗县| 剑河县| 华坪县| 乐东| 曲阳县| 乡宁县| 永和县| 呼伦贝尔市| 来宾市| 山东省| 腾冲县| 水富县| 琼结县| 东山县| 商城县| 屏东市| 大安市| 鹤壁市| 乌鲁木齐市| 焉耆| 安义县| 沾益县| 乐都县| 泾阳县| 平江县| 渝北区| 上高县| 三门县| 闽侯县| 金山区| 林西县| 德令哈市| 庆阳市| 乳山市| 清丰县|