熊建華,韓永國(guó),廖 競(jìng),寇露彥,吳昌述
(西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)
信息抽取(Information Extraction,IE)利用計(jì)算機(jī)技術(shù)來識(shí)別文檔的有效信息,并將這些信息轉(zhuǎn)換成適合計(jì)算機(jī)的存儲(chǔ)、處理和檢索的結(jié)構(gòu)化形式。信息抽取開辟了更加豐富的知識(shí)使用方式,有助于高效、有效地分析海量文本數(shù)據(jù)。信息抽取任務(wù)依照抽取內(nèi)容可以劃分為:命名實(shí)體識(shí)別、事件抽取、關(guān)系抽取等。關(guān)系抽取是其中的重要子任務(wù)之一,主要目的是從文本中抽取實(shí)體之間的語義關(guān)系,通過三元組的形式對(duì)文本中包含的知識(shí)進(jìn)行組織。開放關(guān)系抽取是指在不事先定義關(guān)系類型的情況下,直接對(duì)語料進(jìn)行關(guān)系數(shù)據(jù)的抽取。相比于傳統(tǒng)關(guān)系抽取,開放關(guān)系抽取能充分利用開放語料,擴(kuò)展出更多的關(guān)系類型,為自然語言處理的下游任務(wù)提供更好的支持。
開放關(guān)系抽取最早是在英文領(lǐng)域提出的。在英文開放關(guān)系抽取研究中出現(xiàn)了TextRunner[1]、WOE[2]、Reverb[3]、ClauseIE[4]、OLLIE[5]等多種經(jīng)典系統(tǒng)。其中,TextRunner與Reverb都是利用詞性標(biāo)記和正則表達(dá)式制定抽取規(guī)則進(jìn)行抽取。ClauseIE通過英語語法知識(shí)將句子分解為子句進(jìn)行抽取。WOE與OLLIE是基于自監(jiān)督學(xué)習(xí)的抽取系統(tǒng),利用已有的高質(zhì)量關(guān)系數(shù)據(jù)標(biāo)注數(shù)據(jù),構(gòu)建訓(xùn)練數(shù)據(jù)集,然后從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)關(guān)系抽取的模板。近年來,有學(xué)者嘗試使用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)開放關(guān)系進(jìn)行端對(duì)端的抽取。文獻(xiàn)[6]中利用編碼器-解碼器框架進(jìn)行開放關(guān)系抽取。該方法可以不定義任何抽取模式,直接進(jìn)行抽取。文獻(xiàn)[7]利用BERT和多頭注意注意力機(jī)制融合句子和謂語特征,通過序列標(biāo)注的方法進(jìn)行開放關(guān)系抽取。
相比于英文開放關(guān)系抽取,中文開放關(guān)系抽取研究仍然處于起步階段,且中文開放關(guān)系抽取人工標(biāo)記數(shù)據(jù)集較少,大部分研究仍然采用基于規(guī)則和模板的方式進(jìn)行無監(jiān)督的抽取。文獻(xiàn)[8]中提出了一種無監(jiān)督的中文開放關(guān)系抽取方法。該方法利用實(shí)體距離、關(guān)系詞位置等特征抽取候選關(guān)系數(shù)據(jù),隨后利用信息增益、句式規(guī)則進(jìn)行關(guān)系過濾。該方法在大規(guī)模網(wǎng)絡(luò)文本語料中的準(zhǔn)確率達(dá)到了80%。文獻(xiàn)[9]首次提出多元組的中文開放關(guān)系抽取,首先,識(shí)別出語料中的基本名詞短語作為實(shí)體詞,將句子中的謂語動(dòng)詞作為候選關(guān)系詞;然后,根據(jù)句法規(guī)則將與關(guān)系詞相連的所有實(shí)體都添加到關(guān)系組中,可以同時(shí)抽取二元組和多元組。該方法在百度百科數(shù)據(jù)集上的抽取準(zhǔn)確率達(dá)到了 81%。文獻(xiàn)[10]以句法分析結(jié)果的根節(jié)點(diǎn)為入口,遞歸查找所有動(dòng)詞的主語、賓語成分,再根據(jù)句法規(guī)則進(jìn)行補(bǔ)充調(diào)整,最終有效地獲取句子中復(fù)雜的多元實(shí)體關(guān)系。文獻(xiàn)[11]從手工標(biāo)注的少量地質(zhì)領(lǐng)域數(shù)據(jù)學(xué)習(xí)關(guān)系抽取模板進(jìn)行開放關(guān)系抽取,有效解決了地質(zhì)領(lǐng)域關(guān)系復(fù)雜的問題。文獻(xiàn)[12]首次將中文開放關(guān)系抽取視為序列生成任務(wù),利用指針生成網(wǎng)絡(luò)對(duì)文本進(jìn)行端對(duì)端的抽取。然而該方法仍然是在基于模板抽取的數(shù)據(jù)集上進(jìn)行訓(xùn)練的。
綜上所述,目前中文開放關(guān)系抽取的主要方法都是基于規(guī)則和模板的,這些方法需要以自然語言處理工具的處理結(jié)果為基礎(chǔ)進(jìn)行抽取。然而自然語言處理工具在處理復(fù)雜長(zhǎng)句時(shí),分詞、詞性標(biāo)注、句法分析的準(zhǔn)確率都明顯下降,嚴(yán)重影響關(guān)系抽取的質(zhì)量。另一方面,在復(fù)雜長(zhǎng)句中通常存在多個(gè)關(guān)系數(shù)據(jù),現(xiàn)有的開放關(guān)系抽取模板很難做到全面覆蓋。因此,該文借助序列到序列神經(jīng)網(wǎng)絡(luò)模型將復(fù)雜長(zhǎng)句簡(jiǎn)化為多個(gè)結(jié)構(gòu)簡(jiǎn)單的子句,然后,利用自然語言處理工具對(duì)每個(gè)子句分別進(jìn)行處理,最后,通過詞性、句法等約束實(shí)現(xiàn)開放關(guān)系抽取。
目前中文領(lǐng)域暫時(shí)沒有長(zhǎng)句簡(jiǎn)化相關(guān)的數(shù)據(jù)集。該文使用手工標(biāo)注和回譯策略兩種方法構(gòu)建了一個(gè)中文長(zhǎng)句簡(jiǎn)化語料庫(kù)。
首先,采用2019年中文維基百科的數(shù)據(jù),進(jìn)行長(zhǎng)句簡(jiǎn)化數(shù)據(jù)集的手工標(biāo)注。中文維基百科數(shù)據(jù)的內(nèi)容豐富,詞語、句法相對(duì)規(guī)范,數(shù)據(jù)量大是中文自然語言處理研究中常用的數(shù)據(jù)集,具有一定的權(quán)威性和可靠性。在進(jìn)行手工標(biāo)注前,需要先對(duì)中文維基百科數(shù)據(jù)進(jìn)行預(yù)處理。如圖1所示,首先,對(duì)數(shù)據(jù)按句號(hào)進(jìn)行分句;然后,使用哈工大的LTP(Language Technology Platform)工具對(duì)句子進(jìn)行分詞,篩選出詞數(shù)大于30的句子;最后,利用LTP對(duì)句子進(jìn)行實(shí)體識(shí)別,篩選出包含兩個(gè)以上實(shí)體的句子,確保選出的句子包含關(guān)系數(shù)據(jù)。
圖1 維基百科數(shù)據(jù)預(yù)處理流程
通過對(duì)篩選后的復(fù)雜長(zhǎng)句分析發(fā)現(xiàn),大多數(shù)句子都可以采用分解法和指稱法[13]進(jìn)行手工簡(jiǎn)化。分解法是將長(zhǎng)句中的復(fù)雜成分獨(dú)立開來,與相應(yīng)的成分構(gòu)成若干短句。以語句“狐猴科是哺乳綱靈長(zhǎng)目的一科,是樹棲動(dòng)物,主要分布于非洲的馬達(dá)加斯加島”為例。前方主語和后方的并列短語可以直接拆分為結(jié)構(gòu)獨(dú)立的子句:“狐猴科屬于哺乳綱靈長(zhǎng)目”“狐猴科是樹棲動(dòng)物”“狐猴科主要分布于非洲的馬達(dá)加斯加島”。指稱法是指將長(zhǎng)句中的復(fù)雜成分用一個(gè)詞語來指代,與相應(yīng)的成分構(gòu)成“總說”的單句,再把復(fù)雜成分一一展開形成“分說”的單句,變成“總分句群”。以語句“龍卷風(fēng)是在極不穩(wěn)定天氣下由空氣強(qiáng)烈對(duì)流運(yùn)動(dòng)而產(chǎn)生的一種伴隨著高速旋轉(zhuǎn)的漏斗狀云柱的強(qiáng)風(fēng)渦旋”為例,先抽取出句子主干“龍卷風(fēng)是一種強(qiáng)風(fēng)渦旋”,再對(duì)句子中的復(fù)雜成分進(jìn)行分說“龍卷風(fēng)由空氣強(qiáng)烈對(duì)流運(yùn)動(dòng)產(chǎn)生”“龍卷風(fēng)伴隨漏斗狀云柱”。
從預(yù)處理后的長(zhǎng)句數(shù)據(jù)中隨機(jī)抽取出4 000條長(zhǎng)度大于30的句子,并按照上述方法對(duì)篩選出的句子進(jìn)行手工簡(jiǎn)化。
第二,利用回譯的方法,從英文的長(zhǎng)句簡(jiǎn)化語料中獲取原始數(shù)據(jù),再?gòu)闹泻Y選出2 000條數(shù)據(jù)。這一部分語料來源于WikiSpilt[14]。WikiSpilt數(shù)據(jù)集是從英文維基百科編輯歷史數(shù)據(jù)中收集而來的,包含100萬條句子簡(jiǎn)化實(shí)例。首先,利用谷歌翻譯接口對(duì)原始數(shù)據(jù)集進(jìn)行翻譯,刪除翻譯后詞語缺失、重復(fù)、翻譯錯(cuò)誤的噪聲數(shù)據(jù)。然后,利用LTP工具對(duì)句子進(jìn)行分詞和實(shí)體識(shí)別,篩選出實(shí)體數(shù)目大于2且原始句子長(zhǎng)度大于30的句子及其簡(jiǎn)化子句,再?gòu)闹须S機(jī)挑選出2 000條數(shù)據(jù)。最后,將兩部分?jǐn)?shù)據(jù)合并得到6 000條長(zhǎng)句簡(jiǎn)化數(shù)據(jù)。
關(guān)系抽取模型的大致工作流程如圖2所示。以圖中句子“斯坦福大學(xué)于1891年由時(shí)任加州參議員及州長(zhǎng)的鐵路大亨利蘭·史丹福和他的妻子創(chuàng)辦”為例。先通過長(zhǎng)句簡(jiǎn)化模型將句子簡(jiǎn)化為“斯坦福大學(xué)于1891年創(chuàng)辦”“斯坦福大學(xué)由亨利蘭·史丹福創(chuàng)辦”“亨利蘭·史丹福時(shí)任加州州長(zhǎng)”三條簡(jiǎn)單句。隨后再利用關(guān)系抽取算法對(duì)每個(gè)子句進(jìn)行抽取,得到關(guān)系三元組數(shù)組:(斯坦福大學(xué),創(chuàng)辦于,1891年);(亨利蘭·史丹福,創(chuàng)辦,斯坦福大學(xué));(加州,州長(zhǎng),亨利蘭·史丹福)。接下來將對(duì)長(zhǎng)句簡(jiǎn)化模型、關(guān)系抽取兩個(gè)部分內(nèi)容分別進(jìn)行介紹。
圖2 基于長(zhǎng)句簡(jiǎn)化的關(guān)系抽取流程
目前關(guān)于中文復(fù)雜長(zhǎng)句的簡(jiǎn)化主要是利用符號(hào)進(jìn)行分割[15-17]。但基于符號(hào)分割的句子,僅能分割出原本結(jié)構(gòu)獨(dú)立的子句,部分結(jié)構(gòu)不獨(dú)立的子句中仍然包含有關(guān)系數(shù)據(jù)。并且根據(jù)對(duì)上文構(gòu)建的復(fù)雜長(zhǎng)句數(shù)據(jù)集的統(tǒng)計(jì)發(fā)現(xiàn),在復(fù)雜長(zhǎng)句中還存在許多沒有逗號(hào)的句子??梢娎梅?hào)進(jìn)行長(zhǎng)句簡(jiǎn)化存在著較大的局限性。因此,該文借鑒英文長(zhǎng)句簡(jiǎn)化的思想[18-20],直接利用機(jī)器翻譯領(lǐng)域的序列到序列神經(jīng)網(wǎng)絡(luò)模型對(duì)長(zhǎng)句簡(jiǎn)化任務(wù)進(jìn)行建模,將其作為單語言的翻譯任務(wù)。
現(xiàn)有的序列到序列模型通常采用RNN與LSTM神經(jīng)網(wǎng)絡(luò),存在編碼器結(jié)構(gòu)過于簡(jiǎn)單以及編碼階段信息利用率低的問題,在語料資源較少的情況下,性能較差。BERT[21]模型通過結(jié)合多維語義特征獲取詞向量,可以得到更細(xì)粒度的文本上下文表示,極大地提升了模型的特征提取能力。如圖3所示,該文以BERT的雙向Transformer結(jié)構(gòu)作為基礎(chǔ),構(gòu)建序列到序列模型。由于本身結(jié)構(gòu)限制,BERT模型通常只用于輸入編碼,并不能直接適用于文本生成任務(wù)。因此,采用UniLM[22]的seq2seq Mask機(jī)制對(duì)BERT的Transformer結(jié)構(gòu)進(jìn)行改造,僅對(duì)輸入部分的第二段文本進(jìn)行下三角遮掩。這樣當(dāng)Mask字段處在第一段文本時(shí),模型可以利用文本中的所有token信息進(jìn)行預(yù)測(cè)。當(dāng)Mask字段處在第二段文本時(shí),模型可以利用第一段文本的全部token信息,同時(shí)還可以利用Mask字段本身和它左側(cè)的全部token信息。通過這種方式,可以實(shí)現(xiàn)序列到序列的效果。
圖3 長(zhǎng)句簡(jiǎn)化模型結(jié)構(gòu)
為了減少不必要的計(jì)算,加快模型訓(xùn)練速度,對(duì)BERT模型的vocab.txt文件進(jìn)行了精簡(jiǎn),只保留語料中使用到的token。訓(xùn)練階段,將復(fù)雜句S1和簡(jiǎn)單句子集S2連接成一個(gè)序列,以[SOS]s1[EOS]s2[EOS]的格式輸入,S2中各個(gè)子句間使用“?!边M(jìn)行分割。根據(jù)詞表獲取序列的Token后,再對(duì)序列的詞、位置、Segment(用于區(qū)分輸入序列和目標(biāo)序列)進(jìn)行embedding計(jì)算,最后將三種embedding求和得到最終的文本向量。英文中各個(gè)單詞本身帶有分隔符,而中文詞語通常由多個(gè)字詞連接組成。原始的BERT模型在預(yù)訓(xùn)練過程中,采用的是以字粒度為基礎(chǔ)的Mask方式,會(huì)分割原本完整的中文詞語。因此,引入BERT-WWM[23]預(yù)訓(xùn)練模型參數(shù),BERT-WWM利用全詞Mask方式進(jìn)行訓(xùn)練,將同一詞語進(jìn)行整體遮掩,能更好地保證中文句子的語義完整性。
在預(yù)測(cè)階段,加載訓(xùn)練好的模型權(quán)重,輸入待簡(jiǎn)化長(zhǎng)句進(jìn)行預(yù)測(cè),在解碼時(shí)利用beamSearch搜索算法優(yōu)化預(yù)測(cè)序列得到簡(jiǎn)化句子集。
在關(guān)系抽取部分,仍然采用與主流開放關(guān)系抽取一致的思路,利用詞性、句法規(guī)則進(jìn)行抽取。然而與傳統(tǒng)方法不同的是,該文抽取的句子是經(jīng)過長(zhǎng)句簡(jiǎn)化模型處理得到的,句子結(jié)構(gòu)簡(jiǎn)單且類型大致相同。因此,不需要制定豐富、完備的范式,僅需要制定簡(jiǎn)潔規(guī)則進(jìn)行抽取即可。關(guān)系抽取算法的具體步驟為:
(1)利用LTP工具處理簡(jiǎn)化后的句子,獲取詞性標(biāo)注,依存句法分析的結(jié)果。
(2)獲取句子的主語和賓語作為基礎(chǔ)實(shí)體。將與句子核心詞相連的實(shí)體詞作為起點(diǎn)向前搜索,如果存在與實(shí)體詞具有定中關(guān)系的名詞、名詞性動(dòng)詞等,則將其與起點(diǎn)的實(shí)體詞組合成語義完整的實(shí)體。
(3)根據(jù)依存句法分析結(jié)果找到句子的核心詞。
(4)以核心詞為起點(diǎn),對(duì)與之相連的詞語進(jìn)行判斷。如果存在并列的動(dòng)詞或者動(dòng)補(bǔ)結(jié)構(gòu)的介詞,則將其與核心詞組合成新的關(guān)系詞,如果不存在則直接將核心詞作為關(guān)系詞。
(5)將關(guān)系詞與對(duì)應(yīng)實(shí)體組成關(guān)系三元組輸出。
(6)將各個(gè)子句中抽取出的關(guān)系數(shù)據(jù)進(jìn)行合并成關(guān)系數(shù)組輸出。
綜上所述,關(guān)系抽取算法首先按照主謂賓的句法結(jié)構(gòu)進(jìn)行了抽取,然后在此基礎(chǔ)上,對(duì)存在定中結(jié)構(gòu)的實(shí)體詞進(jìn)行了補(bǔ)充,對(duì)關(guān)系詞相連接的動(dòng)詞和介詞進(jìn)行了處理。
從構(gòu)建的長(zhǎng)句簡(jiǎn)化數(shù)據(jù)集中抽取出1 000條句子對(duì)作為長(zhǎng)句簡(jiǎn)化的測(cè)試集,其余5 000條作為訓(xùn)練集。關(guān)系抽取部分,從長(zhǎng)句簡(jiǎn)化的1 000條測(cè)試數(shù)據(jù)中抽取出2 479條關(guān)系數(shù)據(jù),作為關(guān)系抽取的測(cè)試集。
長(zhǎng)句簡(jiǎn)化部分,采用哈工大的BERT-WWM預(yù)訓(xùn)練參數(shù),設(shè)置最大序列長(zhǎng)度為70,Epochs設(shè)為55,初始學(xué)習(xí)率為1e-5,Beam_search解碼時(shí)的Beam_size為5。選取SARI值、BLUE值和訓(xùn)練時(shí)間作為長(zhǎng)句簡(jiǎn)化模型的評(píng)估指標(biāo)。SARI值通過對(duì)比原句、參考子句、預(yù)測(cè)子句中的詞語計(jì)算句子的簡(jiǎn)化性。BLUE值是字符串相似性度量,可以衡量簡(jiǎn)化子句與原句的相似性。
選用了如下三種基準(zhǔn)模型進(jìn)行長(zhǎng)句簡(jiǎn)化對(duì)比實(shí)驗(yàn):
(1)Seq2Seq+Attention:該模型將序列到序列框架與注意力機(jī)制結(jié)合,是目前研究文本生成任務(wù)的標(biāo)準(zhǔn)結(jié)構(gòu)模型。
(2)Pointer-Generator:該模型在Seq2Seq模型的基礎(chǔ)上,通過指針網(wǎng)絡(luò)選擇生成詞,能有效解決生成過程中出現(xiàn)的未登錄詞的情況。
(3)BERT+LSTM:該模型采用Seq2Seq基礎(chǔ)架構(gòu),將Encoder替換為雙向Transformer編碼,Decoder 采用LSTM。使用BERT模型對(duì)編碼端參數(shù)進(jìn)行初始化處理,解碼端從初始狀態(tài)訓(xùn)練。
如表1所示,提出的長(zhǎng)句簡(jiǎn)化模型測(cè)試結(jié)果的SARI值和BLUE值分別為76.67%和60.65%,相比其他基準(zhǔn)模型有較好的提升。此外,所提模型的訓(xùn)練時(shí)間相比其他模型也有所減少,這是因?yàn)锽ERT模型提供了更豐富的上下文信息,使模型能更快收斂。
表1 長(zhǎng)句簡(jiǎn)化模型對(duì)比實(shí)驗(yàn)結(jié)果
關(guān)系抽取部分,將準(zhǔn)確率(P)、召回率(R)和F1值作為關(guān)系抽取模型的評(píng)估指標(biāo),計(jì)算公式如下:
(1)
(2)
(3)
其中,C1表示抽取結(jié)果中正確的關(guān)系條數(shù),C2表示抽取的總的關(guān)系條數(shù),C3表示測(cè)試集中存在的關(guān)系總數(shù),F(xiàn)1值是準(zhǔn)確率和召回率的調(diào)和平均值。
選取了CORE[24]、DSNFS[25]系統(tǒng)進(jìn)行開放關(guān)系抽取對(duì)比,CORE利上下文信息及句法結(jié)構(gòu)信息進(jìn)行開放關(guān)系抽取,取得了較好的效果。DSNFS對(duì)中文中存在的特殊語言現(xiàn)象進(jìn)行了總結(jié),提出了一種基于依存語義范式的抽取方法,可以對(duì)網(wǎng)絡(luò)文本進(jìn)行無監(jiān)督的靈活的抽取。為了了解長(zhǎng)句簡(jiǎn)化方法對(duì)開放關(guān)系抽取方法的改進(jìn)效果,將兩種模型分別在原始長(zhǎng)句和簡(jiǎn)化后的句子上進(jìn)行實(shí)驗(yàn)。將在簡(jiǎn)化句子的實(shí)驗(yàn)結(jié)果表示為CORE-SS和DSNFS-SS。
從表2可以看出,文中關(guān)系抽取方法準(zhǔn)確率最高,召回率僅次于DSNFS-SS,這是因?yàn)镈SNFS的抽取規(guī)則更加全面,可以覆蓋更多的情況。而CORE-SS與DSNFS-SS相比直接在復(fù)雜長(zhǎng)句上進(jìn)行抽取的CORE與DSNFS效果有較大的提升。說明基于長(zhǎng)句簡(jiǎn)化的關(guān)系抽取方法,能夠有效地提升開放關(guān)系抽取系統(tǒng)對(duì)復(fù)雜長(zhǎng)句的抽取效果。
表2 開放關(guān)系抽取對(duì)比實(shí)驗(yàn)結(jié)果 %
最后,對(duì)抽取中的錯(cuò)誤關(guān)系數(shù)據(jù)和未抽取出的關(guān)系數(shù)據(jù)進(jìn)行了分析,分析結(jié)果如表3所示。其中35%的錯(cuò)誤是由關(guān)系詞識(shí)別錯(cuò)誤產(chǎn)生的,由于該文僅選擇了動(dòng)詞詞性的詞語作為關(guān)系詞,而部分句子中的關(guān)系詞是與動(dòng)詞相鄰的名詞作為關(guān)系指示詞。其中28%的錯(cuò)誤源于嵌套實(shí)體,由于在復(fù)雜長(zhǎng)句中,除了句子本身結(jié)構(gòu)復(fù)雜導(dǎo)致的句子長(zhǎng)度增長(zhǎng)外,還存在句子中實(shí)體詞較長(zhǎng)的情況。該文僅利用自然語言處理工具進(jìn)行了簡(jiǎn)單的實(shí)體識(shí)別,沒有處理實(shí)體由多個(gè)實(shí)體嵌套的情形。20%由詞性標(biāo)注導(dǎo)致的錯(cuò)誤,由于中文中部分詞既可以做動(dòng)詞又可以做名詞,自然語言處理工具對(duì)這類詞的識(shí)別容易出錯(cuò)。13%錯(cuò)誤來自簡(jiǎn)化句子內(nèi)容缺失,由于長(zhǎng)句簡(jiǎn)化模型在句子生成過程中,遺失了部分內(nèi)容,從而將錯(cuò)誤傳遞給了關(guān)系抽取模塊。4%由句法分析錯(cuò)誤導(dǎo)致,經(jīng)過長(zhǎng)句簡(jiǎn)化后,大部分的句子都能夠得到正確的句法分析結(jié)果,然而仍然存在少量句子句法分析錯(cuò)誤。
表3 錯(cuò)誤分析
該文提出了一種基于長(zhǎng)句簡(jiǎn)化的中文開放關(guān)系抽取方法。首先,利用序列到序列模型對(duì)復(fù)雜長(zhǎng)句進(jìn)行化簡(jiǎn),然后,針對(duì)化簡(jiǎn)后的句子進(jìn)行開放關(guān)系抽取。實(shí)驗(yàn)結(jié)果表明,該方法能有效提高開放關(guān)系抽取對(duì)復(fù)雜長(zhǎng)句抽取的準(zhǔn)確率和召回率。此外,對(duì)實(shí)驗(yàn)結(jié)果中的錯(cuò)誤進(jìn)行了歸納總結(jié),為之后的研究提供了參考。