基于機(jī)器閱讀理解模型與眾包驗(yàn)證的屬性值抽取方法

2021-05-17 05:30:48劉井平蔣海云肖仰華

計(jì)算機(jī)工程 2021年5期

馮桫，劉井平，蔣海云，肖仰華

（復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，上海 200433）

0 概述

近年來(lái)，隨著自然語(yǔ)言處理需求的不斷增長(zhǎng)，知識(shí)圖譜成為人們研究的焦點(diǎn)。目前，知識(shí)圖譜已經(jīng)被廣泛地應(yīng)用于各種智能化的推薦系統(tǒng)［1］、問答系統(tǒng)［2］以及語(yǔ)言生成［3］等諸多場(chǎng)景。為滿足這些應(yīng)用的數(shù)據(jù)需求，研究人員構(gòu)建出大規(guī)模的知識(shí)圖譜，如英文的DBpedia［4］、YAGO［5］以及中文的CN-DBpedia［6］等。在這些知識(shí)圖譜中，數(shù)據(jù)通常以＜實(shí)體，屬性（關(guān)系），屬性值（尾實(shí)體）＞的三元組形式進(jìn)行組織，例如“特朗普的國(guó)籍是美國(guó)”這一條知識(shí)，就可以被表示為＜特朗普，國(guó)籍，美國(guó)＞。由于本文所敘述的方法對(duì)屬性值及尾實(shí)體的抽取均適用，后文將屬性和關(guān)系統(tǒng)一稱為屬性，將屬性值和尾實(shí)體統(tǒng)一稱為屬性值。

在構(gòu)建知識(shí)圖譜的過(guò)程中，獲取圖譜中實(shí)體相關(guān)的各屬性的屬性值是非常重要的步驟。傳統(tǒng)的屬性值抽取方法主要分為基于模式的方法、基于分類器的方法和基于序列標(biāo)注模型的方法?；谀Ｊ降姆椒ㄍǔ１挥糜趶母哔|(zhì)量的半結(jié)構(gòu)化文本（如百科頁(yè)面的信息表）中，利用句法模式［7］、語(yǔ)義模式［8］或正則表達(dá)式等人工或自動(dòng)生成的模式直接進(jìn)行抽取。由于這類半結(jié)構(gòu)化文本的表達(dá)規(guī)律性強(qiáng)，通過(guò)基于模式的方法可以用較小代價(jià)得到大量高質(zhì)量的三元組。此類方法已經(jīng)被應(yīng)用于大量的知識(shí)圖譜構(gòu)建實(shí)踐中。基于分類器的方法首先需要利用命名實(shí)體識(shí)別（NER）工具，在文本中定位整個(gè)三元組的實(shí)體和屬性值。然后利用類似PCNN［9］及文獻(xiàn)［10］所述的分類器，結(jié)合實(shí)體和屬性值之間的上下文信息，分類得到三元組對(duì)應(yīng)的屬性，從而實(shí)現(xiàn)抽取?；谛蛄袠?biāo)注模型的方法最初的序列標(biāo)注模型常被應(yīng)用于NER 等任務(wù)中［11］。隨著序列標(biāo)注模型的發(fā)展，序列標(biāo)注模型也開始被應(yīng)用于抽取任務(wù)，例如，人們利用BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了已知屬性下的實(shí)體和屬性值抽?。?2］。近年來(lái)，隨著注意力機(jī)制的不斷發(fā)展，人們也開始使用更強(qiáng)的序列標(biāo)注模型，實(shí)現(xiàn)了具有較高準(zhǔn)確率的屬性值抽取方法［13］。

隨著在真實(shí)場(chǎng)景下數(shù)據(jù)需求的不斷擴(kuò)展，知識(shí)圖譜開始需要更多細(xì)節(jié)的知識(shí)，這使得從互聯(lián)網(wǎng)語(yǔ)料中抽取更多更稀有的屬性成為知識(shí)圖譜構(gòu)建中的新問題。傳統(tǒng)的基于模式的方法由于互聯(lián)網(wǎng)語(yǔ)料的高噪音，導(dǎo)致人工構(gòu)建模式的工作量大幅增加，自動(dòng)構(gòu)建模式準(zhǔn)確率下降，難以召回足夠的高質(zhì)量知識(shí)。而對(duì)于和訓(xùn)練集有著較強(qiáng)相關(guān)性的分類方法和序列標(biāo)注方法，目前仍然缺乏高質(zhì)量的基于互聯(lián)網(wǎng)語(yǔ)料的訓(xùn)練數(shù)據(jù)。并且由于模型本身的限制，它們難以抽取超出訓(xùn)練集之外（缺乏訓(xùn)練數(shù)據(jù)）的稀有屬性，使得其應(yīng)用受到了限制。

考慮到傳統(tǒng)方法在新場(chǎng)景下所受到的限制，本文提出一種基于機(jī)器閱讀理解模型和眾包驗(yàn)證的屬性值抽取方法。該方法的輸入為所需抽取的實(shí)體-屬性對(duì)，通過(guò)構(gòu)造搜索關(guān)鍵字從互聯(lián)網(wǎng)中獲得上下文，并根據(jù)機(jī)器閱讀理解模型，以類似序列標(biāo)注模型的形式標(biāo)注出候選屬性值并得到置信度。在此基礎(chǔ)上，通過(guò)輕量化的眾包驗(yàn)證方法，對(duì)模型得到的抽取結(jié)果進(jìn)行驗(yàn)證，并調(diào)整優(yōu)化各候選結(jié)果置信度以得到最終的抽取結(jié)果。

1 本文方法架構(gòu)

實(shí)體屬性值抽取任務(wù)的輸入為所需抽取的實(shí)體-屬性對(duì)，輸出為抽取得到的屬性值。本文屬性值抽取方法總體框架如圖1 所示。

圖1 本文方法的總體框架Fig.1 Overall framework of the proposed method

本文方法主要步驟如下：

步驟1構(gòu)造搜索關(guān)鍵字與獲取互聯(lián)網(wǎng)上下文。對(duì)于輸入的實(shí)體-屬性對(duì)，需要其相關(guān)上下文作為抽取時(shí)的知識(shí)來(lái)源。通過(guò)簡(jiǎn)單的模板，“［實(shí)體］的［屬性］”可以構(gòu)造出用于搜索引擎搜索的關(guān)鍵字，例如對(duì)于實(shí)體-屬性對(duì)＜西虹市首富，上映時(shí)間＞，可以構(gòu)造出搜索關(guān)鍵字“西虹市首富的上映時(shí)間”。利用上面構(gòu)造的關(guān)鍵字進(jìn)行搜索，可以從搜索引擎的結(jié)果頁(yè)中抓取各條結(jié)果的摘要信息，由于這些摘要信息為基于實(shí)體-屬性對(duì)構(gòu)造出的關(guān)鍵詞的相關(guān)內(nèi)容，本文直接把搜索結(jié)果中的前k條作為獲取的互聯(lián)網(wǎng)上下文。

步驟2基于機(jī)器閱讀理解模型的候選屬性值抽取。機(jī)器閱讀理解模型以實(shí)體-屬性對(duì)和一條對(duì)應(yīng)的上下文作為輸入，并輸出從該上下文中抽取出的候選屬性值及其置信度。

步驟3眾包驗(yàn)證。得到候選屬性值及其置信度后，本文引入一種基于判斷題形式的眾包驗(yàn)證任務(wù)。在人工標(biāo)注中，僅需要根據(jù)提示對(duì)各侯選屬性值進(jìn)行簡(jiǎn)單判斷。通過(guò)人工判斷的結(jié)果對(duì)上面步驟得到的候選屬性值的置信度進(jìn)行調(diào)整，最終選擇置信度最高的一條結(jié)果作為輸出。

2 機(jī)器閱讀理解模型

為實(shí)現(xiàn)對(duì)候選屬性值的抽取，本文提出了針對(duì)屬性值抽取的機(jī)器閱讀理解模型，即MCKE（Machine reading Comprehension Knowledge Extraction）模型。該模型主要來(lái)自文獻(xiàn)［14-15］中的兩個(gè)基于注意力機(jī)制的機(jī)器閱讀理解模型，它們?cè)跈C(jī)器閱讀理解任務(wù)上有著較高的準(zhǔn)確率。針對(duì)屬性值抽取任務(wù)，MCKE 模型通過(guò)引入BERT 進(jìn)行字級(jí)別的輸入表示學(xué)習(xí)，并在輸入表示的過(guò)程中進(jìn)行了上下文表示的增強(qiáng)，從而提高其對(duì)屬性值抽取任務(wù)的適應(yīng)性。MCKE 模型的整體架構(gòu)如圖2 所示。

圖2 MCKE 模型的整體架構(gòu)Fig.2 Overall framework of MCKE model

本文模型的輸入為上下文字符串C，以及用空格隔開的由實(shí)體和屬性拼接而成的字符串Q。模型的輸出為最終抽取結(jié)果的起始位置以及末尾位置的概率分布，分別為ps和pe。

本文模型主要包含輸入表示、表示變換、注意力層、輸出層等組成部分。

2.1 輸入表示

2.1.1 字符級(jí)別表示

不同于常用的Word2Vec［16］、GloVe［17］等詞嵌入方法，本文選擇使用Google 最新提出的BERT［18］語(yǔ)言模型來(lái)獲得模型輸入部分的向量表示。BERT 模型是一種Transformer［19］結(jié)構(gòu)實(shí)現(xiàn)的語(yǔ)言模型，實(shí)現(xiàn)了對(duì)于各輸入字符上下文的編碼。不同于傳統(tǒng)詞嵌入方法中字符的表示與上下文無(wú)關(guān)，本文引入BERT可以使同一個(gè)字符輸入在上下文不同的情況下有著不同的向量表示，其包含了與字符同時(shí)輸入的上下文信息。

在MCKE 模型中使用了預(yù)訓(xùn)練的BERT 模型來(lái)獲得輸入信息的向量表示，對(duì)于實(shí)體-屬性輸入和上下文輸入Q={q1，q2，…，qm}和C={c1，c2，…，cn}，先在其首尾添加標(biāo)識(shí)符［CLS］和［SEP］，將其輸入BERT 模型中，得到輸入實(shí)體-屬性表示與上下文表示的U0={u1，u2，…，um}和H0={h1，h2，…，hn}。

2.1.2 增強(qiáng)表示

除字符級(jí)別的表示外，本文針對(duì)上下文輸入進(jìn)行了表示的增強(qiáng)。通過(guò)計(jì)算額外信息向量，在表示中標(biāo)注了和實(shí)體-屬性有關(guān)部分的信息，也間接補(bǔ)充了分詞的信息。在上下文輸入中引入實(shí)體-屬性輸入內(nèi)容的位置信息，可有助于模型對(duì)句子結(jié)構(gòu)信息的學(xué)習(xí)，增強(qiáng)其對(duì)稀有屬性的抽取效果，增強(qiáng)表示方法如下：

1）對(duì)輸入的上下文和實(shí)體-屬性進(jìn)行分詞得到Cword={cw1，cw2，…}和Qword={qw1，qw2，…}，其中，qwi和cwi為分詞結(jié)果得到的詞語(yǔ)。利用這部分信息，可以計(jì)算上下文中各詞的額外信息向量，其組成部分如式（1）所示：

2）每個(gè)信息向量包含兩個(gè)維度，其中，第一維表示該詞語(yǔ)是否被包含在實(shí)體-屬性輸入中，第二維表示該詞語(yǔ)中各字符被包含在實(shí)體-屬性輸入中的比率。計(jì)算得到各額外信息向量后，將其與H0中各對(duì)應(yīng)的字符向量進(jìn)行拼接，得到增強(qiáng)過(guò)的上下文表示，如式（2）所示：

2.2 變換表示

基于本文提出的模型，在整個(gè)模型的輸入和輸出過(guò)程中需要對(duì)文本的表示進(jìn)行變換，從而生成其后面步驟所需的表示。為此，本文引入了類似于文獻(xiàn)［14］所采用的編碼模塊，并通過(guò)這些編碼模塊實(shí)現(xiàn)表示的變換。

在一個(gè)編碼模塊中，對(duì)于一個(gè)輸入表示X，首先對(duì)該表示進(jìn)行位置編碼。位置編碼是一種常用的用于在非循環(huán)神經(jīng)網(wǎng)絡(luò)中保留輸入位置信息的方法。經(jīng)過(guò)位置編碼后，得到新的表示。

在編碼模塊中，使用了3 種不同的編碼層對(duì)輸入表示進(jìn)行變換，即卷積層、自注意力層和前饋層。

編碼模塊中的卷積層選用了Separable 卷積層［20］，其相比普通的卷積層有著計(jì)算速度快、泛化能力強(qiáng)的優(yōu)勢(shì)。在本文模型中，卷積核大小設(shè)為7，并通過(guò)padding 方法補(bǔ)全輸出至和輸入相同維度。

編碼模塊中的自注意力層使用了多頭注意力的方式來(lái)計(jì)算，從而增強(qiáng)自注意力層對(duì)于多關(guān)注點(diǎn)的信息，對(duì)于輸入X進(jìn)行如下計(jì)算：

其中，O為本層輸出，和WO為可訓(xùn)練的參數(shù)。本文模型自注意力層的頭數(shù)設(shè)為2。

編碼模塊中的前饋層計(jì)算方法如下：

為防止訓(xùn)練過(guò)程中可能出現(xiàn)的梯度消失現(xiàn)象，在上述各層的使用中都加入了殘差機(jī)制。對(duì)于編碼模塊中各層，其輸出為：

其中，layernorm 為L(zhǎng)ayer Normalization［21］。

通過(guò)上述3 種層的結(jié)合，可以得到2 種不同的編碼模塊，在注意力層之前的編碼模塊，由4 個(gè)卷積層、1 個(gè)自注意力層和1 個(gè)前饋層組成。在注意力層之后的編碼模塊，由2 個(gè)卷積層、1 個(gè)自注意力層和1 個(gè)前饋層組成。

2.3 注意力層

注意力層的輸入是前面步驟獲得的上下文表示和實(shí)體-屬性表示，經(jīng)過(guò)編碼模塊之后得到的新表示結(jié)果和。在本文步驟中，主要利用注意力機(jī)制對(duì)上下文表示進(jìn)行進(jìn)一步的增強(qiáng)。

采用類似于文獻(xiàn)［15］的方法，本文模型需要首先通過(guò)式（8）中的線性變換，得到實(shí)體-屬性表示的相似性矩陣S。

其中，⊙為元素級(jí)別的乘法，Ws為可訓(xùn)練的參數(shù)。利用相似性矩陣S，經(jīng)過(guò)式（9）～式（12）中的變換，可以進(jìn)一步計(jì)算上下文對(duì)實(shí)體-屬性對(duì)的注意力A，以及實(shí)體-屬性對(duì)與上下文的注意力B。

最終通過(guò)對(duì)上述注意力以及表示的組合，得到融合了實(shí)體-屬性信息的新上下文表示G，其中Gi=[hi，ai，hi⊙a(bǔ)i，hi⊙bi]。

2.4 模型輸出

經(jīng)過(guò)注意力層得到的新的上下文表示G后，經(jīng)過(guò)3 個(gè)額外的編碼模塊，可以分別得到用于計(jì)算輸出的3 個(gè)新的上下文表示：G0=Encoder(G)，G1=Encoder(G0)，G2=Encoder(G1)。

模型的輸出層通過(guò)對(duì)拼接之后的編碼進(jìn)行一次非線性變化，可以得到抽取結(jié)果的起始位置和末尾位置在上下文輸入中位置的概率分布：

其中，W1與W2為可訓(xùn)練的參數(shù)，［；］為向量拼接操作，ps為起始位置分布，pe為末尾位置分布。

本文模型的目標(biāo)函數(shù)為：

2.5 抽取結(jié)果的獲取

基于模型輸出的起始位置分布ps以及末尾位置分布pe，通過(guò)最大化得到相應(yīng)的起始和終止位置(start，end)，就可以得到最終的抽取結(jié)果所在的坐標(biāo)。該抽取結(jié)果的置信度為。

3 眾包驗(yàn)證

在經(jīng)過(guò)模型抽取后可以發(fā)現(xiàn)，一些容易混淆的結(jié)果通常在置信度上相差不多。本文參照文獻(xiàn)［22］中的架構(gòu)，引入一種高效率的判斷題式眾包驗(yàn)證任務(wù)，對(duì)合理的抽取結(jié)果進(jìn)行獎(jiǎng)勵(lì)，對(duì)不合理的結(jié)果進(jìn)行懲罰來(lái)進(jìn)一步提高抽取的效果。

3.1 眾包任務(wù)設(shè)計(jì)

本文將眾包任務(wù)設(shè)定為判斷題，以提高眾包任務(wù)的時(shí)間效率。將抽取任務(wù)中的上下文、實(shí)體-關(guān)系對(duì)以及抽取的候選屬性值展示給眾包工人，由工人判斷這一候選屬性值是否合理。通過(guò)這樣的手段，降低了工人的準(zhǔn)入門檻，提高了任務(wù)的完成效率。本文所設(shè)計(jì)的眾包任務(wù)的實(shí)際界面如圖3 所示。

圖3 眾包驗(yàn)證的用戶界面Fig.3 User interface for crowdsourcing validation

在界面中，為方便定位，在上下文中對(duì)候選屬性值進(jìn)行了加粗處理，方便在遇到困難情況時(shí)快速跳轉(zhuǎn)到下一條任務(wù)，提供不確定的選項(xiàng)。

3.2 結(jié)果權(quán)重調(diào)整

通過(guò)對(duì)各結(jié)果進(jìn)行眾包后，可以獲得對(duì)每條候選結(jié)果的包含正確、錯(cuò)誤及不確定3 種選項(xiàng)的信任度投票情況。基于這些情況，對(duì)在眾包驗(yàn)證中被選擇正確占比較高的候選結(jié)果的權(quán)重進(jìn)行獎(jiǎng)勵(lì)，對(duì)被選擇錯(cuò)誤數(shù)量占比較高的結(jié)果的權(quán)重進(jìn)行懲罰，并保持被選擇不確定的結(jié)果的權(quán)重?？梢詤^(qū)分置信度相差不大的易混淆結(jié)果，并對(duì)模型抽取出的錯(cuò)誤結(jié)果進(jìn)行排除。參考文獻(xiàn)［23］中的基于正確、錯(cuò)誤、不確定3 項(xiàng)標(biāo)注的置信度計(jì)算方法，可利用式（16）計(jì)算得到調(diào)整系數(shù)γi：

最終以具有最高抽取分?jǐn)?shù)的屬性值作為抽取結(jié)果輸出，其中分?jǐn)?shù)大于閾值β的結(jié)果被作為有效抽取結(jié)果。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文所采用的實(shí)驗(yàn)數(shù)據(jù)分為2 個(gè)部分：1）抽樣數(shù)據(jù)，從CN-DBpedia 中抽樣得到的162 組實(shí)體-屬性對(duì)以及其對(duì)應(yīng)的屬性值；2）新實(shí)體數(shù)據(jù)，采用人工標(biāo)注得到的496 組實(shí)體-屬性對(duì)以及對(duì)應(yīng)屬性值。為保證實(shí)驗(yàn)數(shù)據(jù)的多樣性，在上面的實(shí)驗(yàn)數(shù)據(jù)獲取過(guò)程中，選擇了分別來(lái)自于手機(jī)、電影、事件、游戲、顯卡等多種類別實(shí)體。

在實(shí)驗(yàn)的過(guò)程中，上下文信息使用了在搜索引擎（百度）上的結(jié)果頁(yè)面，將召回的各條結(jié)果信息分條作為實(shí)體-屬性對(duì)的上下文。對(duì)于每組搜索關(guān)鍵字獲取的結(jié)果數(shù)量k設(shè)為10。

模型的訓(xùn)練數(shù)據(jù)包括以下2 個(gè)部分：1）來(lái)自文獻(xiàn)［24］所提供的中文機(jī)器閱讀理解數(shù)據(jù)集；2）通過(guò)遠(yuǎn)程監(jiān)督方法從CN-DBpedia 和百度搜索引擎中得到的數(shù)據(jù)集。

4.2 候選屬性值抽取分析

4.2.1 實(shí)驗(yàn)設(shè)置

為驗(yàn)證本文所提出的候選屬性值抽取模塊（機(jī)器閱讀理解模型）的有效性，選擇了另外3 種模型作為基線。

1）序列標(biāo)注模型OpenTag［13］

OpenTag 是最新的一種適用于開放域?qū)傩灾党槿〉幕谧宰⒁饬C(jī)制的序列標(biāo)注模型，其在多個(gè)數(shù)據(jù)集上有著超過(guò)常用的BiLSTM 以及BiLSTMCRF 模型的效果。

2）機(jī)器閱讀理解模型QANET［14］

QANET 是由Google Brain 所提出的基于注意力機(jī)制的機(jī)器閱讀理解模型，它長(zhǎng)期在機(jī)器閱讀理解的SQuAD 數(shù)據(jù)集的排行榜上位置靠前。

3）去除表示增強(qiáng)的MCKE?NA 模型

為驗(yàn)證表示增強(qiáng)部分的效果，本文也引入了不包含表示增強(qiáng)部分，僅使用字符級(jí)表示作為輸入的MCKE 模型進(jìn)行對(duì)比。

為評(píng)測(cè)模型本身的效果，在最終抽取結(jié)果的選定上，使用了一種簡(jiǎn)單策略來(lái)計(jì)算最終的候選屬性值分?jǐn)?shù)，類似于2.2 節(jié)所述，對(duì)有多個(gè)來(lái)源的候選屬性值，令其抽取分?jǐn)?shù)為與之相同的所有候選屬性值的置信度之和。最后，選取分?jǐn)?shù)最高的候選屬性值作為輸出，對(duì)于模型的輸出結(jié)果，其閾值設(shè)為β=0.1。

4.2.2 實(shí)驗(yàn)結(jié)果與分析

表1 列出了各基線模型與本文MCKE 模型在兩組數(shù)據(jù)上通過(guò)執(zhí)行上述簡(jiǎn)單策略進(jìn)行屬性值抽取的結(jié)果，并分別評(píng)測(cè)了抽取結(jié)果的準(zhǔn)確率以及抽取結(jié)果PR 曲線（Precision-Recall 曲線）的曲線下面積（AUC）。

表1 屬性值抽取模型效果Table 1 Effect of attribute value extraction models

從表1 可以看出，本文的MCKE 模型在兩組數(shù)據(jù)中均在準(zhǔn)確率和AUC 上超過(guò)了所選的對(duì)比基線。在實(shí)驗(yàn)中發(fā)現(xiàn)，基于標(biāo)注模型的OpenTag 方法的表現(xiàn)受限于訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)，難以召回訓(xùn)練數(shù)據(jù)中較為稀有的屬性所對(duì)應(yīng)的屬性值，導(dǎo)致其召回率的下降。并且，由于OpenTag 僅返回標(biāo)注結(jié)果，難以使用閾值對(duì)結(jié)果進(jìn)行篩選，導(dǎo)致了其在準(zhǔn)確率上表現(xiàn)偏低，對(duì)于QANET 和MCKE-NA 兩種機(jī)器閱讀理解模型，受限于它們本身對(duì)表示增強(qiáng)的缺乏，使得它們?cè)谙∮袑傩灾行Ч?，而MCKE-NA 由于缺乏詞級(jí)別的表示學(xué)習(xí)，導(dǎo)致其結(jié)果屬性值不完整的情況較多。

表2 列出了實(shí)驗(yàn)中2 種機(jī)器閱讀理解模型得到的抽取結(jié)果。從表2 可以看出，對(duì)于顯卡相關(guān)的在知識(shí)庫(kù)中較為稀有的屬性，通過(guò)使用機(jī)器閱讀理解模型可以實(shí)現(xiàn)抽取，并且MCKE 模型的性能更強(qiáng)。同時(shí)，對(duì)于電影相關(guān)屬性，得益于MCKE 模型所采用的更優(yōu)秀的輸入表示學(xué)習(xí)方法與表示增強(qiáng)方法，可以抽取出語(yǔ)義更加完整的屬性值結(jié)果。

表2 屬性值抽取模型結(jié)果實(shí)例Table 2 Result examples of attribute value extraction models

4.3 眾包驗(yàn)證分析

4.3.1 實(shí)驗(yàn)設(shè)置

為驗(yàn)證眾包驗(yàn)證步驟的有效性，在本文實(shí)驗(yàn)中，將每個(gè)通過(guò)MCKE 模型得到的候選屬性值及其相關(guān)上下文輸入到眾包驗(yàn)證模塊，并邀請(qǐng)了5 位志愿者，每人隨機(jī)完成150 個(gè)眾包任務(wù)。對(duì)眾包結(jié)果進(jìn)行統(tǒng)計(jì)后調(diào)整權(quán)重，得到最終的抽取結(jié)果。

4.3.2 眾包驗(yàn)證分析結(jié)果

表3 列出了隨機(jī)進(jìn)行750 個(gè)任務(wù)以及其中前200 個(gè)任務(wù)，在眾包驗(yàn)證之后所實(shí)現(xiàn)的抽取效果。通過(guò)對(duì)總共750 個(gè)眾包任務(wù)的日志進(jìn)行分析，發(fā)現(xiàn)本文眾包任務(wù)的平均響應(yīng)時(shí)間為4.21 s。

表3 眾包驗(yàn)證效果Table 3 Effect of crowdsourcing validation

實(shí)驗(yàn)結(jié)果表明，在增加了眾包驗(yàn)證的步驟后，在其他實(shí)驗(yàn)設(shè)置相同的情況下，可以糾正MCKE 模型抽取結(jié)果中的錯(cuò)誤，使得準(zhǔn)確率大幅上升，并且可以發(fā)現(xiàn)，其中存在的一些由于模型缺乏訓(xùn)練數(shù)據(jù)所導(dǎo)致的常識(shí)性錯(cuò)誤結(jié)果以及其中出現(xiàn)了邊界錯(cuò)誤的結(jié)果，可以被較快糾正，如表4 所示。

表4 眾包驗(yàn)證結(jié)果實(shí)例Table 4 Result examples of crowdsourcing validation

另外，在進(jìn)行分析的過(guò)程中發(fā)現(xiàn)，通過(guò)調(diào)整置信度閾值，本文方法在閾值β為0.4 的情況下抽取出屬性值的準(zhǔn)確率為0.857。

5 結(jié)束語(yǔ)

本文針對(duì)日益增長(zhǎng)的知識(shí)圖譜數(shù)據(jù)需求，提出一種基于機(jī)器閱讀理解以及眾包驗(yàn)證的實(shí)體屬性值抽取方法。從互聯(lián)網(wǎng)獲取相關(guān)上下文，利用機(jī)器閱讀理解模型從相關(guān)上下文中獲取候選屬性值，通過(guò)眾包驗(yàn)證從候選屬性值中找出最優(yōu)的抽取結(jié)果。實(shí)驗(yàn)結(jié)果表明，該框架能夠有效地從互聯(lián)網(wǎng)語(yǔ)料中抽取出實(shí)體屬性值，且提出的眾包任務(wù)能夠以較高的效率提升整體抽取效果。本文對(duì)于眾包結(jié)果的應(yīng)用僅針對(duì)抽取模型的結(jié)果驗(yàn)證，而從眾包結(jié)果中獲取的其他信息，也可成為模型增強(qiáng)訓(xùn)練的重要反饋，對(duì)于該部分信息的應(yīng)用將是下一步的研究重點(diǎn)。