• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語義特征提取與層次結(jié)構(gòu)的問題生成方法

      2023-03-09 12:49:32白詩瑤呂佳鍵
      關(guān)鍵詞:三元組語義節(jié)點(diǎn)

      白詩瑤, 呂佳鍵, 彭 濤,3, 劉 露,3, 崔 海

      (1.吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130012;2.吉林大學(xué) 軟件學(xué)院, 長(zhǎng)春 130012; 3.吉林大學(xué) 符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室, 長(zhǎng)春 130012)

      問題生成是自然語言處理中一個(gè)重要且具有挑戰(zhàn)性的任務(wù), 旨在基于給定的文本自動(dòng)生成一段流暢且符合上下文語境的問題[1-4].其可應(yīng)用于包括對(duì)話系統(tǒng)、教育[5]以及醫(yī)療[6]等多個(gè)領(lǐng)域.并且作為問答系統(tǒng)的對(duì)偶任務(wù), 可用于擴(kuò)充訓(xùn)練數(shù)據(jù)集以提升任務(wù)表現(xiàn)[7].針對(duì)問題生成任務(wù)目前主要有兩種方法, 早期主要是基于規(guī)則的方法, 即使用人工構(gòu)建的模式或規(guī)則將給定的文本轉(zhuǎn)化為對(duì)應(yīng)的問題.Heilman等[8]使用一種樹形查詢語言Tregex簡(jiǎn)化輸入文本, 抽取出輸入文本的不同成分然后制定不同的替換策略;Chali等[9]則在此基礎(chǔ)上識(shí)別出文本中的命名實(shí)體并作為文本的話題, 然后基于話題制定問題模板.但基于規(guī)則的方法因需手動(dòng)構(gòu)建規(guī)則, 既耗費(fèi)時(shí)間, 也浪費(fèi)人力資源.近年來, 隨著深度學(xué)習(xí)的不斷發(fā)展, 基于深度學(xué)習(xí)的方法已有很多, 其能很好地節(jié)約人力和時(shí)間成本.Du等[10]首先提出了一種基于注意力機(jī)制生成問題的序列到序列模型.在此基礎(chǔ)上, 考慮答案對(duì)于問題的重要性, 即生成的問題是否能用目標(biāo)答案回答以及是否與答案相關(guān)等, Zhou等[11]采用BIO標(biāo)記策略標(biāo)記文本中答案出現(xiàn)的位置;Sun等[12]提出了基于目標(biāo)答案顯式地生成匹配的疑問詞, 提出了答案;Kim等[13]將文本和答案分別編碼, 并設(shè)計(jì)了一種關(guān)鍵詞網(wǎng)絡(luò)建模文本中除答案外的其他內(nèi)容與答案的聯(lián)系.針對(duì)建模文本與答案的關(guān)系, Song等[14]設(shè)計(jì)了多種答案和文本的匹配策略.

      但僅考慮答案作為補(bǔ)充信息引導(dǎo)問題生成還不夠, 因?yàn)楫?dāng)文本的語義較復(fù)雜時(shí), 除答案外還有很多事實(shí)信息, 這些信息同樣重要, 并且僅憑簡(jiǎn)單的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的模型很難完整獲取到.針對(duì)上述問題, Wang等[15]提出了基于路徑進(jìn)行問題生成的新任務(wù), 先使用一些工具將文本轉(zhuǎn)化為知識(shí)圖譜, 再將對(duì)應(yīng)知識(shí)圖譜中與目標(biāo)答案相關(guān)的事實(shí)信息以路徑的形式抽取出, 將路徑作為輸入生成問題.新任務(wù)通過顯式地建模文本中的語義信息生成更相關(guān)的、語義更豐富的問題, 但針對(duì)該任務(wù)已有的方法目前存在以下問題: 1) 路徑并不是簡(jiǎn)單的序列文本, 它是三元組的有序集合, 是文本對(duì)應(yīng)的知識(shí)圖譜的子集, 目前已有的方法僅使用基于RNN的模型無法建模這種復(fù)雜的輸入;2) 已有方法忽略了路徑的局部結(jié)構(gòu)信息, 并且路徑的節(jié)點(diǎn)并不完全相同, 而是包括實(shí)體和關(guān)系兩種, 這兩種節(jié)點(diǎn)所包含的局部結(jié)構(gòu)信息不同.

      為解決上述問題, 本文提出一種基于語義特征提取的方法建模路徑.該方法首先使用基于自注意力的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)獲取路徑包含的序列特征作為路徑的全局特征, 同時(shí)設(shè)計(jì)一種雙向的卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)獲取路徑的局部結(jié)構(gòu)特征.在提取特征后, 為更好地融合特征信息以獲得最終的路徑表示, 額外設(shè)計(jì)了一種層次結(jié)構(gòu).該方法針對(duì)復(fù)雜語義文本設(shè)計(jì)了不同的特征提取策略及對(duì)應(yīng)模型, 能更完整地建模文本的語義信息, 使生成的問題也更相關(guān), 在數(shù)據(jù)集SQuAD[16]上的實(shí)驗(yàn)結(jié)果表明, 本文方法比目前已有的方法效果更佳.

      1 基于語義特征提取與層次結(jié)構(gòu)的問題生成框架

      本文基于語義特征提取的問題生成框架共由3個(gè)模塊組成, 包括文本編碼器、路徑編碼器和解碼器, 整體框架如圖1所示.首先經(jīng)由文本編碼器編碼給定的輸入文本X, 然后基于文本編碼利用路徑編碼器得到路徑P的表示, 最后在路徑和文本的指導(dǎo)下解碼器生成問題Y的每個(gè)單詞.

      1.1 文本編碼器

      路徑雖然已經(jīng)包含了與答案相關(guān)的大部分內(nèi)容, 但初始文本仍包含路徑?jīng)]有的信息, 如答案在文本中的位置等, 因此本文同時(shí)編碼文本信息對(duì)路徑進(jìn)行補(bǔ)充.本文采用的文本編碼器結(jié)構(gòu)如圖2所示.首先將文本中的每個(gè)單詞轉(zhuǎn)化為對(duì)應(yīng)的詞向量, 然后標(biāo)注文本中路徑頭尾實(shí)體出現(xiàn)的位置, 得到位置向量與詞嵌入拼接, 輸入到編碼層得到文本的上下文表示.

      圖1 本文方法的整體框架Fig.1 Overall architecture of proposed method

      圖2 文本編碼器Fig.2 Context encoder

      1.2 路徑編碼器

      圖3 路徑編碼器Fig.3 Path encoder

      本文提出的基于語義特征提取和層次結(jié)構(gòu)的路徑編碼過程如圖3所示.由圖3可見, 路徑首先輸入到一個(gè)上下文編碼層獲得其上下文信息, 然后基于此通過自注意力層提取全局特征, 并設(shè)計(jì)一個(gè)雙向的CNN(BiCNN)提取路徑的局部特征, 最后將節(jié)點(diǎn)嵌入與每個(gè)節(jié)點(diǎn)的特征拼接,再通過一個(gè)高層的BiLSTM得到最終的路徑表示.通過設(shè)計(jì)一個(gè)層次結(jié)構(gòu)即底層的輸入和特征的輸出拼接再利用高層網(wǎng)絡(luò)進(jìn)行融合, 能得到更富有語義信息的路徑表示.同時(shí), 本文考慮了路徑復(fù)雜結(jié)構(gòu)所隱含的豐富內(nèi)容, 并針對(duì)性地設(shè)計(jì)了網(wǎng)絡(luò)結(jié)構(gòu)捕捉這些語義信息.

      1.2.1 節(jié)點(diǎn)嵌入與上下文編碼

      因?yàn)槁窂街械拿總€(gè)節(jié)點(diǎn)都對(duì)應(yīng)知識(shí)圖譜中的實(shí)體或關(guān)系, 即每個(gè)節(jié)點(diǎn)可能會(huì)包含多個(gè)單詞, 因此為獲取每個(gè)節(jié)點(diǎn)的向量表示, 假設(shè)路徑包含n個(gè)節(jié)點(diǎn), 本文通過以下計(jì)算獲得:

      (1)

      其中pi表示路徑中的第i個(gè)節(jié)點(diǎn), 奇數(shù)表示當(dāng)前節(jié)點(diǎn)是實(shí)體ei, 偶數(shù)表示當(dāng)前節(jié)點(diǎn)是關(guān)系ri, 即對(duì)于路徑上的每個(gè)節(jié)點(diǎn), 都對(duì)節(jié)點(diǎn)中的每個(gè)單詞得到詞嵌入, 然后取平均作為節(jié)點(diǎn)嵌入向量, 由此得到路徑嵌入表示P=(p1,p2,…,pn).

      1.2.2 全局特征提取

      路徑中每個(gè)節(jié)點(diǎn)在整個(gè)路徑中的重要程度不同, 為衡量這種重要性, 賦予重要程度更高節(jié)點(diǎn)更大的權(quán)重, 本文使用自注意力層計(jì)算每個(gè)節(jié)點(diǎn)與整條路徑的匹配性, 得到每個(gè)節(jié)點(diǎn)的全局特征, 對(duì)于第i個(gè)節(jié)點(diǎn), 計(jì)算方式如下:

      1.2.3 局部特征提取

      雖然路徑整體上是一個(gè)時(shí)序文本序列, 但由于其為由文本對(duì)應(yīng)的知識(shí)圖譜中抽取出, 因此路徑同時(shí)也是有序三元組的集合, 如圖4所示, (holy cross father john francis, was elected, president)和(present, of, notre)是路徑中所包含的兩個(gè)三元組, 這不能在使用RNN模型時(shí)同時(shí)獲得.考慮到對(duì)于每個(gè)節(jié)點(diǎn), 局部結(jié)構(gòu)都是三元組的情況, 以及受文獻(xiàn)[17]在自然語言處理任務(wù)上使用CNN的啟發(fā), 并且CNN的卷積層能提取輸入的局部結(jié)構(gòu)信息, 因此本文使用基于CNN的模型提取每個(gè)節(jié)點(diǎn)的局部特征.此外, 由圖4可見, 節(jié)點(diǎn)是實(shí)體或關(guān)系所具有的局部結(jié)構(gòu)不同.當(dāng)節(jié)點(diǎn)是實(shí)體時(shí), 其可作為頭實(shí)體出現(xiàn)在一個(gè)三元組中, 同時(shí)也可作為尾實(shí)體出現(xiàn)在上一個(gè)三元組中, 即實(shí)體具有兩個(gè)局部特征的共同信息;當(dāng)節(jié)點(diǎn)是關(guān)系時(shí), 它只參與到一個(gè)三元組中.因此為不丟失信息, 本文提出一種BiCNN結(jié)構(gòu), 與BiLSTM思想相近, 考慮路徑的原始序列以及反轉(zhuǎn)序列作為CNN的輸入, 將每次提取三元組的特征作為三元組中每個(gè)節(jié)點(diǎn)的局部結(jié)構(gòu)特征.在輸入原始序列時(shí), 每次CNN對(duì)三元組中的實(shí)體-關(guān)系-實(shí)體進(jìn)行卷積計(jì)算, 提取出其特征作為3個(gè)節(jié)點(diǎn)具有的共同特征, 即對(duì)于尾實(shí)體, 其所具有的也只是作為尾實(shí)體時(shí)三元組的特征, 而沒有同時(shí)獲得作為頭實(shí)體的三元組特征.當(dāng)原始序列輸入結(jié)束后, 再輸入反轉(zhuǎn)的序列進(jìn)入另一層CNN, 即能得到它作為頭實(shí)體時(shí)具有的結(jié)構(gòu)信息.圖4給出了具體的實(shí)例, 其中箭頭表示BiCNN的每一步.同時(shí), 為了每次都對(duì)三元組結(jié)構(gòu)提取特征, 將核大小設(shè)為3, 步長(zhǎng)設(shè)為2.最后將兩個(gè)方向的輸出進(jìn)行拼接, 即可得到每個(gè)節(jié)點(diǎn)的局部特征.

      圖4 路徑局部結(jié)構(gòu)Fig.4 Local structure of path

      1.2.4 層次結(jié)構(gòu)設(shè)計(jì)

      為更好地融合節(jié)點(diǎn)的特征信息, 本文提出一種層次結(jié)構(gòu), 將上文得到的全局和局部特征以及節(jié)點(diǎn)的嵌入向量拼接起來, 輸入到一個(gè)高層的BiLSTM中進(jìn)行編碼, 得到路徑的最終表示.

      1.3 解碼器

      本文采用單向的LSTM作為解碼器生成問題, 將上述模塊得到的最后時(shí)刻的文本表示和路徑表示拼接起來初始化解碼器.在t時(shí)刻, 解碼器讀取上一時(shí)刻生成的單詞yt-1和隱層狀態(tài)st-1更新當(dāng)前時(shí)刻的隱層狀態(tài)st, 因?yàn)槊恳粫r(shí)刻生成的單詞關(guān)注的原文信息不同, 故本文采用注意力機(jī)制計(jì)算每一時(shí)刻的文本注意力向量ct和路徑注意力向量pt, 以文本注意力向量為例, 計(jì)算方法如下:

      最后將得到的當(dāng)前時(shí)刻隱層向量、文本注意力向量和路徑注意力向量拼接起來, 使用一個(gè)兩層的全連接網(wǎng)絡(luò)預(yù)測(cè)問題的下一個(gè)單詞:

      P(yt|y

      (7)

      2 實(shí) 驗(yàn)

      2.1 數(shù)據(jù)集

      Stanford問答數(shù)據(jù)集(the Stanford question answering dataset, SQuAD)是問題生成任務(wù)和機(jī)器閱讀理解領(lǐng)域常用的數(shù)據(jù)集.該數(shù)據(jù)集來源于維基百科的536篇文章, 共有近10萬個(gè)問題-答案對(duì).為公平地對(duì)比模型的性能, 遵循文獻(xiàn)[15]的方法構(gòu)建事實(shí)路徑, 即首先利用解析器將文本轉(zhuǎn)化為知識(shí)圖譜, 然后將答案作為尾實(shí)體, 參考問題中出現(xiàn)的實(shí)體作為頭實(shí)體, 在知識(shí)圖譜中找到對(duì)應(yīng)的路徑, 過程中忽略關(guān)系的方向.

      2.2 參數(shù)設(shè)定

      本文提出的模型基于Pytorch實(shí)現(xiàn), 其中詞向量使用300維的GloVe[18]進(jìn)行初始化;CNN 層卷積后的特征向量為50維;批量大小為32;迭代次數(shù)設(shè)為20;學(xué)習(xí)率為0.001;使用Adam進(jìn)行優(yōu)化.

      2.3 對(duì)比模型

      為評(píng)估本文方法在問題生成任務(wù)上的性能, 選取多個(gè)基于端到端模型的方法進(jìn)行對(duì)比, 包括基于注意力機(jī)制的NQG模型[10], 采用多種策略建模答案和文本之間關(guān)系的MPQG模型[14], 提出一種最大化的指針機(jī)制優(yōu)化源復(fù)制的s2s-a-at-mcp-gsa模型[19], 關(guān)注答案本身信息的ASs2s模型[13], 基于事實(shí)路徑抽取語義信息的PathQG模型和基于前者的變分模型PathQG-V[15].

      2.4 評(píng)價(jià)指標(biāo)

      本文使用衡量生成任務(wù)表現(xiàn)的BLEU1-4,METEOR和ROUGE-L作為評(píng)價(jià)指標(biāo).同時(shí), 為更好地衡量生成的問題所具有的語義信息, 本文額外采用了SPICE[20]評(píng)價(jià)生成的問題和參考問題之間的語義相似度, 將生成的問題和給出的參考問題都轉(zhuǎn)化為知識(shí)圖譜, 計(jì)算生成問題含有共同事實(shí)的準(zhǔn)確率和召回率, 進(jìn)而計(jì)算出指標(biāo)值.假設(shè)生成的問題為y, 參考問題為r, 則計(jì)算方法如下:

      其中: 函數(shù)G返回輸入對(duì)應(yīng)的知識(shí)圖譜; 函數(shù)O,E,K分別表示輸入所具有的實(shí)體、關(guān)系以及有關(guān)系的實(shí)體, 基于以上函數(shù)能得到輸入對(duì)應(yīng)的事實(shí)信息;P和R分別為計(jì)算出的準(zhǔn)確率和召回率, 通過平均準(zhǔn)確率和召回率計(jì)算出指標(biāo)值, 能更全面地評(píng)估模型的性能.

      2.5 實(shí)驗(yàn)結(jié)果與分析

      本文模型以及對(duì)比模型在各評(píng)價(jià)指標(biāo)上的結(jié)果列于表1.由表1可見, 本文模型在大部分指標(biāo)上都得到了最優(yōu)結(jié)果, 尤其是在BLEU-4上提升達(dá)4.9%, 表明本文模型不僅在每個(gè)單詞的預(yù)測(cè)上都優(yōu)于已有模型, 而且在粒度更大的詞語預(yù)測(cè)中準(zhǔn)確率也比其他模型更高.同時(shí), 相比于同樣使用路徑建模事實(shí)的PathQG和PathQG-V模型, 本文模型性能更好, 證實(shí)本文方法能更好地建模路徑的復(fù)雜結(jié)構(gòu)信息.

      表1 本文模型與對(duì)比基線模型的實(shí)驗(yàn)結(jié)果

      為考察本文方法各模塊的作用, 進(jìn)行不同模塊的消融實(shí)驗(yàn), 結(jié)果列于表2, 其中w/o表示方法未使用對(duì)應(yīng)的那一模塊.

      表2 本文方法的消融實(shí)驗(yàn)

      由表2可見, 移除本文方法的各模塊都使模型的性能有不同程度的下降, 說明了本文方法各模塊的有效性.并且移除局部特征提取模塊導(dǎo)致了性能的最大下降, 也說明局部結(jié)構(gòu)所含有的語義信息補(bǔ)充了時(shí)序編碼的不完整語義, 本文設(shè)計(jì)的BiCNN結(jié)構(gòu)能提取出這些信息.

      為更直觀地驗(yàn)證本文方法的性能, 表3列出了兩個(gè)真實(shí)案例, 對(duì)于每個(gè)實(shí)例分別給出參考問題、本文方法生成的問題以及PathQG模型生成的問題, 文本中下劃線部分為答案.例1中, PathQG模型生成的問題所包含的信息不完整, 同時(shí)對(duì)于選舉年份這部分也有一部分歧義, 因?yàn)榻o定文本中有兩個(gè)選舉年份, 不同年份表示的職位不同.而本文方法則生成了與參考問題幾乎一致的問題, 并且也指明了選舉職位, 說明本文方法生成問題的語義較完整且準(zhǔn)確.例2中, 對(duì)于答案為體育館這一情況, PathQG模型生成的問題只有主語與體育館相關(guān), 而其他內(nèi)容并不是給定文本相關(guān)的內(nèi)容, 并且也未識(shí)別出路徑中棒球這一相關(guān)事實(shí), 而本文方法生成的問題則建模出了這一事實(shí), 但相比于參考問題, 缺少了位置這一信息, 這可能是因?yàn)槌槿〉穆窂街胁⒉话撔畔?

      表3 生成問題的實(shí)例

      綜上所述, 針對(duì)輸入語義復(fù)雜情況下傳統(tǒng)方法建模語義可能不完整的問題, 本文提出了一種基于語義特征提取與層次結(jié)構(gòu)進(jìn)行問題生成的方法, 提取出了路徑的全局特征和局部特征, 并為提取局部特征提出了基于CNN的新結(jié)構(gòu).同時(shí), 為更好地融合特征到路徑表示中, 還設(shè)計(jì)了一種層次結(jié)構(gòu).實(shí)驗(yàn)結(jié)果表明, 本文方法能更完整地建模語義信息, 并且該方法的每個(gè)模塊都具有一定效果.

      猜你喜歡
      三元組語義節(jié)點(diǎn)
      基于語義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
      語言與語義
      關(guān)于余撓三元組的periodic-模
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
      認(rèn)知范疇模糊與語義模糊
      建德市| 龙门县| 镇坪县| 津南区| 健康| 前郭尔| 平顺县| 涟水县| 南乐县| 隆昌县| 合作市| 武乡县| 原平市| 陈巴尔虎旗| 桑植县| 竹山县| 宁陵县| 神农架林区| 定安县| 建始县| 宿松县| 达拉特旗| 淮南市| 新绛县| 资阳市| 邹城市| 甘南县| 盐池县| 镇安县| 淮滨县| 洪洞县| 光山县| 兰州市| 万荣县| 密山市| 广德县| 陵川县| 句容市| 合阳县| 萍乡市| 扎囊县|