• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于ERNIE-BiGRU模型的摘要語(yǔ)步自動(dòng)識(shí)別研究

    2023-01-18 03:37:26何茜茹喬曉東
    中文信息學(xué)報(bào) 2022年11期
    關(guān)鍵詞:語(yǔ)步結(jié)構(gòu)化語(yǔ)義

    溫 浩,何茜茹,王 杰,喬曉東,張 鵬

    (1. 西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710311;2. 北京萬方數(shù)據(jù)股份有限公司 北京100038;3. 西安建筑科技大學(xué) 藝術(shù)學(xué)院,陜西 西安 710311)

    0 引言

    學(xué)術(shù)論文是科研工作者研究成果的體現(xiàn),而摘要作為論文的開頭和內(nèi)容的提煉,是學(xué)術(shù)論文中必不可少的內(nèi)容。國(guó)家標(biāo)準(zhǔn)《文摘編寫規(guī)則》中將摘要定義為: “以提供文獻(xiàn)內(nèi)容梗概為目的,不加評(píng)論和補(bǔ)充解釋,簡(jiǎn)明、確切地記述文獻(xiàn)重要內(nèi)容的短文?!盵1]通過摘要,研究者能直觀地了解到全文內(nèi)容和邏輯結(jié)構(gòu),即使不閱讀整篇論文,也能了解到該文獻(xiàn)的主要工作。但近年來,論文數(shù)量呈爆炸式增長(zhǎng),研究者很難在龐雜的文獻(xiàn)信息中快速定位到所需內(nèi)容,所以亟需構(gòu)建一些自動(dòng)化的算法來對(duì)大量的摘要內(nèi)容進(jìn)行分類和提取,以幫助科研工作者更有效地獲取論文中的關(guān)鍵信息。為實(shí)現(xiàn)上述目標(biāo),本文從摘要語(yǔ)句的內(nèi)在結(jié)構(gòu)著手分析,對(duì)摘要的語(yǔ)句進(jìn)行分類。在摘要中,語(yǔ)句的結(jié)構(gòu)就是摘要的語(yǔ)步,以下簡(jiǎn)稱語(yǔ)步[2]。對(duì)摘要的語(yǔ)句分類,就是語(yǔ)步分析或識(shí)別、分類。摘要中語(yǔ)步作為一個(gè)基本功能結(jié)構(gòu),有很強(qiáng)的功能性和目的性,能夠精煉地反映學(xué)術(shù)論文所表達(dá)的主要意圖。目前對(duì)語(yǔ)步識(shí)別等工作的研究較少,又因?yàn)樽髡叩臅鴮懥?xí)慣不同,所以其功能結(jié)構(gòu)還沒有統(tǒng)一的表示模型。特別是各個(gè)刊物對(duì)摘要語(yǔ)步標(biāo)注要求的不同,又給語(yǔ)步的標(biāo)識(shí)帶來了一定的不確定性。例如,有的刊物要求作者自行標(biāo)記摘要的內(nèi)容,即用小標(biāo)題在摘要的若干句子前標(biāo)明這些語(yǔ)句的功能,這類摘要就被稱為結(jié)構(gòu)化摘要;而有些刊物沒有做這種標(biāo)注的要求,只是展現(xiàn)一段文字,那么這類摘要就被稱為非結(jié)構(gòu)化摘要。目前,實(shí)現(xiàn)語(yǔ)步自動(dòng)化識(shí)別的算法大多是基于結(jié)構(gòu)化摘要,而很多摘要的表現(xiàn)形式依舊為非結(jié)構(gòu)化[3-4],若直接將目前算法用于非結(jié)構(gòu)化摘要語(yǔ)步識(shí)別研究則還存在以下困難:

    (1) 作者在摘要寫作時(shí),為了能夠保證內(nèi)容的完整性,一個(gè)語(yǔ)句中往往包含多個(gè)語(yǔ)步結(jié)構(gòu),這就導(dǎo)致語(yǔ)步結(jié)構(gòu)特征不明顯,若僅需要獲取特定的某個(gè)功能語(yǔ)步,則需要通過人工的方式,從整段非結(jié)構(gòu)化摘要中分析、提取所需的功能語(yǔ)步,難以通過自動(dòng)化的方式準(zhǔn)確提取和定位所需語(yǔ)步,這極大耗費(fèi)科研人員的精力。

    (2) 語(yǔ)步結(jié)構(gòu)中的歧義現(xiàn)象也成為了制約語(yǔ)步分析的巨大障礙,歧義現(xiàn)象容易產(chǎn)生語(yǔ)義混淆,導(dǎo)致算法很難充分學(xué)習(xí)到語(yǔ)步語(yǔ)義信息,造成最終識(shí)別準(zhǔn)確率不高。

    為了克服以上困難,實(shí)現(xiàn)摘要語(yǔ)步的自動(dòng)化識(shí)別。本文嘗試從自然語(yǔ)言處理的重要環(huán)節(jié)即句法分析角度出發(fā),在詳細(xì)分析非結(jié)構(gòu)化摘要語(yǔ)步結(jié)構(gòu)的同時(shí)兼顧結(jié)構(gòu)化摘要的語(yǔ)步結(jié)構(gòu),提出了基于ERNIE-BiGRU模型的摘要語(yǔ)步自動(dòng)識(shí)別算法。該算法首先根據(jù)句子的內(nèi)容和含義,將語(yǔ)步的結(jié)構(gòu)統(tǒng)一標(biāo)注為背景、目的、方法、結(jié)果、結(jié)論五類;其次,按以句號(hào)結(jié)尾的完整句子級(jí)別將摘要?jiǎng)澐譃閱握Z(yǔ)步結(jié)構(gòu)和多語(yǔ)步結(jié)構(gòu);再通過研究多語(yǔ)步結(jié)構(gòu)的語(yǔ)義信息和層次結(jié)構(gòu),提出基于句法依存關(guān)系的多語(yǔ)步結(jié)構(gòu)拆分法,并利用該方法對(duì)摘要多語(yǔ)步結(jié)構(gòu)進(jìn)行自動(dòng)化拆分,獲得多個(gè)單語(yǔ)步結(jié)構(gòu),并且基于上述算法劃分得到的單語(yǔ)步結(jié)構(gòu)構(gòu)建相應(yīng)的訓(xùn)練語(yǔ)料庫(kù);最后,對(duì)經(jīng)過處理的數(shù)據(jù)使用ERNIE模型進(jìn)行訓(xùn)練,得到語(yǔ)步的詞向量特征,并且同時(shí)考慮到文本上下文關(guān)系的信息,將訓(xùn)練得到的詞向量作為雙向門限循環(huán)單元(BiGRU)的輸入進(jìn)行特征識(shí)別,以得到最終的語(yǔ)步分類結(jié)果。通過實(shí)驗(yàn)表明,本文提出的算法取得了很好的語(yǔ)步識(shí)別效果。

    本文的組織結(jié)構(gòu)安排如下: 第1節(jié)介紹目前語(yǔ)步識(shí)別的相關(guān)算法和相關(guān)概念;第2節(jié)介紹本文所提出的算法,即基于ERNIE-BiGRU模型的摘要語(yǔ)步自動(dòng)識(shí)別算法;第3節(jié)給出實(shí)驗(yàn)結(jié)果,并與其他相關(guān)算法進(jìn)行比較分析;第4節(jié)對(duì)摘要識(shí)別任務(wù)進(jìn)行總結(jié)和展望。

    1 相關(guān)研究

    近年來,中國(guó)整體科研實(shí)力顯著提升,學(xué)術(shù)論文的數(shù)量增長(zhǎng)迅猛,如何從海量學(xué)術(shù)論文中有效尋找出自己所需的內(nèi)容成為亟需解決的問題。相應(yīng)的,摘要作為對(duì)學(xué)術(shù)論文內(nèi)容的總結(jié),在尋找相關(guān)研究的過程中是必不可少的角色。然而,現(xiàn)有的摘要在表示形式上,存在標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一的問題。不同期刊對(duì)摘要的書寫有著不同的要求,部分期刊要求作者以結(jié)構(gòu)化形式編寫摘要,但對(duì)摘要語(yǔ)步要求又沒有統(tǒng)一標(biāo)準(zhǔn),就如有的期刊要求摘要以“目的”“方法”“結(jié)果”“結(jié)論”四種語(yǔ)步進(jìn)行標(biāo)注;有的期刊要求以“目的”“方法”“結(jié)果”“局限”和“結(jié)論”等語(yǔ)步進(jìn)行標(biāo)注,這就增加了語(yǔ)步標(biāo)注的困難。除此之外,大部分期刊仍以非結(jié)構(gòu)化的形式展現(xiàn)摘要,非結(jié)構(gòu)化摘要中各語(yǔ)步混雜在一整段的摘要片段中,使讀者很難快速掌握非結(jié)構(gòu)化摘要中的關(guān)鍵語(yǔ)步。此外,目前實(shí)現(xiàn)自動(dòng)識(shí)別語(yǔ)步的算法,大多都是基于結(jié)構(gòu)化摘要的語(yǔ)步識(shí)別,其中比較有代表性的是文獻(xiàn)[1,5-6]等的研究。文獻(xiàn)[5]提出將文摘語(yǔ)步轉(zhuǎn)化為由位置、類別詞相似度、核心動(dòng)詞、上下文信息等一系列文本特征表示的數(shù)據(jù)集合,采用機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)了語(yǔ)句自動(dòng)分類;文獻(xiàn)[6]在大規(guī)模結(jié)構(gòu)化摘要語(yǔ)料的基礎(chǔ)上,引入基于深度學(xué)習(xí)語(yǔ)步識(shí)別模型,對(duì)比分析不同深度學(xué)習(xí)模型在科技文獻(xiàn)摘要語(yǔ)步識(shí)別的效果;文獻(xiàn)[1]提出了一種以字為基本語(yǔ)義單元,利用摘要中所有字所包含的語(yǔ)義信息,構(gòu)建了基于深度學(xué)習(xí)語(yǔ)步自動(dòng)識(shí)別模型。

    通過分析相關(guān)研究算法,發(fā)現(xiàn)已有算法除了存在只針對(duì)結(jié)構(gòu)化摘要分析的局限之外,還存在沒有充分利用句法結(jié)構(gòu)來提升語(yǔ)步識(shí)別效果的缺陷。雖然也有研究者加入了以字為基本單位的語(yǔ)義信息,但在中文信息處理中,基于詞的語(yǔ)義信息比基于字的語(yǔ)義信息更加穩(wěn)定,更加明確。綜合分析了現(xiàn)有語(yǔ)步識(shí)別算法的優(yōu)缺點(diǎn)后,本文重點(diǎn)嘗試在非結(jié)構(gòu)化文摘的基礎(chǔ)上兼顧結(jié)構(gòu)化文摘,實(shí)現(xiàn)摘要語(yǔ)步自動(dòng)識(shí)別研究,最后在實(shí)驗(yàn)中取得了相對(duì)不錯(cuò)的識(shí)別效果,在一定程度上說明了句法分析是摘要語(yǔ)步識(shí)別任務(wù)的重要前提。下一節(jié)將詳述本文提出的基于ERNIE-BiGRU模型的摘要語(yǔ)步識(shí)別算法。

    2 摘要語(yǔ)步自動(dòng)識(shí)別研究

    本文提出的基于ERNIE-BiGRU模型[7-8]的摘要語(yǔ)步識(shí)別算法,主要由四部分組成: 第一部分實(shí)現(xiàn)多語(yǔ)步結(jié)構(gòu)拆分;第二部分通過ERNIE訓(xùn)練得到單語(yǔ)步結(jié)構(gòu)的向量;第三部分加入BiGRU層,強(qiáng)化在不同時(shí)間段更新后的語(yǔ)步上下文特征;最后,使用softmax層對(duì)摘要語(yǔ)步進(jìn)行分類識(shí)別。其整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

    圖1 基于ERNIE-BiGRU模型的摘要語(yǔ)步識(shí)別

    2.1 摘要多語(yǔ)步結(jié)構(gòu)拆分

    非結(jié)構(gòu)化摘要對(duì)語(yǔ)步?jīng)]有明確的要求,所以作者在書寫時(shí),為了有效地表達(dá)自己的意圖,會(huì)將不同功能的語(yǔ)步融合到同一個(gè)句子中,這樣就會(huì)產(chǎn)生多語(yǔ)步結(jié)構(gòu)的句子。對(duì)這類句子,不能簡(jiǎn)單地將它們歸并到任意一個(gè)類別。例如,“本文首次提出了一種用于模式識(shí)別的新型開關(guān)電流Hamming神經(jīng)網(wǎng)絡(luò),它采用電流鏡計(jì)算待識(shí)模式與標(biāo)準(zhǔn)模式的匹配度。”在這個(gè)句子中,前半部分是“目的”說明,后半部分又是“方法”說明,所以這類句子既不能簡(jiǎn)單歸為 “目的”類,也不能歸為“方法”類,此時(shí)就需要把這個(gè)完整的句子,拆開成單個(gè)的句子,這就是多語(yǔ)步結(jié)構(gòu)拆分。對(duì)于結(jié)構(gòu)化摘要句子,雖然不涉及單句包含多語(yǔ)步的情況,但是相對(duì)短句的分類效果要好于長(zhǎng)句,所以也需要對(duì)句子進(jìn)行拆分。在此情況下,本文采用基于標(biāo)點(diǎn)符號(hào)與句法分析相結(jié)合的方法進(jìn)行多語(yǔ)步結(jié)構(gòu)拆分,在多語(yǔ)步結(jié)構(gòu)拆分的準(zhǔn)確性上達(dá)到了預(yù)期的效果。

    2.1.1 基于標(biāo)點(diǎn)符號(hào)的多語(yǔ)步拆分

    標(biāo)點(diǎn)符號(hào)是理解語(yǔ)言的一個(gè)重要的標(biāo)識(shí)符,每個(gè)標(biāo)點(diǎn)符號(hào)都有著各自的作用。例如,逗號(hào)主要表示句子內(nèi)部的一般性停頓,句號(hào)表示語(yǔ)義的終止[9]。本文首先根據(jù)句號(hào),將一整篇摘要初步劃分為多個(gè)語(yǔ)義完整的句子。而這些語(yǔ)義完整的句子中,并非只根據(jù)標(biāo)點(diǎn)符號(hào)就可以將句子歸為單語(yǔ)步結(jié)構(gòu), 如例1和例2。

    例1該文提出了一種基于兩級(jí)LRU機(jī)制的大流檢測(cè)算法,并分析了新算法中的參數(shù)與平均誤差之間的關(guān)系。

    例2該文提出了一種基于兩級(jí)LRU機(jī)制的大流檢測(cè)算法并分析了新算法中的參數(shù)與平均誤差之間的關(guān)系。

    對(duì)于上述兩個(gè)例子,從語(yǔ)義上來看意思相同,但是句法結(jié)構(gòu)卻截然不同。例2中,只含有一個(gè)句號(hào)終止符,很顯然是一個(gè)單句。例1的句子比例2多了一個(gè)逗號(hào),在逗號(hào)之前,“該文提出了一種基于兩級(jí)LRU機(jī)制的大流檢測(cè)算法”描述了論文的目的;在逗號(hào)之后,“并分析了新算法中的參數(shù)與平均誤差之間的關(guān)系”描述了論文的方法,很明顯這兩個(gè)句子互相獨(dú)立,因此例2的句子也可以拆分為兩個(gè)單語(yǔ)步結(jié)構(gòu)。上述分析表明,完全利用標(biāo)點(diǎn)符號(hào)拆分多語(yǔ)步結(jié)構(gòu)在大多數(shù)情況下并不能正確地進(jìn)行拆分,只能起到一個(gè)輔助的作用。

    2.1.2 基于句法依存關(guān)系的多語(yǔ)步劃分

    通過上一節(jié)的分析得知,標(biāo)點(diǎn)符號(hào)除了表示語(yǔ)氣的停頓,在多語(yǔ)步結(jié)構(gòu)的拆分上同樣有著重要作用,但是對(duì)于大多數(shù)多語(yǔ)步結(jié)構(gòu)而言,僅靠標(biāo)點(diǎn)符號(hào)來劃分,不能實(shí)現(xiàn)精確拆分。所以,除了標(biāo)點(diǎn)符號(hào)以外,需要借助另一種方法——句法分析[10-11]。句法分析是銜接自然語(yǔ)言處理中語(yǔ)義分析與結(jié)構(gòu)分析的橋梁[12-13],本研究通過語(yǔ)言技術(shù)平臺(tái)(Language Technology Platform,LTP)獲得句子中各成分之間的依存關(guān)系,以此來描述語(yǔ)步結(jié)構(gòu)。表1為句子各成分之間的依存關(guān)系。

    表1 依存句法關(guān)系

    將以上各成分間的依存關(guān)系及各詞的詞性進(jìn)行依存句法樹的搭建,以依存樹的形式進(jìn)行表示,如圖2所示。將依存句法結(jié)果整理為五列,分別表示分詞結(jié)果,詞性、詞語(yǔ)在文本中的位置,詞語(yǔ)的父節(jié)點(diǎn),詞語(yǔ)的依存關(guān)系,其中,核心詞HED和以HED為直接父節(jié)點(diǎn)的主語(yǔ)(SBV)、賓語(yǔ)(VOB)、并列關(guān)系(COO)加粗斜體標(biāo)記。

    例3本文提出一種基于遺傳算法的TBDD排序算法。

    圖2 例3句子依存結(jié)構(gòu)

    例3展示了LTP對(duì)句子進(jìn)行依存分析的結(jié)果,該句的動(dòng)詞“提出”作為核心詞,“算法”作為賓語(yǔ),“提出”對(duì)句子中的賓語(yǔ)起到支配作用,形成動(dòng)賓關(guān)系?!盎凇迸c“算法”形成介賓關(guān)系,其他詞之間也存在著相應(yīng)的依存關(guān)系。

    再將例1和例2通過句法分析方法進(jìn)行驗(yàn)證,例1和例2的句法分析結(jié)果如圖3和圖4所示。

    圖3 例1句子依存結(jié)構(gòu)

    圖4 例2句子依存結(jié)構(gòu)

    由圖3可以清晰地看出,該句有兩個(gè)中心詞,分別為“提出”和“分析”。此句的核心詞HED為“提出”,“分析”是以HED為根節(jié)點(diǎn)的COO,兩詞之間呈并列關(guān)系,關(guān)系詞為“并”。雖然句子間并沒有符號(hào)隔開,但根據(jù)句法分析可以拆分為獨(dú)立的兩個(gè)單語(yǔ)步結(jié)構(gòu),“該文提出了一種基于兩級(jí)LRU機(jī)制的大流檢測(cè)算法”和“并分析了新算法中的參數(shù)與平均誤差之間的關(guān)系”。

    通過分析句子各成分間的依存關(guān)系,從而判斷各句子之間的關(guān)系,如并列關(guān)系等。各分句結(jié)構(gòu)獨(dú)立,并存在著邏輯語(yǔ)義關(guān)系,所以標(biāo)點(diǎn)符號(hào)與句法分析相結(jié)合的方法對(duì)于多語(yǔ)步結(jié)構(gòu)拆分任務(wù)來說,是一個(gè)較為有效的方法。以此,提出多語(yǔ)步結(jié)構(gòu)拆分思路,如圖5所示。

    圖5 多語(yǔ)步結(jié)構(gòu)拆分流程

    (1) 以句號(hào)為基礎(chǔ)劃分符號(hào),將非結(jié)構(gòu)化摘要?jiǎng)澐譃榫渥蛹?jí)摘要語(yǔ)步;

    (2) 通過LTP 4.0,得到句子級(jí)摘要的句法分析;

    (3) 遍歷句子中的所有詞語(yǔ),首先找到該句子的核心詞HED,分析以HED為根節(jié)點(diǎn)的詞語(yǔ),找到與HED呈并列結(jié)構(gòu)的COO,如果沒有COO,則該句子是一個(gè)單句,不需要拆分;如果有COO,則該句子是一個(gè)可拆分復(fù)句,進(jìn)入下一步;

    (4) 如果該COO沒有直接引導(dǎo)的SBV,則用原句的SBV與COO配合構(gòu)成一個(gè)子句。如果該COO有自己前導(dǎo)的SBV,則利用該SBV和COO獨(dú)立提取出一個(gè)子句;

    (5) 若語(yǔ)步中包含多個(gè)以父節(jié)點(diǎn)HED為根節(jié)點(diǎn)的COO成分,對(duì)每個(gè)COO成分按步驟(3)~步驟(5)循環(huán)處理,直至處理完最后一個(gè)COO。

    以上是多語(yǔ)步結(jié)構(gòu)拆分基本思路,現(xiàn)根據(jù)以上思路完整實(shí)現(xiàn)拆分步驟,如例4所示。

    例4本文提出一種自適應(yīng)方法,仿真結(jié)果表明,該方法隨著呼叫移動(dòng)比變化可自動(dòng)調(diào)整到最佳指針鏈長(zhǎng)度。

    圖6 例5句子依存結(jié)構(gòu)

    由圖6可以看出,HED為根節(jié)點(diǎn)。此句中的核心詞HED是“提出”,遍歷所有詞語(yǔ),有一個(gè)以HED為父節(jié)點(diǎn)的COO,則此句的兩個(gè)中心詞“提出”和“表明”呈并列關(guān)系,并且兩者之間用逗號(hào)隔開。因此,該句子是多語(yǔ)步結(jié)構(gòu)句,可以劃分為兩個(gè)單語(yǔ)步結(jié)構(gòu)。從依存句法分析中可以看出,并列的COO單語(yǔ)步結(jié)構(gòu)分句帶有自己的SBV,就利用自帶的SBV構(gòu)成獨(dú)立的單語(yǔ)步結(jié)構(gòu),所以兩個(gè)單語(yǔ)步結(jié)構(gòu)分別是“本文提出一種自適應(yīng)算法”和“仿真結(jié)果表明該方法隨著呼叫移動(dòng)比變化可自動(dòng)調(diào)整到最佳指針鏈長(zhǎng)度”。

    通過本節(jié)講述的多語(yǔ)步結(jié)構(gòu)拆分方法,最終獲得多個(gè)單語(yǔ)步結(jié)構(gòu),以此構(gòu)建基于單語(yǔ)步結(jié)構(gòu)訓(xùn)練語(yǔ)料庫(kù),作為ERNIE預(yù)訓(xùn)練模型的訓(xùn)練語(yǔ)料,訓(xùn)練得到語(yǔ)步級(jí)詞向量。

    2.2 ERNIE預(yù)訓(xùn)練模型

    ERNIE(Enhanced Representation through Knowledge Integration)是一種基于知識(shí)遮蔽策略的增強(qiáng)型模型,主要由Transformer編碼和語(yǔ)義信息整合兩部分組成[14]。前者通過Transformer編碼器捕捉文本中每個(gè)詞的上下文信息,并生成相對(duì)應(yīng)的詞向量表示;后者通過多階段的掩碼策略,將短語(yǔ)和實(shí)體的語(yǔ)義信息整合到語(yǔ)言表示中。

    2.2.1 Transformer編碼器

    ERNIE模型采用多層Transformer編碼器構(gòu)建雙向語(yǔ)言表示模型。Transformer利用self-attention機(jī)制,基于輸入文本計(jì)算與本身的注意力分布,即計(jì)算每個(gè)詞與同文本 內(nèi) 其 他 詞 的注意力分布,捕獲同文本中詞之間的一些句法特征或語(yǔ)義特征,以此來理解句子的整體意思,其原理為:

    (1)

    其中,Q(query)、K(key)、V(value)為輸入字向量矩陣。dk為輸入向量維度。

    例如,X=[x1,…,xt,…,xN]表示N個(gè)輸入信息,本文采用的最大序列長(zhǎng)度為128,即N=128。在對(duì)t位置的詞進(jìn)行語(yǔ)義解析時(shí),可以同時(shí)學(xué)習(xí)到前t-1和后t+1的所有文本信息,從而每個(gè)詞在得到該文本的全局信息的同時(shí)能夠動(dòng)態(tài)地生成不同連接的權(quán)重,以此來縮短遠(yuǎn)距離依賴特征之間的距離,有效提高這些特征的利用率。由于傳統(tǒng)語(yǔ)言模型的訓(xùn)練目標(biāo)是預(yù)測(cè)下一個(gè)詞,而在上述雙向編碼器計(jì)算過程中,預(yù)測(cè)的目標(biāo)詞會(huì)多次間接地“看到自己”,即若要預(yù)測(cè)輸入信息xN,則每個(gè)輸入在計(jì)算與其他詞的注意力分布時(shí)看到預(yù)測(cè)目標(biāo)xN,造成信息的泄露。針對(duì)這一問題,BERT模型使用掩碼策略,將預(yù)測(cè)目標(biāo)對(duì)應(yīng)的信息用[mask]代替[15-16]。ERNIE模型在此基礎(chǔ)上進(jìn)一步改進(jìn)掩碼策略,融入了短語(yǔ)和實(shí)體層面的遮蔽。

    2.2.2 信息整合

    ERNIE模型通過對(duì)海量中文數(shù)據(jù)中的詞、實(shí)體及實(shí)體關(guān)系進(jìn)行建模,為了能夠更好地學(xué)習(xí)真實(shí)世界的語(yǔ)義知識(shí),該模型采用的知識(shí)遮蔽策略分為三個(gè)階段。例如,“本文提出了適合于均勻圓陣的高分辨陣列測(cè)向算法”語(yǔ)義信息整合的三個(gè)階段如圖7所示。

    第一階段是基本級(jí)別掩碼,將輸入的語(yǔ)步作為一個(gè)基本語(yǔ)言單位的序列,并以字為單位進(jìn)行掩碼,我們可以獲得一個(gè)基于字的表示。在中文信息處理中,通過字層面的掩碼方式很難學(xué)習(xí)到更大語(yǔ)義單元的完整語(yǔ)義知識(shí)。

    第二階段是實(shí)體級(jí)別掩碼,對(duì)于人、地點(diǎn)、組織、產(chǎn)品等實(shí)體信息可以用適當(dāng)?shù)拿Q表示。這一階段中,首先分析句子序列中包含的命名實(shí)體信息,然后隨機(jī)選取實(shí)體并對(duì)相應(yīng)位置進(jìn)行遮蔽和預(yù)測(cè)。

    第三階段是短語(yǔ)級(jí)別掩碼,短語(yǔ)是由一組字符充當(dāng)一個(gè)概念單元。短語(yǔ)級(jí)別的掩碼類似于實(shí)體級(jí)掩碼,隨機(jī)選取句子中的短語(yǔ),將同一短語(yǔ)所對(duì)應(yīng)的所有信息都用[mask]代替,并對(duì)此進(jìn)行預(yù)測(cè)。

    圖7 ERNIE信息整合三個(gè)階段

    經(jīng)過以上三個(gè)階段的語(yǔ)義信息整合,可以得到一個(gè)含有豐富語(yǔ)義信息的語(yǔ)步表示形式,把語(yǔ)步表示形式融入到Transformer編碼過程中生成詞向量序列,其中,ERNIE模型的隱層為768維。這樣就可以得到詞長(zhǎng)為128的句子X的詞向量序列,即X:{wi1,wi2,…,wiN}。再通過ERNIE模型的embedding層,訓(xùn)練得到每個(gè)語(yǔ)步的詞嵌入向量,如式(2)所示。

    xit=Wewitt∈[1,N]

    (2)

    即{xi1,xi2,…,xiN},We為embedding層權(quán)重參數(shù)。再將上述詞嵌入向量作為BiGRU層的輸入,進(jìn)一步提取每個(gè)詞所對(duì)應(yīng)的上下文特征,增強(qiáng)句子的語(yǔ)義特征,從而提高語(yǔ)步識(shí)別效果。

    2.3 BiGRU層

    BiGRU由雙向GRU構(gòu)成,GRU是在LSTM的基礎(chǔ)上簡(jiǎn)化得到的改進(jìn)模型,其內(nèi)部結(jié)構(gòu)與LSTM相似,也是通過門控機(jī)制來對(duì)梯度進(jìn)行處理,避免記憶衰退[17]。LSTM是由輸入門、遺忘門和輸出門組成的,簡(jiǎn)化后的GRU由重置門和更新門組成。重置門決定了候選狀態(tài)中有多少信息是來自于上一時(shí)刻的狀態(tài),重置門的值越小,就代表當(dāng)前狀態(tài)對(duì)上一時(shí)刻狀態(tài)的依賴關(guān)系就越少。更新門就是用來控制在當(dāng)前狀態(tài)中要保留多少歷史狀態(tài)的信息,更新門的值越大,就代表保留的信息越多。重置門與更新門的結(jié)構(gòu)設(shè)計(jì)使GRU達(dá)到了在提高計(jì)算效率的同時(shí)保證同樣出色結(jié)果的效果。GRU的結(jié)構(gòu)示意圖如圖8所示。

    圖8 GRU的結(jié)構(gòu)示意圖

    GRU網(wǎng)絡(luò)層的工作流程如下:

    (1) 計(jì)算更新門zt,數(shù)學(xué)表達(dá)式如式(3)所示。

    zt=σ(Wzxt+Uzht-1)

    (3)

    其中,zt——更新門捕獲的信息;σ——采用sigmoid激活函數(shù);Wz、Uz——更新門的權(quán)重參數(shù),需要先隨機(jī)初始化;xt——為上一步輸出的預(yù)訓(xùn)練詞向量序列中第t個(gè)位置的向量,即{xi1,xi2,…,xiN},t∈[1,N];ht-1為上一個(gè)位置的向量。

    (2) 計(jì)算重置門rt,數(shù)學(xué)表達(dá)式如式(4)所示。

    rt=σ(Wrxt+Urht-1)

    (4)

    其中,rt——重置門捕獲的信息;Wr、Ur——重置門權(quán)重參數(shù),需要先隨機(jī)初始化;其他同上。

    (5)

    (4) 計(jì)算當(dāng)前時(shí)刻隱藏狀態(tài),數(shù)學(xué)表達(dá)式如式(6)所示。

    (6)

    以上為單向GRU的工作流程。在文本序列處理的過程中,單向的GRU只能學(xué)習(xí)當(dāng)前時(shí)刻之前的信息,無法學(xué)習(xí)到當(dāng)前時(shí)刻之后的信息,因此本文采用圖1中展示的正向和負(fù)向兩層結(jié)合的學(xué)習(xí)方式(BiGRU)來代替?zhèn)鹘y(tǒng)的GRU,得到一個(gè)正向輸出和負(fù)向輸出,最后生成一個(gè)二維矩陣作為最終輸出。最后引入softmax對(duì)特征結(jié)果進(jìn)行歸一化處理,得到文本屬于不同類別的概率,其中概率最大的類別作為模型語(yǔ)步識(shí)別的結(jié)果。

    3 實(shí)驗(yàn)及結(jié)果分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)集

    本研究中的數(shù)據(jù)集是基于各類學(xué)術(shù)期刊,包含非結(jié)構(gòu)化摘要和結(jié)構(gòu)化摘要兩種形式。雖然各期刊對(duì)摘要書寫要求的不一致導(dǎo)致目前語(yǔ)步?jīng)]有統(tǒng)一的分類標(biāo)準(zhǔn)[18-20],但通過對(duì)期刊摘要的大量分析,認(rèn)為采用背景、目的、方法、結(jié)果、結(jié)論五類語(yǔ)步是比較合理的,因?yàn)樵谶@五部分中,背景是研究主題的背景及存在的問題;目的是研究主題的任務(wù),所涉及的主題范圍;方法是說明研究?jī)?nèi)容所用的原理、手段、程序等,簡(jiǎn)要說明實(shí)驗(yàn)方法及過程;結(jié)果是闡述實(shí)驗(yàn)的結(jié)果、效果或性能的提升;結(jié)論是說明本研究的價(jià)值、局限性等。這五部分內(nèi)容基本能夠全面地概括整篇文獻(xiàn),并且大量期刊的摘要中幾乎都包含這五部分內(nèi)容,所以本文采用這五個(gè)語(yǔ)步類別標(biāo)準(zhǔn)具有一定的普適性。

    本研究中共收集整理20 308篇論文摘要,其中非結(jié)構(gòu)化摘要從《電子學(xué)報(bào)》和《計(jì)算機(jī)學(xué)報(bào)》選取10 216篇,將TXT格式的語(yǔ)料集進(jìn)行解析和去噪,包含約38 212句非結(jié)構(gòu)化語(yǔ)步數(shù)據(jù),構(gòu)建非結(jié)構(gòu)化原始語(yǔ)步數(shù)據(jù)集,并利用本文提出的多語(yǔ)步結(jié)構(gòu)拆分法獲得單語(yǔ)步結(jié)構(gòu)112 848句,依照上述語(yǔ)步類別標(biāo)準(zhǔn)進(jìn)行人工標(biāo)注,從中篩選出有效單語(yǔ)步結(jié)構(gòu)6萬句,基于此構(gòu)建非結(jié)構(gòu)化摘要單語(yǔ)步結(jié)構(gòu)語(yǔ)料集;結(jié)構(gòu)化摘要從《情報(bào)理論與實(shí)踐》和《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》等文獻(xiàn)中選取10 092篇,對(duì)數(shù)據(jù)進(jìn)行去噪預(yù)處理后,包含52 660句結(jié)構(gòu)化語(yǔ)步數(shù)據(jù),構(gòu)建結(jié)構(gòu)化原始語(yǔ)步數(shù)據(jù)集,利用本文提出的多語(yǔ)步結(jié)構(gòu)拆分法獲得157 980句單語(yǔ)步結(jié)構(gòu),構(gòu)建結(jié)構(gòu)化摘要單語(yǔ)步結(jié)構(gòu)語(yǔ)料集。

    我們分別從四個(gè)語(yǔ)料集隨機(jī)選擇30 000條語(yǔ)步,作為訓(xùn)練樣本。在未參與訓(xùn)練的語(yǔ)料中,隨機(jī)選取3 000條語(yǔ)步作為測(cè)試樣本。訓(xùn)練集和測(cè)試集中,每種語(yǔ)步類型的數(shù)據(jù)量保持一致,以保證語(yǔ)步類型分布平衡。

    3.2 實(shí)驗(yàn)設(shè)計(jì)及實(shí)驗(yàn)環(huán)境

    本文實(shí)驗(yàn)分為兩部分: 第一部分是采用結(jié)構(gòu)化摘要語(yǔ)步數(shù)據(jù)集;第二部采用非結(jié)構(gòu)化摘要數(shù)據(jù)集。兩部分實(shí)驗(yàn)均基于ERNIE-BiGRU語(yǔ)步識(shí)別模型,分別采用摘要單語(yǔ)步結(jié)構(gòu)和原始摘要語(yǔ)步進(jìn)行識(shí)別效果對(duì)比,并設(shè)計(jì)基于BERT、ERNIE、ERNIE-BiLSTM模型為對(duì)比實(shí)驗(yàn)。在CPU: Intel(R) Core(TM) i7-10700 CPU @2.90GHZ,GPU: GTX 1650,內(nèi)存: 128GB;python 3.6,pytorch 1.6.0框架的配置環(huán)境下進(jìn)行實(shí)驗(yàn),以驗(yàn)證本文所提方法在摘要語(yǔ)步識(shí)別上的效果。

    3.3 評(píng)價(jià)指標(biāo)

    本實(shí)驗(yàn)通過正確率(Precision)、召回率(Recall)和F1值三個(gè)指標(biāo)進(jìn)行識(shí)別效果衡量,具體計(jì)算如式(7)~式(9)所示。

    3.4 實(shí)驗(yàn)結(jié)果及分析

    本文基于上文中構(gòu)建的單語(yǔ)步結(jié)構(gòu)語(yǔ)料集和原摘要語(yǔ)料集,使用ERNIE-BiGRU模型進(jìn)行摘要語(yǔ)步識(shí)別實(shí)驗(yàn)。為了更好地檢測(cè)ERNIE-BiGRU模型的性能,本文設(shè)置了對(duì)照實(shí)驗(yàn),包括了基于BERT、ERNIE、ERNIE-BiLSTM的摘要語(yǔ)步識(shí)別實(shí)驗(yàn)。同時(shí)為了更加直接地呈現(xiàn)實(shí)驗(yàn)結(jié)果,本文分為結(jié)構(gòu)化摘要識(shí)別效果和非結(jié)構(gòu)摘要識(shí)別效果來展示,如表2和表3所示。

    表2 結(jié)構(gòu)化語(yǔ)步識(shí)別結(jié)果對(duì)比 (單位: %)

    表3 非結(jié)構(gòu)化語(yǔ)步識(shí)別結(jié)果對(duì)比 (單位: %)

    如表2所示,從第一部分實(shí)驗(yàn)結(jié)果可以看出,不論是基于原數(shù)據(jù)還是改進(jìn)后的數(shù)據(jù),ERNIE-BiGRU模型的準(zhǔn)確率均優(yōu)于其他識(shí)別模型,從原數(shù)據(jù)的識(shí)別效果(88.36%)到改進(jìn)后數(shù)據(jù)的識(shí)別效果(96.57%),識(shí)別準(zhǔn)確率提高了8.21%,較其他模型差異最大。不同模型下不同數(shù)據(jù)集識(shí)別效果差異性由高到低排序?yàn)镋RNIE-BiGRU(8.21%)、ERNIE-BiLSTM(6.48%)、ERNIE(6.28%)、BERT(1.46%)。

    如表3所示,從第二部分實(shí)驗(yàn)結(jié)果可知,ERNIE-BiGRU模型的識(shí)別效果在準(zhǔn)確率(93.75%)、召回率(93.72%)、F1值(93.73%)這三個(gè)評(píng)價(jià)指標(biāo)上的表現(xiàn)都比其他模型效果好。其中,ERNIE-BiGRU模型下兩種數(shù)據(jù)集的實(shí)驗(yàn)效果差異最大,為8.79%。各方法下不同數(shù)據(jù)集對(duì)識(shí)別效果影響的顯著性排序如下: ERNIE-BiGRU(8.79%)、ERNIE-BiLSTM(7.35%)、ERNIE(6.48%)、BERT(4.25%)。

    對(duì)比兩組實(shí)驗(yàn)結(jié)果,從數(shù)據(jù)集角度來看,不論是在結(jié)構(gòu)化摘要還是在非結(jié)構(gòu)化摘要的實(shí)驗(yàn)中,從原始數(shù)據(jù)集到單語(yǔ)步結(jié)構(gòu)數(shù)據(jù)集,基于不同模型的語(yǔ)步識(shí)別效果均有顯著提升,這說明多語(yǔ)步結(jié)構(gòu)的準(zhǔn)確拆分對(duì)提升模型的識(shí)別效果有重要的影響,且本文所提出模型的參數(shù)不需要調(diào)整就可以進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化的語(yǔ)步識(shí)別,所以本文的方法具有較好的魯棒性;從識(shí)別模型的角度來看,不論采用哪種數(shù)據(jù)集,BERT模型到ERNIE模型的識(shí)別效果提升最高,這表明在預(yù)訓(xùn)練過程中準(zhǔn)確把握文本特征的重要性。因此,實(shí)驗(yàn)證明了多語(yǔ)步結(jié)構(gòu)拆分在識(shí)別非結(jié)構(gòu)化摘要語(yǔ)步中是一個(gè)重要前提,且證明了ERNIE-BiGRU模型在識(shí)別語(yǔ)步的任務(wù)上具有較好的性能。

    4 結(jié)論

    本文基于ERNIE-BiGRU模型構(gòu)建了語(yǔ)步自動(dòng)識(shí)別模型,結(jié)合句法分析對(duì)非結(jié)構(gòu)化摘要語(yǔ)步結(jié)構(gòu)進(jìn)行了詳細(xì)的分析,提出了基于句法依存關(guān)系的多語(yǔ)步結(jié)構(gòu)拆分法,來實(shí)現(xiàn)摘要語(yǔ)步的自動(dòng)化識(shí)別。多語(yǔ)步結(jié)構(gòu)拆分法可以準(zhǔn)確地將多語(yǔ)步結(jié)構(gòu)拆分為多個(gè)單語(yǔ)步結(jié)構(gòu),為自動(dòng)化語(yǔ)步識(shí)別模型提供了優(yōu)質(zhì)的語(yǔ)料基礎(chǔ)。ERNIE預(yù)訓(xùn)練模型可以學(xué)習(xí)詞語(yǔ)和實(shí)體之間的語(yǔ)義信息,生成句子級(jí)向量表達(dá),并將此作為BiGRU的輸入進(jìn)行訓(xùn)練,學(xué)習(xí)到更好的序列信息,最后通過softmax得到最終的識(shí)別效果。實(shí)驗(yàn)結(jié)果可有效證明該語(yǔ)步識(shí)別方法是可行的,ERNIE模型可以很好地保留文本的語(yǔ)義信息,BiGRU模型的序列特征學(xué)習(xí)效果也同樣顯著,能夠達(dá)到預(yù)期的識(shí)別效果。

    猜你喜歡
    語(yǔ)步結(jié)構(gòu)化語(yǔ)義
    促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
    裁定書的語(yǔ)步結(jié)構(gòu)分析
    結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
    語(yǔ)言與語(yǔ)義
    “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
    中外光學(xué)學(xué)術(shù)論文摘要非常規(guī)語(yǔ)步的對(duì)比分析
    專家作者與學(xué)術(shù)新手間的摘要修辭對(duì)比研究
    基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
    認(rèn)知范疇模糊與語(yǔ)義模糊
    基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
    沧源| 石棉县| 沂水县| 林口县| 西平县| 宁陵县| 阜康市| 合作市| 金阳县| 彝良县| 河曲县| 永丰县| 青岛市| 丰顺县| 云霄县| 安多县| 翼城县| 安阳县| 沅江市| 同德县| 泸溪县| 沅陵县| 郸城县| 临江市| 克东县| 类乌齐县| 北海市| 乃东县| 晋江市| 姜堰市| 永兴县| 砀山县| 桐乡市| 大新县| 濮阳市| 垫江县| 鄂托克旗| 邵武市| 广州市| 长丰县| 车险|