• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于生成式對抗網(wǎng)絡(luò)的開放式信息抽取

      2021-02-25 03:37:36韓家寶王宏志
      智能計算機與應(yīng)用 2021年10期
      關(guān)鍵詞:鑒別器解碼器開放式

      韓家寶, 王宏志

      (哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

      0 引 言

      信息抽取是自然語言處理領(lǐng)域內(nèi)的重要研究內(nèi)容之一。 研究目的是將文本結(jié)構(gòu)化,結(jié)構(gòu)化后的內(nèi)容可以是三元組的表示形式,也可以是多元關(guān)系的表示形式[1]。 傳統(tǒng)的信息抽取方法側(cè)重于在語料庫上建立一套預(yù)定義的抽取范式[2-4]。 因此,這些方法離不開大量的人工參與,為了減少信息抽取中的人工參與,研究人員提出了開放式信息抽?。?-6],開放式信息抽取不局限于一組與定義的目標關(guān)系,而是提取文本中發(fā)現(xiàn)的所有類型關(guān)系。 近年來,開放式信息抽取取得了可觀的研究成果[4,7-20],一系列的開放式信息抽取系統(tǒng)陸續(xù)被應(yīng)用到各種工具當中。 這些系統(tǒng)普遍采用多種自然語言處理工具,因此也無一例外地面臨著錯誤積累和傳播的問題[21]。近期的工作多采用端到端的神經(jīng)網(wǎng)絡(luò)方法來進行開放式信息抽取的研究,這些方法雖然有效避免了錯誤積累和傳播問題,但卻沒有考慮到曝光偏差問題,即:使用編碼器-解碼器架構(gòu)處理序列到序列問題時,訓(xùn)練階段與測試階段所使用的數(shù)據(jù)不一致。

      本文中,提出了基于生成式對抗網(wǎng)絡(luò)(GAN)[6,22]的模型來應(yīng)對開放式信息抽取任務(wù),GAN 模型不僅避免了傳統(tǒng)方法帶來的錯誤累積和傳播問題,還能很好地解決曝光偏差問題[5,23-25]。 此模型包含一個序列生成器,一個鑒別器。 其中,序列生成器負責(zé)生成開放式信息抽取的結(jié)果,鑒別器用于鑒定生成器的結(jié)果是否來自訓(xùn)練數(shù)據(jù)。 文中也對一個大型的Open IE 基準數(shù)據(jù)集進行了研究,實驗結(jié)果表明,該算法的性能優(yōu)于幾種常用的基準。 同時,也證實了本文提出的模型要比單一的編碼器-解碼器模型好得多。 此外,性能上的明顯改進也證實了GAN 模型在解決開放信息抽取任務(wù)中的曝光偏差問題上的有效性。

      1 模型架構(gòu)

      生成式對抗網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于計算機視覺等領(lǐng)域以及一些其他重要的領(lǐng)域[26-30]。 GAN 由2 個模塊組成,分別是:生成器G和鑒別器D,其目的旨在估計當前輸入施工訓(xùn)練數(shù)據(jù)而不是從生成器中產(chǎn)生的概率。 在開放式信息抽取任務(wù)中使用GAN 模型的價值函數(shù)為:

      其中,(x,y)表示訓(xùn)練實例;x表示輸入;y表示輸出;Pd表示數(shù)據(jù)分布;PG表示生成器的參數(shù)分布。

      如式(1)目標函數(shù)所述,鑒別器的學(xué)習(xí)目標是確定當前數(shù)據(jù)是來自訓(xùn)練數(shù)據(jù)、還是來自生成器的結(jié)果。 生成器的訓(xùn)練目標是產(chǎn)生與訓(xùn)練數(shù)據(jù)相當?shù)慕Y(jié)果來混淆鑒別器。 在實際的模型訓(xùn)練過程中,常用策略梯度[31]法來計算生成器的梯度。 更新生成器參數(shù)模型前,先采樣候選答案并使用鑒別器來計算獎勵分數(shù),繼而利用所得獎勵分數(shù)來計算生成器的梯度,再使用反向傳播算法來更新一代參數(shù)。 在訓(xùn)練過程中,將訓(xùn)練數(shù)據(jù)中的序列和采樣后的候選序列分別作為鑒別器訓(xùn)練的正例和反例。 為了解決鑒別器的過擬合問題,使用MLE[32-34]提高生成器訓(xùn)練的穩(wěn)定性。

      圖1 中展示了GAN 模型的整體架構(gòu),該模型是由Transformer 模型構(gòu)成的序列生成器和CNN 模型構(gòu)成的鑒別器組成。

      圖1 模型架構(gòu)Fig.1 Model architecture

      1.1 序列生成器

      對于序列生成器,編碼器結(jié)構(gòu)將輸入序列映射到高維空間中的向量表示,解碼器根據(jù)中間向量表示進行解碼,與傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)不同,Transformer 模型不包含任何循環(huán)單元和卷積單元[35]。 研究中,是通過正弦位置編碼來記錄單詞的相對位置,具體公式可寫為:

      其中,pos表示單詞的位置;i表示輸入句子的維度;d表示編碼器輸出的維度。 在第一個編碼器和解碼器部分,位置編碼通過式(2)、式(3) 進行計算。 第j個編碼器的輸出Se j是通過一個自注意力層和一個前饋神經(jīng)網(wǎng)絡(luò)層進行計算得到:

      其中,Oe(j)表示第j個編碼器的注意力層的輸出;LN(·) 表示的是歸一化層;表示的是編碼器的輸入;第j個解碼器的輸出是由一個編碼器-解碼器的注意力層EDATT() 產(chǎn)生的。 此處需涉及的數(shù)學(xué)公式可寫為:

      其中,表示解碼器的輸入;表示第j個解碼器自注意力層的輸出;表示第j個編碼器的輸入;最后一個解碼器層的輸出Sd(n)被線性映射到V維的矩陣中,這里的V是輸出詞匯表的長度。

      1.2 對抗模型

      對于給定的輸入序列x,鑒別器需要區(qū)分當前結(jié)果是來自生成器的輸出y^,還是來自訓(xùn)練數(shù)據(jù)中的實序列y。 因此,研究使用卷積神經(jīng)網(wǎng)絡(luò)來度量序列對(x,y) 的匹配度。 考慮到卷積神經(jīng)網(wǎng)絡(luò)具有逐層卷積和池化的功能,在該項任務(wù)中則有著獨特的優(yōu)勢。 卷積神經(jīng)網(wǎng)絡(luò)可以準確地捕獲(x,y) 在不同空間中的對應(yīng)關(guān)系,給出給定序列對(x,y),先通過簡單地連接標記為x和$y$的嵌入向量構(gòu)造2D表示。 對于x中的第i個單詞xi和y中的第j個單詞yj,有以下特性映射:

      基于這種2D 表示,這里的卷積窗口設(shè)置為3*3 大小,通過以下的類型f的特征映射來捕獲x與y的映射關(guān)系:

      其中,σ(·) 表示sigmoid激活函數(shù),σ(x)=1/(1+exp(- x)),再使用一個2*2 的窗口進行池化操作:

      在此基礎(chǔ)上,將提取的特征輸入到一個全連通層,利用上一層的sigmoid激活函數(shù),求得訓(xùn)練數(shù)據(jù)中(x,y) 的概率。 該鑒別器的優(yōu)化目標是以訓(xùn)練數(shù)據(jù)(x,y) 為正例,序列生成器采樣數(shù)據(jù)為負例,以最小化二值分類的交叉熵損失為目標。

      訓(xùn)練目標:生成器模型試圖生成一個高質(zhì)量的序列來欺騙鑒別器。 對于鑒別器D,使用訓(xùn)練集和G生成的序列對D進行訓(xùn)練。 形式上D的目標函數(shù)是使V(D,G) 最大化:

      對于序列生成器G,G的目標是最大化期望獎勵(D的概率),而不是直接最小化V(D,G),函數(shù)如下:

      鑒別器的訓(xùn)練過程與傳統(tǒng)模式訓(xùn)練沒有區(qū)別,只需要向鑒別器提供發(fā)生器的輸出和訓(xùn)練數(shù)據(jù)。 發(fā)生器的訓(xùn)練過程不同于鑒別器的訓(xùn)練過程,因為從發(fā)生器的離散采樣結(jié)果y^使得從鑒別器直接反向傳播誤差信號到發(fā)生器要較為困難,使V(D,G) 對G的參數(shù)不可微。 為此,研究中使用了enhance 算法來優(yōu)化生成器G。

      2 實驗

      研究中使用了大型基準數(shù)據(jù)集OIE2016[36],包含3 200 個句子,共10 359 個提取、包含24 296 個句子,共56 662 個提取。 為了驗證本文提出方法的性能,仿真中使用了數(shù)個最先進的基準測試,包括OLLIE、ClausIE、Stanford OpenIE、PropS 和OPENIE4來與本文方法進行比較。 實驗中,使用了2 個評價指標,即:精確度和查全率。

      2.1 模型參數(shù)

      研究中利用keras-transformer 實現(xiàn)Adversarial-OIE。 本次實驗中使用了Tesla P100 GPU。 該模型包括6 個編碼器和6 個解碼器、768 維的隱藏狀態(tài)和512 維的單詞嵌入。 詞匯量有55 K 個。 仿真時采用Relu作為注意激活函數(shù)和前饋激活,退出率設(shè)為0.05。 同時選用Adam優(yōu)化了本文模型。 對于對手D,CNN由2 個卷積+池化層、一個全連接層和一個softmax層組成,卷積窗口大小為3*3,池化窗口大小為2*2, 特征大小為20,隱藏層的大小為20。

      2.2 實驗結(jié)果

      在OIE2016 中的腳本作為本次研究的工具來評估精度和召回結(jié)果。 仿真得到的精確率/召回率曲線如圖2 所示。 在基準測試集OIE2016 中,將本文提出的模型與許多基準測試方法進行了比較。 從實驗數(shù)據(jù)可以看出,與現(xiàn)有方法相比,本文方法在精度方面有明顯的優(yōu)勢。 該模型的主要優(yōu)點就是端到端神經(jīng)網(wǎng)絡(luò)模型,避免了錯誤傳播的問題。

      圖2 實驗結(jié)果Fig.2 Experimental results

      3 結(jié)束語

      本文創(chuàng)新性地采用生成對抗網(wǎng)絡(luò)模型來處理開放式信息抽取任務(wù)。 研究中,將開放式信息提取任務(wù)定義為序列到序列的任務(wù)。 編碼-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)模型處理序列到序列的任務(wù)會導(dǎo)致暴露偏差問題(由訓(xùn)練和推理過程中的文本生成不一致引起)。這種不一致性反映在推理和訓(xùn)練中使用的不同輸入上。 在訓(xùn)練過程中,每個單詞輸入都來自于一個真實的樣本,但是當前用于推理的輸入來自于上一個預(yù)測的輸出。 采用生成對抗網(wǎng)絡(luò)模型可以有效地解決這一問題。 生成對抗網(wǎng)絡(luò)模型的再訓(xùn)練階段給每個單詞設(shè)定一個相應(yīng)的獎勵,而非如同極大似然估計一樣來增加單詞出現(xiàn)的概率,如此就不會產(chǎn)生曝光偏差問題。 本文的模型盡可能地保證了鑒別器的可靠性。 利用高質(zhì)量的鑒別器改進了序列發(fā)生器。無需任何手工制作的模式和其他NLP 工具,序列生成器就可以生成精度更高的三元組。 實驗表明,該模型具有較好的性能。 從實驗結(jié)果不難看出GAN模型的不足。 也就是說,在一定的時間間隔內(nèi),精度會迅速下降。 究其原因則在于GAN 模型的對抗性訓(xùn)練不容易控制。 在訓(xùn)練過程中,如果鑒別器模型有偏差,發(fā)生器模型就會被誤導(dǎo),產(chǎn)生一個劣質(zhì)循環(huán),這一偏差也會越來越大。 最終,模型的性能會突然下降。

      猜你喜歡
      鑒別器解碼器開放式
      基于多鑒別器生成對抗網(wǎng)絡(luò)的時間序列生成模型
      科學(xué)解碼器(一)
      開放式數(shù)字座艙軟件平臺IndiGO
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
      小學(xué)作文開放式教學(xué)的思考
      衛(wèi)星導(dǎo)航信號無模糊抗多徑碼相關(guān)參考波形設(shè)計技術(shù)*
      開放式彈簧機數(shù)控系統(tǒng)開發(fā)
      陣列天線DOA跟蹤環(huán)路鑒別器性能分析
      城口县| 志丹县| 武胜县| 葫芦岛市| 辉南县| 浪卡子县| 石城县| 绍兴县| 遵义市| 太湖县| 仲巴县| 铁岭县| 华容县| 石林| 金堂县| 栾城县| 孙吴县| 桐梓县| 高台县| 珲春市| 东乡族自治县| 名山县| 芜湖市| 鄂州市| 滨海县| 东兰县| 揭东县| 新宁县| 金阳县| 永顺县| 西乌珠穆沁旗| 福清市| 天长市| 阿尔山市| 怀安县| 洛浦县| 平武县| 陆川县| 康保县| 乌鲁木齐县| 韩城市|