• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于憶阻循環(huán)神經(jīng)網(wǎng)絡(luò)的層次化狀態(tài)正則變分自編碼器

    2023-03-01 08:19:38胡小方
    電子與信息學(xué)報(bào) 2023年2期
    關(guān)鍵詞:阻器層次化變分

    胡小方 楊 濤

    (西南大學(xué)人工智能學(xué)院 重慶 400715)

    (類腦計(jì)算與智能控制重慶市重點(diǎn)實(shí)驗(yàn)室 重慶 400715)

    1 引言

    變分自編碼器(Variational AutoEncoder,VAE[1])和其他深度生成模型,如生成對(duì)抗網(wǎng)絡(luò)[2]和自回歸模型[3]等,都可以從復(fù)雜且高維的未標(biāo)記數(shù)據(jù)中學(xué)習(xí)到相應(yīng)的信息。其中VAE廣泛應(yīng)用于圖像處理[4,5]和自然語言處理任務(wù)[6–9]。

    然而,VAE在優(yōu)化過程中常常會(huì)出現(xiàn)后驗(yàn)崩潰,又稱為KL散度(Kullback–Leibler Divergence,KLD)消失[10],即在生成過程中,模型忽略變分自編碼器的潛在變量信息,退化為一個(gè)自編碼模型。由于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)自身的強(qiáng)自回歸性,使得基于循環(huán)神經(jīng)網(wǎng)絡(luò)的變分自編碼器更容易出現(xiàn)這種現(xiàn)象。針對(duì)這一問題,研究人員陸續(xù)提出多種解決方案[10–12]。在最近的研究中,Shen等人[13]利用多層卷積神經(jīng)網(wǎng)絡(luò)替代編碼器并用循環(huán)網(wǎng)絡(luò)作為解碼器;Hao等人[14]使用循環(huán)模擬退火方法來緩解KL散度消失;He等人[15]提出一個(gè)滯后推理網(wǎng)絡(luò),在解碼器更新之前多次更新編碼器,從動(dòng)力學(xué)的角度避免該問題;Zhu等人[16]將批量歸一化(Batch Normalization, BN)正則應(yīng)用于VAE的近似后驗(yàn)概率的參數(shù)中,確保KL值為正值;Li等人[17]對(duì)編碼器中的隱變量施加KL正則,緩解后驗(yàn)崩潰的問題;Pang等人[18]提出一種新的推理方法,在VAE模型的后驗(yàn)分布的指導(dǎo)下運(yùn)行一定次數(shù)的朗之萬動(dòng)力學(xué)(Langevin dynamics)算法,從而有效避免模型崩潰的問題。然而,這些模型大多集中于緩解VAE后驗(yàn)崩潰的問題,而忽略了模型預(yù)測(cè)性能。

    RNN是一種廣泛研究的具有信息反饋的神經(jīng)網(wǎng)絡(luò)模型,與前饋神經(jīng)網(wǎng)絡(luò)相比,RNN融合了時(shí)間序列的概念,保持了對(duì)時(shí)間序列的長(zhǎng)期依賴性,并且對(duì)時(shí)間序列場(chǎng)景具有良好的建模能力,然而,在文本生成過程中,當(dāng)文本序列過長(zhǎng)時(shí),RNN模型會(huì)發(fā)生梯度消失的現(xiàn)象。為解決這個(gè)問題,提出長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),LSTM通過控制模型內(nèi)部的遺忘門在一定程度上抑制RNN模型的梯度消失的問題,并在較長(zhǎng)時(shí)間內(nèi)保持了信息依賴性。隨著LSTM模型的發(fā)展,其顯著增加的復(fù)雜度和不斷增長(zhǎng)的參數(shù)量,使得基于互補(bǔ)金屬氧化物半導(dǎo)體(Complementary Metal Oxide Semiconductor, CMOS)器件實(shí)現(xiàn)的LSTM網(wǎng)絡(luò),在計(jì)算方面表現(xiàn)出一些不足之處。

    憶阻器是一種二端口“記憶電阻”,能夠在存儲(chǔ)信息的地方進(jìn)行計(jì)算,這種存算一體化的特點(diǎn)減少了存儲(chǔ)和計(jì)算之間傳輸數(shù)據(jù)的需求。與傳統(tǒng)的基于CMOS器件的實(shí)現(xiàn)方案相比,基于憶阻器的人工神經(jīng)網(wǎng)絡(luò)具有體積小、功耗低、集成度高等特點(diǎn)。憶阻器已經(jīng)被應(yīng)用于許多人工神經(jīng)網(wǎng)絡(luò)硬件部署,包括單層或多層神經(jīng)網(wǎng)絡(luò)[19]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[20]和LSTM[21]等。其中,Adam等人[22]提出了一種用于時(shí)間序列預(yù)測(cè)的憶阻LSTM;Gokmen等人[23]將LSTM功能模塊映射到憶阻交叉陣列中,并探索了器件缺陷對(duì)模型性能的影響;Li等人[24]展示了LSTM網(wǎng)絡(luò)核心模塊的憶阻器硬件實(shí)現(xiàn),并采用兩個(gè)1T1M的方式來表示正負(fù)權(quán)值;Liu等人[25]在LSTM的硬件實(shí)現(xiàn)上提出一種新的權(quán)值更新方案,實(shí)現(xiàn)在線訓(xùn)練,并對(duì)憶阻器的電導(dǎo)值實(shí)現(xiàn)并行更新。

    本文針對(duì)VAE后驗(yàn)崩潰的問題,提出一種新的變分自編碼器模型,稱為層次化狀態(tài)正則變分自編碼器(Hierarchical Status Regularisation Variational AutoEncoder, HSR-VAE)。HSR-VAE不但可以有效緩解后驗(yàn)崩潰的問題,且較于基線模型,擁有更好的文本生成質(zhì)量。與現(xiàn)有的變分自編碼器僅在最后的時(shí)間步狀態(tài)下施加KL正則[17],或者僅僅是通過分層的思想對(duì)隱藏狀態(tài)矩陣進(jìn)行細(xì)化處理[26]不同,HSR-VAE在層次化狀態(tài)方法的基礎(chǔ)上引入時(shí)間步狀態(tài)正則的方法,通過層次化方法對(duì)隱藏狀態(tài)矩陣進(jìn)行細(xì)化處理,并且對(duì)各個(gè)時(shí)間步的隱藏細(xì)化狀態(tài)值施加KL正則,兩種方法的結(jié)合可以有效緩解VAE的后驗(yàn)崩潰問題,明顯提升模型預(yù)測(cè)能力。同時(shí),為提高HSR-VAE模型的計(jì)算效率,本文在憶阻循環(huán)網(wǎng)絡(luò)的基礎(chǔ)上,將HSR-VAE部署在憶阻交叉陣列中,提出HSR-VAE的硬件加速方案,即層次化變分自編碼憶阻神經(jīng)網(wǎng)絡(luò)(Hierarchical Variational AutoEncoder Memristor Neural Networks, HVAE-MNN)。通過憶阻器存算一體的特性,明顯提升HSR-VAE模型的計(jì)算效率。

    為了證明本文方法的有效性,本文加入一些強(qiáng)基線模型進(jìn)行對(duì)比,并基于4個(gè)公共數(shù)據(jù)集,分別在語言模型和對(duì)話響應(yīng)生成任務(wù)上進(jìn)行實(shí)驗(yàn)對(duì)比。語言模型任務(wù)中, HSR-VAE可有效緩解后驗(yàn)崩潰,且在定量分析負(fù)對(duì)數(shù)似然(Negative Log Likelihood, NLL)和困惑度(PerPlexity Loss, PPL)的平均實(shí)驗(yàn)結(jié)果表明,較于基線模型,NLL值降低6,PPL值降低5.9,KL值提高5.6;對(duì)話響應(yīng)生成任務(wù)中,多樣性評(píng)估指標(biāo)Intra-dist1和Inter-dist1分別提升5.6%和20.4%。

    綜上所述,本文貢獻(xiàn)如下:

    (1) 提出一種新的變分自編碼器模型HSR-VAE,有效緩解變分自編碼器后驗(yàn)崩潰的問題。

    (2) 提出一種層次化狀態(tài)正則的方法。在層次化狀態(tài)的基礎(chǔ)之上引入時(shí)間步狀態(tài)正則的方法,明顯提升模型預(yù)測(cè)性能。

    (3) 設(shè)計(jì)一種基于憶阻循環(huán)神經(jīng)網(wǎng)絡(luò)的變分自編碼器硬件實(shí)現(xiàn)方案HVAE-MNN,為變分自編碼器的硬件加速提供一種新的思考。

    2 層次化狀態(tài)正則變分自編碼器

    2.1 變分自編碼器

    2.2 結(jié)合層次化和時(shí)間步正則的變分自編碼器

    針對(duì)VAE后驗(yàn)崩潰, 時(shí)間步正則變分自編碼器(Time step-Wise Regularisation Variational AutoEncoder, TWR-VAE)[17]對(duì)編碼器的所有時(shí)間步的隱藏狀態(tài)值施加標(biāo)準(zhǔn)正態(tài)分布K L 正則。TWR-VAE雖然有效緩解后驗(yàn)崩潰,但與批量歸一化變分自編碼器(Batch Normalization Variational AutoEncoder, BN-VAE)[16]相比,KL值相對(duì)較低,針對(duì)這一問題,本文提出層次化狀態(tài)正則變分自編碼器HSR-VAE。HSR-VAE通過層次化方法編碼隱藏狀態(tài)矩陣,并且對(duì)編碼后的隱藏狀態(tài)矩陣各個(gè)時(shí)間步的狀態(tài)值施加KL正則。

    圖1 HSR-VAE模型結(jié)構(gòu)圖

    3 基于憶阻神經(jīng)網(wǎng)絡(luò)的層次化變分自編碼器

    3.1 憶阻器

    1971年,文獻(xiàn)[27]在研究電荷、電流、電壓和磁通量之間的關(guān)系時(shí),定義了磁通量和電荷之間的關(guān)系,提出憶阻器的概念。憶阻器是一種有記憶功能的非線性電阻,通電時(shí)可以通過改變流過它的電荷數(shù)量或磁通量來改變阻值,斷電時(shí)保持當(dāng)前阻值不變。2008年,惠普實(shí)驗(yàn)室設(shè)計(jì)出一個(gè)能工作的憶阻器物理模型,一個(gè)典型的惠普Pt/TiO2/Pt憶阻器數(shù)學(xué)模型[28]如式(8)所示

    其中,R(t)表 示憶阻器的阻值,Ron和Roff分別表示憶阻器的最小和最大的阻值。w(t)表示摻雜層厚度,x(t)表 示內(nèi)部狀態(tài)變量,D表示為憶阻器的厚度。

    本文采用Ag/AgInSbTe/Ta(AIST)憶阻器模型,其內(nèi)部狀態(tài)變量描述為

    3.2 HSR-VAE硬件部署設(shè)計(jì)

    本文模型HSR-VAE的硬件部署設(shè)計(jì)方案HVAEM N N 通過憶阻交叉陣列實(shí)現(xiàn)。本模型由3 層LSTM網(wǎng)絡(luò)組成,所以重點(diǎn)介紹基于憶阻LSTM的HSR-VAE硬件實(shí)現(xiàn)方案。

    LSTM網(wǎng)絡(luò)的關(guān)鍵組成為3個(gè)門控單元,即輸入門、輸出門和遺忘門。LSTM利用獨(dú)特的門控單元對(duì)序列數(shù)據(jù)進(jìn)行學(xué)習(xí)和選擇性記憶,保持長(zhǎng)距離的時(shí)間序列信息相關(guān)性,實(shí)現(xiàn)高精度預(yù)測(cè)。其中,輸入門主要處理輸入數(shù)據(jù),遺忘門決定當(dāng)前神經(jīng)元對(duì)歷史信息的記憶程度,輸出門代表神經(jīng)元的輸出結(jié)果。輸入文本序列(x1,x2,...,xT), 則t時(shí)刻,LSTM網(wǎng)絡(luò)迭代公式為

    其中,it,ft和ot分別表示t時(shí)刻的輸入門、輸出門和遺忘門的輸入;xt表示t時(shí)刻LSTM的輸入序列,ht?1表 示t?1時(shí) 刻的隱藏層輸出狀態(tài),bi,bf和bo分別是對(duì)應(yīng)的偏移向量,wi,wf和wo表示對(duì)應(yīng)的權(quán)重矩陣,ct表示t時(shí)刻LSTM網(wǎng)絡(luò)記憶信息。S表示sigmoid激活函數(shù)。

    對(duì)公式分析可知,在LSTM網(wǎng)絡(luò)中,其核心計(jì)算模塊為矩陣的乘累加計(jì)算。憶阻器具有可變電阻和記憶電阻狀態(tài)的能力,是權(quán)值矩陣計(jì)算的理想器件。因此,在具體應(yīng)用過程中,將LSTM網(wǎng)絡(luò)中的權(quán)值計(jì)算過程映射到憶阻交叉陣列中,通過改變加載幅值相同的電壓時(shí)間長(zhǎng)短的方式完成輸入向量與權(quán)值向量的乘累加計(jì)算,實(shí)現(xiàn)LSTM網(wǎng)絡(luò)的硬件加速,提升計(jì)算效率。

    其中,Ik為憶阻交叉陣列中第k列總的輸出電流,(1/Rs ?Gj,k)表示模型映射到交叉陣列中的權(quán)值的大小。 1 /Rs表 示固定電阻的電導(dǎo),Gj,k代表第j個(gè)輸入數(shù)據(jù)在第K列上憶阻器的電導(dǎo)值。Vin,j表示第j個(gè)輸入電壓,in表示輸入類型是X,H或b,其對(duì)應(yīng)的j 的取值范圍是 (0,T) , (T,T+M) ,(T+M,T+M+1), T和M分別是文本序列的長(zhǎng)度和隱藏層的維度。

    本文模型在憶阻交叉陣列的基礎(chǔ)上,提出HSRVAE硬件加速方案HVAE-MNN。HVAE-MNN憶阻電路由3層憶阻LSTM所組成,其中,兩個(gè)憶阻LSTM組成模型編碼器,單個(gè)憶阻LSTM組成模型解碼器,每個(gè)LSTM硬件電路網(wǎng)絡(luò)基于圖2(a)所示的憶阻交叉陣列。在實(shí)際應(yīng)用場(chǎng)景中,硬件加速計(jì)算流程包括:將訓(xùn)練好的模型權(quán)值矩陣映射到憶阻交叉陣列中,其輸入數(shù)據(jù)轉(zhuǎn)換為對(duì)應(yīng)的電壓信號(hào),經(jīng)過圖2(a)所示的LSTM電路計(jì)算隱藏狀態(tài)矩陣值,將該隱藏狀態(tài)矩陣使用ADC信號(hào)轉(zhuǎn)化器轉(zhuǎn)換為數(shù)字信號(hào);在軟件層面上,計(jì)算該隱藏狀態(tài)矩陣的均值和方差,重參數(shù)化構(gòu)建zt隱變量矩陣,再將該隱變量矩陣通過DAC信號(hào)轉(zhuǎn)換器轉(zhuǎn)化為模擬信號(hào),輸入到解碼器LSTM網(wǎng)絡(luò)中,進(jìn)行LSTM網(wǎng)絡(luò)硬件加速計(jì)算,最后將輸出轉(zhuǎn)換為數(shù)字信號(hào)傳給軟件,計(jì)算預(yù)測(cè)值,并構(gòu)建預(yù)測(cè)文本序列信息,最終,該文模型實(shí)現(xiàn)HSR-VAE模型的硬件加速。

    圖2 憶阻LSTM

    4 實(shí)驗(yàn)結(jié)果分析

    本文采用4個(gè)公共數(shù)據(jù)集來評(píng)估HSR-VAE,包括PTB, Yelp, Yahoo和Dailydialog。表1總結(jié)了相應(yīng)的數(shù)據(jù)集信息。其中,PTB,Yelp和Yahoo數(shù)據(jù)集應(yīng)用于語言模型任務(wù),Dailydialog數(shù)據(jù)集應(yīng)用于對(duì)話響應(yīng)生成任務(wù)。本文模型詞向量的大小為512維,隱藏層的大小均為256維。

    表1 數(shù)據(jù)集

    4.1 語言模型

    神經(jīng)網(wǎng)絡(luò)語言模型是在給定一個(gè)文本序列的前提下,預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率。本文采用兩個(gè)評(píng)估指標(biāo),包括NLL和PPL來評(píng)價(jià)模型的預(yù)測(cè)性能,NLL和PPL值越低說明預(yù)測(cè)文本越合理;KL值來評(píng)估模型是否出現(xiàn)后驗(yàn)崩潰。通過實(shí)驗(yàn),本文模型與強(qiáng)基線模型進(jìn)行了對(duì)比分析。(1)VAE-LSTM[10]:基于LSTM網(wǎng)絡(luò)的VAE模型,采用KL-annealing方法緩解后驗(yàn)崩潰;(2)半攤銷變分自動(dòng)編碼器(Semi-Amortized Variational AutoEncoders, SA-VAE)[29]:采用隨機(jī)變分推理初始化變分參數(shù);(3)循環(huán)變分自動(dòng)編碼器(Cyclical Variational AutoEncoder,Cyc-VAE)[14]:采用周期性模擬退火方法緩解KL散度消失;(4)滯后變分自動(dòng)編碼器(Lagging Variational AutoEncoder, Lag-VAE)[15]:采用多次更新編碼器而較少更新解碼器;(5)批量歸一化變分自動(dòng)編碼器(Batch Normalization Variational AutoEncoder, BN-VAE)[16]:在KL分布中采用BN正則避免后驗(yàn)崩潰;(6)TWR-VAE[17]:對(duì)每個(gè)時(shí)間步的隱藏狀態(tài)值進(jìn)行KL正則;(7)短程推理變分自動(dòng)編碼器(Short Run Inference Variational AutoEncoder, Sri-VAE)[18]:將VAE與Langevin Dynamics算法結(jié)合避免后驗(yàn)崩潰。

    語言模型實(shí)驗(yàn)結(jié)果如表2所示,HSR-VAE的預(yù)測(cè)性能(NLL, PPL)優(yōu)于所有基線模型。對(duì)兩個(gè)數(shù)據(jù)集的評(píng)估結(jié)果進(jìn)行平均,與基線模型TWR-VAE相比,本文模型在NLL值降低6,PPL值降低5.9,KL值提高5.6;與強(qiáng)基線模型BN-VAE相比,KL值提升1.1;與最新模型Sri-VAE相比,NLL和PPL分別降低29.2和42.6。實(shí)驗(yàn)結(jié)果表明HSR-VAE在語言建模任務(wù)中優(yōu)異的性能。語言模型生成文本如表3所示,原始文本序列與生成文本序列越相似,說明模型的預(yù)測(cè)性能越好。

    表2 語言模型實(shí)驗(yàn)對(duì)比

    表3 語言模型生成文本示例

    消融研究測(cè)試TWR-VAE與HSR-VAE模型在RNN, LSTM和GRU等不同循環(huán)結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果。同時(shí),為測(cè)量隱變量zt采樣輸入數(shù)據(jù)信息量,即測(cè)量輸入數(shù)據(jù)與隱變量之間的互信息,增加一個(gè)互信息評(píng)估(Mutual Information, MI)。其中,MI的計(jì)算方法如式(13)所示

    消融實(shí)驗(yàn)結(jié)果如表4所示,與TWR-VAE相比,HSR-VAE的評(píng)估指標(biāo)NLL和PPL值有明顯降低,表明HSR-VAE預(yù)測(cè)文本更加合理。同時(shí),本文還探究不同循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)組合的實(shí)驗(yàn)效果,HSR-VAE的KL值表明,相比于單層循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),雙層循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)可更加有效地避免VAE后驗(yàn)崩潰;互信息MI值表明,雙層循環(huán)網(wǎng)絡(luò)架構(gòu)會(huì)減少解碼器獲得的信息量。低MI值和高KL值表明,弱化編碼器采樣性能有助于避免VAE后驗(yàn)崩潰。

    表4 消融研究實(shí)驗(yàn)對(duì)比

    4.2 對(duì)話響應(yīng)生成

    對(duì)話響應(yīng)生成的任務(wù)目標(biāo)是根據(jù)用戶的話語生成有意義的響應(yīng),然而,建立在序列對(duì)序列模型基礎(chǔ)上的對(duì)話響應(yīng)生成往往會(huì)產(chǎn)生例如“好”“嗯”“謝謝”等一般性的回答。針對(duì)該問題,一種有效的解決方案是采用條件變分自編碼器(Conditional Variational AutoEncoder, CVAE)[30],該模型采樣編碼器中的句子級(jí)別多樣性,通過隱變量來學(xué)習(xí)潛在會(huì)話意圖的分布,有效改善響應(yīng)的多樣性問題。本文以CVAE的結(jié)構(gòu)基礎(chǔ)對(duì)HSR-VAE進(jìn)行擴(kuò)展,進(jìn)一步評(píng)估模型在對(duì)話響應(yīng)生成任務(wù)中的效果。擴(kuò)展模型損失計(jì)算如式(14)所示

    其中,c表示上下文內(nèi)容編碼,J表示對(duì)話窗口的大小,j表示第幾個(gè)對(duì)話窗口。Pθ(xi|zJ,c)表示重構(gòu)損失,DKL(Q?(zj|xi,c)||Pθ(zj|c))表示KL散度,即通過Q?(zj|xi,c)來 擬合真實(shí)后驗(yàn)分布Pθ(zj|c)。

    對(duì)話響應(yīng)生成任務(wù)中,本文基于Dailydialog[31]數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。訓(xùn)練過程中,對(duì)話窗口的大小J設(shè)置為10,最大對(duì)話長(zhǎng)度為40,采用貪婪解碼來抽樣響應(yīng),使得對(duì)話隨機(jī)性完全取決于隱變量。所有基線模型采用的超參數(shù)相同,編碼器和解碼器都采用GRU模型,模型的隱藏狀態(tài)值維度設(shè)置為300,隱變量維度大小為200。

    在對(duì)比實(shí)驗(yàn)中,本文模型除了與基線模型TWRVAE[17]、 Wasserstein自動(dòng)編碼器(Wasserstein AutoEncoder, WAE)[8]、CVAE、獨(dú)立變分自動(dòng)編碼器(Independent Variational AutoEncoder,IVAE)[32]進(jìn)行對(duì)比,還與層次化基線模型RNN(Variational Hierarchical Conversation RNNs,VHCR)[26]、可變分層循環(huán)編碼器(Variable Hierarchical Recurrent Encoder-Decoder, VHRED)[33]、基于強(qiáng)化學(xué)習(xí)方法的Seq2Seq生成性對(duì)抗網(wǎng)絡(luò)(Seq2Seq Generative Adversarial Networks, SeqGAN)[34]進(jìn)行對(duì)比。對(duì)話響應(yīng)生成任務(wù)評(píng)估指標(biāo)采用先前已有工作所采用的評(píng)價(jià)方法。(1)雙語評(píng)估替補(bǔ)(BiLingual Evaluation Understudy, BLEU)。該評(píng)估指標(biāo)展示了生成對(duì)話與參考序列的匹配程度。對(duì)于每個(gè)測(cè)試情境,計(jì)算每個(gè)響應(yīng)的BLEU分?jǐn)?shù),并將n元語法查準(zhǔn)率和n元語法召回率分別定義為平均分和最高分;(2)BOW。該評(píng)估展示了模型生成的回答和參考序列之間的詞袋嵌入余弦相似度。本文采用3種度量方式計(jì)算單詞嵌入的相似度:BOW-G(BOWGreedy)是通過貪婪匹配的兩個(gè)對(duì)話單詞之間的平均余弦相似度,BOW-A(BOW-Average)是單詞嵌入之間的平均余弦相似度,BOW-E(BOW-Extreme)是兩個(gè)對(duì)話的單詞嵌入的最大極值之間的余弦相似度。(3)Distinct。該方法通過計(jì)算生成的對(duì)話響應(yīng)中的唯一n元語法(n=1,2)與所有n元語法的比率來衡量生成的對(duì)話響應(yīng)的多樣性。Intra-dist表示單次情境中單個(gè)響應(yīng)內(nèi)部的多樣性;Inter-dist表示單次情境中多個(gè)響應(yīng)之間的多樣性。

    對(duì)話響應(yīng)生成實(shí)驗(yàn)結(jié)果如表5所示。HSR-VAE在各個(gè)評(píng)估指標(biāo)均優(yōu)于層次化基線模型VHRED和VHCR,表明在層次化的基礎(chǔ)上進(jìn)行時(shí)間步狀態(tài)正則可提升生成對(duì)話的質(zhì)量;與基線模型TWR-VAE相比,HSR-VAE在一些評(píng)估指標(biāo)上有一定的優(yōu)化,特別是在多樣性評(píng)估指標(biāo)Intra-dist和Inter-dist,表明層次化優(yōu)化方法可有效提升對(duì)話響應(yīng)生成任務(wù)的多樣性。表6展示了對(duì)話響應(yīng)生成任務(wù)中生成的可能的響應(yīng)文本。

    表5 對(duì)話響應(yīng)生成任務(wù)實(shí)驗(yàn)對(duì)比

    表6 對(duì)話響應(yīng)生成文本示例

    5 結(jié)束語

    本文提出層次化狀態(tài)正則變分自編碼器HSRVAE,本文模型通過層次化方法編碼隱藏狀態(tài)矩陣,并且對(duì)編碼后的隱藏狀態(tài)矩陣各個(gè)時(shí)間步的狀態(tài)值施加KL正則。同時(shí),基于憶阻交叉陣列完成LSTM網(wǎng)絡(luò)核心模塊的權(quán)值矩陣計(jì)算,通過線上線下混合訓(xùn)練及實(shí)時(shí)推理,實(shí)現(xiàn)HSR-VAE模型的硬件加速。計(jì)算機(jī)仿真結(jié)果實(shí)驗(yàn)表明,在語言建模任務(wù)中,HSR-VAE不僅可以有效避免后驗(yàn)崩潰,且擁有比所有強(qiáng)基線模型更好的性能;消融實(shí)驗(yàn)研究表明,層次化編碼和時(shí)間步狀態(tài)正則的有效結(jié)合可應(yīng)用于不同循環(huán)結(jié)構(gòu)的VAE,并有效提升模型性能;在對(duì)話響應(yīng)生成任務(wù)中,HSR-VAE可有效提升對(duì)話響應(yīng)生成序列的多樣性。上述實(shí)驗(yàn)結(jié)果都表現(xiàn)出本文模型的有效性,進(jìn)一步研究可以將HSRVAE應(yīng)用在其他任務(wù),如機(jī)器翻譯等。

    猜你喜歡
    阻器層次化變分
    面向量化分塊壓縮感知的區(qū)域?qū)哟位A(yù)測(cè)編碼
    逆擬變分不等式問題的相關(guān)研究
    求解變分不等式的一種雙投影算法
    關(guān)于一個(gè)約束變分問題的注記
    真實(shí)憶阻器數(shù)學(xué)建模以及電學(xué)仿真
    電子制作(2017年24期)2017-02-02 07:14:25
    一個(gè)擾動(dòng)變分不等式的可解性
    鐵路傳送網(wǎng)OTN設(shè)備互聯(lián)互通開銷層次化處理研究
    艦船系統(tǒng)間電磁兼容性的層次化優(yōu)化方法
    基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測(cè)
    具有脈沖的憶阻器神經(jīng)網(wǎng)絡(luò)周期解的穩(wěn)定性
    南投市| 仙桃市| 庆云县| 神农架林区| 新龙县| 蚌埠市| 确山县| 棋牌| 剑阁县| 油尖旺区| 石棉县| 盖州市| 公主岭市| 盐池县| 顺平县| 崇仁县| 保亭| 扶沟县| 繁昌县| 沽源县| 德化县| 云南省| 遵义县| 剑河县| 濮阳县| 丁青县| 静乐县| 绵阳市| 那坡县| 凉城县| 平江县| 武威市| 吉林省| 调兵山市| 澄迈县| 鄄城县| 淮南市| 咸阳市| 卢氏县| 江阴市| 屯留县|