張鵬遠(yuǎn) ,盧春暉 ,王睿敏
(1.中國(guó)科學(xué)院聲學(xué)研究所語(yǔ)言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室,北京 100190;2.中國(guó)科學(xué)院大學(xué)電子電器與通信工程學(xué)院,北京 100049)
預(yù)測(cè)輸入文本的韻律結(jié)構(gòu)作為統(tǒng)計(jì)參數(shù)語(yǔ)音合成中必不可少的一個(gè)步驟,其結(jié)果與其他語(yǔ)言學(xué)信息相結(jié)合被進(jìn)一步用于預(yù)測(cè)待合成語(yǔ)音的停頓、時(shí)長(zhǎng)、基頻和頻譜等聲學(xué)參數(shù).因此,韻律結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性將在很大程度上決定合成語(yǔ)音的自然度與可懂度.
在漢語(yǔ)語(yǔ)音合成系統(tǒng)中,通常將韻律結(jié)構(gòu)在語(yǔ)法詞的基礎(chǔ)上自底向上劃分為韻律詞、韻律短語(yǔ)、語(yǔ)調(diào)短語(yǔ)3個(gè)層級(jí),并以此來(lái)區(qū)分相鄰語(yǔ)法詞間的停頓長(zhǎng)短.韻律結(jié)構(gòu)預(yù)測(cè)就是針對(duì)每個(gè)韻律層級(jí)判斷一句話中每個(gè)語(yǔ)法詞邊界是否為該層韻律邊界,可以將此預(yù)測(cè)過程視為一個(gè)典型的自然語(yǔ)言處理問題——序列標(biāo)注問題,即對(duì)輸入文本序列建立一個(gè)其到輸出標(biāo)記序列的映射關(guān)系,以決定每個(gè)輸入元素對(duì)應(yīng)的輸出類別.因此韻律結(jié)構(gòu)預(yù)測(cè)可以使用常規(guī)的序列標(biāo)注方法,在韻律結(jié)構(gòu)預(yù)測(cè)中,輸入序列與輸出序列是等長(zhǎng)的.
早期,序列標(biāo)注問題的解決通常借助于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,包括決策樹[1]、隱馬爾科夫模型[2]、最大熵模型[3]、條件隨機(jī)場(chǎng)(conditional random field,CRF)[4]等在內(nèi)的多種方法均被用于韻律結(jié)構(gòu)預(yù)測(cè)問題中.隨著深度學(xué)習(xí)的發(fā)展,預(yù)訓(xùn)練語(yǔ)言模型在眾多自然語(yǔ)言處理任務(wù)中都展現(xiàn)了其有效性[5-7].通常將預(yù)訓(xùn)練的語(yǔ)言表示用于具體任務(wù)中,有兩種策略.一種為基于特征的方法,即將預(yù)訓(xùn)練的表示作為具體任務(wù)中輸入特征的一部分,預(yù)訓(xùn)練詞嵌入向量就是這種策略的典型代表.目前,已經(jīng)有很多工作將這種策略用在韻律結(jié)構(gòu)預(yù)測(cè)任務(wù)中.Ding等[8]分別使用獨(dú)熱向量和預(yù)訓(xùn)練的字嵌入向量作為模型的輸入特征,對(duì)兩者進(jìn)行了對(duì)比,實(shí)驗(yàn)表明使用預(yù)訓(xùn)練的字嵌入向量在各個(gè)韻律層級(jí)上的預(yù)測(cè)結(jié)果均優(yōu)于獨(dú)熱向量.Zhao等[9]也得出了相同的結(jié)論.Zheng等[10]提出了一種增強(qiáng)的嵌入式特征,在詞嵌入向量中融入字嵌入向量的信息,實(shí)驗(yàn)表明以該特征作為輸入的性能優(yōu)于直接使用詞嵌入向量.Zheng等[11]還在輸入詞嵌入向量和字嵌入向量的基礎(chǔ)上,將預(yù)訓(xùn)練語(yǔ)言模型預(yù)測(cè)的下一個(gè)詞的概率作為一種上下文敏感的嵌入式向量額外作為模型的輸入特征,進(jìn)一步提升了網(wǎng)絡(luò)性能.上述這些工作均是將利用大規(guī)模語(yǔ)料進(jìn)行無(wú)監(jiān)督學(xué)習(xí)得到的嵌入式向量作為網(wǎng)絡(luò)的輸入特征,在網(wǎng)絡(luò)結(jié)構(gòu)上都采用了能對(duì)上下文信息進(jìn)行建模的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bidirectional long short term memory,BLSTM).
另一種將預(yù)訓(xùn)練表示用于具體任務(wù)的策略為基于模型微調(diào),即在預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上,引入任務(wù)相關(guān)的輸出層,然后對(duì)預(yù)訓(xùn)練的模型參數(shù)和輸出層參數(shù)一起進(jìn)行簡(jiǎn)單的微調(diào).雖然 Huang等[12]和本文之前的工作[13]使用了類似的思想,但這兩個(gè)工作是建立在相關(guān)任務(wù)(如分詞、詞性標(biāo)注)模型的基礎(chǔ)上,而非更通用的語(yǔ)言表示模型.受最近基于轉(zhuǎn)換器的雙向編碼器表示(bidirectional encoder representation from transformers,BERT)[14]在多個(gè)自然語(yǔ)言處理任務(wù)中成功應(yīng)用的啟發(fā),本文首次在通用語(yǔ)言表示模型的基礎(chǔ)上使用模型微調(diào)的策略進(jìn)行韻律結(jié)構(gòu)預(yù)測(cè)任務(wù),對(duì)BERT語(yǔ)言表示模型在韻律結(jié)構(gòu)預(yù)測(cè)上應(yīng)用的可行性進(jìn)行了探索,包括對(duì)不同的韻律輸出結(jié)構(gòu)的對(duì)比,對(duì)預(yù)訓(xùn)練及額外引入分詞任務(wù)的有效性的探討,以及對(duì)不同數(shù)據(jù)量對(duì)模型性能影響的分析.
BERT是最近提出的一種語(yǔ)言表示模型,通過將掩蔽語(yǔ)言模型作為訓(xùn)練目標(biāo)實(shí)現(xiàn)了預(yù)訓(xùn)練深層雙向表征.作為一種基于微調(diào)的通用語(yǔ)言表示,BERT在多個(gè)任務(wù)上的表現(xiàn)甚至超越了任務(wù)相關(guān)的結(jié)構(gòu),達(dá)到了目前的最優(yōu)水平.
BERT在模型結(jié)構(gòu)上使用了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型Transformer[15]的編碼器部分.如圖1所示,其由N個(gè)完全相同的層堆疊而成,其中每層包含兩個(gè)子層,層間進(jìn)行殘差連接[16]并做層歸一化[17],即每個(gè)子層的輸出Y為
式中:X為該層的輸入;Sublayer代表該層的實(shí)現(xiàn)函數(shù).為了使用殘差連接,模型中所有隱層的單元數(shù)均為d.
具體地,第 1個(gè)子層使用多頭注意力機(jī)制,通過h個(gè)注意力頭在多個(gè)表示子空間內(nèi)對(duì)不同位置的注意函數(shù)進(jìn)行學(xué)習(xí).具體過程如圖 2所示,對(duì)于輸入d維的查詢向量Q、鍵向量K和值向量V,首先對(duì)每個(gè)向量進(jìn)行h次線性變換,得到h組不同的查詢向量、鍵向量和值向量.然后對(duì)每組Qi、Ki和Vi
圖1 BERT模型結(jié)構(gòu)Fig.1 Model architecture of BERT
圖2 多頭注意力機(jī)制Fig.2 Multi-head attention mechanism
(i∈[1 ,h])進(jìn)行縮放點(diǎn)積注意力[15]操作,得到Mi,即
式中dk為Qi、Ki和Vi的維度,且dk=d/h.之后將h個(gè)Mi拼接在一起并做線性投影得到最終的輸出.
第 2個(gè)子層是一個(gè)簡(jiǎn)單的全連接的前饋神經(jīng)網(wǎng)絡(luò),由兩個(gè)線性變換組成,在兩個(gè)線性變換間用ReLu激活函數(shù)[18]連接,即
式中:W1∈Rd×4d;W2∈R4d×d.
為了訓(xùn)練深層的雙向表征,BERT在預(yù)訓(xùn)練時(shí)使用了掩蔽的語(yǔ)言模型作為訓(xùn)練任務(wù),即以一定比例隨機(jī)掩蔽輸入中的一些字,將這些字用“[MASK]”符號(hào)替代,然后只對(duì)這些字進(jìn)行預(yù)測(cè),這也可以被稱為完型填空任務(wù).因在實(shí)際任務(wù)中對(duì)模型微調(diào)時(shí)不存在“[MASK]”,為了避免這種預(yù)訓(xùn)練和微調(diào)的不匹配,訓(xùn)練數(shù)據(jù)生成的具體做法如下:首先以 15%的比例隨機(jī)選擇每個(gè)輸入序列中將被掩蔽的字,對(duì)這些選中的字,將其中的 80%替換為“[MASK]”,10%替換為隨機(jī)的其他字,10%保留不被替換.
為了讓模型具有理解句子間關(guān)系的能力,BERT在上述任務(wù)的基礎(chǔ)上額外增加了下一句預(yù)測(cè)任務(wù),即判斷輸入序列中的第 2句話是否為原始文本中第 1句話的下一句話.在訓(xùn)練數(shù)據(jù)生成時(shí),每個(gè)序列的第2句話有 50%為第 1句話的真實(shí)后續(xù)文本,另 50%為從語(yǔ)料中隨機(jī)選取的任意文本.
作為一種通用的語(yǔ)言表示模型,為了適用于各種不同的任務(wù),BERT對(duì)輸入序列進(jìn)行了一些特殊處理.首先,BERT的所有輸入序列的第一個(gè)字符均為一個(gè)特殊符號(hào)“[CLS]”,對(duì)于句級(jí)分類任務(wù),可以直接以該字符對(duì)應(yīng)的模型輸出作為整個(gè)序列的表示進(jìn)行分類.其次,因在預(yù)訓(xùn)練中引入了下一句預(yù)測(cè)任務(wù),BERT的輸入序列是由兩個(gè)句子組成的句子對(duì).為了對(duì)句子進(jìn)行區(qū)分,一方面在輸入序列中每個(gè)句子的末尾加入了特殊符號(hào)“[SEP]”來(lái)表示句子結(jié)束,另一方面兩個(gè)句子在輸入特征上使用不同的句嵌入向量A或句嵌入向量B.
在模型結(jié)構(gòu)上,BERT未使用循環(huán)和卷積操作,不包含序列中的順序信息,因此在輸入中額外引入了位置向量,代表每個(gè)字在序列中的位置.對(duì)于文本序列中的每個(gè)字,其輸入特征為該字對(duì)應(yīng)的字向量、位置向量與句子切分向量三者之和,所有特征向量均嵌在網(wǎng)絡(luò)中通過訓(xùn)練得到.
本文構(gòu)建了基于BERT的韻律結(jié)構(gòu)預(yù)測(cè)模型,在預(yù)訓(xùn)練 BERT語(yǔ)言表示模型的基礎(chǔ)上通過微調(diào)的方式實(shí)現(xiàn)對(duì)韻律詞和韻律短語(yǔ)的預(yù)測(cè).之前大多數(shù)工作[1-4,8,11]在預(yù)測(cè)這兩級(jí)韻律時(shí)采用了級(jí)聯(lián)的形式,即對(duì)每個(gè)韻律層級(jí)構(gòu)建一個(gè)預(yù)測(cè)模型,并把韻律詞預(yù)測(cè)的結(jié)果作為韻律短語(yǔ)預(yù)測(cè)模型的輸入.在實(shí)際應(yīng)用中存儲(chǔ)多個(gè)模型將占用過多的內(nèi)存,所以本文利用一個(gè)模型對(duì)多級(jí)韻律同時(shí)進(jìn)行預(yù)測(cè),在輸出結(jié)構(gòu)上對(duì)比了如下兩種方式.
(1)將韻律詞邊界預(yù)測(cè)和韻律短語(yǔ)邊界預(yù)測(cè)視為兩個(gè)相關(guān)的任務(wù),對(duì)每個(gè)任務(wù)各引入一個(gè)輸出分類層,利用多任務(wù)學(xué)習(xí)的框架對(duì)兩個(gè)任務(wù)間的關(guān)系建模,實(shí)現(xiàn)對(duì)它們的同時(shí)預(yù)測(cè).以韻律詞邊界預(yù)測(cè)為例,將其視為一個(gè)三分類任務(wù),對(duì)于輸入序列中的每個(gè)字判斷其是否是韻律詞邊界或是其他(“[SEP]”等).具體地,如圖3所示,首先對(duì)每個(gè)字得到其輸入特征向量,即字向量、位置向量與句子切分向量之和.因這里只包含單一句子,所以只使用了句嵌入向量A作為句子切分向量.然后經(jīng)過 BERT網(wǎng)絡(luò)得到每個(gè)字的輸出向量T,對(duì)向量T做式(4)操作得到概率向量P,其中W∈R3×h,P∈ R3.最后以P中概率最大的值對(duì)應(yīng)的類別作為預(yù)測(cè)結(jié)果,在圖3中分別用符號(hào)NB、B和O表示.韻律短語(yǔ)預(yù)測(cè)過程與此相同.
(2)將韻律邊界預(yù)測(cè)視為一個(gè)多分類任務(wù),認(rèn)為每個(gè)字屬于韻律詞邊界、韻律短語(yǔ)邊界或非邊界三者中的一種,在 BERT的基礎(chǔ)上只引入一個(gè)輸出分類層,實(shí)現(xiàn)對(duì)韻律詞和韻律短語(yǔ)的同時(shí)預(yù)測(cè).具體過程同(1)所述.
圖3 基于BERT的韻律詞預(yù)測(cè)Fig.3 Prosodic word prediction based on BERT
韻律詞與韻律短語(yǔ)是建立在語(yǔ)法詞的基礎(chǔ)上的,以字為建模單位雖然可以避免對(duì)前端分詞系統(tǒng)的依賴及其造成的負(fù)面影響,但是使模型內(nèi)缺乏詞邊界的信息,增加了建模的難度.本文額外引入了分詞任務(wù),以通過共享隱含層中的高級(jí)特征在韻律邊界預(yù)測(cè)任務(wù)中獲得詞邊界的信息.實(shí)現(xiàn)時(shí)在上述韻律預(yù)測(cè)框架的基礎(chǔ)上額外加入了一個(gè)輸出分類層判斷每個(gè)字在詞中的位置,包括開頭、中間、結(jié)束和單字4類.
對(duì)于每個(gè)任務(wù),以交叉熵作為其損失函數(shù),整個(gè)模型以最小化韻律邊界預(yù)測(cè)任務(wù)與分詞任務(wù)損失函數(shù)之和為訓(xùn)練目標(biāo),對(duì)預(yù)訓(xùn)練的BERT模型參數(shù)和新增輸出分類層參數(shù)一起進(jìn)行更新.
目前在語(yǔ)音合成領(lǐng)域公開的漢語(yǔ)語(yǔ)料庫(kù)極少,導(dǎo)致沒有通用的實(shí)驗(yàn)數(shù)據(jù),因此本文實(shí)驗(yàn)使用了一個(gè)內(nèi)部的由專業(yè)女聲錄制的包含 9000個(gè)句子的漢語(yǔ)語(yǔ)音合成語(yǔ)料庫(kù).語(yǔ)料庫(kù)中所有句子的韻律邊界均由標(biāo)注人員通過閱讀文本及聽對(duì)應(yīng)的音頻進(jìn)行標(biāo)注,同時(shí)標(biāo)注人員對(duì)所有文本進(jìn)行了分詞并標(biāo)注了詞性.在實(shí)驗(yàn)時(shí),90%的數(shù)據(jù)用于訓(xùn)練,5%用于驗(yàn)證,另外5%用于測(cè)試.
在預(yù)訓(xùn)練BERT語(yǔ)言表示模型上,使用了谷歌開源的中文模型,模型層數(shù)N為12,隱含層單元數(shù)d為768,自注意力層頭數(shù)h為 12.在此基礎(chǔ)上進(jìn)行微調(diào)訓(xùn)練韻律預(yù)測(cè)模型時(shí),batch大小設(shè)置為 16,學(xué)習(xí)率為5×10-5,使用Adam[19]算法進(jìn)行參數(shù)更新.
本文設(shè)置了兩個(gè)基線模型:第1個(gè)利用傳統(tǒng)方法CRF建模,使用了包括詞、詞性、詞長(zhǎng)在內(nèi)的傳統(tǒng)語(yǔ)言學(xué)特征,采用第 2節(jié)所述級(jí)聯(lián)的形式實(shí)現(xiàn);第2個(gè)使用目前效果最好的 BLSTM-CRF建模,模型包含兩個(gè)隱層,每層每個(gè)方向 128個(gè)節(jié)點(diǎn),采用多輸出的結(jié)構(gòu)以預(yù)訓(xùn)練的 BERT中 768維的字向量作為輸入特征.除基線 CRF模型由 CRF++[20]工具訓(xùn)練外,其余模型均利用TensorFlow[21]訓(xùn)練.
所有實(shí)驗(yàn)以F1值作為韻律詞和韻律短語(yǔ)預(yù)測(cè)的評(píng)價(jià)指標(biāo).定義為
兩個(gè)基線模型的結(jié)果如表1所示,其中BLSTMCRF以字向量為輸入,缺乏詞邊界的信息,所以在韻律詞上的表現(xiàn)和以詞為輸入的CRF相比有較大差距.
表1 基線模型的F1值Tab.1 F1scores of the baseline models
首先對(duì)第 2節(jié)中提出的兩種輸出結(jié)構(gòu)進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果見表2.其中BERT-CLS和BERT-MLT分別代表只有一個(gè)輸出層和每個(gè)韻律層級(jí)各有一個(gè)輸出層這兩種結(jié)構(gòu),兩者均是在預(yù)訓(xùn)練BERT語(yǔ)言表示模型的基礎(chǔ)上利用韻律標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)得到.從表2可以看到,BERT-MTL這種結(jié)構(gòu)的性能明顯優(yōu)于 BERT-CLS,這是因?yàn)轫嵚稍~與韻律短語(yǔ)之間不是非此即彼而是一種遞進(jìn)的關(guān)系,只有當(dāng)該字為韻律詞的邊界時(shí)它才有可能作為韻律短語(yǔ)的邊界,而當(dāng)它是韻律短語(yǔ)邊界時(shí)則一定是韻律詞邊界.這種韻律結(jié)構(gòu)間內(nèi)在的關(guān)系利用多任務(wù)學(xué)習(xí)的框架可以得到更好的建模.
表2 不同輸出結(jié)構(gòu)的F1值Tab.2 F1scores of different output structures
為分析預(yù)訓(xùn)練語(yǔ)言表示的有效性,在 BERTMTL結(jié)構(gòu)下對(duì)比了如下幾種模型初始化方式.①BERT-MTL-N:不使用預(yù)訓(xùn)練,即所有參數(shù)隨機(jī)初始化,整個(gè)模型從 0開始訓(xùn)練;② BERT-MTL-E:僅使用預(yù)訓(xùn)練的嵌入式特征部分,即利用預(yù)訓(xùn)練模型中的字嵌入式向量,位置向量和句子切分向量初始化韻律預(yù)測(cè)模型對(duì)應(yīng)參數(shù),其余參數(shù)隨機(jī)初始化,相當(dāng)于引言中所述的基于特征的方法;③BERT-MTL:使用所有預(yù)訓(xùn)練模型的參數(shù)作為韻律結(jié)構(gòu)預(yù)測(cè)模型的初始值,相當(dāng)于基于微調(diào)的方法.實(shí)驗(yàn)結(jié)果如表 3所示,可以看到從0開始訓(xùn)練的結(jié)果最差,這說明在此網(wǎng)絡(luò)結(jié)構(gòu)下,由于可用的訓(xùn)練數(shù)據(jù)過少,對(duì)漢語(yǔ)復(fù)雜的詞法句法涵蓋有限,導(dǎo)致無(wú)法充分建模文本內(nèi)部包含的韻律關(guān)系.基于特征的方法和基于微調(diào)的方法與從 0開始訓(xùn)練相比均有提升,這說明了用額外數(shù)據(jù)預(yù)訓(xùn)練可以給網(wǎng)絡(luò)引入更多的語(yǔ)言學(xué)信息.但基于特征的方法在韻律詞和韻律短語(yǔ)預(yù)測(cè)的F1值上均只有大約2%的提升,和基于微調(diào)方法 8.16%和 7.26%的提升相差甚遠(yuǎn).預(yù)訓(xùn)練的特征雖在一定程度上學(xué)習(xí)到了不同字間的不同表示,但對(duì)于處于不同上下文中的同一個(gè)字卻無(wú)法進(jìn)行分辨,而這種上下文間的關(guān)系對(duì)于韻律結(jié)構(gòu)預(yù)測(cè)是至關(guān)重要的,所以其帶來(lái)的提升有限.對(duì)于預(yù)訓(xùn)練的整個(gè)模型,在以掩蔽語(yǔ)言模型作為預(yù)訓(xùn)練目標(biāo),對(duì)大量文本無(wú)監(jiān)督的學(xué)習(xí)過程中,學(xué)習(xí)到了每個(gè)字常在的詞語(yǔ)組合,這種短時(shí)的關(guān)系在韻律詞建模的過程中起到指導(dǎo)作用,即在詞語(yǔ)組合的內(nèi)部不會(huì)出現(xiàn)韻律詞邊界,從而提升了韻律詞預(yù)測(cè)的準(zhǔn)確性.對(duì)于長(zhǎng)時(shí)的韻律短語(yǔ),一方面預(yù)訓(xùn)練的模型可以捕捉到句子內(nèi)部的長(zhǎng)時(shí)信息,如句法結(jié)構(gòu)、依存關(guān)系等,這對(duì)于韻律短語(yǔ)的預(yù)測(cè)是有益的;另一方面,韻律短語(yǔ)建立在韻律詞的基礎(chǔ)上,韻律詞預(yù)測(cè)準(zhǔn)確率的提升也有利于韻律短語(yǔ)邊界的預(yù)測(cè).
表3 使用不同參數(shù)預(yù)訓(xùn)練的F1值Tab.3 F1scores when using different pretrained parameters
為了在模型中引入詞級(jí)別的信息,在表3列出模型的基礎(chǔ)上加入了分詞任務(wù),實(shí)驗(yàn)結(jié)果如表 4所示.通過和表 3的對(duì)比可得出結(jié)論:分詞任務(wù)的加入確實(shí)有助于提升韻律詞和韻律短語(yǔ)預(yù)測(cè)的性能,但隨著使用預(yù)訓(xùn)練參數(shù)的增加,加入該任務(wù)對(duì)韻律預(yù)測(cè)效果的提升減弱,這也說明預(yù)訓(xùn)練的特征和模型都在一定程度上學(xué)習(xí)到了詞級(jí)別的信息.BERT-MTL-WS-E在和基線 BLSTM-CRF使用相同輸入的情況下,實(shí)現(xiàn)了更優(yōu)的結(jié)果,體現(xiàn)了其更強(qiáng)的建模能力.而BERT-MTL-WS實(shí)現(xiàn)了本文最好的結(jié)果,在以字為建模單元的前提下結(jié)果明顯優(yōu)于以詞為建模單元的CRF,韻律詞和韻律短語(yǔ)預(yù)測(cè)的F1值分別有 2.48%和4.50%的絕對(duì)提升,這進(jìn)一步體現(xiàn)了預(yù)訓(xùn)練語(yǔ)言表示模型的有效性.
表4 加入分詞任務(wù)的F1值Tab.4 F1scores when adding the word segmentation task
本文最后對(duì)比了不同訓(xùn)練數(shù)據(jù)量對(duì) BERT-MTLWS-N和BERT-MTL-WS模型性能的影響,實(shí)驗(yàn)結(jié)果如圖4所示,圖中虛線為使用8000條文本訓(xùn)練的基線 CRF的結(jié)果.可以看到,韻律詞和韻律短語(yǔ)的F1值隨數(shù)據(jù)量變化的趨勢(shì)相同.未經(jīng)預(yù)訓(xùn)練的模型F1值都隨著訓(xùn)練數(shù)據(jù)量的減少急劇下降,當(dāng)數(shù)據(jù)量減少至1000條時(shí)韻律詞和韻律短語(yǔ)預(yù)測(cè)的F1值與8000條相比分別下降7.83%和8.07%,當(dāng)數(shù)據(jù)量更少只有100條時(shí)下降值為 33%和 46%.而經(jīng)過預(yù)訓(xùn)練的模型在訓(xùn)練數(shù)據(jù)減少至 1000條時(shí)表現(xiàn)仍比較穩(wěn)定,韻律詞和韻律短語(yǔ)預(yù)測(cè)的F1值分別只有 0.66%和1.14%的下降,即使當(dāng)訓(xùn)練數(shù)據(jù)只有 100條時(shí),下降值也只有2.76%和5.36%,結(jié)果甚至優(yōu)于未經(jīng)預(yù)訓(xùn)練的8000條的結(jié)果.與基線CRF相比,經(jīng)過預(yù)訓(xùn)練的模型僅需 300條訓(xùn)練數(shù)據(jù)即可達(dá)到優(yōu)于 CRF的結(jié)果.以上這些量化的結(jié)果都表明了利用大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練語(yǔ)言表示模型的優(yōu)勢(shì),其不僅大大減少了對(duì)特定任務(wù)訓(xùn)練數(shù)據(jù)量的需求,而且在小數(shù)據(jù)量的前提下仍能實(shí)現(xiàn)并保持理想的結(jié)果,這也為解決其他訓(xùn)練數(shù)據(jù)難收集或難標(biāo)注的問題提供了思路.
圖4 不同訓(xùn)練數(shù)據(jù)量的F1值對(duì)比Fig.4 Comparison ofF1scores with different amounts of training data
本文在預(yù)訓(xùn)練語(yǔ)言表示模型 BERT的基礎(chǔ)上構(gòu)建了韻律結(jié)構(gòu)預(yù)測(cè)模型,將多級(jí)韻律邊界的預(yù)測(cè)視為相關(guān)的任務(wù),通過多任務(wù)學(xué)習(xí)的框架捕捉各層級(jí)間的關(guān)系,實(shí)現(xiàn)了對(duì)它們的同時(shí)預(yù)測(cè).通過實(shí)驗(yàn)對(duì)比證明了使用預(yù)訓(xùn)練的語(yǔ)言模型不僅可以大幅提高韻律預(yù)測(cè)模型的性能,而且減少了對(duì)訓(xùn)練數(shù)據(jù)量的需求.另外,實(shí)驗(yàn)表明在以字為建模單元的模型中通過加入分詞任務(wù)獲得詞級(jí)別的信息,可以進(jìn)一步提升模型的準(zhǔn)確性.與基線模型相比,本文最好的結(jié)果在韻律詞和韻律短語(yǔ)預(yù)測(cè)的F1值分別實(shí)現(xiàn)了 2.48%和 4.50%的絕對(duì)提升.