• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合細(xì)粒度詞特征的老撾語詞性標(biāo)注研究

    2022-03-03 13:46:32周蘭江張建安
    關(guān)鍵詞:細(xì)粒度音素聲調(diào)

    唐 文,周蘭江,張建安

    (昆明理工大學(xué) 信息工程與自動化學(xué)院智能信息處理重點實驗室,昆明 650500)

    1 引 言

    詞性標(biāo)注(part-of-speech tagging)是在已切分好的文本中,給每一個詞標(biāo)注其所屬的詞類,例如,動詞、名詞、代詞、形容詞或者其他詞性.詞性標(biāo)注在后續(xù)任務(wù)中有著重要作用,在語義分析[1]、信息抽取、機(jī)器翻譯等自然語言處理領(lǐng)域有著重要的研究意義.

    目前,老撾語詞性標(biāo)注研究存在以下挑戰(zhàn):

    1)老撾語屬于東南亞低資源語,詞性標(biāo)注模型的性能往往與數(shù)據(jù)集規(guī)模有很大關(guān)系.

    2)老撾語的研究處于基礎(chǔ)階段,特征提取依賴大量人工定制規(guī)則,特征提取有限.

    3)老撾句子普遍過長,數(shù)據(jù)傳遞過程中關(guān)鍵信息易丟失.

    目前詞性標(biāo)注任務(wù)的主要研究方法分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)方法.常見的傳統(tǒng)機(jī)器學(xué)習(xí)方法主要有隱馬爾可夫模型(Hidden Markov Model,HMM)[2]、最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)[3]和條件隨機(jī)場(Conditional Random Fields,CRF)[4]等模型.其中,HMM模型在標(biāo)注時,選擇兩條最佳路線,通過兩次選擇獲取最佳標(biāo)簽;CRF模型被廣泛應(yīng)用于詞性標(biāo)注任務(wù)中,這類方法基于大規(guī)模的標(biāo)注語料和大量人工制定特征模板.由于老撾語在自然語言處理領(lǐng)域基礎(chǔ)較薄弱,暫無大規(guī)模的標(biāo)注語料,目前主要的老撾語詞性標(biāo)注研究方法是在低資源語料的情況下,結(jié)合老撾語規(guī)則[5],實現(xiàn)老撾語詞性標(biāo)注研究;盡管取得一定效果,但是還存在并行能力欠缺,長遠(yuǎn)信息易丟失,老撾詞特征提取不充分的問題.

    近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域中取得重大突破,由于神經(jīng)網(wǎng)絡(luò)模型能自動提取自然語言特征,從而獲取語言更深層次的輸入信息,與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,該方法在詞性標(biāo)注任務(wù)中取得了更好的效果.Huang等人[6]提出BiLSTM-CRF模型,有效提取輸入句子的前后信息,提升模型序列標(biāo)注性能(分詞、詞性標(biāo)注、命名實體識別).但該模型在反向傳播過程中通常存在梯度消失和梯度爆炸的問題[7],不能有效利用長遠(yuǎn)上下文信息.Wu等人[8]提出基于自注意力機(jī)制的Bilstm-CRF模型,該模型在BiLSTM-CRF模型基礎(chǔ)上利用注意力機(jī)制有效提取上下文信息,進(jìn)而彌補(bǔ)了BiLSTM-CRF模型的缺陷.神經(jīng)網(wǎng)絡(luò)方法雖然能自動學(xué)習(xí)相關(guān)任務(wù)的特征表示,但是忽略了單詞的形態(tài)結(jié)構(gòu)和內(nèi)部結(jié)構(gòu)信息,導(dǎo)致形態(tài)學(xué)信息丟失.因此,針對語料資源稀缺、形態(tài)結(jié)構(gòu)復(fù)雜的語言,使用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行詞性標(biāo)注的效果往往不佳.

    Labeau等人[9]在詞性標(biāo)注任務(wù)中成功使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),同年Wang等人[10]在詞性標(biāo)注任務(wù)中采用了雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory Network,BiLSTM)進(jìn)行特征抽取,有效緩解了模型對特征工程的依賴,盡管通過融合特征在詞性標(biāo)注任務(wù)中取得了不錯效果,但兩者均只能靜態(tài)地、局部地表示單詞內(nèi)各個字符在詞向量中的權(quán)重.Rei等人[11]采用Attention機(jī)制動態(tài)地、全局地在單詞和字符信息之間進(jìn)行選擇,該方法在一系列序列標(biāo)記數(shù)據(jù)集上進(jìn)行評估,實驗結(jié)果表明所提出方法取得了最好的效果.盡管Attention機(jī)制在詞性標(biāo)注任務(wù)中取得了一定成果,但是如何有效地將Attention機(jī)制與老撾語特征進(jìn)行有效結(jié)合還有待進(jìn)一步探索.

    綜上,在對老撾語特點研究的基礎(chǔ)上,本文提出一種融合細(xì)粒度老撾詞特征的老撾語詞性標(biāo)注方法,構(gòu)建了融合細(xì)粒度老撾詞特征的Att-BiLSTM-CRF模型.首先,將每個老撾詞拆分為音素和聲調(diào)符號;其次,根據(jù)Attention機(jī)制產(chǎn)生的概率分布,將音素和聲調(diào)符號與老撾詞的詞性信息進(jìn)行關(guān)聯(lián)性建模,與詞性相關(guān)性大的音素和聲調(diào)符號的權(quán)重較高,反之權(quán)重則降低.這樣不僅可以完全避免人工制定復(fù)雜特征模板,還可以捕獲老撾詞內(nèi)部的形態(tài)結(jié)構(gòu)信息然后,將老撾詞特征向量輸入編碼層得到老撾句式語義特征;將編碼層的輸出輸入交互層,利用注意力機(jī)制解決特征在數(shù)據(jù)傳遞過程中丟失的問題;最后,獲取相鄰詞性約束特征,從而獲取最優(yōu)的老撾詞性標(biāo)簽.實驗結(jié)果表明:在無任何特征工程的情況下,本文提出的老撾詞性標(biāo)注模型的精確率、召回率和F1值分別為93.70%、93.87%、93.62%.

    本文主要做出2點貢獻(xiàn):

    1)針對老撾語稀缺,特征提取不充分的問題,本文提出融合細(xì)粒度老撾詞特征的方法來充分提取語料信息.

    2)針對老撾語句式過長導(dǎo)致長遠(yuǎn)上下文信息丟失的問題,本文提出采用Att-BiLSTM-CRF模型進(jìn)行有效解決.

    2 老撾語音素和聲調(diào)符號

    表1 老撾語聲調(diào)表Table 1 Lao tone table

    本文將音素和聲調(diào)符號作為基本單元來構(gòu)建細(xì)粒度老撾詞向量,其中音素和聲調(diào)符號如表2所示.音素和聲調(diào)符號不僅在老撾詞義和詞性方面具有影響,而且還可以通過音素和聲調(diào)符號在詞中的位置反映老撾詞內(nèi)部結(jié)構(gòu)信息,如圖1所示.在老撾語料中高頻詞與低頻詞共享所有音素和聲調(diào)符號,因此,以音素和聲調(diào)符號構(gòu)成的細(xì)粒度詞向量能在一定程度上提升模型對低頻詞的詞性識別能力.

    表2 老撾語音素和聲調(diào)符號表Table 2 Lao phoneme and tone symbol table

    圖1 音素和聲調(diào)符號在老撾詞中的位置Fig.1 Location of phonemes and tonal symbols in Lao words

    3 老撾語詞性標(biāo)注模型

    3.1 模型結(jié)構(gòu)

    本文建立一個融合細(xì)粒度老撾詞特征的語義信息網(wǎng)絡(luò)模型,該模型由輸入層、嵌入層、Bilstm層、交互層、CRF層和輸出層組成.輸入層為已分詞的老撾句子;嵌入層利用細(xì)粒度詞特征提取器,獲取以音素和聲調(diào)符號為基本單位的細(xì)粒度詞特征向量;BiLSTM層對老撾句子進(jìn)行句子級特征提取;交互層將注意力權(quán)重作為老撾句子內(nèi)詞之間的交互信息,從而捕獲句子內(nèi)部語義特征,解決特征在數(shù)據(jù)傳遞過程中丟失的問題;CRF層提取相鄰老撾詞性約束特征,從而將最優(yōu)詞性標(biāo)簽作為詞性標(biāo)注模型的輸出層輸出.模型主要結(jié)構(gòu)如圖2所示.

    圖2 詞性標(biāo)注模型結(jié)構(gòu)圖Fig.2 Structure diagram of part-of-speech tagging model

    3.2 嵌入層

    表3 老撾句子標(biāo)注實例Table 3 Examples of Lao sentence annotation

    受此啟發(fā),本文采用一種基于Attention機(jī)制的細(xì)粒度詞特征,將音素和聲調(diào)符號與老撾詞的詞性信息進(jìn)行關(guān)聯(lián)性建模,與詞性相關(guān)性大的音素和聲調(diào)符號的權(quán)重較高,詞性相關(guān)性小的音素和聲調(diào)符號的權(quán)重則降低.這樣不僅可以完全避免人工制定復(fù)雜特征模板,還可以捕獲更加豐富的老撾詞內(nèi)部形態(tài)結(jié)構(gòu)信息.

    細(xì)粒度老撾詞特征向量以音素和聲調(diào)符號作為基本單位.首先,引入音素和聲調(diào)符號矩陣p={p1,p2,…,pm},其中,m表示音素和聲調(diào)符號的個數(shù).其次,根據(jù)公式(1)計算出相關(guān)性分?jǐn)?shù)向量Gi;然后,利用公式(2)獲得音素和聲調(diào)符號信息的注意力權(quán)重向量αi,j;最后,根據(jù)公式(3)將權(quán)重向量αi,j和輸入的老撾詞向量W={w1,w2,…,wn}進(jìn)行加權(quán)求和,捕獲音素和聲調(diào)符號信息與輸入老撾詞之間的相關(guān)信息.最后,通過非線性變換來表達(dá)細(xì)粒度的老撾詞表示rwch.以音素和聲調(diào)符號為基本單位的細(xì)粒度老撾詞特征提取器如圖3所示.

    圖3 細(xì)粒度老撾詞特征提取器Fig.3 Fine-grained Lao word feature extractor

    其計算公式如下所示:

    (1)

    (2)

    (3)

    其中,W為可訓(xùn)練參數(shù);Gi,j和αi,j是音素和聲調(diào)符號pi與輸入的第j個老撾詞之間的相關(guān)分?jǐn)?shù)和注意力分?jǐn)?shù).

    3.3 LSTM層

    LSTM[14]是RNN的一種變體,可以有效防止RNN模型在進(jìn)行返向傳遞時出現(xiàn)“梯度消失”和“梯度爆炸”的問題.但LSTM模型僅能利用前向信息,無法獲取后向信息,而詞性的確定需結(jié)合前后信息來進(jìn)行判斷.雙向長時記憶(BiLSTM)[15]的基本思想是在單個LSTM的基礎(chǔ)上增加一個提取后向句子特征信息的LSTM結(jié)構(gòu),使用兩個LSTM結(jié)構(gòu),一個LSTM提取前向信息,另一個提取后向信息,通過LSTM的兩個隱藏層從輸入序列中獲取完整信息.

    圖4 LSTM單元內(nèi)部結(jié)構(gòu)圖Fig.4 LSTM unit internal structure diagram

    特征向量計算公式如下所示:

    輸入門it:

    it=f(Wi·(ht-1,xt)+bi)

    (4)

    xt和前一個LSTM單元的輸出h(t-1)共同作為輸入來計算遺忘門ft:

    ft=f(wf·(ht-1,xt)+bc)

    (5)

    當(dāng)前輸入的單元狀態(tài)ct:

    ct=tanh(wc·(ht-1,xt)+bc)

    (6)

    當(dāng)前時刻的單元狀態(tài),即LSTM中的長時記憶dt:

    dt=ft·dt-1+ti·ct

    (7)

    輸出門ot:

    ot=f(Wo·(ht-1,xt)+bo)

    (8)

    輸出門ct結(jié)合當(dāng)前時刻的單元狀態(tài)dt,形成LSTM中短時記憶,即輸出ht:

    ht=ot·tanh(dt)

    (9)

    其中,wi、wf、wc、wo代表權(quán)重;bi、bf、bc、bo代表偏置項;f()為Sigmoid激活函數(shù);xt表示當(dāng)前時間步驟的輸入向量;ht為LSTM網(wǎng)絡(luò)的輸出隱藏狀態(tài).

    3.4 交互注意力層

    由于BiLSTM對于長距離序列信息的捕獲能力有限,因此,本文采用交互注意力機(jī)制[16,17]解決老撾句子長遠(yuǎn)上下文信息丟失的問題.

    老撾句子內(nèi)詞交互將注意力權(quán)重作為詞之間的交互信息,目的是量化每一個老撾詞在句子中的重要性,捕獲句子內(nèi)部的語義特征,突出關(guān)鍵詞在句子中的重要性,從而解決長距離關(guān)鍵信息丟失的問題.

    圖5 注意力機(jī)制圖Fig.5 Attention mechanism diagram

    特征向量計算公式如公式(10)-公式(12)所示:

    (10)

    (11)

    (12)

    其中,vc、wc、mc分別代表權(quán)重矩陣.

    3.5 CRF層

    (13)

    其中,wc和bc表示訓(xùn)練參數(shù).與其獨(dú)立地對標(biāo)簽決策進(jìn)行建模,不如在所有可能的標(biāo)簽路徑中添加CRF層來解碼最佳標(biāo)簽路徑.對于給定的句子x={x1,x2,…,xn},定量 預(yù)測結(jié)果正確概率的定義如公式(14)所示:

    (14)

    (15)

    (16)

    (17)

    4 實驗及結(jié)果

    4.1 實驗數(shù)據(jù)集

    為驗證所提方法的有效性,本文從維基百科老撾語版網(wǎng)站上抓取老撾數(shù)據(jù),對其進(jìn)行預(yù)處理后得到老撾文本,由老撾語言學(xué)專家進(jìn)行人工分詞與標(biāo)注,其中,匯總得到2495個老撾句子,61265個老撾詞.本文隨機(jī)挑選2120個句子(85%)構(gòu)成訓(xùn)練語料集,剩下的375個句子(15%)構(gòu)成測試語料集,實驗數(shù)據(jù)如表4所示.

    表4 實驗數(shù)據(jù)Table 4 Experimental data

    4.2 實驗參數(shù)設(shè)置及評價標(biāo)注

    本實驗采用Python 語言及Tensorflow 框架.采用帶有交叉熵?fù)p失的Adam優(yōu)化算法,LSTM的細(xì)胞個數(shù)設(shè)置為300;dropout設(shè)置為0.3,本文使用Glove模型預(yù)先訓(xùn)練詞向量,并設(shè)置嵌入大小為300.學(xué)習(xí)率為0.001,λ值為0.3,Word2vec預(yù)訓(xùn)練音素和聲調(diào)符號向量為50維.

    本實驗使用P精確率(Precision),R召回率(Recall)、F1值作為評價指標(biāo).P、R、F1值的具體計算公式如下所示.

    (18)

    (19)

    (20)

    4.3 模型對比實驗

    本文使用Att-BiLSTM-CRF模型,在老撾詞向量的基礎(chǔ)上融合細(xì)粒度詞特征來豐富老撾語義信息.為驗證Att-BiLSTM-CRF模型對老撾詞性標(biāo)注的有效性,在同一老撾語料集下,與其他5種主流的詞性標(biāo)注模型進(jìn)行比較分析,結(jié)果如表5所示.

    ·CRF模型:將老撾詞特征向量作為輸入,采用CRF進(jìn)行老撾詞性標(biāo)注.

    ·RNN-CRF模型:模型首先通過RNN學(xué)習(xí)老撾語法知識,然后使用CRF進(jìn)行詞性標(biāo)注.

    ·LSTM-CRF模型:采用LSTM提取老撾句子輸入特性.

    ·BiLSTM-CRF模型[7]:采用雙向長短期記憶網(wǎng)絡(luò)(Bilstm)提取過去和未來的輸入特征.

    ·Att-BiLSTM-CRF模型:在Bilstm-CRF模型的基礎(chǔ)上添加Attention機(jī)制分配權(quán)重分?jǐn)?shù).

    ·融入細(xì)粒度詞特征的Att-BiLSTM-CRF模型,即本文方法.

    表5 本文模型與主流模型實驗結(jié)果對比Table 5 Comparison of experimental results between this model and mainstream models

    模型對比試驗中,由表5可知,本文模型的P、R、F1值均超過所有主流模型,F(xiàn)1值最大提升為3.71%.充分證明主流模型在老撾詞性預(yù)測效果略有不足,反之本文模型對老撾詞性預(yù)測性能實現(xiàn)了有效的改進(jìn).實驗1和實驗2相比較,說明RNN神經(jīng)網(wǎng)絡(luò)在提取特征上的有效性.實驗3和實驗4相比較,準(zhǔn)確率有所提高其原因在于BiLSTM能夠?qū)W習(xí)詞序特征和上下文依賴特征,而老撾語則是通過詞序來表示語法知識.實驗4和實驗5相比較,說明注意力機(jī)制能利用老撾句子長遠(yuǎn)上下文信息使模型性能有效性的提升.本文模型與BiLSTM-CRF模型對比,本文模型P、R、F1值分別提升1.84%、2.33%、1.95%;本文模型P、R、F1值分別提升0.9%、1.19%、0.94%,本文模型與Bilstm-Attention-CRF模型對比,本文模型P、R、F1值分別提升0.9%、1.19%、0.94%,證明本文模型在完全避免人工制定特征的情況下,通過融合細(xì)粒度詞特征可以有效提升模型對老撾語詞性標(biāo)注的準(zhǔn)確率.

    4.4 不同設(shè)計實驗結(jié)果對比

    為驗證注意力交互和細(xì)粒度詞特征對模型結(jié)果產(chǎn)生的影響,在同一老撾語料集下,進(jìn)行對比實驗.我們比較注意力交互和細(xì)粒度詞特征對老撾詞性標(biāo)注任務(wù)的影響.

    表6 不同設(shè)計實驗結(jié)果對比Table 6 Comparison of experimental results of different designs

    首先,采用BiLSTM-CRF和Att-BiLSTM-CRF模型,在分別采用老撾詞特征、細(xì)粒度詞特征的情況下,研究了注意力交互對模型的影響.然后,我們分別在BiLSTM-CRF模型和Att-BiLSTM-CRF模型上添加細(xì)粒度詞特征,研究了細(xì)粒度詞特征對實驗的影響.

    由表6可知,注意力交互可以使模型的P、R、F1值均有上升,分別得到1.84%、2.33%、1.95%的提升,充分證明注意力交互提取的特征可以有效提升模型老撾語詞性標(biāo)注性能;通過添加細(xì)粒度詞特征,BiLSTM-CRF模型和Att-BiLSTM-CRF模型的P、R、F1值都有相應(yīng)的提升,充分證明通過融合老撾細(xì)粒度詞特征能有效提升模型對老撾語的詞性標(biāo)注效果.

    4.5 標(biāo)注結(jié)果分析

    為驗證細(xì)粒度詞特征對模型識別低頻詞詞性的影響,本文對低頻詞的標(biāo)注結(jié)果進(jìn)行統(tǒng)計.圖6顯示,融合細(xì)粒度詞特征的模型對低頻詞的標(biāo)注性能有很大的提升.雖然低頻詞在語料中出現(xiàn)的頻率很低,但是音素和聲調(diào)符號存在于每一個老撾詞中,模型從音素和聲調(diào)符號中學(xué)習(xí)到豐富的老撾語義信息,從而提高了模型對低頻詞的標(biāo)注準(zhǔn)確率.

    圖6 主要詞性標(biāo)注的絕對提升率Fig.6 Absolute improvement rate of main part of speech tagging

    4.6 注意力交互層捕獲特征測試

    為了驗證通過添加注意力交互層來捕獲老撾句子內(nèi)部詞之間的特征,從而解決長距離依賴問題.本文使用兩組不同的模型進(jìn)行比較說明,其中x軸表示按長度排序的輸入老撾句子.由圖7可知,Att-BiLSTM-CRF模型和Bilstm-CRF模型處理不同句子長度時的平均錯誤標(biāo)簽數(shù)都隨之增加,標(biāo)注效果都隨之下降,但是Bilstm-CRF模型錯誤標(biāo)簽的數(shù)量遠(yuǎn)高于Att-BiLSTM-CRF模型,詞性標(biāo)注性能明顯弱于Att-BiLSTM-CRF模型.其原因在于注意力機(jī)制可以考慮老撾句子中每一個老撾詞對待標(biāo)注詞的詞性影響,量化每一個老撾詞在句子中的重要性,分配不同權(quán)值,學(xué)習(xí)老撾句子內(nèi)部詞之間的依賴關(guān)系,捕獲句子內(nèi)部的語義結(jié)構(gòu)信息,從而可以更好地處理長距離依賴問題.

    圖7 不同模型在不同句子長度上的表現(xiàn)Fig.7 Performance of different models on different sentence lengths

    4.7 典型實例分析

    表7 典型詞性標(biāo)注實例分析Table 7 Example analysis of typical part-of-speech tagging

    5 結(jié) 論

    本文根據(jù)老撾詞的構(gòu)成特點,提出融合細(xì)粒度詞特征的老撾語詞性標(biāo)注方法,通過在Att-BiLSTM-CRF模型中融入細(xì)粒度詞特征,有效提升了模型對老撾語已分詞句子的詞性標(biāo)注效果.本文通過添加注意力交互層來捕獲老撾句子內(nèi)部詞之間的特征,解決長距離依賴問題,以學(xué)習(xí)更多老撾語的語義信息.實驗結(jié)果表明,與現(xiàn)有方法相比,本文提出的方法在老撾語語料稀少的情況下提高了老撾語詞性標(biāo)注性能,精確率、召回率和F1值分別為93.70%、93.87%、93.62%.在接下來的工作中,進(jìn)一步考慮利用該方法標(biāo)注的詞性語料融入老撾語信息抽取等相關(guān)任務(wù)當(dāng)中.

    猜你喜歡
    細(xì)粒度音素聲調(diào)
    新目標(biāo)英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
    融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
    聲調(diào)符號位置歌
    細(xì)粒度的流計算執(zhí)行效率優(yōu)化方法
    聲調(diào)歌
    依托繪本課程,培養(yǎng)學(xué)生英語音素意識
    小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
    坐著轎車學(xué)聲調(diào)
    單韻母扛聲調(diào)
    ?不定冠詞a與an
    凌源市| 微山县| 扶沟县| 北碚区| 启东市| 武平县| 东至县| 华宁县| 德阳市| 综艺| 甘洛县| 祥云县| 芜湖县| 镇平县| 青州市| 武定县| 彰武县| 奉化市| 县级市| 独山县| 宁夏| 五寨县| 双峰县| 江油市| 石河子市| 鄂温| 河西区| 民乐县| 页游| 新津县| 永寿县| 樟树市| 华蓥市| 揭东县| 广南县| 南宫市| 巴马| 通化县| 安平县| 云浮市| 海安县|