• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT-BiLSTM模型的短文本自動(dòng)評(píng)分系統(tǒng)

      2022-05-20 03:11:12夏林中葉劍鋒羅德安管明祥劉俊曹雪梅
      關(guān)鍵詞:子集短文語義

      夏林中,葉劍鋒,羅德安,管明祥,劉俊,曹雪梅

      深圳信息職業(yè)技術(shù)學(xué)院人工智能技術(shù)應(yīng)用工程實(shí)驗(yàn)室,廣東深圳 518172

      短文本自動(dòng)評(píng)分是指使用計(jì)算機(jī)對(duì)人工問題的語言文本進(jìn)行自動(dòng)評(píng)分,由于回答問題的語言文本長(zhǎng)度一般都較簡(jiǎn)短,所以稱為短文本.近年來,隨著教育信息化水平的不斷提升,學(xué)生借助各種智能終端、互聯(lián)網(wǎng)及移動(dòng)互聯(lián)網(wǎng)進(jìn)行同步學(xué)習(xí),學(xué)習(xí)過程中會(huì)產(chǎn)生大量的過程性語言文本信息.為進(jìn)一步提升學(xué)習(xí)效果,需要對(duì)這些過程性語言文本信息進(jìn)行實(shí)時(shí)分析,并及時(shí)向?qū)W生反饋分析評(píng)價(jià)結(jié)果,工作量非常大[1].文本自動(dòng)評(píng)價(jià)的機(jī)器學(xué)習(xí)算法通過統(tǒng)計(jì)分析文本的字?jǐn)?shù)、單詞數(shù)、拼寫錯(cuò)誤數(shù)、單詞平均字母數(shù)、句子數(shù)及詞頻-逆文本頻率指數(shù)(term frequency-inverse document frequency,TF-IDF)等特征來評(píng)價(jià)文本,可用于實(shí)時(shí)分析學(xué)習(xí)中產(chǎn)生的大量過程性語言文本信息.目前基于該思路的商用文本評(píng)分器主要包括 PEG(project essay grader)[2]和E-rater(electronic essay rater)[3],其應(yīng)用效果好,但無法抽取文本的語義特征.潛在語義分析(latent semantic analysis,LSA)算法[4]不僅能獲取文本的語義特征,還能解決同義詞問題,但計(jì)算消耗資源量大,無法獲取文本詞序信息.LDA(latent Dirichlet allocation)主題模型[5]很好解決了捕獲文本詞序信息的問題,其計(jì)算資源消耗也比LSA小.然而,上述各類算法對(duì)于文本深層語義信息與上下文關(guān)聯(lián)信息的挖掘能力非常有限.

      近些年深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)算法在文本分析中得到廣泛應(yīng)用[6],其深層語義信息及上下文關(guān)聯(lián)信息的挖掘能力促進(jìn)了文本自動(dòng)評(píng)分的發(fā)展[7].DNN算法中最重要的是如何通過詞向量表達(dá)文本[8],使用較多的詞向量獲取方法包括Word2Vec[9]、C&W[10]及GloVe[11]等.用獲取的詞向量表示文本并作為DNN 的輸入,從而實(shí)現(xiàn)對(duì)文本評(píng)分.DNN 主要分為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN),RNN 捕捉較短上下文依賴關(guān)系的能力非常強(qiáng),但上下文之間的距離越長(zhǎng),RNN 的捕捉能力就越弱.RNN 改進(jìn)型的長(zhǎng)短時(shí)記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型[12]更擅長(zhǎng)捕捉長(zhǎng)距離的上下文依賴關(guān)系信息[13].雙向長(zhǎng)短時(shí)記憶(bidirectional LSTM,BiLSTM)神經(jīng)網(wǎng)絡(luò)由前后兩個(gè)方向的LSTM組合而成,能夠捕捉當(dāng)前詞與上下文的依賴關(guān)系,從而更好地執(zhí)行文本評(píng)分任務(wù)[14-15].

      BERT(bidirectional encoder representations from transformers)[16]模型是 Google 公司提出的一種基于深度學(xué)習(xí)的語言表示模型,在11 種不同的自然語言處理測(cè)試任務(wù)中效果最佳,其中也包括文本分類任務(wù)[17-18].基于BERT 模型的文本分類主要包括預(yù)訓(xùn)練(pre-training)和預(yù)微調(diào)(fine-tuning)兩個(gè)過程,前者利用大規(guī)模未經(jīng)標(biāo)注的文本語料進(jìn)行自監(jiān)督訓(xùn)練,有效學(xué)習(xí)文本語言特征及深層次文本向量表示,從而形成預(yù)訓(xùn)練BERT 模型;預(yù)微調(diào)則直接通過預(yù)訓(xùn)練好的BERT 模型作為起始模型,根據(jù)文本分類任務(wù)的特點(diǎn),輸入人工標(biāo)注好的數(shù)據(jù)集,完成模型的進(jìn)一步擬合與收斂.本研究結(jié)合BiLSTM 與BERT模型的優(yōu)點(diǎn),建立BERT-BiLSTM短文本自動(dòng)評(píng)分模型,并針對(duì)已人工標(biāo)注好的短文本數(shù)據(jù)集進(jìn)行分析,克服了文本較短且因用語偏口語化帶來的特征稀疏與一詞多義問題.

      1 基于BERT-BiLSTM 短文本自動(dòng)評(píng)分模型

      為解決短文本特征稀疏的問題,采用BiLSTM模型捕獲隱藏于上下文深度語義依賴關(guān)系中的更多特征;短文本的語義針對(duì)性強(qiáng),一詞多義現(xiàn)象普遍,采用BERT模型能夠較好解決這一問題.

      1.1 BiLSTM網(wǎng)絡(luò)層

      BiLSTM模型由1個(gè)正向LSTM與1個(gè)反向LSTM疊加而成,其具體結(jié)構(gòu)如圖1.其中,x1,x2,…,xN為輸入詞向量;為t時(shí)刻正向LSTM 隱藏層的輸出向量,由當(dāng)前時(shí)刻輸入向量xt和前一時(shí)刻的正向LSTM 輸出向量共同確定,記為為t時(shí)刻反向LSTM 隱藏層的輸出向量,由當(dāng)前xt和前一時(shí)刻反向 LSTM 輸出共同確定,記為ht為t時(shí)刻的BiLSTM 模型輸出,由共同確定的 , 記 為其 中 ,wt為 正 向LSTM輸出的權(quán)重矩陣;vt為反向LSTM輸出的權(quán)重矩陣;bt為權(quán)重矩陣的偏置.

      圖1 BiLSTM模型結(jié)構(gòu)Fig.1 The architecture of the BiLSTM model

      1.2 BERT語言模型

      BERT模型是一種旨在取代或改進(jìn)RNN或CNN的全新架構(gòu),其基于注意力機(jī)制對(duì)文本數(shù)據(jù)進(jìn)行建模[19].如圖2所示,BERT模型采用12或24層雙向Transformer 編碼結(jié)構(gòu),其中,E1,E2,…,EN為輸入向量;T1,T2,…,TN為經(jīng)過多層 Transformer 編碼器后的輸出向量.BERT 通過大規(guī)模語料對(duì)模型進(jìn)行預(yù)訓(xùn)練,獲取適應(yīng)通用自然語言處理任務(wù)的模型網(wǎng)絡(luò)參數(shù),再使用當(dāng)前任務(wù)的文本數(shù)據(jù)對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)進(jìn)行預(yù)微調(diào),使模型適應(yīng)當(dāng)前任務(wù).

      圖2 BERT模型結(jié)構(gòu)Fig.2 The architecture of the BERT model

      1.2.1 Transformer編碼器結(jié)構(gòu)

      如圖3 所示,Transformer 編碼器結(jié)構(gòu)包括自注意力機(jī)制(self-attention)和前饋(feed forward)神經(jīng)網(wǎng)絡(luò)單元,單元之間設(shè)計(jì)殘差連接層(add&normal).Transformer 是一個(gè)基于自注意力機(jī)制的Seq2seq 模型,BERT 模型主要使用Seq2seq 的Encoder 部分.自注意力機(jī)制單元是Transformer編碼器的核心,其計(jì)算每個(gè)詞與其所在句子中所有詞的相互關(guān)系,據(jù)此調(diào)整每個(gè)詞的權(quán)重,從而獲取每個(gè)詞新的向量表達(dá)式.Encoder 的輸入是文本的詞向量表示(X1、X2)及每個(gè)詞的位置信息,將自注意力機(jī)制單元的輸出進(jìn)行相加和歸一化處理,使輸出具有固定均值(大小為0)和標(biāo)準(zhǔn)差(大小為1).歸一化后的向量傳入前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行殘差處理和歸一化輸出.

      圖3 Transformer編碼器結(jié)構(gòu)Fig.3 The architecture of the Transformer encoder

      1.2.2 BERT模型的輸入表示

      BERT 模型的輸入由標(biāo)記嵌入、分段嵌入和位置嵌入部分疊加表示,如圖4.其中,標(biāo)記嵌入為第1 個(gè)標(biāo)志是E[CLS]的詞向量,其初始值可隨機(jī)產(chǎn)生,E[SEP]為句子間的分隔標(biāo)志;分段嵌入為區(qū)分不同句子向量;位置嵌入表示文本中每個(gè)詞的位置信息.可見,BERT 模型的輸入向量不僅含有短文本語義信息,還包括了不同句子之間的區(qū)分信息與每個(gè)詞的位置信息.

      圖4 BERT模型的輸入Fig.4 Input of the BERT model

      1.2.3 BERT模型的預(yù)訓(xùn)練與預(yù)微調(diào)

      BERT 模型的預(yù)訓(xùn)練過程使用大規(guī)模未經(jīng)標(biāo)注過的文本語料,經(jīng)過充分自監(jiān)督訓(xùn)練后有效學(xué)習(xí)文本的通用語言特征,得到深層次文本詞向量表示,并獲得預(yù)訓(xùn)練模型.具有邏輯關(guān)系與的優(yōu)點(diǎn).預(yù)訓(xùn)練過程的掩藏語言模型(masked language model,MLM)依據(jù)上下文語義信息對(duì)隨機(jī)掩蓋的詞進(jìn)行預(yù)測(cè),可以更好學(xué)習(xí)上下文內(nèi)容特征;下一句預(yù)測(cè)(next sentence predication,NSP)[20]為每個(gè)句子的句首和句尾分別插入[CLS]和[SEP]標(biāo)簽,通過學(xué)習(xí)句子間的關(guān)系特征預(yù)測(cè)兩個(gè)句子的位置是否相鄰.

      預(yù)微調(diào)過程直接將預(yù)訓(xùn)練獲取的網(wǎng)絡(luò)參數(shù)作為模型起始,根據(jù)下游任務(wù)輸入人工標(biāo)注好的數(shù)據(jù)集,使BERT 模型得到進(jìn)一步擬合與收斂,得到可用于下游任務(wù)的深度學(xué)習(xí)模型.

      1.3 BERT-BiLSTM模型

      本研究設(shè)計(jì)基于BERT-BiLSTM 的短文本自動(dòng)評(píng)分模型,由BERT層和BiLSTM層構(gòu)成,如圖5.其中,為 BiLSTM 層反向 LSTM 隱藏層狀態(tài);為 BiLSTM 層正向 LSTM 隱藏層狀態(tài) ;T1,T2,…,TN為 BERT 層輸出向量;C為BERT短文本級(jí)輸出向量;E1,E2,…,EN為BERT層詞向量輸入;E[CLS]為BERT層自動(dòng)添加的短文本開頭表示符號(hào);Tok1,Tok2,…,TokN為短文本輸入;[CLS]為隨機(jī)賦予初值的短文本開頭;Softmax回歸模型通過分析輸入特征向量來對(duì)短文本進(jìn)行分類.BERT 模型針對(duì)大規(guī)模語料庫的預(yù)訓(xùn)練可以習(xí)得通用語言的語義特征,針對(duì)已標(biāo)注的短文本數(shù)據(jù)集微調(diào)BERT 模型參數(shù),以適應(yīng)短文本數(shù)據(jù)集的語義特點(diǎn).本研究使用的短文本數(shù)據(jù)集中,有些詞的語義與其在通用語言中的語義存在差異,而BERT 模型的輸出可以根據(jù)上下文信息特點(diǎn)進(jìn)行調(diào)整,即同一詞語在不同上下文中對(duì)應(yīng)的向量編碼輸出不同,這樣就可以解決一詞多義的問題.BiLSTM 模型能夠從前向和后向獲取字詞與上下文的語義關(guān)聯(lián)信息,進(jìn)而捕獲深層次的上下文依賴關(guān)系.

      圖5 基于BERT-BiLSTM的短文本自動(dòng)評(píng)分模型結(jié)構(gòu)Fig.5 The architecture of the short text automatic scoring model based on BERT-BiLSTM

      2 實(shí)驗(yàn)與分析

      2.1 實(shí)驗(yàn)設(shè)置

      2.1.1 數(shù)據(jù)集

      實(shí)驗(yàn)使用的短文本數(shù)據(jù)集包括訓(xùn)練集和測(cè)試集,由Hewlett 基金會(huì)提供.訓(xùn)練集和測(cè)試集分別包含17 207 篇和5 224 篇已人工評(píng)分的短文本,實(shí)驗(yàn)從訓(xùn)練集中隨機(jī)抽取20%的短文本作為校驗(yàn)集.訓(xùn)練集和測(cè)試集分別由10個(gè)子集組成,見表1.

      表1 短文本數(shù)據(jù)集Table 1 Short text dataset

      2.1.2 評(píng)價(jià)指標(biāo)與參數(shù)設(shè)置

      本研究采用二次加權(quán)kappa(quadratic weighted kappa,QWK)系數(shù)[21]κ評(píng)估預(yù)測(cè)分?jǐn)?shù)與專家打分的一致性,且0 ≤κ≤1.κ= 0 表示作文不同評(píng)分之間的一致性完全隨機(jī);κ= 1 表示作文不同評(píng)分之間的一致性完全相同.在預(yù)訓(xùn)練好的BERT 模型基礎(chǔ)上,采用Adam 優(yōu)化器對(duì)短文本數(shù)據(jù)集進(jìn)行預(yù)微調(diào),學(xué)習(xí)率設(shè)置為2 × 10-5,權(quán)重衰減系數(shù)設(shè)置為1 × 10-5.

      2.2 實(shí)驗(yàn)結(jié)果與討論

      將本研究BERT-BiLSTM模型的κ值與基準(zhǔn)模型CharCNN(character-level CNN)、 CNN、 LSTM 和BERT 進(jìn)行對(duì)比,結(jié)果見表2.所有模型均使用相同的數(shù)據(jù)集,訓(xùn)練集與測(cè)試集的短文本篇數(shù)相同.

      表2 BERT-BiLSTM模型與基準(zhǔn)模型的κ值對(duì)比1)Table 2 The quadratic weighted kappa coefficients comparison between BERT-BiLSTM model and benchmark models

      表2中的合并集表示將子集1至子集10合并為1 個(gè)大集合.可見,對(duì)比CharCNN、CNN 和LSTM模型,BERT 與 BERT-BiLSTM 的模型的κ值最優(yōu);相比BERT 模型,BERT-BiLSTM 模型在子集1、2、5、8、9 及10 上的κ值分別提升了6%、9%、8%、4%、2% 及1%;對(duì)比其他所有模型,BERTBiLSTM 模型的κ平均值最高.因此,BERTBiLSTM模型短文本自動(dòng)評(píng)分的整體性能最優(yōu).

      由表2 還可見,子集3 的κ值最低,這是因?yàn)樽蛹?為開放式英語語言文學(xué)問題,回答短文本多為學(xué)生根據(jù)自己的理解對(duì)相關(guān)語句進(jìn)行的解釋,因此,特征不明顯.該子集的上下文關(guān)聯(lián)信息較少,人工評(píng)分員在該子集上的評(píng)分一致性也很低.

      結(jié) 語

      本研究提出基于BERT-BiLSTM 的短文本自動(dòng)評(píng)分模型,通過BERT 語言模型表示短文本向量、BiLSTM 捕獲短文本的上下文信息深層依賴關(guān)系,提升了短文本自動(dòng)評(píng)分性能.實(shí)驗(yàn)結(jié)果表明,本模型不僅在短文本數(shù)據(jù)集的子集上取得最好的自動(dòng)評(píng)分效果,其整體自動(dòng)評(píng)分性能也優(yōu)于其他基準(zhǔn)模型.后續(xù)研究將在本模型的句子表征上融入標(biāo)點(diǎn)符號(hào)及情感詞等位置信息,以豐富短文本的句子向量特征表示,并設(shè)計(jì)出更高效、簡(jiǎn)潔的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提高短文本自動(dòng)評(píng)分效果.

      猜你喜歡
      子集短文語義
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      語言與語義
      關(guān)于奇數(shù)階二元子集的分離序列
      KEYS
      Keys
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      認(rèn)知范疇模糊與語義模糊
      短文改錯(cuò)
      资阳市| 汽车| 姜堰市| 廊坊市| 安陆市| 阳泉市| 麻栗坡县| 华蓥市| 合川市| 绍兴县| 曲麻莱县| 贵溪市| 乳源| 合肥市| 四川省| 七台河市| 陆川县| 灵璧县| 宜兴市| 什邡市| 文化| 醴陵市| 化隆| 东安县| 保德县| 双柏县| 蕉岭县| 阿图什市| 灌云县| 盐山县| 车致| 九龙坡区| 长岭县| 彩票| 丹棱县| 蕲春县| 淮滨县| 金坛市| 江北区| 南平市| 泊头市|