史健婷,吳林皓,張英濤,常 亮
(1.黑龍江科技大學(xué),黑龍江 哈爾濱 150022;2.哈爾濱工業(yè)大學(xué),黑龍江 哈爾濱 150000)
當(dāng)今的時(shí)代是一個(gè)信息爆炸的時(shí)代,在社交網(wǎng)絡(luò)、智能互聯(lián)設(shè)備等的共同推動(dòng)作用下,網(wǎng)絡(luò)數(shù)據(jù)以指數(shù)倍增長。據(jù)不完全統(tǒng)計(jì),2014年,互聯(lián)網(wǎng)用戶達(dá)24億。2016年,用戶量增長到34億,2017年用戶量達(dá)37億。截至2019年6月,已有超過44億互聯(lián)網(wǎng)用戶。在短短五年內(nèi),互聯(lián)網(wǎng)用戶增加了83%,每個(gè)用戶每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),互聯(lián)網(wǎng)個(gè)體用戶已然成為獨(dú)立的數(shù)字信息生產(chǎn)者,而在數(shù)據(jù)流通過程中,電子文本信息占據(jù)了相當(dāng)大的比重,社交評論、即時(shí)通訊、電子讀物、網(wǎng)站專欄、電子出版等內(nèi)容共同組成了體量龐大的文本模塊。
在互聯(lián)網(wǎng)時(shí)代的新聞宣傳領(lǐng)域,每天都會(huì)產(chǎn)生大量的文本稿件,對文本初稿的校對是一項(xiàng)體量巨大的工作,僅僅依靠人工進(jìn)行校正成本極高,效率低下。中文錯(cuò)別字偵測技術(shù)可以應(yīng)用在教育及出版等許多領(lǐng)域。相比于英文糾錯(cuò)過程,中文糾錯(cuò)技術(shù)更具有挑戰(zhàn)性,包含語法錯(cuò)誤、拼寫錯(cuò)誤、搭配錯(cuò)誤、語境錯(cuò)誤等多種情況。雖然近期許多研究提出了一些能提高效能的模型,但這些模型卻存在誤報(bào)率偏高的缺點(diǎn)[1]。因此,尋找一種全新的方法來對新聞初稿進(jìn)行自動(dòng)校正具有十分重要的現(xiàn)實(shí)意義。通過計(jì)算機(jī)對新聞初稿進(jìn)行審閱可以極大地提高校稿效率,大大減少人力成本與時(shí)間成本,如果進(jìn)一步利用特定新聞?lì)I(lǐng)域語料集的深度學(xué)習(xí)模型,完成個(gè)性化定制,那么在該領(lǐng)域的糾錯(cuò)過程中可以取得更好的效果。
早在2003年,駱衛(wèi)華等人就提出中文文本自動(dòng)校對的研究還處在摸索階段。其方法多為字、詞級別上的統(tǒng)計(jì)方法和基于規(guī)則的短語結(jié)構(gòu)文法,其團(tuán)隊(duì)發(fā)現(xiàn)中文文本自動(dòng)校對的研究集中在詞級和句法查錯(cuò)兩方面,其中語義級查錯(cuò)仍是薄弱環(huán)節(jié)[2];Vaswani A等人[3]在研究中提到BERT使用了Transformer作為算法的主要框架,通過雙向Transformer結(jié)構(gòu)使得網(wǎng)絡(luò)能更加徹底地捕捉到語句中的雙向關(guān)系,從而將上下文語境聯(lián)系起來,使模型在質(zhì)量上更優(yōu)越,更具可并行性,同時(shí)需要更少的訓(xùn)練時(shí)間(如圖1所示)。
Wilson L Taylor[4]研究了Mask Language Model(MLM)和Next Sentence Prediction(NSP)的多任務(wù)訓(xùn)練目標(biāo),隔離實(shí)驗(yàn)表明NSP對于提取句間關(guān)系是有效的;Gu S等人[5]使用Seq2seq模型對中文文本進(jìn)行校正,將文本校正器視為一個(gè)序列學(xué)習(xí)問題,利用偏解碼的方法來提高模型的雙語評估替代研究分?jǐn)?shù);Gehring J等人[6]就基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列(convolution sequence to sequence,ConvS2S)模型進(jìn)行了討論,通過遞歸神經(jīng)網(wǎng)絡(luò)將輸入序列映射成可變長度的輸出序列,所有元素的計(jì)算可以在訓(xùn)練期間完全并行化,以更好地利用GPU硬件;Wang H等人[7]將語法錯(cuò)誤糾正(GEC)視為一個(gè)序列到序列的任務(wù),使用Bert的Pre-train模型對漢語語法進(jìn)行糾正,證明了基于BERT的預(yù)訓(xùn)練模型在中國GEC任務(wù)中的有效性。Google AI團(tuán)隊(duì)?wèi){借強(qiáng)大的算力訓(xùn)練超大規(guī)模的數(shù)據(jù),使BERT的效果達(dá)到全新高度,用戶通過使用開源的BERT模型,可以將其作為Word2Vec的轉(zhuǎn)換矩陣并應(yīng)用到個(gè)人下游任務(wù)中。BERT的應(yīng)用證明層數(shù)較深的模型可以顯著提高NLP任務(wù)中的準(zhǔn)確率,且該模型可以通過無標(biāo)記數(shù)據(jù)集中預(yù)訓(xùn)練得到。
圖1 Transformer原理圖
目前出現(xiàn)了大量使用BERT來在NLP各個(gè)領(lǐng)域進(jìn)行直接應(yīng)用的工作,方法都很簡單直接,效果總體而言比較好,比如問答系統(tǒng)、搜索與信息檢索、對話系統(tǒng)、文本抽取、數(shù)據(jù)增強(qiáng)、文本分類、序列標(biāo)注等等[8]。與RNN不同,BERT計(jì)算當(dāng)前詞匯特征并不需要依賴前文計(jì)算數(shù)據(jù),不需要受時(shí)序問題的制約,而是同時(shí)利用上下文信息運(yùn)算,通過矩陣的模式快速獲取每句話的token特征。Tan M等人為解決正式文件編寫過程中拼寫錯(cuò)誤造成的字符串錯(cuò)誤比例過高的問題,提出了一種基于BERT結(jié)構(gòu)轉(zhuǎn)換的字符語音BERT模型,通過使用BiLSTM網(wǎng)絡(luò)檢測錯(cuò)誤字符的位置,然后將錯(cuò)誤位置的拼音先驗(yàn)知識(shí)加入到BERT網(wǎng)絡(luò)中,從而實(shí)現(xiàn)端到端的拼寫錯(cuò)誤檢測和糾正[9];Cao Y等人基于BERT模型、雙向長期短期記憶(BiLSTM)和條件隨機(jī)字段(CRF)設(shè)計(jì)并實(shí)現(xiàn)了具有得分功能門的錯(cuò)誤診斷器(BSGED)模型,該模型用較少的先驗(yàn)特征獲得了較好的結(jié)果,大大減少了特征工程的工作量,同時(shí)保留了特征項(xiàng)之間的偏序關(guān)系,大大減少了模型訓(xùn)練參數(shù)的數(shù)量[10];Wu S H等人通過使用條件隨機(jī)場(CRF)和BERT模型深度學(xué)習(xí)方法的組合在NLPTEA-2020 CGED共享任務(wù)中的中文語法錯(cuò)誤診斷系統(tǒng)評估中取得了更好的效果[11-12]。
傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法通過維護(hù)一個(gè)中文語料詞庫和一個(gè)詞語編輯距離庫,利用注音機(jī)制對文本進(jìn)行讀音糾錯(cuò)并根據(jù)詞庫中的詞匯及頻率進(jìn)行替換[13]。然而,傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法需要維護(hù)和更新容量巨大的詞庫,并且要通過不斷對詞庫進(jìn)行人工擴(kuò)充來解決未登錄詞的問題,人力成本高,維護(hù)成本高,同時(shí)僅僅根據(jù)拼音機(jī)制進(jìn)行檢錯(cuò)糾錯(cuò)準(zhǔn)確率較低,會(huì)出現(xiàn)相當(dāng)一部分文本無法識(shí)別和糾正的情況。N-gram模型將文本里面的內(nèi)容以字節(jié)為單位生成大小為N的滑動(dòng)窗口,形成了長度為N的字節(jié)片段序列,通過統(tǒng)計(jì)gram的出現(xiàn)頻度,按設(shè)定的閾值進(jìn)行過濾,生成關(guān)鍵gram的向量特征空間,每種gram代表一個(gè)特征向量維度。其包含當(dāng)前詞以及當(dāng)前詞之前的N-1個(gè)詞所提供的全部信息,從而對一個(gè)句子中的各個(gè)詞進(jìn)行約束,但是無法解決遠(yuǎn)距離詞問題以及數(shù)據(jù)稀疏問題;基于卷積的seq2seq模型通過引入Stacking conv來捕捉長距離的信息,通過編解碼的方法來提高模型的雙語評估替代研究分?jǐn)?shù),采用了更合理的令牌方案,增強(qiáng)了糾錯(cuò)機(jī)制的魯棒性,但是BLEU的指標(biāo)會(huì)隨著句子長度的增長而逐漸降低。
Google的BERT模型使用大量未標(biāo)記語料集進(jìn)行無監(jiān)督預(yù)訓(xùn)練,之后再使用標(biāo)記數(shù)據(jù)進(jìn)行微調(diào),進(jìn)而從給定句子的各個(gè)位置的候選列表中預(yù)測可能性最大的字符進(jìn)行糾正替換,因此BERT模型自身具有了一定程度的獲取語言、理解知識(shí)的特性[14]。在特征提取器的使用過程中,Transformer僅僅使用了self-attention機(jī)制,并沒有選擇使用RNN與CNN,同時(shí)結(jié)合使用殘差連接來解決梯度消失問題,使其方便構(gòu)建更深層的網(wǎng)絡(luò)結(jié)構(gòu),即BERT通過構(gòu)建更多層深度Transformer來大幅提高模型性能。通過添加前饋網(wǎng)絡(luò)來提高模型的非線性能力,同時(shí)利用多頭注意力機(jī)制從更多角度全面提取信息。利用BERT模型從候選詞列表中選擇字符對句子的各位置錯(cuò)別字進(jìn)行糾正,因此成為了界業(yè)的常用方法之一,但由于BERT初始模型是通過Mask掩碼語言建模對語料進(jìn)行預(yù)訓(xùn)練,使得BERT缺乏足夠的能力去檢測句子的每個(gè)位置是否都有誤差,進(jìn)而使得僅使用BERT模型的中文糾錯(cuò)Baseline過于粗暴,很容易造成高誤判率。
基于上述情況,文中使用一種全新的中文文本糾錯(cuò)模型理論:Soft-Masked BERT,該模型將中文文本的檢錯(cuò)過程與糾錯(cuò)過程分離,糾正網(wǎng)絡(luò)的輸入來自于檢測網(wǎng)絡(luò)輸出。文中旨在Soft-Masked BERT基礎(chǔ)上進(jìn)行改進(jìn)應(yīng)用,使用“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”新聞稿件中10 000條文本序列(HIT News Site)作為初始語料進(jìn)行訓(xùn)練,以對該新聞網(wǎng)的相關(guān)稿件進(jìn)行中文文本校對。
Soft-Masked模型主體分為兩部分:檢錯(cuò)網(wǎng)絡(luò)與糾錯(cuò)網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)之間通過Soft-Masked技術(shù)連接成一個(gè)整體,錯(cuò)誤檢測網(wǎng)絡(luò)(Detection Network)的輸出信息即為BERT校正網(wǎng)絡(luò)(Correction Network)的輸入信息(如圖2所示)。其中Detection Network是一個(gè)雙向的GRU(Gate Recurrent Unit)網(wǎng)絡(luò),即雙向的門控循環(huán)單元,功能是預(yù)測字符在各個(gè)位置上發(fā)生錯(cuò)誤的概率,Correction Network是基于BERT的校正網(wǎng)絡(luò),對檢錯(cuò)成功的位置上的字符進(jìn)行糾正與替換。
圖2 Soft-Masked網(wǎng)絡(luò)結(jié)構(gòu)
GRU常用來解決傳統(tǒng)RNN網(wǎng)絡(luò)在反向傳播期間出現(xiàn)的梯度消失問題,從而避免短期記憶現(xiàn)象的出現(xiàn)(如圖3所示)[15]。GRU利用門(Gate)的內(nèi)部機(jī)制來調(diào)節(jié)單元之間傳輸?shù)男畔⒘鳎袛嗪畏N數(shù)據(jù)需要保留,何種數(shù)據(jù)需要舍棄,從而將較早時(shí)間步中的相關(guān)信息傳遞到較晚時(shí)間步的長序列中進(jìn)行預(yù)測。GRU利用隱藏態(tài)傳遞消息,核心結(jié)構(gòu)是重置門(Reset Gate)和更新門(Update Gate),Reset Gate決定對過去信息的遺忘部分,Update Gate決定當(dāng)前時(shí)間步里需要舍棄哪些信息以及需要添加哪些信息。
圖3 GRU結(jié)構(gòu)
對于檢測網(wǎng)絡(luò)中的雙向GRU網(wǎng)絡(luò)序列的每個(gè)字符,錯(cuò)誤概率的定義為:
(1)
其隱藏狀態(tài)被定義為:
(2)
(3)
(4)
將前后兩個(gè)部分的embedding進(jìn)行相加形成e-mask機(jī)制,經(jīng)以下公式:
(5)
對于糾錯(cuò)網(wǎng)絡(luò)序列的每個(gè)字符,糾錯(cuò)概率定義為:
(6)
在錯(cuò)誤檢測和錯(cuò)誤糾正過程中對應(yīng)兩個(gè)目標(biāo)驅(qū)動(dòng)函數(shù):
(7)
(8)
將兩個(gè)目標(biāo)驅(qū)動(dòng)函數(shù)線性結(jié)合即得到總體學(xué)習(xí)目標(biāo):
(9)
參數(shù)pi即當(dāng)前位置字符是錯(cuò)別字的概率,利用該概率值pi對該位置的字符嵌入進(jìn)行Soft-Masked處理,pi越接近1,該字被認(rèn)為是錯(cuò)別字的可能性就越大,反之pi的值越接近0,此時(shí)完成了Soft-Masked模型中的檢錯(cuò)部分。
網(wǎng)絡(luò)輸入的初始語料對于模型的應(yīng)用領(lǐng)域與最終效果極為重要,文中使用的語料來自于“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”公開新聞稿,涉及的內(nèi)容板塊包括 “學(xué)校要聞”、“綜合新聞”、“媒體看工大”、“哈工大報(bào)”四個(gè)部分。
通過對該網(wǎng)站的四個(gè)板塊原始的文本內(nèi)容進(jìn)行抓取,形成自建的公開小型數(shù)據(jù)集(HIT News Site)作為原始語料,通過使用jieba分詞庫與hit_stopwords停用詞表將原始語料進(jìn)行詞語詞頻的分詞處理,形成可用于深度網(wǎng)絡(luò)訓(xùn)練的詞典。再將原始語料以標(biāo)點(diǎn)符號為間斷分成短句形式,將無關(guān)信息刪除后統(tǒng)一規(guī)整,形成10 000個(gè)文本序列作為深度網(wǎng)絡(luò)訓(xùn)練的真實(shí)輸入語料。
使用自建數(shù)據(jù)集可以實(shí)現(xiàn)語料集的定制化,與通用公開數(shù)據(jù)集相比有獨(dú)特的優(yōu)勢,可以相對精確地檢測模型在特定領(lǐng)域的性能表現(xiàn),如在Hit News Site數(shù)據(jù)集中的特定詞“哈工大”、“劉永坦院士”、“永瑞基金”等,可以視為檢錯(cuò)和糾錯(cuò)過程中獨(dú)特標(biāo)志詞。
Soft-Masked Bert的模型需要將初始語料處理為“完全對齊語料”,即通過“錯(cuò)字-正字”的映射陣列來檢測糾錯(cuò)的可靠性,同時(shí),在對文本進(jìn)行糾正測試時(shí)需要聯(lián)系上下文文本信息環(huán)境,因此模型整體對訓(xùn)練語料的預(yù)處理程度依賴很大。
文中對初始語料進(jìn)行“掩蓋”處理,將總文本集劃分成為訓(xùn)練集與測試集,生成“錯(cuò)字-正字”的映射對,用于實(shí)驗(yàn)結(jié)果的測試。其中錯(cuò)誤序列的生成過程包括對文本語句中的字級進(jìn)行替改、刪除、增添的隨機(jī)造錯(cuò),以模擬現(xiàn)實(shí)文本糾錯(cuò)過程中可能出現(xiàn)的各種情況。在預(yù)訓(xùn)練過程中,通過維護(hù)一個(gè)包括隨機(jī)同音字、生僻字以及隨機(jī)字符的“混淆表”文本文件,配合隨機(jī)數(shù)算法用以生成“錯(cuò)字-正字”映射中的“錯(cuò)字”部分(如圖4所示)。
圖4 “錯(cuò)字-正字”映射
由圖4可知,在替改方法中將正字“館”字替改成了錯(cuò)字“蟀”,在刪除方法中將“開放”中的“開”字刪掉,在增添方法中在句尾添加了生僻字“紘”,以此方法來隨機(jī)生成所有測試集(如圖5所示)。
圖5 測試集
最終在總文本的預(yù)處理過程中生915個(gè)“錯(cuò)字-正字”文本對作為測試集陣列,用于模型訓(xùn)練完成后的測試使用,充分保證了實(shí)驗(yàn)的隨機(jī)性與可靠性,避免數(shù)據(jù)泄露現(xiàn)象出現(xiàn)干擾實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)中將MLM學(xué)習(xí)率(MLMLearningRate)設(shè)為1e-4,Batchsize設(shè)為16,輸入句長設(shè)為512,掩蓋率(MaskRate)設(shè)為0.15,測試文本句經(jīng)過embedding之后的隱藏層維度為768,自注意力頭尺寸設(shè)為12,中位尺寸為3 072,經(jīng)過Bert的embedding機(jī)制將原始文本轉(zhuǎn)化為“token_embedding+position_embedding+segment_embedding”的詞向量,此時(shí)向量的維度是(16,512,768),將該向量輸入到Detection Network的雙向GRU中,得到新維度(16,512,1 536),在網(wǎng)絡(luò)連接部分接入全接連層(1 536,768)將維度恢復(fù)為初始的(16,512,768),在訓(xùn)練中連續(xù)進(jìn)行16個(gè)Epoch,得到最終的訓(xùn)練模型。
在訓(xùn)練過程中采用16次迭代訓(xùn)練(EP0—EP15),得到訓(xùn)練過程中的糾錯(cuò)率與損失率Mask Loss,以迭代次數(shù)epoches為橫軸,以訓(xùn)練時(shí)損失率Train_mask loss為縱軸,繪制出訓(xùn)練過程Loss收斂曲線(如圖6所示)。
圖6 Mask Loss曲線
由曲線可知,隨著迭代訓(xùn)練的進(jìn)行,數(shù)據(jù)擬合度不斷提高,各參數(shù)變化趨于穩(wěn)定,損失值逐漸走低,最終穩(wěn)定在0.19,模型訓(xùn)練效果較為理想。
與之前的研究工作相似,文中采用了準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)以及F1-Score(F1分?jǐn)?shù))4個(gè)數(shù)值作為評價(jià)指標(biāo),來評估文中模型的糾錯(cuò)性能。
在使用Bert模型進(jìn)行對比實(shí)驗(yàn)時(shí),微調(diào)過程保留默認(rèn)超參數(shù),保持學(xué)習(xí)率為2e-5,輸出對比結(jié)果(如表1所示)。
結(jié)合表1的對比數(shù)據(jù)可以看出,完全不進(jìn)行微調(diào)的BERT-Pretrain(BERT預(yù)訓(xùn)練)過于泛化,無法適應(yīng)精確領(lǐng)域中的特定學(xué)習(xí)任務(wù),缺乏足夠的有監(jiān)督數(shù)據(jù),故其糾錯(cuò)性能非常差,在實(shí)際工作中幾乎無法正常使用;BERT進(jìn)行微調(diào)后的BERT-Finetune由于其自身有大規(guī)模無標(biāo)記語料的預(yù)訓(xùn)練作為基礎(chǔ),因此具有一定的語言理解能力,在準(zhǔn)確率上可以達(dá)到70.5%;經(jīng)對比,Soft-Masked模型在HIT News Site數(shù)據(jù)集上的整體性能表現(xiàn)優(yōu)于BERT-Finetune,準(zhǔn)確率提高0.6個(gè)百分點(diǎn),精確率提高1.3個(gè)百分點(diǎn),召回率提高1.5個(gè)百分點(diǎn),F(xiàn)1分?jǐn)?shù)提高1.4個(gè)百分點(diǎn),效果良好。
表1 模型表現(xiàn)對比 %
與此同時(shí),在研究中也發(fā)現(xiàn)了一些影響進(jìn)一步提升實(shí)驗(yàn)準(zhǔn)確率的因素。文中模型的糾錯(cuò)部分使用的是一個(gè)基于BERT的序列多分類標(biāo)記模型,相較于RNN與LSTM,BERT可以一次性讀取整體文本序列,提取多個(gè)層次的文本信息,更加全面地詮釋文本語義,通過注意力機(jī)制,并行計(jì)算每個(gè)位置相對另一個(gè)位置的權(quán)重,如果計(jì)算資源充足,訓(xùn)練速度會(huì)比LSTM快許多,同時(shí)由于使用海量無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,模型效果更優(yōu),但是由于BERT預(yù)訓(xùn)練模型本身規(guī)模較大,參數(shù)極多,在訓(xùn)練集體量較小的時(shí)候,容易發(fā)生過擬合,影響實(shí)驗(yàn)進(jìn)程與最終準(zhǔn)確率。BERT的部分mask字符,在下游的Finetune任務(wù)可能并不會(huì)再次出現(xiàn),使得前后文本失去平衡,信息不匹配。尤其是針對兩個(gè)及以上連續(xù)單字組成的詞匯,隨機(jī)mask掩蓋會(huì)割裂連續(xù)字之間的相關(guān)性,致使模型難以學(xué)習(xí)到詞的語義信息。對于文本中的詞匯,BERT會(huì)將其分成詞片,在隨機(jī)mask的過程中,如果被mask的詞片處于文本中間位置,會(huì)使該詞匯失去與上下文的語義同步,導(dǎo)致最終的預(yù)測與上下文失去關(guān)聯(lián),偶然性加大。在NLP的糾錯(cuò)領(lǐng)域中,現(xiàn)有技術(shù)已經(jīng)可以解決大部分的文本拼寫錯(cuò)誤,但是對于部分需要常識(shí)背景(world-knowledge)的文本糾錯(cuò)問題,例如同音異義詞問題(如圖7所示)時(shí)效果會(huì)不盡人意,必須利用一定程度的背景知識(shí),模擬真人對該類問題進(jìn)行推理和分析,這也正是當(dāng)前NLP糾錯(cuò)研究中的難點(diǎn)。
在某些強(qiáng)調(diào)實(shí)時(shí)性的糾錯(cuò)場景中,對模型的硬件以及實(shí)效性都要求較高,需要對糾錯(cuò)的時(shí)延有較為嚴(yán)格的限制,容易導(dǎo)致規(guī)模龐大的字典庫以及結(jié)構(gòu)過于復(fù)雜的精密模型無法廣泛適用。另外,文中模型的語料集局限于完全對齊文本,這給模型的推廣使用帶來了不便。Zheng L等人近來提出了一種可以同時(shí)處理對齊文本和不對齊文本的校正框架[16],可以更好地啟發(fā)下一步研究。使用文中模型得到的糾錯(cuò)結(jié)果如圖8所示。
圖7 同音異義詞
圖8 糾錯(cuò)結(jié)果
文中使用了BERT模型的改進(jìn)模型Soft-Masked BERT對中文文本進(jìn)行糾錯(cuò)檢測,將原本的單向糾錯(cuò)過程分成了檢測網(wǎng)絡(luò)和校正網(wǎng)絡(luò)兩部分雙向執(zhí)行,對稿件文本中可能出錯(cuò)的字符進(jìn)行Soft屏蔽,將檢測網(wǎng)絡(luò)的輸出作為基于BERT的校正網(wǎng)絡(luò)的新的輸入,從而對可能存在錯(cuò)誤的字符進(jìn)行定位與校正。文中以“哈爾濱工業(yè)大學(xué)新聞網(wǎng)”(HIT News Site)的文稿作為數(shù)據(jù)集,最終的糾錯(cuò)準(zhǔn)確率達(dá)到71.1%,相比BERT-Finetune模型提高0.6個(gè)百分點(diǎn),效果良好。但是,Soft-Masked BERT模型的語料集必須是完全對齊文本,需要通過使用“錯(cuò)字-正字”序列來檢測性能,在特定閾值下可能會(huì)出現(xiàn)只能定位無法糾正的問題。在未來的研究中,將Soft-Masked BERT與現(xiàn)實(shí)應(yīng)用聯(lián)系起來,仍是一個(gè)值得探索的課題。