鐘山
(中國民用航空飛行學(xué)院,四川 廣漢618307)
隨著現(xiàn)代社會經(jīng)濟(jì)和科技的發(fā)展,民用航空迎來了高速發(fā)展,航空運(yùn)輸量也在不斷地增加。飛行安全問題一直是民用航空的核心問題,飛行過程中的每一個(gè)細(xì)節(jié)都要注意。Cui Q 和Li Y 等學(xué)者提出了民用航空安全效率的概念[1]。有關(guān)機(jī)構(gòu)的飛行事故統(tǒng)計(jì)報(bào)告指出無線電交流中的錯(cuò)誤理解是導(dǎo)致操作錯(cuò)誤的主要因素,其中很大一部分比例的操作錯(cuò)誤又會導(dǎo)致復(fù)誦錯(cuò)誤[2]。在特納里夫島空難中,其他地方的炸彈恐怖襲擊使得特納里夫島的一個(gè)小型機(jī)場涌入了大量的飛機(jī),荷蘭皇家航空和美國泛美航空的飛機(jī)在機(jī)場跑道上相撞。事故調(diào)查結(jié)果中一個(gè)沒有爭議的重要原因就是荷蘭皇家航空的飛行員和塔臺交流中的理解出現(xiàn)了問題[3]。Shappell S 和Detwiler C 等學(xué)者分析了有關(guān)的航空飛行事故數(shù)據(jù),得出飛行機(jī)組和環(huán)境方面因素是航空事故的主要原因[4]。由此可以看出陸空通話對于飛行安全的重要性,而陸空通話中發(fā)生的一些不經(jīng)意的小錯(cuò)誤就可能會導(dǎo)致飛行安全事故。為了保證陸空通話的正確進(jìn)行會設(shè)置指令復(fù)誦環(huán)節(jié),有關(guān)陸空通話的文件指出高度和速度等關(guān)鍵指令飛行員要全部復(fù)誦。陸空通話的指令復(fù)誦環(huán)節(jié)可以糾正飛行員聽錯(cuò)指令以及空中管制員發(fā)出不正確的指令兩種錯(cuò)誤,同時(shí)飛行員通過指令復(fù)誦進(jìn)一步避免操作失誤[5]。指令復(fù)誦是為了避免陸空通話發(fā)生的錯(cuò)誤,而指令復(fù)誦的正確與否同樣值得關(guān)注。人工校驗(yàn)指令復(fù)誦會因?yàn)槟承┰虬l(fā)生錯(cuò)誤,所以為了更好地進(jìn)行復(fù)誦指令的校驗(yàn)考慮引入自動校驗(yàn)指令復(fù)誦的方法。首先需要將指令的語音信息轉(zhuǎn)化為文本信息,再通過自然語言處理完成指令復(fù)誦校驗(yàn)的任務(wù),最后返回校驗(yàn)的結(jié)果。大規(guī)模語料訓(xùn)練形成的預(yù)訓(xùn)練語言模型是自然語言處理領(lǐng)域一個(gè)重要的進(jìn)展,文章對BERT 預(yù)訓(xùn)練語言模型應(yīng)用于陸空通話指令復(fù)誦校驗(yàn)的方法逐步展開分析。首先探討指令復(fù)誦校驗(yàn)對應(yīng)的自然語言處理任務(wù)類型,其次根據(jù)指令復(fù)誦校驗(yàn)任務(wù)的特點(diǎn)分析如何應(yīng)用BERT 預(yù)訓(xùn)練語言模型,然后分析BERT 模型的訓(xùn)練步驟。
以下是陸空通話指令復(fù)誦校驗(yàn)出現(xiàn)的錯(cuò)誤情形??罩薪煌ü苤茊T發(fā)出指令:“某某雷達(dá)看到,下降到X 米保持”,飛行員復(fù)誦指令:“收到,下降到Y(jié) 米”,空中交通管制員校驗(yàn)復(fù)誦指令之后由于某種原因沒有發(fā)現(xiàn)復(fù)誦錯(cuò)誤[6]。此時(shí)就需要引入基于自然語言處理的陸空通話復(fù)誦校驗(yàn)方法來避免這種錯(cuò)誤。指令和復(fù)誦的指令都可以看作是句子級別的文本,具體的任務(wù)是將兩個(gè)句子級別的文本作比較核對關(guān)鍵信息是否有差異。對于上述文本任務(wù)有兩種解決方法:第一種方法是分別用向量的形式表示兩個(gè)句子的語義然后比較兩個(gè)向量的相似度。第二種方法是將文本核對任務(wù)看作是句子對分類任務(wù),當(dāng)兩個(gè)文本的關(guān)鍵信息有差異的時(shí)候句子對的聯(lián)系判斷為A,而當(dāng)兩個(gè)文本的關(guān)鍵信息一致的時(shí)候句子對的聯(lián)系判斷為B。
圖1 Transformer 模型結(jié)構(gòu)示意圖
圖2 BERT 模型結(jié)構(gòu)示意圖
指令和復(fù)誦指令的語義整體差異不大,主要區(qū)分的是關(guān)鍵信息,直接計(jì)算兩個(gè)句子的向量相似度難以判斷關(guān)鍵信息是否一致。所以將指令復(fù)誦校驗(yàn)任務(wù)看作是句子對分類任務(wù),使用的模型是BERT 預(yù)訓(xùn)練語言模型。
圖3 BERT 模型輸入向量示意圖
圖4 BERT 模型訓(xùn)練步驟示意圖
圖5 對于陸空通話語義校驗(yàn)任務(wù)的BERT 模型結(jié)構(gòu)示意圖
BERT 模型是一種雙向結(jié)構(gòu)的預(yù)訓(xùn)練語言模型[7],在很多自然語言處理任務(wù)中都有著良好的效果。BERT 模型的內(nèi)部組成單元是2017 年提出的Transformer 模型[8],Transformer 模型的結(jié)構(gòu)如圖1 所示。
BERT 模型采用了隨機(jī)遮住輸入文本部分單詞的做法,并且對下一個(gè)句子的預(yù)測做了特別的設(shè)計(jì)[7]。所以BERT 模型適合于復(fù)誦校驗(yàn)任務(wù),BERT 模型的結(jié)構(gòu)如圖2 所示。
對于指令和復(fù)誦的指令需要轉(zhuǎn)換為向量形式作為輸入,BERT 模型的向量輸入形式并不僅僅是分詞的語義向量而是一種復(fù)合向量。BERT 模型為了能夠更準(zhǔn)確地預(yù)測句子對分類結(jié)果,引入[SEP]標(biāo)識符放在每個(gè)句子的句末。[CLS]標(biāo)識符放在整個(gè)句子對的首位用于分類任務(wù)。將句子轉(zhuǎn)換為輸入的向量需要對句子進(jìn)行分詞,然后對分詞進(jìn)行向量化。分詞的向量是位置向量、段落向量和分詞語義向量三種向量形式之和,具體的細(xì)節(jié)如圖3 所示。
對于BERT 模型的訓(xùn)練步驟,首先將指令和復(fù)誦指令的數(shù)據(jù)放在一列按照圖三中的方式加入[CLS]和[SEP]標(biāo)識符。接著將輸入文本進(jìn)行分詞,確定出每個(gè)分詞的位置向量、段落向量和分詞語義向量,對這三種向量進(jìn)行求和得到文本分詞的向量。然后使用文本分詞的向量對BERT 模型進(jìn)行微調(diào)。在到達(dá)最大訓(xùn)練輪次之前,每一次模型訓(xùn)練完成之后都需要判斷當(dāng)前在驗(yàn)證集上的結(jié)果是否是最好的結(jié)果,如果是驗(yàn)證集上的最好結(jié)果就保存模型。對于陸空通話復(fù)誦校驗(yàn)任務(wù)的BERT 模型訓(xùn)練步驟如圖4 所示。
語義校驗(yàn)的自然語言處理任務(wù)本質(zhì)是一個(gè)分類任務(wù),需要判斷指令和復(fù)誦指令的關(guān)鍵信息是否一致,一致和不一致的情形分別輸出不同的類別結(jié)果。所以使用[CLS]標(biāo)識符的最后一層的狀態(tài)來判斷輸出的類別結(jié)果,在[CLS]標(biāo)識符的最后一層增加一個(gè)線性層就可以得到分類結(jié)果,如圖5 所示。
文章分析了在自然語言處理中陸空通話語義校驗(yàn)的具體任務(wù)類型和BERT 模型對應(yīng)的訓(xùn)練步驟,對應(yīng)用于語義校驗(yàn)任務(wù)的BERT 模型結(jié)構(gòu)進(jìn)行了探討。