董國(guó)鵬,徐旭升
(中鐵七局集團(tuán)有限公司勘測(cè)設(shè)計(jì)研究院,鄭州 450016)
自動(dòng)化安全知識(shí)管理對(duì)于從業(yè)者和研究者都是一個(gè)普遍的問(wèn)題。在工程行業(yè)中,由于工業(yè)化和專業(yè)化的不斷發(fā)展,安全管理已被認(rèn)為對(duì)控制危險(xiǎn)具有重要意義。雖然研究人員已經(jīng)探索出各種方法來(lái)減少事故發(fā)生率。但是建筑工地的死亡和傷害仍然經(jīng)常發(fā)生,大量的事故和人員傷亡的使建筑工程成為中國(guó)最危險(xiǎn)的行業(yè)。為了改善施工現(xiàn)場(chǎng)的安全管理,提高了管理人員的安全意識(shí),并督促他們防止建筑工作中的事故或問(wèn)題,研究人員開(kāi)始收集和組織事故報(bào)告、法律法規(guī),然后公開(kāi)發(fā)表。但是,隨著積累的報(bào)告和文件數(shù)量的增加,如何提高管理效率,成了問(wèn)題的關(guān)鍵[1-3]。
傳統(tǒng)上,從文本數(shù)據(jù)中提取關(guān)鍵信息然后組織文檔在很大程度上取決于人工解釋和處理,這既費(fèi)力又費(fèi)時(shí)。自然語(yǔ)言處理技術(shù)能夠?qū)⒎墙Y(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化信息[4-6]。然而雖然基于深度神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言過(guò)程(natural language process,NLP)模型已經(jīng)實(shí)現(xiàn)了自然語(yǔ)言理解的多種突破,但是對(duì)于工程行業(yè)或其他專業(yè)領(lǐng)域,還是有大量的技術(shù)術(shù)語(yǔ),它們會(huì)生成特定領(lǐng)域的注釋,標(biāo)簽和關(guān)系。要收集這些數(shù)據(jù)并標(biāo)記信息,必須與領(lǐng)域?qū)<揖o密合作,并在很大程度上依賴于他們的主觀經(jīng)驗(yàn)。此外,在這些行業(yè)內(nèi),信息項(xiàng)提取通常具有特定的目標(biāo)。隨著大規(guī)模的公共知識(shí)數(shù)據(jù)集訓(xùn)練,它對(duì)專業(yè)領(lǐng)域的知識(shí)處理不起作用。
知識(shí)管理經(jīng)歷了建筑管理研究的激增。它對(duì)安全績(jī)效、工人行為和預(yù)防與工作有關(guān)的事故的影響極大地引起了研究學(xué)者和工程師的關(guān)注。Bamel等[7]通過(guò)文獻(xiàn)計(jì)量和系統(tǒng)的文獻(xiàn)網(wǎng)絡(luò)分析研究了安全氣候知識(shí)認(rèn)識(shí)論。Duryan等[8]強(qiáng)調(diào)從優(yōu)秀實(shí)例、事故、事故隱患和失敗的項(xiàng)目中學(xué)習(xí)知識(shí)的重要性。Auch等[9]調(diào)查了項(xiàng)目團(tuán)隊(duì)文化對(duì)知識(shí)管理和轉(zhuǎn)移的影響。他們發(fā)現(xiàn)人們有不同的優(yōu)先級(jí)和議程,因?yàn)樗麄冊(cè)诓煌捻?xiàng)目團(tuán)隊(duì)和不同的職能組中且具有不同的角色。
數(shù)據(jù)是決策過(guò)程的基礎(chǔ),尤其是在建筑業(yè)中,最典型的數(shù)據(jù)類型是圖紙、表格和文本。為了促進(jìn)知識(shí)管理,研究人員非常關(guān)注數(shù)據(jù)分析和自動(dòng)知識(shí)提取。然后提出了各種工具和模型來(lái)改善安全管理。Kim等[10]著重于建筑安全管理,開(kāi)發(fā)了一個(gè)建筑事故風(fēng)險(xiǎn)知識(shí)管理系統(tǒng)。Zou等[11]提出了一種基于NLP的方法來(lái)提高建設(shè)項(xiàng)目風(fēng)險(xiǎn)管理中信息檢索的效率和性能。薛蕊等[12]分析和總結(jié)了NLP技術(shù)在智能鐵路中的應(yīng)用。李舟軍等[13]改進(jìn)了BERT和XLNet模型,顯著提升了自然語(yǔ)言處理技術(shù)中預(yù)訓(xùn)練技術(shù)的效果。為了組織大量與施工管理相關(guān)的文件并提取關(guān)鍵信息,Chen等[14]提出了一種基于本體和自然語(yǔ)言處理的自動(dòng)文檔知識(shí)圖和推理網(wǎng)絡(luò)模型。為了處理建筑、工程和建筑行業(yè)中設(shè)計(jì)流程中的意外更改,Dawood等[15]提出了一種通過(guò)整合行業(yè)基礎(chǔ)課程數(shù)據(jù)和自然語(yǔ)言處理來(lái)驗(yàn)證和直觀識(shí)別變更請(qǐng)求結(jié)果的方法。雷坤等[16]通過(guò)語(yǔ)義檢索技術(shù)分析某省全年建設(shè)工程施工合同糾紛訴訟案例中引用的法律條文和訴訟成因,為建筑工程行業(yè)風(fēng)險(xiǎn)管理提供參考。
總結(jié)當(dāng)前的研究成果,以解決建筑行業(yè)中知識(shí)管理的不同問(wèn)題,研究人員提出了各種模型和方法。然而,它們通常專注于應(yīng)用邏輯。信息項(xiàng)識(shí)別是所有應(yīng)用程序的基礎(chǔ)。沒(méi)有可靠的方法來(lái)解決所有問(wèn)題,對(duì)于每個(gè)應(yīng)用案例,需要新模型訓(xùn)練。如果沒(méi)有靈活有效的訓(xùn)練方法來(lái)避免對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練,那么所提出和建立的方法將很難在實(shí)踐中使用。
因此,行業(yè)中需要自動(dòng)信息提取模型,該模型可以用小樣本進(jìn)行訓(xùn)練,并且可以與書(shū)寫語(yǔ)言系統(tǒng)的功能保持獨(dú)立。針對(duì)這一問(wèn)題,現(xiàn)提出一種基于自然語(yǔ)言處理的小樣本訓(xùn)練方法。該方法能夠充分利用有限的樣本,通過(guò)字符語(yǔ)義編碼、BiLSTM-CRF分類模型和數(shù)據(jù)增強(qiáng)技術(shù),建立能夠自動(dòng)處理和組織文本數(shù)據(jù)中語(yǔ)義信息的自動(dòng)提取模型,具有較高的魯棒性,在工程行業(yè)以及其他專業(yè)領(lǐng)域中具有較大優(yōu)勢(shì)。
小樣本自動(dòng)信息提取模型由三部分組成。第一部分是基于詞嵌入的字符語(yǔ)義編碼;第二部分是基于長(zhǎng)短期記憶(long-short term memory,LSTM)網(wǎng)絡(luò)的字符分類模型,第三部分是基于交叉組合的數(shù)據(jù)增廣算法??傮w框架如圖1所示。
圖1 模型的總體框圖
首先,將小樣本數(shù)據(jù)集的原始數(shù)據(jù)直接用于模型訓(xùn)練中。通過(guò)字符語(yǔ)義編碼,將文本數(shù)據(jù)轉(zhuǎn)換為語(yǔ)義向量,然后把這些向量作為字符分類模型的輸入。通過(guò)分類模型,根據(jù)對(duì)應(yīng)的信息項(xiàng)類別對(duì)字符進(jìn)行處理,然后將屬于同一信息項(xiàng)類別的相鄰字符識(shí)別為一個(gè)信息項(xiàng)目標(biāo)。根據(jù)模型對(duì)初始數(shù)據(jù)集的預(yù)測(cè)精度,通過(guò)交叉組合增廣算法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行增強(qiáng),以合成包含預(yù)測(cè)精度值較低的目標(biāo)的樣本。然后,使用擴(kuò)展數(shù)據(jù)集重新訓(xùn)練模型。通過(guò)數(shù)據(jù)擴(kuò)充,可以將初始的小樣本數(shù)據(jù)集擴(kuò)充為大型數(shù)據(jù)集而無(wú)需更多注釋。然后可以增強(qiáng)模型的可靠性和魯棒性。
在該框架中,字符被視為基本語(yǔ)義單元。對(duì)于不同的書(shū)寫語(yǔ)言系統(tǒng),“字符”的含義可能會(huì)有不同的解釋。在英語(yǔ)語(yǔ)言系統(tǒng)中,字符可以是數(shù)字、標(biāo)點(diǎn)、符號(hào)或字母表中的字母,一個(gè)或多個(gè)字符組成一個(gè)單詞。在中文語(yǔ)言系統(tǒng)中,一個(gè)字既可以是一個(gè)字,也可以是一個(gè)字的一部分。為了消除這種混淆,在本文中,“字符”被定義為文本數(shù)據(jù)的處理單元,其中一個(gè)字符在一個(gè)句子中具有最小的語(yǔ)義。由于每個(gè)字符都是一個(gè)處理單元,句子可以自然地劃分為字符而不考慮分詞。所以語(yǔ)義編碼是獨(dú)立于自然語(yǔ)言書(shū)寫系統(tǒng)的。
為了量化字符串符號(hào),目前,整數(shù)編碼表示、獨(dú)熱編碼表示和分布式表示是語(yǔ)言符號(hào)處理的三種最常見(jiàn)的編碼風(fēng)格。在整數(shù)編碼模型中,字符用唯一的整數(shù)進(jìn)行編碼,而整數(shù)值具有自然有序的關(guān)系,這可能會(huì)影響模型預(yù)測(cè)精度。獨(dú)熱編碼將整數(shù)值轉(zhuǎn)換為二進(jìn)制值,對(duì)應(yīng)位的“1”值表示一個(gè)特定的字符串符號(hào)。單熱編碼消除了順序關(guān)系,但編碼將非常長(zhǎng),因?yàn)樽匀徽Z(yǔ)言系統(tǒng)中有大量唯一的字符串符號(hào)。對(duì)于分布式表示,使用連續(xù)值代替離散的1和0。因此,字符串符號(hào)不再局限于一個(gè)單元,短編碼可以代表大量的概念。在本框架中,使用了分布表示方法。
首先,生成一個(gè)字符表,所有文本數(shù)據(jù)都以字符串格式作為語(yǔ)料庫(kù)讀取。然后將字符串分成最小的語(yǔ)義單元(字符),并刪除重復(fù)的語(yǔ)義單元。再根據(jù)出現(xiàn)順序?yàn)槊總€(gè)單元分配一個(gè)唯一的整數(shù)作為編號(hào)。最后,收集到的具有編號(hào)的語(yǔ)義單元由字符表組成。
然后,根據(jù)字符表,可以將一個(gè)句子翻譯成一組編號(hào)。盡管編號(hào)是數(shù)字值,但它不包含語(yǔ)義,每個(gè)字符都是一個(gè)獨(dú)立的單元。編號(hào)可以用于標(biāo)識(shí)不同的字符,但不能表示字符之間的關(guān)系。另一方面,信息項(xiàng)通常是包含多個(gè)字符的短語(yǔ)或句子片段。因此,通過(guò)將內(nèi)容建模為字符編碼,可以使信息提取過(guò)程更高效。在這項(xiàng)工作中,利用單詞嵌入算法進(jìn)行內(nèi)容學(xué)習(xí),然后生成字符的語(yǔ)義編碼。
圖2為嵌入算法的過(guò)程。Xi是一個(gè)句子中的第i個(gè)字符。周圍內(nèi)容的窗口大小為C,因此,總共選擇2C個(gè)字符(C項(xiàng)在左邊,C項(xiàng)在右邊)作為Xi的周圍內(nèi)容。如果句子長(zhǎng)度不夠,則會(huì)附加空字符。W是一個(gè)權(quán)值矩陣,窗口大小中的所有項(xiàng)共享一個(gè)權(quán)值矩陣。Xi維度為1×V,W維度為V×N。V為初始編碼字符的長(zhǎng)度,N為語(yǔ)義編碼的長(zhǎng)度。然后,通過(guò)式(1)和式(2)的過(guò)程,可以生成一個(gè)指標(biāo)向量Yi,并且通過(guò)訓(xùn)練W矩陣和W′矩陣讓Yi值等于Xi值。然后,可以將Xi×W的結(jié)果視為Xi字符的語(yǔ)義向量Si。這可以看作是一種通過(guò)輸入周圍內(nèi)容的語(yǔ)義向量來(lái)預(yù)測(cè)句子中第i個(gè)字符的預(yù)測(cè)模型。
圖2 特征語(yǔ)義編碼訓(xùn)練模型
(1)
(2)
窗口大小C決定目標(biāo)的內(nèi)容區(qū)域。V是字符的初始代碼的長(zhǎng)度,例如,如果采用單字符表示,則V是字符表的長(zhǎng)度,它影響計(jì)算效率。N是語(yǔ)義向量的長(zhǎng)度,其中N越大,語(yǔ)義向量可以包含的信息越多。通過(guò)語(yǔ)義編碼模型,每個(gè)字符都由一個(gè)N維向量表示,該向量包含量化的內(nèi)容信息。
信息項(xiàng)通常由一個(gè)或多個(gè)字符組成。通過(guò)語(yǔ)義編碼,可以識(shí)別字符之間的相似性和差異。但是,為了捕獲有意義的信息項(xiàng),必須進(jìn)一步確定字符的特定合成圖案。LSTM網(wǎng)絡(luò)由于具有良好的處理長(zhǎng)距離依賴性分析的功能,因此被認(rèn)為是檢測(cè)長(zhǎng)序列數(shù)據(jù)中模式的良好模型。采用BiLSTM-CRF模型作為檢測(cè)核心,對(duì)字符進(jìn)行分類,然后檢測(cè)信息項(xiàng)的組合模式。
BiLSTM-CRF模型由兩部分組成:雙向LSTM網(wǎng)絡(luò),包括前向和反向LSTM網(wǎng)絡(luò);以及條件隨機(jī)場(chǎng)(conditional random field,CRF)層。首先,生成每個(gè)字符的語(yǔ)義向量,然后將語(yǔ)義向量作為BiLSTM模型的輸入。通過(guò)堆疊兩個(gè)LSTM神經(jīng)網(wǎng)絡(luò),一個(gè)處理向前的句子,另一個(gè)處理反向的句子。BiLSTM模型為每個(gè)字符學(xué)習(xí)左右的語(yǔ)義信息。然后通過(guò)對(duì)帶注釋的數(shù)據(jù)進(jìn)行訓(xùn)練,根據(jù)字符的語(yǔ)義對(duì)字符進(jìn)行分類。
BiLSTM模型的輸入是預(yù)訓(xùn)練的字符語(yǔ)義向量,可以通過(guò)基于詞嵌入的字符語(yǔ)義編碼算法獲得,輸出是與每個(gè)字符的預(yù)定義信息相對(duì)應(yīng)的權(quán)重分布值 字符。從理論上講,通過(guò)為每個(gè)字符選擇權(quán)重值最高的類別,可以提取信息項(xiàng)。但是,BiLSTM模型的預(yù)測(cè)結(jié)果并非100%正確,并且可能沒(méi)有出色的權(quán)重值。為了優(yōu)化預(yù)測(cè)性能,在BiLSTM輸出層上附加了一個(gè)CRF層。通過(guò)使用CRF層,可以消除不符合語(yǔ)法規(guī)則但具有最高權(quán)重值的情況。
無(wú)論是語(yǔ)義編碼還是LSTM模型訓(xùn)練,都需要大量的訓(xùn)練樣本。由于訓(xùn)練樣本的標(biāo)注需要大量的時(shí)間和勞動(dòng)成本,使得訓(xùn)練數(shù)據(jù)更加有限。因此,為了擴(kuò)大樣本數(shù)據(jù),設(shè)計(jì)了一個(gè)基于交叉組合的數(shù)據(jù)增廣算法來(lái)自動(dòng)生成更多的訓(xùn)練數(shù)據(jù)。
第一步,根據(jù)預(yù)先定義的信息抽取目標(biāo),對(duì)小樣本數(shù)據(jù)集進(jìn)行手工標(biāo)注;第二步,收集所有貼有標(biāo)簽的信息項(xiàng)目,并根據(jù)項(xiàng)目類別將它們分成不同的組;第三步,消除初始訓(xùn)練數(shù)據(jù)集中所有句子的信息項(xiàng),生成句子模板;第四步,隨機(jī)選擇一個(gè)句子模板,從收集到的信息項(xiàng)組中,按照被淘汰項(xiàng)的類型重新分配信息項(xiàng),生成新的句子。該過(guò)程如圖3所示。
圖3 基于交叉組合的數(shù)據(jù)增強(qiáng)程序
如果初始小訓(xùn)練數(shù)據(jù)集中有M條記錄,定義p種信息項(xiàng)目標(biāo)。然后有p個(gè)信息項(xiàng)組,生成M個(gè)句子模板。對(duì)于每個(gè)句子模板,將有最多的(M-1)p個(gè)新句子。因此,通過(guò)設(shè)計(jì)的基于交叉組合的數(shù)據(jù)增強(qiáng),能夠生成M(M-1)p新的標(biāo)注記錄。
為了驗(yàn)證所提出的自動(dòng)信息抽取小樣本訓(xùn)練框架,首先建立了一個(gè)小型事故新聞報(bào)道中文數(shù)據(jù)集。首先,將初始數(shù)據(jù)集直接用于模型訓(xùn)練,然后根據(jù)預(yù)測(cè)結(jié)果,針對(duì)預(yù)測(cè)精度較低的目標(biāo),利用所設(shè)計(jì)的交叉組合增廣算法合成目標(biāo)數(shù)量較多的新句子。然后利用增廣數(shù)據(jù)集對(duì)預(yù)測(cè)模型進(jìn)行再次訓(xùn)練,對(duì)訓(xùn)練精度、召回率進(jìn)行交叉驗(yàn)證評(píng)估。
本案例一共收集兩個(gè)數(shù)據(jù)集,第一個(gè)數(shù)據(jù)集共包含95個(gè)建筑事故新聞報(bào)道。第二個(gè)數(shù)據(jù)集包含從互聯(lián)網(wǎng)上收集的50個(gè)事故新聞報(bào)道。7個(gè)典型的信息項(xiàng)被標(biāo)注為信息項(xiàng)提取的目標(biāo)。它們是報(bào)告的事故的概況信息,包括日期、地點(diǎn)、事故類型、原因、傷亡情況,以及報(bào)告中涉及的組織。所定義的7個(gè)提取目標(biāo)的標(biāo)注和說(shuō)明如表1所示。由于一個(gè)信息項(xiàng)可以是由幾個(gè)字符組成的短語(yǔ)或句子的子部分,因此應(yīng)該確定上下文中信息項(xiàng)的邊界。
表1 定義的信息項(xiàng)的編碼和含義
對(duì)于文本數(shù)據(jù),每個(gè)字符都有一個(gè)代碼。第一個(gè)數(shù)據(jù)集用于評(píng)估數(shù)據(jù)增強(qiáng)后模型的訓(xùn)練性能和可靠性。第二個(gè)數(shù)據(jù)集用于評(píng)估模型的魯棒性。這兩個(gè)數(shù)據(jù)集都是手工標(biāo)注的,表2給出了數(shù)據(jù)集的總結(jié)。
表2 數(shù)據(jù)集中的每個(gè)信息項(xiàng)計(jì)數(shù)
由于以B-開(kāi)頭的代碼表示信息項(xiàng)的首個(gè)字符,而I-表示項(xiàng)內(nèi)容字符,因此以I開(kāi)頭的代碼數(shù)量要比以B開(kāi)頭的代碼數(shù)量大得多。
利用TensorFlow深度神經(jīng)網(wǎng)絡(luò)平臺(tái)實(shí)現(xiàn)了BiLSTM-CRF模型。該平臺(tái)提供了預(yù)定義的LSTM單元,可以簡(jiǎn)化實(shí)現(xiàn)。構(gòu)建的BiLSTM-CRF模型的概要如表3所示。
表3 BiLSTM-CRF模型訓(xùn)練參數(shù)
在初始階段,第一個(gè)數(shù)據(jù)集中的95條記錄僅包含222個(gè)句子,總共生成214個(gè)句子模板。由于數(shù)據(jù)集樣本較小,對(duì)于每個(gè)信息抽取目標(biāo),條目的數(shù)量非常有限。特別是對(duì)于“單位”項(xiàng)目(OR)只有6個(gè)目標(biāo),“原因”項(xiàng)目(CA)只有43個(gè)目標(biāo),“事故地點(diǎn)”項(xiàng)目(LC)只要62個(gè)目標(biāo),這使得模型在這三個(gè)信息項(xiàng)上的預(yù)測(cè)準(zhǔn)確度明顯弱于其他信息項(xiàng)。
因此,通過(guò)選取包含OR、CA和LC項(xiàng)的句子模板,共選取97個(gè)句子模板作為數(shù)據(jù)擴(kuò)展模板。其中有4個(gè)OR相關(guān)模板,40個(gè)CA相關(guān)模板,57個(gè)LC相關(guān)模板,有些模板可能同時(shí)包含一個(gè)或多個(gè)目標(biāo)?;谶@97個(gè)模板和從初始數(shù)據(jù)集中提取的信息項(xiàng),將生成一個(gè)更大的數(shù)據(jù)集。結(jié)合初始數(shù)據(jù)集,最終生成的數(shù)據(jù)集包含16 392個(gè)句子,每個(gè)信息項(xiàng)目標(biāo)的詳細(xì)計(jì)數(shù)如表4所示。與 B-OR項(xiàng)目的目標(biāo)數(shù)目由6個(gè)增至4 380個(gè),B-CA項(xiàng)目由43個(gè)增至1 193個(gè),B-LC項(xiàng)目由62個(gè)增至17 306個(gè)。
表4 增強(qiáng)數(shù)據(jù)集中項(xiàng)目計(jì)數(shù)
模型的檢測(cè)精度隨訓(xùn)練過(guò)程的變化如圖4和圖5所示。由于數(shù)據(jù)的增強(qiáng)減小了訓(xùn)練樣本中目標(biāo)比例的差異,使得模型對(duì)各種目標(biāo)檢測(cè)的訓(xùn)練更加穩(wěn)定,在訓(xùn)練過(guò)程中沒(méi)有明顯的波動(dòng),這也使得模型收斂速度更快。在比較以B-和I-開(kāi)頭的項(xiàng)目的訓(xùn)練進(jìn)度時(shí),以I-開(kāi)頭的項(xiàng)目收斂速度更快。在2個(gè)訓(xùn)練周期后,平均準(zhǔn)確率達(dá)到0.9,而在超過(guò)7個(gè)訓(xùn)練周期后,除B-CA和B-OR外,以B-開(kāi)頭的項(xiàng)目準(zhǔn)確率達(dá)到0.9。產(chǎn)生此結(jié)果的一個(gè)原因是,以B-開(kāi)頭的項(xiàng)的標(biāo)記僅表示信息項(xiàng)的第一個(gè)字符,而以I-開(kāi)頭的項(xiàng)的標(biāo)記表示信息項(xiàng)所包含的所有字符。說(shuō)明訓(xùn)練數(shù)據(jù)集的大小直接影響訓(xùn)練精度。
圖4 信息項(xiàng)首字符的提取精度
圖5 信息項(xiàng)中間字符的提取精度
為了驗(yàn)證模型的魯棒性,在增強(qiáng)數(shù)據(jù)集上進(jìn)行了六-折疊交叉驗(yàn)證,測(cè)試的準(zhǔn)確率和召回率分布如圖6所示。除CA項(xiàng)外,其他項(xiàng)的檢測(cè)準(zhǔn)確率和召回率收斂為1。雖然CA項(xiàng)目檢測(cè)的準(zhǔn)確率和召回率有0.2范圍的波動(dòng),但準(zhǔn)確率和召回率的平均值均高于0.98。交叉驗(yàn)證表明,通過(guò)增強(qiáng)數(shù)據(jù)訓(xùn)練,該模型能夠很好地檢測(cè)到預(yù)定義的目標(biāo)。結(jié)果表明,所設(shè)計(jì)的交叉組合算法可以提高模型的性能。
圖6 交叉驗(yàn)證的檢測(cè)精度與召回率
由于增強(qiáng)數(shù)據(jù)集是人工合成的,為了驗(yàn)證模型在真實(shí)數(shù)據(jù)集上的性能,第二個(gè)數(shù)據(jù)集被用作測(cè)試數(shù)據(jù)集。表5和表6列出了模型的初始數(shù)據(jù)集以及增強(qiáng)數(shù)據(jù)上的訓(xùn)練后的檢測(cè)結(jié)果的對(duì)比。結(jié)果表明,所有預(yù)定義的目標(biāo)都能很好地檢測(cè)到。
表5 初始模型檢測(cè)結(jié)果
表6 增強(qiáng)模型檢測(cè)結(jié)果
值得注意的是所有標(biāo)簽結(jié)果的檢測(cè),通過(guò)增強(qiáng)數(shù)據(jù)訓(xùn)練后得到了有效的提升,特別是對(duì)于OR、CA項(xiàng)目,初始模型幾乎無(wú)法進(jìn)行檢測(cè)。但對(duì)于增強(qiáng)后的模型B-OR 達(dá)到了 0.43, I-OR為0.31, B-CA為0.33, I-CA為0.43。通過(guò)結(jié)果對(duì)比,基于交叉合并的數(shù)據(jù)增強(qiáng)方法有效地提升了模型的魯棒性。
提出了一個(gè)基于自然語(yǔ)言處理的小樣本訓(xùn)練模型,以建筑工程行業(yè)中安全事故報(bào)道為案例對(duì)模型進(jìn)行了研究,得到如下結(jié)論。
(1)設(shè)計(jì)了一種字符語(yǔ)義編碼集成的深度神經(jīng)網(wǎng)絡(luò),建立了一個(gè)自動(dòng)信息提取模型。由于采用了字符編碼,省去了分詞過(guò)程。因此,所設(shè)計(jì)的模型能夠與書(shū)寫語(yǔ)言系統(tǒng)的特征保持獨(dú)立。
(2)提出了一種基于交叉組合的文本數(shù)據(jù)增強(qiáng)算法。通過(guò)交叉和組合操作,可以從初始數(shù)據(jù)集生成新的記錄。利用句子模板保存標(biāo)注信息。因此,本文提出的數(shù)據(jù)增強(qiáng)算法可以對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng),無(wú)需更多的人工標(biāo)注。
(3)以建筑工程事故報(bào)道數(shù)據(jù)集為例進(jìn)行了研究。測(cè)試結(jié)果驗(yàn)證了所建立的自動(dòng)信息提取模型的性能,并對(duì)所提出的小樣本訓(xùn)練框架進(jìn)行了評(píng)估,該框架能夠很好地處理小樣本訓(xùn)練,具有較高的可靠性和魯棒性。