馬婷
摘要: 航空事故對航空安全起到至關(guān)重要的作用,影響航空安全的因素是多重的。文章對航空安全事故報告采用文本挖掘和R語言,找出航空安全事故的致險因素,對航空安全提供參考,收集事故報告90例,首先采用了結(jié)巴分詞對數(shù)據(jù)進(jìn)行分詞處理,其次是過濾分詞結(jié)果中的停用詞和無效詞,然后進(jìn)行關(guān)鍵字的提取,找出能夠代表文本特征的詞條,建立向量空間模型,最后采用K-means聚類算法,在K值為3時聚類效果達(dá)到最佳,將航空事故致險因素分為了人為-環(huán)境-設(shè)備三類,利用R語言的Word Cloud程序包將實驗結(jié)果進(jìn)行可視化處理,得出8項主要致險因素,17項一般致險因素。根據(jù)詞云圖中的致險因素,從人-環(huán)境-設(shè)備三個方面為以后的飛行安全提供了有價值的參考信息。
關(guān)鍵詞: 航空安全事故報告;文本挖掘;分詞;聚類;致險因素
中圖分類號:G642? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)35-0056-04
人們的生活方式正悄無聲息地發(fā)生變化,比起其他交通工具,乘坐飛機(jī)出行已經(jīng)成了人們的日常。從2018的有關(guān)航空安全的數(shù)據(jù)來看,航空安全形勢仍然嚴(yán)峻,還有許多安全問題是不容忽視的。因此,對于航空安全性進(jìn)行提高是航空公司以及從業(yè)人員都迫不及待需要解決的問題[1]。
美國在20世紀(jì)70年代首創(chuàng)的航空安全系統(tǒng)(Aviation Safety Reporting System),是國外開始針對航空安全事故報告開展研究的起始點(diǎn)。該系統(tǒng)可以從航空安全報告中分析出造成事故的原因,從而使類似事件發(fā)生的概率大大降低。近年來,國內(nèi)也有不少人致力于對安全事故報告進(jìn)行相關(guān)方面的分析研究,如文獻(xiàn)[2]基于文本挖掘技術(shù)和R語言,對334份建筑施工安全事故報告進(jìn)行分詞處理和特征項降維,識別出8項建筑工人不安全行為及其27項影響因素。文獻(xiàn)[3]以某管制單位2004—2019年共269條管制原因不安全事件數(shù)據(jù)為挖掘語料,運(yùn)用LDA主題模型挖掘管制運(yùn)行風(fēng)險主題及關(guān)鍵詞,使用Word2Vec挖掘主題之間和關(guān)鍵詞之間有怎樣的關(guān)聯(lián)性、用UCINET分析軟件、可視化工具NETDRAW構(gòu)建語義網(wǎng)絡(luò)將關(guān)聯(lián)關(guān)系進(jìn)行可視化并進(jìn)行網(wǎng)絡(luò)分析。結(jié)果表明:挖掘到7個主題,主要以管制人為因素為主。文獻(xiàn)[4]以航空安全事故報告作為數(shù)據(jù)基礎(chǔ),通過TF-IDF、LDA算法進(jìn)行致險因素的分析,在此基礎(chǔ)上提出如何來進(jìn)行風(fēng)險的預(yù)測。其中包括6項主要致因因素和20項一般致因因素。文獻(xiàn)[5]構(gòu)建出了基于樸素貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的“人-船-管理-環(huán)境”系統(tǒng)。通過對TFIDF算法的進(jìn)一步改進(jìn),推導(dǎo)出人為因素是造成船舶碰撞事故風(fēng)險因素的第一因子。文獻(xiàn)[6]通過詞云和網(wǎng)絡(luò)結(jié)構(gòu)圖的可視化展示,展示出了地鐵施工安全風(fēng)險的致險因素,并根據(jù)這些因素對事故發(fā)生的重要程度對其進(jìn)行了等級劃分。文獻(xiàn)[7]是以ASN、NTSB和世界事故數(shù)據(jù)為基礎(chǔ)來構(gòu)建民航系統(tǒng)的事故數(shù)據(jù)庫,所采用的算法是多維關(guān)聯(lián)規(guī)則的算法。文獻(xiàn)[8]采用內(nèi)容分析方法,分析在飛機(jī)飛行階段的安全問題及造成安全問題的原因有什么樣的關(guān)系,通過分析得到對于某一起航空安全事故發(fā)生的主要原因并不是單一的,而是由“環(huán)境”“管理”“人為”等多重因素相互疊加造成的。
上述方法大部分是通過分析事件及事件之間關(guān)系,但出于機(jī)器學(xué)習(xí)聚類的使用比較少,并且通過可視化展現(xiàn)分析結(jié)果的使用也比較少,本文借助了文本挖掘和R語言技術(shù),K-means聚類的方法及可視化,從90例飛行事故報告,挖掘航空事故致險因素。
1 文本挖掘
文本挖掘是數(shù)據(jù)挖掘領(lǐng)域中的一個部分,主要的作用是挖掘?qū)τ脩艟哂袧撛趦r值的新知識。文本挖掘是針對文本類型的數(shù)據(jù)進(jìn)行定性分析和定量計算,將包含在其中的各種類型的隱式知識挖掘出發(fā),如隱含其中的信息模式、結(jié)構(gòu)等[9]。文本挖掘的方法主要針對某些包含信息模式和結(jié)構(gòu)的文本信息源展開分析和計算,其應(yīng)用主要包含實現(xiàn)有監(jiān)督的文本分類和無監(jiān)督的文本聚類。
本文文本挖掘操作步驟如圖1所示。
2 文本挖掘語料及挖掘工具選擇
在做文本挖掘之前首先要選擇合適的挖掘工具,典型的開源的文本挖掘工具有LINGPIPE、LIBSVM、WEKA、ROST CM等[10-11],ROST CM挖掘工具主要用于中文文本,WEKA算法在許多數(shù)據(jù)挖掘?qū)I(yè)人員中相對流行,因為它的算法很全面, LIBSVM挖掘工具主要針對SVM模式識別與回歸操作,并且為了對自然語言進(jìn)行更好地處理,人們開發(fā)出了LINGPIPE挖掘工具包。R語言則可提供完全免費(fèi)開放的環(huán)境,它由于涵蓋的功能多種多樣,而且包含在內(nèi)的成熟穩(wěn)定的函數(shù)齊全,成了一門可以用來專門做統(tǒng)計和數(shù)據(jù)分析工作的高效的語言,可以針對不同的用戶需求提供相應(yīng)的程序分析包,同各種IOS的兼容性好,而且它的功能也很齊全。因此,鑒于以上的分析比較,最終選擇了涵蓋數(shù)據(jù)處理、統(tǒng)計分析和數(shù)據(jù)可視化功能的R語言及相應(yīng)程序包,對所搜集的航空安全事故報告進(jìn)行了挖掘分析[12-14]。
為了保證實驗所用的數(shù)據(jù)具有真實性,實用性,我們采用航空安全網(wǎng)(Aviation Safety Network)中的數(shù)據(jù)為實驗中的基礎(chǔ)數(shù)據(jù),另外通過全網(wǎng)搜索與航空安全事故有關(guān)的信息,從民航資源網(wǎng)等相關(guān)的管理部門網(wǎng)站共收集事故報告90例。
搜集的90例航空安全事故報告來源如表1所示。
3 基于R語言文本挖掘的航空事故致險因素分析
特征表示通常我們會把文本數(shù)據(jù)用向量空間模型來表示,即提取的特征值與相對應(yīng)的權(quán)重進(jìn)行組合,所包含的概念如下:
(1) 某個語料庫文檔或單個文件集中的某一段,叫作文檔,記為D,文件總數(shù)為[D];
(2) 區(qū)別其他類文檔與這類文檔的重要依據(jù), 某一個給定的詞或詞語,我們把它稱為特征值;
(3) 對于一類文檔而言,特征值是有多么重要,我們用權(quán)重來表示。
TF表示某一個詞或短語在一篇文檔中出現(xiàn)多少次及頻率[17]。在某個文檔中,詞頻通常用來規(guī)范單詞的數(shù)量并防止它偏向長文檔,(與某個詞語是否對整篇文章重要無關(guān),在長文件中一個詞的出現(xiàn)頻率很高,而在某個短文件中出現(xiàn)的頻率則很低),所以某一個給定的詞或詞語出現(xiàn)的頻率次數(shù)稱為詞頻,在一篇文檔里面出現(xiàn)的某個詞語ti對文檔的重要程度我們把它表示為如公式(1)。
[tfi,j=ni,jknk,j]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
公式(1)中,分子部分n(i,j)表示在一篇文檔中某個特定的詞或詞組出現(xiàn)的詞頻,而式子中的分母表示的是該文檔中包含的所有的詞或詞組出現(xiàn)總詞頻。
對某個詞語在文檔中的重要程度進(jìn)行衡量,我們通常用逆向文件頻率來表示。以文件總數(shù)作為分子,以有哪些文檔包含該特定詞語的數(shù)目作為分母,再將分子除分母所得到的結(jié)果進(jìn)行對數(shù)運(yùn)算,得到的公式(2),稱為某一個特定的詞或詞組的IDF:
(2)
其中|D|:語料庫中的文件總數(shù)|{j:t_i∈d_(i,j) }|
tf-idf=tfi,j×idfi? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
通過式(3)計算,就能得出每個特征項的權(quán)重Wik:
(4)
(4) 向量空間模型:特征值和權(quán)重進(jìn)行組合構(gòu)成向量空間模型。
3.1? 航空事故報告預(yù)處理
使用了一款高效、對于繁體和自定義的詞典可以進(jìn)行分詞得分詞包——結(jié)巴分詞來完成整個文檔的分詞操作。它以C++作為基礎(chǔ)層,并且基于MIT協(xié)議實現(xiàn)對RCPP的高效調(diào)用。對90份文件采用結(jié)巴分詞的方式進(jìn)行分詞處理,分詞結(jié)果中存在著英文單詞、停用詞等對于本文分析贅余、無效的詞匯,部分分詞結(jié)果如圖2所示。為了節(jié)省內(nèi)存空間,在對自然語言數(shù)據(jù)進(jìn)行處理的步驟中,通過停用詞的過濾,可以提高檢索的效率和存儲效率,整理的停用詞如圖2(b)所示?;谝呀?jīng)整理的停用詞詞典、正則表達(dá)式分別過濾停用詞、英文單詞等無效詞匯,過濾后的分布結(jié)果如圖2(c)所示。觀察過濾停用詞與英文后的分詞結(jié)果,發(fā)現(xiàn)存在著“網(wǎng)”“號”等單詞長字,這些字在文本分析中無實際的效果,通過限制詞長來過濾這些詞,過濾效果如圖2(d)所示。
3.2? 特征值選擇及空間向量構(gòu)建
特征值是可以表示文本主要含義的信息,向量空間模型是在文本處理中的模型。TFIDF(term frequency–inverse document frequency)是一種統(tǒng)計方法[15-16],信息加權(quán)的技術(shù)領(lǐng)域應(yīng)用較多,主要作用是用于根據(jù)某個字詞的出現(xiàn)頻率,在某個語料庫或單個文件集中的某一個單詞,對他們存在的重要程度進(jìn)行評估。
如果在一篇文檔中某個詞以較高的詞頻存在時,它通常就可以被用來表示該類別中文檔的特征,應(yīng)該將這樣的詞語選出來,使其具有較高的權(quán)重,并將這些特征詞作為區(qū)別其他類文檔與這類文檔的重要依據(jù)。
每一行作為一個文本,每一列為關(guān)鍵詞,在文檔-詞頻矩陣中,部分提取結(jié)果如圖3所示。
根據(jù)空間向量模型的構(gòu)成方式,如表2為部分文本及特征值的空間向量模型。
3.3? K-Means聚類
K-Means算法其實是一種非常簡單的算法,它根據(jù)給定樣本集中的樣本之間的距離,形成K個簇,讓樣本自動歸入到相應(yīng)的簇內(nèi)。讓簇內(nèi)的各個點(diǎn)之間的距離盡可能小,而讓各個簇之間盡最大的可能分散[18]。
假設(shè)生成的K個簇是([S1、S2...Sk]),[Ui]是簇[Si]的均值向量,或者稱其為簇的質(zhì)心,用數(shù)據(jù)方式表示為:
(5)
通過計算得到的最小化平方誤差E:
(6)
K-Means算法實現(xiàn)步驟:
(1)數(shù)據(jù)集分成幾個集合,先確定出K值;
(2)選出質(zhì)心,質(zhì)心的選擇是任意的,它可以是隨機(jī)從數(shù)據(jù)集中選出的k個數(shù)據(jù)點(diǎn)。
(3)數(shù)據(jù)集中的每個點(diǎn)與質(zhì)點(diǎn)之間都有一個距離,我們通過計算距離,能夠找到數(shù)據(jù)集中的點(diǎn)離哪個質(zhì)點(diǎn)近,就把它們分為一類。
(4)通過上述步驟,使所有數(shù)據(jù)與其適當(dāng)?shù)募铣蔀橐粋€聚類,用k個集合表示,對每一個集合的質(zhì)心,重新計算一次。
(5)得到第二次的計算結(jié)果后,將它與第一次的結(jié)果進(jìn)行比較,如果第二次結(jié)果減去第一次的結(jié)果小于某個極小數(shù),相當(dāng)于收斂,那么說明質(zhì)點(diǎn)的位置沒有太大改變,這就是我們所預(yù)期的結(jié)果已經(jīng)達(dá)到了,不需要再次進(jìn)行計算。
(6)如果第二次結(jié)果減去第一次結(jié)果值得變化比較大,則需要再次聚類,即轉(zhuǎn)到3~5進(jìn)行循環(huán)迭代,直到滿足條件為止[19]。當(dāng)K=3的時效果最佳,選擇聚成三類,將航空事故致險因素分為人為造成事故傷害、天氣環(huán)境以及設(shè)備故障三大類因素,如圖4所示。
具體的聚類效果如圖5所示。
4 聚類可視化
實驗的最終結(jié)果以造成航空安全事故的因素的詞云圖展現(xiàn),通過利用R語言的Word cloud程序包方式進(jìn)行可視化展示。實驗得到的最終結(jié)果以詞云圖形式進(jìn)行可視化展示,如圖6所示。
雖然作為本文數(shù)據(jù)來源的90份航空安全事故報告,它們的語言表達(dá)方式多種多樣,內(nèi)容結(jié)構(gòu)也不盡相同,而且造成每一起航空事故的原因都存在很大差異,但通過實驗最后得出的詞云圖,根據(jù)詞語字體在圖中的居中位置不同、詞語方向大小以及明暗顏色都是有一定差別,如誤操作、疲勞駕駛、能見度低、安全意識薄弱、管理員決策不當(dāng)、鳥群撞擊、飛機(jī)設(shè)備故障及失靈等頻率較高的詞位置居于中央,字體明顯比其他詞語較大,顏色也較為醒目,我們把它們看成是主要致險因素。而飛行員情緒波動、失壓、人員安排、缺氧、低云、無線電通信阻塞、載荷過載等頻率低的詞字體比較小,位置處于詞云圖的邊緣部分,顏色較不明顯,我們把它看成一般致險因素。
5 結(jié)語
本文主要借助了文本挖掘和R語言技術(shù),通過文本分詞,停用詞過濾、無效詞過濾、關(guān)鍵字提取,建立向量空間模型,及K-means聚類的方法,從90例飛行事故報告,挖掘航空事故致險因素,最后通過可視化進(jìn)行顯示,顯示出的實驗結(jié)果進(jìn)行分析得到:
基于對實驗所得的航空事故致險因素詞云圖中字體的大小、位置、顏色等的分析,一起航空安全事故的發(fā)生是由一些主要的致險因素和一般的因素造成的,從詞云圖來看,誤操作、疲勞駕駛、能見度低、安全意識薄弱、管理者決策不當(dāng)、鳥群撞擊、飛機(jī)設(shè)備故障及失靈等這些是主要的致險因素;一般致險因素有:飛行員情緒波動、失壓、人員安排、缺氧、低云、無線電通信阻塞、載荷過載等。而一個航空事故的發(fā)生不可能是由某個單一的原因造成的,可能由多個致險因素相互疊加而導(dǎo)致,所以每個致險因素都是不容忽視的。為了能夠有效地防止航空安全事故的發(fā)生,主要從“人為造成事故傷害-天氣環(huán)境-管理者的管理-設(shè)備故障”這四大致險因素出發(fā)制定切實可行且有效的措施防止悲劇的發(fā)生。
參考文獻(xiàn):
[1] 徐佳迪.公務(wù)航空飛行安全的關(guān)鍵風(fēng)險因素研究[D].天津:中國民航大學(xué),2019.
[2] 薛楠楠,張建榮,張偉,等.基于文本挖掘的建筑工人不安全行為及其影響因素研究[J].安全與環(huán)境工程,2021,28(2):59-65,85.
[3] 陳芳,陳茜,徐碧晨.基于文本挖掘的管制運(yùn)行風(fēng)險主題分析[J].中國安全生產(chǎn)科學(xué)技術(shù),2020,16(11):47-52.
[4] 劉夢娜.基于文本挖掘的航空安全事故報告致因因素分析和風(fēng)險預(yù)測[D].合肥:安徽建筑大學(xué),2019.
[5] 吳伋,江福才,姚厚杰,等.基于文本挖掘的內(nèi)河船舶碰撞事故致因因素分析與風(fēng)險預(yù)測[J].交通信息與安全,2018,36(3):8-18.
[6] 李解,王建平,許娜,等.基于文本挖掘的地鐵施工安全風(fēng)險事故致險因素分析[J].隧道建設(shè),2017,37(2):160-166.
[7] 侯熙桐.基于多維關(guān)聯(lián)規(guī)則的民航事故數(shù)據(jù)挖掘研究[D].天津:中國民航大學(xué),2016.
[8] 劉俊杰,李華明,梁文娟,等.基于內(nèi)容分析法的航空安全自愿報告信息分析[J].中國安全科學(xué)學(xué)報,2012,22(4):90-96.
[9] 張磊.基于文本挖掘的項目風(fēng)險分析方法研究[D].濟(jì)南:山東大學(xué),2015.
[10] 張雯雯,許鑫.文本挖掘工具述評[J].圖書情報工作,2012,56(8):26-31,55.
[11] 張雪英.國外先進(jìn)數(shù)據(jù)挖掘工具的比較分析[J].計算機(jī)工程,2003,29(16):1-3.
[12] 馬準(zhǔn)中.對三種數(shù)據(jù)挖掘工具的比較[J].實驗科學(xué)與技術(shù),2005,3(1):45-46,29.
[13] Yang Y Y.Text mining and visualization tools - Impressions of emerging capabilities[J].World Patent Information,2008,30(4):280-293.
[14] Gemert J V.Text mining tools on the Internet an overview[J]. Intelligent Sensory Information Systems,2000(25):1-68.
[15] 張建娥.基于TFIDF和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J].情報科學(xué),2012,30(10):1542-1544,1555.
[16] 章志華,陸海良,郁鋼.基于TFIDF算法的關(guān)鍵詞提取方法[J].信息技術(shù)與信息化,2015(8):158-160.
[17] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機(jī)應(yīng)用,2009,29(S1):167-170,180.
[18] 回玥婷,夏懿嘉,陳紫荷,等.基于Synonyms、k-means的短文本聚類算法[J].電腦知識與技術(shù),2019,15(1):5-6.
[19] Lee E,Schmidt M,Wright J.Improved and simplified inapproximability for k-means[J].Information Processing Letters,2017,120:40-43.
【通聯(lián)編輯:王力】