許 婷,董秦剛
(西安航天動力研究所,西安 710100)
當(dāng)前我國航天工業(yè)已進(jìn)入快速發(fā)展階段,實現(xiàn)航天工業(yè)高質(zhì)量、高效率、高效益發(fā)展,意義重大,影響深遠(yuǎn)。為適應(yīng)航天工業(yè)的快速發(fā)展,液氧煤油發(fā)動機型號研制任務(wù)越來越重、指標(biāo)要求越來越高,一些制約發(fā)展的問題日益凸顯。
在過去的液氧煤油發(fā)動機設(shè)計研制過程中積累了豐富的經(jīng)驗和大量技術(shù)文件資料、標(biāo)準(zhǔn)規(guī)范、圖紙等資源,但這些資源較為分散,存在專業(yè)技術(shù)知識分類管理薄弱,缺乏體系化的分類管理,共享程度較低,自動化、高效的知識積累不足,隱形知識挖掘困難,知識復(fù)用率低等問題,難以支持快速設(shè)計迭代的研發(fā)模式。
為解決上述問題,本文采用人工智能技術(shù)對液氧煤油發(fā)動機各種資源進(jìn)行知識智能分類標(biāo)記的研究,構(gòu)建知識分類標(biāo)記管理體系,結(jié)合發(fā)動機研制業(yè)務(wù)系統(tǒng),形成常態(tài)化、自動化的知識資源轉(zhuǎn)化應(yīng)用模式,希望能為知識資源的快速復(fù)用提供高效技術(shù)手段,為新型液氧煤油發(fā)動機設(shè)計研制提供支撐。
液氧煤油發(fā)動機研制是一項復(fù)雜的系統(tǒng)工程,經(jīng)歷了較長時間的發(fā)展,產(chǎn)生了大量有關(guān)液氧煤油發(fā)動機研制設(shè)計的技術(shù)文檔、設(shè)計規(guī)范、基礎(chǔ)數(shù)據(jù)等資源,建立了較為完善的理論。這些資源分散存儲在不同的系統(tǒng)中且分類管理模式存在不同程度的差異,缺乏體系化管理,無法有效支撐液氧煤油發(fā)動機研制設(shè)計過程中的知識復(fù)用、創(chuàng)新。為有效管理這些資源,須對其進(jìn)行分類、抽象、建模處理。
1.1.1 全生命周期階段劃分知識分類
根據(jù)文獻(xiàn)[1-4]可對產(chǎn)品全周期和知識分類進(jìn)行處理。產(chǎn)品全生命周期是指產(chǎn)品從概念形式到回收的整個過程。按照產(chǎn)品全生命周期建模理論,可以將知識分為設(shè)計知識、制造知識、維護(hù)知識、回收知識等。
(1)設(shè)計知識。與產(chǎn)品設(shè)計過程相關(guān),包括設(shè)計方法、結(jié)構(gòu)設(shè)計知識等。
(2)制造知識。包括產(chǎn)品的BOM表、供應(yīng)商知識、材料采購知識、檢驗知識等。
(3)維護(hù)知識。和產(chǎn)品維護(hù)過程相關(guān)知識、包括故障知識、維護(hù)方法知識、維護(hù)成本知識等。
(4)回收知識。包括回收方法、回收成本知識。
1.1.2 知識表現(xiàn)形式的產(chǎn)品知識分類
基于文獻(xiàn)[5-7],可根據(jù)產(chǎn)品知識的表現(xiàn)形式,將產(chǎn)品知識分為文檔類產(chǎn)品知識、數(shù)據(jù)類產(chǎn)品知識、程序類產(chǎn)品知識、協(xié)同類產(chǎn)品知識。
(1)文檔類產(chǎn)品知識是以文檔為表現(xiàn)形式的產(chǎn)品知識,包括設(shè)計文檔、工藝文檔等。
(2)數(shù)據(jù)類產(chǎn)品知識是以數(shù)據(jù)為表現(xiàn)形式的產(chǎn)品知識,包括設(shè)計參數(shù)、工藝參數(shù)、制造參數(shù)等。
(3)程序類產(chǎn)品知識是以程序來描述產(chǎn)品知識,包括設(shè)計中的CAE程序、計算程序等。
(4)協(xié)同類產(chǎn)品知識是通過協(xié)同工具來獲得的產(chǎn)品知識,包括設(shè)計經(jīng)驗、工藝經(jīng)驗、維護(hù)經(jīng)驗等。
液氧煤油發(fā)動機知識有著專業(yè)技術(shù)性強、知識獲取途徑相對單一,規(guī)范化、結(jié)構(gòu)化程度不同等特點。根據(jù)發(fā)動機結(jié)構(gòu)組件類型可將液氧煤油發(fā)動機知識分為渦輪泵相關(guān)知識、推力室相關(guān)知識、閥門相關(guān)知識等。根據(jù)知識對象類型,液氧煤油發(fā)動機知識分為專業(yè)規(guī)范、設(shè)計文件、通用文件、基礎(chǔ)數(shù)據(jù)等。根據(jù)結(jié)構(gòu)化程度不同,液氧煤油發(fā)動機知識分為非結(jié)構(gòu)化知識(沒有特定格式的知識)、結(jié)構(gòu)化知識、半結(jié)構(gòu)化知識三類。
通過信息化手段對支撐相應(yīng)專業(yè)技術(shù)知識的資料進(jìn)行收集整理,對液氧煤油發(fā)動機在研制設(shè)計過程中應(yīng)用的專業(yè)技術(shù)資源有效、規(guī)范地梳理形成了液氧煤油發(fā)動機專業(yè)技術(shù)知識體系。該知識體系的資源包括:論文、期刊、設(shè)計圖、各類標(biāo)準(zhǔn)、設(shè)計規(guī)范、故障歸零及質(zhì)量分析報告、研試文件等,須進(jìn)行人工分類標(biāo)記。
在前述工作基礎(chǔ)上,構(gòu)建知識分類模型及自動分類標(biāo)記平臺(以下簡稱平臺),對這些資料進(jìn)行文檔特征提取及分類研究[8-11]。通過對知識所屬的專業(yè)分類、知識類別、專業(yè)技術(shù)分類、關(guān)鍵技術(shù)分類等進(jìn)行劃分,完成了基于不同分類的文檔知識的組織,實現(xiàn)新增技術(shù)成果的自動積累和分類標(biāo)記,可更高效地支撐研制經(jīng)驗規(guī)范傳承、輔助設(shè)計及知識重用。構(gòu)建的平臺包括:文檔管理模塊、分類模型管理模塊、文檔標(biāo)記模塊、詞庫管理、分類糾錯模塊等五部分功能模塊,五個模塊是平行并列關(guān)系,如圖1所示。
圖1 構(gòu)建的平臺組成結(jié)構(gòu)圖
基于文獻(xiàn)[12-13],將平臺與PDM系統(tǒng)(產(chǎn)品數(shù)據(jù)管理系統(tǒng))進(jìn)行集成,充分獲取液氧煤油火箭發(fā)動機研制過程積累的各類設(shè)計報告、分析報告等非結(jié)構(gòu)化形式的文檔資源并進(jìn)行存儲,也可將技術(shù)資料手動批量上傳。通過文檔批量特征將大量語義內(nèi)容作為數(shù)據(jù)資源進(jìn)行提取,再利用TF-IDF和Word2Vec等方法得到文檔語義特征,構(gòu)建基于語義的文檔分類模型,并整合到知識分類標(biāo)記系統(tǒng)中,以便對文檔數(shù)據(jù)進(jìn)行加工處理,利于液氧煤油發(fā)動機詞庫的生成與展示。
平臺設(shè)計與開發(fā)基于B/S架構(gòu),平臺可實現(xiàn)文檔的自助標(biāo)記分類,其總體框架如圖2所示。該系統(tǒng)在可測試性、可修改性、可靠性和可移植性等方面均可滿足需求,是穩(wěn)定可靠,擴展性強的文檔管理、模型托管、文檔標(biāo)記的綜合平臺。
圖2 系統(tǒng)總體框架圖
圖3所示為系統(tǒng)具體技術(shù)架構(gòu)圖。由圖3可知,該系統(tǒng)平臺的文檔批處理、分類模型訓(xùn)練、文檔自動標(biāo)注、詞庫可視化展示等功能以組件化實現(xiàn),便于后續(xù)擴展和系統(tǒng)對接。
圖3 系統(tǒng)具體技術(shù)架構(gòu)圖
以doc、docx、pdf(非圖片類型)等非結(jié)構(gòu)化文本類型的4萬多篇液氧煤油火箭發(fā)動機技術(shù)文件資料為樣本建立模型。通過模型的分類訓(xùn)練,最終可實現(xiàn)對文檔知識分類、專業(yè)分類、專業(yè)技術(shù)分類、關(guān)鍵技術(shù)分類標(biāo)記。文檔知識分類結(jié)果示于表1,專業(yè)分類結(jié)果示于表2,專業(yè)技術(shù)和關(guān)鍵技術(shù)分類結(jié)果示于表3。
表1 文檔知識分類
表2 專業(yè)分類
表3 專業(yè)技術(shù)與關(guān)鍵技術(shù)分類
文檔分類及自動標(biāo)記技術(shù)共涉及兩項關(guān)鍵技術(shù):文檔規(guī)則如何產(chǎn)生和文檔模型如何訓(xùn)練,即構(gòu)建先驗知識規(guī)則庫和卷積神經(jīng)網(wǎng)絡(luò)模型并對結(jié)構(gòu)特征文檔和內(nèi)容特征文檔進(jìn)行劃分。文檔劃分時先對簡單規(guī)則文檔進(jìn)行篩選分類,再對技術(shù)內(nèi)容的文檔采用內(nèi)容訓(xùn)練模型進(jìn)行劃分。這樣,一方面可加快模型的訓(xùn)練速度,另一方面可剔除部分干擾使得模型的準(zhǔn)確率更高。
2.2.1 關(guān)鍵技術(shù)一:先驗規(guī)則知識庫分類
影響文檔分類結(jié)果的主要因素是數(shù)據(jù)預(yù)處理效果和對規(guī)則特征分析的效果。數(shù)據(jù)預(yù)處理用來清洗數(shù)據(jù),去除干擾內(nèi)容,進(jìn)行分詞,方便分詞后對文檔結(jié)構(gòu)進(jìn)行分析,得到文檔的規(guī)則特征。再根據(jù)構(gòu)建的先驗規(guī)則知識庫是否與提取后的規(guī)則結(jié)構(gòu)特征相匹配進(jìn)行判斷,匹配成功即可依據(jù)先驗規(guī)則知識庫確定文檔的準(zhǔn)確分類[14-17]。同時,也可不斷迭代更新外部的先驗規(guī)則知識庫。
先驗規(guī)則知識庫分類技術(shù)具體包括以下幾個步驟:
(1)數(shù)據(jù)預(yù)處理,包括去停用詞,詞頻統(tǒng)計,單詞權(quán)重計算,分詞等;
(2)分詞后對文檔結(jié)構(gòu)進(jìn)行分析;
(3)提取文檔規(guī)則特征;
(4)與先驗規(guī)則知識庫匹配分類。
(2)凝汽器:凝汽器喉部焊縫;凝汽器汽側(cè)和熱井人孔門;凝汽器真空破壞門;凝汽器汽側(cè)和熱井空氣門、放水門;各真空泵進(jìn)、出口管路及閥門;凝汽器熱井至凝泵進(jìn)口管路,凝泵抽空氣管,凝泵軸端密封;凝汽器水幕噴水系統(tǒng)管路及閥門;凝結(jié)水再循環(huán)系統(tǒng)閥門;凝汽器檢漏裝置。
先驗規(guī)則知識庫分類如圖4所示。
圖4 先驗規(guī)則知識庫分類
2.2.2 關(guān)鍵技術(shù)二:文檔內(nèi)容訓(xùn)練模型分類
先驗規(guī)則知識庫分類技術(shù)具體包括以下幾個步驟:
(1)數(shù)據(jù)預(yù)處理,包括去停用詞,文本分詞,詞頻統(tǒng)計,單次權(quán)重計算與分詞等;
(2)文本向量化:從加權(quán)單詞向量轉(zhuǎn)化為文本向量;
(3)分類模型訓(xùn)練:將文本向量輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,訓(xùn)練分類模型參數(shù)。其中神經(jīng)網(wǎng)絡(luò)模型的實現(xiàn)基于TensorFlow與keras框架[18-20]。圖5所示為文檔內(nèi)容訓(xùn)練模型流程圖,圖6所示為神經(jīng)網(wǎng)絡(luò)訓(xùn)練示意圖。
圖5 文檔內(nèi)容訓(xùn)練模型流程
圖6 神經(jīng)網(wǎng)絡(luò)訓(xùn)練示意圖
(1)TensorFlow框架。TensorFlow是目前比較流行的深度學(xué)習(xí)框架,TensorFlow是采用數(shù)據(jù)流圖用于數(shù)值計算的開源軟件庫。流程圖中節(jié)點表示數(shù)學(xué)操作,圖中的線表示在節(jié)點間相互聯(lián)系的多維數(shù)據(jù)數(shù)組,即張量。TensorFlow靈活的架構(gòu)可在多種平臺上進(jìn)行計算。
先驗規(guī)則知識庫數(shù)據(jù)預(yù)處理,對先驗規(guī)則知識庫未能匹配的文檔進(jìn)行進(jìn)一步的訓(xùn)練劃分。文檔分類模型的訓(xùn)練效果,一個重要影響因素是人工標(biāo)注數(shù)據(jù)集的質(zhì)量,人工標(biāo)注數(shù)據(jù)的準(zhǔn)確性以及不同類別間數(shù)據(jù)的平衡性都將對分類結(jié)果造成很大影響。另一個重要影響因素是文檔特征提取,文本信息轉(zhuǎn)化為數(shù)值信息是特征轉(zhuǎn)化的一部分,當(dāng)數(shù)值信息能最大程度保留文本原始語義信息時,最終分類結(jié)果準(zhǔn)確率將明顯提高。
2.2.3 關(guān)鍵技術(shù)總結(jié)
綜合前述關(guān)鍵技術(shù)一和技術(shù)二即為平臺的總技術(shù)路線,即通過技術(shù)一對簡單規(guī)則文本進(jìn)行篩選過濾后,針對主要的報告內(nèi)容的目標(biāo)文本再采用內(nèi)容訓(xùn)練模型進(jìn)行劃分。這樣結(jié)合的優(yōu)點在于:一方面可以加快模型的訓(xùn)練速度;另一方面剔除部分干擾,將使模型準(zhǔn)確率也明顯提高。同時,模型還具備擴展性,對各類新增文檔都可以有效地選擇適合的技術(shù)路線進(jìn)行分類標(biāo)注。模型訓(xùn)練流程如圖7所示。模型的文檔批量分類標(biāo)記流程如圖8所示。
圖7 訓(xùn)練文檔模型流程圖
應(yīng)用以上兩項關(guān)鍵技術(shù)對設(shè)計文檔進(jìn)行語義的提取與建模,其中,語義提取中關(guān)鍵詞的提取及語義相似度的計算過程均在后臺進(jìn)行。在知識標(biāo)記過程中,通過對知識所屬的知識類別、專業(yè)分類、專業(yè)技術(shù)分類、關(guān)鍵技術(shù)分類等的劃分,構(gòu)建基于不同分類的文檔知識的組織結(jié)構(gòu)。
2.3.1 系統(tǒng)開發(fā)環(huán)境及使用工具
知識分類模型及自動分類平臺采用B/S架構(gòu),模型和平臺前后端均具有良好的兼容性。前端支持Google Chrome、Mozilla FireFox、Microsoft Edge等使用廣泛的瀏覽器,且支持HTTPS加密網(wǎng)絡(luò)傳輸協(xié)議。因設(shè)計采用了前端分離的開發(fā)模型,前端對后端不同類的框架均具有較好的兼容性。后端使用Python語言的Flask Web框架進(jìn)行開發(fā),數(shù)據(jù)庫使用主流的MySQL數(shù)據(jù)庫,Flask Web框架和MySQL數(shù)據(jù)庫均能很好地兼容Windows、Mac、Linux等主流操作系統(tǒng),與此同時,系統(tǒng)還對外提供標(biāo)準(zhǔn)API接口。
模型和平臺的軟件環(huán)境配置如表4所示。
表4 軟件環(huán)境配置表
2.3.2 系統(tǒng)主要模塊構(gòu)建及功能展示
(1)模型管理模塊。分類模型訓(xùn)練是一個復(fù)雜的,不斷迭代的過程。將訓(xùn)練好的分類模型進(jìn)行集中存儲管理,如圖9所示。
點擊“應(yīng)用模型”選擇需要使用的分類模型,再點擊“新建訓(xùn)練任務(wù)”,對任務(wù)內(nèi)容進(jìn)行填寫,填寫完成后即可開始新的模型訓(xùn)練,這有助完善分類模型,使得分類模型的準(zhǔn)確率更高。
(2)文檔管理模塊。文檔管理模塊對于系統(tǒng)獲取的非結(jié)構(gòu)化文檔資料進(jìn)行管理,管理的文檔屬性包括文檔編號、文檔標(biāo)題、文檔名稱、文檔版本、文檔類型等信息。同時,對于已經(jīng)進(jìn)行文檔分類標(biāo)記后的結(jié)果進(jìn)行存儲,并顯示文檔的文檔類型、所屬零組件類別、專業(yè)技術(shù)、關(guān)鍵技術(shù)等四類信息的標(biāo)記結(jié)果,如圖10所示(圖中涉密詞已抹去,下同)。
圖10 文檔管理界面
2.3.3 文檔標(biāo)記模塊
文檔標(biāo)記模塊可以對新獲取的非結(jié)構(gòu)化的文檔資料進(jìn)行批量分類標(biāo)記,文檔標(biāo)記結(jié)束后會有彈框提示,在右側(cè)當(dāng)前標(biāo)記區(qū)域可顯示標(biāo)記結(jié)果,如圖11所示。
圖11 文檔標(biāo)記模塊
系統(tǒng)可對標(biāo)記的歷史記錄進(jìn)行瀏覽或下載導(dǎo)出,方便管理人員使用,如圖12所示。
圖12 文檔標(biāo)記歷史記錄下載
2.3.4 詞庫管理模塊
通過分類模型的特征提取進(jìn)行數(shù)據(jù)的預(yù)處理,借助分詞結(jié)果構(gòu)建詞庫中的詞語數(shù)據(jù)源。對獲取的文檔中所包含的部分有實意詞語進(jìn)行統(tǒng)計與可視化顯示。
系統(tǒng)會在每日定時對新增文檔進(jìn)行分析,更新已有詞庫。進(jìn)入系統(tǒng)后,首先點擊左側(cè)導(dǎo)航欄“詞庫管理”按鈕進(jìn)入詞庫管理頁面,即可瀏覽系統(tǒng)中的詞庫數(shù)據(jù)。界面左側(cè)為系統(tǒng)中已有的關(guān)鍵詞數(shù)據(jù),按頻率由高到低的順序排列,并顯示了關(guān)鍵詞出現(xiàn)的頻數(shù)和關(guān)鍵詞的類別,右側(cè)為關(guān)鍵詞所組成的詞云,如圖13所示。
圖13 詞庫管理模塊
2.3.5 文檔知識分類糾錯模塊
該模塊基于已有帶標(biāo)簽文檔訓(xùn)練知識分類模型,利用得到的模型分析歷史文檔數(shù)據(jù),糾正錯誤標(biāo)簽。對于提供了手動人工標(biāo)注的數(shù)據(jù)源文檔,在其通過自動分類模型標(biāo)注后對比前后標(biāo)注情況,不同的標(biāo)注可以有效幫助對人工歷史標(biāo)記錯誤或者模型標(biāo)注錯誤的糾正,有利于知識常態(tài)化、規(guī)范化的積累和轉(zhuǎn)換應(yīng)用。文檔知識分類糾錯模塊如圖14所示。
圖14 分類糾錯模塊
知識分類模型及平臺與知識管理系統(tǒng)的集成,可實現(xiàn)一鍵登錄模式,在方便管理人員登錄查看、瀏覽知識分類標(biāo)記結(jié)果的同時,知識分類模型及自動分類標(biāo)記系統(tǒng)也實現(xiàn)了與PDM系統(tǒng)、知識管理系統(tǒng)之間集成,從數(shù)據(jù)源系統(tǒng)獲取各類技術(shù)文件資料(非結(jié)構(gòu)化文檔)自動進(jìn)行分類標(biāo)記存儲,構(gòu)建知識自動積累、轉(zhuǎn)換應(yīng)用機制,為知識的快速檢索及敏捷迭代設(shè)計提供有力支撐。圖15所示為系統(tǒng)集成的界面圖。
圖15 系統(tǒng)集成界面
對于液氧煤油發(fā)動機研制的文檔資料進(jìn)行分類標(biāo)記處理,模型的準(zhǔn)確率如表5所示。由表5可知,平臺穩(wěn)定有效,模型的分類標(biāo)記準(zhǔn)確率高于85%。
表5 液氧煤油發(fā)動機知識分類標(biāo)記驗證結(jié)果
應(yīng)用結(jié)果還表明,該模型和平臺能有效自動積累知識資源,形成常態(tài)化、自動化的知識積累機制。
采用自然語言處理技術(shù)提取文檔特征,運用規(guī)則知識庫與神經(jīng)網(wǎng)絡(luò)模型,對液氧煤油發(fā)動機文檔資料進(jìn)行知識分類處理,可實現(xiàn)新增技術(shù)成果所屬的專業(yè)分類、知識分類、專業(yè)技術(shù)分類、關(guān)鍵技術(shù)分類等維度的自動分類標(biāo)記,形成智能化、常態(tài)化知識資源自動積累機制。應(yīng)用結(jié)果表明,模型與平臺的穩(wěn)定性良好,準(zhǔn)確率比較高。未來將液氧煤油發(fā)動機知識分類模型、自動分類標(biāo)記平臺與MES系統(tǒng)、知識產(chǎn)權(quán)與專利成功管理系統(tǒng)等業(yè)務(wù)系統(tǒng)進(jìn)行系統(tǒng)集成,可對數(shù)據(jù)源進(jìn)行知識的抽取、自動標(biāo)記,構(gòu)建機器學(xué)習(xí)和深度學(xué)習(xí)模型,實現(xiàn)實體和實體分類識別的模型,將實體和實體關(guān)系進(jìn)行融合,形成知識點,對照液體火箭發(fā)動機專業(yè)設(shè)計規(guī)范,將知識點再次按以上步驟進(jìn)行訓(xùn)練學(xué)習(xí),形成專業(yè)知識條目庫,輔助研發(fā)人員開展設(shè)計工作,支撐研制經(jīng)驗規(guī)范傳承、知識成果有效重用和研發(fā)效率提升。