■ 李昌紅 何為 孫明霞 / 中國航發(fā)動力所
(李昌紅,中國航發(fā)動力所,高級工程師,主要從事研發(fā)體系相關(guān)工作)
航空發(fā)動機研發(fā)需要有目的、有計劃、有組織地挖掘互聯(lián)網(wǎng)的新技術(shù)、新動態(tài)和新成果,經(jīng)處理、分析后提供定制化的具有先進性、預(yù)測性和前瞻性的知識數(shù)據(jù),為發(fā)動機研制趨勢對比、建模、新產(chǎn)品開發(fā),以及關(guān)鍵技術(shù)突破提供數(shù)據(jù)支撐。
站在巨人的肩膀上創(chuàng)新研發(fā)是這個時代的主題,任何組織封閉自己、閉門造車終將被淘汰。向發(fā)動機研發(fā)人員提供面向全球的知識化環(huán)境,離不開先進的外部知識數(shù)據(jù)和精準情報。為實現(xiàn)發(fā)動機研發(fā)所需知識數(shù)據(jù)的采集、存儲、分析與利用,與時俱進地滿足多樣化、高效化、個性化、專深化的用戶要求,更好地為管理決策、科研攻關(guān)、科研保障建設(shè)提供決策支撐和技術(shù)引領(lǐng),開展基于互聯(lián)網(wǎng)數(shù)據(jù)的航空發(fā)動機研發(fā)知識數(shù)據(jù)挖掘與應(yīng)用至關(guān)重要。
發(fā)動機研制過程是一項復(fù)雜的系統(tǒng)工程,涉及學(xué)科、領(lǐng)域眾多,對先進知識和技術(shù)需求強烈,我國發(fā)動機研制水平與世界先進水平還存在差距,需要學(xué)習(xí)、借鑒行業(yè)內(nèi)的前沿技術(shù)。通過互聯(lián)網(wǎng)獲取的知識數(shù)據(jù),經(jīng)提煉總結(jié)形成研發(fā)體系指導(dǎo)性文件,可以實現(xiàn)外部知識內(nèi)部化,內(nèi)部知識體系化,支撐研發(fā)流程活動高效運行,為研發(fā)人員提供工作指導(dǎo),為研發(fā)過程中疑難問題提供解決途徑,為模型、仿真優(yōu)化提供數(shù)據(jù)支撐,提升組織的研發(fā)能力,如圖1所示。面向部門業(yè)務(wù)需求,通過立足互聯(lián)網(wǎng)數(shù)據(jù)相關(guān)技術(shù),構(gòu)建基于各業(yè)務(wù)主題的互聯(lián)網(wǎng)數(shù)據(jù)挖掘、處理、應(yīng)用等方法及工具,可以實現(xiàn)知識伴隨流程的存儲、積累和應(yīng)用,有效支撐發(fā)動機研制。
圖1 互聯(lián)網(wǎng)知識數(shù)據(jù)在發(fā)動機研制中的作用
依據(jù)發(fā)動機研制技術(shù)樹,分析相關(guān)技術(shù)對互聯(lián)網(wǎng)數(shù)據(jù)的需求,提出數(shù)據(jù)獲取、挖掘的專題清單并進行專題跟蹤、挖掘。按主題分類管理,以樹形結(jié)構(gòu)管理主題類型,可以同時創(chuàng)建多個采集主題類型,實現(xiàn)按主題分類的建立、修改、刪除及瀏覽等功能。對每項主題可以實現(xiàn)跟蹤條件配置、跟蹤啟動、主題重命名及刪除等管理功能。利用搜索引擎對一定范圍的網(wǎng)站內(nèi)容進行定期的自動采集和挖掘。針對某一具體站點內(nèi)容更新的規(guī)律,可以設(shè)置網(wǎng)頁內(nèi)容自動跟蹤挖掘的周期。
互聯(lián)網(wǎng)數(shù)據(jù)挖掘、處理過程中,為更好地滿足發(fā)動機研發(fā)中的使用需求,須實現(xiàn)多種功能:能夠挖掘、分析多種常用國家語言,支持多種編碼識別與轉(zhuǎn)換,支持各種常用文檔格式的識別與下載,能自動過濾同一文檔的不同格式;對于有表格、圖片、視頻以及音頻等非文本信息的網(wǎng)頁,能夠連同網(wǎng)頁中的其他文本信息一起被識別與下載,下載后應(yīng)保持原有的文檔結(jié)構(gòu)與順序不變;能夠?qū)崿F(xiàn)附件分類挖掘,包括文檔、圖片、多媒體、2D/3D以及壓縮包等;實現(xiàn)網(wǎng)頁去噪,將垃圾及無關(guān)信息過濾。
對指定網(wǎng)站和欄目進行定點、定期的自動挖掘,實現(xiàn)站點的配置管理。以樹形結(jié)構(gòu)管理新聞?wù)军c分類,可實現(xiàn)站點新建、重命名、刪除等操作;實現(xiàn)挖掘規(guī)則設(shè)置,對具體的某個站點進行管理,設(shè)置自動下載的匹配規(guī)則,包括常規(guī)設(shè)置、采集頁面規(guī)則、翻頁規(guī)則等。
圖2 數(shù)據(jù)屬性分類
挖掘后的互聯(lián)網(wǎng)數(shù)據(jù),經(jīng)過處理、加工,變成發(fā)動機研制可用、好用的知識數(shù)據(jù),提供給設(shè)計人員,進行定制的個性化匹配,具體可以包括以下幾個方面。
第一,挖掘到的互聯(lián)網(wǎng)知識數(shù)據(jù),根據(jù)匹配的專題,按照特定的維度在知識管理平臺進行存儲、管理,對獲取的互聯(lián)網(wǎng)知識數(shù)據(jù)進行多維度的分類,如按設(shè)計過程、數(shù)據(jù)類型和研制階段等,如圖2所示。根據(jù)分類情況,實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)挖據(jù)結(jié)果的自動歸類、屬性定義等。屬性信息還須包括標題、作者、來源、時間和大小等。
第二,去重加工。設(shè)置一個文章信息相似度,根據(jù)對文檔標題和內(nèi)容的分析判斷,能夠自動去除高相似度的文章。
第三,精準判定。采用基于學(xué)習(xí)訓(xùn)練的方法或基于規(guī)則的方法將采集到的數(shù)據(jù)信息自動歸到已有的分類體系中,也可進行手工歸類調(diào)整。一篇文檔可被歸到多個類目下。
第四,自動關(guān)聯(lián)。根據(jù)對文檔內(nèi)容的理解,自動將內(nèi)容相似的文檔建立鏈接,當用戶查看每篇文檔時,在原文下方會顯示與本文檔內(nèi)容相似的其他文檔信息;當用戶用鼠標選擇某句或某段文字時,系統(tǒng)自動呈現(xiàn)與之相關(guān)的文檔。
第五,聚類挖掘??梢詫Ξ斍盎蚰骋粫r段內(nèi)的相關(guān)信息按內(nèi)容相似性進行聚類,自動生成類別的標題、主題或關(guān)鍵詞,以適當方式展示聚類結(jié)果,聚類的范圍與主題可以自行定義。
第六,自動摘要。通過對文檔全文的分析,自動提煉出關(guān)鍵詞與摘要。關(guān)鍵詞與摘要能反映文檔的主要意思,組成摘要的句子應(yīng)規(guī)范可讀。
第七,文檔中結(jié)構(gòu)化信息的自動抽取。自動識別并抽取文檔中的圖表和結(jié)構(gòu)化數(shù)據(jù),如設(shè)計數(shù)據(jù)、交付量、訂單、價格、企業(yè)領(lǐng)導(dǎo)姓名、相關(guān)時間、地點等,并存儲到相關(guān)的數(shù)據(jù)庫中,并且建立數(shù)據(jù)與原文檔的關(guān)聯(lián)。
圖3 趨勢對比分析
圖4 互聯(lián)網(wǎng)知識數(shù)據(jù)在發(fā)動機研發(fā)中的應(yīng)用
通過建立知識矩陣和魔方,實現(xiàn)多維度的分析,包括相似關(guān)系分析、時空關(guān)系分析和組合關(guān)系分析。開展專利趨勢分析、分布分析、機構(gòu)分析和人物分析等。
為直觀有效地把控全局,需要實現(xiàn)可視化分析,并具備多種視角以及動態(tài)可視化展現(xiàn)功能,方便直觀查看數(shù)據(jù)結(jié)果。數(shù)據(jù)分析應(yīng)能通過數(shù)據(jù)線條、大小、顏色反映數(shù)據(jù)變化趨勢并實現(xiàn)點、曲線圖、柱狀圖、餅圖、云圖等對比分析,可以在曲線上進行標識/標記,繪制兩個數(shù)據(jù)之間的關(guān)系,如圖3所示。
經(jīng)挖掘、處理后的互聯(lián)網(wǎng)數(shù)據(jù),結(jié)合信息化手段開展應(yīng)用:實現(xiàn)數(shù)據(jù)信息的檢索,包括一鍵式檢索、分類瀏覽檢索、關(guān)鍵詞檢索、字段檢索、句子檢索、全文檢索等;實現(xiàn)搜索導(dǎo)航功能,根據(jù)關(guān)鍵詞內(nèi)容,實時自動生成相關(guān)搜索建議,并以樹狀結(jié)構(gòu)來展現(xiàn),幫助找到更相關(guān)的搜索結(jié)果。在一次檢索結(jié)果基礎(chǔ)上,可進一步用關(guān)鍵詞檢索、字段檢索等方式進行限制檢索。檢索中的每一條信息均顯示標題、日期、來源、相關(guān)度以及自動摘要,可選擇按日期、相關(guān)度或文檔類型等方式排列檢索結(jié)果。在檢索結(jié)果列表或結(jié)果頁面中,對標題、摘要以及正文中出現(xiàn)的檢索詞進行突出顯示。
互聯(lián)網(wǎng)挖掘的知識數(shù)據(jù)經(jīng)提煉、總結(jié)形成體系指導(dǎo)性文件,根據(jù)流程活動、職位通道、關(guān)鍵詞等進行知識數(shù)據(jù)的自動推送,通過與專業(yè)設(shè)計系統(tǒng)接口的連接,為相關(guān)專業(yè)系統(tǒng)技術(shù)活動提供有效支撐,用于指導(dǎo)發(fā)動機的研發(fā)、制造、運行維護等全過程,如圖4所示。
在互聯(lián)網(wǎng)時代,航空發(fā)動機研制需利用互聯(lián)網(wǎng)技術(shù),獲取和挖掘前沿、動態(tài)的互聯(lián)網(wǎng)信息,匹配定制的專題云,將獲取的信息整理、分類、定制化推送給研發(fā)人員,不斷沉淀和積累出大量優(yōu)質(zhì)知識,實現(xiàn)外部知識內(nèi)部化,為發(fā)動機研制提供好用、可用的知識數(shù)據(jù)。