王宏君 陳建江 董正衛(wèi) 于紅艷
?
工程知識引擎的構成研究
王宏君1陳建江2董正衛(wèi)2于紅艷2
(1. 北京神舟航天軟件技術有限公司,北京 100094;2. 北京機電工程研究所,北京 100074)
根據企業(yè)對知識管理智能化服務的需求,引出工程知識引擎,它由知識標注、知識分類、知識關聯(lián)、知識評價、知識規(guī)劃和知識供應組成,主要處理領域知識、用戶行為和使用場景。講述了某企業(yè)知識管理從資產化到場景化,再到智能化的發(fā)展過程,以及利用知識引擎實現“合適的人,在合適的場景,獲取并利用到合適的知識”的智能化應用。最后,展望了隨著人工智能發(fā)展,工程知識引擎將會成為工作助手遠景。
知識引擎;知識標注;知識關聯(lián);知識評價;知識規(guī)劃;知識供應
隨著搜索引擎技術普及,搜索引擎走進企業(yè)已經成為趨勢,承擔起全企業(yè)信息搜索的業(yè)務功能。企業(yè)各業(yè)務系統(tǒng)都在積極地引入搜索引擎,處理信息搜索的業(yè)務。企業(yè)的工程知識管理業(yè)務也不例外,引入搜索引擎技術,用于工程知識的全文檢索。知識管理通過多年的發(fā)展,經歷了:開發(fā)專家系統(tǒng),固化成熟業(yè)務中知識;建立知識庫,匯集日常工作中產生和常用的知識資產;構建知識引擎,解決知識的來源問題和知識的應用問題[1]。目前,以知識引擎為核心的知識管理已經成為企業(yè)的知識管理的主流。在與企業(yè)客戶的交流過程中,企業(yè)經常問到“知識引擎是搜索引擎嗎”、“知識引擎是什么”等問題。
知識引擎(knowledge engine),通過知識標注、知識分類、知識關聯(lián)、知識評價、知識規(guī)劃和知識供應,將分散在企業(yè)各部門乃至各位員工腦中的知識、技能、訣竅、規(guī)則、經驗等各類信息組合成一個體現本企業(yè)專業(yè)特點的知識產品。
在知識管理的實踐中,大多數時間在回答這樣的問題,“知識怎么來”,“如何自動獲取知識”。在企業(yè)中,知識有兩個主要來源,一個是專家的頭腦,另一個是蘊含知識的文檔和三維模型。專家頭腦中的知識利用知識模板整理成工程經驗禁忌,收集在知識庫中;蘊含在文檔和三維模型中的工程知識,利用領域術語[3]以及術語之間的關系進行標注,并且對標注結果形成知識片段。知識片段[4]經過企業(yè)領域專家的評估,提升為企業(yè)工程知識。在這個過程中,自動獲取知識的手段顯得不可或缺。
知識標注是利用領域術語及術語關系對工程知識進行自動化的標記,見圖1。領域術語提供了該領域或者行業(yè)專業(yè)視角下的關注的重點。利用領域術語進行標注能夠揭示專業(yè)視角下文檔的語義,而多個領域術語能夠從多個專業(yè)聯(lián)合揭示和挖掘文檔的語義。在企業(yè)中,知識標注的主要對象是文檔和三維模型[5]。對文檔和三維模型的知識標注過程如下。
圖1 語義標注過程
文檔的文件格式主要有doc、docx、xls、xlsx、pdf、ppt、pptx等;文檔的內容主要以文字的信息為主。對于文檔的知識標注采用歸一化技術,將各種文件格式的文檔歸一化為文本形式,再利用領域術語分解文本內容,標識領域術語的位置,抽取含領域術語的語句,統(tǒng)計領域術語出現的頻率,關聯(lián)相關領域術語,并且形成標識記錄。標識記錄是知識標注的結果。
三維模型繪制的工具主要有Proe、UG等,圖紙的文件格式主要有prt、asm等,圖紙的內容主要以線框、屬性、材質、標注等信息為主。對于圖紙的知識標注采用step標準協(xié)議進行歸一化,再利用step原語分解歸一化的結果,標識出現的step原語的位置,并且關聯(lián)領域術語,最終生成標識結果。
在知識管理的實踐中,企業(yè)用戶提到一個共同的話題——知識分類問題?!捌髽I(yè)的知識框架如何建立”、“企業(yè)的知識脈絡如何梳理[6]”。在企業(yè)中,知識分類有兩種,一種是按照使用習慣組織知識[7],形成約定俗成的知識分類;另一種是對領域術語分成不同的意群,利于領域術語的所在意群,形成具有語義的知識分類。在知識引擎中領域術語意群是知識分類的基礎。
知識分類是根據企業(yè)的領域術語的標準或者詞典,把企業(yè)的全部知識按照相同、相異、相關等領域術語意群劃分成為不同類別的知識體系,以此顯示知識在知識體系中的位置和相互關系。
在知識引擎中,知識分類是以知識標注為基礎的。在知識標注生成的標識文件中,標識了領域術語之間的關聯(lián)關系,使知識按照領域術語意群分類成為可能。知識引擎在進行知識分類時,參照領域術語的意群劃分,按照領域術語關聯(lián)關系完成知識分類。
在知識管理實踐中,尋找知識關聯(lián)、標識知識關聯(lián)貫穿知識活動的始終。企業(yè)用戶經常提到,“如何找到其他人完成這類工作的經驗禁忌”,“別人是這么做的”。在企業(yè)中,知識關聯(lián)主要有兩種形式,一種是關鍵詞關聯(lián),通過領域術語建立知識之間關聯(lián);另一種是知識應用場景關聯(lián),在相同、相似的工作中,完成工作用到的關聯(lián)知識。在知識引擎中,兩種關聯(lián)方式都被采用,或者單獨應用,或者組合應用。
知識關聯(lián)是知識與知識之間以領域術語、應用場景為紐帶,建立起來的具備參考價值的關聯(lián)關系;也是領域術語標識的文獻知識載體、領域術語之間存在的各種關系的總和[9]。
在知識引擎中,關鍵詞關聯(lián)基于知識分類,以知識內容中的領域術語為關聯(lián)紐帶,對含有相同領域術語的知識建立關聯(lián)關系。場景關聯(lián)以知識評價為基礎,通過對知識使用者的行為記錄、分析,發(fā)現用戶行為之間的關聯(lián)性、連續(xù)性,從而推測出用戶所運用的知識間的關聯(lián)性。
用戶使用知識的行為是用戶尋找知識解決工程問題的軌跡記錄,充分體現用戶的知識需求,所以用戶行為數據也屬于一種知識,是與業(yè)務知識并存的另一類知識,記錄用戶行為也屬于知識管理的范疇。在知識管理的實踐中,總是有人詢問“一條知識的使用率是多少”,“知識的有效性怎么表達”。知識評價依據來源于對用戶行為的分析結果。用戶訪問數量體現一條知識的有效性,用戶訪問數量大的知識比用戶訪問數量小的知識有效性高。
評價通常是指對一件事或人物進行判斷、分析后得出指導性的結論。知識評價是對用戶行為進行記錄、分析、綜合后,形成對知識項價值大小的結論,也形成對用戶知識需求的預測性結論?;痉椒ㄊ峭ㄟ^多個方面,選擇多個指標,并根據各個指標的不同權重,進行綜合評價。一般的,不同的指標執(zhí)行不同的標準或者算法。
在知識引擎中,知識評價實現用戶行為數據記錄、分析和綜合,也要實現業(yè)務系統(tǒng)日志數據同步、篩選、補充、分析和綜合。在業(yè)務系統(tǒng)日志記錄的基礎上,通過知識引擎的評價算法篩選、補充、分析和綜合,定時增量處理數據,生成知識、人員的評價指標數值。這些指標數值是知識規(guī)劃的依據。
在知識管理實踐中,總是有人問,“我能在這個場景下獲得合適的知識幫助嗎”,“在這個場景中能夠幫我找到別人做過的案例嗎”。在企業(yè)中,計劃人員在編制工作計劃或者審批任務,研發(fā)人員在研制新產品或者溝通產品中問題,生產人員在編寫工藝規(guī)程或者處理生產故障等。這些場景有關聯(lián)的制度、流程、模板、以往的類似任務、相關專家等。知識規(guī)劃是利用規(guī)劃算法將使用場景與領域知識、評價指標連接起來。
知識規(guī)劃是知識場景化和智能化的處理過程,即“合適的人,在合適的場景,獲取并利用到合適的知識”的過程[13]。知識規(guī)劃是一條連接輸入條件與輸出結果的知識路徑,利用一套策略貫穿從輸入到輸出的領域知識,并且參照知識、人員的評價指標,給出一套或者多套符合工作場景的參考知識和評價數據,供知識使用者選擇使用。
圖2 知識規(guī)劃過程
在知識引擎中,知識規(guī)劃把知識使用者的興趣需求信息和知識的特征信息匹配,同時使用相應的規(guī)劃算法進行計算篩選,找到知識使用者可能感興趣的知識對象。知識規(guī)劃從工作場景中獲取上下文信息,確定輸入條件與輸出結果;根據預先設定的策略,建立輸入與輸出之間的路徑;以預置的工作場景知識為基礎,再疊加根據預設邏輯自動從知識倉庫中篩選到相關知識;再參考知識和知識使用者的評價指標,對工作場景的關聯(lián)知識篩選過濾,挑選出評級前三名或者前十名的知識規(guī)劃方案,與評價數據整合緩存到數據庫中。如圖2所示。
在知識管理實踐中,有人問“能否供應知識到工作桌面”,“能否按照規(guī)范、工具和實例等形式供應知識”。企業(yè)工作人員在工作中,大量的時間在查找資料、實例等參考資料,尋找解決問題的途徑和完成工作的資源。企業(yè)員工需要,能夠供應知識到工作桌面,并且按照要求分類的知識產品,指導工作人員順利、快捷地完成工作。
知識供應(knowledge supply)是以滿足知識使用者需求為導向,為知識使用者提供知識化產品的過程。知識使用者在任何時間任何地方能夠得到所需要的任何知識化產品(或者知識包)。
在知識引擎中,知識供應是將知識規(guī)劃的知識點和知識使用者的匹配信息,封裝為知識產品,供應給最終知識使用者[12],滿足知識使用者的需求,解決面臨的問題。知識產品是知識使用者日常工作中經常熟悉的知識載體,例如規(guī)范、標準、案例等。
通過知識管理的實踐,對知識引擎的認識逐步加深。剛開始對工程知識構成認識不清晰,對知識引擎與搜索引擎的界線認識模糊,混淆兩個引擎之間的關聯(lián)與差異。當認識到工程知識包括領域知識、用戶行為和使用場景時,知識引擎與搜索引擎的關系也逐漸明確了。知識引擎與搜索引擎既有關聯(lián)又有差異,搜索引擎是知識引擎的基礎,為知識引擎提供輸入數據的功能;知識引擎與領域知識、用戶行為、使用場景有關。緊接著遇到知識在哪里、用戶行為在哪里、使用場景在哪里的問題。領域知識、用戶行為和使用場景知識引擎處理對象。領域知識蘊含在企業(yè)構建的業(yè)務平臺的數據庫和電子倉庫中;用戶行為存儲在業(yè)務平臺的日志數據庫中;使用場景發(fā)生在業(yè)務平臺的使用過程中。最后需要解決知識引擎從業(yè)務系統(tǒng)獲取領域知識、用戶行為和使用場景。通過搜索引擎將業(yè)務平臺中領域知識內容、用戶行為歸一化,輸入知識引擎。知識引擎對領域知識內容進行知識標注、知識分類、知識關聯(lián);對用戶行為利用評價算法,通過篩選、分析和綜合等方式生成評價指標。知識引擎通過使用場景采集器,分析使用場景信息,規(guī)劃使用場景中使用的領域知識,以及這些領域知識曾經發(fā)生過哪些用戶行為。知識引擎將規(guī)劃完成的知識產品供應給應用場景下的使用者。如圖3所示。還有,知識引擎需要考慮大數據量的處理效率,例如通過集群提升知識引擎的使用效率等。
圖3 知識引擎實踐
航天某企業(yè)工程知識管理項目規(guī)劃了三個目標:建立知識庫,實現知識資產管理;梳理作業(yè)指導書,實現知識應用場景管理;通過工程知識引擎,實現知識智能化應用。目前,某企業(yè)已經實現知識資產化、知識場景化,正在構建工程知識引擎實現知識智能化應用。企業(yè)需要工程知識引擎為具體的工作場景推送知識,幫助工程師迅速、便捷的完成作業(yè)任務。由于工程知識引擎在知識庫、知識場景和用戶行為的信息基礎上運行,因此企業(yè)首先建立領域知識庫、知識場景信息庫和用戶行為信息庫。企業(yè)完成知識資產化、場景化建設工作后或者建設到一定程度,就會具備開展知識智能化應用的基礎條件。在某企業(yè),建立工程知識庫,容納知識13000多條;接入外部知識庫7個,數據容量10TB左右,數據流動性優(yōu)良。建立了知識場景庫,管理作業(yè)流程、交流信息、專家網絡等場景。建立用戶行為信息庫,記錄業(yè)務系統(tǒng)中用戶行為。在此基礎上,某企業(yè)正在建設工程知識引擎,開展知識智能化應用的工作。
在人工智能飛速發(fā)展的今天,知識管理的智能化應用會飛速發(fā)展,充分發(fā)揮機器的數據處理能力,利用機器學習技術分析全企業(yè)產品研發(fā)過程中產生的數據和信息,提取知識片段,梳理知識分類,建立知識關聯(lián),增強知識智能化應用。智能化的知識引擎將會普遍應用到全部信息化軟件系統(tǒng)中,為工程師提供知識支持,幫助工程師自動完成作業(yè)任務,或者部分作業(yè)任務。
1 王宏君,余旭,敬石開. 統(tǒng)一面向產品全生命周期的知識應用體系研究[J]. 信息技術,2014(9):29~32
2 李鵬. 多領域視角下的知識標注研究與實踐[J]. 情報工程,2016(1):103~108
3 張繼東. 基于本體的數字檔案館動態(tài)知識與相對知識標注研究[J]. 情報科學,2011(9):1331~1334
4 郭喜躍,何婷婷. 信息抽取研究綜述[J]. 計算機科學,2015(2):14~17
5 胡旭潔,侯永柱,劉繼紅. 三維模型知識標注技術研究與實現[J]. 計算機集成制造系統(tǒng),2017(4):695~700
6 張曉玲,宋娟,馬文敏,等. 企業(yè)職能部門業(yè)務工作知識梳理實踐[J]. 航天工業(yè)管理,2017(4):58~60
7 陳洪瀾.論知識分類的十大方式[EB/OL]. [2012-08-08]. http://blog.sina.com.cn/s/blog_49f7ab1801018m9d.html
8 文庭孝,龔蛟騰,張蕊,等. 知識關聯(lián):內涵、特征與類型[J]. 圖書館,2011(4):32~35
9 360百科.知識關聯(lián)[EB/OL].[2015-01-27]. https://baike.so.com/doc/8168090-8485078.html.
10 王曉東,張巍,劉洋,等. 中國運載火箭技術研究院知識管理實踐與思考[J]. 航天工業(yè)管理,2017(4):4~10
11 智庫百科.知識供應鏈模型[EB/OL].[2009-02-11]. http://wiki.mbalib.com/wiki/%E7%9F%A5%E8%AF%86%E4%BE%9B%E5%BA%94%E9%93%BE%E6%A8%A1%E5%9E%8B
12 王宏君,藺娜,鬲玲,等. 工程知識管理系統(tǒng)模型研究[J]. 航天制造技術,2015(3):56~59
13 楊曉玲.個性化知識推薦實現知識“找”人[EB/OL]. [2014-02-27]. http://software.it168.com/a2014/0227/1597/000001597415.shtml
Research on the Composition of Engineering Knowledge Engine
Wang Hongjun1Chen Jianjiang2Dong Zhengwei2Yu Hongyan2
(1. Beijing Shenzhou Aerospace Software Technology Co. Ltd, Beijing 100094; 2.Beijing Institute of Mechanical and Electrical Engineering, Beijing 100074)
According to the demand of enterprises for intelligent service of knowledge management, this paper leads to engineering knowledge engine, which consists of knowledge annotation, knowledge classification, knowledge association, knowledge evaluation, knowledge planning and knowledge supply. It mainly deals with domain knowledge, user behavior and usage scenarios. Then, it tells the development process of an enterprise's knowledge management from asset-based to scene-oriented to intelligent, as well as the intelligent application of using knowledge engine to realize "the right people, get and use the right knowledge in appropriate scenarios" . Finally, it is envisioned that with the development of artificial intelligence, engineering knowledge engine will become our work assistant.
knowledge engine;knowledge labeling;knowledge association;knowledge evaluation;knowledge planning;knowledge supply
航天重大裝備創(chuàng)新研制工程知識管理技術研究與應用(2015BAF18B01);面向全生命周期的飛航武器系統(tǒng)數字化綜合集成及協(xié)同應用(A0420131501)。
王宏君(1972),碩士,信息處理專業(yè);研究方向:知識管理、可制造性分析、故障預測。
2017-07-12