◎北京航天長征飛行器研究所 王錦程 王剛 謝雷 楊寧
當(dāng)前,技術(shù)文檔與操作規(guī)程是航天型號科研生產(chǎn)的主要知識載體,是知識傳承的主要媒介,但隨著文檔與規(guī)程的越來越多及內(nèi)容的不斷細化,導(dǎo)致學(xué)習(xí)難度增加。在網(wǎng)絡(luò)學(xué)習(xí)模式中,知識的組織單位是文檔,組織方式是超鏈接,而文檔內(nèi)的知識組織依舊采用線性排列方式。這種繼承于傳統(tǒng)紙介質(zhì)的知識組織方式很難顯示知識單元間的內(nèi)在關(guān)聯(lián),也無法實現(xiàn)海量設(shè)計資源的語義描述,很容易產(chǎn)生認(rèn)知過載與迷航問題。
知識地圖可以用知識單元為頂點,知識單元之間的語義關(guān)聯(lián)關(guān)系為邊來描述知識內(nèi)部結(jié)構(gòu),是當(dāng)前海量網(wǎng)絡(luò)資源語義描述的主要工具。其中,知識單元是指具有完備表達能力的基本知識單位,如定義、定理、算法等;學(xué)習(xí)依賴關(guān)系是一類語義關(guān)聯(lián)關(guān)系,表現(xiàn)為在學(xué)習(xí)某項知識單元之前必須掌握的前提知識。
目前,對于知識地圖構(gòu)建中知識單元及其學(xué)習(xí)依賴關(guān)系的挖掘,國內(nèi)外還缺少針對性的研究,但對于文本中概念、實體等類型對象及其之間關(guān)聯(lián)關(guān)系的挖掘,人們已在Ontology Learning、KAT(Knowledge Acquisition from Text)、RDC(Relation Detection and Characterization)等方面開展了大量研究,提出了基于模板、聚類及分類等的挖掘方法。然而,這些方法還是很難解決知識地圖的構(gòu)建問題,原因包括以下2點。
首先,知識單元是對某個具體術(shù)語的語義注釋說明,是一個文檔片段,其核心術(shù)語是“潛藏”在文檔片段內(nèi)的,且一個知識單元前后通常都存在著大量輔助性說明的文字片段。因此,對知識單元挖掘的關(guān)鍵技術(shù)是核心術(shù)語抽取和語義邊界識別,但目前還沒有可借鑒的方法來自動識別。
其次,學(xué)習(xí)依賴關(guān)系是導(dǎo)航查詢的依據(jù),揭示的是知識在知識單元之間被繼承和發(fā)展的內(nèi)在關(guān)系,完全有別于術(shù)語之間或文檔之間現(xiàn)有的各種語義關(guān)聯(lián)關(guān)系。
筆者通過分析知識地圖的部分網(wǎng)絡(luò)特性,提出了一種挖掘知識單元和學(xué)習(xí)依賴關(guān)系的方法框架。
由于航天技術(shù)文檔與操作規(guī)程的不宜公開性,筆者選擇了目前已經(jīng)公開發(fā)布的數(shù)據(jù)集進行研究。試驗數(shù)據(jù)集包含平面幾何、C語言、Java語言、操作系統(tǒng)、計算機網(wǎng)絡(luò)、計算機系統(tǒng)結(jié)構(gòu)、計算機組成原理、數(shù)據(jù)結(jié)構(gòu)等8門課程的知識地圖,其中包括知識單元14,838個,學(xué)習(xí)依賴關(guān)系48,459個。
筆者通過對試驗數(shù)據(jù)集的分析,得出知識地圖的4項特性。
一是小世界性。統(tǒng)計知識地圖的聚集系數(shù)和平均最短路徑長度,并與同規(guī)模的隨機網(wǎng)絡(luò)對應(yīng)參數(shù)進行比較發(fā)現(xiàn):知識地圖的聚集系數(shù)遠大于隨機網(wǎng)絡(luò),而平均最短路徑則與之相近,這說明知識地圖具有小世界性,意味著知識地圖上任意2個知識單元之間只需要經(jīng)過非常有限的中間知識單元就可以連通。因此,學(xué)習(xí)以依賴關(guān)系描述的知識地圖具有克服認(rèn)知迷航的功能。
二是無尺度性。知識單元關(guān)聯(lián)度表現(xiàn)出明顯的冪律分布:P(k)~k-γ, 其 中k表示知識單元關(guān)聯(lián)度、γ表示度分布系數(shù)。這一公式說明知識地圖具有無尺度特性,存在著一批關(guān)聯(lián)度非常大的知識單元會直接影響學(xué)習(xí)效能。另外,還發(fā)現(xiàn)在已研究過的無尺度網(wǎng)絡(luò)中,絕大部分的度分布系數(shù)大于2,而知識地圖的度分布系數(shù)卻小于2,這說明知識地圖上知識單元的重要程度分布相對比較均勻。
三是學(xué)習(xí)依賴局部性。在定義了任意2個知識單元之間距離的基礎(chǔ)上,筆者對其中的學(xué)習(xí)依賴關(guān)系數(shù)量分布進行統(tǒng)計后發(fā)現(xiàn):知識地圖中的學(xué)習(xí)依賴關(guān)系趨向于距離比較小的知識單元之間,這一特性稱為學(xué)習(xí)依賴局部性。
四是領(lǐng)域術(shù)語分布的不對稱性。利用術(shù)語分布的不對稱性,可發(fā)現(xiàn)主題接近的2個文本中知識單元是否存在學(xué)習(xí)依賴關(guān)系。
根據(jù)領(lǐng)域術(shù)語分布的不對稱性,筆者提出了一種知識單元挖掘框架,分為4步。
首先是預(yù)處理。將領(lǐng)域本體中的各種關(guān)聯(lián)關(guān)系轉(zhuǎn)換為術(shù)語之間的學(xué)習(xí)依賴關(guān)系,生成有向性術(shù)語級知識地圖。
其次是候選知識單元挖掘。以有向性術(shù)語級知識地圖為參照,生成知識單元的語義框架,從文本集中挖掘包含某知識單元的語義框架的自然段作為對應(yīng)的候選知識單元。
再次是核心術(shù)語挖掘。從候選知識單元包含的術(shù)語集中識別出相對層次最高的領(lǐng)域術(shù)語作為候選知識單元的核心術(shù)語。
最后是知識單元識別。使用計算候選知識單元中每個句子和連續(xù)句子塊的核心術(shù)語語義相似度來確定知識單元的起始句和下邊界。
根據(jù)知識地圖的學(xué)習(xí)依賴局部性和領(lǐng)域術(shù)語分布的不對稱性,筆者提出了如圖1所示的學(xué)習(xí)依賴關(guān)系挖掘框架。文本關(guān)聯(lián)挖掘通過文本聚類找到具有相同或相近主題的文檔,根據(jù)術(shù)語分布的不對稱性構(gòu)建文檔關(guān)聯(lián)對。候選知識單元對挖掘根據(jù)文檔中的學(xué)習(xí)依賴局部性生成候選知識單元對。學(xué)習(xí)依賴關(guān)系識別根據(jù)候選知識單元對的詞頻、距離和語義類型等屬性來識別學(xué)習(xí)依賴關(guān)系。
知識地圖的知識管理與組織方式能夠有效提高知識獲取的效率,減少知識查詢過程中的時間消耗。目前,在航天型號研制與日常工作管理中產(chǎn)生了大量的設(shè)計文檔與管理規(guī)程等資料,這些資料對型號的研制及知識的傳承意義重大,但大量的文檔卻容易讓設(shè)計與管理人員難于高效地找到所需資料?;谶@種情況,采用以知識地圖為指導(dǎo)、以實際文檔為內(nèi)容的學(xué)習(xí)模式能夠有效提高工作和學(xué)習(xí)效率。
以飛行器設(shè)計為例,大學(xué)畢業(yè)生若要成長為合格的總設(shè)計師,需要掌握各類知識,這些知識互相依賴,形成龐大的知識網(wǎng)絡(luò),而各類知識之間又互相影響,如結(jié)構(gòu)設(shè)計的結(jié)果影響著飛行器的動力學(xué)特性,動力學(xué)特性進而又影響飛行器的控制。由于飛行器設(shè)計知識之間的相關(guān)性,學(xué)習(xí)這些知識時,先學(xué)什么、后學(xué)什么,什么知識需要串行學(xué)習(xí),什么知識可以并行學(xué)習(xí),需要有一定的邏輯層次關(guān)系,只有掌握清晰的學(xué)習(xí)思路,才能夠取得高效學(xué)習(xí)的效果。傳統(tǒng)的樹狀知識結(jié)構(gòu)難以充分反應(yīng)知識之間的關(guān)聯(lián)性,更無法體現(xiàn)出相關(guān)知識之間關(guān)聯(lián)關(guān)系的含義,使知識的表達缺失很多重要因素,為知識學(xué)習(xí)增加了難度。而知識地圖不僅能充分體現(xiàn)知識之間的關(guān)聯(lián)關(guān)系,還能進一步體現(xiàn)出關(guān)系的類型、關(guān)系的指向性,更適合幫助學(xué)習(xí)者深入理解知識內(nèi)涵,快速掌握學(xué)習(xí)目標(biāo)。
圖1 學(xué)習(xí)依賴關(guān)系的挖掘流程
采用知識地圖能夠?qū)⑿吞柕姆窒到y(tǒng)和專業(yè)形成層次鮮明且關(guān)系清晰的組織形式,并以知識單元及其之間的關(guān)聯(lián)關(guān)系為媒介將文檔有機地組織起來。
一般說來,設(shè)計文檔通常以專業(yè)進行劃分歸類,這就自然而然地形成了文本聚類。專業(yè)之間的關(guān)聯(lián)性與專業(yè)術(shù)語的不對稱性又能將文檔聯(lián)系起來形成文檔關(guān)聯(lián)對。因此,從指標(biāo)X來看,文檔B有指向文檔A的關(guān)聯(lián)關(guān)系。另外,文檔內(nèi)部知識之間存在非串行的關(guān)系,但總的來說,同一文檔中位置靠后出現(xiàn)的知識依賴于已經(jīng)出現(xiàn)過的知識?;谶@些特性,每個文檔內(nèi)部形成局部知識地圖,再根據(jù)文檔間的關(guān)聯(lián)關(guān)系,形成整個型號的知識地圖。
設(shè)計人員在瀏覽知識地圖時,既可以清晰地掌握各節(jié)點之間的邏輯關(guān)系,又能夠通過節(jié)點深入了解其所對應(yīng)的資料。以型號研制數(shù)據(jù)文件為例,進行知識地圖的構(gòu)建與應(yīng)用主要有以下幾個步驟:
原始數(shù)據(jù)的準(zhǔn)備。利用AVIDM系統(tǒng)收集型號研制原始數(shù)據(jù),包括各類設(shè)計報告、計算報告、試驗結(jié)果分析報告、質(zhì)疑單、更改單、通知單等,并按照研制階段、專業(yè)、分系統(tǒng)、產(chǎn)品狀態(tài)、地面試驗、飛行試驗、質(zhì)量問題等進行歸類。
特征分析與特征提取。包括設(shè)計要求與設(shè)計報告的配對關(guān)系,計算報告與試驗報告的配對關(guān)系,設(shè)計文件與設(shè)計更改單的配對關(guān)系,各分系統(tǒng)的接口匹配關(guān)系等。
數(shù)據(jù)集標(biāo)注與數(shù)據(jù)集的生成。將數(shù)據(jù)文件按照分類規(guī)則進行標(biāo)注。
試驗與驗證。在數(shù)據(jù)集的基礎(chǔ)上,按照數(shù)據(jù)文件的邏輯關(guān)系建立索引并開展驗證工作。
知識地圖的自動構(gòu)建與應(yīng)用。將特征運用到知識地圖自動構(gòu)建算法中,并將算法進行運用,實現(xiàn)有邏輯關(guān)系的數(shù)據(jù)文件的自動識別功能。
應(yīng)用知識地圖構(gòu)建具有航天特色的知識管理構(gòu)架。知識地圖是知識管理與組織形式的一種新模式,不僅能挖掘出知識之間的隱含關(guān)系,還能夠描繪出完整的知識體系,同時有利于型號設(shè)計質(zhì)量的自我檢驗與排查。知識地圖不僅能將型號設(shè)計中大量未得到有效利用的數(shù)據(jù)組織管理起來,還能夠為新人快速掌握相關(guān)知識提供良好的平臺。
海量技術(shù)資源與傳統(tǒng)知識組織結(jié)構(gòu)的結(jié)合,使得認(rèn)知過載和迷航成為提升閱讀及學(xué)習(xí)效率的主要瓶頸。知識內(nèi)部語義結(jié)構(gòu)顯性描述將是下一代知識管理技術(shù)發(fā)展的熱點。知識地圖是海量資源語義結(jié)構(gòu)顯性描述的主要工具,其內(nèi)部知識單元數(shù)量眾多,語義關(guān)聯(lián)分布不均勻,具有顯著的復(fù)雜網(wǎng)絡(luò)特性。另外,知識地圖上學(xué)習(xí)過程的實質(zhì)是反應(yīng)知識單元之間知識被繼承和發(fā)展的關(guān)系,是知識地圖上的一種游走動力行為。