/北京臨近空間飛行器系統(tǒng)工程研究所
當前,知識管理因其對企業(yè)持續(xù)創(chuàng)新、高速發(fā)展、保持永久競爭力方面的重要作用,越來越成為重要的研究與實踐內(nèi)容之一。作為知識密集型、智慧密集型的航天企業(yè),尤其是面臨著研制周期短、質(zhì)量要求高,以及軍民融合、市場化轉(zhuǎn)型、二次創(chuàng)業(yè)等時代浪潮,如何充分利用當下已經(jīng)積累的、正在產(chǎn)生的海量多源異構(gòu)型知識,對更加高效、高質(zhì)量地完成航天任務(wù)、傳承航天文化和精神具有十分重要的意義。
知識可充分利用的前提是有效的處理和分析,但當前有價值的知識混雜在海量數(shù)據(jù)之中,需要采取高效高質(zhì)的手段從中提煉和凝聚知識,才能真正發(fā)揮知識在企業(yè)科研生產(chǎn)、管理、創(chuàng)新、傳承等方面的作用。中國運載火箭技術(shù)研究院已率先開展知識管理研究和實踐,并且在理論方法和系統(tǒng)實現(xiàn)方面取得了一定的成效,但是限于知識管理的復雜度和實施進度,雖然各個院所廠已經(jīng)積累了部分知識,對其處理的力度仍顯不足。同時,具有“五大”特點的海量多源異構(gòu)的試驗數(shù)據(jù)被擱置,沒有做到真正的分析和提煉,整體知識提煉水平較低。
筆者基于現(xiàn)有院所廠知識積累和知識提煉的現(xiàn)狀,提出一種知識組織和處理的完整閉環(huán)知識鏈,對照知識鏈提出“三層級、兩段式”的知識提煉模型,分析并利用該模型完成對知識的有效提煉。
知識鏈,從組織形式上是以一種鏈條的方式體現(xiàn)知識間的關(guān)聯(lián)方式和流轉(zhuǎn)過程;從功能上是基于知識流完成企業(yè)內(nèi)、外部知識在轉(zhuǎn)移與擴散過程中的捕獲、選擇、組織和創(chuàng)新的具有價值增值功能的知識管理手段。近年來,知識鏈逐漸成為知識管理研究的重點內(nèi)容之一,它是幫助梳理、規(guī)范知識管理過程的重要手段,通過定義知識鏈的內(nèi)容和前后銜接關(guān)系,可有效幫助不同文化、業(yè)務(wù)、群體的單位構(gòu)建本地化的知識管理落地方案。
根據(jù)有關(guān)學者的研究,如Wiig認為知識鏈包括知識的創(chuàng)新與來源、編輯與傳播、吸收、應(yīng)用與價值實現(xiàn)4個環(huán)節(jié),Dibella認為知識鏈由知識獲取、吸收、利用3個部分組成,Prost等認為知識鏈分為獲取、開發(fā)與創(chuàng)新、共享與傳播、使用和保存等環(huán)節(jié),結(jié)合航天業(yè)務(wù)、文化、用戶群體等特點,以及國內(nèi)知識管理研究與實施現(xiàn)狀,筆者提出了“九階段三閉環(huán)”式知識鏈,包括知識獲取、識別、表示、組織、存儲、提煉、分析、傳播、應(yīng)用。知識鏈的內(nèi)容和相互關(guān)系如圖1所示。
考慮到知識管理需要做到全生命周期管理、全流程可追蹤,同時知識管理的具體實踐仍處在起步和不斷修正的階段,因此需要通過應(yīng)用不斷完善評估標準和模型,從而自動化、循環(huán)式地實現(xiàn)整個知識處理過程的效率和效果。
一是知識管理多集中在收集和共享。
具有一定的理論方法以及系統(tǒng)實現(xiàn),但系統(tǒng)實現(xiàn)偏重于收集,且多以文字、文檔、音視頻的方式存儲,通過b/s架構(gòu)共享給科研和生產(chǎn)人員,但對這些知識的處理、提煉、分析較為有限。
二是眾多具有重大價值的數(shù)據(jù)未被有效提煉。
航天領(lǐng)域業(yè)務(wù)范圍廣、技術(shù)要求高,無論是科研生產(chǎn)還是綜合管理與保障,都是復雜而龐大的系統(tǒng)工程,與科研、管理相關(guān)的知識種類眾多且數(shù)量龐大,如以型號研制為代表的各專業(yè)、各階段文檔、模型、數(shù)據(jù)與以實驗和試驗為代表的試驗數(shù)據(jù)整體呈現(xiàn)出“五大”特點,即數(shù)據(jù)量級大、來源范圍大、種類數(shù)量大、價值大、浪費大,但這些海量多源異構(gòu)數(shù)據(jù)多以紙質(zhì)文件或光盤的形式保存,并未多加分析利用,而這些數(shù)據(jù)卻是航天領(lǐng)域?qū)S械淖罹邇r值的核心知識載體。
三是現(xiàn)有知識提煉方法的有效性低。
航天領(lǐng)域的數(shù)據(jù)具有海量多源異構(gòu)的特性,如想提煉成真正對科研生產(chǎn)、管理有幫助,對航天經(jīng)驗與文化有傳承、有價值的知識,定制化的知識提煉算法勢在必行,即需要針對不同的數(shù)據(jù)、需求搭配不同復雜度、準確度、領(lǐng)域?qū)<抑R背景的算法鏈。由于知識提煉算法不具有普適性,雖然當前已被實踐的數(shù)據(jù)挖掘和提煉算法眾多,但幾乎不支持定制化,對提煉數(shù)據(jù)的有效性影響極大。同時,由于知識管理本身的復雜性和領(lǐng)域特殊性,知識提煉算法的正確性和有效性需要靠多輪修正和迭代來保證(提煉和挖掘算法的客觀限制),即知識提煉需要內(nèi)部評估環(huán)節(jié)。但是目前的評估器多為單一的人工或單一的算法,單一的人工評定耗時久、效率低,不適合航天領(lǐng)域數(shù)據(jù)海量的特點;單一的算法效率雖高,但因人工智能、自然語言分析等算法本身的限制,無法取代或逼近人工評定的準確性。所以,知識提煉算法的內(nèi)部修訂需要通過人工和自動化結(jié)合的方式,以達到有效與高效的平衡。
圖1 “九階段三閉環(huán)”知識鏈
由知識鏈結(jié)構(gòu)可見,知識提煉是其中的關(guān)鍵環(huán)節(jié),扮演著承接知識收集(獲取、識別、表示、組織)和知識應(yīng)用(分析、評估、應(yīng)用)的重要角色,基于知識鏈的知識提煉模型架構(gòu)如圖2所示。
該知識提煉模型具有以下2個特點:一是定義了知識分層模型,對于以各種形式存在的數(shù)據(jù),通過分層式、階段式處理和提煉做到最大限度地貼合每一環(huán)節(jié)的數(shù)據(jù)特點和處理目標,從而提升數(shù)據(jù)提煉的有效性,通過分析已存儲數(shù)據(jù)特點及知識提煉通用過程,提出了包括數(shù)據(jù)、信息、知識的3層知識分層模型,三者的從屬關(guān)系為數(shù)據(jù)包含信息、信息包含知識;二是提出了分層提取模型,針對“三層級、兩段式”的知識分層模型,制定了2個階段的知識提煉手段。
第1階段為數(shù)據(jù)挖掘,利用該技術(shù)完成數(shù)據(jù)向信息的提煉,并將處理后的分類信息輸入到第2階段中;第2階段為標注和標簽,利用該技術(shù)完成信息向知識的提煉,得到具有獨立意義和眾多標簽屬性的知識元集合,輸入到知識鏈的分析模塊中,從而為知識的利用提供數(shù)據(jù)支撐。
采用基于知識流的數(shù)據(jù)挖掘手段完成知識提煉模型的第1層,即數(shù)據(jù)向信息的轉(zhuǎn)化。當前,限制知識提煉精度和價值的重要原因之一是提煉方式,即通用的數(shù)據(jù)挖掘算法無法滿足航天數(shù)據(jù)數(shù)量大、來源廣、種類雜的特點,導致直接使用現(xiàn)有數(shù)據(jù)挖掘手段得到的信息準確度和價值性較低。筆者提出一種基于知識流的可配置型數(shù)據(jù)挖掘思路,即以知識流為組織和核心驅(qū)動,通過配置文件分析和生成器、可配置的數(shù)據(jù)挖掘插件庫,完成針對航天固有特點數(shù)據(jù)的提煉,提煉的思路和框架如圖3所示。
圖2 基于知識鏈的知識提煉模型架構(gòu)
圖3 第1層知識提煉框架圖
知識提煉框架具有以下2個特點:
一是可配置的數(shù)據(jù)挖掘方案。數(shù)據(jù)挖掘方案創(chuàng)新性地引入配置文件分析和生成器,通過其中的數(shù)據(jù)類型分析器分析提煉數(shù)據(jù)的特點,并結(jié)合應(yīng)用場景和提煉目標得到適合數(shù)據(jù)類型、特點、背景和目標的挖掘插件配置方案,該方案作為知識流的理論組成部分,指導知識流到數(shù)據(jù)挖掘插件庫中挑選和組裝具體的挖掘方案和流程。通過該配置文件分析和生成器以及種類豐富、性能穩(wěn)定的數(shù)據(jù)挖掘插件庫,可有效定制數(shù)據(jù)挖掘方案,從而保障個性、高效、準確地進行數(shù)據(jù)提煉。
二是基于知識流的自組織和自驅(qū)動實施措施?;谂渲梦募睦碚撝笇?,通過知識流完成各類功能插件的組裝和接口適配,利用組裝的挖掘方案進行包括分類、聚類、關(guān)聯(lián)在內(nèi)的實際數(shù)據(jù)挖掘行為,并基于知識流完成提煉結(jié)果的輸出和存儲;通過定制化的數(shù)據(jù)挖掘知識流,可保證整個數(shù)據(jù)挖掘流程的豐富性和特定性,針對不同背景的知識、不同程度的目標,可完成從輸入數(shù)據(jù)和要求后整個挖掘系統(tǒng)的快速準確搭建,包括自動的數(shù)據(jù)分析、挖掘算法和實現(xiàn)插件的搭配、流程的組裝和運轉(zhuǎn),從而保證數(shù)據(jù)到信息提煉的有效性和高效性。
由于知識提煉水平較低,且因提煉算法本身的限制,即使通過提煉手段得到部分處理后的知識內(nèi)容,經(jīng)過人工審閱后仍然會使有價值的知識數(shù)量大大減少,所以知識提煉需要人工參與;但受限于當前巨大的數(shù)據(jù)量級,完全依靠人工完成知識的提煉幾乎是不可能的事情,所以需要有效地結(jié)合這2種方法。
標簽可以幫助體現(xiàn)特征,它是含有一定信息量的相關(guān)性較強的短語或詞組,是通用的內(nèi)容組織方式,被廣泛用于各類數(shù)據(jù)、服務(wù)的標記中。標簽因其簡短性、強關(guān)聯(lián)性,使得它可以用作特征詞應(yīng)用到數(shù)據(jù)挖掘中,也可被用來描述web服務(wù),體現(xiàn)其特征,以幫助人們理解;可以用于數(shù)據(jù)的分類和聚類,從而提高同類數(shù)據(jù)的發(fā)現(xiàn),或者應(yīng)用到推薦系統(tǒng)中。同時,可以扮演關(guān)鍵詞被用于檢索,從而提高搜索引擎的性能等。
基于標簽的自動標注系統(tǒng)利用標注和標簽手段進一步提純數(shù)據(jù)挖掘后的信息,從而得到具有價值的知識,該標注系統(tǒng)的框架如圖4所示。
該系統(tǒng)具有以下3個特點:
一是平衡人工標注和自動標注。系統(tǒng)將已分類后的信息分解成樣本集和全集,人工標注樣本集,系統(tǒng)自動標注全集,從而保證人工和自動標注在有效性和高效性上的平衡。
二是多輪迭代的自學習式訓練模型。通過人工標注,將樣本信息分解成核心信息和一般信息,完成首輪信息篩選;將分類后的信息輸入到訓練模型中進行訓練,通過內(nèi)部評估模型和人工標注的標準,不斷修正自動標注的準確性,完成訓練模型內(nèi)部的三輪迭代后,引入人工,判斷自動標注擴大后信息集合結(jié)果的準確性,并通過三輪的迭代定型訓練模型。通過3次內(nèi)部迭代,3次擴大基礎(chǔ)信息集合和人工標注的3次外部迭代,保證了訓練模型的有效性。通過多而小的樣本集和迭代,大大降低了時間、精力、物力等方面的成本。
圖4 自動標注系統(tǒng)框架圖
三是快速生效的多維應(yīng)用模型。利用樣本集快速訓練得到的訓練模型,通過定型輸出得到應(yīng)用模型。該應(yīng)用模型除了具備基本的信息標注能力,即通過該模型可以為各類輸入信息生成屬性標簽外,還可以利用生成的標簽完成循環(huán)和自學習,即某個知識元原本具備少量關(guān)聯(lián)標簽,通過循環(huán)和自學習豐富自身標簽,從而完善自身關(guān)聯(lián)關(guān)系和屬性,為后續(xù)知識的關(guān)聯(lián)和聚類作準備;關(guān)聯(lián)和聚類是針對已經(jīng)生成的多個單一的知識元,通過標簽做關(guān)聯(lián)分析,找到標簽相同或含義相近的若干知識元,通過聚類手段完成同類知識元的聚類,從而形成不同范圍大小的知識關(guān)聯(lián)簇,為知識的具體應(yīng)用作準備;從屬和連接是通過標簽將知識元與具體的流程關(guān)聯(lián),并綁定到特定的活動節(jié)點上,在催動知識快速流轉(zhuǎn)的同時完成了流程管理和知識管理的有效結(jié)合,并為科研生產(chǎn)、管理提供看得見的知識保障。▲