高靖宇 楊俊 劉園麗 劉勇堅 李緒平
摘 要:企業(yè)文檔資料越來越多,普遍存在保存困難,查找、使用不方便、知識管理難的問題。企業(yè)知識一般主要建立在企業(yè)文檔數(shù)據(jù)基礎(chǔ)上,通過信息關(guān)聯(lián)和處理,形成用以支持業(yè)務(wù)應(yīng)用和領(lǐng)導(dǎo)決策的數(shù)據(jù)資源;知識圖譜的核心是建立實體與實體的關(guān)系,形成知識網(wǎng)絡(luò)。因此,將知識圖譜及相關(guān)技術(shù)應(yīng)用到企業(yè)知識管理過程中,用于解決以上問題有重要意義。本課題是通過應(yīng)用知識圖譜技術(shù),在企業(yè)內(nèi)部的文檔庫、數(shù)據(jù)庫的基礎(chǔ)上,構(gòu)建企業(yè)知識圖譜,以支撐企業(yè)的搜索引擎、智能推薦、智能問答等方面,優(yōu)化企業(yè)知識管理的用戶體驗,提高知識服務(wù)的準(zhǔn)確性和便捷性。
關(guān)鍵詞:知識圖譜;知識管理;文檔智能管理
中圖分類號:X913 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2019)22-0241-02
0 引言
目前企業(yè)文檔管理主要使用FTP或云盤進(jìn)行文件存儲,存儲類型較為單一,僅存儲了文檔、表格、圖片等文件類型;文檔應(yīng)用較為簡單,只是進(jìn)行查詢和下載;文檔之間關(guān)聯(lián)性較弱,無法通過分類或標(biāo)簽將不同類型文檔關(guān)聯(lián)到一起;無文檔版本管理,僅通過創(chuàng)建日期或命名來判斷版本新舊,經(jīng)常出現(xiàn)一個文件多個版本或版本應(yīng)用錯誤的問題。隨著企業(yè)文檔的持續(xù)增加,在企業(yè)文檔管理中普遍存在文檔數(shù)量持續(xù)增長,造成保存困難;文檔版本管理混亂;資源協(xié)作共享困難;查找、使用不方便;知識資源閑置,安全缺乏保障等問題。如何建立文檔間信息的聯(lián)系,如何實現(xiàn)知識資源的融合共享,如何幫助用戶快速檢索和找到所需要的知識,并據(jù)此實現(xiàn)新知識的生產(chǎn),以及應(yīng)用到業(yè)務(wù)實踐中等,對現(xiàn)代企業(yè)越來越重要。企業(yè)知識一般主要建立在文檔數(shù)據(jù)基礎(chǔ)上,通過信息關(guān)聯(lián)和處理,形成用以支持業(yè)務(wù)應(yīng)用和領(lǐng)導(dǎo)決策的數(shù)據(jù)資源;知識圖譜的核心是建立實體與實體的關(guān)系,形成知識網(wǎng)絡(luò)。因此,將知識圖譜及相關(guān)技術(shù)應(yīng)用到企業(yè)知識管理過程中,用于解決以上問題有重要意義。
基于知識圖譜實現(xiàn)企業(yè)文檔知識化管理研究,是通過應(yīng)用知識圖譜技術(shù)實現(xiàn)企業(yè)文檔知識化管理目標(biāo)。在企業(yè)內(nèi)部的文檔庫、數(shù)據(jù)庫的基礎(chǔ)上,構(gòu)建企業(yè)知識圖譜,以支撐企業(yè)業(yè)務(wù)的創(chuàng)新與應(yīng)用,改善企業(yè)知識管理和應(yīng)用方式,提高企業(yè)知識開發(fā)與利用的便捷性和準(zhǔn)確性,為最終實現(xiàn)“信息化智慧型企業(yè)”打下堅實基礎(chǔ)。
1 相關(guān)理論研究
知識圖譜概念最初來源于語義網(wǎng)絡(luò),1956年由Richard H于最早提出;進(jìn)入21世紀(jì),Berners Lee提出了語義Web的概念。在此基礎(chǔ)上,谷歌公司在2012年提出“知識圖譜”概念,知識圖譜是一種描述實體之間關(guān)系的語義網(wǎng)絡(luò),可以對現(xiàn)實世界的事物及其相互關(guān)系進(jìn)行描述。谷歌當(dāng)初主要目的是用于改善其搜索引擎的智能化水平,可以此為基礎(chǔ)構(gòu)建新一代的智能化搜索引擎。目前知識圖譜技術(shù)已被互聯(lián)網(wǎng)企業(yè)用于各種大型的知識庫建設(shè)。
知識圖譜建立主要涉及三大關(guān)鍵技術(shù):知識抽取、知識融合和知識加工。知識抽取過程包括:實體抽取、關(guān)系抽取以及屬性值抽取,知識抽取的的質(zhì)量很大程度影響知識圖譜的生成質(zhì)量。知識融合是通過實體關(guān)聯(lián)和知識并合,來消除知識中的概念歧義、錯誤和冗余,保證知識庫的建設(shè)質(zhì)量。知識加工主要步驟包括:本體構(gòu)建、知識推理和質(zhì)量驗證,目的是通過計算與推理,豐富知識網(wǎng)絡(luò)體系。
2 企業(yè)知識圖譜構(gòu)建
企業(yè)知識圖譜的構(gòu)建,需首先梳通過對企業(yè)知識管理的現(xiàn)狀進(jìn)行調(diào)研;梳理企業(yè)構(gòu)建知識圖譜的數(shù)據(jù)來源、數(shù)據(jù)特征、數(shù)據(jù)流向及管理機(jī)制;了解企業(yè)知識開發(fā)利用中面臨的問題,以及企業(yè)知識管理需求;進(jìn)一步明確建立企業(yè)知識圖譜的目標(biāo)要求,并明確知識圖譜的具體應(yīng)用場景(如圖1所示)。
2.1 數(shù)據(jù)獲取
首先需要明確知識的來源、類型、結(jié)構(gòu)、存儲方式,企業(yè)知識一般主要來源于企業(yè)的工作文件、管理文件、技術(shù)文件等,以及信息系統(tǒng)等積累的數(shù)據(jù),其中包括企業(yè)工作論壇和個人微博等。
2.2 知識抽取
知識抽取是從企業(yè)各種非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)源中,提取出知識實體、屬性和實體關(guān)系,形成結(jié)構(gòu)化的知識描述。
知識抽取主要過程包括:實體抽取、關(guān)系抽取和屬性抽取。實體抽取是指從文本數(shù)據(jù)中識別出命名實體;屬性抽取是識別出企業(yè)的機(jī)構(gòu)、人員、設(shè)備、文檔等實體的屬性;關(guān)系抽取是抽取出實體與實體之間存在的關(guān)系,將分散的知識關(guān)聯(lián)起來。
2.3 知識融合
通過知識抽取后,獲得了知識單元實體、實體的關(guān)聯(lián)關(guān)系以及實體的屬性信息,但這些信息僅是知識碎片,散亂無章,有些知識碎片可能是錯誤碎片,并且各知識碎片間缺乏必要的層次和邏輯;那么如何解決這一問題,就需通過知識融合來解決。
知識融合,就是從文本中抽取得到的實體對象,鏈接到知識庫中其他相關(guān)的實體對象的操作,消除實體指稱項與實體對象之間的歧義,得到一系列基本的事實表達(dá),并通過知識建模方式,將知識實體以一種結(jié)構(gòu)化、規(guī)范化的方式組合成知識體系。
2.4 知識加工
從原始數(shù)據(jù)源中提取出了知識實體、實體關(guān)系與實體屬性等要素,并且經(jīng)過知識融合得到一系列基本的事實表達(dá),但事實表達(dá)并非是可利用的知識。還需進(jìn)一步進(jìn)行知識加工,才能最終獲得結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識體系。知識加工是通過本體抽取、知識推理和質(zhì)量驗證等技術(shù),進(jìn)一步深度獲取知識間的關(guān)聯(lián)和邏輯關(guān)系,得到的知識網(wǎng)絡(luò)體系更加緊密和豐富。
2.5 知識更新
知識圖譜的內(nèi)容更新有兩種方式:(1)全面更新:是以所有原始數(shù)據(jù)為輸入數(shù)據(jù),重新開始構(gòu)建全部知識圖譜。這種方法比較簡單,但對資源消耗大。(2)增量更新:以當(dāng)前新增數(shù)據(jù)為輸入,向現(xiàn)有知識圖譜中添加新增知識。這種方式資源消耗小,但一般需要大量人工干預(yù),實施組織比較困難。
2.6 知識應(yīng)用
即通過知識應(yīng)用技術(shù)的提升,對進(jìn)一步挖掘知識應(yīng)用潛力,擴(kuò)展知識的應(yīng)用范圍;同時將知識圖譜與移動通信、人工智能等新技術(shù)的結(jié)合,從多個層面深化和擴(kuò)展企業(yè)知識應(yīng)用場景。
3 基于知識圖譜的企業(yè)知識應(yīng)用
企業(yè)知識應(yīng)用目的對企業(yè)知識資源進(jìn)行有效管理和利用,促進(jìn)知識在企業(yè)內(nèi)的順暢交換和分享,提升工作效率和服務(wù)質(zhì)量,助力企業(yè)競爭力提升。結(jié)合大數(shù)據(jù)分析、人工智能等新技術(shù),在企業(yè)知識圖譜的基礎(chǔ)上,可實現(xiàn)知識的智能搜索、智能推薦、不一致性驗證、異常分析、智能問答、決策支持等創(chuàng)新應(yīng)用。
3.1 智能搜索
智能搜索是知識圖譜最為典型的應(yīng)用場景,谷歌最初提出知識圖譜技術(shù)就是應(yīng)用于搜索引擎。也是自動給出與相關(guān)事物相關(guān)的搜索結(jié)果,并構(gòu)建事物關(guān)系圖,查看更多維度的數(shù)據(jù)。
3.2 智能推薦
智能推薦是將不同的業(yè)務(wù)知識精準(zhǔn)推薦到企業(yè)員工,促進(jìn)企業(yè)內(nèi)部知識的傳播與流通,是一種智能化的企業(yè)知識傳播方式。在企業(yè)內(nèi)部,主要應(yīng)用場景包括:(1)場景化推薦;(2)任務(wù)型推薦;(3)跨領(lǐng)域的推薦。
3.3 不一致性驗證
通過知識關(guān)系的推理,對信息的不一致性進(jìn)行驗證,類似交叉驗證,盡量避免錯誤信息傳播和使用。
3.4 異常分析
異常分析包括靜態(tài)分析和動態(tài)分析。靜態(tài)分析:給定一個知識結(jié)構(gòu)和某個時間點,從中去發(fā)現(xiàn)一些異常點。動態(tài)分析:分析其結(jié)構(gòu)隨時間變化的趨勢。假設(shè)短時間內(nèi)知識圖譜結(jié)構(gòu)的變化不會太大,如果它的變化很大,就說明可能存在異常,需要進(jìn)一步的關(guān)注和提醒。
3.5 智能問答系統(tǒng)
智能問答系統(tǒng)是基于傳統(tǒng)的信息檢索技術(shù)基礎(chǔ)上,結(jié)合知識圖譜技術(shù),能夠為用戶提供準(zhǔn)確簡潔的問題解答。目前很多問答平臺引入了知識圖譜,如國內(nèi)百度公司研發(fā)的小度機(jī)器人,專門為各類互聯(lián)網(wǎng)平臺提供智能問答解決方案。
3.6 決策支持
基于企業(yè)知識圖譜,信息系統(tǒng)將相關(guān)決策支持知識,智能地與企業(yè)的生產(chǎn)計劃、執(zhí)行調(diào)度和流程審批等決策點關(guān)聯(lián)起來,以支持或輔助決策。借助知識圖譜可及時感知市場新的關(guān)系和變化,例如通過知識圖譜對市場的變化進(jìn)行智能檢測,幫助企業(yè)管理者及時發(fā)現(xiàn)市場變化和產(chǎn)品趨勢,及時采取措施。
4 結(jié)語
事實上,基于知識圖譜的企業(yè)知識應(yīng)用遠(yuǎn)不止于此。整個企業(yè)與其外部世界就是一張巨大的知識圖譜,是無數(shù)個實體關(guān)系對,近年來企業(yè)界對圖數(shù)據(jù)庫、知識圖譜的巨大應(yīng)用價值給予越來越多的關(guān)注。識圖譜目前在新聞、金融、司法等領(lǐng)域的應(yīng)用比較成功,在企業(yè)知識管理中的應(yīng)用比較鮮見。本文雖然提出了基于知識圖譜實現(xiàn)企業(yè)文檔知識化建設(shè)思路和方法,并對其應(yīng)用場景進(jìn)行了探討,但研究仍然還不夠全面與深入,需要進(jìn)一步在實踐中持續(xù)改進(jìn)和完善。
參考文獻(xiàn)
[1] 彭鑫.基于知識管理的企業(yè)知識圖譜構(gòu)建研究[D].武漢:武漢大學(xué),2018.
[2] 曹倩,等.知識圖譜的技術(shù)實現(xiàn)流程及相關(guān)應(yīng)用[J].北京:情報理論與實踐,2015(12):131-136.
[3] 劉嶠,等.知識圖譜構(gòu)建技術(shù)綜述[J].北京:計算機(jī)研究與發(fā)展,2016(3):582-600.
[4] 趙宇.知識圖譜自動演進(jìn)算法研究[D].北京:北京郵電大學(xué),2017.
[5] 聶莉莉.概述知識圖譜在人工智能中的應(yīng)用[J].北京:醫(yī)學(xué)信息學(xué),2018(06):11-16.