邱杰峰 展超凡 李喆
摘要:知識(shí)組織相關(guān)技術(shù)的出現(xiàn),為企業(yè)文檔內(nèi)容的深度聚合帶來了新的契機(jī)。通過對(duì)比三種企業(yè)文檔聚合模式,本文得出目前利用知識(shí)組織技術(shù)進(jìn)行文檔深度聚合的必要性與合理性。此外,本文還提出了企業(yè)文檔深度聚合模式,從高效化知識(shí)抽取,到概念化本體構(gòu)建,再到關(guān)聯(lián)化知識(shí)聚合及最終實(shí)現(xiàn)的智能化知識(shí)服務(wù),對(duì)企業(yè)文檔資源的內(nèi)容聚合展開探究,進(jìn)而為企業(yè)文檔深度聚合及知識(shí)管理研究提供一定的理論基礎(chǔ)與實(shí)踐導(dǎo)向。
關(guān)鍵詞:知識(shí)聚合 本體構(gòu)建 知識(shí)組織 企業(yè)文檔管理
知識(shí)經(jīng)濟(jì)時(shí)代,如何融合新興數(shù)字技術(shù)和企業(yè)內(nèi)部知識(shí)資源已成為企業(yè)成功與否的重要因素。企業(yè)大多數(shù)顯性知識(shí)資源都以文件、檔案的形式存在,被統(tǒng)稱為企業(yè)文檔,是企業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)的真實(shí)記錄。[1]文件是檔案的前身,檔案是文件的歸宿,所謂“文件”和“檔案”,只是文件運(yùn)動(dòng)過程不同階段的表現(xiàn)形式[2],文檔一體化逐漸成為企業(yè)檔案管理發(fā)展的必然趨勢(shì)[3]?,F(xiàn)階段,企業(yè)文檔資源已基本實(shí)現(xiàn)數(shù)字化管理,但現(xiàn)有的企業(yè)文檔組織利用方式較為單一,知識(shí)聚合程度較低,大多數(shù)企業(yè)文檔只支持普通查詢,開展文檔知識(shí)的深度聚合已成為未來研究與實(shí)踐的必然趨勢(shì)。[4]因此,本文以企業(yè)文檔資源作為主要研究對(duì)象,對(duì)文檔內(nèi)容組織層面的三種聚合模式進(jìn)行分析與比較,從總體方法論角度設(shè)計(jì)企業(yè)文檔深度聚合模式,對(duì)如何實(shí)現(xiàn)企業(yè)文檔資源的內(nèi)容深度聚合展開探究。
企業(yè)文檔聚合最初是對(duì)企業(yè)內(nèi)部實(shí)體文檔進(jìn)行整理與集成,也就是對(duì)文檔進(jìn)行初步整理與排列,達(dá)到用戶查找和獲取文獻(xiàn)的目的。[5]其研究對(duì)象為文檔原件(一般為實(shí)體文檔),聚合粒度較粗,屬于傳統(tǒng)文檔聚合模式,最具代表性的是企業(yè)檔案館內(nèi)基于文獻(xiàn)編目的企業(yè)文檔聚合模式?;谠獢?shù)據(jù)的企業(yè)文檔聚合模式將研究對(duì)象從文檔本身深入到文檔內(nèi)容層級(jí),關(guān)注信息片段的整合。但以上兩種聚合模式仍是在文檔形式特征層面對(duì)其進(jìn)行整理與排序,并不能實(shí)現(xiàn)對(duì)文檔內(nèi)容知識(shí)的組織與檢索。文檔資源深度聚合主要體現(xiàn)在運(yùn)用一系列知識(shí)組織技術(shù)對(duì)資源內(nèi)容進(jìn)行語(yǔ)義聚合,關(guān)注文檔中知識(shí)元的聚合,以真正實(shí)現(xiàn)細(xì)顆粒度的文檔知識(shí)聚合。文檔聚合模式演化過程如圖1所示。
(一)基于文獻(xiàn)編目的企業(yè)文檔聚合模式
文獻(xiàn)編目大多以傳統(tǒng)印本的實(shí)體文檔作為研究對(duì)象,依據(jù)特定的著錄格式和規(guī)則,對(duì)文獻(xiàn)信息的形式與內(nèi)容特征進(jìn)行描述、標(biāo)引并使其有序化。[6]比較常見的如企業(yè)文檔中的目錄編制與排序,因此,這種聚合模式又被稱為文檔整序工作。其外部特征的描述及內(nèi)容實(shí)質(zhì)的揭示都相對(duì)比較淺層,適用場(chǎng)景也基本是傳統(tǒng)紙質(zhì)文檔的歸檔工作。在企業(yè)的現(xiàn)階段應(yīng)用中,該模式主要用于部分紙質(zhì)文檔庫(kù)的編碼與存儲(chǔ),然而其聚合維度的單一與聚合粒度的粗泛漸漸不能滿足企業(yè)日益增長(zhǎng)的文檔知識(shí)挖掘需求。
(二)基于元數(shù)據(jù)的企業(yè)文檔聚合模式
面對(duì)結(jié)構(gòu)形態(tài)各異的企業(yè)數(shù)字文檔資源,傳統(tǒng)編目方式顯得力不從心。而元數(shù)據(jù)用來描述、標(biāo)引數(shù)字資源相對(duì)靈活,企業(yè)通過參照各類相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn),描述文檔資源的主題、內(nèi)容特征,并通過對(duì)描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)和非結(jié)構(gòu)性元數(shù)據(jù)進(jìn)行加工與集成使其格式化后存儲(chǔ),將其作為文檔聚合的基礎(chǔ)。基于元數(shù)據(jù)的企業(yè)文檔聚合模式通過細(xì)分描述對(duì)象的揭示程度,為數(shù)字資源的深度聚合奠定基礎(chǔ)。
(三)基于知識(shí)組織的企業(yè)文檔聚合模式
基于知識(shí)組織的企業(yè)文檔聚合是一個(gè)相對(duì)比較寬泛的概念,包含多種具體的聚合模式,如基于本體[7]、基于關(guān)聯(lián)數(shù)據(jù)[8]、基于主題模型[9]和基于知識(shí)圖譜[10]及復(fù)合模式[11]來實(shí)現(xiàn)文檔資源的深度聚合。該模式通過揭示文檔資源語(yǔ)義內(nèi)容目標(biāo)實(shí)現(xiàn)細(xì)粒度聚合,以客觀方式呈現(xiàn)文獻(xiàn)資源的網(wǎng)絡(luò)結(jié)構(gòu),并以可視化方法展示聚合結(jié)果,最終實(shí)現(xiàn)面向用戶需求的知識(shí)服務(wù)。具體來講,該模式通過構(gòu)建各種類型的企業(yè)文檔知識(shí)庫(kù),在語(yǔ)義和知識(shí)層面上細(xì)粒度地描述文獻(xiàn)知識(shí)內(nèi)容,以實(shí)現(xiàn)資源深度聚合。
綜上所述,三種文檔聚合模式在對(duì)象、目的、方法、描述維度、描述顆粒度和應(yīng)用層面均有不同。從表1可以看出,三種文檔聚合模式呈現(xiàn)出與時(shí)代發(fā)展相契合的演進(jìn)態(tài)勢(shì)?;谥R(shí)組織的企業(yè)文檔聚合模式已成為企業(yè)文檔未來發(fā)展的必然趨勢(shì),理由如下:其一,該模式適應(yīng)當(dāng)前數(shù)字化時(shí)代對(duì)于數(shù)字文檔的大量應(yīng)用需求,可以實(shí)現(xiàn)由實(shí)體文檔向數(shù)字文檔模態(tài)演變;其二,為滿足日益增長(zhǎng)的文檔利用需求和適應(yīng)文檔數(shù)量的急劇增長(zhǎng),該模式從單一描述維度逐漸向多維度乃至立體化的維度演變,對(duì)文檔內(nèi)容的描述粒度也在不斷變細(xì);其三,在應(yīng)用層面,該模式更加趨向于文檔知識(shí)的服務(wù)與利用,由消耗成本轉(zhuǎn)為創(chuàng)造價(jià)值。
企業(yè)文檔管理具有比較嚴(yán)格的規(guī)范與管理制度,其文檔格式、元數(shù)據(jù)信息、存儲(chǔ)方式等大多實(shí)現(xiàn)了統(tǒng)一化。另外,以企業(yè)文檔資源作為深度聚合的數(shù)據(jù)基礎(chǔ),具有非常好的實(shí)踐效果。在梳理現(xiàn)有企業(yè)文檔聚合模式并進(jìn)行對(duì)比分析之后,本文根據(jù)企業(yè)文檔資源特點(diǎn)和實(shí)際業(yè)務(wù)場(chǎng)景需要設(shè)計(jì)基于知識(shí)組織的企業(yè)文檔深度聚合模式來組織和關(guān)聯(lián)知識(shí)節(jié)點(diǎn),進(jìn)而推動(dòng)企業(yè)內(nèi)部知識(shí)的整合與知識(shí)網(wǎng)絡(luò)的形成。對(duì)于具體聚合模式,我們采用自底向上的整體設(shè)計(jì)思路,從文檔資源的“抽取”“表達(dá)”“聚合”“利用”四方面闡述文檔數(shù)據(jù)如何經(jīng)過高效化知識(shí)抽取、概念化本體構(gòu)建、關(guān)聯(lián)化知識(shí)聚合以及智能化知識(shí)服務(wù)轉(zhuǎn)變?yōu)槲臋n知識(shí),從而實(shí)現(xiàn)文檔的表示結(jié)構(gòu)化、組織知識(shí)化、利用智能化,如圖2所示。
(一)高效化知識(shí)抽取
知識(shí)抽取作為企業(yè)文檔深度聚合的第一步,是指從原始數(shù)據(jù)集中發(fā)現(xiàn)和識(shí)別出命名實(shí)體,形成結(jié)構(gòu)化數(shù)據(jù)。這是知識(shí)聚合中最為重要和基礎(chǔ)的部分,其抽取的質(zhì)量對(duì)后續(xù)的關(guān)聯(lián)聚合和知識(shí)服務(wù)步驟影響重大。企業(yè)在生產(chǎn)運(yùn)行過程中形成了大量的文檔相關(guān)數(shù)據(jù),其存在形式包括數(shù)據(jù)庫(kù)、掃描PDF、Word文檔等。針對(duì)企業(yè)內(nèi)部的結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)、半結(jié)構(gòu)化版式文檔及非結(jié)構(gòu)化文本數(shù)據(jù),該模式具體采用實(shí)體識(shí)別與排歧、關(guān)系事實(shí)抽取、圖像分割識(shí)別等技術(shù),針對(duì)不同類型的文檔,從篇章目錄、段落結(jié)構(gòu)、表格數(shù)據(jù)、語(yǔ)句語(yǔ)義等不同層次對(duì)文檔內(nèi)容中所包含的知識(shí)實(shí)體與關(guān)系進(jìn)行解析和抽取,利用語(yǔ)義解析深度挖掘其中的知識(shí)關(guān)系,實(shí)現(xiàn)文本內(nèi)容的識(shí)別、轉(zhuǎn)換及抽取,形成規(guī)范化的數(shù)據(jù)三元組。
(二)概念化本體構(gòu)建
本體構(gòu)建作為企業(yè)文檔的整體概念框架,是關(guān)聯(lián)化知識(shí)聚合的基礎(chǔ)。某一領(lǐng)域的企業(yè)文檔其本體模型相對(duì)固定,因此有針對(duì)性地選取某一領(lǐng)域內(nèi)的文檔作為本體構(gòu)建的研究對(duì)象,具有典型性。本階段作為模式設(shè)計(jì)的重點(diǎn)模塊,在對(duì)所選企業(yè)相關(guān)領(lǐng)域知識(shí)充分調(diào)研理解的基礎(chǔ)上,根據(jù)企業(yè)實(shí)際業(yè)務(wù)流程的工作需求,同時(shí)考慮相關(guān)本體復(fù)用,對(duì)海量的企業(yè)文檔進(jìn)行細(xì)粒度的文檔內(nèi)容解析,從而提煉出文檔中的核心概念表達(dá),抽象形成普適性的領(lǐng)域本體,實(shí)現(xiàn)企業(yè)文檔的分類與組織。具體而言,我們可以采用“自頂向下”的本體構(gòu)建方式,通過術(shù)語(yǔ)提取、本體概念學(xué)習(xí)、本體關(guān)系學(xué)習(xí)及規(guī)則制定等步驟,依照專家領(lǐng)域知識(shí)在本體編輯器中進(jìn)行領(lǐng)域知識(shí)本體的預(yù)先編輯,最終形成企業(yè)文檔的知識(shí)模型。
(三)關(guān)聯(lián)化知識(shí)聚合
知識(shí)聚合的實(shí)質(zhì)就是本體模型實(shí)例化的過程,即參照所構(gòu)建的本體模型,將本體概念對(duì)應(yīng)文檔實(shí)例內(nèi)容進(jìn)行填充與關(guān)聯(lián),從而實(shí)現(xiàn)細(xì)粒度、關(guān)聯(lián)化的知識(shí)聚合。具體而言,此階段根據(jù)本體構(gòu)建階段所構(gòu)建的文檔知識(shí)模型與知識(shí)抽取階段所抽取的數(shù)據(jù)三元組進(jìn)行鏈接與對(duì)應(yīng),使文檔知識(shí)模型概念都有相應(yīng)的實(shí)例數(shù)據(jù)映射匹配。與此同時(shí),本階段會(huì)將形式非結(jié)構(gòu)化的、知識(shí)內(nèi)容雜糅的文檔數(shù)據(jù)轉(zhuǎn)變?yōu)椤皩?shí)體-屬性-關(guān)系”的知識(shí)三元組數(shù)據(jù),使文檔數(shù)據(jù)按照特定的本體概念進(jìn)行重新組織,達(dá)到多維度知識(shí)聚合效果。此外,本階段還會(huì)將文檔資源數(shù)據(jù)和知識(shí)三元組數(shù)據(jù)分別存儲(chǔ)至非結(jié)構(gòu)化數(shù)據(jù)庫(kù)與圖數(shù)據(jù)庫(kù)中,使企業(yè)內(nèi)知識(shí)實(shí)現(xiàn)由離散的文本化存儲(chǔ)到連續(xù)集中的數(shù)據(jù)庫(kù)存儲(chǔ)轉(zhuǎn)變。
(四)智能化知識(shí)服務(wù)
本階段會(huì)根據(jù)企業(yè)的實(shí)際生產(chǎn)運(yùn)行業(yè)務(wù)場(chǎng)景整理出相應(yīng)業(yè)務(wù)需求,并對(duì)如何實(shí)現(xiàn)相應(yīng)業(yè)務(wù)需求的技術(shù)要求與知識(shí)要求進(jìn)行分類整理,通過業(yè)務(wù)場(chǎng)景構(gòu)建來實(shí)現(xiàn)用戶群需求分析,進(jìn)而有針對(duì)性地提供知識(shí)服務(wù)。例如,在生產(chǎn)業(yè)務(wù)中多需要具體參數(shù)查詢,企業(yè)則可以根據(jù)需求設(shè)計(jì)文檔自動(dòng)問答服務(wù)應(yīng)用,將用戶自然語(yǔ)言問句轉(zhuǎn)換為圖數(shù)據(jù)庫(kù)可理解的查詢問句,有效提高參數(shù)查詢效率;在運(yùn)行業(yè)務(wù)中,多需要相關(guān)文檔的推薦服務(wù),企業(yè)則可以在用戶搜索中使用查詢推薦技術(shù),根據(jù)歷史查詢記錄構(gòu)造有效查詢,以實(shí)現(xiàn)個(gè)性化查詢推薦;而在維修業(yè)務(wù)中多需要數(shù)據(jù)可視化呈現(xiàn),企業(yè)設(shè)計(jì)知識(shí)地圖應(yīng)用可以使用戶對(duì)文檔知識(shí)內(nèi)容形成整體總覽效果,進(jìn)而提高文檔知識(shí)檢索和知識(shí)管理的效率。
本研究在對(duì)比傳統(tǒng)基于文獻(xiàn)編目的企業(yè)文檔聚合模式、基于元數(shù)據(jù)的企業(yè)文檔聚合模式及基于知識(shí)組織的企業(yè)文檔聚合模式之后,設(shè)計(jì)了企業(yè)文檔深度聚合模式,并以企業(yè)文檔資源為研究對(duì)象,經(jīng)過高效化知識(shí)抽取、概念化本體構(gòu)建、關(guān)聯(lián)化知識(shí)聚合到最后的智能化知識(shí)服務(wù),對(duì)如何實(shí)現(xiàn)企業(yè)文檔資源的內(nèi)容深度聚合展開探究。但由于時(shí)間、精力及數(shù)據(jù)獲取問題,筆者對(duì)于本文所提出的企業(yè)文檔深度知識(shí)聚合模式并未在企業(yè)中廣泛開展實(shí)證研究,但相信未來隨著研究的深入,該聚合模式將在各行業(yè)領(lǐng)域文檔實(shí)際管理中進(jìn)行改進(jìn)與嘗試,其普適性與智能性將得到大大提升。
*本文系國(guó)家檔案局科技項(xiàng)目“核電文檔AI中臺(tái)建設(shè)研究”(項(xiàng)目編號(hào):2020-X-044)的研究成果之一。
參考文獻(xiàn):
[1]劉慧琳,劉敬儀,黃健.基于知識(shí)庫(kù)的企業(yè)文檔智能服務(wù)模式探究[J].北京檔案,2021(9):22-26.
[2]劉漢青,張偉.企業(yè)文檔一體化的實(shí)踐分析及思考[J].辦公室業(yè)務(wù),2011(12):4-5.
[3]馮靜.知識(shí)管理環(huán)境下企業(yè)文檔一體化研究[J].中國(guó)管理信息化,2018,21(17):160-161.
[4]魏扣,李子林,郝琦.檔案知識(shí)聚合的實(shí)踐模型構(gòu)建研究[J].北京檔案,2018(8):7-10.
[5]趙蓉英,王嵩,董克.國(guó)內(nèi)館藏資源聚合模式研究綜述[J].圖書情報(bào)工作,2014,58(18):138-143.
[6]趙悅,富平.數(shù)字資源與傳統(tǒng)文獻(xiàn)元數(shù)據(jù)整合[J].國(guó)家圖書館學(xué)刊,2007(2):63-65.
[7]何超,張玉峰.基于本體的館藏?cái)?shù)字資源語(yǔ)義聚合與可視化研究[J].情報(bào)理論與實(shí)踐,2013,36(10):73-76.
[8]王濤.基于關(guān)聯(lián)數(shù)據(jù)的館藏信息資源聚合研究[J].圖書館學(xué)刊,2012,34(8):44-46.
[9]王萍.基于概率主題模型的文獻(xiàn)知識(shí)挖掘[J].情報(bào)學(xué)報(bào),2011,30(6):583-590.
[10]盧恒,張向先,尚麗維,郭勇.基于知識(shí)圖譜的網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源深度聚合框架研究[J].情報(bào)理論與實(shí)踐,2021,44(1):180-187.
[11]邱均平,王菲菲.基于共現(xiàn)與耦合的館藏文獻(xiàn)資源深度聚合研究探析[J].中國(guó)圖書館學(xué)報(bào),2013(3):25-33.
作者單位:1.福建福清核電有限公司信息文檔處2.中國(guó)人民大學(xué)信息資源管理學(xué)院3.人民日?qǐng)?bào)社圖書館