程清潔 朱仲友 吳建琳 陳胡嶸 國(guó)網(wǎng)安徽省電力有限公司
在檔案數(shù)字化的推進(jìn)過程中,數(shù)字檔案館以及智慧檔案館的建設(shè)成為當(dāng)前檔案管理模式下新的發(fā)展方向,檔案管理模式亦趨向于數(shù)字化與網(wǎng)絡(luò)化,檔案管理系統(tǒng)正從信息管理模式向知識(shí)管理模式轉(zhuǎn)變。在人工智能技術(shù)的支撐下,檔案管理逐漸向關(guān)聯(lián)數(shù)據(jù)、語(yǔ)義組織方向發(fā)展,核心技術(shù)從以數(shù)據(jù)庫(kù)存儲(chǔ)和XML 數(shù)據(jù)為標(biāo)志轉(zhuǎn)向了以知識(shí)庫(kù)和語(yǔ)義技術(shù)為核心,知識(shí)圖譜[1][2]正成為檔案管理領(lǐng)域的重要支撐技術(shù)。
基于五大類會(huì)計(jì)檔案實(shí)體(原始憑證、會(huì)計(jì)憑證、賬簿、報(bào)表、其他),全面梳理構(gòu)成檔案的所有關(guān)鍵要素,抽取實(shí)體與要素間,實(shí)體間以及要素間的關(guān)聯(lián)關(guān)系。從實(shí)體和要素兩個(gè)維度,以圖譜技術(shù)為支撐,利用可視化工具,構(gòu)建全量會(huì)計(jì)檔案知識(shí)譜系模型,分層、立體描繪出數(shù)字會(huì)計(jì)檔案知識(shí)資源及其載體,并以關(guān)鍵節(jié)點(diǎn)與鏈路相結(jié)合的方式進(jìn)行表達(dá)。通過最底層要素還原業(yè)務(wù)管理的流程環(huán)節(jié),實(shí)現(xiàn)在任意節(jié)點(diǎn)均可查詢?nèi)纸Y(jié)構(gòu)化數(shù)據(jù),在關(guān)鍵節(jié)點(diǎn)檢索全量非結(jié)構(gòu)化文件。
基于會(huì)計(jì)檔案的知識(shí)圖譜[3][4]關(guān)系遵循以下原則進(jìn)行設(shè)計(jì):
1.統(tǒng)一設(shè)計(jì)原則
制定統(tǒng)一設(shè)計(jì)方案,按照要求完成適應(yīng)性調(diào)整、測(cè)試工作。
2.適用性原則
設(shè)計(jì)基于會(huì)計(jì)檔案的知識(shí)圖譜關(guān)系模型,模型需兼顧全局展示、局部重點(diǎn)展示、穿透展示、拖動(dòng)、旋轉(zhuǎn)、縮放等各類型的查閱場(chǎng)景;設(shè)計(jì)基于會(huì)計(jì)檔案的知識(shí)圖譜實(shí)例查詢,查詢結(jié)果需能根據(jù)關(guān)系,展示查詢關(guān)鍵字所貫穿的全業(yè)務(wù)鏈條價(jià)值信息,充分考慮各單位、各崗位人員的應(yīng)用場(chǎng)景及查閱范圍。
3.延續(xù)性原則
數(shù)據(jù)抽取完全來源于會(huì)計(jì)檔案,方案設(shè)計(jì)充分利用統(tǒng)一的標(biāo)準(zhǔn)和系統(tǒng)功能,并在此基礎(chǔ)上進(jìn)行業(yè)務(wù)與功能擴(kuò)展,為后續(xù)業(yè)務(wù)發(fā)展提供可延續(xù)、可擴(kuò)展空間。
知識(shí)圖譜:知識(shí)圖譜是基于會(huì)計(jì)檔案數(shù)據(jù)結(jié)構(gòu)生成的,是對(duì)檔案結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)關(guān)系的可視化展示。包括實(shí)體、屬性和關(guān)系。
實(shí)體:具體事物、主數(shù)據(jù)、數(shù)據(jù)庫(kù)中的表。
屬性:事物的特征、主數(shù)據(jù)的特征、表字段。
關(guān)系:事物與事物或主數(shù)據(jù)間建立的關(guān)系。
知識(shí)抽?。喊褦?shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,然后按一定的規(guī)則展現(xiàn)在知識(shí)圖譜應(yīng)用平臺(tái)上。
知識(shí)映射:知識(shí)抽取之前,要把數(shù)據(jù)源的信息通過映射的過程,將其定位的具體某個(gè)實(shí)體,實(shí)體屬性或者關(guān)系上,這一過程稱之為知識(shí)映射。
數(shù)據(jù)清洗:知識(shí)圖譜構(gòu)建過程中,知識(shí)抽取后,需要對(duì)抽取的數(shù)據(jù)進(jìn)行某些規(guī)則的轉(zhuǎn)換,這個(gè)過程稱之為數(shù)據(jù)清洗。
歸一消歧:知識(shí)圖譜構(gòu)建過程中,某些實(shí)例或者關(guān)系會(huì)存在重復(fù)的關(guān)系,對(duì)這些重復(fù)的數(shù)據(jù)通過某些規(guī)則去重,這一過程稱為歸一消歧。
1.原始憑證
主要包括業(yè)務(wù)分類、原始附件清單(系統(tǒng)單據(jù)、有結(jié)構(gòu)化信息的影像件、掃描生成的電子文件)。
系統(tǒng)單據(jù)是一個(gè)具體事物,單據(jù)上填寫全部為結(jié)構(gòu)化信息,其中有特征如日期、編號(hào)、數(shù)量、金額、備注等即是事物的屬性(基本屬性),特征本身也是一個(gè)事物或者主數(shù)據(jù)(實(shí)體)的如采購(gòu)訂單、項(xiàng)目、合同、供應(yīng)商等,則將系統(tǒng)單據(jù)實(shí)體與其建立關(guān)系(關(guān)系屬性)。
有結(jié)構(gòu)化信息的影像件也是一個(gè)具體事物,且檔案中有表存放結(jié)構(gòu)化信息,結(jié)構(gòu)化信息中特征如開票日期、編號(hào)、金額等是事物的屬性,特征本身也是一個(gè)事物或者主數(shù)據(jù)(實(shí)體)的如購(gòu)買方信息則與單位建立關(guān)系,如在多個(gè)業(yè)務(wù)分類下都有增值稅發(fā)票,則與業(yè)務(wù)分類建立多條關(guān)系。
掃描生成的各類電子文件均是具體事物,但是具有共同特征,即類型名稱、ID、影像地址。因此可以統(tǒng)一為一個(gè)“原始憑證影像文件”實(shí)體,而它的實(shí)例數(shù)據(jù)則是增值稅發(fā)票、合同或協(xié)議等各類掃描件,不同的影像文件屬于不同的業(yè)務(wù)分類,則與業(yè)務(wù)分類建立關(guān)系。
2.主數(shù)據(jù)
屬于公用實(shí)體。經(jīng)濟(jì)業(yè)務(wù)核算中,非原始附件,但是原始憑證上會(huì)填寫的信息,具有多個(gè)特征的,且查詢實(shí)例時(shí)還可根據(jù)填寫的內(nèi)容找到其對(duì)應(yīng)的特征,如根據(jù)單位找到單位對(duì)應(yīng)的納稅人識(shí)別號(hào)。因此主數(shù)據(jù)作為實(shí)體,其獨(dú)有內(nèi)部特征作為屬性,其特征中還包含其他主數(shù)據(jù)的,如載體維度上對(duì)應(yīng)有核心維度(項(xiàng)目對(duì)應(yīng)業(yè)務(wù)活動(dòng)),則將兩個(gè)主數(shù)據(jù)建立關(guān)系。
3.會(huì)計(jì)憑證
主要包括憑證主信息、憑證類型及憑證分錄。
4.賬簿
主要包括單位、賬期、賬戶、期初方向、期初余額、借方發(fā)生、貸方發(fā)生、期末方向、期末余額等。其中,單位是實(shí)體則建立關(guān)系,賬期是各賬簿、各報(bào)表等多處都需要用到的會(huì)計(jì)期間,包括會(huì)計(jì)年度和賬期,也可抽離為實(shí)體,與科目匯總表建立關(guān)系,后續(xù)還可與報(bào)表建立關(guān)系。其他則是屬性。
5.報(bào)表
主要包括報(bào)表期間、報(bào)表單位、報(bào)表項(xiàng)目(橫向縱向結(jié)合)、報(bào)表單元格公式、報(bào)表(單元格)取數(shù)結(jié)果;期間包括關(guān)聯(lián)會(huì)計(jì)年度和賬期。
6.其他
主要包括會(huì)計(jì)檔案保管清冊(cè)、銀行余額調(diào)節(jié)表、會(huì)計(jì)檔案鑒定意見書、納稅申報(bào)表、會(huì)計(jì)檔案移交清冊(cè)、銀行對(duì)賬單、會(huì)計(jì)檔案銷毀清冊(cè)及銀行流水信息。
1.數(shù)據(jù)接入及存儲(chǔ)需求
以會(huì)計(jì)檔案管理體系為唯一的知識(shí)譜系數(shù)據(jù)來源,接入包括原始憑證、記賬憑證、賬簿、報(bào)表、其它五大類的數(shù)據(jù)關(guān)系及實(shí)例數(shù)據(jù)。數(shù)據(jù)接入采取從會(huì)計(jì)檔案數(shù)據(jù)庫(kù)直接接入的方式,通過知識(shí)映射中間組件,轉(zhuǎn)化為數(shù)據(jù)模型為圖模型的知識(shí)譜系。
2.數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量方面,檔案館的數(shù)據(jù)內(nèi)容要涵蓋五大類會(huì)計(jì)檔案知識(shí)圖譜要素里面規(guī)劃的內(nèi)容,如未涵蓋,在實(shí)例圖譜查詢時(shí)則只能顯示數(shù)據(jù)模型,不能顯示具體數(shù)據(jù)。
知識(shí)圖譜應(yīng)用平臺(tái)提供本體管理、圖譜管理、圖譜構(gòu)建等功能;知識(shí)圖譜應(yīng)用平臺(tái)有超級(jí)管理員和用戶兩種角色,超級(jí)管理員可以管理用戶所創(chuàng)建的圖譜;用戶可以實(shí)現(xiàn)創(chuàng)建圖譜、導(dǎo)入數(shù)據(jù)、映射數(shù)據(jù)、構(gòu)建圖譜、會(huì)計(jì)檔案關(guān)系模型查閱、會(huì)計(jì)檔案關(guān)系查詢等功能。
(1)技術(shù)路線:知識(shí)圖譜應(yīng)用平臺(tái)以自然語(yǔ)言處理技術(shù)為支撐,對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行知識(shí)抽取、知識(shí)表示與融合、知識(shí)存儲(chǔ)、知識(shí)建模與推理、知識(shí)計(jì)算等功能,為會(huì)計(jì)檔案關(guān)系模型、會(huì)計(jì)檔案數(shù)據(jù)查詢等基于圖譜的應(yīng)用需求提供支持。
(2)創(chuàng)建圖譜:用于管理系統(tǒng)創(chuàng)建的面向具體業(yè)務(wù)的知識(shí)圖譜,如創(chuàng)建會(huì)計(jì)檔案知識(shí)圖譜。
(3)圖譜設(shè)計(jì):針對(duì)會(huì)計(jì)檔案知識(shí)圖譜進(jìn)行Schema 設(shè)計(jì),即定義會(huì)計(jì)檔案知識(shí)圖譜中的“實(shí)體”和“關(guān)系”。
(4)我的數(shù)據(jù):為知識(shí)圖譜配置基礎(chǔ)數(shù)據(jù)源,可直接從會(huì)計(jì)檔案中獲取。
(5)圖譜構(gòu)建:基于Schema 選擇基礎(chǔ)數(shù)據(jù)源進(jìn)行圖譜構(gòu)建,支持“數(shù)據(jù)清洗”和“歸一消歧”等操作實(shí)現(xiàn)對(duì)會(huì)計(jì)檔案知識(shí)圖譜的手動(dòng)調(diào)優(yōu)。
(6)會(huì)計(jì)檔案關(guān)系模型:模型包含五大類會(huì)計(jì)檔案中存在的“實(shí)體”(如合同、發(fā)票、供應(yīng)商、銀行回單、記賬憑證、明細(xì)賬、資產(chǎn)負(fù)債表等),以及形成會(huì)計(jì)檔案中各實(shí)體的關(guān)鍵要素即實(shí)體的“屬性”,整合業(yè)務(wù)鏈條的會(huì)計(jì)檔案電子文件和流轉(zhuǎn)信息,建立起實(shí)體與實(shí)體、實(shí)體與屬性、屬性與屬性之間的聯(lián)系及“關(guān)系”,構(gòu)建會(huì)計(jì)檔案知識(shí)圖譜的關(guān)系模型,并以立體形式展現(xiàn)。展現(xiàn)形式概述如下:①關(guān)系模型全局視角:在首頁(yè)以展示會(huì)計(jì)檔案中實(shí)體與實(shí)體間的關(guān)系。②關(guān)系模型局部視角:通過選中點(diǎn)擊定位或搜索定位,定位到某個(gè)實(shí)體,可展示其與其他實(shí)體的內(nèi)在和外在關(guān)系。③穿透查看:支持定位到某個(gè)實(shí)體后,穿透查看該實(shí)體的所有屬性信息。④提供對(duì)模型的縮放、拖拽、旋轉(zhuǎn)等動(dòng)態(tài)的交互效果方便查看。
(7)會(huì)計(jì)檔案關(guān)系查詢:接入會(huì)計(jì)檔案的實(shí)例數(shù)據(jù)后,基于前期建立的會(huì)計(jì)檔案關(guān)系模型,提供實(shí)例數(shù)據(jù)的檢索查詢,如輸入供應(yīng)商名稱,則可展示出會(huì)計(jì)檔案中所有和該供應(yīng)商建立關(guān)系的實(shí)例數(shù)據(jù),及該供應(yīng)商相關(guān)的全業(yè)務(wù)鏈條的價(jià)值信息。
梳理形成會(huì)計(jì)檔案的關(guān)鍵要素,還原業(yè)務(wù)管理的流程環(huán)節(jié),串聯(lián)相關(guān)單據(jù)信息、版式文件、信息內(nèi)在聯(lián)系,整合業(yè)務(wù)鏈條的會(huì)計(jì)檔案電子文件和流轉(zhuǎn)信息,并以關(guān)鍵節(jié)點(diǎn)與鏈路相結(jié)合的方式展示圖形化知識(shí)圖譜。
圖譜設(shè)計(jì)之前,要結(jié)合供電企業(yè)的業(yè)務(wù)特點(diǎn),完成經(jīng)濟(jì)業(yè)務(wù)現(xiàn)狀梳理,按照五大類會(huì)計(jì)檔案信息完成各類檔案間的實(shí)體、屬性及其關(guān)聯(lián)關(guān)系的整理。知識(shí)圖譜要基于要素之間的關(guān)系來構(gòu)建圖譜數(shù)據(jù)模型,可以在系統(tǒng)以表格或者圖的方式實(shí)現(xiàn)實(shí)體、實(shí)體基本屬性、實(shí)體關(guān)系屬性的添加。
基礎(chǔ)數(shù)據(jù)是有可能或許應(yīng)用到的基本常識(shí)類數(shù)據(jù),比如地理位置、規(guī)章制度等。
安徽檔案館的數(shù)據(jù)都已存入關(guān)系型數(shù)據(jù)庫(kù),數(shù)據(jù)之間的依賴關(guān)系也是以關(guān)系型的數(shù)據(jù)表來做關(guān)系建立的,所以需要有一個(gè)映射過程來把二維表的數(shù)據(jù)映射到圖關(guān)系上。知識(shí)映射包括實(shí)體映射、屬性映射及關(guān)系映射。
1.實(shí)體映射
實(shí)體映射的過程就是把二維數(shù)據(jù)庫(kù)的某張表映射到圖譜設(shè)計(jì)的某個(gè)實(shí)體上。
例如,圖譜設(shè)計(jì)有個(gè)實(shí)體用戶,數(shù)據(jù)庫(kù)有個(gè)表NECP_UMC_XTYHXX,那就要有一個(gè)用戶-NECP_UMC_XTYHXX 的映射過程。
2.屬性映射
實(shí)體映射完后,比如用戶-NECP_UMC_XTYHXX,那表里面屬性字段要映射到圖譜設(shè)計(jì)的基本屬性,比如用戶(姓名)-NECP_UMC_XTYHXX(YHMM)。
3.關(guān)系映射
關(guān)系映射是把二維表的關(guān)系映射到圖譜設(shè)計(jì)的某個(gè)具體關(guān)系上,二維表的某個(gè)關(guān)系可能關(guān)聯(lián)到2 張表,也可能關(guān)聯(lián)到3 張表。
圖譜構(gòu)建的過程則是把數(shù)據(jù)導(dǎo)入的基礎(chǔ)數(shù)據(jù)和數(shù)據(jù)庫(kù)映射的數(shù)據(jù),都構(gòu)建到知識(shí)圖譜當(dāng)中,供后續(xù)知識(shí)圖譜應(yīng)用。
關(guān)系特性是知識(shí)圖譜推理的重要基礎(chǔ),如“所屬角色”這個(gè)關(guān)系和“擁有用戶”是互為可逆的關(guān)系,比如用戶A-管理員-角色這樣的關(guān)系知曉了,是可以推理出角色-擁有用戶-用戶這樣的逆關(guān)系。此過程就是利用關(guān)系特性的對(duì)稱性、逆關(guān)系的設(shè)置達(dá)到關(guān)系推理的過程。
數(shù)據(jù)清洗是某些抽取到的數(shù)據(jù)在知識(shí)圖譜中要一個(gè)轉(zhuǎn)換的過程,比如非法字符過濾,數(shù)字轉(zhuǎn)換等。
歸一消歧的過程是對(duì)多個(gè)數(shù)據(jù)源的抽取到的實(shí)例有可能重復(fù)了,需要去重復(fù)的一個(gè)過程,如用戶信息,可能來自多個(gè)表,則需要對(duì)重復(fù)的用戶去重。
以原始憑證、記賬憑證、賬簿、報(bào)表、其他資料為核心,編制完成企業(yè)經(jīng)濟(jì)業(yè)務(wù)核算現(xiàn)狀報(bào)告,厘清會(huì)計(jì)檔案實(shí)體559 個(gè),要素5505 個(gè)以及它們的聯(lián)系,基于拖拉拽方式利用圖譜設(shè)計(jì)靈活構(gòu)建實(shí)體要素關(guān)系。
利用可視化渲染技術(shù),將圖譜設(shè)計(jì)的圖關(guān)系通過圖視覺方式展現(xiàn),結(jié)合圖路徑搜索、聚合算法、中心點(diǎn)算法、連通子圖計(jì)算等技術(shù)推理數(shù)據(jù)關(guān)系。利用3D 技術(shù),拖拽、縮放等交互方式,提升圖的可視效果,形成五大類會(huì)計(jì)檔案全鏈路網(wǎng)狀結(jié)構(gòu)知識(shí)圖譜。
以數(shù)字會(huì)計(jì)檔案館數(shù)據(jù)為基礎(chǔ),豐富圖譜的知識(shí)內(nèi)容;以邏輯關(guān)系鏈接為基礎(chǔ),分析、構(gòu)建、繪制知識(shí)載體聯(lián)系;以智能技術(shù)為支撐,完成建模、抽取、融合、存儲(chǔ)、計(jì)算與檢索,構(gòu)建體系化會(huì)計(jì)檔案知識(shí)譜系,挖掘最小檔案知識(shí)單元,實(shí)現(xiàn)場(chǎng)景式數(shù)據(jù)溯源,滿足企業(yè)數(shù)字化管理需求。
基于會(huì)計(jì)檔案的知識(shí)圖譜研究不是簡(jiǎn)單的數(shù)據(jù)梳理和統(tǒng)計(jì)分析,而是將會(huì)計(jì)檔案知識(shí)映射到向量空間參與計(jì)算,用深度學(xué)習(xí)挖掘隱藏關(guān)系,實(shí)現(xiàn)數(shù)據(jù)價(jià)值,惠及企業(yè)管理。
通過知識(shí)圖譜技術(shù)重塑關(guān)鍵要素的排列組合方式以及更深層次的數(shù)據(jù)加工,進(jìn)一步挖掘電力企業(yè)會(huì)計(jì)檔案價(jià)值,推進(jìn)業(yè)財(cái)管理智能化發(fā)展。
基于建立的會(huì)計(jì)檔案關(guān)系模型,基于會(huì)計(jì)檔案的知識(shí)圖譜應(yīng)用中接入會(huì)計(jì)檔案實(shí)例數(shù)據(jù)可提供數(shù)據(jù)的快速、全業(yè)務(wù)檢索,展示該數(shù)據(jù)全業(yè)務(wù)鏈條價(jià)值信息,助力企業(yè)數(shù)字化轉(zhuǎn)型。
知識(shí)圖譜技術(shù)應(yīng)用于會(huì)計(jì)檔案管理,可以推進(jìn)企業(yè)業(yè)務(wù)信息鏈與財(cái)務(wù)價(jià)值鏈的深度融合,挖掘業(yè)務(wù)信息與財(cái)務(wù)信息強(qiáng)關(guān)聯(lián)性,為數(shù)據(jù)治理提供便捷基礎(chǔ),將信息管理應(yīng)用向知識(shí)服務(wù)發(fā)展?;跁?huì)計(jì)檔案的知識(shí)圖譜,可以為大數(shù)據(jù)開放應(yīng)用提供支撐,實(shí)現(xiàn)財(cái)務(wù)基礎(chǔ)信息價(jià)值,為經(jīng)濟(jì)社會(huì)的發(fā)展創(chuàng)造價(jià)值、傳遞價(jià)值。