劉鑫
摘 要:本文對(duì)核電廠文檔信息系統(tǒng)建設(shè)的現(xiàn)狀加以分析,從中總結(jié)出目前文檔信息系統(tǒng)建設(shè)中的先進(jìn)經(jīng)驗(yàn),并對(duì)文檔系統(tǒng)應(yīng)關(guān)注的前沿方向予以展望、探索。通過這些展望與探索,挖掘出文檔信息系統(tǒng)內(nèi)的數(shù)據(jù)優(yōu)勢(shì),更好地為生產(chǎn)運(yùn)行提供支持保障。
關(guān)鍵詞:文檔系統(tǒng);知識(shí)熱點(diǎn);功能;建設(shè)
一、核電廠文檔信息系統(tǒng)現(xiàn)狀
核電廠文檔信息系統(tǒng)以Filenet、Documentum等平臺(tái)搭建。秦山核電依托Filenet平臺(tái)建立的ECM系統(tǒng)代表了目前核電廠文檔信息系統(tǒng)的最高能力。但該系統(tǒng)仍是以文檔存儲(chǔ)、文檔流程為主要功能,并不具備事物流、數(shù)據(jù)流、數(shù)據(jù)交互的功能。
1.核電廠文檔信息系統(tǒng)建設(shè)成果。ECM系統(tǒng)是以國(guó)家檔案局在2017年發(fā)布《企業(yè)數(shù)字檔案館(室)建設(shè)指南》中“數(shù)字化檔案館的建設(shè)”為指導(dǎo)思想,以“通過計(jì)算機(jī)系統(tǒng)將各生產(chǎn)系統(tǒng)、管理系統(tǒng)的數(shù)據(jù)進(jìn)行自動(dòng)捕獲歸檔”為實(shí)施思路,開發(fā)建立的國(guó)內(nèi)新型文檔信息系統(tǒng)。縱觀核電文檔信息系統(tǒng)建設(shè)情況,已從離線收集檔案數(shù)據(jù),向在線收集檔案數(shù)據(jù)的方向發(fā)展,并向大數(shù)據(jù)管理與利用的方向發(fā)展。
2.核電廠文檔信息系統(tǒng)建設(shè)的良好實(shí)踐。核電廠文檔信息系統(tǒng)已實(shí)現(xiàn)從其他系統(tǒng)自動(dòng)對(duì)接電子數(shù)據(jù)與電子文檔,減少了文檔數(shù)據(jù)離線傳遞而導(dǎo)致的出錯(cuò)率,避免了電子文件重復(fù)加工?,F(xiàn)在的文檔信息系統(tǒng)也具備了多維度文檔分類的雛形,通過不同視角透視文檔結(jié)構(gòu),部分滿足不同用戶構(gòu)建文檔樹狀結(jié)構(gòu)的需求。文檔信息系統(tǒng)也具備了評(píng)價(jià)功能,用戶可對(duì)文檔的利用效果進(jìn)行評(píng)價(jià);通過用戶主動(dòng)推薦對(duì)知識(shí)熱點(diǎn)加以標(biāo)引,初步實(shí)現(xiàn)知識(shí)管理的雛形。
二、核電廠文檔信息系統(tǒng)建設(shè)存在的不足之處
1.與生產(chǎn)系統(tǒng)的嵌入能力不足。文檔信息系統(tǒng)的建設(shè)方向注重了數(shù)據(jù)的單向收集,而未注重文檔數(shù)據(jù)向外部信息系統(tǒng)的主動(dòng)發(fā)送利用。不能與生產(chǎn)系統(tǒng)雙向?qū)踊蚯度?,生產(chǎn)系統(tǒng)不能良好的調(diào)用文檔系統(tǒng)數(shù)據(jù),做不到互相標(biāo)引。
2.“事物—文檔”數(shù)據(jù)流欠缺。目前文檔的產(chǎn)生來源于孤立事件,但系統(tǒng)化的文檔是產(chǎn)生于事物流、數(shù)據(jù)流。并能通過事物流、數(shù)據(jù)流將文檔信息加以動(dòng)態(tài)整合。以某項(xiàng)目運(yùn)作為例,立項(xiàng)、審批、論證、采購(gòu)、驗(yàn)收、完工等環(huán)節(jié),在不同系統(tǒng)或者離線完成,產(chǎn)生的文檔則離散存儲(chǔ)于不同之處,文檔系統(tǒng)性較差。
3.提取知識(shí)點(diǎn)的能力不足。核電廠主要的知識(shí)點(diǎn)集中在手冊(cè)、圖紙、記錄等各類文檔中。文檔信息系統(tǒng)不具備發(fā)現(xiàn)知識(shí)熱點(diǎn)的能力,不具備有效的算法對(duì)知識(shí)熱點(diǎn)標(biāo)引,成為知識(shí)管理的瓶頸。傳統(tǒng)的用戶主動(dòng)標(biāo)引模式很難調(diào)動(dòng)用戶積極性,知識(shí)熱點(diǎn)識(shí)別的準(zhǔn)確度不高。
4.基于內(nèi)容的互相關(guān)聯(lián)未做好。文檔信息系統(tǒng)具備了全文檢索能力,但基于全文內(nèi)容的數(shù)據(jù)挖掘能力還不具備,也沒有采用數(shù)據(jù)挖掘工具。以系統(tǒng)流程圖為例,圖中均有設(shè)備、系統(tǒng)、流程指向等數(shù)據(jù),但無法基于內(nèi)容數(shù)據(jù)進(jìn)行文檔自動(dòng)關(guān)聯(lián)。
三、文檔信息系統(tǒng)未來建設(shè)的思考
首先,需要建立文檔數(shù)據(jù)與其他生產(chǎn)系統(tǒng)數(shù)據(jù)雙向?qū)拥哪芰?其次,應(yīng)建立“事務(wù)—文檔”數(shù)據(jù)流;再次,應(yīng)考慮知識(shí)熱點(diǎn)的自動(dòng)發(fā)掘能力;最后,是基于文檔內(nèi)容的相互之間關(guān)聯(lián)功能。
1.其他系統(tǒng)的嵌入
(1)文檔數(shù)據(jù)雙向傳遞標(biāo)準(zhǔn)接口。文檔信息系統(tǒng)與外部系統(tǒng)之間進(jìn)行數(shù)據(jù)交互,需建立雙向傳遞的功能。實(shí)現(xiàn)外部系統(tǒng)產(chǎn)生的文檔數(shù)據(jù)自動(dòng)捕獲進(jìn)入文檔信息系統(tǒng),文檔信息系統(tǒng)的數(shù)據(jù)能主動(dòng)傳遞與外部系統(tǒng)或被外部系統(tǒng)調(diào)用。文檔信息系統(tǒng)成為文檔數(shù)據(jù)交換的中心,外部系統(tǒng)圍繞該中心無縫雙向傳遞文檔數(shù)據(jù)。實(shí)現(xiàn)此能力需建立標(biāo)準(zhǔn)數(shù)據(jù)傳遞接口,外部系統(tǒng)在系統(tǒng)開發(fā)時(shí)涉及到文檔傳遞,只需調(diào)用標(biāo)準(zhǔn)接口無需再次開發(fā)。但其缺陷是標(biāo)準(zhǔn)接口是普遍適用,難以滿足系統(tǒng)之間文檔使用的個(gè)性需求。
(2)嵌入式的文檔功能模塊。可將文檔管控基礎(chǔ)功能整合為功能模塊,各外部系統(tǒng)在建設(shè)時(shí),可將此功能模塊嵌入。文檔功能模塊應(yīng)用目標(biāo)是外部系統(tǒng),模塊功能可略為簡(jiǎn)化,能做到增、刪、改、查,簡(jiǎn)單報(bào)表則可,文檔專業(yè)的歸檔、組卷、排架等功能可省略。文檔功能模塊應(yīng)滿足跨平臺(tái)應(yīng)用。
(3)文檔模塊元數(shù)據(jù)自定義。文檔模塊元數(shù)據(jù)定義,首先需滿足行業(yè)標(biāo)準(zhǔn)加以初始化定義。但文檔模塊應(yīng)用于外部系統(tǒng),有自身業(yè)務(wù)元數(shù)據(jù)與生成的文檔緊密相關(guān)。因此應(yīng)考慮在文檔模塊功能不變的前提下,在標(biāo)準(zhǔn)元數(shù)據(jù)的基礎(chǔ)上,允許外部系統(tǒng)增加個(gè)性元數(shù)據(jù)。及時(shí)將各外部系統(tǒng)個(gè)性化元數(shù)據(jù)收集分析,對(duì)于重復(fù)度高的可視為高耦合數(shù)據(jù),及時(shí)納入標(biāo)準(zhǔn)元數(shù)據(jù)之中。
2.基于事物流創(chuàng)建文檔流
(1)事物—文檔流模型。以項(xiàng)目建設(shè)為例,其生命周期內(nèi)不同階段均產(chǎn)生、使用文檔,生成記錄。文檔信息系統(tǒng)應(yīng)考慮在系統(tǒng)內(nèi)建立事物流概念,如立項(xiàng)、評(píng)價(jià)、審批、上報(bào)、論證、執(zhí)行、驗(yàn)收等事物環(huán)節(jié)。事物環(huán)節(jié)內(nèi)定義觸發(fā)事物所必需的文檔條件、事物執(zhí)行后產(chǎn)生文檔列表等。事物流概念與嵌入式文檔模塊相結(jié)合,外部系統(tǒng)生成文檔時(shí)將關(guān)聯(lián)事物信息一并歸檔到文檔信息系統(tǒng)。最終實(shí)現(xiàn)以事物的總體視角將相關(guān)文檔進(jìn)行有序組合。
(2)從外部系統(tǒng)獲取事物流。事物流的創(chuàng)建,并非全部從文檔信息系統(tǒng)觸發(fā)。專業(yè)系統(tǒng)中已具備專業(yè)事物(辦理)流,文檔信息系統(tǒng)則應(yīng)將專業(yè)事物流要素納入其中,與文檔系統(tǒng)數(shù)據(jù)相結(jié)合。但應(yīng)考慮不同外部系統(tǒng)事物流數(shù)據(jù)結(jié)構(gòu)的不同,獲取外部事物流與文檔應(yīng)優(yōu)先考慮標(biāo)準(zhǔn)封裝格式數(shù)據(jù),以便于讀取與解析。
(3)綜合組合事物流。事物流可從文檔信息系統(tǒng)觸發(fā),也可外部系統(tǒng)觸發(fā)。實(shí)際工作中,一項(xiàng)事物會(huì)切分為若干事物子項(xiàng),每一事物子項(xiàng)具備自身的事物流。各子項(xiàng)事物流需鏈接與整合,各子項(xiàng)事務(wù)產(chǎn)生的文檔整合在一起才為完整的項(xiàng)目文檔。文檔信息系統(tǒng)需在獲取多子項(xiàng)事物流之后,進(jìn)行事物流整合,最終保證全部過程產(chǎn)生的文檔數(shù)據(jù)為有序整體。
(4)事物流交互提供。事物流關(guān)系結(jié)構(gòu)中,上一事物流的結(jié)果往往是下一事物流觸發(fā)的條件。文檔信息系統(tǒng)在具備事物流整合能力時(shí),應(yīng)注重事物流生成文檔的可交互性,實(shí)現(xiàn)從不同系統(tǒng)獲取文檔,依照事物流總流程,自動(dòng)提交與下一級(jí)事物流,從文檔的角度將綜合流程打通。
3.自動(dòng)提取知識(shí)熱點(diǎn)
(1)檢索條件與結(jié)果統(tǒng)計(jì)知識(shí)熱點(diǎn)。文檔信息系統(tǒng)已實(shí)現(xiàn)多種檢索能力,應(yīng)在檢索條件與檢索結(jié)果利用方面進(jìn)行統(tǒng)計(jì)、算法計(jì)算。對(duì)用戶的檢索詞進(jìn)行統(tǒng)計(jì),可分析出搜索熱詞,可得知用戶關(guān)注的知識(shí)方向,提供熱詞自動(dòng)提醒。檢索結(jié)果利用對(duì)點(diǎn)擊率高的文檔進(jìn)行統(tǒng)計(jì),得出搜索熱詞與文檔之間的相關(guān)性。相關(guān)性高可做優(yōu)先推送,提供精準(zhǔn)利用。
(2)閱讀行為提取知識(shí)熱點(diǎn)。用戶查閱電子文檔時(shí),有價(jià)值的部分閱讀時(shí)間長(zhǎng),無價(jià)值的略過。統(tǒng)計(jì)分析電子文檔有效閱讀時(shí)間,用戶對(duì)某文檔閱讀時(shí)間明顯高于其他文檔,則可認(rèn)定該文檔的內(nèi)容價(jià)值較高,用戶較為關(guān)注。同一篇文檔中,某部分有效閱讀時(shí)間高于其他章節(jié),可認(rèn)定該部分則包含了潛在的熱點(diǎn)知識(shí)??梢宰鳛闊狳c(diǎn)知識(shí)儲(chǔ)備。
(3)分詞分析知識(shí)熱點(diǎn)。熱點(diǎn)文檔、熱點(diǎn)片段包含了知識(shí)熱點(diǎn)。運(yùn)用技術(shù)手段對(duì)內(nèi)容文字分詞分析、關(guān)鍵詞標(biāo)引,通過用戶不斷積累有效閱讀時(shí)間,內(nèi)容中分詞標(biāo)引次數(shù)則會(huì)明顯升高,可分析出熱點(diǎn)知識(shí)詞匯。進(jìn)而通過與檢索熱詞對(duì)比,與其他熱點(diǎn)文檔所標(biāo)引的熱點(diǎn)詞匯對(duì)比,逐步篩選出共性熱點(diǎn)詞匯,在大量自動(dòng)標(biāo)引與比對(duì)之后,熱點(diǎn)知識(shí)可以初見模型。
4.基于文檔內(nèi)容自動(dòng)關(guān)聯(lián)
文檔之間是多對(duì)多的關(guān)系,樹狀目錄是一對(duì)多關(guān)系,需運(yùn)用網(wǎng)狀關(guān)系進(jìn)行描述。
(1)特定關(guān)鍵詞分析。以流程圖為例,特定文檔包含特定含義的關(guān)鍵詞,例如系統(tǒng)代碼等。特定關(guān)鍵詞與日常詞匯語義不同,沒有模糊含義,可作為基于文檔內(nèi)容管理的觸發(fā)條件。例如,對(duì)系統(tǒng)代碼進(jìn)行提取,可知哪些文檔對(duì)該系統(tǒng)有記錄,多文檔提取后,可獲得該系統(tǒng)相關(guān)的文檔圖譜。
(2)特定關(guān)鍵詞建立網(wǎng)狀文檔關(guān)系。多份文檔具有多個(gè)特定關(guān)鍵詞,通過計(jì)算機(jī)自動(dòng)建立網(wǎng)狀關(guān)系。通過一份文檔可以可視化的看到與其內(nèi)容有所關(guān)聯(lián)的文檔全集,用可視化手段實(shí)現(xiàn)用戶進(jìn)行文檔逐步探索的需求。
(3)通過用戶行為,建立關(guān)系主干。網(wǎng)狀關(guān)系中關(guān)系程度有強(qiáng)弱之分。通過用戶行為分析,根據(jù)探索點(diǎn)擊率、被點(diǎn)擊文檔的有效閱讀時(shí)間,標(biāo)注關(guān)系強(qiáng)弱。通過關(guān)系圖探索,點(diǎn)擊率越高,且有效閱讀時(shí)間越長(zhǎng),則文檔之間關(guān)系越強(qiáng)。根據(jù)強(qiáng)關(guān)系實(shí)現(xiàn)智能推薦。
四、結(jié)論
核電廠文檔信息系統(tǒng)經(jīng)過長(zhǎng)期的建設(shè),目前需要探索的是如何將文檔中所包含的浩瀚的知識(shí)加以有組織的利用。讓用戶搜索提取知識(shí)的模式已經(jīng)過時(shí),需要通過計(jì)算機(jī)建立與用戶行為相似的學(xué)習(xí)模式,用信息系統(tǒng)自主學(xué)習(xí)的方法,幫助用戶預(yù)先規(guī)劃好文檔信息,提取關(guān)鍵數(shù)據(jù),建立出關(guān)聯(lián)文檔,主動(dòng)精準(zhǔn)推送與用戶利用。
參考文獻(xiàn):
[1]錢 毅.《電子文件管理系統(tǒng)通用功能要求》(GB/T 29194)解讀[J].北京檔案,2018
[2]蘇 博.基于工作流的電子文件管理系統(tǒng)功能分析[J].機(jī)電兵船檔案,2019
[3]王 華,王 瑾,馮萍萍.企業(yè)重要業(yè)務(wù)平臺(tái)電子文件歸檔與電子檔案集成利用研究[J].浙江檔案,2018
(作者單位:中核核電運(yùn)行管理有限公司)