文/中國國際工程咨詢有限公司 梁晨
數(shù)據(jù)挖掘技術是信息化社會發(fā)展的產(chǎn)物,將數(shù)據(jù)挖掘技術運用于檔案管理也是信息技術發(fā)展的必然。2003年,國家頒布了《工程咨詢業(yè)知識產(chǎn)權保護與管理導則》,明確工程咨詢過程中具有知識產(chǎn)權。并明確規(guī)定了工程咨詢過程中原始數(shù)據(jù)、試驗數(shù)據(jù)、勘察設計圖、合同書、工程總結報告等必須要歸檔保存。因此,在信息技術時代,運用數(shù)據(jù)挖掘技術,提升檔案管理水平,可以極大提升工程咨詢數(shù)據(jù)收集的速度與質量。
信息技術的革新促進了大數(shù)據(jù)時代的到來,物聯(lián)網(wǎng)、云計算等技術的成熟運用,使得數(shù)據(jù)增長不斷躍升,也對數(shù)據(jù)挖掘提出了更高的要求。數(shù)據(jù)挖掘正是適應信息社會海量數(shù)據(jù)提取有用信息的需要而產(chǎn)生的學科。它綜合統(tǒng)計學、機器學習、數(shù)據(jù)庫、人工智能等學科的交叉學科。具體來講,數(shù)據(jù)挖掘指的是運用一定的手段對已知大量數(shù)據(jù)進行分析與整合,從而得出其中具有巨大價值的信息。其特征主要有未知性、有效性及實用性。決策者通過數(shù)據(jù)挖掘技術在已知大量數(shù)據(jù)中尋找有價值的信息,從而預測未來可能出現(xiàn)的行為。數(shù)據(jù)挖掘技術在檔案管理中主要采用的方法有決策樹算法、聚類算法、關聯(lián)法等。
數(shù)據(jù)挖掘主要由兩種形式構成:一是描述性數(shù)據(jù)挖掘技術。即利用描述行為對數(shù)據(jù)中存在的規(guī)則進行描述,并根據(jù)數(shù)據(jù)的微觀特點找出其深層次、宏觀知識,并將同類事物的相同屬性進行概括、總結和抽象描述。二是預測性數(shù)據(jù)挖掘技術。它是將已存在的數(shù)據(jù)進行分析與處理,并總結出同類事物的共同屬性,預測未來一定時期內(nèi)這類事物的規(guī)律。
工程咨詢企業(yè)檔案管理是運用系統(tǒng)化觀點對工程咨詢行業(yè)的檔案文件以及資料作為服務對象進行的管理工作。工程咨詢企業(yè)檔案管理主要包括兩方面:一是企業(yè)發(fā)展的歷史檔案,二是記錄企業(yè)技術成果的檔案,而后者是工程咨詢檔案管理中的主要部分,它主要指工程咨詢企業(yè)為客戶提供服務完成的咨詢成果檔案,它包括投資項目可行性報告、項目建議書、項目申請報告、規(guī)劃咨詢等。企業(yè)技術成果檔案是工程咨詢企業(yè)從接受委托到進行調(diào)研、編審、直到審批和出具報告書的過程中形成的具有查考及保存價值的文字及材料。
工程咨詢企業(yè)在接受委托進行服務的過程中,會產(chǎn)生大量應歸檔的文件材料,也迫切要運用利用檔案資源處理和解決問題。而多角度、多層次地將工程咨詢企業(yè)檔案的靜態(tài)信息轉化為企業(yè)運用檔案資源所需的動態(tài)信息,從而更好地實現(xiàn)企業(yè)內(nèi)外部信息共享,實現(xiàn)大數(shù)據(jù)環(huán)境下企業(yè)咨詢檔案管理的現(xiàn)代化,這都需要深入運用數(shù)據(jù)挖掘技術來實現(xiàn)。
大數(shù)據(jù)時代,檔案管理也逐漸向“智慧檔案”“大服務”等方向發(fā)展,我國工程咨詢行業(yè)發(fā)展十分迅速,但行業(yè)內(nèi),檔案管理混亂,依舊沿用傳統(tǒng)檔案管理體系,工程咨詢檔案管理水平不高,在一定程度上局限了檔案工作的開展。
(一)檔案信息資源分散,共享程度低。工程咨詢企業(yè)的檔案管理系統(tǒng)在進行信息化建設時,并沒有在企業(yè)內(nèi)外進行統(tǒng)籌規(guī)劃或者統(tǒng)一標準,而是自成體系,造成數(shù)據(jù)庫異構現(xiàn)象,檔案信息孤立,難以共享,“信息孤島”的出現(xiàn),使得網(wǎng)絡資源整體利用率不高,也給檔案管理的數(shù)據(jù)挖掘工作帶來一定的困難,影響了工程咨詢企業(yè)對于檔案數(shù)據(jù)利用的需求。要解決此類問題,工程咨詢企業(yè)在檔案開發(fā)過程中,要重新審視在新形勢下檔案管理資源管理面臨的新情況、新理論,確立大數(shù)據(jù)時代檔案信息資源的開發(fā)、管理和服務的基本框架與方法,充分實現(xiàn)檔案管理的服務功能。
(二)數(shù)據(jù)的深度挖掘不夠。目前,工程咨詢檔案系統(tǒng)仍處在資源收藏階段,將館藏資源轉化為有價值的信息和內(nèi)容的能力不高。在大數(shù)據(jù)時代,傳統(tǒng)檔案管理方式的地位日益下降,這不僅反映了人們生活方式的轉變,同時也側面表現(xiàn)出檔案管理日常工作的局限性,也就是說相關主體過度關注資源的接收和保存工作,忽視了對資源本身挖掘,大量富有深層次價值的信息資源被無意識地擱淺,造成資源浪費。在信息爆炸的時代浪潮中,對數(shù)字資源的處理應將建設與服務并重,重視對獲取信息的深度整合處理?!按髷?shù)據(jù)”對信息的深度和廣度提出了全新的要求,工程咨詢檔案管理要提高對數(shù)據(jù)的處理能力,在接收、保存數(shù)據(jù)的同時,對數(shù)據(jù)信息進行全面整合。在這個過程中,計算機技術發(fā)揮的作用不容忽視,它能夠輔助相關工作者快速準確地進行信息的分類、整合,挖掘出信息承載的深層次價值,進而推動技術和知識的發(fā)展變革。
(三)檔案信息化轉化不足。就目前的情況來看,工程咨詢企業(yè)對信息數(shù)字化處理的程度不高,其主要表現(xiàn)在兩個方面:一是傳統(tǒng)檔案占比過高。經(jīng)過長期的搜集整理,實體檔案資源的質量和數(shù)量有先天優(yōu)勢,人們已經(jīng)習慣翻查紙質文檔,導致數(shù)字檔案資源的發(fā)展緩慢。二是信息結構不合理。受傳統(tǒng)因素影響,工程咨詢檔案多為結構化信息,對半結構化和非結構化信息的接受、處理能力較低。在兩種因素的相互作用下,檔案信息化轉化的進程緩慢。信息轉化要求相關工作者將實體信息轉化為數(shù)字信息,進而實現(xiàn)二次保存處理。在單一的信息結構影響下,很多富有價值的半結構化、非結構化信息并未進入到處理流程,限制了檔案信息自身的寬度。工程咨詢檔案管理應著力解決上述問題,加快信息化轉化步伐,協(xié)調(diào)傳統(tǒng)檔案與電子檔案的占比,使之符合大數(shù)據(jù)時代的基本要求。與此同時,通過科學有效的處理方式,將半結構化和非結構化信息結構化,完成檔案資源的全覆蓋。
(一)檔案管理全過程中數(shù)據(jù)挖掘技術的運用。隨著時代的進步,信息技術已然滲透到各行業(yè)的實際工作中。在檔案管理方面,數(shù)據(jù)挖掘技術起到的作用越來越大。一方面,數(shù)據(jù)挖掘技術能夠對已有信息進行深層次分析解讀,實現(xiàn)信息價值的最大化。另一方面,數(shù)據(jù)挖掘技術節(jié)省了大量的人力物力成本,提高了信息處理的效率和質量。在工程咨詢檔案信息管理系統(tǒng)中,數(shù)據(jù)挖掘技術能夠實現(xiàn)的功能頗多,在以下三個方面有較為出色的表現(xiàn):1.檔案分類中的運用。在工程咨詢檔案管理中,已獲取的檔案信息可根據(jù)實際情況劃分為兩大基本形態(tài),即已分類信息和未分類信息。由于信息本身的形態(tài)特征,其分類也具有一定的特殊性,通常來說,我們根據(jù)信息的屬性對其進行類別劃分。在對特征各異的信息進行篩選、排查的過程中,工作人員所需承擔的工作量十分龐大,且由于信息數(shù)量較多,極易發(fā)生分類錯誤。此時借助數(shù)字挖掘技術能夠節(jié)省大量的工作成本,提高工作效率。數(shù)字挖掘在檔案分類過程中的流程相對簡單:首先提取已分類信息的訓練集,為分類工作提供參考。而后分析訓練集呈現(xiàn)出的分類特點,并依此建立分類模型,展開實際的分類工作。在數(shù)字挖掘技術的幫助下,已分類信息的特點被快速抓取出來,獲取原始數(shù)據(jù)信息的效率更高。而經(jīng)過科學的計算分析,未分類信息能夠依據(jù)模型快速完成分類,信息服務質量得以提升。2.檔案收集中的運用。與檔案分類相似,在檔案收集過程中,數(shù)據(jù)挖掘技術的應用同樣涉及模型建立。在對數(shù)據(jù)庫信息進行分析后,得出實際的數(shù)據(jù)模型,將之與測試模型進行比對。如果兩模型相匹配,則證明測試模型準確,可以按模型進行分類;如果兩模型不匹配,則說明測試模型的建立存在問題,需對其進行調(diào)整處理。3.工程咨詢檔案反饋信息處理。在工程咨詢檔案系統(tǒng)內(nèi)部,信息的交流傳遞具備一定的特性,各子項對系統(tǒng)都具備反饋能力和義務。子項反饋的調(diào)研、分析等信息通過數(shù)據(jù)挖掘技術,實現(xiàn)了更高速的傳播和分享,提升了系統(tǒng)的運作效率。與此同時,檔案資源實現(xiàn)了信息化轉化,對信息系統(tǒng)的發(fā)展完善又起到了良好的促進作用。
(二)管理者思想與理念的更新。對于一個組織結構較為完整的體系而言,管理者的觀念和行為對系統(tǒng)發(fā)展有著重要影響。工程咨詢企業(yè)的管理者必須明確信息化是檔案管理發(fā)展的必然方向,積極引入新技術、新方式,提高信息處理的效率。同時,將全新的管理和運營理念傳播到整個系統(tǒng)內(nèi),促進檔案管理部門的職能轉變。從實用的角度來看,工程咨詢檔案管理的最終目的是利用歷史數(shù)據(jù)信息,對后續(xù)的工作、行為提供參考和指導。一旦信息本身缺乏利用價值,它也便失去了作為檔案的基本價值。因此,工程咨詢檔案管理部門應開放視野,在完成基本的信息整合、保存工作基礎上,對信息價值進行深度挖掘和利用。與其他系統(tǒng)間存在內(nèi)部合作關系相同,其工作也應得到其他部門的協(xié)助和支持,充分調(diào)動企業(yè)的各項資源,實現(xiàn)信息的交流共享。
(三)數(shù)據(jù)挖掘的客觀性。受實際方法影響,在工程咨詢檔案管理利用數(shù)據(jù)挖掘技術對信息進行處理時,工作者得到的數(shù)據(jù)解讀具有一定的差異性。這種差異性與處理錯誤不同,它反映的是不同方法對信息的解讀結果,準確性極高,但主觀性略大。有鑒于此,在利用數(shù)據(jù)挖掘技術進行檔案管理時,應以分析目的為出發(fā)點,選擇恰當?shù)姆椒ǎ瑢?shù)據(jù)信息進行處理。同時也應明確,數(shù)據(jù)挖掘僅僅是輔助完成數(shù)據(jù)分析解讀的助力,它因數(shù)據(jù)而生,服務于數(shù)據(jù),技術本身需尊重檔案管理原則。隨著社會的不斷發(fā)展,信息數(shù)量激增,工程咨詢檔案管理工作面臨著越來越多的挑戰(zhàn),雖然數(shù)據(jù)挖掘具備諸多優(yōu)點,但其仍舊無法完全滿足檔案管理發(fā)展的需要。所以,在充分利用數(shù)據(jù)挖掘技術的同時,歸根到底是工程咨詢檔案管理充分向信息化轉變,才能確保工程咨詢檔案管理更好地為企業(yè)服務。
在應用層面,數(shù)據(jù)挖掘技術在學術界、工業(yè)界等諸多領域都已初露頭角,取得了一定的成績。在工程咨詢檔案管理工作中,數(shù)據(jù)挖掘技術能夠提高信息處理的速度和效率,壓縮信息處理消耗的人力物力成本,具備很大的現(xiàn)實價值。為此,我們更應該注重數(shù)據(jù)挖掘技術在工程咨詢檔案工作中的應用,將數(shù)據(jù)挖掘技術的價值最大化,利用更加先進的技術手段,提升檔案管理工作質量。