文/神華神東煤炭集團公司檔案室 王軍
檔案檢索系統(tǒng)深度開發(fā)應(yīng)用研究
文/神華神東煤炭集團公司檔案室 王軍
本文簡單介紹檔案檢索系統(tǒng)深度開發(fā)的指導(dǎo)思想和目標以及檔案檢索應(yīng)用系統(tǒng)的開發(fā)內(nèi)容,分析在進行檔案檢索系統(tǒng)深度開發(fā)工程設(shè)計中的原則以及技術(shù)指導(dǎo),研究檔案檢索系統(tǒng)深度開發(fā)工程的創(chuàng)新性。
檔案檢索;系統(tǒng)開發(fā);創(chuàng)新
一位作家曾說過:“檔案是歷史的生命”。在企業(yè)工作中,檔案不只是各種各樣的歷史記錄,也是現(xiàn)在甚至將來,領(lǐng)導(dǎo)制定相關(guān)政策決定的參考,是將來對曾經(jīng)所做工作的考核的依據(jù)。也是科學(xué)技術(shù)人員針對企業(yè)發(fā)展進行科學(xué)研究的第一手資料。做好企業(yè)的檔案管理工作對于研究制定科學(xué)合理的市場戰(zhàn)略,提高企業(yè)在經(jīng)營管理中的決策力至關(guān)重要。而且有利于提升企業(yè)的綜合實力。因此現(xiàn)在企業(yè)對于檔案管理和檔案檢索查閱工作越來越重視。在實際工作中,要想查閱企業(yè)的歷史檔案,常用的檢索方法就是使用關(guān)鍵詞進行檢索或者按照檔案歸檔時的整理目錄進行逐級地查找。進行一次檢索工作需要花費大量的時間精力,而且檢索效果比較差,查詢結(jié)果不夠明確清晰。為了更好更方便地利用企業(yè)的歷史檔案,發(fā)揮這些檔案的巨大潛在價值,國家在21世紀初就頒布了檔案行業(yè)的參考標準《歸檔文件整理規(guī)則》,為檔案管理工作指明了方向,提供了思路,《規(guī)則》的根本管理原則就是“簡化整理、深化檢索”。隨著計算機技術(shù)的廣泛使用,數(shù)字檔案成為行業(yè)和企業(yè)檔案的主要形式。利用計算機技術(shù)可以更高效地實現(xiàn)對檔案的檢索?,F(xiàn)階段為了更好地滿足人們對于檔案檢索的要求,需要對檢索系統(tǒng)進行更深層次的開發(fā),從而建立相關(guān)的規(guī)范,對不同的檔案進行整合,建立綜合性和專業(yè)性更強的數(shù)據(jù)庫,更好地發(fā)揮數(shù)字檔案資源的作用。
(一)指導(dǎo)思想。對檔案檢索系統(tǒng)進行深度開發(fā)是為了提升優(yōu)化現(xiàn)有系統(tǒng)的性能,設(shè)計一個效率更高,使用更方面的檢索系統(tǒng)。在對檔案檢索系統(tǒng)進行深度開發(fā)時要注意工作的四個指導(dǎo)思想。
1.統(tǒng)籌規(guī)劃。檔案的建立和檢索是一個復(fù)雜性比較高的工程。檔案根據(jù)時代不同,種類不同,部門不同等方面分為許許多多的種類,在進行深度開發(fā)的時候要考慮檔案的分類和檢索的準確性。工程建設(shè)需要采用國際通用的“ISO9001”質(zhì)量管理體系進行統(tǒng)一管理,從而確保工程建設(shè)的質(zhì)量。要對工程建設(shè)中的“需求分析、設(shè)計、測試維護”等不同階段的主要內(nèi)容進行統(tǒng)籌規(guī)劃,按照統(tǒng)一的標準進行設(shè)計和管理,從而更好地實現(xiàn)數(shù)字檔案的整合和對數(shù)據(jù)資源價值的挖掘。
2.需求導(dǎo)引。進行檔案檢索系統(tǒng)深度開發(fā)的關(guān)鍵就是提高檔案檢索的效果和效率。而實現(xiàn)這一目的需要對檔案資源進行分類索引,尤其是檔案的關(guān)鍵詞、短語等。要將這種供檢索使用的索引需求體現(xiàn)在設(shè)計中。
3.科技創(chuàng)新。檢索系統(tǒng)的深度開發(fā)主要依靠的是高新計算機技術(shù)的支持。在深度開發(fā)過程中會使用到大數(shù)據(jù)的存儲、數(shù)據(jù)容量的合理壓縮、數(shù)據(jù)傳輸及隱藏、數(shù)據(jù)的科學(xué)加密以及先進的文檔處理等技術(shù)。這需要進行大量的科技創(chuàng)新,從而更好地保障檔案資源的信息安全以及提高檔案的合理利用率。
4.持續(xù)發(fā)展。之所以對檔案檢索系統(tǒng)進行更深層次的開發(fā)利用,就是為了提高檔案資源使用的便捷度。而系統(tǒng)是否能夠為企業(yè)內(nèi)的用戶提供便利,只有用戶最有發(fā)言權(quán)。所以關(guān)于系統(tǒng)的深度開發(fā)是一個持續(xù)性的任務(wù),在開發(fā)過程中要經(jīng)常進行用戶的體驗使用,在使用過程中發(fā)現(xiàn)問題逐漸提高系統(tǒng)的性能。從而真正提高系統(tǒng)的專業(yè)性和方便性,實現(xiàn)系統(tǒng)開發(fā)的持續(xù)發(fā)展。
(二)系統(tǒng)深度開發(fā)的目標。通過分析以上四點進行檢索系統(tǒng)深度開發(fā)的指導(dǎo)思想,可以確定系統(tǒng)開發(fā)的目標主要有三個。
1.實現(xiàn)數(shù)字檔案資源的整合與深度挖掘。所謂“檔案檢索系統(tǒng)”,其最關(guān)鍵的基礎(chǔ)和前提是“檔案資源”。沒有檔案資源,進行系統(tǒng)深度開發(fā)沒有任何意義?,F(xiàn)階段,系統(tǒng)使用的檔案資源主要是數(shù)字類的資源,一方面包括之前紙質(zhì)檔案庫轉(zhuǎn)換成的數(shù)字檔案資源,另一方面也增加了之前沒有的聲音影像等影音資料,數(shù)字資源的內(nèi)容更加豐富。利用現(xiàn)代計算機技術(shù),將不同部門,不同站點,不同分公司的數(shù)字資源進行聯(lián)網(wǎng)共享就可以構(gòu)建出整個企業(yè)的檔案庫,實現(xiàn)檔案的科學(xué)整合,而且有利于后期對檔案信息的價值進行更深層次的挖掘。
2.創(chuàng)新知識獲得方式,提供多樣的信息形式。在數(shù)字信息庫建立之前,企業(yè)用戶要想查閱企業(yè)的相關(guān)檔案,只能在實體檔案庫獲得紙質(zhì)的檔案。現(xiàn)在通過數(shù)字信息資源的整理和新型檢索系統(tǒng)的建立,用戶只要有企業(yè)檔案查詢的賬號就可以隨時隨地調(diào)取任何站點的數(shù)字檔案,不用考慮時間和地點的限制。
3.一站式檢索企業(yè)的所有數(shù)字檔案。對檔案檢索系統(tǒng)進行深度開發(fā)后,可以實現(xiàn)企業(yè)各部門,各站點所有數(shù)字檔案的聯(lián)網(wǎng)。在進行檔案檢索的時候,可以像搜索引擎一樣展現(xiàn)檔案庫中存在的經(jīng)系統(tǒng)查詢到的所有結(jié)果,使得檔案檢索既快又準,提高企業(yè)檔案的綜合利用。
對檔案檢索應(yīng)用系統(tǒng)進行深度開發(fā)的主要內(nèi)容包括四部分。
(一)可以實現(xiàn)數(shù)據(jù)整合和深層次挖掘的平臺?,F(xiàn)階段,企業(yè)的檔案管理系統(tǒng)包括多個不同功能的數(shù)據(jù)庫。包括數(shù)據(jù)倉庫、文本數(shù)據(jù)庫、圖像影音數(shù)據(jù)庫等基本的信息數(shù)據(jù)庫,還有用于聯(lián)系各種不同數(shù)據(jù)庫的關(guān)系數(shù)據(jù)庫等。系統(tǒng)在使用的過程中主要是依靠管理調(diào)用關(guān)系數(shù)據(jù)庫來實現(xiàn)各種檢索功能,這也是檢索系統(tǒng)運行的基礎(chǔ)。實際使用中各種數(shù)據(jù)庫中的異構(gòu)數(shù)據(jù)無法實現(xiàn)兼容,利用粗集理論不能實現(xiàn)連續(xù)數(shù)據(jù)的處理。因此在進行系統(tǒng)深度開發(fā)的時候要利用新型技術(shù)建立新的數(shù)據(jù)處理平臺,從而實現(xiàn)對數(shù)據(jù)庫的數(shù)據(jù)的整合和挖掘。
(二)建立前端查詢以及搜索引擎系統(tǒng)。建立一種跟百度和谷歌類似的查詢窗口,方便用戶在這個平臺系統(tǒng)中進行基本的賬號注冊以及進行簡單的檔案查詢并獲得初始的檢索結(jié)果。搜索引擎系統(tǒng)利用采集程序和訪問程序,定時對系統(tǒng)內(nèi)的所有數(shù)字檔案進行訪問查閱,獲得相應(yīng)的信息,并將這些信息整合建立索引數(shù)據(jù)庫,作為進行檔案檢索的基礎(chǔ)數(shù)據(jù)庫。當用戶進行索引操作的時候,根據(jù)鍵入的關(guān)鍵詞,找到匹配數(shù)據(jù),并將索引對應(yīng)的資源庫的摘要和地址反饋給用戶,在檢索結(jié)果中呈現(xiàn).
(三)建立完善的中文分詞系統(tǒng)。企業(yè)的絕大部分檔案資源是中文資源或者影音資源。系統(tǒng)的用戶也主要以企業(yè)內(nèi)的中國員工為主。因此在實際進行檢索系統(tǒng)應(yīng)用的時候主要是以中文檢索的方式。由中文搜索引擎的使用經(jīng)驗可知,利用中文進行檢索的結(jié)果總是與我們的檢索目標存在差異。這主要是因為計算機檢索系統(tǒng)的識別問題。中文的句子表達以整句話為一個單位,而系統(tǒng)進行識別的時候則是以單個字或者單個詞組為一個單位。舉例來說,“我是一名管理員”,英文的表達方式是“I am an administrator”,計算機系統(tǒng)對英文的識別可以很方便的對每個單詞進行識別,確認關(guān)鍵詞。但是在進行中文識別的時候,如果分詞不準確,可能會出現(xiàn)“名管”“理員”這樣的錯誤識別。所以在提高系統(tǒng)對中文詞匯的識別能力,并進行正確合理的切詞。在系統(tǒng)深度開發(fā)的時候注意索引數(shù)據(jù)庫的建立,通過自動導(dǎo)入或者人工添加的方式,加入一些常用的企業(yè)相關(guān)的索引關(guān)鍵詞,從而提高系統(tǒng)對于中文分詞的準確性。
(四)后臺管理系統(tǒng)。任何系統(tǒng)都需要一個后臺管理系統(tǒng),便于日后對于系統(tǒng)的不斷完善,在出現(xiàn)故障的時候也可以直接進行系統(tǒng)維護。對檢索系統(tǒng)建立后臺管理系統(tǒng),一方面是便于檔案檢索系統(tǒng)用戶的管理以及系統(tǒng)數(shù)據(jù)庫的更新管理,同時也可以根據(jù)用戶需要設(shè)定不同的訪問權(quán)限,保障企業(yè)檔案的信息安全,避免關(guān)鍵信息的外泄。
(一)檔案檢索系統(tǒng)深度開發(fā)工程設(shè)計原則。主要如下:
1.系統(tǒng)的先進性:檔案檢索系統(tǒng)的深度開發(fā)就是為了方便未來的使用。為了在未來減少再次開發(fā)的次數(shù),提高系統(tǒng)的適用壽命,需要使用一些先進的開發(fā)技術(shù),保障系統(tǒng)的先進性。現(xiàn)階段在進行檔案檢索系統(tǒng)中比較常用而且可靠性比較強的核心技術(shù)有組件式開發(fā)技術(shù)、中文分詞技術(shù)以及GSML文檔處理技術(shù)等。
2.可擴展性以及信息開放性。利用組件式開發(fā)技術(shù),將系統(tǒng)分為三層結(jié)構(gòu):用戶層、數(shù)據(jù)層和中間層。用戶層以客戶端為主,便于客戶進行操作同時獲得檢索的數(shù)據(jù),不提供數(shù)據(jù)處理功能;數(shù)據(jù)層通過對數(shù)據(jù)庫進行訪問,獲得相應(yīng)的數(shù)據(jù);真正的核心部分是系統(tǒng)的中間層,對數(shù)據(jù)層獲得的數(shù)據(jù)進行科學(xué)處理,并通過用戶層的客戶端顯示給用戶,實現(xiàn)系統(tǒng)的開放性。當需要對系統(tǒng)進行升級維護的時候,用戶層和數(shù)據(jù)層不需要進行任何操作,只針對中間層進行,從而提高系統(tǒng)的升級速度,保證系統(tǒng)的正常使用。同時也可以通過增設(shè)中間層的方式來對系統(tǒng)進行擴展。
3.穩(wěn)定性和安全性。上面提到,系統(tǒng)的核心層面是中間層,其他兩層結(jié)構(gòu)對系統(tǒng)運行影響不大。進行深度開發(fā)的時候利用集群技術(shù)對系統(tǒng)中間層的組建進行配置,可以對中間層在運行中的動態(tài)負載進行平均分配。同時可以在不同服務(wù)器之間實現(xiàn)功能請求的分享,這樣既可以在不影響系統(tǒng)運行的情況下替換故障服務(wù)器,也可以在正常運行的情況下增設(shè)新的服務(wù)器,擴展系統(tǒng)的運行內(nèi)存,從而實現(xiàn)系統(tǒng)運行的穩(wěn)定性。系統(tǒng)的安全一方面是體現(xiàn)在訪問的安全,一般是利用DES等認證和加密技術(shù)來實現(xiàn),避免異常訪問;另一方面是檔案系統(tǒng)中原始數(shù)字資源庫的安全,為了避免數(shù)據(jù)的丟失和破壞,對數(shù)據(jù)庫采用多重備份機制以及丟失數(shù)據(jù)的恢復(fù)機制,同時建立相應(yīng)的日志記錄系統(tǒng),出現(xiàn)問題可以找出原因進行解決。從多方面保障系統(tǒng)的安全性。
4.易用易管性。在設(shè)計操作界面的時候要考慮用戶的使用習(xí)慣,PC端推薦使用windows操作系統(tǒng),如果開發(fā)手機端推薦使用安卓和蘋果系統(tǒng)。在操作流程實際中以向?qū)皆O(shè)計為主,便于客戶使用。同時設(shè)置“聯(lián)機幫助”功能,通過預(yù)置的幫助手冊為用戶使用提供指導(dǎo)。針對管理任務(wù),合理增加系統(tǒng)默認勾選對象,盡量實現(xiàn)對管理任務(wù)的“一鍵式”管理,從而提高管理的效率,使系統(tǒng)管理更加方便。
(二)檔案檢索系統(tǒng)深度開發(fā)工程技術(shù)指標。主要如下:
1.多種操作系統(tǒng)和多種系統(tǒng)數(shù)據(jù)庫的支持。實現(xiàn)檔案檢索系統(tǒng)在多種操作系統(tǒng)上的使用,PC端以Windows系統(tǒng)為主,同時要兼容使用國產(chǎn)Linux系統(tǒng)和蘋果電腦系統(tǒng);開發(fā)手機端使用,兼容安卓和蘋果手機系統(tǒng)。在數(shù)據(jù)庫支持方面要支持現(xiàn)階段使用最多的Oracle,Infomix,Db2和Mysql等數(shù)據(jù)庫。
2.支持不同數(shù)據(jù)源的檢索。一方面可以通過對數(shù)據(jù)庫搜索的方式進行檢索,另一方面要實現(xiàn)通過文件目錄地址的方式進行檢索,這種方式一般會更加地準確和高效。針對于不同類型的文件,系統(tǒng)深度開發(fā)的時候要設(shè)計不同文件格式之間進行轉(zhuǎn)換解析的工具,以便于在檢索的時候?qū)Ω黝愇募臄?shù)據(jù)內(nèi)容進行檢索,避免出現(xiàn)遺漏。
3.檢索服務(wù)的智能化。利用先進的智能技術(shù)提高檔案檢索的效率和準確度。常用的智能技術(shù)有相關(guān)度分析技術(shù)、擴展查詢技術(shù)、信息聚類及分類技術(shù)和語義規(guī)則庫技術(shù)。以語義規(guī)則庫技術(shù)為例,利用該技術(shù)可以對鍵入的檢索關(guān)鍵詞進行分析判斷,在進行檔案檢索的過程中會同時檢索該關(guān)鍵詞的同義詞或者近似詞,從而擴大了檔案檢索的結(jié)果,又避免了不必要的檢索結(jié)果,提高了檢索結(jié)果的準確性。利用這些只能檢索技術(shù)可以滿足大部分人對于檔案檢索的需求。
4.數(shù)據(jù)高效處理。利用先進計算方式和合理的索引設(shè)置對數(shù)據(jù)庫數(shù)據(jù)進行快速處理。
5.中文分詞技術(shù)。為了適用于企業(yè)用戶,檢索系統(tǒng)必須具備中文分詞技術(shù)。通過在不斷改進的過程中完善檢索詞庫,依靠詞庫和更先進的分詞技術(shù)提高中文分詞的準確性,也提高系統(tǒng)的運行效率,節(jié)省用戶檢索的時間。
6.提高更多檢索語法。多字段組合檢索是比較常用的檢索語法,能夠使檢索結(jié)果更加準確。通過系統(tǒng)深化增加檢索的語法種類,增設(shè)操作符、運算符等語法檢索規(guī)則。也可以設(shè)置特定檢索規(guī)則。
7.操作簡單、維護方便。檢索操作要符合用戶使用習(xí)慣,操作起來容易上手。通過構(gòu)建合理的后臺系統(tǒng),保證在出現(xiàn)故障的時候可以進行后臺維護。
一方面真正實現(xiàn)“全文檢索”的徹底轉(zhuǎn)變。通過對檔案檢索系統(tǒng)進行深度開發(fā),可以實現(xiàn)整個企業(yè)檔案的聯(lián)網(wǎng),改變原來針對獨立數(shù)據(jù)庫的單一檢索模式。在此基礎(chǔ)上可以實現(xiàn)對企業(yè)檔案數(shù)據(jù)的整合,有利于對檔案資源的檢索查詢以及對整體檔案價值的更深層次的挖掘。另一方面依據(jù)在進行系統(tǒng)深度開發(fā)中的實際工作,可以整理出一套既符合理論依據(jù)又具備實踐經(jīng)驗的標準規(guī)范。作為一種規(guī)范創(chuàng)新,這些標準可以為以后其他企業(yè)進行相應(yīng)的系統(tǒng)開發(fā)提供參考,有利于提高整個檔案管理行業(yè)的工作水平。
與此同時,通過對系統(tǒng)深度開發(fā)工程的實施,能夠有效改變企業(yè)在檔案管理和檔案檢索上的現(xiàn)狀,打破一直以來檔案管理和查詢中檢索范圍受時空限制的局限。為檔案行業(yè)的發(fā)展打開了新的局面,也為日后整個行業(yè)發(fā)展積累了經(jīng)驗,奠定了基礎(chǔ)。同時使企業(yè)職工甚至整個社會對于檔案部門和檔案的重要性有一個全新的認識,提高了整個行業(yè)的社會地位。
企業(yè)通過對檔案檢索系統(tǒng)進行深度開發(fā),于企業(yè)內(nèi)部來說能夠充分利用長期以來積累的企業(yè)檔案數(shù)據(jù),對未來企業(yè)制定規(guī)劃決策和研究技術(shù)革新具有重要意義;于整個檔案行業(yè)發(fā)展,能夠提供一種參考,促進整個行業(yè)發(fā)展?!緟⒖嘉墨I】
[1]王占花.論檔案數(shù)字化管理系統(tǒng)開發(fā)與實現(xiàn)[J].黑龍江科學(xué),2014(12):197-197.
[2]張帆.檔案信息資源共享平臺問題[J].檔案管理,2013(3):85.
[3]王朝鶴.企業(yè)電子檔案管理信息系統(tǒng)的設(shè)計與實現(xiàn)[D].重慶大學(xué),2013.10.7666/d.Y2397983.