馬木生
摘要:信息技術為人們的生活帶來了巨大的改變,隨著社會信息化程度的加深,各個行業(yè)、各個領域逐漸涉及到信息技術,逐漸開始重視對信息的處理與審視。信息管理與審視的主要手段是利用信息管理系統進行操作,目前在社會各個領域中備受關注。其中尤其檔案信息管理是目前比較常用的信息管理系統,而且檔案信息管理技術對于機關、企業(yè)等領域來說非常重要,有著獨特的屬性,如何提高檔案信息管理的效率,筆者認為要從檔案信息檢索技術入手,提高檔案信息檢索技術的有效性將會是檔案信息管理工作現階段以及未來必須重視的課題。
關鍵詞:檔案信息;檢索技術;檔案管理
隨著時代的進步,科學技術日益完善,信息技術的發(fā)展與更新未來傳統檔案管理帶來了新的挑戰(zhàn),經過很多年的累積、收集、整理檔案數量十分龐大,而且目前對檔案利用的方式卻發(fā)生很大的變化。從傳統的檔案管理來看,主要是以手工信息檢索的為主,在檢索之前需要制作帶有目錄的條目卡片,讓后續(xù)使用更加方便。隨著時代的發(fā)展,機械式信息檢索隨之出現,主要是設備上的進步,采用了打孔機、分類機等等設備,能夠對二次文獻進行更好的記錄與收集,而且可以通過電刷進行更加有效率的檢索。每一次對檢索方式進行改善都是一次進步。在信息技術的支持下,這些傳統方式都無法滿足現代檔案信息管理與使用的要求,對設備依賴大,而且非常復雜,并且檢索效率與檢索質量都不高。因此,檔案信息檢索技術在這樣的背景之下產生,利用計算機能夠提高檔案檢索的效率與質量。目前,為了提高對檔案的使用率,廣大研究者逐步開發(fā)了檔案管理系統,為了達到實現檔案信息共享還建立了檔案數字化館,不僅實現了實現了檔案信息化檢索的目標,而且擴大了檢索的范圍,質量更高,能夠滿足廣大人群事實檢索的要求??梢哉f,檔案信息檢索技術的推出,讓檔案信息再次“活”起來。
一、檔案信息檢索技術的發(fā)展
信息化的發(fā)展帶來新的技術、新的文化以及新的交際方式。信息技術在檔案管理的應用中得到了前所未有的發(fā)展,但是從目前發(fā)展的現狀來看,還有很多地方需要進行改善。目前,檔案管理系統開發(fā)了檔案信息檢索功能,廣大用戶可以通過檔案信息檢索系統進行目標查詢,用戶一般在查詢檔案信息時采用的是關鍵字模糊查詢,而相關查詢結果則是事先經過錄入做好順利排列之后進行輸出的,雖然具備檢索的功能,但是其檢索結果并沒有像預期一樣達到用戶真正需要的檢索意圖,甚至沒有對查詢中一些關鍵因素進行深入的分析,比如,關于關鍵詞出現的頻率,關鍵詞出現的位置以及關鍵詞的重要程度等等,因此,很多時候檢索結果都是無序狀態(tài),甚至和用戶想要查詢的結果沒有存在基本的關聯性,最終無法并沒有真正滿足到客戶的實際需求。類似這樣的檔案信息檢索結果并沒有真正的意義,尤其是從廣大用戶的角度來看,這樣的檢索不僅浪費時間,而且整個檢索過程異常乏味,而且大部分用戶不可能去一一查看結果。因此,針對目前的檔案信息檢索存在的一些普遍問題,本文的研究主要是基于原來的基礎上進行改進,主要是針對目前默認的查詢結果進行改善,讓查詢結果排序更加人性化,以相關度為依據從高到底來進行顯示,這樣能夠讓用戶在極短的時間內檢索到自己想要的信息。
檔案的價值最終體現在“用”這個環(huán)節(jié)上,如果檔案一直被存放在庫房而沒有被使用,檔案也就失去了原有的價值,更是一張張等著發(fā)霉的廢紙。如何針對檔案信息化系統進行改進,如何做好檔案信息檢索,如何才能在龐大的檔案信息中準確找到自己的想要的信息,這才是我們必須要關注并且解決的問題。隨著信息技術的發(fā)展,數字化檔案建設之后瀏覽的人數與日俱增。而且不同的人有自己不同的思維模式,就大部分人來說他們對檔案的記憶都是非常模糊的、片段的,本身自己的查詢意圖就不明確,在查詢時一開始都是以試探的方式進行。如何滿足這些用戶的實際需求,如何讓用戶能夠準毫無遺留的找到檔案信息,這就要檔案信息管理系統必須具備一套非常強大并且人性化的檢索功能,讓廣大客戶能夠根據檢索具備的基礎條件進行更好的查詢,這樣查詢結果將會更加準確、更加效率。目前,能夠滿足不同的用戶不同需求的檢索功能,主要包括了全文檢索、圖片檢索、目錄檢索等。
二、檔案信息檢索技術
(一)信息檢索的原理
所謂信息檢索是一般是根據某種方式將各種信息進行重新組織,然后根據用戶的查詢需求將對應的信息反映給用戶的一個過程。檔案信息檢索包括了:索引檢索、查詢處理、文檔檢索幾個方面。
第一,索引生成。設計檔案信息檢索系統時必然會涉及到索引生成,那么如何選擇索引與如何選擇索引方法以及關鍵詞表分詞方法都顯得非常重要。索引生成會涉及到EM算法、NGram算法、HMM算法等,它們都是統計學原理當中的分詞方法,但是這種計算方法使用的范圍比較小,而且工作量也很大。
第二,查詢處理。檔案信息在具體檢索的過程中,用戶在使用的過程匯提出查詢條件,比如:關鍵詞、自然語言、表達式等等,而且整個檔案信息檢索功能對于用戶輸入的查詢條件不能肆意更改。例如,檔案信息檢索系統如果沒有對用戶給出的查詢條件進行及時的處理,這樣便會影響查詢的準確率。因此,根據用戶的查詢條件一般要做好語義處理,這樣才能準確領悟到用戶想要表達的一切查詢意圖,通常使用的處理方法有關聯矩陣、相關反饋、潛語義分析等等技術。
第三,檢索。檢索系統直觀理解就是對關鍵詞進行查詢的處理方式,給用戶及時提供查詢出來的結果。檢索系統的工作程序比較簡單,通??梢岳脤哪P蛠韺Σ樵兘Y果的關聯性進行排列,主要的方式有:概率模型、布爾模型以及向量模型。
(二)檢索的相關性
第一,系統相關性。系統相關性是查詢結果與提出文檔之間的匹配關系,在具體操作中會受到用戶的個人習慣操作習慣的影響,文檔的特征與實際操作包含了:語法表述、分類表、索引、文獻組織、分析檢索提問等等。系統相關性從本質屬性上來分析是比較片面的,通常是將重心放在整個查詢過程的系統的當中,這樣就會忽略了用戶的實際感受。
第二,用戶相關性,是用戶發(fā)出的查詢結果與信息需求之間的匹配關系。目前,檔案信息檢索過程涉及到的數據量也非常巨大的,此時用戶的實際操作將會影響到整個信息檢索過程。而且需要考慮到用戶在實際查詢過程中一個心理變化過程,因此,要將用戶相關性與檔案信息檢索的相關性充分結合起來,經過對比分析之后,得知前者更加能夠提高檢索結果的準確率。
三、 檔案信息模糊檢索
早在1956年,美國著名的自動控制專家、加州大學著名教授扎德第一次將模糊集合理論提出來,最開始是為了解決一些模糊不清的問題,目的是通過模糊集合理論將這些模糊繁雜的問題集中化、明確化。隨著時代的發(fā)展,模糊集合理論被引用到信息領域當中,并且有了很快的發(fā)展,目前在檔案信息檢索中有屬于一種非常常用的信息處理方式。檔案信息模糊檢索主要在檢索的過程中針對字符串或者文件中一些相關部分將其作為關鍵詞進行檢索的一種方法,例如,如果檢索的內容特別多,那么用戶只需要記住想要查詢內容的一部分作為關鍵詞就可以進行信息檢索,從而提高檢索系統的可用性。
目前,很多系統的所有數據都提供了模糊檢索功能,例如,SQL Server 數據庫,針對這兩個數據庫進行模糊檢索的時,要通過like關鍵字對定義檢索類型進行約束從而形成模糊檢索,同時還需要使用通配符號來進行模糊定義,例如:SELECT Field Name List FROM Table Name List WHERE Condition LIKE“aa<通配符>”,表示從表 Table Name List 中檢索關鍵字是“aa<通配符>”的 Field Name List 字段。針對查詢條件來看,通配符有這些表達形式:
第一,%,也就是代表多個任意字符;
第二,_,代表長度為1的單個任意字符;
第三,[],指定[]中某個對應的字符;
第四,[^],主要是指一種差值上的操作,可以理解為除[]之外的單個字符。
檔案信息模糊檢索與精確檢索對比起來,模糊檢索在結果范圍上會更大,從而有效的提高了查全率。模糊檢索在軟件上的配置能夠提高軟件的實用性。基于模糊查詢的實現原理來看,模糊檢索的優(yōu)點主要有這些:
第一,方便。模糊檢索可以說為一些非專業(yè)領域的用戶提供了很大的便利,在模糊檢索的引導下更加容易理解與操作,用戶不需要掌握專業(yè)技術、專業(yè)內容、專業(yè)規(guī)章,就可以直接通過軟件或者系統提供的模糊檢索功能通過關鍵詞開始進行檢索。
第二,易用。模糊檢索一般采用的語言是常用的自然語言,這與受控語言有很大的區(qū)別,自然語言有一個非常大的優(yōu)勢便是非常符合用戶平常的檢索系統,有了模糊檢索的這項功能,用戶在使用檢索功能時就不需要對關鍵詞進行概念轉化。通常自然語言具有比較豐富的標引檢索入口詞,因此可以提高檢全率,從而為廣大用戶提供更加便利的服務,由于其實際操作非常簡單,適合的人群就比較廣泛。
第三,啟發(fā)。模糊檢索的范圍很廣,但是經常獲得冗余結果,這樣也不會影響到用戶的檢索需求,例如,查詢結果集非常大,用戶則可以根據當前結合的啟發(fā),再從里面選取需要查詢的關鍵字,從而實現更加準確的檢索。
四、檔案著錄與檔案標引分析
檔案著錄與檔案標引是檔案信息檢索系統的基礎。檔案著錄主要從整個檔案信息中提煉出符合用戶查詢要求的索引信息,將其完整收錄下來,并且針對檔案內容的主題進行分析,從而判斷出該檔案信息是否符合用戶查詢的要求。在經過概念轉換之后能夠讓檢索語言的整個過程更加規(guī)范化,然后再利用檔案標引能夠將檔案信息中與一些文本信息不同之處揭示出來,這個過程有著比較顯著的特點:
第一,目前,大部分檔案所收集、記錄、歸檔的信息是屬于原始類信息,一般要更改原始類信息的可能性還是非常低的;
第二,檔案信息內容涉及面非常廣,但是分類非常明晰;
第三,無論什么類型的檔案信息必須要符合專業(yè)標準,例如,要具備一級目錄、二級目錄、三級目錄等等,并且還要具有文號信息、實體分類號、全宗號、案卷號以及文件號。
第四,檔案信息要具備可以準確、快速被識別的特點,也就是每一個檔案信息都必須要有對應的檔案編號,編號是獨一無二的。
第五,檔案信息密級劃分一般是5個級別,每一個級別所包含的授權信息內容與權限都不一樣,不能混淆。
第六,檔案信息的保管期限劃分為3種,過期的檔案要及時銷毀。
第七,關于檔案信息的必要追究責任。檔案信息本身要具備非常明確的歸檔單位,要有對應的負責人,如果檔案信息出現刪除、篡改、泄漏等等情況,要對其追究法律責任。
五、結果統計排序方法分析
檔案信息檢索的最終目的是將檢索的結果及時反饋給用戶,但是由于現在的檔案信息量特別大,導致信息檢索的結果數量也非常大,一般用戶是不會將檢索結果一一全部瀏覽完,而且這本身也不符合檔案信息檢索開發(fā)的便利性原則。目前,檔案信息檢索主要采用的是模糊檢索,而模糊檢索一般情況下無法有效避免出現繁雜結果的問題,而繁雜的結果必然會影響到用戶對檢索結果的閱覽性。因此,需要一個良好的結果統計排序機制,有效控制繁雜結果的出現,為廣大用戶提供更好的服務。從檔案信息檢索結果來看,結果之間地位肯定不會是對等的。根據結果是否能夠滿足用戶檢索的預期目標,一般將檢索結果劃分為目標結果與冗余結果,當然用戶在對檔案信息進行檢索時肯定希望能夠得到滿意的結果,通常只會關注檢索結果的最靠前的幾條記錄。由此可見,對檔案信息檢索結果的排序就顯得非常重要,而且良好的排序也直接影響到用戶的使用體驗。排序無疑是檢索的最為關鍵的一步,假如沒有進行合理的排序,那么檔案信息檢索出來的結果必將失去價值。檢索排序是基礎性工作,也就是檢索的必經步驟。而檢索技術是對信息有效過濾最為有效的方法,通過檢索才能獲得高質量的信息。
綜上所述,檔案信息檢索技術要從檢索的基本原理入手,對檢索的過程相關性分析,尤其是要了解檢索相關性與用戶相關性。另外,模糊檢索是當前檔案信息檢索最為有效的檢索功能,雖然無可避免模糊檢索過程中會帶來目標結果與冗余結果,但只要從這方面深入研究,結合檔案信息的特殊性,從而對結果統計進行合理的排序,提高檔案信息的利用率。
參考文獻:
[1]趙進龍,霍明明.RFID技術在檔案信息檢索中的應用研究[J].電子世界,2016,(14):53.
[2]孫梅霞.新形勢下檔案信息公共服務方式研究[J].蘭臺世界,2015,(23):105106.
[3]方婷.信息技術在檔案中的應用[J].東方企業(yè)文化,2015,(02):66+68.
[4]于雪紅.數字檔案信息安全防護對策分析[J].黑龍江史志,2014,(09):160.
[5]劉華珍.檔案信息檢索研究成果的統計分析[D].遼寧大學,2014.
[6]趙春苗.計算機技術在檔案信息管理中的應用[J].科技創(chuàng)新與應用,2014,(07):250.