甘 璐
(中國科學院合肥物質科學研究院,安徽合肥 230031)
檔案是指人們在各項社會活動中直接形成的各種形式的具有保存價值的原始記錄。檔案繼承了文件原始記錄性,所以檔案具有歷史再現(xiàn)性、知識性、信息性、政治性、文化性、社會性、教育性、價值性等特點,其中歷史再現(xiàn)性為其本質屬性,其他特點為一般屬性[1]。隨著檔案事業(yè)的發(fā)展和檔案信息化進程的加快,我國檔案信息管理工作也日益成熟起來[2]。但是,隨著數(shù)字化檔案館建設的不斷推進,檔案信息的存儲容量迅速增加,目前的檔案管理系統(tǒng)僅僅停留在簡單的檢索和統(tǒng)計階段,根本無法有效滿足人們的需求。檔案信息的分析工作仍舊需要耗費大量的人工和時間成本[3]。數(shù)據(jù)挖掘是20 世紀90年代出現(xiàn)的一門交叉學科,涉及來自數(shù)據(jù)庫技術、知識工程、概率與統(tǒng)計、模式識別、神經元網(wǎng)絡、可視化技術等各領域的研究成果[4]。數(shù)據(jù)挖掘的本質目標是從大量、有噪聲、不完全、模糊、隨機的數(shù)據(jù)中抽取出隱藏的并具一定可利用價值的信息和關系。數(shù)據(jù)挖掘的功能和不同模式類型包括[5]:關聯(lián)分析、分類和預測、聚類分析和孤立點分析。數(shù)據(jù)挖掘不僅可以對現(xiàn)有信息實現(xiàn)查詢和遍歷,并且可以發(fā)現(xiàn)現(xiàn)有信息之間的隱含關系,從而為決策提供必要的科學技術支持。
本文提出一種基于數(shù)據(jù)挖掘技術的檔案館信息快速分析算法。該算法采用熵加權對典型數(shù)據(jù)挖掘K-means聚類算法進行改進,以便有效解決數(shù)據(jù)集合維度和相似數(shù)據(jù)冗余的問題。實驗結果表明,相比原始的K-means聚類算法,提出算法的聚類精度及運行效率較高。
數(shù)據(jù)挖掘技術已經經歷了十幾年的發(fā)展,國內外不少研究人員已經將其運用于各種數(shù)字檔案信息管理工作中。文獻[5]對檔案數(shù)據(jù)挖掘中數(shù)據(jù)采集與準備問題進行系統(tǒng)分析。在給出執(zhí)行具體挖掘操作前的數(shù)據(jù)采集和數(shù)據(jù)預處理各個環(huán)節(jié)概念描述的基礎上,探討各個環(huán)節(jié)的注意事項及具體實現(xiàn)方法。文獻[6]從日志文件到評估指標等多個方面,對使用數(shù)據(jù)挖掘學生檔案信息進行了系統(tǒng)研究。通過現(xiàn)有研究結果可以看出,數(shù)據(jù)挖掘技術在檔案信息管理系統(tǒng)中具有重要的應用價值,例如,發(fā)掘用戶對哪些方面的檔案更感興趣(見圖1);檔案的分類等。
圖1 檔案與檔案利用者關系Fig.1 Relationship between archive and archive user
因此,為了提高檔案館信息管理系統(tǒng)進行統(tǒng)計及分析的效率,設計了基于數(shù)據(jù)挖掘的檔案館信息系統(tǒng)工作流程,如圖2 所示。
圖2 基于數(shù)據(jù)挖掘的檔案館信息系統(tǒng)工作流程Fig.2 Workflow of archive information system based on data mining
作為一種基于距離的劃分聚類算法,K-means 聚類算法具有算法結構簡單、運行效率高且適用范圍大等優(yōu)點[7-9]。K-means 聚類算法一般通過式(1)所示的目標函數(shù)實現(xiàn)優(yōu)化:
可以看出,式(1)所示的目標函數(shù)是一個誤差平方和計算過程。其中,E為聚類準則函數(shù);K為聚類的總數(shù);Cj,j=1,2,…,K為聚類中的簇;x為簇Cj中的一個聚類目標;mj為簇Cj的平均大小。
K-means 聚類算法的輸入?yún)?shù)為數(shù)值K和數(shù)據(jù)集X中聚類目標的數(shù)量n,輸出為使聚類準則函數(shù)E達到最小的K個聚類。K-means 聚類算法的基本流程為:
1)輸入?yún)?shù)并初始化K個聚類中心。
2)計算E的數(shù)值。
3)更新每個群集的中心并計算新E。
4)是否滿足收斂條件。是,輸出參數(shù)并結束;否,跳轉到步驟2)。
通過上述典型K-means 聚類算法的原理和步驟分析,可以看出其具有一定的缺陷,在處理復雜的高維度數(shù)據(jù)時,算法的運行效率會大大降低,因此需要對其進行優(yōu)化以便減少數(shù)據(jù)集合維度和去掉相似數(shù)據(jù)冗余。
本文采用熵加權對典型K-means 聚類算法進行改進,首先定義聚類的目標函數(shù):
首先計算當前集合的隸屬度:
該數(shù)據(jù)集合的特征系數(shù)vik可通過式(4)得到:
根據(jù)目標函數(shù)及式(3)可以計算隸屬迭代:
然后根據(jù)式(6)的結果推導聚類中心距離:
通過式(7)進一步計算t時刻的聚類中心值:
接著,通過式(9)計算熵加權系數(shù)[10]:
仿真實驗環(huán)境配置為:Windows 7 操作系統(tǒng),CPU為I7 處理器,6 GB 內存,Matlab 2010仿真平臺。測試數(shù)據(jù)來自某檔案館近三年的歷史文檔,并隨機選取了400 GB的數(shù)據(jù),涉及多個類別。
此外,為了更直觀地顯示算法分類的性能,采用單一的F1測試值來評估改進聚類算法的性能,F(xiàn)1的計算公式如下[9]:
典型K-means 聚類算法和本文算法處理檔案信息數(shù)據(jù)集的結果對比如表1 所示。
表1 檔案信息數(shù)據(jù)集的實驗結果Table 1 Experimental results of archive information dataset
從表1 可以看出,相比于典型K-means 聚類算法,本文提出聚類算法在準確率、召回率和F1測試值方面均有明顯提高,分類結果的平均F1值約89.79%,在精度上能夠滿足實際應用需求。此外,本文聚類算法的平均收斂代數(shù)只需典型K-means 聚類算法的一半,因此數(shù)據(jù)挖掘的速度更快,驗證了該方法的先進性。
本文提出一種基于數(shù)據(jù)挖掘技術的檔案館信息快速分析算法。分析了典型K-means 聚類算法解決數(shù)據(jù)集合維度和相似數(shù)據(jù)冗余的必要性,并采用熵加權對典型K-means 聚類算法進行改進。得出如下結論:相比原始的K-means 聚類算法,提出算法的聚類精度較好,分類結果的平均F1值約89.79%,在精度上能夠滿足實際應用需求;提出算法的運行效率較高,對檔案管信息管理系統(tǒng)具有一定的參考指導意義。