劉丹+程全英+李凡+趙揚(yáng)+張卓立
(中國林業(yè)科學(xué)研究院資源信息研究所,北京 100091)
摘 要:對林業(yè)科研檔案實行信息化的管理及深度的數(shù)據(jù)挖掘,不僅能夠及時、準(zhǔn)確地反映林業(yè)科研活動的動態(tài)、發(fā)展方向、最新成果,還能夠為林業(yè)科研項目的正確、合理實施提供參考依據(jù)。整合多種格式的數(shù)據(jù)來源,包含電子表格數(shù)據(jù)、文本數(shù)據(jù)、音視頻數(shù)據(jù),通過神經(jīng)元網(wǎng)絡(luò)、聚類分析等技術(shù),實現(xiàn)了對林業(yè)科研檔案數(shù)據(jù)的深度發(fā)掘和分析,為林業(yè)科研檔案的充分利用提供了方法。
關(guān)鍵詞:林業(yè);科研檔案;數(shù)據(jù)挖掘;挖掘算法
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A DOI:10.15913/j.cnki.kjycx.2016.22.019
一個單位的檔案就是一部歷史,里面記載著這個單位的發(fā)展歷程,凝聚著幾代人的心血和智慧,是前人留給后人的寶貴遺產(chǎn),是歷史交給未來的無價資源。無論是各級領(lǐng)導(dǎo),還是檔案的生產(chǎn)、管理、使用等業(yè)務(wù)和智能部門,都應(yīng)重視挖掘檔案材料中蘊(yùn)藏著的豐富的信息資源,為科研創(chuàng)新能力的形成、生長提供有力的服務(wù)。
檔案資料是重大活動、重要事件經(jīng)驗的積累,規(guī)律的揭示,是信息和知識的重要資源,是維護(hù)科研單位合法知識產(chǎn)品的有利憑證,也是科研傳統(tǒng)教育的生動教材。林業(yè)科研檔案主要記錄科研項目執(zhí)行的全部軌跡,包含項目申請、項目中驗、項目驗收等過程中產(chǎn)生的一切文檔資料。中國林業(yè)科學(xué)研究院資源信息研究所成立于1985年,承擔(dān)了多項科研任務(wù),積累了大量的科研檔案,檔案的管理經(jīng)歷了從傳統(tǒng)的館藏檔案模式到數(shù)字化、信息化管理方式的轉(zhuǎn)變,已經(jīng)建立起具有管理標(biāo)準(zhǔn)化、服務(wù)網(wǎng)絡(luò)化、安全可靠的數(shù)字化檔案館,制定了符合檔案信息化發(fā)展和林業(yè)科研特點的標(biāo)準(zhǔn)規(guī)范和管理體系。但是這些檔案只停留在簡單的檢索、查詢這樣的數(shù)據(jù)管理和共享層面,沒有對檔案本身的內(nèi)容進(jìn)行挖掘,提煉出有價值的數(shù)據(jù)??蒲袡n案用好了,有助于開闊思路、啟迪智慧,全面、系統(tǒng)、深入地了解學(xué)科建設(shè)的階段性特色,不斷深化對新時期、新階段學(xué)科建設(shè)規(guī)律的認(rèn)識,使科研工作更加符合科學(xué)發(fā)展觀的要求。
1 林業(yè)科研檔案的數(shù)據(jù)挖掘需求
“數(shù)據(jù)挖掘”是一門廣義的交叉學(xué)科,脫胎于計算機(jī),雖然已被應(yīng)用到諸多領(lǐng)域,圖書、情報界的實踐也已經(jīng)充分驗證其價值,但在檔案界,數(shù)據(jù)挖掘仍然被當(dāng)成深奧的技術(shù)和理論。如何從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識呢?這個過程的目的就是發(fā)現(xiàn)隱藏在大量數(shù)據(jù)泥沙中的“知識金礦”。數(shù)據(jù)挖掘不是簡單的面向特定數(shù)據(jù)庫的檢索、查詢、調(diào)用,而是要對這些數(shù)據(jù)進(jìn)行全方位的統(tǒng)計、分析、綜合和推理,以指導(dǎo)實際問題的求解,企圖發(fā)現(xiàn)事件間的相互聯(lián)系,甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。
資源信息研究所檔案分類的實際情況具有以下幾個特點:①資源信息研究所檔案管理系統(tǒng)儲存管理的是研究所日常工作的科研檔案,具有專業(yè)特點,其劃分的類別和特征詞匯都具有專業(yè)性。②資源信息研究所的檔案數(shù)量級不會很大,不會有大量的訓(xùn)練樣本供機(jī)器學(xué)習(xí)。而通常分類算法都是需要手工對一定數(shù)量的訓(xùn)練樣本分類作為訓(xùn)練集。如果訓(xùn)練集的數(shù)量過小,
———————————————————————————
則會影響分類的精確度。③檔案類型豐富,包含圖片、視頻、文本等。④需要在著錄入系統(tǒng)時對檔案分類。這就需要分類算法在性能上必須有很好的保證,不能讓著錄的系統(tǒng)用戶長時間等待。而上述分類算法都需要計算當(dāng)前文本與其他所有分類個體的相似度,無法在時間花費(fèi)上滿足實際需要,必須優(yōu)化。
2 林業(yè)科研檔案的數(shù)據(jù)挖掘算法設(shè)計
在檔案管理系統(tǒng)中,分類算法的選取需要結(jié)合資源信息研究所檔案的專業(yè)性特點、檔案數(shù)量以及考慮檔案分類需求在系統(tǒng)功能中對效率等方面的實際要求。
貝葉斯、KNN、SVM、TF-IDF等常用分類算法的主要思想都是要計算一篇文本與其他類別文本的相似度(距離),或者依照詞頻等指標(biāo)計算文本屬于某個類別的概率,從而判斷此文本屬于某個類別。這些算法雖然各有特點,但都無法被直接應(yīng)用于檔案管理系統(tǒng)。
綜合以上各種因素,最終選取TF-IDF算法并優(yōu)化調(diào)整:考慮到科研檔案分類的專業(yè)性,同時也為了保證算法的執(zhí)行速度,選取資源信息研究所提供的專業(yè)詞匯作為特征詞集,以此作為分類計算用的關(guān)鍵詞。其他非專業(yè)詞匯,與分類相關(guān)性不大,作為“應(yīng)刪除詞”排除在分類算法之外。
在檔案著錄時,業(yè)務(wù)人員會將檔案的題目以及摘要錄入,主題及特征詞在錄入信息中體現(xiàn)。因此,沒有必要對整篇檔案進(jìn)行掃描、分詞并計算,只需對題目和摘要進(jìn)行分詞,對比特征詞集挑選關(guān)鍵詞計算即可。
檔案管理系統(tǒng)的檔案數(shù)量級決定了不會有大量的手工分類樣本作為訓(xùn)練集,同時為了提高算法的執(zhí)行效率,改由有經(jīng)驗的專業(yè)人員通過系統(tǒng)的專業(yè)詞管理功能,配置特征詞集中的特征詞的所屬類別及權(quán)重,以作為分類算法的計算依據(jù),并可隨時依據(jù)算法對實際運(yùn)行情況進(jìn)行調(diào)整。
優(yōu)化后的算法如下。
從檔案的題目及摘要中的單詞中,對照特征詞集挑選出此檔案S包括的所有特征詞tk(1≤k≤n,n為此檔案所含特征詞總數(shù))。tk在此檔案中出現(xiàn)的次數(shù)為dk,tk在分類時的權(quán)重為wk。tk中屬于檔案分類cj(cj∈C,C為所有分類集合)的特征詞可以tj表示,對應(yīng)的出現(xiàn)次數(shù)以djp表示,權(quán)重以wjp表示。則檔
案S中屬于分類cj的特征詞加權(quán)求和為 (1≤m≤n,m為
檔案S中屬于分類cj的特征詞總數(shù),n為此檔案所含特征詞總數(shù)),檔案S與分類cj相關(guān)性為:
例如,檔案《東北常見樹木生長周期研究》的題目及摘要中包含5個特征詞,即“松木”“核桃楸”“白樺”“黑土”“冬季”。其中,松木(出現(xiàn)1次)、核桃楸(出現(xiàn)2次)、白樺(出現(xiàn)3次)屬于分類“樹木類”,權(quán)重分別為0.4,0.3,0.1;黑土(出現(xiàn)2次)屬于“地質(zhì)類”,權(quán)重為0.2;冬季(出現(xiàn)1次)屬于“氣象類”,權(quán)重為0.3.則檔案《東北常見樹木生長周期研究》分類為:
3 總結(jié)
通過對中國林業(yè)科學(xué)研究院資源信息研究所現(xiàn)有的紙質(zhì)、聲像、實物等各種形式的科技檔案進(jìn)行深入的調(diào)查與篩選,確定符合林業(yè)科技檔案需求的數(shù)據(jù)挖掘算法。通過該算法,可以充分將現(xiàn)有檔案中的知識更好地利用起來,更好地服務(wù)全體科研人員,為研究所領(lǐng)導(dǎo)提供科研決策支持,將大大提高研究所科研檔案管理工作的信息化水平。
參考文獻(xiàn)
[1]馮惠玲.檔案管理學(xué)[M].北京:中國人民大學(xué)出版社,1999.
[2]王傳宇.科技檔案管理學(xué)[M].北京:中國人民大學(xué)出版社,2009.
[3]樓淑君,鐘小安.檔案管理事務(wù)[M].重慶:重慶大學(xué)出版社,2010.
[4]黃秀芬.關(guān)于科技檔案信息資源開發(fā)利用的思考[J].廣東水利水電,2009(12).
[5]李海燕,吳志華,王可煒.充分發(fā)揮科技檔案在科研管理中的作用[J].中華醫(yī)院管理雜志,2002(2).
[6]吳育芝.農(nóng)業(yè)科技檔案的范圍、特點和作用[J].檔案學(xué)通訊,1999(2).
[7]黃曉霞.數(shù)據(jù)挖掘集成技術(shù)研究[J].計算機(jī)應(yīng)用研究,2003(4).
[8]于海英.整理檔案應(yīng)注意挖掘檔案信息[J].蘭臺內(nèi)外,2000(3).
〔編輯:劉曉芳〕