張君
(南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東 廣州510000)
檔案是記錄個(gè)人、公司、國家機(jī)關(guān)以及各類集團(tuán)組織的重要文件,在生產(chǎn)、生活及社會(huì)活動(dòng)中具有關(guān)鍵性的地位[1]。當(dāng)前社會(huì)已經(jīng)進(jìn)入云計(jì)算時(shí)代,在這個(gè)背景下,檔案由傳統(tǒng)的紙質(zhì)版本,轉(zhuǎn)變成電子版,當(dāng)前大多數(shù)檔案均采用云存儲(chǔ)方式保管,形成存儲(chǔ)在數(shù)據(jù)庫中的電子檔案,以此保障檔案資源調(diào)取的便捷性、靈活性和全面性[2]。然而,根據(jù)檔案的形式、性質(zhì)、載體、所有制等,可以將檔案分為多種類別,在存儲(chǔ)電子檔案時(shí),卻存在檔案類別不清晰的問題,影響檔案收錄[3]。因此,電子檔案資源分類已成為時(shí)下研究熱點(diǎn)問題。
國內(nèi)外都十分重視檔案資源,針對(duì)檔案資源管理模式和基礎(chǔ)理論,進(jìn)行了多方面的研究。然而,針對(duì)近期才發(fā)現(xiàn)的電子檔案資源分類存在的問題,研究成果相對(duì)薄弱,缺乏系統(tǒng)的電子檔案資源分類研究[4]。基于此,文獻(xiàn)[5]將城市軌道交通建設(shè)項(xiàng)目檔案作為研究對(duì)象,根據(jù)相關(guān)規(guī)范,設(shè)計(jì)檔案資源分類方法,并與目前機(jī)構(gòu)使用方法進(jìn)行對(duì)比,驗(yàn)證設(shè)計(jì)方法的可行性,但該方法分類精度較低。文獻(xiàn)[6]根據(jù)檔案數(shù)據(jù)語義,分析檔案內(nèi)容,實(shí)現(xiàn)檔案的全自動(dòng)分類,但該方法受算法訓(xùn)練次數(shù)影響,分類精度偏低。文獻(xiàn)[7]提出基于泊松分布的特征加權(quán)NB 文本分類算法。結(jié)合泊松分布模型和NB算法,將泊松隨機(jī)變量引入特征詞權(quán)重,在此基礎(chǔ)上定義信息增益率對(duì)文本特征詞加權(quán),完成檔案資源分類。但該方法難以劃分檔案資源非線性特征,導(dǎo)致檔案資源分類精度低。
針對(duì)這一問題,此次研究采用SVM 融合學(xué)習(xí)技術(shù),提高電子檔案資源分類精度,提出基于SVM融合學(xué)習(xí)的電子檔案資源自動(dòng)化分類。
電子檔案資源分布較廣,需要采集所有檔案資源,形成完整的檔案資源集,為此,將已標(biāo)記的檔案資源集,記為X1={(x1,y1),…,(xn,yn)},其中,yi表示第i個(gè)檔案資源數(shù)據(jù)的標(biāo)記,構(gòu)建檔案資源標(biāo)記矩陣R,則有:
式(1)中,κ表示矩陣的特征值;p表示矩陣第j行檔案資源節(jié)點(diǎn)vj標(biāo)記概率。
如式(1)所示的檔案資源標(biāo)記矩陣[8],當(dāng)R=0時(shí),檔案資源節(jié)點(diǎn)表示不完整檔案資源,反之,R=1。此時(shí),將檔案資源標(biāo)記矩陣R,作為采集少數(shù)檔案資源數(shù)據(jù)邊界的一個(gè)標(biāo)記。
根據(jù)式(1)所示的標(biāo)記矩陣R,將零散的檔案資源,分為標(biāo)記的少數(shù)檔案資源R1和未標(biāo)記的少數(shù)檔案資源R2兩種,從R2中尋找對(duì)應(yīng)的標(biāo)記樣本的近鄰樣本,來合成完整的檔案資源集,則檔案數(shù)據(jù)資源邊的權(quán)重lij計(jì)算公式為:
式(2)中,k表示以歐幾里德距離為標(biāo)準(zhǔn),尋找與標(biāo)記的檔案資源樣本集[9],近鄰連接檔案資源;xi、xj表示相鄰的檔案資源,且成立。
根據(jù)式(2)所示的計(jì)算過程,將檔案資源中的未標(biāo)記資源記為X2={(xl+1,yl+1),…,(xl+m,yl+m)},其中,l表示檔案資源采集邊界,m表示未標(biāo)記檔案資源數(shù)量。按照上述過程,找到的檔案資源,多位于檔案資源標(biāo)記矩陣R的附近。因此,將采集到的檔案資源,與原檔案資源集相結(jié)合,形成完整檔案資源集X。
依據(jù)此次研究,采集到的檔案資源集X,通過特征提取和選擇的方式,對(duì)檔案資源進(jìn)行降維處理。假設(shè),檔案資源集X,具有的資源特征集為A={a1,a2,…,aN},其中,N表示檔案資源集所具有的特征總數(shù)。由于檔案資源集中,具有N個(gè)資源特征,一一提取每一個(gè)特征,所需計(jì)算量過大[10],因此,只能選擇檔案資源中的最優(yōu)特征來提取,則檔案資源特征選擇的過程如圖1所示。
圖2中,獲取到的檔案資源最優(yōu)特征子集為A1={a1,a2,…,aM},且
在圖2的檔案資源特征選擇[11]過程,選擇到的檔案資源特征進(jìn)行提取,其檔案資源特征提取過程如圖2所示。
圖2中,newaM表示檔案資源中的最優(yōu)特征子集,其中,M表示最優(yōu)特征子集個(gè)數(shù),且M<N,ai≠newa,i=1,2,…,N,j=1,2,…,M。
依據(jù)上述的檔案資源特征選擇和提取過程,存在一定的不相關(guān)、冗余等檔案資源特征屬性,針對(duì)這些屬性,進(jìn)行刪除處理,來降低自動(dòng)化分類電子檔案資源計(jì)算量。
對(duì)于本次研究待提取和分類的檔案資源特征,采用SVM融合學(xué)習(xí)技術(shù),構(gòu)建SVM融合學(xué)習(xí)分類器,自動(dòng)化分類電子檔案資源。SVM融合學(xué)習(xí)技術(shù)分類原理如圖3所示。
圖3中,分割點(diǎn)連接線,為電子檔案資源,距離檔案資源分割線L距離最近的兩個(gè)點(diǎn)的連接線,將其分別記為L1和L2,則分割線與兩條分割點(diǎn)連接線,存在平行關(guān)系。如圖3所示,依據(jù)SVM 融合學(xué)習(xí)自動(dòng)分類電子檔案資源原理,按照該融合學(xué)習(xí)理論的風(fēng)險(xiǎn)最小化求解模型,讓電子檔案資源根據(jù)其特征,準(zhǔn)確在分割線作用下,分割成兩類電子檔案資源,且在分割的過程中,還需保證被分割的電子檔案資源具有足夠的距離,形成最優(yōu)分類面,則需要計(jì)算SVM分類器最優(yōu)超平面。
假設(shè),此次研究,采集到的電子檔案資源數(shù)據(jù)集X,屬于d維空間數(shù)據(jù),在SVM分類器中,自動(dòng)化分類電子檔案資源的線性判別函數(shù)f(x)為:
式(3)中,w表示分類間隔;c表示截距[12]。當(dāng)wx+c=0 成立時(shí),則wx+c=0為電子檔案類別之間的分界面表達(dá)式。
根據(jù)式(3)所示的電子檔案資源劃分線性判別函數(shù)f(x),需要滿足(4)式所示的表達(dá)式,才能促使電子檔案資源分類正確,其表達(dá)式如下式所示:
式(4)中,T表示矩陣轉(zhuǎn)置[13]。依據(jù)式(3)和式(4),可以將電子檔案資源劃分在兩個(gè)平面中,此時(shí),需要讓劃分成兩部分的電子檔案資源中間,具有較大的分類間隔,即取的最小值:
式(6)中,sgn表示取整數(shù)值;x表示未分類電子檔案資源。如式(6)所示的SVM融合學(xué)習(xí)分類器,只可以分類線性電子檔案資源。為了分類電子檔案資源中存在的非線性特征,在式(6)中,引入核函數(shù)Φ,將非線性特征分類,轉(zhuǎn)化為線性特征分類,則核函數(shù)Φ的轉(zhuǎn)化運(yùn)算過程如下式所示:
式(7)中,υ表示核函數(shù)Φ將非線性特征分類,轉(zhuǎn)化為線性特征分類運(yùn)算符號(hào)。聯(lián)立式(6)和式(7),最終得到的SVM融合學(xué)習(xí)分類器[15](x)為:
采用式(8)所示的SVM融合學(xué)習(xí)分類器,即可根據(jù)此次研究,選擇提取的電子檔案特征,將電子檔案分成不同的類別。
此次研究將數(shù)據(jù)庫中的電子檔案資源整合成檔案資源集,從檔案資源集中選擇提取電子檔案資源重點(diǎn)特征,根據(jù)選擇提取的電子檔案特征,采用此次研究構(gòu)建的分類器,自動(dòng)化分類電子檔案資源。
選擇文獻(xiàn)[6]和文獻(xiàn)[7]方法作為實(shí)驗(yàn)的對(duì)照組,與所提方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。將某數(shù)據(jù)庫中的電子檔案資源,作為此次實(shí)驗(yàn)研究對(duì)象。比較三組方法的劃分電子檔案資源精度、召回率以及F1值。
此次實(shí)驗(yàn)選擇的電子檔案資源數(shù)據(jù)集,共包含810個(gè)數(shù)據(jù),其數(shù)據(jù)類別為9類,每個(gè)類別所包含的數(shù)據(jù)個(gè)數(shù),如圖4所示。
在如圖4所示的檔案資源類別分布基礎(chǔ)上,選擇當(dāng)前分類通用評(píng)價(jià)標(biāo)準(zhǔn)--準(zhǔn)確率、召回率、F1 值三個(gè)評(píng)價(jià)指標(biāo),評(píng)價(jià)此次實(shí)驗(yàn)選擇的三組分類方法,分類圖4所示的電子檔案資源精度。其準(zhǔn)確率、召回率、精確度三個(gè)評(píng)價(jià)指標(biāo)的分類評(píng)價(jià)指標(biāo)定義,如表1所示。
表1 分類評(píng)價(jià)指標(biāo)定義
根據(jù)表1所示的分類評(píng)價(jià)指標(biāo)定義,其準(zhǔn)確率、召回率、精確度的參數(shù)公式,如下式所示:
采用式(9)所示的分類性能指標(biāo)計(jì)算公式,計(jì)算此次實(shí)驗(yàn)選擇三組分類方法,分類電子檔案資源810個(gè)數(shù)據(jù)的準(zhǔn)確率、召回率、精確度,其實(shí)驗(yàn)結(jié)果如下。
3.2.1 第一組實(shí)驗(yàn)結(jié)果
根據(jù)此次實(shí)驗(yàn)選擇的810個(gè)電子檔案資源數(shù)據(jù),采用三組分類方法,分別劃分810 個(gè)電子檔案資源類別,計(jì)算三組分類方法,類別劃分準(zhǔn)確率,其實(shí)驗(yàn)結(jié)果如圖5所示。
從圖5中可以看出,三組分類方法,分別將此次實(shí)驗(yàn)選擇的810 個(gè)電子檔案數(shù)據(jù)進(jìn)行分類處理,其分類準(zhǔn)確率,受每個(gè)類別所具有的檔案數(shù)據(jù)個(gè)數(shù)影響,每個(gè)類別中,檔案數(shù)據(jù)個(gè)數(shù)越少,電子檔案資源分類準(zhǔn)確率越高。其中,兩組目前方法,劃分810 個(gè)電子檔案數(shù)據(jù)類別準(zhǔn)確率相近,其平均準(zhǔn)確率分別為79%和77.5%;研究方法劃分810個(gè)電子檔案數(shù)據(jù)類別,平均準(zhǔn)確率為88.75%,較兩組目前方法分別高9.75%和11.25%??梢姡舜窝芯康姆诸惙椒?,具有較高的分類精度。
3.2.2 第二組實(shí)驗(yàn)結(jié)果
在第一組實(shí)驗(yàn)基礎(chǔ)上,計(jì)算三組分類方法,類別劃分召回率,其實(shí)驗(yàn)結(jié)果如圖6所示。
從圖6中可以看出,三組分類方法,分別將此次實(shí)驗(yàn)選擇的810 個(gè)電子檔案數(shù)據(jù)進(jìn)行分類處理,其分類召回率,受每個(gè)類別所具有的檔案數(shù)據(jù)個(gè)數(shù)影響,每個(gè)類別中,檔案數(shù)據(jù)個(gè)數(shù)越多,電子檔案資源分類準(zhǔn)確率越高。其中,兩組目前方法,劃分810 個(gè)電子檔案數(shù)據(jù)類別召回率相近,其平均召回率分別為79.75%和79%;研究方法劃分810個(gè)電子檔案數(shù)據(jù)類別,平均召回率為89.95%,較兩組目前方法分別高10.2%和10.95%??梢?,此次研究的分類方法,具有較高的分類精度。
3.2.3 第三組實(shí)驗(yàn)結(jié)果
在前兩組實(shí)驗(yàn)基礎(chǔ)上,計(jì)算三組分類方法的類別劃分F1值。F1值是對(duì)分類的準(zhǔn)確率和精確度的調(diào)和值,其評(píng)價(jià)結(jié)果具有較高的客觀性和準(zhǔn)確性。其實(shí)驗(yàn)結(jié)果如圖7所示。
從圖7中可以看出,三組分類方法,分別將此次實(shí)驗(yàn)選擇的810 個(gè)電子檔案數(shù)據(jù)進(jìn)行分類處理,得到的F1 值同樣受每個(gè)類別所具有的檔案數(shù)據(jù)個(gè)數(shù)影響,上下差值較大。其中,兩組目前方法,劃分810 個(gè)電子檔案數(shù)據(jù)類別F1值相近,其F1值的平均值分別為81.95%和81%;研究方法劃分810 個(gè)電子檔案數(shù)據(jù)類別,F(xiàn)1 值的平均值為91%,較兩組目前方法分別高9.05%和10%。可見,此次研究的分類方法,具有較高的分類精度。
綜上所述,此次研究采用SVM 融合學(xué)習(xí)技術(shù),構(gòu)建自動(dòng)化分類器,實(shí)現(xiàn)電子檔案資源自動(dòng)化分類。采用通用分類方法驗(yàn)證方式驗(yàn)證,此次研究的電子檔案資源自動(dòng)化分類,劃分電子檔案資源類別,具有較高的分類精度。
自動(dòng)化技術(shù)與應(yīng)用2022年10期