丁玲 葉佳鑫 曾婷
(1.武漢市國土資源和規(guī)劃信息中心,武漢 430014;2.華中師范大學(xué)信息管理學(xué)院,武漢 430079)
隨著信息技術(shù)的不斷發(fā)展與大數(shù)據(jù)時(shí)代的來臨,信息資源的數(shù)字化轉(zhuǎn)型已成為目前的重要任務(wù)之一,而數(shù)字檔案資源的建設(shè)無疑是數(shù)字化轉(zhuǎn)型中重要的一環(huán)[1]。針對檔案信息資源建設(shè),全國檔案事業(yè)發(fā)展“十三五”規(guī)劃提出了相應(yīng)措施,規(guī)劃要求提升檔案資源利用的便捷性以及加快檔案管理信息化進(jìn)程[2]。目前檔案信息資源存在碎片化、用戶對檔案信息價(jià)值認(rèn)識(shí)較低、檔案資源間相關(guān)性難以發(fā)現(xiàn)、檔案信息資源整合不足等問題[3]。因此,很有必要對檔案信息資源進(jìn)行挖掘與建設(shè)。LDA主題模型是一種針對文檔資源的主題抽取模型,本文嘗試將其與聚類、層次空間構(gòu)建等數(shù)據(jù)挖掘技術(shù)結(jié)合并應(yīng)用于檔案信息資源建設(shè),以提高檔案資源利用的便利性,幫助用戶及檔案工作者更好地使用檔案信息資源;同時(shí),也為LDA主題模型在信息資源建設(shè)中的應(yīng)用方向提供參考。
本文主要通過主題提取、聚類、層次空間構(gòu)建3種技術(shù)方法對文檔類檔案信息資源進(jìn)行建設(shè),信息資源建設(shè)模型框架見圖1。
圖1 信息資源建設(shè)模型框架
檔案信息資源的碎片化使得用戶對相關(guān)資源的利用變得困難,而為解決資源的碎片化就需要對零散的信息資源間關(guān)系進(jìn)行挖掘。為了解決檔案資源建設(shè)中存在的相關(guān)問題,本文首先利用主題模型對資源進(jìn)行主題提取,挖掘文檔類資源蘊(yùn)含的主題信息,以便從主題的角度進(jìn)行資源的整合,將碎片化的信息資源轉(zhuǎn)為主題表示;主題挖掘其局限在于只有資源具有明確的主題劃分時(shí),才能將其歸入特定主題,而針對某些不屬于任意主題的資源,其與其他資源間可能存在一定的相關(guān)關(guān)系,而主題提取無法對這種關(guān)系進(jìn)行挖掘。為此,在主題提取后,采用聚類方法對檔案資源進(jìn)行進(jìn)一步的相關(guān)性挖掘,以便更好地發(fā)現(xiàn)資源間聯(lián)系,對主題表示進(jìn)行補(bǔ)充與完善;實(shí)現(xiàn)相關(guān)資源的整合之后,如何從資源集合中選取重要的資源進(jìn)行優(yōu)先利用是資源建設(shè)的重要問題,從同類文檔中優(yōu)先發(fā)現(xiàn)重要文檔可有效地提高資源利用效率。為進(jìn)一步挖掘資源間關(guān)系,在主題提取與文檔聚類的基礎(chǔ)上,進(jìn)一步計(jì)算文檔間的相似度,并以此為基礎(chǔ)來進(jìn)行資源間的層次空間構(gòu)建。
本文選用LDA來進(jìn)行信息資源的主題提取,LDA是一種生成主題概率模型,常被用來處理大規(guī)模文檔[4]。其思想源于一個(gè)基本假設(shè),即文檔由多個(gè)隱含主題構(gòu)成,隱含主題由若干特征詞構(gòu)成。文檔中每個(gè)詞通過“以一定概率選擇某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)語詞”來得到[5]。生成一篇文檔,其中每個(gè)詞出現(xiàn)的概率都可以通過公式(1)來計(jì)算。
LDA是一個(gè)完備的主題模型,其文本生成方式可由圖2的貝葉斯網(wǎng)絡(luò)圖來表示。LDA采用Dirichlet分布作為概率先驗(yàn)分布,模型中,K為文檔的主題總數(shù),M為文檔集合,N是每篇文檔中總詞數(shù),隱變量Z表示某一個(gè)主題,W為文本的單詞,參數(shù)α和β分別是文檔-主題概率θ以及主題-語詞概率分布φ的先驗(yàn)分布超參數(shù),W是唯一可觀測的變量[6]。
圖2 LDA模型的貝葉斯網(wǎng)絡(luò)圖
LDA使用的是詞袋思想,以某一概率選取主題,再以某一概率選出主題中每個(gè)單詞,不斷重復(fù)該步驟產(chǎn)生文檔中所有語詞。對詞匯進(jìn)行模糊聚類,聚集到一類的詞可間接表示一個(gè)隱含主題。LDA挖掘了文本信息,衡量了不同文檔間的潛在關(guān)系,也能用某一類詞來表達(dá)隱藏主題。
在主題挖掘的基礎(chǔ)上,本文選擇DBSCAN算法來實(shí)現(xiàn)文檔資源的聚類。DBSCAN是一種經(jīng)典的密度聚類算法,其優(yōu)勢在于可自動(dòng)確定簇的數(shù)目,且能發(fā)現(xiàn)所有任意形狀簇。其部分概念如下[7]。
(1)點(diǎn)的鄰域。空間中任意一點(diǎn)P的鄰域是以該點(diǎn)為圓心、以Eps為半徑的圓區(qū)域內(nèi)包含的點(diǎn)集合,記作NEps(P)={q∈D丨dist(p,q)≤Eps},集合中點(diǎn)P的最小個(gè)數(shù)由密度閾值minPts控制。
(2)噪聲。數(shù)據(jù)庫D中不屬于任何類的點(diǎn)為噪聲?;诙x,DBSCAN算法可以描述為[8]:①檢測數(shù)據(jù)集中尚未檢測的樣本P,若P未被處理,則檢查其Eps鄰域,如果其中包含的樣本數(shù)≥minPts,則構(gòu)成新簇C,將其鄰域中所有其他樣本加入C;②對C中沒有被處理的樣本P,檢查Eps鄰域,若其中樣本數(shù)≥minPts,則將尚未歸入任何一個(gè)簇的樣本加入C;③重復(fù)步驟②,直到?jīng)]有新對象加入簇C;④重復(fù)步驟①~③,直到處理完所有樣本。
層次空間是概念空間的一種表現(xiàn)形式,而概念空間是指概念間相關(guān)關(guān)系的集合(如同義關(guān)系、近義關(guān)系、上下位關(guān)系等),層次空間主要用于體現(xiàn)概念間上下關(guān)系及近義關(guān)系。構(gòu)建資源的層次空間,有利于用戶清楚地發(fā)現(xiàn)資源間等級(jí)層次關(guān)系。文檔資源間的四層結(jié)構(gòu)層次空間構(gòu)建步驟如下[9]。
(1)選擇與所有資源相關(guān)度最大的資源作為根節(jié)點(diǎn)。
(2)選擇根節(jié)點(diǎn)為起點(diǎn)即第一層級(jí);設(shè)定某一閾值A(chǔ),將與根節(jié)點(diǎn)間相關(guān)性大于閾值的資源按相關(guān)性大小依次作為根節(jié)點(diǎn)的子節(jié)點(diǎn)加入層次空間建立第二層級(jí);隨后按同一方法設(shè)定閾值B,建立第三層級(jí),設(shè)定閾值C建立第四層級(jí),層次空間建立完畢。
(3)從剩余的未加入層次空間的資源中選擇與剩余資源平均相關(guān)度最大的資源作為新的根節(jié)點(diǎn)。
(4)重復(fù)步驟(2)、步驟(3),直到所有資源加入層次空間中。
本文的實(shí)驗(yàn)數(shù)據(jù)來源于武漢市國土資源和規(guī)劃信息中心,從中搜集了100條文檔型業(yè)務(wù)公文數(shù)據(jù),對數(shù)據(jù)進(jìn)行編號(hào)(0~99),數(shù)據(jù)名稱見圖3。
圖3 數(shù)據(jù)名稱
在進(jìn)行資源建設(shè)之前須對文檔數(shù)據(jù)進(jìn)行預(yù)處理,首先利用中國科學(xué)院NLPIR漢語分詞系統(tǒng)來對文檔進(jìn)行分詞,之后利用哈爾濱工業(yè)大學(xué)停用詞表過濾掉文檔中如“啊”“咦”“哦”等無實(shí)際意義的詞以及“《”“∈”等特殊符號(hào)??紤]到所使用的檔案文檔資源的特殊性,為使其能表示出較為準(zhǔn)確的主題信息,剔除文檔中出現(xiàn)頻次在100次以上且對主題區(qū)分意義較小的詞,如“工作”“項(xiàng)目”“建設(shè)”“位于”等。對于詞典中沒有的詞,通過NLPIR的自定義詞典功能加入詞典。
對所得的文檔-主題概率矩陣進(jìn)行分析,發(fā)現(xiàn)對于部分文檔如文檔6、文檔11、文檔12等來說,其分屬于某個(gè)主題的概率明顯高于其分屬于其他主題的概率,說明其與該主題高度匹配。而對文檔2、文檔3、文檔4等來說,其分屬于每個(gè)主題的概率大小相近,難以直接將其分入某一個(gè)主題。因此,須設(shè)置相應(yīng)的閾值來進(jìn)行主題分布控制,在對文檔-主題概率進(jìn)行分析的基礎(chǔ)上,選取閾值為0.45,設(shè)置文檔-主題概率大于該閾值的文檔可歸入相應(yīng)主題。例如,對文檔6來說,文檔6-主題2概率為0.703,因此將其劃分入主題2;對文檔2來說,其分別與主題0、1、2、3的相關(guān)概率都低于0.45,因此不將其歸入任何主題。在進(jìn)行相關(guān)文檔展示時(shí),為更直觀地觀測文檔的內(nèi)容,使用TF-IDF方法來對文檔進(jìn)行處理,對于每個(gè)文檔選擇其TF-IDF值最高的5個(gè)詞來替代文檔名。對100個(gè)文檔分別進(jìn)行主題劃分,其結(jié)果如圖4~圖7所示。
表1 文檔-主題概率矩陣
從主題-文檔劃分結(jié)果可以看出,100個(gè)文檔中僅有23個(gè)文檔被劃分到相應(yīng)主題,而在剩下的77個(gè)文檔中,有部分文檔與其他文檔間存在較強(qiáng)的相關(guān)性,僅依靠主題提取技術(shù)難以發(fā)現(xiàn)其間的相關(guān)性。因此,須進(jìn)一步的進(jìn)行文檔間聚類分析,以期對文檔間關(guān)系進(jìn)行更深入的挖掘。
圖4 主題0相關(guān)文檔
圖5 主題1相關(guān)文檔
圖6 主題2相關(guān)文檔
圖7 主題3相關(guān)文檔
在運(yùn)用DBSCAN算法進(jìn)行聚類分析時(shí)需確定Eps與minPts值,Eps的取值可通過聚類對象間的歐式距離值來設(shè)置,歐式距離計(jì)算見公式(2)。
其中,dab為對象a與對象b的歐式距離,X1k、X2k分別為對象a、b在第k維的向量值。將表1中的4個(gè)主題視為4個(gè)維度,各文檔在維度的向量值等同于其文檔-主題概率。如對文檔0來說,其向量表示為(0.206、0.245、0.304、0.248)。利用公式(2)計(jì)算表1中文檔的歐式距離,結(jié)果見表2。
表2 部分文檔間歐氏距離矩陣
對表2中的歐氏距離進(jìn)行比較分析,發(fā)現(xiàn)當(dāng)歐式距離為0.094時(shí),可保證大部分對象被劃分到對應(yīng)簇,且各簇內(nèi)的對象間相關(guān)性較大。因此,將Eps值設(shè)置為0.094,DBSCAN中另一參數(shù)minPts的取值通常為2。選定Eps和minPts值后,利用Python的DBSCAN工具包來實(shí)現(xiàn)對象的聚類。文檔在主題1-主題2維度上的聚類結(jié)果如圖8所示,經(jīng)過整合的最終聚類結(jié)果見圖9。
如圖8所示,各文檔按其在主題1及主題2上的向量值分布于圖中,其中十字型符號(hào)表示一個(gè)聚類簇,顏色深淺不同則表示屬于不同聚類簇,圖中文檔間的相關(guān)性可通過距離來判斷,即距離越近的文檔間相關(guān)性越大。
圖8 文檔在主題1-主題2維度上的聚類結(jié)果
文檔在不同維度上的分布存在差異,共有1-2、1-3、1-4、2-3、2-4、3-4六個(gè)維度。將文檔在各維度上的分布結(jié)果進(jìn)行整合,得到圖9所示的最終聚類結(jié)果。
圖9顯示的是文檔最終聚類結(jié)果,可看出,有13個(gè)文檔被劃分為噪聲,其他的87個(gè)文檔被分別分入到9個(gè)聚類簇中(第零簇至第八簇),其中第零簇中的文檔數(shù)量最大,該類文檔在采集的文檔資源中所占數(shù)量最多,可判斷其為武漢市國土資源和規(guī)劃信息中心日常工作中面對類型最多的文檔;而其他8個(gè)類中的文檔數(shù)量則相對較少,可判斷武漢市國土資源和規(guī)劃信息中心在日常工作中面對的這些類型文檔較少。
圖9 文檔最終聚類結(jié)果
比較主題劃分結(jié)果與聚類結(jié)果可以發(fā)現(xiàn),兩種分析結(jié)果存在一定的相似性。如對文檔42與文檔45來說,其在主題劃分中被劃分為同一主題(主題3),在聚類時(shí)也被劃分到同一簇(第八簇)。但是,兩種分析結(jié)果也存在一定的差異,如文檔38、39、46在聚類時(shí)被劃分到同一簇(第七簇),說明其間存在一定的相關(guān)性,而在主題分析中文檔38、38、46未被劃分到任意主題,3個(gè)文檔間未顯示出相關(guān)性;對文檔6、12、16、33來說,其在主題劃分時(shí)被劃分到同一主題(主題1),而在聚類時(shí),文檔6、33被分入第一簇,文檔12、16被分入第三簇,這說明在同一主題中,文檔也可能屬于不同類別。聚類可以對主題劃分的結(jié)果進(jìn)行補(bǔ)充與改進(jìn),可以發(fā)現(xiàn)更全面的文檔間關(guān)系。
在主題提取與聚類的基礎(chǔ)上,為得到更全面的文檔間關(guān)系,可將主題提取與聚類的結(jié)果進(jìn)行綜合,并在此基礎(chǔ)上嘗試構(gòu)建層次空間,以發(fā)現(xiàn)文檔間更深入的相關(guān)關(guān)系?;诰垲惖揭淮氐奈臋n間具有較強(qiáng)的相似性這一概念,利用聚類結(jié)果來對主題劃分結(jié)果進(jìn)行改進(jìn)。分析現(xiàn)有主題(主題0、1、2、3)中文檔的聚類結(jié)果,為聚類時(shí)聚到一簇的文檔建立更為深入的相關(guān)關(guān)系。在聚類過程中,文檔7與文檔25、文檔11與文檔14等聚集到一簇,為這些文檔建立更為深入的相關(guān)關(guān)系以此來改進(jìn)主題劃分的結(jié)果,對主題0、1、2進(jìn)行了改進(jìn),改進(jìn)后的主題0、1、2如圖10~圖12所示。
圖10 改進(jìn)后主題0相關(guān)文檔
圖11 改進(jìn)后主題1相關(guān)文檔
圖12 改進(jìn)后主題2相關(guān)文檔
在利用聚類結(jié)果對主題劃分結(jié)果進(jìn)行改進(jìn)后,同一主題中的文檔可以被劃分到不同簇,主題中文檔間相關(guān)性被近一步定義,即聚到一簇的文檔間其相關(guān)性相較于其他文檔間更強(qiáng)。
對主題劃分結(jié)果改進(jìn)后,考慮到主題中文檔個(gè)數(shù)及文檔所屬簇個(gè)數(shù),最后選擇主題0及主題2中的文檔進(jìn)行文檔間層次結(jié)構(gòu)構(gòu)建。利用余弦相似度算法(式3)來計(jì)算主題中文檔間相似度,結(jié)果見表3和表4。
在余弦相似度算法中,Ti、Tj分別為文檔i的向量和文檔j的向量。
表3 主題0中文檔相似度
表4 主題2中文檔相似度
得到文檔間相似度之后,為主題0及主題2中的文檔建立層次空間。按2.3節(jié)的方法,首先選擇與其他文檔平均相關(guān)度最大的文檔作為等級(jí)結(jié)構(gòu)的根節(jié)點(diǎn)。對主題0來說,選擇文檔17為根節(jié)點(diǎn),即第一層級(jí);隨后設(shè)置第二層級(jí)閾值為0.99,將與文檔17相似度大于閾值的其他文檔按相似度大小依次加入第二層級(jí),即依次加入文檔25與文檔18;設(shè)置第三層級(jí)閾值為0.96,將與文檔25、文檔18相似度大于閾值的其他文檔按相似度大小依次加入第三層級(jí),即依次在文檔25下加入文檔11,在文檔18下加入文檔35與文檔21;設(shè)置第四層級(jí)閾值為0.95,將與文檔11、文檔35、文檔21相似度大于閾值的其他文檔按相似度大小依次加入第四層級(jí),即依次在文檔11下加入文檔14,在文檔35下加入文檔71。主題0文檔層次空間見圖13。
圖13 主題0文檔層次空間
為主題2中的文檔建立層次空間。對主題2來說,選擇文檔28為根節(jié)點(diǎn),即第一層級(jí);隨后設(shè)置第二層級(jí)閾值為0.99,將與文檔12相似度大于閾值的其他文檔按相似度大小依次加入第二層級(jí),即依次加入文檔79與文檔65;設(shè)置第三層級(jí)閾值為0.91,將與文檔79、文檔65相似度大于閾值的其他文檔按相似度大小依次加入第三層級(jí),即依次在文檔79下加入文檔68、文檔29與文檔41;設(shè)置第四層級(jí)閾值為0.90,將與文檔68、文檔29、文檔41相似度大于閾值的其他文檔按相似度大小依次加入第四層級(jí),即在文檔29下加入文檔54。主題2文檔層次空間見圖14。
圖14 主題2文檔層次空間
在層次空間中,根節(jié)點(diǎn)與子節(jié)點(diǎn)可能會(huì)存在一定的連續(xù)性關(guān)系。如對圖13中的文檔17、文檔18與文檔21來說,文檔18與文檔21可能是在文檔17基礎(chǔ)上產(chǎn)生的新文檔。層次空間中,距離越近的節(jié)點(diǎn)其關(guān)系越為緊密,如對文檔14來說,其與文檔11距離最近,即在層次空間中其關(guān)系最為緊密;而文檔14與文檔71距離最遠(yuǎn),即在層次空間中其關(guān)系最為疏遠(yuǎn)。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用于信息資源建設(shè),可以更深入地挖掘信息資源間的相互關(guān)系,更全面地展示信息資源間的聯(lián)系。通過數(shù)據(jù)挖掘技術(shù)來建設(shè)信息資源,可以建立挖掘更深入、展示更全面、使用更便利的信息資源。
本文以檔案信息資源為例,綜合應(yīng)用主題提取、聚類、層次空間構(gòu)建3種技術(shù)方法來進(jìn)行信息資源建設(shè),其具體意義如下。
第一,在分析檔案信息資源特征的基礎(chǔ)上對檔案信息資源進(jìn)行處理,利用LDA主題模型對檔案信息資源進(jìn)行主題提取,并對提取的主題進(jìn)行了主題展示。從主題劃分的結(jié)果來看,近50%的檔案信息資源存在較為明確的主題偏向,是圍繞某些主題而進(jìn)行的工作;而其他檔案資源主題偏向不太明確,涉及多個(gè)主題。
通過將主題提取技術(shù)應(yīng)用到檔案信息資源建設(shè),使得檔案信息中蘊(yùn)含的主題信息得以被挖掘;通過主題來進(jìn)行檔案信息資源的展示,可以從特定主題的角度來進(jìn)行檔案資源的瀏覽與查找,并能同時(shí)發(fā)現(xiàn)與某一主題相關(guān)的所有檔案信息資源,大幅提高了檔案信息資源查找與利用的效率。
第二,在主題分析的基礎(chǔ)上,用DBSCAN聚類算法對檔案信息資源進(jìn)行聚類分析,將每一個(gè)主題視為一個(gè)維度,分析了檔案信息資源在多維度上的相關(guān)性,使得在多個(gè)維度上都具有較強(qiáng)聯(lián)系的資源聚集到一類。從聚類結(jié)果來看,有大多數(shù)的檔案信息資源被聚集到同一聚類簇,而其他的檔案信息資源則分布在其他的幾個(gè)小聚類簇中。
通過將聚類技術(shù)應(yīng)用到檔案信息資源建設(shè)中,使得檔案信息資源間的關(guān)系能夠被更清晰地展示,從多個(gè)維度對檔案信息資源間的相關(guān)性分析,保證了聚類結(jié)果的準(zhǔn)確性。以本文檔案資源聚類結(jié)果來說,大多數(shù)資源都被聚集到同一類簇,而這類檔案信息資源也恰好是資源來源規(guī)劃中心在實(shí)際工作中處理最多的一類檔案信息資源。通過聚類,可以幫助相似資源的查找,實(shí)現(xiàn)對檔案信息資源的合理調(diào)節(jié)與配置,并能展示出檔案信息資源間的相互關(guān)系。
第三,在主題提取與聚類分析的基礎(chǔ)上,進(jìn)一步進(jìn)行了檔案信息資源間層次空間的構(gòu)建。選取適宜的、能進(jìn)行層次構(gòu)建的信息資源集合,利用余弦相似度算法進(jìn)行了檔案信息資源間的相似度計(jì)算,通過相似度分析,構(gòu)建檔案信息資源間的層次關(guān)系。
通過為檔案信息資源構(gòu)建層次空間,可以更好地發(fā)現(xiàn)檔案信息資源間的關(guān)系強(qiáng)度,并且可以在一定程度上發(fā)現(xiàn)檔案信息資源間的上下位關(guān)系及近義關(guān)系。即在層次空間中,根節(jié)點(diǎn)與子節(jié)點(diǎn)間通常存在一定的上下位關(guān)系,同一根節(jié)點(diǎn)的不同子節(jié)點(diǎn)間通常存在近義關(guān)系。而兩個(gè)節(jié)點(diǎn)在層次空間中的距離可以表示節(jié)點(diǎn)間的相關(guān)性大小,即距離越近的節(jié)點(diǎn)間聯(lián)系越緊密,距離越遠(yuǎn)的節(jié)點(diǎn)間聯(lián)系越疏遠(yuǎn)。層次空間的構(gòu)建,使得檔案信息資源間的關(guān)系得到了更充分、全面的展示,為檔案信息資源的利用帶來了極大的便利。