包 翔,汪滿容,劉桂鋒
(江蘇大學(xué) 科技信息研究所,江蘇 鎮(zhèn)江 212013)
分類方法作為機(jī)器學(xué)習(xí)中的重要組成部分,其應(yīng)用領(lǐng)域滲透到了各行各業(yè)。傳統(tǒng)的分類方法要求滿足兩個條件:一是用于學(xué)習(xí)的訓(xùn)練樣本和最終用來測試的樣本必須符合獨(dú)立同分布的條件;二是用于學(xué)習(xí)的樣本量必須達(dá)到一定的規(guī)模才能得到一個較好的模型。但在實(shí)際情況中,同時滿足以上兩個條件非常困難。學(xué)術(shù)研究中,遷移學(xué)習(xí)放寬了傳統(tǒng)分類方法的兩個條件,被定義為:運(yùn)用已有的知識對不同但相關(guān)的領(lǐng)域問題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法[1]。在遷移學(xué)習(xí)領(lǐng)域,源領(lǐng)域和目標(biāo)領(lǐng)域分別被稱為訓(xùn)練集和測試集。源領(lǐng)域以及目標(biāo)領(lǐng)域主題相關(guān)但不完全相同。
學(xué)者們對遷移學(xué)習(xí)在文本分類中已經(jīng)開展了大量研究,跨領(lǐng)域文本分類方法大體上可以分為兩種,基于示例權(quán)重的跨領(lǐng)域?qū)W習(xí)和基于特征選擇的跨領(lǐng)域?qū)W習(xí)。基于示例權(quán)重的跨領(lǐng)域?qū)W習(xí)方法聚焦于如何確定源領(lǐng)域中示例的權(quán)重,使得能增加與目標(biāo)領(lǐng)域分布相似的示例的權(quán)重,減少與目標(biāo)領(lǐng)域不相似示例的權(quán)重,基于示例權(quán)重的跨領(lǐng)域?qū)W習(xí)方法主要的研究難點(diǎn)在于對不同領(lǐng)域間數(shù)據(jù)分布差異的衡量,文獻(xiàn)[2]提出一種基于監(jiān)督自適應(yīng)轉(zhuǎn)移概率潛在語義分析(supervised adaptive transfer probabilistic latent semantic analysis,SATPLSA)的跨域文本分類模型,該模型將原PLSA(probabilistic latent semantic analysis)擴(kuò)展到有監(jiān)督的學(xué)習(xí)范式,通過跨領(lǐng)域定義每個術(shù)語的標(biāo)簽信息,在源域中傳輸知識,自適應(yīng)地修改了權(quán)重值,以控制模型學(xué)習(xí)過程中來自源域的知識使用比例;文獻(xiàn)[3]在構(gòu)建基于極限學(xué)習(xí)機(jī)的無監(jiān)督自適應(yīng)分類器時,結(jié)合聯(lián)合概率分布匹配和流形正則的思想,對輸出層權(quán)重進(jìn)行自適應(yīng)調(diào)整,在字符數(shù)據(jù)集和對象識別數(shù)據(jù)集上的實(shí)驗結(jié)果表明其具有較高的跨領(lǐng)域分類精度;文獻(xiàn)[4]針對傳統(tǒng)領(lǐng)域間分布差異度量方法忽略單個樣本對全局度量貢獻(xiàn)差異性而影響特征遷移算法性能的問題,基于樣本局部判別權(quán)重的加權(quán)遷移成分分析算法,還將線性判別分析引入目標(biāo)函數(shù),在實(shí)現(xiàn)知識遷移的同時,提高算法的類別可分性。
基于特征選取的方法致力于找到一個共同的特征空間,并在這個空間里實(shí)現(xiàn)遷移學(xué)習(xí),研究難點(diǎn)在于對樣本原始結(jié)構(gòu)和標(biāo)簽信息缺乏足夠的利用。文獻(xiàn)[5]提出的CDELM(cross-domain extreme learning machines)通過匹配兩個域的投影方法將源分類器自適應(yīng)到目標(biāo)域,并通過流形正則化來探索目標(biāo)域的結(jié)構(gòu)特性,使最終的分類器更適合目標(biāo)數(shù)據(jù);文獻(xiàn)[6]提出了一種跨領(lǐng)域標(biāo)記LDA(cross-domain latent dirichlet allocation)的方法用于跨領(lǐng)域文本分類,引入組對齊的方法減少領(lǐng)域間語義層面的誤差,并能檢測到那些有意義的主題;文獻(xiàn)[7]研究了極限學(xué)習(xí)機(jī)(extreme learning machines,ELM)框架下的聯(lián)合域匹配與分類(joint domain matching and classification,JDMC)方法,根據(jù)映射特征空間中的邊際概率和條件概率分布來衡量源領(lǐng)域和目標(biāo)領(lǐng)域之間的差異,并將差異降到最小,通過對ELM的輸出權(quán)重中加入L-范數(shù),選擇在兩個領(lǐng)域表現(xiàn)相似的信息特征進(jìn)行知識轉(zhuǎn)移,該方法在預(yù)處理中運(yùn)用PCA(principal component analysis)進(jìn)行降維。但是以上方法仍存在一些問題,例如文獻(xiàn)[4]中用到了構(gòu)件分布差異權(quán)重矩陣,采用廣義分解投影矩陣的方法,時間復(fù)雜度較高;文獻(xiàn)[5]中的方法在一些數(shù)據(jù)集的效果不佳,不具有普適性;文獻(xiàn)[6]所提出的方法參數(shù)設(shè)定較為復(fù)雜;文獻(xiàn)[7]提出的方法需要進(jìn)行參數(shù)的預(yù)處理。
本研究方法基于特征選取,首先,利用將文本集合成由共同主題和特定主題聯(lián)合起來的混合模型;然后,通過這兩類主題相關(guān)性推斷不同領(lǐng)域之間主題的映射關(guān)系;最后,融合共同主題以及映射后的特定主題形成一個新的特征空間,在這個特征空間中,知識可以有效轉(zhuǎn)移。實(shí)驗表明該方法能較為準(zhǔn)確地預(yù)測跨領(lǐng)域的文本分類,為實(shí)現(xiàn)更多文本的自動分類提供參考,并在多個數(shù)據(jù)集中驗證該方法的性能。
(1)
其中,
文檔的對數(shù)似然可以表示為:
(2)
EM算法分為E步和M步,經(jīng)過推導(dǎo)得到參數(shù)的估計值分別為:
E步:
(3)
(4)
M步:
(5)
(6)
(7)
(8)
(9)
由于公式(1)中并沒有計算跨領(lǐng)域主題之間的共現(xiàn)矩陣,因此本研究將共同主題作為一個橋梁,期望找到跨領(lǐng)域主題之間的關(guān)系。
在分析中發(fā)現(xiàn)若兩個跨領(lǐng)域主題都與共同主題有關(guān)聯(lián),其間很可能是語義相關(guān)的[9],所以本部分的重點(diǎn)有兩個方面:一是計算每個領(lǐng)域內(nèi)共同主題和特定主題之間的相似性;二是推斷不同領(lǐng)域內(nèi)的特定主題之間的相關(guān)性。
為了解決第一個方面的問題,本研究采取JS散度(Jensen-Shannon divergence)作為文本-主題分布之間的相似度度量。JS散度被廣泛應(yīng)用在度量概率分布之間的相似度。對于兩個分布P和Q,JS散度表示為:
(10)
(11)
即如果一個共同主題和特定主題總是在文本中同時出現(xiàn),則之間有很小的JS散度,這兩個主題之間相似度會很大。
對于第二個方面的問題,由于不同領(lǐng)域之間的特定主題不可能共現(xiàn),所以不能用公式(11)來直接計算相似度,而且JS散度的值域為[0,1]。因此,選擇皮爾森相關(guān)系數(shù)(Pearson correlation coefficient, PCCs)來計算其相似性,PCCs∈[-1,1],絕對值越大,兩個變量之間的相關(guān)性越大,接近-1表示負(fù)相關(guān),接近于1表示正相關(guān)。本方法中,源領(lǐng)域和目標(biāo)領(lǐng)域各自的特定主題之間的相關(guān)性表示為:
(12)
(13)
以上討論的是挖掘共同主題以及特定主題與計算不同領(lǐng)域內(nèi)主題相關(guān)性等步驟,現(xiàn)討論如何將源領(lǐng)域和目標(biāo)領(lǐng)域的文本映射到一個新的特征空間上,并在該特征空間上進(jìn)行跨領(lǐng)域的文本分類。
(14)
(14)
綜上所述,本方法具體流程如下:
輸入:源領(lǐng)域已標(biāo)注的文本數(shù)據(jù)集Ds,目標(biāo)領(lǐng)域未標(biāo)注的文本數(shù)據(jù)集DT;源領(lǐng)域文本數(shù)據(jù)主題個數(shù)Ks,目標(biāo)領(lǐng)域文本數(shù)據(jù)的主題個數(shù)Kt;共同主題的個數(shù)K;迭代最大次數(shù)T。
輸出:目標(biāo)領(lǐng)域內(nèi)未標(biāo)記文本的類別。
S1:初始化公式(1)模型的參數(shù),利用EM算法更新模型參數(shù);
S2:計算共同主題和特定主題之間的相關(guān)性,計算參考公式(11);
S3:構(gòu)建主題映射矩陣U,具體計算參考公式(13);
從上述描述可知本方法的時間復(fù)雜度為O(n*m*(K+Ks+Kt)+n),其中n代表樣本總量,m代表字典的維數(shù),K表示共同主題的個數(shù),Ks表示源領(lǐng)域的特定主題個數(shù),Kt表示目標(biāo)領(lǐng)域的特定主題個數(shù)。
為了測試上述方法的有效性,將分類中常用的準(zhǔn)確率(P)、召回率(R)、綜合準(zhǔn)確率和召回率的F值(F)等指標(biāo)作為評價標(biāo)準(zhǔn),與支持向量機(jī)(support sector machine,SVM)和K最近鄰(k-nearest neighbor,KNN)兩種經(jīng)典的分類方法進(jìn)行比較。同時也與三種其他基于跨領(lǐng)域?qū)W習(xí)方法進(jìn)行實(shí)驗對比,其中第一種方法是基于統(tǒng)計生成模型的協(xié)同-對偶PLSA模型[10],以下簡稱CDPLSA,該方法力求同時找到不同領(lǐng)域內(nèi)的區(qū)別與共性,并將兩者融合以實(shí)現(xiàn)知識的遷移;第二種方法是在PLSA模型的基礎(chǔ)上運(yùn)用非負(fù)矩陣三因子分解的方法建立源領(lǐng)域和目標(biāo)領(lǐng)域之間遷移學(xué)習(xí)的橋梁[11],以下簡稱TLPLSA;第三種方法是基于深度自編碼的遷移學(xué)習(xí),利用深度自動編碼器來同時表示不同領(lǐng)域的特征[12],以下簡稱DEEP-AC。對于SVM和KNN方法,分類器使用源領(lǐng)域中標(biāo)記文本進(jìn)行訓(xùn)練,之后將該分類器用于目標(biāo)領(lǐng)域中預(yù)測類標(biāo)簽的未標(biāo)記文本。
實(shí)驗數(shù)據(jù)集(如表1所示)有兩個:一個是常用的文本分類測試數(shù)據(jù)集20 newsgroups,另一個是關(guān)于專利分類的數(shù)據(jù)集。20 newsgroups數(shù)據(jù)集包含了近20 000個新聞組,并被均勻分割成20個不同的主題。利用文獻(xiàn)[13]中生成的跨域文本數(shù)據(jù)集,利用數(shù)據(jù)集的二元結(jié)構(gòu)層次結(jié)構(gòu),如comp.graphics,其中comp為大類,代表的是該文本屬于計算機(jī)領(lǐng)域,而comp.graphics為小類,代表該文本是屬于計算機(jī)領(lǐng)域下的圖像領(lǐng)域,通過對源領(lǐng)域數(shù)據(jù)集的分析,判斷目標(biāo)領(lǐng)域文本所屬的大類。專利分類數(shù)據(jù)集來自上海知識產(chǎn)權(quán)公共服務(wù)平臺的中國專利數(shù)據(jù)庫,選取水處理技術(shù)領(lǐng)域的 500 篇專利文獻(xiàn)作為語料庫,以該數(shù)據(jù)庫中各個專利對應(yīng)的人工標(biāo)引IPC分類號作為依據(jù),將技術(shù)內(nèi)容注明為:部-大類-小類-大組-小組。專利文本語料庫中源領(lǐng)域的數(shù)據(jù)是由兩個大類下的小類的文本組成,通過本方法判定目標(biāo)領(lǐng)域中相關(guān)文本所屬的IPC分類號中的大類信息,從而實(shí)現(xiàn)專利的自動分類。值得一提的是,專利分類實(shí)驗采用 jieba中文分詞的.NET 版本并通過精確分詞模式來實(shí)現(xiàn),在特征選擇階段,文本特征利用 TFC 加權(quán)法[14]計算出每一個特征詞的權(quán)重,并且選取了前1 000個 TF*IDF 值對應(yīng)的特征詞作為數(shù)據(jù)的索引詞。
表1 實(shí)驗數(shù)據(jù)介紹
本研究將共同主題數(shù)、源領(lǐng)域文本數(shù)據(jù)特定主題個數(shù)和目標(biāo)領(lǐng)域文本數(shù)據(jù)的特定主題個數(shù)設(shè)置為相同的值,通過分析不同共同主題數(shù)在分類準(zhǔn)確率上的變化情況,選取最優(yōu)的主題數(shù)目。圖1表示sci & talk和D06 & E03的數(shù)據(jù)集中分類準(zhǔn)確率的變化情況,可見sci & talk數(shù)據(jù)集的共同主題數(shù)為6時,分類準(zhǔn)確率最高,而D06 & E03數(shù)據(jù)集的共同主題數(shù)設(shè)置為7。
圖1 不同數(shù)據(jù)集中分類準(zhǔn)確率隨著主題個數(shù)的變化情況
以數(shù)據(jù)集20 newsgroups中的sci & talk數(shù)據(jù)為例,說明本文第一部分的運(yùn)算流程。數(shù)據(jù)集1的源領(lǐng)域數(shù)據(jù)包括sci.crypt、sci.med、talk.politics.misc和talk.religion.misc,而目標(biāo)領(lǐng)域包括sci.electronics、sci.space、talk.politics.guns和talk.politics.mideast,將共同主題的個數(shù)設(shè)為K=6,并將源領(lǐng)域文本數(shù)據(jù)特定主題個數(shù)、目標(biāo)領(lǐng)域文本數(shù)據(jù)的特定主題個數(shù)都設(shè)置為6,得出該實(shí)驗中共同主題對應(yīng)的主題詞、源領(lǐng)域文本數(shù)據(jù)特定主題對應(yīng)的主題詞、目標(biāo)領(lǐng)域中特定主題所對應(yīng)的主題詞見表2~4。
表2 源領(lǐng)域和目標(biāo)領(lǐng)域共同主題所對應(yīng)的主題詞
根據(jù)1.2節(jié)中的介紹,用于表示源領(lǐng)域和目標(biāo)領(lǐng)域文本數(shù)據(jù)特定主題之間的映射矩陣為:
表4 目標(biāo)領(lǐng)域中特定主題所對應(yīng)的主題詞
由表3~4可知,源領(lǐng)域文本中的主題6與目標(biāo)領(lǐng)域中的主題4的主題詞有很多相似之處,都包含edu、writes、com和article等詞語,由此推斷這兩個主題之間的相似度應(yīng)該會較高,從源領(lǐng)域和目標(biāo)領(lǐng)域文本數(shù)據(jù)特定主題之間的映射矩陣U可以看出相關(guān)度為0.824,符合實(shí)際主題分布的情況。
表3 源領(lǐng)域中特定主題所對應(yīng)的主題詞
由于本方法有隨機(jī)初始化過程,因此在實(shí)驗設(shè)計中設(shè)置程序運(yùn)行次數(shù)為10次,并對10次運(yùn)行的平均結(jié)果進(jìn)行分析,采用P、R、綜合準(zhǔn)確率和召回率的F值作為評價指標(biāo),具體實(shí)驗數(shù)據(jù)如表5。
表5 各種分類方法在不同數(shù)據(jù)集上的分類結(jié)果
表5比較了6種方法在4個數(shù)據(jù)集上的分類指標(biāo),實(shí)驗結(jié)果表明,本研究方法在數(shù)據(jù)集1、2、4中F值都是最高的。具體的,在數(shù)據(jù)集1上,除了R值略低于CDPLSA方法,其他的指標(biāo)都是最優(yōu)的;在數(shù)據(jù)集2和數(shù)據(jù)集4上,除了P值略低于CDPLSA方法,其他的指標(biāo)也都是最優(yōu)的;CDPLSA的方法在數(shù)據(jù)集3上取得最優(yōu)的R值和F值,而DEEP-AC方法則有最優(yōu)的P值,但是本文F指標(biāo)與以上兩種方法的結(jié)果都比較接近。綜上所述,本方法比SVM和KNN方法的分類效果要好很多;盡管在有些數(shù)據(jù)集上的某些指標(biāo)上略遜于CDPLSA、TLPLSA、DEEP-AC幾種遷移學(xué)習(xí)的衍生方法,但本方法對應(yīng)的分類指標(biāo)沒有出現(xiàn)P、R兩個指標(biāo)非常小的極端現(xiàn)象,說明本方法具有良好的適用性。
通過表6可以看出,本方法的AUC值較SVM、KNN等有較大優(yōu)勢。盡管在某些數(shù)據(jù)集上的AUC值不如CDPLSA、TLPLSA和DEEP-AC方法,但在20 newsgroups-sci和20 newsgroups-talk數(shù)據(jù)集上本方法的AUC值明顯高于其他方法;在專利數(shù)據(jù)集D06和E03上,雖然本方法的AUC值分別低于CDPLSA和TLPLSA,但與最優(yōu)值之間的差距較小。
表6 各種分類方法在不同數(shù)據(jù)集上分類AUC值比較
綜上所述,本方法在20 newsgroups數(shù)據(jù)以及自建的中國專利數(shù)據(jù)集上都具有較好的分類效果,說明適用性較好。其次,本研究的主題個數(shù)的設(shè)置通過準(zhǔn)確率分析即可確定,只需設(shè)置EM算法的迭代次數(shù),并對公式(1)進(jìn)行初始參數(shù)的確定,總體來說參數(shù)設(shè)置比較簡單。最后,本方法不需要進(jìn)行預(yù)處理,只需要對公式(1)進(jìn)行初始參數(shù)的確定,而初始參數(shù)在EM算法多次迭代之后對分類結(jié)果的影響很小,時間復(fù)雜度也較小。
本研究基于主題模型與遷移學(xué)習(xí)的文本分類方法,借助跨領(lǐng)域遷移學(xué)習(xí)的方法對跨域的文本進(jìn)行分類,通過挖掘文本的共同主題和特定主題及相關(guān)性推斷出不同領(lǐng)域之間主題的映射關(guān)系,融合共同主題以及映射后的特定主題形成一個新的特征空間,并在此特征空間中完成文本的分類。實(shí)驗表明,該方法能較為準(zhǔn)確地預(yù)測跨領(lǐng)域的文本分類,為實(shí)現(xiàn)更多文本的自動分類提供參考??傮w而言,從國內(nèi)外的語料庫的實(shí)驗可以發(fā)現(xiàn),本方法相較于其他對比方法魯棒性較好,沒有出現(xiàn)非常極端的情況。但是,本研究提供的方法仍有一些缺陷,例如,主題模型中共同主題和特定主題數(shù)目的確定是通過枚舉方法確定,缺乏嚴(yán)謹(jǐn)?shù)睦碚撝?;本?shí)驗的專利語料庫由水處理領(lǐng)域的兩個不同IPC號的相關(guān)文獻(xiàn)構(gòu)建而成,該專利語料庫可能存在兩類對比主題過于接近、中文語料庫預(yù)處理結(jié)果不是非常理想等問題,導(dǎo)致專利語料庫上的分類效果與其他對比方法沒有過多的優(yōu)勢。