李湘東,阮濤
(1.武漢大學(xué)信息管理學(xué)院,武漢 430072;2.武漢大學(xué)電子商務(wù)研究與發(fā)展中心,武漢 430072)
隨著現(xiàn)代互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,人工智能開始普及并逐漸滲透到各個(gè)應(yīng)用領(lǐng)域?;跈C(jī)器學(xué)習(xí)的自動(dòng)文本分類技術(shù)(也可簡稱為自動(dòng)分類),作為人工智能的主要技術(shù)之一,是對(duì)文本信息資源進(jìn)行組織與管理的重要手段[1]。在信息管理領(lǐng)域,人工智能技術(shù)的應(yīng)用也逐漸成為可能和必要?!吨袊鴪D書館分類法》(以下簡稱《中圖法》)是圖書館對(duì)信息資源進(jìn)行分類組織的主要分類體系,該分類體系下存在大量內(nèi)容相似的類目,本文將其稱為內(nèi)容相似類目。在信息管理領(lǐng)域開展自動(dòng)分類研究,對(duì)內(nèi)容相似類目的處理是其中一個(gè)重要課題。
從機(jī)器學(xué)習(xí)角度看,內(nèi)容相似類目指兩個(gè)及兩個(gè)以上類別間的文本在用詞上非常接近,以不分詞序和語義特征的詞袋模型所表示的文本間差異非常小的類目或類別。對(duì)其采取自動(dòng)分類技術(shù)研究指將內(nèi)容相似類目中的任意兩個(gè)類別看作兩個(gè)類的文本內(nèi)容或特征非常接近時(shí)的兩類文本分類問題。內(nèi)容相似類目的分類問題對(duì)數(shù)據(jù)集和相關(guān)分類技術(shù)都有更高的要求。
本文以《中圖法》中E271(中國陸軍)和E712.51(美國陸軍)兩個(gè)類別的書目信息作為內(nèi)容相似類目的分類對(duì)象,針對(duì)分類技術(shù)中的特征選擇環(huán)節(jié),引入領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征對(duì)DNCF_MI(DNC Frequency and Mutual Information)特征選擇法進(jìn)行優(yōu)化,以提高對(duì)內(nèi)容相似類目的分類精度,為今后對(duì)《中圖法》中更多內(nèi)容相似類目開展基于機(jī)器學(xué)習(xí)的自動(dòng)分類研究拋磚引玉。
在《中圖法》等科學(xué)分類體系下開展的自動(dòng)分類研究中,分類對(duì)象的文本主要是由題名和摘要構(gòu)成的書目信息。一部分研究主要針對(duì)單層分類[2-6],使用的類目為不同類別區(qū)分明顯的同層類目,目的是探索基于機(jī)器學(xué)習(xí)的自動(dòng)分類是否適用于書目信息所組成的文本。單層分類明顯不符合《中圖法》等級(jí)層次明確的科學(xué)分類體系。目前已有學(xué)者圍繞《中圖法》或DDC等科學(xué)分類體系對(duì)書目信息進(jìn)行層次分類[7-9],但這些研究多通過縮減等級(jí)的層次深度、合并類目或縮短類號(hào)等方式對(duì)原科學(xué)分類體系進(jìn)行改造和重構(gòu),在3—4級(jí)層次的深度上對(duì)書目信息開展自動(dòng)分類時(shí)的有效性進(jìn)行檢驗(yàn),其本質(zhì)是將內(nèi)容相似類目合并為一個(gè)類。這種做法依然不能滿足《中圖法》中11層的科學(xué)分類體系,同時(shí),也從實(shí)證角度說明在《中圖法》等科學(xué)分類體系下開展自動(dòng)分類的難度,即隨著層次和類別數(shù)量的增加,類別間差異較小或類別間極為相似而難以區(qū)分,現(xiàn)有研究不得不通過縮減等級(jí)的層次深度或合并類別等方式忽略內(nèi)容相似類目的自動(dòng)分類,將內(nèi)容相似類目合并為一個(gè)較大的類別。黃莉[10]和薛春香[11]等指出《中圖法》體系龐大,存在不同的主題劃分,且各主題下層次縱橫,存在大量上下位關(guān)系,同位類上也存在多個(gè)不同類別,同時(shí)類別間差異較小,難以區(qū)分。何琳等[12]認(rèn)為《中圖法》層級(jí)較多且類別間極為相似,容易造成錯(cuò)分、誤分。如E271和E712.51屬于主題相同而地區(qū)不同的內(nèi)容相似類目,在對(duì)其區(qū)分時(shí)首先要確定上位類E(軍事)下的文本,再進(jìn)一步確定下一層(二級(jí)類目)應(yīng)歸入E2(中國)還是E712(美國),以此類推,直到將文本劃入E271或E712.51。因此,如何確定內(nèi)容相似類目中待分類文本的所屬類別是《中圖法》分類體系下自動(dòng)分類的一個(gè)難點(diǎn)。然而,已有研究只是分析并指出問題所在[10-12],尚沒有提出解決內(nèi)容相似類目自動(dòng)分類的具體辦法。
在解決內(nèi)容相似類目的自動(dòng)分類研究中,目前兩類分類是主要的解決途徑。兩類分類指對(duì)類別間主題相似或相同,又有區(qū)分必要的兩類文本進(jìn)行基于機(jī)器學(xué)習(xí)的自動(dòng)分類。兩類分類的主要問題在于商品評(píng)價(jià)信息分類、情感分類、敏感信息過濾等,其主要特點(diǎn)為分類對(duì)象間內(nèi)容極為相似、難以區(qū)分。有研究探討了微博評(píng)論的情感傾向分類問題[13-15],指出微博評(píng)論的分類實(shí)際是一種將評(píng)論內(nèi)容分為積極或消極的兩類分類問題,區(qū)分的難點(diǎn)主要在于對(duì)那些相似性高,卻從屬于不同情感詞的劃分。研究指出網(wǎng)絡(luò)不良信息過濾問題[16-17],實(shí)際是對(duì)網(wǎng)絡(luò)信息進(jìn)行區(qū)分的兩類分類問題,即對(duì)具有相似內(nèi)容卻表現(xiàn)出不同傾向的信息進(jìn)行正確過濾。已有文獻(xiàn)均指出開展內(nèi)容相似類目的兩類分類研究的難點(diǎn)是在內(nèi)容極為相似的前提下,如何為內(nèi)容相似類目賦予合適的特征[13-17]。如李亞南[13]采用最大匹配方法重新組合特征;楊歡[14]在文本分類時(shí),將主題與情感相關(guān)聯(lián)進(jìn)行特征值組合;Pan等[18]提出領(lǐng)域相關(guān)特征和領(lǐng)域無關(guān)特征的思想及相應(yīng)決定方法,并將其應(yīng)用到情感的兩類分類問題中。這些研究為本文的展開提供思路,可以借鑒到利用《中圖法》開展兩類分類的研究中,即通過優(yōu)化特征選擇過程,選取更具類別代表性的特征以提高分類效果。
特征選擇是一種特征降維的方式,特征選擇的主要任務(wù)是根據(jù)某種規(guī)則選擇出更具類代表性的特征,而剔除與類聯(lián)系性弱的特征。常用的特征選擇法有χ2統(tǒng)計(jì)、信息增益、互信息、期望交叉熵、文檔頻率等[19]。互信息在實(shí)際運(yùn)用中得到多數(shù)研究人員的青睞。已有研究指出互信息是一種基于信息熵的特征選擇法,在文本分類中,互信息可以表示任意特征詞與類別的共現(xiàn)關(guān)系,互信息值越大,則表示它們間的共現(xiàn)概率越大,相關(guān)性也越大,本文將其稱為傳統(tǒng)互信息[20-22]。鄧彩鳳[23]對(duì)傳統(tǒng)互信息方法進(jìn)行了深入研究分析,總結(jié)出傳統(tǒng)互信息方法的特點(diǎn)及不足,并引入類內(nèi)特征頻度和類內(nèi)分散度指標(biāo),對(duì)傳統(tǒng)互信息進(jìn)行改進(jìn),通過選取復(fù)旦語料庫中藝術(shù)、計(jì)算機(jī)、經(jīng)濟(jì)等10個(gè)類目開展分類對(duì)比實(shí)驗(yàn),結(jié)果表明改進(jìn)的方法較傳統(tǒng)互信息要好。辛竹等[24]針對(duì)傳統(tǒng)互信息中的負(fù)相關(guān)現(xiàn)象以及偏向于選擇低頻詞等特點(diǎn),在綜合考慮負(fù)相關(guān)特征、類間集中度和類內(nèi)分散度等因素的基礎(chǔ)上,提出一種改進(jìn)的互信息特征選擇法DNCF_MI,同樣通過選取復(fù)旦語料庫中藝術(shù)、計(jì)算機(jī)、經(jīng)濟(jì)等10個(gè)類目開展分類對(duì)比實(shí)驗(yàn),結(jié)果表明DNCF_MI在分類性能上比傳統(tǒng)互信息要好。鄧彩鳳[23]和辛竹等[24]提出的互信息方法都取得了一定的效果,但這些改進(jìn)的互信息方法仍然存在不足:傳統(tǒng)互信息[20-22]及改進(jìn)后的互信息[23-24]都是以類別區(qū)分明顯的三個(gè)類或以上為分類對(duì)象,沒有考慮內(nèi)容相似類目的處理方法。因此,可以結(jié)合情感分類和敏感信息過濾問題的處理思路,對(duì)互信息作進(jìn)一步改進(jìn)。但該思想及方法沒有區(qū)分領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征對(duì)兩類分類的貢獻(xiàn),由于在實(shí)際情況中,領(lǐng)域無關(guān)特征的貢獻(xiàn)度應(yīng)小于領(lǐng)域相關(guān)特征,因此將其應(yīng)用到《中圖法》內(nèi)容相似類目的分類中時(shí),需要進(jìn)一步優(yōu)化,以提高《中圖法》相似類目下兩類分類的精確度。
綜上所述,針對(duì)《中圖法》現(xiàn)有自動(dòng)分類研究中忽略內(nèi)容相似類目的不足,本文以《中圖法》中內(nèi)容相似類目為研究對(duì)象,將領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征的思想引入互信息特征選擇法中,并進(jìn)一步區(qū)分領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征對(duì)兩類分類的貢獻(xiàn),對(duì)DNCF_MI進(jìn)行改進(jìn),提出改進(jìn)的互信息特征選擇法DNCF_DI_MI(DNC Frequency and Domain Independent Mutual Information),使其能較好地適應(yīng)內(nèi)容相似類目的特征選取。此外,《中圖法》中3個(gè)或3個(gè)以上的類目,其分類也可以轉(zhuǎn)化為兩類分類,如對(duì)E512.51(俄羅斯陸軍)、E353.51(巴基斯坦陸軍)和E712.51進(jìn)行分類時(shí),可以將E512.51/E353.51看作一個(gè)類,從而轉(zhuǎn)換為E712.51與E512.51/E353.51的兩類分類問題,進(jìn)而再對(duì)E512.51與E353.51的兩類分類分析。因此,對(duì)《中圖法》中多個(gè)內(nèi)容相似類目的劃分問題,都可以看作對(duì)任意兩個(gè)內(nèi)容相似類目的文本進(jìn)行兩類分類的問題。
目前以《中圖法》為對(duì)象的自動(dòng)分類研究主要包括綜述性、分析性文章,與分類方法相關(guān)的研究主要針對(duì)界限清晰的類別。然而,《中圖法》中存在大量內(nèi)容相似、難以區(qū)分的類別。本文將相似類目的分類轉(zhuǎn)換為兩類分類問題,對(duì)兩類分類中的特征選擇法提出具體改進(jìn)措施,為《中圖法》中內(nèi)容相似類目的自動(dòng)分類提供解決方向和途徑。
此外,特征選擇是降低特征空間維度、減少空間復(fù)雜度的過程,是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的基礎(chǔ)技術(shù),也是自動(dòng)分類的主要環(huán)節(jié)。本文對(duì)傳統(tǒng)互信息進(jìn)行改進(jìn),提高其提取特征的能力,使其更加適應(yīng)內(nèi)容相似類目的分類需求,提高對(duì)《中圖法》開展自動(dòng)分類的信心和效果,進(jìn)一步細(xì)化特征選擇法的相關(guān)研究和應(yīng)用能力。
互信息特征選擇法的主要思想是判定特征詞與類別的共現(xiàn)關(guān)系,特征詞與類別的互信息越大,共現(xiàn)概率越大,即二者間的相關(guān)性越大,則更能代表該類的特征[25]。在進(jìn)行特征選擇時(shí),傳統(tǒng)互信息存在3點(diǎn)不足[24]。(1)忽視負(fù)相關(guān)特征對(duì)特征篩選環(huán)節(jié)的影響。根據(jù)互信息計(jì)算結(jié)果可知,部分特征的互信息值為負(fù),稱為負(fù)相關(guān)特征,而負(fù)相關(guān)特征在特征選擇過程中通常會(huì)被剔除,但實(shí)際情況下負(fù)相關(guān)特征對(duì)分類結(jié)果也會(huì)產(chǎn)生影響。(2)沒有考慮特征詞的集中程度。部分重要特征詞通常集中在一類中。(3)沒有考慮特征詞的分散程度。當(dāng)兩個(gè)特征詞的互信息值相同時(shí),根據(jù)互信息原理認(rèn)為兩個(gè)特征詞同樣重要,但在實(shí)際情況下,若一個(gè)特征詞在某類少數(shù)文本中出現(xiàn),而另一個(gè)特征詞在該類大多數(shù)文本中出現(xiàn),則前者更具有類別區(qū)分性。
辛竹等[24]針對(duì)傳統(tǒng)互信息的不足,引入DNC參數(shù)抵消傳統(tǒng)互信息的負(fù)相關(guān)現(xiàn)象,并引入類內(nèi)分散度、類間集中度分別表示特征詞在類別內(nèi)的分散程度以及在類別間的聚集程度,提出一種改進(jìn)的互信息特征選擇法DNCF_MI。
傳統(tǒng)互信息方法存在負(fù)相關(guān)現(xiàn)象,在進(jìn)行特征選擇時(shí),通常先剔除值為負(fù)的特征。但在實(shí)際情況下,負(fù)相關(guān)現(xiàn)象并不能被忽視。因此,引入DNC參數(shù)抵消負(fù)相關(guān)現(xiàn)象對(duì)傳統(tǒng)互信息計(jì)算結(jié)果的影響。DNC的計(jì)算公式[24]為:
其中,fi(t)表示類別ci中包含特征t的文檔數(shù),f(t)表示平均每個(gè)類別含有特征t的文檔數(shù)。
類間集中度指特征詞在不同類別間分布的集中程度。類間集中度用特征詞t對(duì)于類別c的后驗(yàn)概率表示。
類內(nèi)分散度指特征詞在某一類別內(nèi)部不同文檔間的分散程度。類內(nèi)分散度用特征詞t對(duì)于類別c的先驗(yàn)概率表示。
通過分析這些參數(shù)對(duì)傳統(tǒng)互信息的影響,可以得出對(duì)于某一特征詞來說,該特征為正相關(guān)特征且集中度越強(qiáng)、分散度越大,則更具有類別區(qū)分能力。DNCF_MI的計(jì)算公式[24]為:
DNCF_MI克服傳統(tǒng)互信息的不足,結(jié)合類間集中度和類內(nèi)分散度,并抵消負(fù)相關(guān)現(xiàn)象對(duì)特征選擇的影響。DNCF_MI特征選擇法能夠選擇出更具類別代表性的特征詞,但對(duì)于內(nèi)容相似類目的兩類分類問題,無論是傳統(tǒng)互信息,還是DNCF_MI,都沒有區(qū)分領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征對(duì)其的貢獻(xiàn),也沒有將在兩類中同時(shí)出現(xiàn)且具有不同貢獻(xiàn)程度的特征與只在其中一個(gè)類中出現(xiàn)的特征加以區(qū)別。
類別是反映領(lǐng)域概念的相關(guān)文本集合。因此,本文引入領(lǐng)域無關(guān)特征概念表示對(duì)兩類貢獻(xiàn)度低的特征,引入領(lǐng)域相關(guān)特征表示對(duì)兩類貢獻(xiàn)度高的特征[18]。
領(lǐng)域無關(guān)特征指在兩類中同時(shí)出現(xiàn)且出現(xiàn)頻次高于閾值δ的特征,反之,則為領(lǐng)域相關(guān)特征。對(duì)于特征t與兩類間的貢獻(xiàn)度,用κ來表示,定義為特征t對(duì)類別c1的條件概率與特征t對(duì)類別c2的條件概率比值,當(dāng)κ越接近1,表明特征t在類別c1和類別c2中的條件概率越接近,特征t在類別c1和類別c2中的聯(lián)系越緊密,特征t對(duì)c1和c2類的區(qū)分貢獻(xiàn)度就越小,即對(duì)分類的作用越小。因此,可以使用特征t與兩類間的貢獻(xiàn)度κ值的大小來決定領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征。
本文針對(duì)上述問題,引入領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征概念,并調(diào)整領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征的貢獻(xiàn)權(quán)重,即減少領(lǐng)域無關(guān)特征的權(quán)重ω,增大領(lǐng)域相關(guān)特征的權(quán)重ω,以此反映特征詞對(duì)兩類分類的不同重要性。在此基礎(chǔ)上,提出一種優(yōu)化的特征選擇法DNCF_DI_MI,其計(jì)算公式如下:
其中,ω為權(quán)重,初始值為1,當(dāng)t為領(lǐng)域無關(guān)特征時(shí),則ω可用ω-α表示;當(dāng)t為領(lǐng)域相關(guān)特征,則ω可用ω+α表示,其中α為調(diào)節(jié)參數(shù),用來更新權(quán)重ω。
為解決內(nèi)容相似類目的分類問題,提高分類效果,本文對(duì)DNCF_MI進(jìn)行改進(jìn),提出一種優(yōu)化的特征選擇法DNCF_DI_MI,該方法引入領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征概念,并給出明確的定義和計(jì)算方式,在特征選擇過程中賦予領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征不同權(quán)重,以選擇出更具類別代表性的特征[24]。具體分類框架如圖1所示。
圖 1 基于改進(jìn)的DNCF_DI_MI特征選擇法的分類框架
DNCF_DI_MI的過程主要分為五步。第一步,分詞、去停用詞。分別對(duì)訓(xùn)練集和測(cè)試集進(jìn)行分詞、去停用詞等處理,獲得每篇文章的初始特征集合。第二步,文本表示。使用向量空間模型對(duì)初始特征集合進(jìn)行文本表示,將特征詞表示為空間向量。第三步,根據(jù)上述內(nèi)容,選取閾值參數(shù)δ獲得領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征。第四步,結(jié)合領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征集合,使用本文提出的DNCF_DI_MI特征選擇法,對(duì)領(lǐng)域無關(guān)特征賦予較低權(quán)重ω,而對(duì)領(lǐng)域相關(guān)特征賦予較高權(quán)重ω,以此來進(jìn)行特征選擇,選擇出更具類別區(qū)分能力的特征集合。第五步,采用knn分類器(k-Nearest Neighbor,knn),計(jì)算待分類文本與經(jīng)過特征選擇后的特征集合相似度,將相似度最高的類別分配給待分類文本后,再計(jì)算宏平均F1值和微平均F1值,評(píng)估分類效果。
本文的對(duì)象是內(nèi)容相似的兩類分類,因此,對(duì)語料集要求較高。為保證實(shí)驗(yàn)過程和結(jié)果滿足公開原則,從維普數(shù)據(jù)庫中提取《中圖法》分類號(hào)E(軍事)下的E271與E712.51兩個(gè)內(nèi)容極為相近的語料作為實(shí)驗(yàn)的數(shù)據(jù)來源。其中,E271的文檔共616篇,E712.51文檔共1 366篇。每篇文檔包括題名、關(guān)鍵詞和文摘三部分信息,且兩類文本集不存在交叉現(xiàn)象。為避免實(shí)驗(yàn)隨機(jī)性對(duì)結(jié)果造成影響,實(shí)驗(yàn)共分為5組,每組在E271和E712.51中隨機(jī)抽取200篇文檔作為訓(xùn)練集,再隨機(jī)抽取100篇文檔作為測(cè)試集(每次共600篇文檔且每次抽取的測(cè)試集與訓(xùn)練集不重復(fù))進(jìn)行實(shí)驗(yàn),記錄每組實(shí)驗(yàn)數(shù)據(jù),對(duì)5組實(shí)驗(yàn)數(shù)據(jù)取平均值作為最終實(shí)驗(yàn)結(jié)果。為避免不平衡數(shù)據(jù)對(duì)實(shí)驗(yàn)結(jié)果的影響,本文所使用的測(cè)試集和訓(xùn)練集均采用平衡數(shù)據(jù),即訓(xùn)練集和測(cè)試集中的文本數(shù)量一致。
實(shí)驗(yàn)?zāi)康氖球?yàn)證本文所提出的DNCF_DI_MI與DNCF_MI、傳統(tǒng)互信息方法對(duì)分類性能的影響。由于分類效果易受特征數(shù)目、分類器參數(shù)的影響,根據(jù)預(yù)備實(shí)驗(yàn)的結(jié)果,將特征數(shù)目設(shè)為1 500;由于相似類目的特征項(xiàng)極為相似,而knn分類器是通過計(jì)算樣本間的相似度來實(shí)現(xiàn)分類過程,因此knn分類器對(duì)內(nèi)容相似類目的特征更加敏感,受噪聲和非相關(guān)性特征向量的影響較小,且knn分類器具有實(shí)現(xiàn)簡單、時(shí)間復(fù)雜度低、準(zhǔn)確率高的特點(diǎn),因此本文采用knn分類器[26]。knn分類器的性能與k值的選取以及相似度計(jì)算有關(guān)。故實(shí)驗(yàn)采取固定k值的方式以消除k值對(duì)分類結(jié)果的影響,根據(jù)預(yù)備實(shí)驗(yàn)的結(jié)果選取k=10,相似度計(jì)算采取杰卡德相似系數(shù)[27]。領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征的選取由閾值δ決定,即當(dāng)特征t在兩類中同時(shí)出現(xiàn)且出現(xiàn)頻次高于δ時(shí),同時(shí)結(jié)合貢獻(xiàn)度κ,確定為領(lǐng)域無關(guān)特征,否則為領(lǐng)域相關(guān)特征。隨后在DNCF_DI_MI特征選擇過程中對(duì)其賦予權(quán)重ω。
為驗(yàn)證本文提出的方法對(duì)內(nèi)容相似類目的有效性,綜合考慮查準(zhǔn)率和查全率,使用F1值表示對(duì)分類效果的評(píng)價(jià),F(xiàn)1值能夠體現(xiàn)自動(dòng)分類的整體分類效果。與傳統(tǒng)F1值不同的是,本文在查準(zhǔn)率、查全率和F1值3種評(píng)價(jià)指標(biāo)的基礎(chǔ)上,使用宏平均F1值和微平均F1值對(duì)分類效果進(jìn)行進(jìn)一步評(píng)價(jià)[28]。
實(shí)驗(yàn)分為3個(gè)部分。(1)預(yù)備實(shí)驗(yàn)。主要通過一系列參數(shù)設(shè)置來決定領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征的閾值δ和權(quán)重調(diào)節(jié)參數(shù)α的取值。(2)特征選擇法的效果比較。即對(duì)比傳統(tǒng)互信息、DNCF_MI和本文方法得出的20個(gè)特征詞,分析本文的方法是否能選擇出更具代表性的特征。(3)分類效果比較。對(duì)比傳統(tǒng)互信息、DNCF_MI和本文方法在采取knn分類器時(shí)的分類效果。
領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征是根據(jù)特征詞在兩類中同時(shí)出現(xiàn)頻次決定的,因此可以通過調(diào)整閾值δ以分析其對(duì)分類結(jié)果的實(shí)際影響,設(shè)置δ值分別為3、5、7、10,宏平均F1值的變化情況如圖2所示。
圖 2 閾值δ對(duì)分類效果(宏平均F1)的影響
領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征確定后,需在DNCF_DI_MI特征選擇過程中對(duì)其賦予權(quán)重ω,即對(duì)領(lǐng)域無關(guān)特征減小其權(quán)重,對(duì)領(lǐng)域相關(guān)特征增大其權(quán)重。由于不同的α值對(duì)最終的分類效果會(huì)產(chǎn)生影響,因此實(shí)驗(yàn)通過設(shè)置不同值(0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9),觀察宏平均F1值的變化情況,實(shí)驗(yàn)結(jié)果如圖3所示。
由圖2和圖3可知,當(dāng)δ=5,α=0.7時(shí),分類效果均最佳,故根據(jù)預(yù)備實(shí)驗(yàn)結(jié)果,選取閾值δ為5,權(quán)重ω的調(diào)節(jié)參數(shù)α為0.7進(jìn)行后續(xù)實(shí)驗(yàn)驗(yàn)證。
對(duì)訓(xùn)練集和測(cè)試集進(jìn)行分詞、去停用詞和文本表示后,使用傳統(tǒng)互信息、DNCF_MI和DNCF_DI_MI特征選擇法進(jìn)行特征選擇,對(duì)每一個(gè)特征詞計(jì)算互信息值,按照從大到小排序后,得出前20個(gè)特征詞。
圖 3 權(quán)重調(diào)節(jié)參數(shù)α對(duì)分類效果(宏平均F1)的影響
根據(jù)結(jié)果顯示,傳統(tǒng)互信息特征選擇后的特征詞明顯不具有類別區(qū)分能力,不能夠很好地代表E271和E712.51兩個(gè)內(nèi)容相似類目信息;而經(jīng)過DNCF_MI特征選擇法選取出來的特征詞,諸如“美軍”“美國陸軍”和“中國陸軍”等詞,具有強(qiáng)類別區(qū)分能力,但是仍然存在一些諸如“美”“21世紀(jì)”等弱類別區(qū)分能力的特征詞存在,可見DNCF_MI特征選擇法雖然具有類別區(qū)分能力,能夠選取出大部分有用特征,但仍有改進(jìn)和優(yōu)化空間;本文提出的DNCF_DI_MI特征選擇法不僅選擇出更具類別區(qū)分能力的特征,而且還將諸如“美國陸軍”“中國陸軍”等特征詞排在前位,這符合E271和E712.51的實(shí)際情況。
經(jīng)過分析得知,相較于傳統(tǒng)互信息和DNCF_MI特征選擇法,本文提出的DNCF_DI_MI特征選擇法在對(duì)特征的選取上更符合實(shí)際。
根據(jù)不同特征選擇法選取的前20個(gè)特征詞可以發(fā)現(xiàn),使用DNCF_DI_MI特征選擇法能夠選擇出更具類別區(qū)分度的特征集合。本文進(jìn)一步采用knn分類器驗(yàn)證自動(dòng)分類效果,實(shí)驗(yàn)結(jié)果如圖4所示。
由圖4可知,本文提出的DNCF_DI_MI特征選擇法結(jié)合knn分類器的分類效果在宏平均F1值和微平均F1值上比傳統(tǒng)互信息、DNCF_MI均有所提高。DNCF_DI_MI特征選擇法的分類效果在宏平均F1值和微平均F1值上比傳統(tǒng)互信息特征選擇法分別提高24.1%和28.5%,比DNCF_MI均提高4.5%。由此可見,本文提出的方法在knn分類器下可以有效地提升分類效果。
圖4 knn分類器下傳統(tǒng)互信息、DNCF_MI和DNCF_DI_MI的宏平均F1值和微平均F1值比較
本文旨在針對(duì)《中圖法》下內(nèi)容相似類目難以實(shí)現(xiàn)自動(dòng)分類的實(shí)際情況,引入兩類分類的思想為內(nèi)容相似類目提供解決思路和途徑,并通過改進(jìn)互信息特征選擇算法以提高內(nèi)容相似類目的分類效果。本文探討了傳統(tǒng)互信息和DNCF_MI方法及其不足,在此基礎(chǔ)上,引入領(lǐng)域無關(guān)特征和領(lǐng)域相關(guān)特征,并在特征選擇過程中進(jìn)行權(quán)重調(diào)整以適應(yīng)分類情況。最后本文使用《中圖法》中E271和E712.51兩個(gè)內(nèi)容相似的類目信息作為實(shí)驗(yàn)語料,通過實(shí)驗(yàn)論證了本文提出的DNCF_DI_MI方法與傳統(tǒng)互信息和DNCF_MI特征選擇法相比,不僅能夠提取出更具有類別區(qū)分度的特征詞,而且能進(jìn)一步改善自動(dòng)文本分類的性能,提高分類效果。本文僅以《中圖法》中主題相近但地區(qū)不同的兩個(gè)內(nèi)容相似類目作為有效性的檢驗(yàn)對(duì)象,未來需要從更多角度(如對(duì)主題相近但時(shí)代不同等)對(duì)《中圖法》中其他類型的內(nèi)容相似類別開展相關(guān)研究。
[1]李湘東,巴志超,高凡.數(shù)字文本自動(dòng)分類中特征語義關(guān)聯(lián)及加權(quán)策略研究綜述與展望[J].現(xiàn)代圖書情報(bào)技術(shù),2016,32(9)∶17-26.
[2]李森,馬軍,趙嫣,等.對(duì)數(shù)字化科技論文的自動(dòng)分類研究[C]//全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì),2006.
[3]趙紀(jì)元,羅霄.面向中圖法的學(xué)術(shù)文獻(xiàn)自動(dòng)分類研究[C]//中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展,2009.
[4]王東波,蘇新寧,朱丹浩,等.基于支持向量機(jī)的醫(yī)學(xué)期刊文章自動(dòng)分類研究[C]//全國計(jì)算機(jī)信息管理學(xué)術(shù)研討會(huì),2010.
[5]薛春香,夏祖奇,侯漢清.基于語料和基于標(biāo)引經(jīng)驗(yàn)的自動(dòng)分類模式比較[J].南京農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2005,5(4)∶37-43.
[6]劉紅梅.圖書館多種類型文獻(xiàn)自動(dòng)分類研究[D].武漢∶武漢大學(xué),2012.
[7]王軍.數(shù)字圖書館的知識(shí)組織系統(tǒng)∶從理論到實(shí)踐[M].北京∶北京大學(xué)出版社,2008.
[8]PONG Y H,KWOK C W,LAU Y K,et al.A comparative study of two automatic document classification methods in a library setting[J].Journal of Information Science,2008,34(2)∶213-230.
[9]王昊,嚴(yán)明,蘇新寧.基于機(jī)器學(xué)習(xí)的中文書目自動(dòng)分類研究[J].中國圖書館學(xué)報(bào),2010,36(6)∶28-39.
[10]黃莉,李湘東.基于《中圖法》的自動(dòng)分類研究現(xiàn)狀與展望[J].圖書情報(bào)知識(shí),2012(4)∶30-36.
[11]薛春香,何琳,侯漢清.基于《中圖法》知識(shí)庫的自動(dòng)分類相關(guān)問題探析[J].圖書館建設(shè),2015(6)∶16-20.
[12]何琳,劉竟,侯漢清.基于《中圖法》的多層自動(dòng)分類影響因素分析[J].中國圖書館學(xué)報(bào),2009,35(6)∶49-55.
[13]李亞南.微博評(píng)論情感傾向性分類研究[D].天津∶天津科技大學(xué),2015.
[14]楊歡.基于文本分類的微博情感傾向研究[D].重慶∶重慶師范大學(xué),2016.
[15]LI J,FONG S,ZHUANG Y,et al.Hierarchical classification in text mining for sentiment analysis of online news[J].Soft Computing,2016,20(9)∶1-10.
[16]彭昱忠,元昌安,王艷,等.基于內(nèi)容理解的不良信息過濾技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(2)∶39-44,53.
[17]XIE X L,LONG Z.Implementation of bad information filtering system based on SVM algorithm[J].International Journal of Security and Its Applications,2016,10(9)∶45-54.
[18]PAN S J,NI X,SUN J T,et al.Cross-domain sentiment classification via spectral feature alignment[C]//International Conference on World Wide Web,World Wide Web 2010,Raleigh,North Carolina∶DBLP,2010∶751-760.
[19]DASGUPTA A,DRINEAS P,HARB B,et al.Feature selection methods for text classification[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2007∶230-239.
[20]范小麗,劉曉霞.文本分類中互信息特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(34)∶123-125.
[21]劉佳.基于互信息特征選擇算法的文本自動(dòng)分類研究[D].淮南∶安徽理工大學(xué),2015.
[22]ESTéVEZ P A,TESMER M,PEREZ C A,et al.Normalized mutual information feature selection[J].IEEE Transactions on Neural Networks,2009,20(2)∶189.
[23]鄧彩鳳.中文文本分類中互信息特征選擇方法研究[D].重慶∶西南大學(xué),2011.
[24]辛竹,周亞建.文本分類中互信息特征選擇方法的研究與算法改進(jìn)[J].計(jì)算機(jī)應(yīng)用,2013,33(s2)∶116-118.
[25]孫建軍.信息檢索技術(shù)[M].北京∶科學(xué)出版社,2004.
[26]張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計(jì)算機(jī)工程,2005,31(8)∶171-172.
[27]盧盛祺,管連,金敏,等.LDA模型在網(wǎng)絡(luò)視頻推薦中的應(yīng)用[J].微型機(jī)與應(yīng)用,2016,35(11)∶74-79.
[28]奉國和.文本分類性能評(píng)價(jià)研究[J].情報(bào)雜志,2011(8)∶66-70.