任立園,謝振平,劉 淵
(1. 江南大學(xué) 數(shù)字媒體學(xué)院, 江蘇 無(wú)錫 214122;2. 江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室, 江蘇 無(wú)錫 214122)
為使瀏覽者快速、準(zhǔn)確地獲得有用的信息,使他們從紛繁復(fù)雜的信息獲取、處理中解放出來(lái),文本摘要技術(shù)正成為不可或缺的大數(shù)據(jù)處理工具之一。文本摘要技術(shù)是指從大量數(shù)據(jù)中自動(dòng)找到能夠表達(dá)文本主旨內(nèi)容的摘要文句[1]的技術(shù),能夠提高文本瀏覽、檢索、分類(lèi)的效率。顯然地,摘要句集要求有一定的概況性、客觀性、可理解性和可讀性[2]。
文本摘要方法一般以原文中的句子作為單位進(jìn)行評(píng)估分析,主要依賴(lài)文本外部可見(jiàn)特征,如句子長(zhǎng)度、位置、詞頻等信息。本文借鑒知識(shí)網(wǎng)絡(luò)可對(duì)領(lǐng)域知識(shí)庫(kù)進(jìn)行建模表達(dá)的思想,為了表征語(yǔ)料庫(kù)知識(shí)間的關(guān)聯(lián)性,將語(yǔ)料庫(kù)中的文句關(guān)鍵詞構(gòu)建成知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn),從而可將文句映射至知識(shí)網(wǎng)絡(luò)上的一條節(jié)點(diǎn)路徑進(jìn)行表達(dá)。相應(yīng)地,可引入文句路徑在知識(shí)網(wǎng)絡(luò)中的滲透性特征作為新的摘要句特征量。具體地,引入文句路徑中關(guān)鍵詞組的覆蓋寬度和內(nèi)在深度作為文句的建構(gòu)滲透度特征。進(jìn)一步,借助最大熵分類(lèi)方法,通過(guò)實(shí)驗(yàn)分析了新特征與基礎(chǔ)特征的摘要句判別影響權(quán)重及性能對(duì)比結(jié)果。
文本摘要是自然語(yǔ)言處理技術(shù)的重要組成部分,最早應(yīng)用于圖書(shū)管理中。自Luhn[3]發(fā)表第一篇有關(guān)文章摘要技術(shù)的論文后,在測(cè)評(píng)會(huì)議DUC[4]與TAC[5]組織的自動(dòng)摘要國(guó)際評(píng)測(cè)的推動(dòng)下,文本摘要技術(shù)已經(jīng)取得了較大的進(jìn)展。Chin-Yew Lin[6]開(kāi)發(fā)的摘要質(zhì)量自動(dòng)評(píng)估工具ROUGE的廣泛使用也推動(dòng)了文本摘要技術(shù)的快速發(fā)展。
文本摘要技術(shù)主要有句子抽取式和句子壓縮式[7-8]兩類(lèi)方法。抽取式方法是對(duì)句子的重要性進(jìn)行排序,選擇權(quán)重最高的句子組成摘要。因此,可以基于規(guī)則利用文本常見(jiàn)外部特征抽取摘要,或利用機(jī)器學(xué)習(xí)方法基于句子的不同特征屬性對(duì)句子分類(lèi)、回歸來(lái)抽取句子。常見(jiàn)的學(xué)習(xí)方法有條件隨機(jī)場(chǎng)(CRF)[9]、SVM[10-11]、最大熵原理[12]等。選擇句子時(shí)還需進(jìn)行數(shù)據(jù)清洗,消除句子的冗余度。句子壓縮方法則是二次提煉過(guò)程,對(duì)句子中詞語(yǔ)進(jìn)行刪除、更換或者重新排序,常見(jiàn)方法有ILP[13]、詞匯鏈[14]和圖排序[15]等。也有研究基于對(duì)語(yǔ)言學(xué)的深度剖析,從深度語(yǔ)義層面產(chǎn)生生成式摘要,如AMR[16]模型,需要語(yǔ)言理解分析及語(yǔ)言學(xué)知識(shí)來(lái)支撐,實(shí)現(xiàn)復(fù)雜度相對(duì)較大。
中文由于自身語(yǔ)法特點(diǎn),目前國(guó)內(nèi)較為全面的語(yǔ)料庫(kù)相對(duì)較少,中文文本摘要研究發(fā)展相對(duì)較慢,不過(guò)也已形成有代表性的成果,如哈工大信息檢索研究室劉挺教授等人構(gòu)建了具有一定規(guī)模的語(yǔ)料庫(kù),并基于篇章多級(jí)依存結(jié)構(gòu)構(gòu)建了HIT2863II型自動(dòng)文摘系統(tǒng)[17];北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所提出了基于圖排序的自動(dòng)摘要方法[18-19]等。
1957年Jaynes E T[20-21]提出了最大熵原理。其主要思想是從信息論角度出發(fā),為了準(zhǔn)確估計(jì)隨機(jī)變量的狀態(tài),在所有可能的概率模型中,熵最大的模型是最優(yōu)的。即在滿(mǎn)足所有已知知識(shí)的約束下, 對(duì)未知信息不再做其他先驗(yàn)假設(shè),并認(rèn)為未知信息分布最合理的推斷就是符合已知知識(shí)的最不確定或最隨機(jī)的推斷。
1992年,Della Pietra[22-23]等人將最大熵原理應(yīng)用到自然語(yǔ)言處理中建立語(yǔ)言模型進(jìn)行文本處理。由于其靈活性和包容性以及優(yōu)異的處理結(jié)果,最大熵模型隨后被廣泛地應(yīng)用于自然語(yǔ)言處理中,包括分詞、詞性標(biāo)注、詞義排歧、短語(yǔ)識(shí)別、機(jī)器翻譯、文本分類(lèi)等[24]。
最大熵模型常用作概率估計(jì)的計(jì)算,其原理是在給定上下文特征x的情況下,輸出是否為事件y的概率py|x。對(duì)此,可以用大量的訓(xùn)練數(shù)據(jù)集獲得隨機(jī)變量的行為,樣本學(xué)習(xí)結(jié)果表示為一個(gè)二值指示函數(shù)的期望值,相應(yīng)的指示函數(shù)稱(chēng)作特征函數(shù)。對(duì)于多個(gè)有效特征的情況,可基于樣本數(shù)據(jù)訓(xùn)練學(xué)習(xí)每一個(gè)特征的權(quán)重參數(shù)λ1,λ2,…,λk,通過(guò)某種組合方法計(jì)算條件概率py|x,實(shí)現(xiàn)目標(biāo)的分類(lèi)或識(shí)別。
新模型主要將文本中的句子構(gòu)建成知識(shí)網(wǎng)絡(luò)[25-26]并進(jìn)行建模表達(dá),從而可以提取能夠一定程度上表征文句語(yǔ)義特性的新穎特征。首先著重考慮兩個(gè)問(wèn)題: ①如何表示文句關(guān)鍵詞知識(shí)之間的語(yǔ)義關(guān)系; ②如何從語(yǔ)義關(guān)系網(wǎng)絡(luò)中提取能夠表征摘要句的有效特征。為此,新模型構(gòu)建分為兩個(gè)主要步驟: ①對(duì)語(yǔ)料庫(kù)預(yù)處理獲取關(guān)鍵詞,通過(guò)約束關(guān)鍵詞之間語(yǔ)義距離來(lái)構(gòu)建知識(shí)網(wǎng)絡(luò)以表征知識(shí)間的語(yǔ)義關(guān)系,從而將知識(shí)節(jié)點(diǎn)轉(zhuǎn)化為語(yǔ)義空間的數(shù)值變量。②以知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間路徑表征文本文句。為了研究文句在全文的滲透特征對(duì)摘要句判別的影響,設(shè)計(jì)形成滲透度特征,具體引入文句路徑中關(guān)鍵詞組的覆蓋寬度值和內(nèi)在深度值。
定義知識(shí)網(wǎng)絡(luò)G=(V,E)由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示知識(shí)項(xiàng),邊表示兩個(gè)知識(shí)間的語(yǔ)義關(guān)系。文中V={Wi}為文句中所有關(guān)鍵詞的集合。E?V×V是關(guān)鍵詞間的關(guān)系集合。進(jìn)而,語(yǔ)料庫(kù)中文檔的每個(gè)文句可由多個(gè)關(guān)鍵詞順序串成,則相應(yīng)的每個(gè)文句可由知識(shí)網(wǎng)絡(luò)的一條節(jié)點(diǎn)路徑表示。
文中知識(shí)網(wǎng)絡(luò)的構(gòu)建分為四個(gè)步驟: 1)基于術(shù)語(yǔ)抽取方法提取語(yǔ)料庫(kù)的關(guān)鍵詞作為知識(shí)網(wǎng)絡(luò)的節(jié)點(diǎn); 2)采用word2vec詞向量模型[27]為每個(gè)關(guān)鍵詞訓(xùn)練出一個(gè)高維詞向量; 3)通過(guò)計(jì)算關(guān)鍵詞詞向量間的歐氏距離作為知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間的邊權(quán)重,從而量化知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間的語(yǔ)義強(qiáng)弱關(guān)系; 4)針對(duì)知識(shí)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn),保留該節(jié)點(diǎn)的前top-k個(gè)距離最近的節(jié)點(diǎn)作為其關(guān)聯(lián)節(jié)點(diǎn),同時(shí)保存對(duì)應(yīng)的節(jié)點(diǎn)間邊權(quán)重。
語(yǔ)料庫(kù)關(guān)鍵詞抽取首先對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理,包括解析語(yǔ)料文本、分詞、去除停用詞等清洗數(shù)據(jù)步驟,再基于詞頻統(tǒng)計(jì)和信息熵抽取術(shù)語(yǔ)得到關(guān)鍵詞集合。
詞向量模型[27]最早由Hinton于1986年提出,其核心思想是通過(guò)文本語(yǔ)料訓(xùn)練,利用詞的共現(xiàn)信息、語(yǔ)義信息和上下文依賴(lài)關(guān)系,將每個(gè)詞映射成一個(gè)高維的實(shí)數(shù)向量,通過(guò)計(jì)算向量之間的距離來(lái)表征詞匯間的語(yǔ)義關(guān)系。
根據(jù)每個(gè)關(guān)鍵詞對(duì)應(yīng)的高維詞向量,可通過(guò)歐氏距離公式計(jì)算知識(shí)間的語(yǔ)義關(guān)系強(qiáng)度。結(jié)合小世界網(wǎng)絡(luò)理論[28]和實(shí)驗(yàn)分析,對(duì)每一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),僅記錄與其最近鄰相關(guān)的最多20個(gè)節(jié)點(diǎn)間的連接邊關(guān)系。
結(jié)合實(shí)驗(yàn)中哈工大信息檢索研究室單文檔自動(dòng)文摘語(yǔ)料庫(kù)[29]的預(yù)處理結(jié)果,圖1給出了一個(gè)上述方法構(gòu)造的知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)示例。其中圓點(diǎn)表示關(guān)鍵詞節(jié)點(diǎn),節(jié)點(diǎn)間的連線(xiàn)表示知識(shí)語(yǔ)義關(guān)系,權(quán)重越小則節(jié)點(diǎn)距離越近,表明兩個(gè)知識(shí)之間關(guān)系越緊密。節(jié)點(diǎn)的所有近鄰關(guān)系數(shù)稱(chēng)為節(jié)點(diǎn)度D,節(jié)點(diǎn)度越大表明知識(shí)節(jié)點(diǎn)在知識(shí)網(wǎng)絡(luò)中重要性越大,相應(yīng)節(jié)點(diǎn)的圓點(diǎn)半徑大小指示了該關(guān)鍵詞節(jié)點(diǎn)在該網(wǎng)絡(luò)中的重要性程度。
圖1 知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)示例
圖1是截取了整體知識(shí)網(wǎng)絡(luò)的部分子圖。以語(yǔ)料庫(kù)中“冰淇淋”一詞為例分析,其節(jié)點(diǎn)度D為13。指向該詞的近鄰關(guān)系詞有“可樂(lè)”“奶粉”“飲料”“牛奶”“巧克力”“雪糕”“餅干”“零食”等13個(gè)關(guān)鍵詞節(jié)點(diǎn),兩者語(yǔ)義關(guān)系值越小,則在圖上越近。圖1給出了示例“冰淇淋-巧克力”和“冰淇淋-啤酒”的語(yǔ)義距離分別為1.905 650和2.561 474。此外,可以看出“冰淇淋”節(jié)點(diǎn)半徑大于指向它的其他關(guān)鍵詞的節(jié)點(diǎn)半徑,而小于它指向的“奶茶”一詞的節(jié)點(diǎn)半徑,說(shuō)明了在該子圖中“奶茶”一詞的重要性較高。
進(jìn)而,可將語(yǔ)料庫(kù)中的文檔及句子映射至知識(shí)網(wǎng)絡(luò)進(jìn)行表達(dá)。具體地,由于文句中每個(gè)關(guān)鍵詞對(duì)應(yīng)知識(shí)網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),則含有多個(gè)順序關(guān)鍵詞的一個(gè)文句可對(duì)應(yīng)知識(shí)網(wǎng)絡(luò)上的一條節(jié)點(diǎn)間路徑,而每個(gè)文檔則可表示為由其文句路徑組合成的知識(shí)網(wǎng)絡(luò)社區(qū)。在節(jié)點(diǎn)路徑表示過(guò)程中,兩個(gè)關(guān)鍵詞節(jié)點(diǎn)間可能是直接或非間接相連。如圖2所示,有兩條加粗路徑分別表示兩個(gè)不同的文句路徑,其中一條節(jié)點(diǎn)間連接為全部實(shí)線(xiàn),另一條節(jié)點(diǎn)間連接存在虛線(xiàn),實(shí)線(xiàn)表示相鄰關(guān)鍵詞節(jié)點(diǎn)間有直接相連邊,虛線(xiàn)表示相鄰關(guān)鍵詞節(jié)點(diǎn)間沒(méi)有直接相連的邊,需要經(jīng)過(guò)二者中間的其他節(jié)點(diǎn)。
圖2 文句路徑實(shí)例圖
文檔中的某個(gè)句子如果是摘要句,通??梢哉J(rèn)為該句中含有較多的原文信息,即其中的關(guān)鍵詞本身在文檔中具有較高的影響度。往往這些關(guān)鍵詞在文檔社區(qū)中分布較廣,且具有延展性。它們可以從摘要句中滲透到全文中,對(duì)文檔的行文布局起到提綱挈領(lǐng)的作用,與上下文有著一定聯(lián)系,這就是關(guān)鍵詞的滲透度特性。為了更好地量化滲透度,可引入文句的滲透度特征作為摘要句提取的重要特征量。
結(jié)合分析關(guān)鍵詞節(jié)點(diǎn)的詞頻、節(jié)點(diǎn)度等指標(biāo)可知,一個(gè)關(guān)鍵詞節(jié)點(diǎn)的滲透延展性越強(qiáng),它與上下文的知識(shí)相關(guān)性也越強(qiáng),對(duì)摘要句產(chǎn)生的驅(qū)動(dòng)強(qiáng)度也應(yīng)越大。為此,定義文句在知識(shí)網(wǎng)絡(luò)中滲透度的滲透覆蓋寬度特征和滲透內(nèi)在深度特征,以反映文句成為摘要句的可能強(qiáng)度。
滲透覆蓋寬度特征反映了文句關(guān)鍵詞在整個(gè)文檔中出現(xiàn)的廣泛性。故關(guān)鍵詞節(jié)點(diǎn)滲透覆蓋寬度定義為其在文檔社區(qū)網(wǎng)絡(luò)中,所覆蓋相關(guān)的文句路徑次數(shù)。即經(jīng)過(guò)該關(guān)鍵詞節(jié)點(diǎn)的文句路徑數(shù)。而整個(gè)文句的滲透覆蓋寬度值定義為其所包含的關(guān)鍵詞節(jié)點(diǎn)的滲透覆蓋寬度值的加和,如式(1)所示。
(1)
其中,widi表示文句Si的滲透覆蓋寬度值,wij為文句Si中的第j個(gè)關(guān)鍵詞,dgr(wij)表示社區(qū)網(wǎng)絡(luò)中經(jīng)過(guò)關(guān)鍵詞節(jié)點(diǎn)wij的文句路徑數(shù),即單個(gè)關(guān)鍵詞節(jié)點(diǎn)的滲透覆蓋寬度值。式(1)中,ni表示文句Si中關(guān)鍵詞的個(gè)數(shù)。
若網(wǎng)絡(luò)社區(qū)中某條路徑僅包含“奧運(yùn)會(huì)”和“中國(guó)”兩個(gè)關(guān)鍵詞節(jié)點(diǎn),且上述兩個(gè)關(guān)鍵詞節(jié)點(diǎn)的經(jīng)過(guò)路徑情況如下所示:
奧運(yùn)會(huì) 4 6 7 31 50 58 60 62 63 70 81
中國(guó) 1 2 5 12 13 23 24 31 32 34 37 47 54 55 60 61 70 73 76 78 80
則該條路徑的滲透覆蓋寬度值wid=11+18=29。這里需要考慮文句中所有關(guān)鍵詞節(jié)點(diǎn)經(jīng)過(guò)的路徑的去重問(wèn)題。
進(jìn)一步,如下考慮文句路徑的內(nèi)在滲透深度特征??紤]到文句路徑中兩個(gè)相鄰關(guān)鍵詞節(jié)點(diǎn)的連接性,定義文句路徑的內(nèi)在滲透深度特征為文句路徑中所有相鄰節(jié)點(diǎn)的語(yǔ)義距離之和,其值為:
(2)
其中,depi表示文句Si的內(nèi)在滲透深度值,wi,j為文句Si中的第j個(gè)關(guān)鍵詞;dis(wi,j,wi,j+1)為相鄰關(guān)鍵詞節(jié)點(diǎn)間的關(guān)鍵詞知識(shí)網(wǎng)絡(luò)上的距離,若兩個(gè)節(jié)點(diǎn)非直接相連,則取兩者間所有連通路徑中的最短路徑距離。
結(jié)合傳統(tǒng)的摘要句特征提取方法,文本實(shí)驗(yàn)中合計(jì)考慮如下的特征集,
其中,loc,len,tf-idf為基本特征集,loc表示文句在整個(gè)文章中的相對(duì)位置值,len表示文句中所含關(guān)鍵詞的個(gè)數(shù),tf-idf表示詞頻和逆向文檔頻率[30],if表示詞語(yǔ)在文檔中出現(xiàn)的次數(shù),idf表示詞語(yǔ)被包含在語(yǔ)料庫(kù)文檔中的篇數(shù)的倒數(shù)。tf-idf值通常取tf與idf值的乘積。wordvec表示文句中所含關(guān)鍵詞的詞向量,文中詞向量維度取200,向量中每一維表示某種隱含的語(yǔ)義信息。一般詞向量空間簇聚緊密的詞之間內(nèi)在關(guān)系也較為密切。
對(duì)于特征true/false/?,若是訓(xùn)練文句數(shù)據(jù),則取明確的標(biāo)記值true或false;若為測(cè)試文句,則取為不定值“?”。
最大熵模型中簡(jiǎn)單的特征集可以表達(dá)復(fù)雜的語(yǔ)言現(xiàn)象,使用最大熵模型進(jìn)行中文文本分類(lèi)方法仍存在有效特征缺失的問(wèn)題[31],特征的選擇是模型性能的關(guān)鍵因素?;谏鲜鎏卣骷柚畲箪胤诸?lèi)模型,本文實(shí)驗(yàn)的摘要句判別過(guò)程如下。對(duì)于任意文句Si的某個(gè)特征xik,定義p(yi|xik)表示某個(gè)特征條件下,文句Si為摘要句yi=1或非摘要句yi=0的概率。如此,原文文句可視為摘要句和非摘要句的合集,進(jìn)而對(duì)文句集合進(jìn)行二分處理。在基于最大熵模型的摘要提取模型中,進(jìn)一步引入特征函數(shù)f(y,x)→{1,0},表示特征量x與判別結(jié)果量y之間的相關(guān)性,取值為1或0,分別表示兩者存在或不存在因果特征,如式(3)所示。
(3)
進(jìn)一步基于最大熵分類(lèi)模型,可得到如下關(guān)于摘要句判別的最優(yōu)概率公式,如式(4)所示。
(4)
(5)
本文采用的語(yǔ)料庫(kù)是哈工大信息檢索研究室單文檔自動(dòng)文摘語(yǔ)料庫(kù)[29],這是一個(gè)可訓(xùn)練的XML文本集,其中共有1 055篇文檔,共計(jì)約43 505個(gè)文句。文本內(nèi)容為人工按照原文10%以及20%文摘句標(biāo)注后的語(yǔ)料。實(shí)驗(yàn)中隨機(jī)從10%和20%標(biāo)注的摘要句中抽取訓(xùn)練和測(cè)試文本的摘要文句。實(shí)驗(yàn)中共提取了46 272個(gè)關(guān)鍵詞作為知識(shí)網(wǎng)絡(luò)構(gòu)成節(jié)點(diǎn)。
模型訓(xùn)練、測(cè)試過(guò)程中,考慮等量地抽取正負(fù)樣本。從知識(shí)網(wǎng)絡(luò)中提取出相同數(shù)量的摘要路徑和非摘要路徑構(gòu)成訓(xùn)練文本。這樣提取的特征集樣本不會(huì)太單一,從而保證訓(xùn)練模型的準(zhǔn)確率。預(yù)處理后的語(yǔ)料庫(kù)的80%用來(lái)生成訓(xùn)練文本,剩下的20%留作測(cè)試文本。
分類(lèi)模型將測(cè)試文本的句子分類(lèi)為摘要句和非摘要句,摘要的評(píng)測(cè)方法是把模型生成的摘要與人工標(biāo)準(zhǔn)摘要進(jìn)行比較,用查準(zhǔn)率P和查全率R(召回率)來(lái)衡量性能差異,相應(yīng)的公式表示如式(6)~(7)所示。
其中,M為摘要算法判別生成的摘要句集合,B為人工建立的標(biāo)準(zhǔn)摘要句集。召回率用來(lái)衡量文本摘要算法生成摘要的信息覆蓋率,而查準(zhǔn)率用來(lái)衡量算法評(píng)估摘要句的精確度。
為了平衡查準(zhǔn)率和召回率影響,較為全面評(píng)價(jià)模型性能以及提取特征的權(quán)重,引入F-Score作為綜合指標(biāo)。根據(jù)不同需求,可考慮F1-Score、F0.5-Score、F2-Score三個(gè)指標(biāo)。其中,F(xiàn)1-Score是指查準(zhǔn)率和召回率同等重要,F(xiàn)0.5-Score是指查準(zhǔn)率比召回率重要,F(xiàn)2-Score是指召回率比查準(zhǔn)率重要。具體公式定義如式(8)所示。
(8)
圖3首先給出了模型參數(shù)求解的一個(gè)典型收斂曲線(xiàn)情況結(jié)果。其中橫坐標(biāo)代表迭代次數(shù),縱坐標(biāo)表示特征的權(quán)重值。從中可以看出,迭代初期時(shí)參數(shù)變化波動(dòng)大,而隨著迭代次數(shù)的增加,各特征權(quán)重參數(shù)均趨于收斂穩(wěn)定,這一結(jié)果表明了文中所述特征模型及摘要句判別模型的有效性。又由模型特性可知,各權(quán)重參數(shù)值大小與對(duì)應(yīng)特征影響強(qiáng)度正相關(guān),收斂得到的特征權(quán)重因子越大,則該特征對(duì)摘要文句的分類(lèi)驅(qū)動(dòng)強(qiáng)度越大。分析圖3結(jié)果可知,與基本特征相比,建構(gòu)滲透度特征wid,dep對(duì)應(yīng)權(quán)重參數(shù)的收斂值更好,清晰地表明了新模型特征量的有效性。
圖3 模型參數(shù)λk的典型收斂性曲線(xiàn)
表1進(jìn)一步給出了各個(gè)參數(shù)的詳細(xì)求解實(shí)驗(yàn)結(jié)果,表中給出了運(yùn)行20次實(shí)驗(yàn)所得結(jié)果的均值與均方差。分析可知,權(quán)重影響最小的特征為文句關(guān)鍵詞個(gè)數(shù)len,較大的為滲透度覆蓋寬度wid,以及滲透度內(nèi)在深度特征dep。此外tf-idf和wordvec特征權(quán)重較為接近,文句位置的重要性比預(yù)想要高。
表1 實(shí)驗(yàn)語(yǔ)料庫(kù)上的特征權(quán)重結(jié)果
進(jìn)一步綜合分析實(shí)驗(yàn)結(jié)果,可有以下結(jié)論:
(1) 一個(gè)文句的建構(gòu)滲透度特征wid值越大,文句為摘要句的可能性越大。
(2) 一個(gè)文句是否為摘要句和文句中關(guān)鍵詞個(gè)數(shù)即特征len的相關(guān)性較弱??梢韵胂?,較短摘要文句是對(duì)全文的概括,較長(zhǎng)摘要文句則是解釋說(shuō)明相關(guān)關(guān)鍵詞,所以摘要文句長(zhǎng)度值波動(dòng)范圍較大。
(3)loc=2或loc=3的文句多為摘要文句。摘要文句多在段首,實(shí)驗(yàn)采用累加計(jì)數(shù)法統(tǒng)計(jì)loc值,不同段首的摘要文句loc值逐漸增大。
(4) 含有較高tf-idf值的關(guān)鍵詞的文句為摘要文句的概率較大,而特征wordvec與tf-idf對(duì)摘要文句中的驅(qū)動(dòng)強(qiáng)度相接近。
(5) 一個(gè)文句的dep值在一個(gè)中間區(qū)間范圍內(nèi)時(shí),文句為摘要句的可能性最大??梢?jiàn),dep值太小時(shí),文句的概括性較弱;dep值過(guò)大時(shí),文句的內(nèi)涵緊密性可能也較弱,均不利于成為一個(gè)摘要句。
本小節(jié)進(jìn)一步定量化考察不同特征下的摘要句判別性能影響。表2給出了選取不同特征情況下,基于最大熵分類(lèi)所得摘要句分類(lèi)性能的實(shí)驗(yàn)結(jié)果,表中同樣給出了運(yùn)行20次實(shí)驗(yàn)的性能指標(biāo)的均值和均方差值。其中,基礎(chǔ)特征集為loc、len、tf-idf、wordvec,表中性能指標(biāo)均為百分比值(%)。
表2 不同特征集下的摘要性能結(jié)果
表2中結(jié)果顯示,在加入建構(gòu)滲透度特征后,摘要生成的查準(zhǔn)率和召回率均有了較大幅度的提升,明確地顯示了建構(gòu)滲透度特征模型的強(qiáng)有效性。具體地,基礎(chǔ)特征集加入滲透度內(nèi)在深度特征后,查準(zhǔn)率提高了17.94%,召回率提高了20.38%。滲透度內(nèi)在深度特征計(jì)算了文句路徑中相鄰關(guān)鍵詞間的知識(shí)網(wǎng)絡(luò)上的建構(gòu)語(yǔ)義距離,定性分析摘要句特性可知,摘要句中相鄰關(guān)鍵詞間不應(yīng)是簡(jiǎn)單的語(yǔ)義近鄰關(guān)系,而更應(yīng)體現(xiàn)一種知識(shí)建構(gòu)性。建構(gòu)滲透度內(nèi)在深度特征一定程度上反映了上述概念思想,并獲得了良好的性能提升。
在基礎(chǔ)特征集中加入滲透度覆蓋寬度特征后,模型的查準(zhǔn)率較加入滲透度內(nèi)在深度的特征方法高了6.92%。顯然地,滲透度覆蓋寬度特征對(duì)摘要分類(lèi)的驅(qū)動(dòng)強(qiáng)度要大于滲透度內(nèi)在深度特征,這與圖3、表1所示結(jié)果相吻合。分析可知,在文檔網(wǎng)絡(luò)社區(qū)中,若路徑中關(guān)鍵詞節(jié)點(diǎn)的經(jīng)過(guò)路徑較多,不僅僅意味著該關(guān)鍵詞知識(shí)在上下文中頻率較高,更表明該知識(shí)節(jié)點(diǎn)對(duì)其他文句路徑有較多的支撐作用,這一特征表現(xiàn)與摘要句的內(nèi)在特性高度吻合。
結(jié)合F值性能結(jié)果比較可知,加入了滲透度內(nèi)在深度和覆蓋寬度特征后的模型性能進(jìn)一步得到了提升,綜合地表明了文中所定義的兩個(gè)建構(gòu)滲透度特征具有互補(bǔ)性,可有效結(jié)合運(yùn)用。
基于文中提出的建構(gòu)滲透度特征模型F=loc,len,tf-idf,wordvec,wid,dep,進(jìn)一步研究分析不同常規(guī)分類(lèi)算法的性能結(jié)果,將最大熵分類(lèi)模型、樸素貝葉斯算法及SVM算法進(jìn)行對(duì)比?;谇笆鰧?shí)驗(yàn)相同的數(shù)據(jù)集及實(shí)驗(yàn)方法進(jìn)行實(shí)驗(yàn)分析,所得結(jié)果如表3所示。對(duì)于SVM,各維度特征量進(jìn)行了均值為0和方差為1的歸一化處理,核函數(shù)為高斯函數(shù),模型中核寬度和結(jié)構(gòu)項(xiàng)權(quán)重值進(jìn)行了優(yōu)化選擇。從表3的結(jié)果可以看出,本文采用的基于最大熵分類(lèi)的摘要句判別模型取得了更好的綜合性能。
表3 基于新特征模型的算法性能比較
本文通過(guò)引入關(guān)鍵詞知識(shí)網(wǎng)絡(luò),以節(jié)點(diǎn)表示文句關(guān)鍵詞,邊表征關(guān)鍵詞間語(yǔ)義關(guān)系,節(jié)點(diǎn)間路徑表征文句特性。并在知識(shí)網(wǎng)絡(luò)中引入文句的滲透度特征,分別提出了滲透覆蓋寬度和內(nèi)在深度特征量,并進(jìn)一步結(jié)合最大熵分類(lèi)模型進(jìn)行摘要句提取建模。實(shí)驗(yàn)結(jié)果表明了新特征模型的良好有效性,且指出滲透覆蓋寬度特征具有最強(qiáng)的特異性。進(jìn)一步的常規(guī)算法對(duì)比實(shí)驗(yàn)結(jié)果也表明,在新特征模型上,使用基于最大熵分類(lèi)的文本摘要方法具有最佳的性能表現(xiàn)。文中綜合研究結(jié)果表明,所提出的建構(gòu)滲透度特征模型具有良好的可計(jì)算性及較高的應(yīng)用性能價(jià)值。