資康莉 王 石 曹存根
(*中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室 北京 100190)
(**中國(guó)科學(xué)院大學(xué) 北京 100049)
隨著海量文本數(shù)據(jù)在新聞網(wǎng)站、社交網(wǎng)絡(luò)等網(wǎng)絡(luò)空間極速涌現(xiàn),文本摘要作為一種關(guān)鍵技術(shù),廣泛用于對(duì)海量?jī)?nèi)容進(jìn)行提煉總結(jié),方便更多用戶快速瀏覽和了解大量文檔。其中,標(biāo)題生成作為文本摘要的一個(gè)重要應(yīng)用場(chǎng)景,其主要任務(wù)是針對(duì)給定的篇章或者短文本,生成能夠概括或評(píng)論其主要內(nèi)容的一段或者一句話作為標(biāo)題。
標(biāo)題生成技術(shù)已被應(yīng)用于搜索結(jié)果展示、文章摘要生成、新聞標(biāo)題生成等眾多領(lǐng)域。根據(jù)需要處理的數(shù)據(jù)篇幅的不同,可將其分為單文檔標(biāo)題生成[1]和多文檔標(biāo)題生成[2];根據(jù)實(shí)現(xiàn)方式的不同可分為抽取式標(biāo)題生成[3]和生成式標(biāo)題生成[4];而根據(jù)使用的技術(shù)手段,可分為傳統(tǒng)標(biāo)題生成方法[5]和基于深度學(xué)習(xí)的標(biāo)題生成方法[6]。
本文主要關(guān)注中文領(lǐng)域基于神經(jīng)網(wǎng)絡(luò)的抽取式標(biāo)題生成方法,該類方法目前仍面臨一個(gè)重大挑戰(zhàn):缺乏大規(guī)模、高質(zhì)量的中文標(biāo)注數(shù)據(jù)。而產(chǎn)生該挑戰(zhàn)的原因有:(1)標(biāo)題生成研究工作多在公開的外文數(shù)據(jù)集上開展,中文領(lǐng)域的部分研究工作未公開完整數(shù)據(jù)集,使得后續(xù)研究者無法在其已有工作基礎(chǔ)上繼續(xù)探索并進(jìn)行研究成果間的比較。(2)現(xiàn)有中文標(biāo)題標(biāo)注數(shù)據(jù)多收集于各類新聞網(wǎng)站、社交網(wǎng)站,數(shù)據(jù)繁雜,缺乏統(tǒng)一的分類體系,或數(shù)據(jù)集未提供原分類信息,并且原網(wǎng)站中標(biāo)題的質(zhì)量難以保證,有時(shí)甚至?xí)褂每浯蠡蛉狈εc原內(nèi)容相關(guān)的詞句來構(gòu)造標(biāo)題。
因此,針對(duì)上述挑戰(zhàn)和問題,考慮到標(biāo)題往往可直接從原文中抽取詞匯或者句子來構(gòu)造這一特點(diǎn),本文采用了基于抽取式的標(biāo)題生成技術(shù),提出將基于無監(jiān)督學(xué)習(xí)的聚類模型和主題模型融入到基于有監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)模型中的方法,使得整個(gè)模型在具有潛在主題類別特征的、新聞標(biāo)題質(zhì)量參差不齊的數(shù)據(jù)上也能取得較好效果。本文主要的貢獻(xiàn)點(diǎn)如下。
(1) 將抽取式新聞標(biāo)題生成問題轉(zhuǎn)化為序列標(biāo)注問題,并通過在注意力機(jī)制中融入聚類特征和主題詞信息等多種特征,增強(qiáng)對(duì)新聞內(nèi)容的上下文表示。
(2) 采用了基于自組織映射(self-organizing map,SOM)的聚類模型[7]和隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型[8],能將表達(dá)相同或相似主題的新聞內(nèi)容進(jìn)行聚類,并進(jìn)一步從各數(shù)據(jù)簇中自動(dòng)挖掘相關(guān)的主題詞集合。
(3) 本文從現(xiàn)有公開的中文新聞數(shù)據(jù)集中抽取了部分?jǐn)?shù)據(jù),并進(jìn)行了分詞、錯(cuò)別字糾錯(cuò)、詞性標(biāo)注、命名實(shí)體信息標(biāo)注等預(yù)處理,再通過人工與半自動(dòng)核對(duì)等策略,得到了一個(gè)可用于抽取式中文標(biāo)題生成的數(shù)據(jù)集。最后,在該數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,本文設(shè)計(jì)的模型在微觀F1、BLEU、ROUGE、壓縮率等評(píng)價(jià)指標(biāo)上都取得了較基準(zhǔn)模型更好的效果。
標(biāo)題生成任務(wù)作為文本摘要的一個(gè)分支,要求生成精煉且優(yōu)質(zhì)的標(biāo)題,使得標(biāo)題包含不會(huì)過分夸大實(shí)際內(nèi)容的具體事實(shí),能夠?qū)υ瓋?nèi)容信息進(jìn)行有效地傳遞,并能吸引更多的用戶,提高用戶的閱讀效率,提升閱讀體驗(yàn)[9]。因此,在生成標(biāo)題時(shí),該任務(wù)要求去掉原文中的冗雜信息,只保留原文中涉及的關(guān)鍵信息,得到長(zhǎng)度短于原文的、更加簡(jiǎn)潔的、可由原文中部分句子組成的集合或者僅為原文中關(guān)鍵信息組合成的標(biāo)題句。標(biāo)題生成技術(shù)有著巨大的應(yīng)用價(jià)值和廣泛的應(yīng)用場(chǎng)景,例如郵件內(nèi)容的自動(dòng)生成、搜索結(jié)果展示、文章摘要生成、新聞標(biāo)題生成、移動(dòng)設(shè)備信息推送、社區(qū)問答等。
根據(jù)標(biāo)題生成所需處理的數(shù)據(jù)篇幅可以將其分為單文檔標(biāo)題生成和多文檔標(biāo)題生成。其中,單文檔標(biāo)題生成關(guān)注的是對(duì)短文本或者單文檔進(jìn)行標(biāo)題生成[1],多文檔標(biāo)題生成則是從一組主題或者內(nèi)容相關(guān)的文檔中總結(jié)生成標(biāo)題[10]。而根據(jù)標(biāo)題生成方法的實(shí)現(xiàn)方式或產(chǎn)生輸出結(jié)果的類型,可以分為抽取式標(biāo)題生成[3]和生成式標(biāo)題生成[4]。其中,抽取式標(biāo)題生成是從原文檔內(nèi)容中抽取關(guān)鍵詞或關(guān)鍵句進(jìn)行組合來生成標(biāo)題,也即需要判斷原文檔中各個(gè)詞語、語句的重要程度,使得最終生成的標(biāo)題中的詞或句均來自原文檔;而生成式標(biāo)題生成則是在充分理解原文檔內(nèi)容的基礎(chǔ)上,允許模型使用除原文檔內(nèi)容以外的新詞語、新語句來組成能夠概括原文檔內(nèi)容的標(biāo)題。
基于生成式以及基于抽取式的標(biāo)題生成方法各有其優(yōu)缺點(diǎn)。首先,這2 類方法都要求輸出的標(biāo)題能夠盡可能全面地包含原文檔內(nèi)容的關(guān)鍵信息?;谏墒降臉?biāo)題生成方法相比于抽取式而言在用詞方面更加靈活,能夠生成多樣化的標(biāo)題表述,來滿足許多應(yīng)用領(lǐng)域?qū)τ诙鄻踊?、個(gè)性化的信息展示的需求。而基于抽取式的標(biāo)題生成方法是抽取原文中的一部分內(nèi)容(詞或句)作為輸出,它產(chǎn)生的標(biāo)題的表述會(huì)受限于原文。但是,這2 種方法及其對(duì)應(yīng)的模型在實(shí)現(xiàn)時(shí)都會(huì)面臨從互聯(lián)網(wǎng)中獲取到的數(shù)據(jù)及其原標(biāo)題質(zhì)量難以保證的問題。在這種現(xiàn)狀下,使用基于生成式的標(biāo)題生成方法難免會(huì)受到數(shù)據(jù)集質(zhì)量的約束,而采用基于抽取式的標(biāo)題生成方法,雖然損失了一定的泛化能力,但是因?yàn)槠洳⒉荒堋白灾鳌鄙刹淮嬖谟谠瓋?nèi)容的詞匯或語句,使得其在面對(duì)“噪聲”數(shù)據(jù)時(shí)能夠具有較好的魯棒性,甚至能夠用于發(fā)現(xiàn)相關(guān)數(shù)據(jù)中的“噪聲”或“異?!?。其次,近年來快速發(fā)展的深度神經(jīng)網(wǎng)絡(luò)技術(shù)因其強(qiáng)大的表征能力,給予了這2 類方法更多的可能性,使得標(biāo)題生成的效果被不斷提升。但是,尤其在面對(duì)長(zhǎng)文本或者多文檔標(biāo)題生成時(shí),基于生成式的標(biāo)題生成方法會(huì)因缺少對(duì)關(guān)鍵信息的控制與定位,而需要額外控制最終模型輸出的標(biāo)題與原文的相關(guān)性(例如:保持原內(nèi)容的主題信息等)[6],避免出現(xiàn)無法處理未登錄詞、標(biāo)題與原內(nèi)容關(guān)鍵信息關(guān)聯(lián)度不高、詞語重復(fù)生成等問題。而基于抽取式的標(biāo)題生成方法,雖然能更好地控制與原文檔內(nèi)容的相關(guān)性,但是也需要設(shè)計(jì)較好的衡量原內(nèi)容中關(guān)鍵詞或句的重要程度的方法,避免抽取得到的標(biāo)題中具有較多冗余信息。
此外,根據(jù)使用的技術(shù)手段來劃分,傳統(tǒng)的標(biāo)題生成方法多基于統(tǒng)計(jì)概率與人工特征工程,且多為抽取式標(biāo)題生成,通過計(jì)算得到已有數(shù)據(jù)集中的特征信息(例如句子長(zhǎng)度、句子位置、詞序、詞頻、逆文檔頻率、最大公共子串、關(guān)鍵詞表、類簇信息等),來判斷并抽取原文中具有較多信息量的詞語和句子組成標(biāo)題[5,11]。而基于神經(jīng)網(wǎng)絡(luò)的標(biāo)題生成技術(shù)多采用“端到端”的神經(jīng)網(wǎng)絡(luò)標(biāo)題生成框架[12],既可以進(jìn)行抽取式標(biāo)題生成(將標(biāo)題生成任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù)或者對(duì)句法依存樹采取剪枝的任務(wù)[13]),也可以直接生成多樣化表達(dá)的標(biāo)題[14]。并且,基于神經(jīng)網(wǎng)絡(luò)的標(biāo)題生成方法在減少人工特征工程的同時(shí),還能夠通過神經(jīng)網(wǎng)絡(luò)模型更好地學(xué)習(xí)到數(shù)據(jù)中潛在的深層信息(例如使用現(xiàn)有流行的大規(guī)模預(yù)訓(xùn)練語言模型獲取句子的語義表示[15]),這些都在一定程度上解決了因?yàn)閿?shù)據(jù)不均衡導(dǎo)致的統(tǒng)計(jì)信息計(jì)算不正確、獲取句子表示受到相關(guān)領(lǐng)域數(shù)據(jù)量的限制以及難以跨領(lǐng)域復(fù)用等問題。
在現(xiàn)實(shí)互聯(lián)網(wǎng)中,大多數(shù)獲取到的數(shù)據(jù)是缺乏人工標(biāo)注的分類信息的,或者一些新興的事物是沒有歷史類別信息的,而文本聚類是對(duì)文本數(shù)據(jù)進(jìn)行聚類分析以解決樣本分類問題的一種方法。它作為一種無監(jiān)督機(jī)器學(xué)習(xí)方法,具有一定的靈活性和自動(dòng)處理能力,可以通過已有數(shù)據(jù)內(nèi)部自身的特征,探索性地將相似數(shù)據(jù)進(jìn)行歸類,來得到數(shù)據(jù)中潛在的自然分組情況,而不依賴預(yù)先定義的類別標(biāo)記。
因此,文本聚類方法可作為一個(gè)獨(dú)立工具,對(duì)數(shù)據(jù)進(jìn)行類似預(yù)處理的操作,來獲得數(shù)據(jù)的基本分類情況。目前,傳統(tǒng)的文本聚類算法有K-means[16]、BIRCH (balanced iterative reducing and clustering using hierarchies)[17]以及高斯混合模型(Gaussian mixture model,GMM)[18]等,這些算法和技術(shù)已被應(yīng)用于自動(dòng)文摘、信息檢索、推薦系統(tǒng)等領(lǐng)域中。
而本文將采用一種基于神經(jīng)網(wǎng)絡(luò)的聚類方法——基于SOM 的聚類方法。該聚類方法由Kohoen[7]提出,對(duì)應(yīng)的網(wǎng)絡(luò)模型一般只包含輸入層和輸出層,不包含隱藏層。其中,輸入層用于接收高維的輸入向量,輸出層則由一系列有序節(jié)點(diǎn)構(gòu)成(例如輸出層神經(jīng)元之間的結(jié)構(gòu)為二維網(wǎng)格,它們存在橫向連接),輸入層與輸出層之間通過權(quán)重向量連接。
與傳統(tǒng)聚類算法以及其他基于神經(jīng)網(wǎng)絡(luò)的聚類方法不同的是,SOM 聚類方法不需要預(yù)先設(shè)置聚類數(shù)目,或者僅在傳統(tǒng)聚類算法中融入神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的詞或句的表示,完全采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠直接應(yīng)用在輸入數(shù)據(jù)的高維詞向量上,并能夠在輸出層根據(jù)不同的輸入數(shù)據(jù)激活相應(yīng)的神經(jīng)元的同時(shí),將數(shù)據(jù)進(jìn)行降維且保留數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)。此外,現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型一般采用的都是誤差修正學(xué)習(xí)方式(例如誤差反向傳播算法)來進(jìn)行模型的訓(xùn)練和學(xué)習(xí),而基于SOM 的聚類模型采用的學(xué)習(xí)方式為競(jìng)爭(zhēng)學(xué)習(xí)。具體地,在模型訓(xùn)練和學(xué)習(xí)過程中,各輸出神經(jīng)元會(huì)有選擇地適應(yīng)具有潛在類別的輸入數(shù)據(jù),使得最終輸入某一類的數(shù)據(jù)時(shí),能找到與之距離最短的一個(gè)輸出層神經(jīng)元并激活,也即各個(gè)輸出神經(jīng)元代表了不同的簇,在輸入某一類的數(shù)據(jù)到模型中時(shí),該類對(duì)應(yīng)的輸出神經(jīng)元會(huì)被激活,使得該數(shù)據(jù)劃入該簇中。與此同時(shí),這種競(jìng)爭(zhēng)學(xué)習(xí)機(jī)制在模型訓(xùn)練過程中,除了會(huì)對(duì)被激活的“獲勝”輸出神經(jīng)元與輸入層之間的權(quán)重向量進(jìn)行更新外,還會(huì)對(duì)設(shè)定的鄰近區(qū)域內(nèi)的其他輸出神經(jīng)元與對(duì)應(yīng)的輸入層之間的權(quán)重向量也進(jìn)行一定程度的權(quán)值更新,這使得輸出神經(jīng)元之間能夠保持輸入層向量的拓?fù)涮卣鳌?/p>
另外,因?yàn)楦飨嗨茢?shù)據(jù)簇中的新聞數(shù)據(jù)往往會(huì)表達(dá)相似或者相同主題,而各個(gè)主題又是以文本中所有字詞為支撐集的概率分布,所以可以在文本聚類結(jié)果上進(jìn)一步獲取各數(shù)據(jù)簇中的主題詞信息。本文采用的是被廣泛應(yīng)用的LDA 主題模型[8]來進(jìn)一步分析各簇中的文本數(shù)據(jù),并獲取各簇中與該簇主題關(guān)聯(lián)性高的、有較大出現(xiàn)概率的主題詞集合。
具體地,LDA 主題模型作為一種文檔生成模型,也是一種無監(jiān)督學(xué)習(xí)技術(shù)。它采用詞袋方法,將每篇文檔視為一個(gè)詞頻向量,在生成文檔時(shí),認(rèn)為一篇文檔可以有多個(gè)主題,每個(gè)主題又對(duì)應(yīng)不同的主題詞。在采用LDA 模型進(jìn)行文檔生成的過程中,首先以一定概率選擇某個(gè)主題,然后在該主題下再以一定概率選擇一個(gè)詞,之后不斷重復(fù)這個(gè)過程,直到整篇文檔生成結(jié)束。相應(yīng)地,在本文中利用LDA 主題模型從聚類模型得到的各簇新聞內(nèi)容數(shù)據(jù)中獲取主題詞的過程是上述文檔生成過程的逆過程,即根據(jù)數(shù)據(jù)集中的新聞內(nèi)容的文本集合,找到各簇?cái)?shù)據(jù)的主題以及每一個(gè)主題對(duì)應(yīng)的高頻詞集合。
如表1 所示,使用形式化語言對(duì)基于抽取式方法的中文新聞標(biāo)題生成問題進(jìn)行描述和定義。每一條新聞內(nèi)容d由句子序列{s1,s2,…,sn} 組成,其中si對(duì)應(yīng)新聞內(nèi)容中的第i條句子。而si是一條進(jìn)行了分詞的詞語序列,其中wi,j對(duì)應(yīng)該文檔d中第i條句子中的第j個(gè)詞語。則對(duì)一條新聞內(nèi)容d進(jìn)行抽取式標(biāo)題生成,是判斷各條句子中哪些詞語應(yīng)該被保留,并最終產(chǎn)生一條包含了k個(gè)詞語的詞語序列(即標(biāo)題)c={c1,c2,…,ck},其中任意一個(gè)詞語cl均來自新聞內(nèi)容d。
表1 中文新聞標(biāo)題生成問題的形式化定義
而對(duì)于包含了N條新聞數(shù)據(jù)的數(shù)據(jù)集來說,將數(shù)據(jù)集形式化表示為,對(duì)應(yīng)的標(biāo)簽序列集合表示為,則本文基于抽取式方法的神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型的訓(xùn)練目標(biāo)是使用C進(jìn)行模型訓(xùn)練,得到神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型。之后對(duì)于任意一條用于測(cè)試的中文新聞數(shù)據(jù)dtest,模型可以預(yù)測(cè)并輸出對(duì)應(yīng)的標(biāo)簽序列ytest,再根據(jù)標(biāo)簽序列中標(biāo)“1”的標(biāo)簽可以找到新聞內(nèi)容中相應(yīng)位置的、構(gòu)成新聞標(biāo)題的具體詞匯。
本文采用的SOM 聚類模型是一個(gè)一維前向網(wǎng)絡(luò)結(jié)構(gòu),輸入層神經(jīng)元與輸出層神經(jīng)元以及輸出層神經(jīng)元之間都是全連接的結(jié)構(gòu),具體的模型結(jié)構(gòu)如圖1 左下角所示。
圖1 輔以聚類方法的抽取式神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型的整體框架
其中,som(·) 表示SOM 模型對(duì)各條新聞數(shù)據(jù)的計(jì)算過程,θs表示SOM 模型中的權(quán)重參數(shù)。整個(gè)SOM 模型在設(shè)置的迭代輪次結(jié)束后停止訓(xùn)練。則針對(duì)輸入的單條新聞內(nèi)容,其對(duì)應(yīng)激活的輸出神經(jīng)元坐標(biāo)zs可以被轉(zhuǎn)化為索引表示,也就對(duì)應(yīng)聚類結(jié)果中該條新聞內(nèi)容所歸屬的簇編號(hào)。
最后,利用預(yù)訓(xùn)練好的SOM 模型,可以獲取并賦予每一條輸入的新聞內(nèi)容所對(duì)應(yīng)的簇編號(hào)。
2.3.1 基準(zhǔn)模型
本文采用了常用的一種神經(jīng)網(wǎng)絡(luò)序列標(biāo)注框架作為基準(zhǔn)模型,它由一個(gè)雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)與一個(gè)條件隨機(jī)場(chǎng)模型組成,且其輸入使用了多種特征信息,包括詞向量、命名實(shí)體信息、詞性信息等。
具體地,對(duì)每一條新聞內(nèi)容d,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)會(huì)將其對(duì)應(yīng)的詞向量和詞匯特征(命名實(shí)體特征和詞性特征)進(jìn)行聯(lián)合作為輸入x=(e1,1,e1,2,,其中分別為詞向量、命名實(shí)體特征向量、詞性特征向量的維度。之后,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出為一條隱層狀態(tài)序列h=(h1,h2,…,hTx),其中Tx為輸入向量x的長(zhǎng)度,每一個(gè)hi是向前和向后的長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)的輸出表示的連接:
隨后,將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出h輸入到一個(gè)全連接層進(jìn)行一定程度上的數(shù)據(jù)降維,再將得到的輸出輸入到條件隨機(jī)場(chǎng)模型中:
其中,Wd和bd為全連接層的權(quán)重和偏置向量。
則根據(jù)條件隨機(jī)場(chǎng)模型計(jì)算得到的對(duì)應(yīng)當(dāng)前新聞內(nèi)容d的一條標(biāo)簽序列y的得分為
另外,因條件隨機(jī)場(chǎng)模型的計(jì)算會(huì)考慮所有可能預(yù)測(cè)出的標(biāo)簽序列,所以y出現(xiàn)的概率最終可以定義為
其中,Wc和bc為模型處理(yi-1,yi) 標(biāo)簽對(duì)時(shí)的權(quán)重和偏置向量。
在基準(zhǔn)神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型的訓(xùn)練過程中,整個(gè)模型的目標(biāo)是使正確的標(biāo)簽序列所對(duì)應(yīng)的對(duì)數(shù)概率最大化。因而本文采用維特比算法來訓(xùn)練條件隨機(jī)場(chǎng)模型,并使用得分最高的標(biāo)簽序列y*作為模型預(yù)測(cè)并輸出的最優(yōu)標(biāo)簽序列結(jié)果。
2.3.2 融入聚類模型的中文標(biāo)題生成模型
為更好地探索新聞數(shù)據(jù)內(nèi)部的隱含類別特征信息,本文采用了文獻(xiàn)[19]設(shè)計(jì)的一種神經(jīng)網(wǎng)絡(luò)框架——輔以聚類的神經(jīng)網(wǎng)絡(luò)中文句子壓縮模型(SOM-enhanced neural Chinese sentence compression model,SOM-NCSCM),如圖1 中的方法①所示,并將其用于中文新聞標(biāo)題生成任務(wù)。
具體地,為更豐富地表示新聞內(nèi)容,本文將2.2節(jié)預(yù)訓(xùn)練好的SOM 模型得到的簇編號(hào)特征ec與新聞內(nèi)容各個(gè)分詞對(duì)應(yīng)的詞向量以及詞匯特征(命名實(shí)體特征和詞性特征)進(jìn)行連接,得到特征集合x′,其中分別為與基準(zhǔn)模型相同的詞向量、命名實(shí)體特征向量、詞性特征向量的維度,而dc為隨機(jī)初始化的簇編號(hào)特征的維度。在得到特征集合之后,將其作為文獻(xiàn)[19]設(shè)計(jì)和采用的基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型[20]的輸入,用于將簇編號(hào)特征融入對(duì)新聞內(nèi)容的上下文表示中。相應(yīng)地,針對(duì)當(dāng)前某條新聞內(nèi)容的輸出,其計(jì)算方式如下。
其中,t∈[1,Tx],Wh、Ws和?都是模型中可訓(xùn)練的參數(shù),而同樣是向前和向后的長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)的輸出的連接,使用同式(2)的計(jì)算方式。
由此,通過這一額外的神經(jīng)網(wǎng)絡(luò)模型,可以得到聚類結(jié)果增強(qiáng)的新聞內(nèi)容句子表示es。最后,再將新聞內(nèi)容各個(gè)分詞對(duì)應(yīng)的詞向量ew與整個(gè)新聞內(nèi)容的句子表示es進(jìn)行連接,作為基準(zhǔn)模型的輸入,以此來改進(jìn)基準(zhǔn)模型:
之后整個(gè)模型的訓(xùn)練過程與2.3.1 節(jié)介紹的基準(zhǔn)模型的訓(xùn)練過程類似。
2.3.3 融入聚類模型和LDA 模型的中文標(biāo)題生成模型
本文進(jìn)一步對(duì)文獻(xiàn)[19]提出的NCSCM 框架進(jìn)行了改進(jìn),設(shè)計(jì)了4 種將聚類模型得到的聚類結(jié)果和LDA 主題模型獲取的主題詞特征信息進(jìn)行融合來加強(qiáng)對(duì)新聞內(nèi)容的上下文表示的方法和模型。
首先,利用LDA 主題模型對(duì)聚類結(jié)果中每個(gè)簇內(nèi)的所有新聞內(nèi)容進(jìn)行分析,獲取與該簇主題相關(guān)的、出現(xiàn)概率最高的前k個(gè)主題關(guān)鍵詞。之后,將每一個(gè)簇的k個(gè)主題詞轉(zhuǎn)化為主題詞特征向量,并構(gòu)建了4 種在模型中融合主題詞信息與簇編號(hào)信息的方法。各方法對(duì)應(yīng)的模型如圖1 中的方法②~⑤所示,具體的實(shí)現(xiàn)方法如下所述。
以上4 種模型在后續(xù)的訓(xùn)練過程,與2.3.1 節(jié)介紹的基準(zhǔn)模型的訓(xùn)練過程類似,這里不再贅述。
本文在實(shí)驗(yàn)中采用的數(shù)據(jù)集是哈爾濱工業(yè)大學(xué)整理的大規(guī)模中文短文摘要數(shù)據(jù)集(large-scale Chinese short text summarization dataset,LCSTS)[1]。其中的摘要數(shù)據(jù)來源于新聞媒體在中國(guó)社交平臺(tái)新浪微博上發(fā)布的新聞內(nèi)容,每條數(shù)據(jù)包含一個(gè)中文短文本和一條對(duì)應(yīng)標(biāo)題。另外,根據(jù)抽取式標(biāo)題生成任務(wù)需求,本文對(duì)該數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行了一定的預(yù)處理,具體操作包括:
(1) 從原始數(shù)據(jù)集中獲取新聞?wù)膬?nèi)容和對(duì)應(yīng)標(biāo)題。
(2) 因數(shù)據(jù)來自網(wǎng)絡(luò),需去掉文本數(shù)據(jù)中的特殊符號(hào)。之后再使用jieba 庫對(duì)新聞內(nèi)容和標(biāo)題進(jìn)行分詞。
(3) 根據(jù)新聞標(biāo)題中的分詞,預(yù)先在新聞?wù)膬?nèi)容中依次、自動(dòng)標(biāo)注出標(biāo)題中各詞語出現(xiàn)過的位置。
(4) 人工核對(duì),在新聞?wù)膬?nèi)容中選擇語義更加連貫的詞語片段,將對(duì)應(yīng)的標(biāo)題詞語所在位置的標(biāo)簽標(biāo)為“1”,得到標(biāo)簽序列。之后再經(jīng)過一遍自動(dòng)核對(duì),判斷新聞內(nèi)容中標(biāo)為“1”的那些詞語是否與標(biāo)題中各個(gè)詞語一致,也即無漏標(biāo)、多標(biāo)等情況。
(5) 隨機(jī)抽取標(biāo)注好的數(shù)據(jù)用于模型訓(xùn)練、驗(yàn)證與測(cè)試,并使用斯坦福大學(xué)提供的自然語言處理工具包CoreNLP 對(duì)抽取的數(shù)據(jù)進(jìn)行命名實(shí)體與詞性標(biāo)注。
最后,本文預(yù)處理后隨機(jī)抽取LCSTS 得到的用于本文實(shí)驗(yàn)的數(shù)據(jù)集合的統(tǒng)計(jì)信息如表2 所示。在實(shí)驗(yàn)時(shí),將其拆分成8000 條訓(xùn)練數(shù)據(jù),1000 條驗(yàn)證數(shù)據(jù)以及1064 條測(cè)試數(shù)據(jù)。
表2 LCSTS 數(shù)據(jù)集中抽取的新聞數(shù)據(jù)
本文實(shí)驗(yàn)了3 種初始化表示中文新聞數(shù)據(jù)以及主題詞信息的方法,包括以字為基本單位的中文來自變換器的雙向編碼器表征量(bidirectional encoder representation from transformers,BERT) 預(yù)訓(xùn)練模型[21]以及以詞為基本單位的2 種中文預(yù)訓(xùn)練模型(300 維度的Word2Vector 預(yù)訓(xùn)練中文詞向量[22]和中文WoBERT 預(yù)訓(xùn)練模型),并采用MiniSom 庫來構(gòu)建SOM 模型,且將其輸出層神經(jīng)元結(jié)構(gòu)設(shè)置為大小是10 的一維線型結(jié)構(gòu),其他參數(shù)保持庫中提供的模型默認(rèn)值。另外,將命名實(shí)體特征、詞性特征以及簇信息特征在模型訓(xùn)練階段都分別初始化為32 維的向量,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的隱層維度都設(shè)置為128 維,全連接層維度為64 維。而為防止過擬合,在基準(zhǔn)模型的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)與全連接層接受輸入之前使用比例為0.5 的dropout 操作。整個(gè)模型在訓(xùn)練時(shí)的批大小為64,并使用學(xué)習(xí)率為0.001的Adam 算法來進(jìn)行模型參數(shù)的優(yōu)化和學(xué)習(xí)。
模型對(duì)應(yīng)的預(yù)測(cè)結(jié)果都是在測(cè)試集上進(jìn)行,且每個(gè)模型至少重復(fù)訓(xùn)練過5 次,并最終選擇效果趨于平均值的模型進(jìn)行效果展示與比較。此外,為評(píng)估各新聞標(biāo)題生成模型的效果,本文采用的主要評(píng)價(jià)指標(biāo)為微觀F1 值(microF1)和壓縮率(compression ratio,CR)[23],以及輔助評(píng)價(jià)指標(biāo)BLEU 值[24]和ROUGE 值[25]。這4 種評(píng)價(jià)指標(biāo)的計(jì)算方式分別為
(1) 微觀F1 值:
本文進(jìn)行實(shí)驗(yàn)和效果評(píng)估與對(duì)比的各模型如下,在各模型中也分別實(shí)驗(yàn)了3 種初始化詞向量的方法。其中,使用以字為基本單位的預(yù)訓(xùn)練模型時(shí),會(huì)對(duì)按照分詞進(jìn)行“0/1”標(biāo)注的數(shù)據(jù)進(jìn)一步結(jié)合BIO(begin inside outside)標(biāo)注法進(jìn)行處理后再訓(xùn)練和測(cè)試模型。
(1) 基準(zhǔn)模型:本文2.3.1 節(jié)中介紹的模型。
(2) 融入傳統(tǒng)聚類算法的中文標(biāo)題生成模型:為了比較SOM 模型的聚類效果,本文在NCSCM 框架中實(shí)驗(yàn)了2種傳統(tǒng)的聚類算法(K-means算法和GMM 模型),并將這2 種算法需要提前設(shè)置的聚類數(shù)目設(shè)置為與取得較好效果的SOM 模型得到的聚類數(shù)目相同的數(shù)值(聚類數(shù)目設(shè)置為10)
(3) SOM-NCSCM:本文2.3.2 節(jié)中的方法①。
(4) 融入SOM 模型和LDA 模型的中文標(biāo)題生成模型:本文2.3.3 節(jié)中的方法②~⑤,也即對(duì)NCSCM 框架的4 種改進(jìn)模型。
表3 列出了各模型在抽取的LCSTS 的測(cè)試數(shù)據(jù)上取得的效果。實(shí)驗(yàn)結(jié)果中,加粗字體對(duì)應(yīng)的結(jié)果是當(dāng)前評(píng)價(jià)指標(biāo)下的最優(yōu)值,下劃線對(duì)應(yīng)的結(jié)果是當(dāng)前評(píng)價(jià)指標(biāo)下的次優(yōu)值,加星號(hào)對(duì)應(yīng)的結(jié)果是當(dāng)前預(yù)訓(xùn)練模型下各評(píng)價(jià)指標(biāo)中的最優(yōu)值。表4 列出了在取得較好實(shí)驗(yàn)結(jié)果的聚類結(jié)果中,各簇經(jīng)過LDA 主題模型從訓(xùn)練數(shù)據(jù)中獲取的具有較高概率的前10 個(gè)主題詞。從各個(gè)模型在測(cè)試集上取得的效果中可以看到:
表3 所有模型在LCSTS 的測(cè)試集上的實(shí)驗(yàn)結(jié)果
表4 LDA 主題模型從聚類結(jié)果的各簇?cái)?shù)據(jù)中抽取的取得較高概率的前個(gè)10 主題詞
(1) 整體上看,使用以詞為基本單位的WoBERT 預(yù)訓(xùn)練模型來初始化詞向量的各模型在主要評(píng)價(jià)指標(biāo)F1 值上取得的效果均較使用另外2 種預(yù)訓(xùn)練模型的效果好,而使用以字為基本單位的BERT 預(yù)訓(xùn)練模型的各模型效果能夠取得最優(yōu)的壓縮率、BLEU 和ROUGE 值,這也就體現(xiàn)了BERT 預(yù)訓(xùn)練模型能夠輸出語境信息更豐富的詞向量的能力。
(2) 相較于基準(zhǔn)模型,融入了聚類結(jié)果以及主題詞特征的各模型,其效果都明顯提升。這說明數(shù)據(jù)中相似數(shù)據(jù)之間存在的特征信息(主題類別以及主題詞信息)能夠輔助相似新聞數(shù)據(jù)進(jìn)行新聞標(biāo)題詞的選取。
(3) 采用傳統(tǒng)聚類算法的標(biāo)題生成模型在F1值、壓縮率、BLEU 和ROUGE 指標(biāo)上都較基準(zhǔn)模型的效果有所提升,說明融入聚類特征能夠讓模型保留更多的新聞標(biāo)題詞,確保沒有過度壓縮新聞數(shù)據(jù)。
(4) 結(jié)合表4 展示的主題詞信息可以看到,采用SOM 進(jìn)行神經(jīng)網(wǎng)絡(luò)聚類方法得到的模型較基于傳統(tǒng)聚類算法的模型能夠取得更好效果,且在僅采用聚類編號(hào)特征信息的方法①的基礎(chǔ)上,在方法②~⑤中融入主題詞特征信息后,可以進(jìn)一步提升新聞標(biāo)題生成的效果。
(5) 此外,本文提出的方法②~⑤實(shí)驗(yàn)了融入主題詞信息的不同方式。從實(shí)驗(yàn)結(jié)果中可看到,直接融入主題詞特征信息來增強(qiáng)新聞句子表示的方式(方法②和③)能在各個(gè)指標(biāo)上達(dá)到較優(yōu)或者最優(yōu)的效果,而通過更為深入和復(fù)雜的融合方式得到的模型(方法④和⑤),能夠取得更佳的F1 值、BLEU和ROUGE 值,但在其訓(xùn)練過程中,所需訓(xùn)練時(shí)間更長(zhǎng),并因模型參數(shù)更多,更易出現(xiàn)過擬合。
為更好地觀察不同SOM 聚類模型的神經(jīng)元結(jié)構(gòu)大小對(duì)設(shè)計(jì)的標(biāo)題生成模型效果的影響,本文還進(jìn)行了針對(duì)SOM 聚類模型的消融實(shí)驗(yàn):
(1) 在方法④對(duì)應(yīng)的SOM-NCSCM_ave 模型上融入不同SOM 神經(jīng)元結(jié)構(gòu)大小的聚類結(jié)果和相應(yīng)LDA 主題模型獲取的主題詞信息,實(shí)驗(yàn)結(jié)果如表5所示(使用中文WoBERT 預(yù)訓(xùn)練模型初始化詞向量),“SOM=X”對(duì)應(yīng)著設(shè)置的不同SOM 神經(jīng)元結(jié)構(gòu)大小,也即聚類結(jié)果中簇的數(shù)量。。
(2) 從傳統(tǒng)聚類方法(K-means 算法和GMM 模型)以及不同SOM 神經(jīng)元結(jié)構(gòu)大小的SOM 聚類模型得到的各簇中分別都抽取了200 條數(shù)據(jù),計(jì)算不同聚類模型取得的輪廓系數(shù)(silhouette coefficient),結(jié)果如表6 所示。
表6 不同聚類模型的輪廓系數(shù)
當(dāng)神經(jīng)元結(jié)構(gòu)較小時(shí),聚類得到的簇較少,而隨著神經(jīng)元結(jié)構(gòu)增大,聚類得到的簇?cái)?shù)量也逐漸增多。相應(yīng)地,簇較少時(shí),新聞數(shù)據(jù)難以得到充分聚類,而簇增多時(shí),聚類到各簇的新聞數(shù)據(jù)量就會(huì)減少,導(dǎo)致有些相似新聞數(shù)據(jù)被過度細(xì)分。因此,本文采用了聚類效果最佳的、神經(jīng)元結(jié)構(gòu)大小為10 的SOM 模型進(jìn)行各模型的實(shí)驗(yàn)和效果對(duì)比。
表7 舉例展示了3 條測(cè)試集中的新聞數(shù)據(jù)以及3 種在測(cè)試集上取得較好效果的模型的預(yù)測(cè)輸出,從表中可以直觀地看到融入SOM 聚類模型與LDA主題模型對(duì)新聞標(biāo)題生成效果的影響。其中,分詞之間使用“/”分隔。
表7 3 條新聞內(nèi)容以及3 種模型的預(yù)測(cè)結(jié)果
通過分析各模型的預(yù)測(cè)結(jié)果,可以總結(jié)出在處理該數(shù)據(jù)集上的新聞標(biāo)題生成任務(wù)時(shí)現(xiàn)有模型的優(yōu)勢(shì)和存在的問題。
(1) 原標(biāo)題與預(yù)測(cè)標(biāo)題的質(zhì)量:文獻(xiàn)[1]也說明了其收集的新聞數(shù)據(jù)中原標(biāo)題質(zhì)量有好有差的情況。部分原標(biāo)題包含了充分的新聞信息且語言更簡(jiǎn)練,而另一部分原標(biāo)題相對(duì)更抽象、未能概括新聞內(nèi)容的完整信息。如表6 中的例1 就是原標(biāo)題缺少地點(diǎn)關(guān)鍵詞(“甘肅/定西”)以及更充分的信息量(“296/人/重傷”),而文本設(shè)計(jì)的各模型能預(yù)測(cè)并補(bǔ)全其原標(biāo)題中缺乏的這些關(guān)鍵信息;例3 則是原標(biāo)題較抽象、缺乏事實(shí)相關(guān)信息的例子。此外,在依據(jù)本文實(shí)驗(yàn)需求進(jìn)行數(shù)據(jù)標(biāo)注時(shí),也會(huì)存在少量的分詞錯(cuò)誤或分詞不一致問題,如例1 中的分詞錯(cuò)誤“中寨至”,例3 中的分詞不一致“冷鮮/雞”與“冷/鮮/雞”。而從各模型的預(yù)測(cè)結(jié)果中可以看到,相較于其原標(biāo)題,本文設(shè)計(jì)的模型能生成更可讀的、與新聞內(nèi)容關(guān)聯(lián)更大的、包含更充分的信息量的新聞標(biāo)題,且在模型中更充分地融入聚類和主題詞信息,能夠?qū)Ψ衷~問題導(dǎo)致的影響具有一定的魯棒性。
(2) 新聞數(shù)據(jù)壓縮程度:即新聞標(biāo)題需要對(duì)新聞內(nèi)容更加精煉的表達(dá),同時(shí)不能丟失新聞內(nèi)容中的關(guān)鍵信息。從表6 的例子中可以看到,各模型對(duì)新聞標(biāo)題詞的選取,有時(shí)會(huì)保留更多的、不存在于原標(biāo)題中的詞語,但預(yù)測(cè)的標(biāo)題在一定程度上也是可讀且合理的。結(jié)合表4 的實(shí)驗(yàn)結(jié)果,從壓縮率指標(biāo)上來看,各模型在預(yù)測(cè)時(shí),總體上仍會(huì)傾向于保留較少的詞語,這導(dǎo)致一些關(guān)鍵詞被遺漏,例如表6 例2中的“南海/網(wǎng)”,以及“在/海南”在新聞內(nèi)容出現(xiàn)的順序偏后,沒有得到模型更多的關(guān)注而被漏標(biāo)。
針對(duì)中文新聞標(biāo)題生成任務(wù)面臨的大規(guī)模且高質(zhì)量中文標(biāo)注數(shù)據(jù)缺乏的問題,本文利用標(biāo)題往往由原文中的詞匯構(gòu)成這一特點(diǎn),將中文抽取式標(biāo)題生成問題轉(zhuǎn)化為序列標(biāo)注問題,并提出了多種在深度神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型中融入聚類和主題模型的方法。利用基于無監(jiān)督學(xué)習(xí)的SOM 聚類模型和LDA主題模型自動(dòng)挖掘出表達(dá)相同或相似主題的數(shù)據(jù)以及數(shù)據(jù)中的主題詞信息,在基于監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)模型中融入這些特征,增強(qiáng)對(duì)新聞內(nèi)容的上下文表示,從而輔助中文新聞標(biāo)題生成。在互聯(lián)網(wǎng)上公開的、缺乏人工標(biāo)注分類信息的LCSTS 中文新聞數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的模型在各評(píng)價(jià)指標(biāo)上的結(jié)果較基準(zhǔn)模型都有所提升,也提高了中文標(biāo)題生成的質(zhì)量。未來的工作可以從提升壓縮率來避免過度壓縮、減少關(guān)鍵信息遺漏的角度出發(fā)繼續(xù)研究,也可以設(shè)計(jì)人工評(píng)價(jià)策略來更細(xì)致地評(píng)估模型的效果,允許模型生成多樣化的標(biāo)題。