• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖卷積網(wǎng)絡(luò)的文本分割模型

      2022-12-18 08:10:44杜雨奇
      計算機(jī)應(yīng)用 2022年12期
      關(guān)鍵詞:自然段注意力語義

      杜雨奇,鄭 津,王 楊,黃 誠,李 平

      (西南石油大學(xué) 計算機(jī)科學(xué)學(xué)院,成都 610500)

      0 引言

      網(wǎng)絡(luò)時代的信息量呈爆炸性增長,如何從這些資源中提取出有用的信息成為了一項(xiàng)巨大挑戰(zhàn),文本分割任務(wù)應(yīng)運(yùn)而生。1997 年,Hearst[1]將按照主題或子主題相關(guān)的原則把文本劃分為若干個文本單元塊的任務(wù)稱為文本分割。其宗旨是識別到文本中的主題過渡,從而可以將文本分割為若干個具有不同主題的文本片段,即文本塊。每一個文本塊中的內(nèi)容在語義上都是緊密聯(lián)系的,屬于同一個子主題,而不同文本塊之間的語義聯(lián)系相對較薄弱,主題有所差別。良好的分割結(jié)果可增強(qiáng)文本的可讀性,任務(wù)所得的文本塊可應(yīng)用于眾多自然語言處理(Natural Language Processing,NLP)的下游任務(wù),例如自動文本摘要[2-3]、信息檢索[4-5]、情感分類[6-7]或?qū)υ捊#?-9]等。

      目前,文本分割作為一個基礎(chǔ)但復(fù)雜的自然語言處理任務(wù),面臨了諸多挑戰(zhàn)。由于其任務(wù)的特殊性,文本分割需考慮到3 個方面的內(nèi)容:1)文本的結(jié)構(gòu)信息,即文本的層次性。文本中包含了多個子主題,并且位置相鄰的兩個自然段、句子和詞之間都有其結(jié)構(gòu)關(guān)聯(lián)。2)文本要素(詞、句子或自然段)的語義信息。挖掘語義關(guān)系是自然語言處理任務(wù)的核心之一。3)文本要素之間的上下文關(guān)聯(lián)。上下文關(guān)系可以增強(qiáng)文本要素的嵌入表達(dá),并且符合文本分割任務(wù)的定義要求。

      針對以上三項(xiàng)主要挑戰(zhàn),本文提出了一種基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的文本 分割模 型TS-GCN(Text Segmentation-Graph Convolutional Network),利用圖的拓?fù)浣Y(jié)構(gòu)來對這些信息進(jìn)行融合表達(dá),圖的節(jié)點(diǎn)為每個自然段,圖的邊為自然段與自然段之間的關(guān)系。受圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[10]工作的啟發(fā),在構(gòu)建邏輯關(guān)系時引入了注意力,對鄰居節(jié)點(diǎn)信息進(jìn)行有側(cè)重性的聚合。接著借助最近幾年熱門的圖卷積網(wǎng)絡(luò)來對自然段節(jié)點(diǎn)進(jìn)行高階鄰域的信息傳遞。通過聚合后的節(jié)點(diǎn)表達(dá),判斷每一個自然段節(jié)點(diǎn)“是/否”為一個文本塊的邊界。對連續(xù)若干個自然段進(jìn)行標(biāo)簽預(yù)測,即可將文本劃分為對應(yīng)的文本塊。經(jīng)過實(shí)驗(yàn)分析,該模型可以獲得很強(qiáng)的分割性能,在保持運(yùn)行速度的同時,達(dá)到了與目前最好的(State-Of-The-Art,SOTA)模型同級的分割效果。

      本文的主要工作包含:

      1)提出了一個基于圖卷積網(wǎng)絡(luò)的文本分割模型TS-GCN,對于文本分割任務(wù)提出了一個新的解決方向——圖卷積網(wǎng)絡(luò),并通過實(shí)驗(yàn)結(jié)果驗(yàn)證了其有效性;

      2)提出了一種構(gòu)建文本鄰接矩陣的思路,融合了文本的空間關(guān)系與邏輯關(guān)系,拓寬了圖的邊的類型,結(jié)合了更多方面的文本信息;

      3)在邏輯關(guān)系構(gòu)造方面,引入了語義相似性注意力,從而可以對鄰域信息進(jìn)行有側(cè)重性地聚合。

      1 相關(guān)工作

      在深度學(xué)習(xí)發(fā)展之前,文本分割任務(wù)都是通過量化詞匯相似性或詞的銜接等方式來進(jìn)行的。例如,1997 年,Hearst[1]提出TextTiling 模型;2000 年,Choi[11]提出C99 模型;2001 年,Utiyama 等[12]提出U00 模型。以上模型只能關(guān)注到一些詞匯的表層統(tǒng)計信息,很難挖掘到語義信息等深層次的信息。

      深度學(xué)習(xí)的出現(xiàn)為這個問題帶來了轉(zhuǎn)機(jī),隨著深度學(xué)習(xí)的發(fā)展,逐漸出現(xiàn)了一些利用深度模型進(jìn)行文本分割任務(wù)的研究。例如,Li 等[13]提出用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)結(jié)合指針網(wǎng)絡(luò)來判定分割邊界;2018 年,Koshorek 等[14]通過兩層雙向長短期記憶(Bidirectional Long Short-Term Memory,Bi-LSTM)來對句子進(jìn)行分割判定;2019年,Arnold 等[15]提出了SECTOR 模型,使用LSTM 預(yù)測句子主題和文本塊邊界;2020 年,S-LSTM(Segment pooling LSTM)[16]結(jié)合了以前的模型思想進(jìn)一步提高了分割性能;同年,Lukasik 等[17]利用BERT(Bidirectional Encoder Representation from Transformers)和LSTM 實(shí)現(xiàn)了3 種新型分割模型;Xing等[18]提出一個分層注意力Bi-LSTM 模型用于主題分割;Wu等[19]將文本分割建模為使用帶有條件隨機(jī)場(Conditional Random Field,CRF)分類層的LSTM 序列標(biāo)記任務(wù)。這一類型的模型利用RNN 以序列的方式來構(gòu)建單詞或句子的表示,可以獲取到不同程度上的語義表達(dá),但在上下文信息挖掘方面仍有所欠缺。

      受以上所列的研究工作啟發(fā),部分研究人員意識到利用圖的拓?fù)浣Y(jié)構(gòu)來表達(dá)文本數(shù)據(jù)的分布更佳。2016 年,Glava?等[20]提出了GraphSeg 模型,GraphSeg 利用句子的語義相似度構(gòu)造句子之間的無向圖,并通過Bron-Kerbosch 算法計算最大團(tuán)來劃分文本塊。通過這種方式構(gòu)造出的圖只考慮到句子之間的語義相似度,并且通過無監(jiān)督算法來劃分文本塊的方式很難處理特定的任務(wù)和多尺度問題。2018 年,Yao 等[21]提出基于圖神經(jīng)網(wǎng)絡(luò)的文本分類(Graph Convolutional Network for Text classification,TextGCN)模型,其實(shí)驗(yàn)結(jié)果有力證明了圖卷積網(wǎng)絡(luò)(GCN)在處理圖結(jié)構(gòu)信息方面的有效性。而Kipf 等[22]的原始GCN 在構(gòu)建鄰接矩陣時僅僅是對鄰接關(guān)系進(jìn)行累加,并沒有考慮到節(jié)點(diǎn)之間的關(guān)系應(yīng)該有側(cè)重性。根據(jù)文本分割任務(wù)的特殊性,應(yīng)當(dāng)在不同鄰域節(jié)點(diǎn)之間加以區(qū)分,可以在鄰接關(guān)系的權(quán)重方面得以體現(xiàn)。例如,在一個文本塊中,各自然段雖屬于同一個子主題,但它們兩兩之間的相關(guān)度都有所不同,節(jié)點(diǎn)之間的影響力也有很大差別。

      綜上,為了解決文本數(shù)據(jù)的結(jié)構(gòu)信息、語義信息以及上下文信息的挖掘問題,本文模型TS-GCN 能夠提取到文本數(shù)據(jù)的空間性與邏輯性。如圖1 所示,以P5 節(jié)點(diǎn)為例,TS-GCN引入了注意力,對其鄰域信息進(jìn)行有側(cè)重性的聚合,鄰居節(jié)點(diǎn)的大小與邊緣厚度代表了目標(biāo)節(jié)點(diǎn)對鄰居節(jié)點(diǎn)的注意力強(qiáng)度,再通過圖卷積網(wǎng)絡(luò)結(jié)構(gòu)聚合鄰域信息,從而對節(jié)點(diǎn)信息進(jìn)行有效表達(dá)。值得注意的是,TS-GCN 與TextGCN 所針對的任務(wù)有一定程度上的相似性,但兩者在場景上區(qū)別較大。首先,TS-GCN 基于文本的結(jié)構(gòu)信息和語義邏輯,在同一篇文本內(nèi)進(jìn)行自然段之間的分類;而TextGCN 是在不同的獨(dú)立文檔之間進(jìn)行主題分類。從這一層面上來看,TS-GCN 需要更多地考慮到文本的細(xì)粒度特征,而TextGCN 作為對獨(dú)立文檔進(jìn)行分類的模型,更重要的是挖掘到文本的整體特征表達(dá)。其次,相較于TextGCN,TS-GCN 在細(xì)節(jié)的處理上更加需要加強(qiáng)節(jié)點(diǎn)自身與節(jié)點(diǎn)之間的關(guān)系的表達(dá),并且大量的注意力放在了對于鄰接關(guān)系的表達(dá)上,TS-GCN 需要結(jié)合節(jié)點(diǎn)和邊來進(jìn)行特征匯聚;而在TextGCN 所針對的獨(dú)立文檔分類任務(wù)中,最后的融合表達(dá)并沒有它在TS-GCN 的解決方案中那么重要。

      圖1 原始GCN與TS-GCN的對比Fig.1 Comparison between original GCN and TS-GCN

      2 基于圖卷積網(wǎng)絡(luò)的文本分割模型

      本文提出的基于圖卷積網(wǎng)絡(luò)的文本分割模型TS-GCN 包含3 個模塊,結(jié)構(gòu)如圖2 所示。3 個模塊分別為:1)圖的構(gòu)建。將自然段表示為節(jié)點(diǎn),融合自然段之間的空間關(guān)系與邏輯關(guān)系來構(gòu)建文本圖的邊,并且在邏輯關(guān)系表達(dá)方面引入了基于語義相似性的注意力。2)基于圖的特征聚合。利用兩個堆疊的GCN 層來對鄰居節(jié)點(diǎn)特征和邊特征進(jìn)行聚合進(jìn)而提高中心節(jié)點(diǎn)表達(dá)的準(zhǔn)確性。3)分割預(yù)測。輸出每個自然段是否作為分割邊界的概率,并選擇最大概率對應(yīng)的標(biāo)簽作為其預(yù)測結(jié)果。

      圖2 TS-GCN整體流程Fig.2 Overall process of TS-GCN

      2.1 圖的構(gòu)建

      將自然段作為圖的節(jié)點(diǎn),自然段之間的關(guān)系作為圖的邊,文本圖可記為Graph=(Vertices,Edges),Vertices代表自然段節(jié)點(diǎn)的集合,Edges代表節(jié)點(diǎn)與節(jié)點(diǎn)間的所有邊的集合。構(gòu)建文本圖包括自然段節(jié)點(diǎn)特征初始化與邊的構(gòu)建兩個部分。

      2.1.1 節(jié)點(diǎn)特征初始化

      將自然段作為節(jié)點(diǎn),節(jié)點(diǎn)特征可通過自身初始化后的表征以及聚合鄰居節(jié)點(diǎn)特征和邊特征來融合表達(dá)。因此,首先需要對節(jié)點(diǎn)的特征進(jìn)行初始化。通過引入fastText 在Wikipedia 2017、UMBC webbase 語料庫和statmt.org 新聞數(shù)據(jù)集上訓(xùn)練的100 萬個300 維詞向量來表示每個自然段中的單詞,再將一個自然段中所有單詞的向量求平均來表示該自然段的嵌入,最終可以得到特征矩陣X。自然段嵌入表達(dá)的向量化處理過程如式(1)(2)所示:

      其中:si為自然段中每個單詞的300 維詞向量,w代表該自然段中的單詞總數(shù),E為該自然段的嵌入表達(dá),p為數(shù)據(jù)集中自然段總數(shù),⊕表示拼接操作。

      2.1.2 邊的構(gòu)建

      在GCN 中,鄰接矩陣代表著圖結(jié)構(gòu)信息,圖結(jié)構(gòu)特征也會對節(jié)點(diǎn)特征有一定的影響,因此邊的構(gòu)建至關(guān)重要。由于大部分文本分割模型在文本結(jié)構(gòu)信息、語義信息和上下文信息挖掘方面存在不足,因此本文在構(gòu)建邊時對文本的空間關(guān)系與邏輯關(guān)系進(jìn)行了融合,如圖3 所示。

      圖3 邊的構(gòu)建Fig.3 Construction of edges

      1)空間關(guān)系??臻g關(guān)系的范圍為整個文本數(shù)據(jù)集。由于選取的數(shù)據(jù)是多篇完整的文本,相鄰的兩個自然段之間有其整體結(jié)構(gòu)和語義表達(dá)上的聯(lián)系??臻g關(guān)系又具體分為兩種:第一種是兩個自然段空間相鄰并處在同一文本塊中,存在這種關(guān)系的兩個自然段的語義一定是緊密相關(guān)的;第二種是兩個自然段空間相鄰,但其中一個自然段是一個文本塊的結(jié)束段,而另一個自然段是另一個文本塊的起始段。由于分別屬于兩個不同的子主題,可以將存在這種關(guān)系的兩個自然段看作主題過渡段,有其過渡語義的體現(xiàn)??臻g關(guān)系的鄰接矩陣SAij可用式(3)表示為:

      2)邏輯關(guān)系。邏輯關(guān)系的范圍為若干個文本塊內(nèi)。同一個文本塊中的自然段在語義上應(yīng)該緊密相關(guān),并且屬于同一個子主題,但它們之間也存在一些緊密性的區(qū)別,某兩個自然段的聯(lián)系可能會比其他自然段更強(qiáng);因此,為了滿足模型對文本塊內(nèi)關(guān)系的挖掘能力,本文在邏輯關(guān)系方面引入了語義相似性注意力,旨在捕獲同一個文本塊中自然段之間的不同相關(guān)度。邏輯關(guān)系的鄰接矩陣LAij可用式(4)表示為:

      其中α(i,j)為自然段i與自然段j之間的注意力值,計算方式如式(5):

      其中:n為節(jié)點(diǎn)的特征維度,iz和jz代表節(jié)點(diǎn)特征向量在每一個第z個維度上的數(shù)值。

      3)融合表達(dá)。綜合空間關(guān)系與邏輯關(guān)系,節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的邊的權(quán)值A(chǔ)ij可如式(6)定義為:

      其中:μ(·)與ν(·)為指示函數(shù),若i和j是空間相鄰的,則μ(i,j)=1,反之為0;若i和j屬于同一個文本塊,則ν(i,j)=1,反之為0。

      通過以上兩種鄰接矩陣的構(gòu)建,文本的空間關(guān)系和邏輯關(guān)系可以得到有效的表達(dá),應(yīng)對了文本分割任務(wù)所面臨的結(jié)構(gòu)信息、語義信息和上下文關(guān)聯(lián)挖掘的三項(xiàng)主要挑戰(zhàn)。

      2.2 基于圖的特征聚合

      在圖的特征聚合方面,通過聚合鄰居節(jié)點(diǎn)信息和邊的信息來表達(dá)中心節(jié)點(diǎn)的信息,以此來對節(jié)點(diǎn)進(jìn)行更準(zhǔn)確的嵌入表達(dá)。通過圖Graph=(Vertices,Edges),可以構(gòu)造出:1)特征矩陣X。假設(shè)共有p個節(jié)點(diǎn),每個節(jié)點(diǎn)用一個m維向量表示,則X矩陣的維度大小為p*m。2)鄰接矩陣A。鄰接矩陣匯聚了節(jié)點(diǎn)間的邊的信息,由于每一個節(jié)點(diǎn)與其自身聯(lián)系最緊密,因此設(shè)置了自環(huán)(self-loops)機(jī)制,且矩陣對角線上的元素均大于等于1。

      本文模型采用了兩個堆疊的GCN 層來對特征矩陣和鄰接矩陣進(jìn)行處理進(jìn)而提取圖的特征。節(jié)點(diǎn)接收聚合其鄰域信息并對自身的嵌入進(jìn)行表達(dá),其中,激活函數(shù)分別采用修正線性單元(Rectified Linear Unit,ReLU)和Softmax,則整體的正向傳播如式(7):

      其中:X為特征矩陣,A為鄰接矩陣,W和b是可學(xué)習(xí)的參數(shù)。

      2.3 分割預(yù)測

      類似于圖2 中的P5 節(jié)點(diǎn),通過GCN 層可以得到所有節(jié)點(diǎn)聚合后的特征表示,再經(jīng)過一個Softmax 操作后,可以得到每個自然段是否作為分割邊界的概率,計算如式(8)所示:

      其中:xt為第t維的輸出值;m為節(jié)點(diǎn)特征向量的維度,也是分類的類別個數(shù)。Softmax(xt)可以將輸出值轉(zhuǎn)換為取值在(0,1)范圍內(nèi)且和為1 的概率分布,選擇最大概率對應(yīng)的標(biāo)簽即可作為節(jié)點(diǎn)的預(yù)測結(jié)果。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 數(shù)據(jù)集

      實(shí)驗(yàn)中一共采用兩個數(shù)據(jù)集:Wikicities 和Wikielements。這兩個數(shù)據(jù)集均是在2009 年由Chen 等[23]制作完成。Wikicities 包括100 個關(guān)于主要城市的描述文檔,主題大致包括歷史、文化和人口信息等;Wikielements 包括118 個化學(xué)元素的描述文檔,主題包括元素的生物學(xué)作用和同位素等。這兩個數(shù)據(jù)集后來被廣泛應(yīng)用于文本分割任務(wù),具體信息如表1 所示。

      表1 文本分割數(shù)據(jù)集的統(tǒng)計信息Tab.1 Statistics of text segmentation datasets

      3.2 評估指標(biāo)

      正如文本分割任務(wù)的定義所示,一個好的分割模型可以準(zhǔn)確識別出數(shù)據(jù)集文本中連續(xù)自然段的分割邊界,因此,本文研究的目標(biāo)就是優(yōu)化兩個自然段被正確標(biāo)記為相關(guān)或不相關(guān)的概率。圖4 展示了文本分割的3 種結(jié)果。

      圖4 文本分割的3種結(jié)果Fig.4 Three results of text segmentation

      本文實(shí)驗(yàn)采用了文本分割任務(wù)的標(biāo)準(zhǔn)量化指標(biāo)Pk值。1999 年,Beeferman 等[24]對Pk值進(jìn)行了定義。設(shè)PD為從語料庫中隨機(jī)抽取的兩個自然段被錯判為屬于不同或同一文本塊的概率,其計算方式如式(9):

      其中:p為數(shù)據(jù)集中的自然段總數(shù)量;ref為實(shí)際分割;hyp為預(yù)測分割;δref和δhyp代表指示函數(shù),若自然段i與自然段j同屬于一個文本塊,則δref或δhyp為1,反之為0;代表同或門(eXclusive-NOR gate,XNOR)。D(i,j)代表距離概率分布,用來表示隨機(jī)抽取的兩個自然段之間的距離,距離越遠(yuǎn),D值越小。由于距離的概率分布D(i,j)很難確定,Beeferman等[24]提出將D簡化為Dk。取固定值k作為距離,一般將k設(shè)置為文本塊平均長度的一半,即可得到間隔k個自然段的自然段對被錯判為屬于不同或同一文本塊的概率值Pk。因此,由定義可知,Pk取值在0~1,Pk值越小,分割效果越佳。在本文實(shí)驗(yàn)中,通過調(diào)用SEGEVAL 包來計算Pk值。

      3.3 實(shí)驗(yàn)設(shè)置

      本文模型采用通過fastText 在Wikipedia 2017、UMBC webbase 語料庫和statmt.org 新聞數(shù)據(jù)集上訓(xùn)練的300 維詞向量作為單詞的初始特征,并通過向量相加平均的方式來對自然段進(jìn)行嵌入表達(dá),詞表外(Out Of Vocabulary,OOV)的單詞通過從均勻分布中隨機(jī)采樣生成,隱藏層維度為64。

      生成所需的特征矩陣與鄰接矩陣后,通過兩層堆疊的GCN 來對矩陣信息進(jìn)行處理。在每層GCN 后接一層Dropout并設(shè)其為0.5。實(shí)驗(yàn)硬件為顯存為16 GB 的Tesla T4,優(yōu)化器選擇Adam 且權(quán)重衰減系數(shù)為0.007,epoch 數(shù)設(shè)置為1 000,損失函數(shù)使用交叉熵,計算過程如式(10):

      其中:x為經(jīng)過Softmax 操作后的輸出,c、h代表標(biāo)簽的索引值。

      3.4 結(jié)果及分析

      3.4.1 文本分割任務(wù)結(jié)果及分析

      為了驗(yàn)證本文所提出的TS-GCN 的有效性,將TS-GCN 與其他文本分割基線模型進(jìn)行對比。

      表2 顯示了TS-GCN 與其他基線模型在Wikicities 和Wikielements 兩個數(shù)據(jù)集上的分割效果。Random 代表隨機(jī)劃定文本塊;GraphSeg 模型通過Bron-Kerbosch 算法計算最大團(tuán)來劃分文本塊;WIKI-727K 模型采用了兩層Bi-LSTM 來對句子進(jìn)行分割判定;TLT-TS(Two-Level Transformer model for Text Segmentation)[25]為一個雙層Transformer 結(jié)構(gòu);CATS(Coherence-Aware Text Segmentation)模型是在TLT-TS 的基礎(chǔ)上增加了一個文本連貫性輔助任務(wù)模塊,即對模型預(yù)測的分割結(jié)果進(jìn)行“破壞”(隨機(jī)打亂順序或替換其中的句子),再對正確的文本序列和“破壞”后的文本序列進(jìn)行回歸運(yùn)算,進(jìn)而通過損失優(yōu)化得到可預(yù)測出更具備連貫性的分割結(jié)果的模型。表2 數(shù)據(jù)顯示,在Wikicities 數(shù)據(jù)集上,僅相較于CATS(增加了文本連貫性輔助任務(wù))而言,TS-GCN(未增加任何輔助模塊)的表現(xiàn)稍有不足,但仍比CATS 的基礎(chǔ)模型TLT-TS的分割指標(biāo)低0.08 個百分點(diǎn),原因在于Wikicities 數(shù)據(jù)集能夠更好地適配該文本連貫性輔助任務(wù)模塊;而在Wikielements 數(shù)據(jù)集上,相較于CATS 和TLT-TS,TS-GCN 的評價指標(biāo)分別下降了0.38 個百分點(diǎn)和2.30 個百分點(diǎn),優(yōu)于其他所有基線模型,達(dá)到了SOTA 的效果,這也說明了該文本連貫性輔助任務(wù)在Wikielements 數(shù)據(jù)集上的作用不夠明顯。表2 數(shù)據(jù)表明,無監(jiān)督模型的分割效果普遍弱于有監(jiān)督模型。4 個有監(jiān)督模型在Wikicities 數(shù)據(jù)集上的分割效果幾乎持平;但WIKI-727K 模型在Wikielements 數(shù)據(jù)集上的結(jié)果與其他3 個監(jiān)督模型的差距較大;而TS-GCN 在兩個數(shù)據(jù)集上的表現(xiàn)比其他有監(jiān)督模型更為穩(wěn)定。這表明TS-GCN 提供了比其他對比有監(jiān)督模型更穩(wěn)健的域轉(zhuǎn)移能力,具有應(yīng)對更多主題類型的文本分割任務(wù)的實(shí)力。

      表2 文本分割任務(wù)中不同模型的Pk值對比 單位:%Tab.2 Comparison of Pk value among different models for text segmentation task unit:%

      3.4.2 案例分析

      本節(jié)將分割結(jié)果可視化來對模型效果進(jìn)行評估分析。從Wikicities 的測試集中隨機(jī)選取第42 篇文檔中關(guān)于濟(jì)南市的樣本文本段來進(jìn)行案例研究,人工標(biāo)注與模型預(yù)測結(jié)果如圖5 所示。其中:ref 指人工標(biāo)注的分割結(jié)果,hyp(TS-GCN)與hyp(WIKI-727K)指分別通過TS-GCN 和WIKI-727K 模型獲得的預(yù)測分割結(jié)果。

      圖5 顯示,hyp(TS-GCN)與ref 并不完全一致,具體原因分析如下。

      1)當(dāng)文本中的自然段之間有很強(qiáng)的依賴性時,文本分割較為棘手,如圖5 中第3 段與第4 段之間的邊界丟失問題。圖6 中展示的第3 段內(nèi)容是“濟(jì)南市被劃分為146 個鎮(zhèn)級分區(qū),包括65 個鎮(zhèn)、27 個鄉(xiāng)和54 個街道”,第4 段講述的是地理信息,而第5 段開始講述濟(jì)南市的歷史。第4 段與第3 段之間的關(guān)聯(lián)度高于與第5 段的關(guān)聯(lián)度,因此模型更容易把第4段和第3 段劃分到同一文本塊中,而非將其單獨(dú)作為一個文本塊。

      圖5 Wikicities文本片段的TS-GCN和WIKI-727K模型的分割結(jié)果與人工標(biāo)注結(jié)果的對比Fig.5 Comparison of segmentation results among TS-GCN and WIKI-727K models with manual annotation results for Wikicities text fragments

      圖6 Wikicities中濟(jì)南文檔的第3、4和5自然段Fig.6 The third,fourth and fifth paragraphs of Jinan document in Wikicities

      2)當(dāng)自然段屬于同一文本塊但子主題關(guān)聯(lián)性不強(qiáng)時,也會造成一些誤判情況。如圖7 所示,雖然第11 段與第12 段都屬于經(jīng)濟(jì)模塊,但第11 段描述的是濟(jì)南市的勞動力資源,且著重介紹了市內(nèi)學(xué)校和學(xué)生的情況,而第12 段是濟(jì)南市的生產(chǎn)業(yè)情況。由于這兩個自然段內(nèi)的詞匯語義等信息距離較遠(yuǎn),模型很容易判斷兩個自然段之間含有1 個分割邊界。

      圖7 Wikicities中濟(jì)南文檔的第11和12自然段Fig.7 The eleventh and twelfth paragraphs of Jinan document in Wikicities

      雖然上述兩種現(xiàn)象未能涵蓋所有的問題案例,但作為分割的難點(diǎn),這些現(xiàn)象在文本分割任務(wù)中普遍存在,也是未來文本分割任務(wù)的重點(diǎn)研究內(nèi)容。就目前的研究進(jìn)展而言,TS-GCN 已經(jīng)達(dá)到了較高的分割水平。如圖5 所示,對相同的一段文本進(jìn)行分割,TS-GCN 的分割結(jié)果比WIKI-727K 更為精準(zhǔn),miss 和false alarm 情況更少。

      3.4.3 不同預(yù)訓(xùn)練詞向量結(jié)果分析

      表3 展示了TS-GCN 模型在3 種預(yù)訓(xùn)練詞向量下的分割結(jié)果,以驗(yàn)證不同詞向量對于模型效果的影響。

      表3 不同預(yù)訓(xùn)練詞向量下的分割結(jié)果 單位:%Tab.3 Segmentation results under different pre-training word vectors unit:%

      表3 中的數(shù)據(jù)表明,針對本文中所采用的Wikicities 和Wikielements 數(shù)據(jù)集,wiki-news-300d 詞向量在TS-GCN 模型上的效果優(yōu)于GloVe-300d 與crawl-300d。其原因在于:1)相較于包含了fastText 在Common Crawl(超過7 年的網(wǎng)絡(luò)爬蟲數(shù)據(jù)集)上訓(xùn)練的200 萬個詞向量的crawl-300d,wiki-news-300d 是基于2017 年維基百科、UMBC webbase 語料庫和statmt.org 新聞數(shù)據(jù)集訓(xùn)練的詞向量,因此更多地獲取到了關(guān)于維基百科的語義關(guān)系;2)相較于GloVe-300d,wiki-news-300d 使用了16B 個單詞來進(jìn)行訓(xùn)練,而GloVe-300d 只使用了6B,因此wiki-news-300d 能對Wikicities 和Wikielements 數(shù)據(jù)集中的詞匯進(jìn)行更為準(zhǔn)確的表征。

      因此,本文實(shí)驗(yàn)采用了wiki-news-300d 預(yù)訓(xùn)練詞向量以達(dá)到更準(zhǔn)確的分割效果。

      3.4.4 GCN層數(shù)對比分析

      由于GCN 只能聚合一階鄰居的特征,但較少的GCN 層數(shù)會導(dǎo)致模型無法獲取到遠(yuǎn)距離的節(jié)點(diǎn)特征,無法獲得更為宏觀的圖信息,所以通常會采用多層GCN 的結(jié)構(gòu)來進(jìn)行信息匯聚。然而,隨著網(wǎng)絡(luò)層數(shù)和迭代次數(shù)的增加,同一連通分量內(nèi)的節(jié)點(diǎn)表征會趨向于收斂到同一個值。因此,本文通過實(shí)驗(yàn)驗(yàn)證了GCN 層數(shù)對模型的分割性能的影響。

      圖8 展示了不同GCN 層數(shù)下的TS-GCN 模型所產(chǎn)生的Pk值。從圖8 中可以看出:

      圖8 不同GCN層數(shù)的分割結(jié)果對比Fig.8 Comparison of segmentation results with different GCN layers

      1)最小的Pk值對應(yīng)的是兩層堆疊的GCN,Pk值隨著層數(shù)的增加而增加。當(dāng)只有1 層GCN 時,模型只能聚合到一階鄰居特征,導(dǎo)致節(jié)點(diǎn)聚合的信息量不足,不能對節(jié)點(diǎn)進(jìn)行有效地聚合和分類。當(dāng)GCN 層數(shù)增加到2 時,第1 層用于將節(jié)點(diǎn)特征映射為節(jié)點(diǎn)隱層狀態(tài),第2 層用于將節(jié)點(diǎn)隱層狀態(tài)映射為相應(yīng)的輸出,Pk值達(dá)到最低點(diǎn)。隨著層數(shù)不斷增加,節(jié)點(diǎn)特征不斷聚合直至收斂,而不能表示出所需要的局部結(jié)構(gòu)特征,導(dǎo)致模型無法對節(jié)點(diǎn)進(jìn)行有效區(qū)分。

      2)層數(shù)不超過3 時,Wikielements 數(shù)據(jù)集上的Pk值低于Wikicities;當(dāng)層數(shù)大于3 時,Wikielements 的Pk值陡增至接近50,Wikicities 的Pk值雖有上升趨勢,但整體上升幅度并不大。原因在于Wikielements 的數(shù)據(jù)量比Wikicities 小很多,更容易產(chǎn)生過擬合現(xiàn)象,因此層數(shù)越多更容易加快節(jié)點(diǎn)表征的收斂。

      3.4.5 注意力可解釋性分析

      TS-GCN 模型在構(gòu)建文本的邏輯關(guān)系時引入了語義相似性注意力,取得了較好的分割效果。表4 展示了不采用注意力和采用不同注意力計算方法后的分割結(jié)果,以驗(yàn)證它對于TS-GCN 的作用效果。

      表4 不同注意力計算方法下的分割結(jié)果 單位:%Tab.4 Segmentation results of different attention calculation methods unit:%

      為了證明在本文模型中引入注意力的重要性和有效性,進(jìn)行了未采用注意力的對比實(shí)驗(yàn),將文本塊中的每兩個自然段之間的權(quán)重記為1,即可直接加強(qiáng)文本塊內(nèi)兩兩自然段間的相關(guān)度。并且,在不同注意力的效果對比方面,引入了基于歐氏距離的注意力,計算過程如式(11)所示。其中:dist(i,j)為自然段i和自然段j之間的歐氏距離,計算過程如式(12);dist_sum(i)為自然段i與其對應(yīng)文本塊中所有自然段之間的歐氏距離總和。語義相似性注意力計算過程見式(5)。

      實(shí)驗(yàn)結(jié)果表明:1)采用不同的注意力計算方法下的分割效果均優(yōu)于不采用注意力,證明了注意力在文本分割任務(wù)中的重要性;2)在向量空間中,歐氏距離注意力側(cè)重于向量的大小,而本文所采用的語義相似性注意力更關(guān)注向量的方向。在同樣引入注意力的情況下,語義相似性注意力取得的分割效果最佳。

      4 結(jié)語

      本文結(jié)合文本分割任務(wù)的定義和特點(diǎn),針對現(xiàn)有分割模型提取文本段落結(jié)構(gòu)信息、語義相關(guān)性及上下文交互等細(xì)粒度特征的不足,提出了一種基于圖卷積網(wǎng)絡(luò)的文本分割模型TS-GCN。該模型融合了文本的結(jié)構(gòu)信息和語義邏輯,利用圖卷積網(wǎng)絡(luò)來對文本進(jìn)行分割預(yù)測;通過在Wikicities 和Wikielements 兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了TS-GCN 模型的有效性;但同時也存在一些可進(jìn)行延伸研究的方面,例如對于更細(xì)粒度層面的分割還需要進(jìn)行進(jìn)一步的研究。在接下來的研究中,將會引入更適用于文本分割任務(wù)的注意力,進(jìn)而提高模型提取節(jié)點(diǎn)表征的能力。

      猜你喜歡
      自然段注意力語義
      讓注意力“飛”回來
      語言與語義
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      美麗的秋天
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      畫畫
      語義分析與漢俄副名組合
      许昌县| 呼伦贝尔市| 思茅市| 航空| 中方县| 镇康县| 剑川县| 津南区| 义乌市| 霍州市| 肇州县| 嵊泗县| 淄博市| 资兴市| 福清市| 苏州市| 江西省| 惠安县| 抚顺县| 昌江| 汝阳县| 闵行区| 河间市| 武汉市| 剑阁县| 日照市| 交城县| 晋城| 彰化市| 勐海县| 土默特右旗| 开远市| 连云港市| 浦县| 且末县| 宜丰县| 中江县| 抚顺市| 农安县| 神农架林区| 台中县|