• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于神經(jīng)網(wǎng)絡(luò)的體育新聞自動(dòng)生成研究

      2018-05-04 06:46:24李浥塵王麗君
      中文信息學(xué)報(bào) 2018年3期
      關(guān)鍵詞:體育新聞腳本文檔

      李浥塵,胡 珀,王麗君

      (華中師范大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430079)

      0 引言

      體育比賽直播腳本以體育比賽中的實(shí)況數(shù)據(jù)為信息源,以網(wǎng)絡(luò)平臺(tái)為媒介,以文字形式向廣大體育愛(ài)好者及時(shí)轉(zhuǎn)播比賽實(shí)況。由于文字直播方式能為暫時(shí)無(wú)法通過(guò)傳統(tǒng)媒介觀看體育比賽的網(wǎng)民提供另一種動(dòng)態(tài)觀賞比賽進(jìn)程的方式,已逐漸成為基于視頻的體育比賽直播的有益補(bǔ)充,獲得大量網(wǎng)民的關(guān)注和參與。直播腳本通過(guò)文字方式來(lái)描繪一場(chǎng)比賽的進(jìn)展情況,隨著比賽的不斷進(jìn)行,直播腳本根據(jù)交鋒雙方的賽況實(shí)時(shí)地更新報(bào)道,增強(qiáng)用戶(hù)體驗(yàn),同時(shí)還為體育新聞?dòng)浾咛峁┑谝皇值膱?bào)道信息,幫助他們?cè)诒荣惤Y(jié)束后能據(jù)此撰寫(xiě)出高質(zhì)量的體育新聞。

      盡管當(dāng)前眾多與體育比賽有關(guān)的主流網(wǎng)站已紛紛推出實(shí)時(shí)的文字直播服務(wù)并持續(xù)更新賽況,然而截止目前為止,絕大多數(shù)基于直播腳本的體育新聞均由專(zhuān)業(yè)新聞?dòng)浾呤止ぷ珜?xiě),耗時(shí)費(fèi)力且效率低,如何根據(jù)直播腳本來(lái)自動(dòng)生成體育新聞逐漸成為近年來(lái)NLP領(lǐng)域的研究熱點(diǎn)之一,具有相當(dāng)大的挑戰(zhàn)性,其主要表現(xiàn)為以下兩方面:

      第一,直播腳本和體育新聞往往從不同的視角來(lái)描述同一場(chǎng)體育比賽。直播腳本實(shí)時(shí)更新,側(cè)重于描述比賽進(jìn)程中的各個(gè)細(xì)節(jié)。而體育新聞則更注重于提取出比賽中的關(guān)鍵部分,輔以更簡(jiǎn)潔明快的方式報(bào)道,因此如何從直播腳本中抽取出“好”的句子作為新聞候選句將是需要解決的關(guān)鍵問(wèn)題之一。

      第二,解決這個(gè)問(wèn)題目前的方法大多采取基于人工特征選擇的無(wú)監(jiān)督或有監(jiān)督機(jī)器學(xué)習(xí)方法,而這將在一定程度上限制對(duì)不同類(lèi)型體育比賽或不同領(lǐng)域體育賽事新聞生成的泛化能力和靈活性。鑒于此,如何利用體育直播文本自身的特點(diǎn)及它與對(duì)應(yīng)的體育新聞間的語(yǔ)義關(guān)聯(lián)性來(lái)達(dá)到盡可能少的人工特征依賴(lài)及良好的領(lǐng)域泛化能力是當(dāng)前迫切需要解決的難點(diǎn)問(wèn)題,也是本文的研究動(dòng)機(jī)所在。

      本文提出了一種新的自動(dòng)生成體育直播腳本所對(duì)應(yīng)的體育新聞的神經(jīng)網(wǎng)絡(luò)模型,該模型在一定程度上避免了傳統(tǒng)模型過(guò)于依賴(lài)人工選擇特征的局限性,同時(shí)還能綜合考慮腳本中句子級(jí)局部信息與全局信息,以及句子和新聞內(nèi)容間的語(yǔ)義關(guān)聯(lián)性,實(shí)現(xiàn)聯(lián)合建模下的更高質(zhì)量的體育新聞生成。在本任務(wù)公開(kāi)數(shù)據(jù)集上的初步實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的可行性和有效性。

      1 相關(guān)工作

      本研究涉及的任務(wù)與自動(dòng)文摘密切相關(guān),自動(dòng)文摘是自然語(yǔ)言處理中一個(gè)傳統(tǒng)的研究領(lǐng)域,其應(yīng)用對(duì)象主要集中在新聞和社交媒體。目前文摘的主流方法大致可分為兩類(lèi): 抽取式和生成式?,F(xiàn)階段抽取式方法相對(duì)成熟和高效,因此在本研究中我們暫將該任務(wù)作為一個(gè)抽取式摘要問(wèn)題。

      絕大多數(shù)抽取式摘要方法基于無(wú)監(jiān)督或有監(jiān)督學(xué)習(xí)。在無(wú)監(jiān)督學(xué)習(xí)方法中,基于特征的排序方法通?;诰渥拥恼Z(yǔ)義或統(tǒng)計(jì)學(xué)特征,如詞頻、句子位置、線(xiàn)索詞、標(biāo)點(diǎn)詞、詞匯鏈、修辭結(jié)構(gòu)、主題信息等[1-2]?;诰垲?lèi)的方法通常從每個(gè)子主題中選擇一個(gè)或多個(gè)具有最小冗余度和最大覆蓋度的代表句構(gòu)成摘要[3]。近年來(lái),基于圖模型的方法取得了較好的效果,LexPageRank[4]和TextRank[5]則是采用諸如PageRank和HITS的代表性方法。

      在有監(jiān)督的摘要方法中,摘要往往被當(dāng)作句子級(jí)的聚類(lèi)、回歸或序列標(biāo)注任務(wù)求解,眾多有監(jiān)督的學(xué)習(xí)算法如隱馬爾科夫模型[6]、支持向量回歸[7]、因子圖模型[8]等獲得了廣泛應(yīng)用。然而,由于有監(jiān)督的學(xué)習(xí)方法大多需要大量的標(biāo)注數(shù)據(jù),而這在很多情況下尤其是特定領(lǐng)域很難直接獲取并利用。

      本研究面向直播腳本的體育新聞自動(dòng)生成,可被視為一種特殊的自動(dòng)文摘任務(wù),目前這個(gè)領(lǐng)域的研究才剛剛開(kāi)展,近期最相關(guān)的工作之一是利用傳統(tǒng)句子特征以及任務(wù)特定特征來(lái)構(gòu)建一個(gè)有監(jiān)督的學(xué)習(xí)框架,對(duì)體育腳本中的所有句子打分,然后結(jié)合DPP(行列式點(diǎn)過(guò)程)算法去冗余和排序,生成最終的體育新聞[9]。

      其他相關(guān)工作大多集中在如何使用社交媒體如Twitter的狀態(tài)更新數(shù)據(jù)來(lái)輔助生成體育賽事的新聞[10],或使用基于實(shí)體的信息來(lái)生成體育比賽摘要[11-12]。還有少量研究利用體育視頻的集錦來(lái)生成體育比賽的梗概[13]。

      縱觀現(xiàn)有的研究,大多摘要方法適用于通用的新聞?lì)I(lǐng)域,尚未被有效應(yīng)用于特定領(lǐng)域的摘要任務(wù),如體育新聞的自動(dòng)生成。此外,絕大多數(shù)現(xiàn)有方法依賴(lài)于人工提取的小規(guī)模特征集,但由于依靠手工來(lái)選取特征往往耗時(shí)費(fèi)力、泛化性弱、調(diào)節(jié)麻煩,因此需要提出新的方法來(lái)自動(dòng)學(xué)習(xí)特征,提高體育新聞的生成質(zhì)量。

      深度學(xué)習(xí)近年來(lái)在諸多NLP任務(wù)中取得了顯著進(jìn)展,主要原因在于它能通過(guò)優(yōu)化層疊模型自動(dòng)學(xué)習(xí)更好的數(shù)據(jù)表征。一個(gè)基于查詢(xún)的抽取式文本摘要系統(tǒng)將相關(guān)性和顯著性?xún)蓚€(gè)方面合并考慮,利用深度學(xué)習(xí)可以自動(dòng)學(xué)習(xí)句子和文檔聚類(lèi)的詞嵌入,并且當(dāng)查詢(xún)給定之后,可以應(yīng)用注意力機(jī)制來(lái)模擬人類(lèi)閱讀行為[14]。還有使用條件卷積神經(jīng)網(wǎng)絡(luò)來(lái)生成摘要,條件是卷積注意力模型,用來(lái)確保每一步生成詞的時(shí)候都可以聚焦到合適的輸入上。模型僅僅依賴(lài)于學(xué)習(xí)到的特征,并且很容易在大規(guī)模數(shù)據(jù)上進(jìn)行端到端的訓(xùn)練[15]。

      由此可見(jiàn),利用深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)加強(qiáng)對(duì)直播腳本的分析,是相關(guān)研究領(lǐng)域的重要趨勢(shì)之一,這也是本文提出基于神經(jīng)網(wǎng)絡(luò)模型方案的研究動(dòng)機(jī)。

      2 基于神經(jīng)網(wǎng)絡(luò)的體育新聞自動(dòng)生成方法

      2.1 方法概述

      為了避免人工提取特征,我們提出了一種通用的神經(jīng)網(wǎng)絡(luò)模型自動(dòng)地從直播腳本中生成體育新聞。模型中綜合考慮了腳本中句子級(jí)局部信息與全局信息,以及句子和新聞內(nèi)容間的語(yǔ)義關(guān)聯(lián)性,從而實(shí)現(xiàn)聯(lián)合建模下的體育新聞?wù)?。此外,我們還嘗試了基于規(guī)則和模板來(lái)自動(dòng)生成體育新聞的標(biāo)題以突顯新聞?wù)牡年P(guān)鍵內(nèi)容。圖1描述了我們提出方法的基本流程。

      圖1 方法流程圖

      2.2 體育新聞?wù)膬?nèi)容的生成模型設(shè)計(jì)

      圖2顯示了提出的神經(jīng)網(wǎng)絡(luò)模型。

      圖2 神經(jīng)網(wǎng)絡(luò)模型

      在研究中,每一個(gè)句子均被看作詞的序列,Word2Vec模型用于實(shí)現(xiàn)詞向量表示。然后用句子中所有的詞向量構(gòu)成句子的向量表示(即句子矩陣)。此外,為了評(píng)估句子對(duì)所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的重要性,我們先將直播腳本中每個(gè)句子與給定訓(xùn)練集中對(duì)應(yīng)的體育新聞中所有句子進(jìn)行相似度比較,然后選擇最大值作為該句子的重要性得分。我們假設(shè)是如果利用提出的模型從直播腳本中抽取出來(lái)的句子都與體育新聞文本相似度高,那么基于這些句子所生成的體育新聞將更接近于標(biāo)準(zhǔn)體育新聞,從而表明我們的模型效果更優(yōu)。

      定義Msentence和Vdocument作為神經(jīng)網(wǎng)絡(luò)模型的輸入。直播腳本中的每一個(gè)句子都有一個(gè)對(duì)應(yīng)的矩陣表示Msentence。在實(shí)驗(yàn)中將表示每個(gè)詞的向量維度設(shè)置為50。

      Msentence=(Vw1,Vw2,…,Vwk),wk∈sentence,k≤20

      這里,wk表示句子的第k個(gè)詞,Vwk表示第k個(gè)詞所表示的向量,句子所表示的矩陣由20個(gè)詞的向量組成。

      將Msentence轉(zhuǎn)換為一個(gè)1 000維的向量,Vdocument表示直播腳本中所有句子向量的總和。

      (1)

      神經(jīng)網(wǎng)絡(luò)模型的輸出定義為句子的重要性得分。

      score=max{similarity(Vs,Vr)}

      (2)

      Vs表示直播腳本中的句子,Vr表示新聞中的句子。在本方法中基于gensim模塊計(jì)算句子的相似度,比較直播腳本中的每一個(gè)句子與體育新聞中的每一個(gè)句子的相似度,取直播腳本中句子所對(duì)應(yīng)相似度的最大值作為模型的輸出值。我們基于tf-idf模型創(chuàng)建相似度矩陣,將句子表示成詞的tf-idf值拼接成的向量,計(jì)算向量的余弦相似度。由于每一篇直播腳本文檔對(duì)應(yīng)兩篇體育新聞文檔(163新聞和新浪新聞),我們分別計(jì)算直播腳本句子所對(duì)應(yīng)的最大相似度得分,取兩者平均數(shù)作為最終的輸出值。

      在實(shí)驗(yàn)中,我們也嘗試基于LSI和LDA模型計(jì)算句子間的相似度,但是最后的實(shí)驗(yàn)結(jié)果表明基于tf-idf模型得到的實(shí)驗(yàn)效果最好。此外,我們也試圖將每一個(gè)句子看作一篇文檔,計(jì)算該文檔在所對(duì)應(yīng)的體育新聞的ROUGE-1的F得分,但是計(jì)算結(jié)果顯示絕大多數(shù)句子得分為0,使得神經(jīng)網(wǎng)絡(luò)模型中的輸出值過(guò)于稀疏,不利于模型的訓(xùn)練。

      本研究中神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建按照如下方式進(jìn)行: 首先,Vdocument添加一層全連接層得到一個(gè)200維度的向量。

      X(l)=f(W(l)·X(l-1)+b(l))

      (3)

      W(l)表示第l層模型的參數(shù),X(l-1)表示第l-1層的輸出,b(l)為第l層的偏置矩陣,X(l)表示經(jīng)過(guò)全連接層得到的輸出值。

      然后Msentence添加三層一維卷積層得到一個(gè)矩陣并用扁平化函數(shù)將其轉(zhuǎn)換為一個(gè)向量Vsentence。

      (4)

      接著將兩個(gè)向量每一維度相乘得到Vmul,這樣可以實(shí)現(xiàn)綜合考慮到腳本中句子級(jí)的局部信息與全局信息。

      Vmul=Vsentence·Vdocument

      (5)

      最后,Vmul添加三層全連接層得到最終的輸出結(jié)果,基于句子與新聞內(nèi)容間的語(yǔ)義關(guān)聯(lián)性實(shí)現(xiàn)了聯(lián)合建模下的體育新聞?wù)伞?/p>

      output=sigmoid(W(l)·X(l-1)+b(l))

      (6)

      這里,sigmoid是常用的非線(xiàn)性激活函數(shù),把輸入的連續(xù)實(shí)值“壓縮”到0和1之間,output即為神經(jīng)網(wǎng)絡(luò)模型的輸出值。output在模型當(dāng)中的意義為直播腳本中的每一個(gè)句子與體育新聞中的每一個(gè)句子的最大相似度得分。

      我們使用交叉熵函數(shù)作為損失函數(shù),如下所示:

      (7)

      y表示標(biāo)簽值的大小,即上文中的score所表示的值,output表示輸出的結(jié)果值。

      2.3 體育新聞標(biāo)題生成

      在本研究中,除了采用前面提出的方法自動(dòng)生成體育新聞外,還嘗試了基于規(guī)則和模板來(lái)自動(dòng)生成體育新聞的標(biāo)題以突顯新聞?wù)牡年P(guān)鍵內(nèi)容,基于模板與規(guī)則生成新聞標(biāo)題,標(biāo)題的構(gòu)成由隊(duì)伍名稱(chēng)、最終比分、重要球員表現(xiàn)三部分來(lái)構(gòu)成。

      從直播腳本中直接抽取出對(duì)陣雙方的球隊(duì),球隊(duì)名稱(chēng)集中出現(xiàn)在直播腳本的比賽介紹部分(未賽)和總結(jié)部分(完賽)。同時(shí)在比賽結(jié)束總結(jié)部分(完賽)也可提取出比賽的最終比分,由此可得隊(duì)伍名稱(chēng)以及最終比分兩部分內(nèi)容。

      例1

      本次直播給大家?guī)?lái)的是2015—2016賽季歐冠小組賽第一輪,皇馬主場(chǎng)和頓涅茨克礦工的比賽未賽 0∶0

      全場(chǎng)比賽結(jié)束,皇馬主場(chǎng)4∶0大勝頓涅茨克礦工,取得本賽季歐冠的開(kāi)門(mén)紅?。?!完賽 4∶0

      在直播文本中的比分欄實(shí)時(shí)記錄對(duì)陣雙方的比分,若某一行內(nèi)容出現(xiàn)變化,即表明在該時(shí)刻有球員進(jìn)球。新聞標(biāo)題中出現(xiàn)的重要球員往往是本場(chǎng)比賽中發(fā)揮出色的球員,因此在直播腳本中出現(xiàn)比分變化的句子中提取出重要球員的名字,統(tǒng)計(jì)重要球員的進(jìn)球數(shù),并依據(jù)進(jìn)球數(shù)量總結(jié)重要球員的比賽表現(xiàn),由此可得重要球員表現(xiàn)部分的內(nèi)容。

      例2

      本澤馬,推射空門(mén)得手!?。∩习雸?chǎng)30 1∶0

      C羅主罰,一蹴而就?。?!下半場(chǎng)11 2∶0

      C羅主罰,助跑,右腳勁射打球門(mén)左側(cè)死角,皮亞托夫判斷錯(cuò)了方向,3-0!!!下半場(chǎng)20 3∶0

      進(jìn)球啦,4-0!!!C羅的補(bǔ)射,上演帽子戲法,其中兩個(gè)點(diǎn)球 下半場(chǎng)36 4∶0

      結(jié)合以上抽取出來(lái)的隊(duì)伍名稱(chēng)、最終比分、重要球員表現(xiàn)三部分內(nèi)容生成新聞標(biāo)題,示例如下:

      例3

      皇馬4∶0頓涅茨克礦工,C羅上演帽子戲法

      3 實(shí)驗(yàn)與評(píng)估

      3.1 實(shí)驗(yàn)設(shè)置

      (1) 數(shù)據(jù)集

      為了評(píng)估本文提出的方法在體育新聞自動(dòng)生成任務(wù)上的可行性與有效性,我們采用由張建敏等于2016年首次構(gòu)建并發(fā)布的本任務(wù)開(kāi)放數(shù)據(jù)集(即acl16_sports數(shù)據(jù)集)[9]。該數(shù)據(jù)集共有450篇文檔,其中150篇文檔是直播腳本,另300篇文檔是每篇直播腳本對(duì)應(yīng)的網(wǎng)易和新浪體育新聞編輯所撰寫(xiě)的體育新聞。

      (2) 評(píng)價(jià)指標(biāo)

      在本實(shí)驗(yàn)中,我們將數(shù)據(jù)集隨機(jī)分為兩個(gè)不同的部分,其中一部分包含100篇直播腳本與其對(duì)應(yīng)的200篇體育新聞,它們被用作訓(xùn)練集,另一部分則被設(shè)為測(cè)試集。為了便于評(píng)估,使用ROUGE-1.5.5工具包[16]來(lái)比較基于腳本生成的體育新聞與新聞媒體記者撰寫(xiě)的體育新聞的內(nèi)容重疊度。作為評(píng)價(jià)指標(biāo),我們報(bào)道了ROUGE-1(R-1)和ROUGE-2(R-2)的F指標(biāo)分?jǐn)?shù)。

      (3) 比較方法

      我們使用以下的主流摘要系統(tǒng)為基準(zhǔn),與我們提出的方法進(jìn)行比較。這里,前三個(gè)系統(tǒng)是典型的無(wú)監(jiān)督摘要方法,它們直接用于每個(gè)體育比賽的直播腳本,通過(guò)提取最重要的句子來(lái)生成新聞。RF + DPP系統(tǒng)是專(zhuān)門(mén)針對(duì)該任務(wù)設(shè)計(jì)的有監(jiān)督摘要系統(tǒng),該系統(tǒng)利用直播腳本和對(duì)應(yīng)的人工編輯新聞來(lái)自動(dòng)學(xué)習(xí)生成體育新聞。

      Centroid: 是基于質(zhì)心的摘要系統(tǒng)[17],它計(jì)算文檔中一個(gè)稱(chēng)為質(zhì)心句的偽句子。質(zhì)心句由TFIDF分?jǐn)?shù)高于預(yù)定義閾值的詞組成。通過(guò)基于不同特征的得分總和: 包括句子與質(zhì)心句的余弦相似度、位置權(quán)重以及句子與首句的余弦相似度來(lái)定義每個(gè)句子的得分。

      LexRank: LexRank[4]基于句子圖表示中特征向量的中心性概念來(lái)計(jì)算句子的重要性。在該模型中,使用基于句內(nèi)余弦相似度的連接矩陣作為句子圖表示的鄰接矩陣。

      ILP: 整數(shù)線(xiàn)性規(guī)劃(ILP)方法[18]將文檔摘要看作組合優(yōu)化的問(wèn)題。ILP模型通過(guò)最大化摘要中包含的二元組概念的頻率權(quán)重的總和來(lái)選擇句子。

      RF+DPP: 將此任務(wù)看作學(xué)習(xí)排序問(wèn)題,在一個(gè)有監(jiān)督學(xué)習(xí)的框架下通過(guò)計(jì)算文檔的傳統(tǒng)特征及特定任務(wù)的特征求解[9]。

      3.2 實(shí)驗(yàn)結(jié)果

      3.2.1 對(duì)比方法

      表1給出了不同方法的實(shí)驗(yàn)結(jié)果。

      表1 不同方法的實(shí)驗(yàn)結(jié)果

      從表1中可以看到,本文提出的基于神經(jīng)網(wǎng)絡(luò)模型的方法與傳統(tǒng)的無(wú)監(jiān)督和有監(jiān)督方法相比,獲得了更好的結(jié)果。

      從實(shí)驗(yàn)結(jié)果可以看出,傳統(tǒng)的文檔摘要的方法應(yīng)用于該任務(wù)效果并不好。Centroid是一種基于中心點(diǎn)的句子抽取方法,它在賦予句子權(quán)重的過(guò)程中,綜合考慮了句子級(jí)以及句子之間的特征,但是對(duì)于本任務(wù)而言,部分特征的設(shè)置并不合理。ILP將摘要看做一個(gè)帶約束的優(yōu)化問(wèn)題,同時(shí)進(jìn)行句子抽取與冗余去除,非常適合解決多文檔摘要問(wèn)題,但是在實(shí)驗(yàn)中效果并不好。LexRank方法通過(guò)句子間的相似性為多文檔構(gòu)建句圖,使用tf與idf來(lái)衡量句子間的相似性,然而直播腳本的句子多以短句為主,實(shí)時(shí)描述比賽的進(jìn)程,反映比賽的發(fā)展過(guò)程,所以句子之間的相似度并不高。

      RF+DPP模型將文檔摘要的傳統(tǒng)特征與任務(wù)的特有特征相結(jié)合,使用概率句子選擇算法去除冗余句子。RF+DPP模型的特征驗(yàn)證表明,兩方面的特征均有利于摘要的生成,相比較而言,為該任務(wù)設(shè)定的特征如重要比賽事件、得分變化、重要球員等在句子抽取的過(guò)程中影響力更大。RF+DPP方法相較于傳統(tǒng)的文檔摘要方法取得了更好的效果,但是這個(gè)方法還是依賴(lài)于人工提取的一系列句子特征。

      我們的方法能夠達(dá)到最優(yōu)效果,其主要來(lái)自于兩個(gè)方面的原因: 第一,我們的方法是有監(jiān)督的學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)模型,以直播腳本中的句子與新聞中句子的相似度作為訓(xùn)練目標(biāo);第二,提出的方法綜合考慮了腳本中句子級(jí)的局部信息與全局信息,以及直播腳本中的句子與新聞內(nèi)容間的語(yǔ)義關(guān)聯(lián)性。此外,我們的模型沒(méi)有使用任何人工提取的句子特征來(lái)生成相應(yīng)的體育比賽新聞,不僅適用于生成足球比賽直播腳本對(duì)應(yīng)的體育新聞,也適用于其他體育比賽的領(lǐng)域,具有更好的領(lǐng)域泛化能力。

      3.2.2 錯(cuò)誤分析

      盡管實(shí)驗(yàn)結(jié)果表明我們的方法是可行且有效的,但結(jié)果集中仍然存在一些錯(cuò)誤。

      錯(cuò)誤一在直播腳本中充斥著大量短句子甚至噪聲句子,有時(shí)幾個(gè)連續(xù)的短句子描述了一個(gè)重要的事件,而當(dāng)前的模型往往不能將這部分句子抽取出來(lái),從而導(dǎo)致信息的缺失。

      例1

      皇馬進(jìn)球啦?。?! 上半場(chǎng)30 1∶0

      本澤馬,推射空門(mén)得手?。。?上半場(chǎng) 1∶0

      這些短句子描述的是比賽進(jìn)程中的重要事件,然而它們沒(méi)有被抽取出來(lái)是因?yàn)槟P驮谟?jì)算這部分句子時(shí),短句子在直播腳本文檔中影響力較小,且與體育新聞中的語(yǔ)句關(guān)聯(lián)性較低。

      錯(cuò)誤二在直播腳本中,比賽開(kāi)始之前,會(huì)有大段的篇幅介紹比賽的背景知識(shí),主要內(nèi)容包括兩支球隊(duì)各自的風(fēng)格特點(diǎn)、人員變換、球隊(duì)對(duì)陣記錄、近期狀態(tài)等。研究發(fā)現(xiàn)在我們的模型中會(huì)抽取大量直播腳本中的未賽部分的句子,由于新聞的長(zhǎng)度限制,導(dǎo)致生成的體育新聞中描述比賽重要事件的部分被壓縮,沒(méi)能提取出直播腳本中部分關(guān)鍵事件的信息。

      例2

      大家好,歡迎收看新浪體育為您帶來(lái)英超第7輪 萊斯特 VS 阿森納 未賽 0∶0

      溫格麾下的球隊(duì),技術(shù)完美,但精神力軟弱,這是足壇公論 未賽 0∶0

      本賽季阿森納是順風(fēng)球之王,對(duì)陣切爾西、水晶宮、紐卡斯?fàn)?、斯托克城、熱?戰(zhàn),阿森納先進(jìn)球,5戰(zhàn)全部取勝 未賽 0∶0

      而對(duì)陣薩格勒布、切爾西、西漢姆三戰(zhàn),阿森納先丟球,三戰(zhàn)全部落敗 未賽 0∶0

      本戰(zhàn)阿森納的對(duì)手萊切斯特則是本賽季英超“逆風(fēng)球之王” 未賽 0∶0

      雙方歷史交鋒133場(chǎng),阿森納61勝44平29負(fù) 未賽 0∶0

      阿森納近19次對(duì)陣萊斯特城取得11勝8平保持不敗 未賽 0∶0

      這些句子都是作為比賽的背景知識(shí)出現(xiàn)在直播腳本中的,然而我們的模型卻將這些句子都抽取出來(lái)作為生成的體育新聞的內(nèi)容。這部分句子與新聞的語(yǔ)義關(guān)聯(lián)度較高并具有總結(jié)性意義,同時(shí)多以長(zhǎng)句子為主,句子當(dāng)中的詞更容易同時(shí)出現(xiàn)在直播腳本的其他位置以及新聞的內(nèi)容中。

      這兩個(gè)問(wèn)題在所提出的方法中尚沒(méi)有得到很好的解決,我們將在后續(xù)的工作中重點(diǎn)解決。

      4 總結(jié)與展望

      本文研究如何從直播腳本中自動(dòng)生成體育新聞,我們將此任務(wù)作為特殊的抽取型摘要問(wèn)題,提出了一種基于神經(jīng)網(wǎng)絡(luò)的方法,以提高現(xiàn)有方法的泛化能力和靈活性。提出的方法不僅考慮到腳本中句子級(jí)的局部信息與全局信息,還考慮了句子與新聞內(nèi)容間的語(yǔ)義關(guān)聯(lián)性,從而實(shí)現(xiàn)聯(lián)合建模下的體育新聞?wù)伞3醪降膶?shí)驗(yàn)結(jié)果驗(yàn)證了我們方法的有效性,在不使用任何人工提取特征的情況下,性能優(yōu)于眾多基準(zhǔn)方法,甚至是有監(jiān)督學(xué)習(xí)的方法,達(dá)到了目前的最優(yōu)實(shí)驗(yàn)效果。

      在未來(lái)的工作中,我們將探索生成式摘要而不僅僅采用純抽取型摘要的方法,自適應(yīng)地學(xué)習(xí)適合不同領(lǐng)域的體育新聞模板,并通過(guò)引入注意力機(jī)制將腳本和新聞的多粒度上下文層次信息融入當(dāng)前的神經(jīng)網(wǎng)絡(luò)模型中。

      [1] Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1969,2(2): 159-165.

      [2] Lin C Y, Eduard H. The automated acquisition of topic signatures for text summarization[C]//Proceedings of the 17th Conference on Computational Linguistics (COLING 2000), 2000: 495-501, Association for Computational Linguistics, Stroudsburg, PA.

      [3] Nomoto T Matsumoto Y. A new approach to unsupervised text summarization[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2001), 2001: 26-34, ACM, New York, NY.

      [4] Erkan G, Radev D R. LexPageRank: prestige in multi-document text summarization[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP 2004),2004.

      [5] Mihalcea R Tarau P. TextRank: bringing order into texts[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP 2004),2004.

      [6] Conroy J M, Oleary D P. Text summarization via hidden markov models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2001), ACM, New York, NY,2001: 406-407.

      [7] You O Y, Li W J, Li S J, et al. Applying regression models to query-focused multi-document summarization[J]. Information Processing and Management, 2011, 47(2): 227-237.

      [8] Yang Z,Cai K K, Tang J, et al. Social context summarization[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2011), ACM, New York, NY, 2011: 255-264.

      [9] Jianmin Zhang, Jin-ge Yao, Xiaojun Wan. Towards constructing sports news from live text commentary[C]//Proceedings of ACL 2016, 2016.

      [10] Jeffrey Nichols, Jalal Mahmud, Clemens Drews. Summarizing sporting events using twitter[C]//Proceedings of the 2012 ACM International Conference on Intelligent User Interfaces, 2012: 189-198.

      [11] Nadjet Bouayad-Agha, Gerard Casamayor, Leo Wanner. Content selection from an ontology based knowledge base for the generation of football summaries[C]//Proceedings of the 13th European Workshop on Natural Language Generation, 2011: 72-81.

      [12] Nadjet Bouayad-Agha, Gerard Casamayor, Simon Mille, et al. Perspective-oriented generation of football match summaries: Old tasks, new challenges[C]//Proceedings of the ACM Transactions on Speech and Language Processing (TSLP), 2012,9(2): 3.

      [13] D Tjondronegoro,Yi-Ping Phoebe Chen, Binh Pham. Highlights for more complete sports video summarization[C]//Proceedings of IEEE Computer Society Press, 2004,11(4): 22-37.

      [14] Ziqiang Cao, Wenjie Li, Sujian Li. AttSum: Joint learning of focusing and summarization with neural attention[C]//Proceedings of Coling 2016.

      [15] Sumit Chopra,Michael Auli, Alexander M Rush. Abstractive sentence summarization with attentive recurrent neural networks[C]//Proceedings of NAACL 2016.

      [16] Chin-Yew Lin, Eduard Hovy. Automatic evaluation of summaries using n-gram cooccurrence statistics[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology 2003,(1): 71-78.

      [17] Dragomir R Radev, Hongyan Jing, Malgorzata Budzikowska. Centroid-based summarization of multiple documents: Sentence extraction,utility-based evaluation, and user studies[C]//Proceedings of the 2000 NAACL-ANLP Workshop on Automatic summarization, 2000: 21-30. Association for Computational Linguistics.

      [18] DanGillick, Benoit Favre,and Dilek Hakkani-Tur. The icsi summarization system at tac 2008[C]//Proceedings of the Text Understanding Conference,2008.

      猜你喜歡
      體育新聞腳本文檔
      酒駕
      有人一聲不吭向你扔了個(gè)文檔
      安奇奇與小cool 龍(第二回)
      體育新聞中的辭格運(yùn)用
      數(shù)據(jù)庫(kù)系統(tǒng)shell腳本應(yīng)用
      論體育新聞報(bào)道內(nèi)容和形式的改變
      新聞傳播(2018年12期)2018-09-19 06:26:56
      體育新聞娛樂(lè)化現(xiàn)象思考
      新聞傳播(2018年1期)2018-04-19 02:08:57
      快樂(lè)假期
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      商都县| 招远市| 亚东县| 宽甸| 织金县| 岳普湖县| 曲沃县| 湖州市| 济源市| 襄城县| 玉门市| 喀什市| 松桃| 张家川| 武乡县| 原平市| 商河县| 桑植县| 师宗县| 廉江市| 会同县| 梓潼县| 西平县| 汕头市| 西充县| 南汇区| 彭阳县| 宁明县| 汝阳县| 齐河县| 颍上县| 新晃| 兰考县| 昌宁县| 丰城市| 九龙城区| 资兴市| 平阴县| 汉中市| 绥中县| 郸城县|