譚紅葉,趙紅紅,李 茹
(1.山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006; 2.山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
面向閱讀理解復(fù)雜問題的句子融合
譚紅葉1,2,趙紅紅1,李 茹1,2
(1.山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006; 2.山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
閱讀理解是目前NLP領(lǐng)域的一個研究熱點。閱讀理解中好的復(fù)雜問題解答策略不僅要進行答案句的抽取,還要對答案句進行融合、生成相應(yīng)的答案,但是目前的研究大多集中在前者。該文針對復(fù)雜問題解答中的句子融合進行研究,提出了一種兼顧句子重要信息、問題關(guān)聯(lián)度與句子流暢度的句子融合方法。該方法的主要思想為:首先,基于句子拆分和詞重要度選擇待融合部分;然后,基于詞對齊進行句子相同信息的合并;最后,利用基于依存關(guān)系、二元語言模型及詞重要度的整數(shù)線性規(guī)劃優(yōu)化生成句子。在歷年高考閱讀理解數(shù)據(jù)集上的測試結(jié)果表明,該方法取得了82.62%的F值,同時更好地保證了結(jié)果的可讀性及信息量。
閱讀理解;復(fù)雜問題;句子融合;文本生成
隨著1999年文本檢索會議(TREC)[1]自動問答評測的開展,自動問答及閱讀理解技術(shù)的研究成為自然語言處理領(lǐng)域的熱點,也成為判別計算機理解人類語言的一個標(biāo)準(zhǔn)。從現(xiàn)有研究看,問答系統(tǒng)和閱讀理解涉及的問題可以分為事實型問題、列表型問題、定義型問題和復(fù)雜問題[2]。
目前閱讀理解方面的研究大多針對簡單文本和簡單問題,如微軟建立了一套面向兒童的開放域閱讀理解數(shù)據(jù)集MCTest進行相關(guān)研究[3];Facebook的bAbI項目圍繞仿真生成的20個基本文本理解和推理任務(wù)進行研究[4]。近幾年,隨著日本國立情報學(xué)研究所“Todai機器人”項目*http://21robot.org/的推出,面向真實世界復(fù)雜問題的閱讀理解研究成為熱點,如NTCIR在2013年推出現(xiàn)實世界復(fù)雜問答的測評*http://research.nii.ac.jp/qalab/;CLEF繼QA4MRE之后開展了高考閱讀理解答題評測;2015年我國也開展了“基于大數(shù)據(jù)的類人智能關(guān)鍵技術(shù)與系統(tǒng)”項目的研究*http://network.chinabyte.com/12/13482012.shtml。這些測評及項目中涉及的復(fù)雜問題包含大量主觀題,其特點是需要深層理解文本、綜合各類信息才能正確回答,且答案可能不止一個版本。
目前復(fù)雜問題解答的研究大多集中在答案句的抽取[5-7],但是直接將抽取的答案句作為答案,會導(dǎo)致答案中存在冗余或與問題不相關(guān)的信息。因此,如果想要準(zhǔn)確地回答問題,還必須對候選答案句進行句子融合,重新生成答案文本,如表1所示的問題解答示例。因此,在復(fù)雜問題的解答中有必要進行文本生成或句子融合的研究。
表1 問題、答案句集及參考答案示例
常見的生成文本的方法有基于壓縮(Compression-based)的方法和基于生成(Abstraction-based)的方法。Compression-based的方法通過刪除句子中一些冗余的詞或短語來改進生成的文本[8-14],但該方法主要針對單個句子,沒有考慮多個句子間存在的冗余信息。Abstraction-based的方法與人生成文本的過程較相似,對不同的句子使用刪除、融合、改寫等策略得到一個新句子。句子融合是典型的基于生成的方法,目前對句子融合的研究大多針對多文檔摘要[15-17],基本思路是:首先根據(jù)相似度構(gòu)造多個句子集,然后將每個句子集中的句子融合為一個新句子。其特點是:待融合的句子相似度高、冗余信息多;句子融合中詞語重要性的度量主要基于句子本身來考慮;句子融合的流暢度通過語言模型或依存關(guān)系進行考慮。
本文面向閱讀理解中的復(fù)雜問題進行句子融合研究,與上述句子融合的不同之處體現(xiàn)在:(1)待融合的句子大都是隱含意義豐富的復(fù)雜句,句子的冗余信息及重要信息都難以辨別,因此冗余信息的去除及重要信息的選擇比多文檔摘要難度更大; (2)需要結(jié)合問題來確定詞語的重要程度。
此外,本文認(rèn)為閱讀理解問答中理想的句子融合應(yīng)該滿足:每個句子的重要信息都能保留,且與問題緊密相關(guān),同時句子流暢度好。因此本文提出一種兼顧句子重要信息、問題關(guān)聯(lián)度與句子流暢度的句子融合方法。該方法的主要思想為:(1)根據(jù)多個特征計算詞重要度,在詞重要度中考慮問題關(guān)聯(lián)度; (2)基于句子拆分選擇待融合部分。將句子集中的每個句子使用句法分析拆分成簡單句,然后根據(jù)詞的重要度估計每個簡單句的重要度,將得分最高的簡單句作為待融合部分; (3)基于詞對齊考慮句子的關(guān)聯(lián),合并多個句子的相同信息,保留不同信息; (4)結(jié)合依存關(guān)系、二元語言模型及詞重要度三方面的信息形成整數(shù)線性規(guī)劃策略來優(yōu)化簡單融合后的句子,其中依存關(guān)系可以保證句子的主要成分沒有缺失,語言模型可以保證句子的流暢度,詞重要度可以保證重要信息的保留。通過在歷年高考閱讀理解數(shù)據(jù)集上進行測試,實驗表明,本文所提句子融合策略取得了82.62%的F值。
本文的貢獻主要有:提出了閱讀理解中詞重要度的衡量指標(biāo),并將詞重要度與問題相關(guān)聯(lián);提出用句子拆分的方法選擇重要信息,去除閱讀理解中難以辨別的冗余信息;將依存關(guān)系與語言模型相結(jié)合形成整數(shù)線性規(guī)劃方案進行句子優(yōu)化,更好地保證句子的可讀性及信息量。
本文主要利用Abstraction-based的方法進行句子融合,因此著重對此類相關(guān)工作進行闡述。Abstraction-based方法的基本思路是對多個句子采用一定的策略有效去除冗余信息,保留重要信息,然后得到一個新句子?;谶@種思想的研究可以分為兩類:詞或短語到句子的生成、句子到句子的生成。
詞或短語到句子的生成是以詞或短語為基本生成單元,通過詞的添加生成新句子的方法。Wan et al提出一種根據(jù)一些輸入的詞生成一個新句子的全局修正的方法,他們把新句子的生成問題看作最大生成樹的創(chuàng)建問題,用依存關(guān)系連接詞或短語,生成過程中用了一系列硬性約束來限制語法合法性,但該方法的問題是語料中的依存關(guān)系有可能不符合當(dāng)前語境[18]。Bing和Li所提方法采用的語言粒度比較粗,是通過句法分析抽取出其中的動詞短語VP、名詞短語NP作為基本生成單元,之后通過最大化句子中的信息量選擇并整合NP、VP短語,最大化過程中加入了一些約束,比如NP與VP是一對多的關(guān)系,代詞必須刪除,句子長度的限制等[19]。
句子融合又稱為句子到句子的生成,一般通過刪除句子中的詞達到融合的目的。句子融合的概念最初由Barzilay和McKeown于2005年在多文檔文摘研究中提出,他們將句子融合定義為得到一個簡潔流暢的,能夠反映所有句子共同信息的融合句,其目的是得到相關(guān)句子的公共信息,從而反映多文檔摘要中的重要信息。他們所提句子融合的思想是首先通過對齊語法解析樹得到需要融合的片段;然后選擇包含這些片段最多的一個句子,刪除其中的信息或添加其他句子中的信息,得到一個融合的網(wǎng);最后基于語言模型最優(yōu)化,生成一個新句子[15]。之后,Marsi和Krahmer進一步提出句子融合不僅要得到句子的公共信息,同時還要保留待融合句子間的不同信息,他們也用語言模型得到最優(yōu)句子,但該方法無法解決詞序問題[16]。Filippova和Struber分析句子集中每個句子的依存樹,對齊依存樹得到一個依存圖,然后用基于依存關(guān)系的整數(shù)線性規(guī)劃壓縮依存圖,從而得到一個新的句子,通過GermaNet和維基百科檢驗語義兼容性[17]。Ganesan等融合冗余信息多的觀點數(shù)據(jù)得到簡潔的觀點摘要,具體方法是首先通過將各評論中的詞對齊構(gòu)造一個圖,然后根據(jù)冗余、子序列、可折疊三個屬性選擇圖中的子路徑,并對其打分生成候選摘要[20]。
現(xiàn)有的句子融合的方法都是面向英文多文檔摘要的,漢語中關(guān)于生成的研究大多仍是基于抽取的方法[21-22],即簡單地將抽取到的相關(guān)句按照某種策略排序后得到的線性序列作為最終的生成文本。
句子融合是將句子集中的多個句子整合為一個新句子的過程,其核心環(huán)節(jié)為重要詞的保留、多余詞的刪除,其中需要考慮冗余的去除、詞語的兼容性、句子的完整性、信息的豐富性多種因素。因為閱讀理解中的句子復(fù)雜多變,隱含意義豐富,句子間的語義鴻溝較大,因此閱讀理解中的句子融合難度較大,會產(chǎn)生以下問題。
(1) 冗余信息難以識別。如表1所示,答案句集的句子①中前半句“種梅,賞梅,寫梅,畫梅”與后半句“梅深入到人們生活的各個角落”表達的是相同的意思,但是從字面上無法判別這兩部分是冗余信息,句子②、③、④中同樣存在冗余信息難以識別的問題。
(2) 待融合部分的確定。同樣以表1句子集中句子①為例,假設(shè)已經(jīng)識別出前后兩部分屬于冗余信息,那么將哪部分作為待融合部分同樣是一個需要考慮的問題。
(3) 多信息的融合。確定了待融合部分后,多個待融合部分間可能仍含有冗余信息,其融合也是一個難點。
為了解決這些問題,本文提出面向閱讀理解復(fù)雜問題的句子融合方法,其基本框架是:首先將一個復(fù)雜句拆分成多個簡單句,并度量每個簡單句的重要度,選出其中最重要的一個簡單句作為待融合部分;然后用詞對齊考慮句子關(guān)聯(lián)把多個待融合部分合為一個句子;最后用基于依存關(guān)系、語言模型及詞重要度的整數(shù)線性規(guī)劃進行優(yōu)化,得到最終融合的句子。
3.1 選擇待融合部分
句子融合中需要考慮冗余的去除及重要信息的選擇,本文用句子拆分的方法,以拆分后的簡單句為單位粗粒度進行信息的刪選,同時設(shè)定了詞重要度的衡量指標(biāo),對句子拆分后的簡單句進行信息的度量,選擇最重要的簡單句作為待融合部分。
3.1.1 句子拆分
由于中文句子很復(fù)雜,抽取出的句子中往往含有冗余或者不重要的信息,所以需要對信息進行刪選。通過觀察發(fā)現(xiàn),這些冗余信息往往具有并列、平行、連謂等結(jié)構(gòu),其句法結(jié)構(gòu)相似、表達的意思相同,因此本文從句法結(jié)構(gòu)出發(fā),用句子拆分的方法將一個復(fù)雜句拆分成多個簡單句粗粒度的選擇待融合部分。
句子拆分的具體過程為:首先使用Stanford Parser*http://nlp.stanford.edu/software/lex-parser.shtml,參見文獻[23]對一個復(fù)雜句進行分析,得到其句法分析樹,然后對每個節(jié)點統(tǒng)計其孩子節(jié)點類型,如果其孩子節(jié)點中某一類型重復(fù)出現(xiàn)n次,則可以將該節(jié)點根據(jù)重復(fù)出現(xiàn)的節(jié)點類型分解為n個子句。分解動作只做一次,因為過多的分解會使拆分后的子句過于簡單,造成信息的損失。
圖1 復(fù)雜句的句法分析樹
以圖1為例,第四層中的NP節(jié)點的孩子節(jié)點類型CP重復(fù)出現(xiàn)兩次,因此可以將句子根據(jù)這一信息拆分為以下兩個句子,“梅花是被中國人掛在墻上,捧在手上,供在心里的一種花”、“梅花是深入靈魂和血液的一種花”,可以發(fā)現(xiàn),兩個句子的語義都是完整的。而更底層的VP節(jié)點同樣也有這一特征,但是根據(jù)前面的約束,對其不做任何操作。
3.1.2 待融合部分的重要度評價
對復(fù)雜句拆分之后,需要選擇合適、重要的簡單句作為待融合部分,其重要度的度量是通過詞重要度的綜合得到的。
本文根據(jù)以下特征衡量詞的重要度。
(1) tf-idf特征:該特征是基于句子的wi的tf-idf值,將其值記為α(wi),具體按照式(1)計算。
(1)
(2) 情感詞特征:散文等文學(xué)作品很多時候是借景抒情、托物言志,通過描寫景物來傳達作者的情感,因此情感詞尤為重要。例如,“梅花是中國最美的花”,其中“美”是一個情感詞,表達了作者對梅花的喜愛和贊美之情。因此本文認(rèn)為情感詞的重要度的權(quán)重需要加大。如果詞wi是情感詞,則詞重要度值增加β(wi)。情感詞的判斷是根據(jù)hownet*http://www.keenage.com/中詞的S_C屬性。
(3) 問題關(guān)聯(lián)度特征:一般情況下,詞與問題的關(guān)聯(lián)度越大,該詞越重要。本文中詞wi與問題Q的關(guān)聯(lián)度由詞wi與Q中除停用詞之外的每個詞qj的相似度衡量,使用word2vec*http://Code.google.com/p/word2vec/將詞表示成詞向量的形式,用向量的余弦相似度計算詞的相似度。wi與qj的相似度記為cos(wi,qj),取其最高值作為詞wi與問題Q的關(guān)聯(lián)度,記為γ(wi,Q),具體如式(2)所示。
(2)
基于上述特征,在特定問題Q下,詞wi的重要度按照式(3)計算。
I(wi,Q)=aα(wi)+bβ(wi)+cγ(wi,Q)
(3)
待融合部分s的重要度按照式(4)計算。
(4)
3.2 基于詞對齊的句子融合
多個待融合部分的初步融合可以通過詞對齊實現(xiàn)。詞是句子最基本的構(gòu)成單元,通過詞對齊可以將冗余信息減少到最低,同時,其他有用信息也可以完整地保留下來。
詞對齊的過程是先將詞表示為帶句法路徑信息的詞,比如圖2中的“梅花”,其句法信息表示為“ROOT-IP-NP-NR”。然后詞的對齊可以根據(jù)以下規(guī)定進行:
(1) 兩個詞完全相同,并且詞的句法信息相同;
(2) 兩個詞是近義詞,并且詞的句法信息相同。
其中,近義詞根據(jù)“哈工大社會計算與信息檢索研究中心同義詞詞林?jǐn)U展版”的第五級進行判斷。融合中需要注意的一個詞是“的”,由于“的”之后限定的詞可能會不同,所以不能將滿足規(guī)定的“的”進行融合,否則,會使句子混亂。
詞對齊之后,兩個對齊詞的中間信息按照線性序列排列即可。如圖2(a)、圖2(b)中,能對齊的詞只有“梅花”及標(biāo)點符號“?!?,中間信息按照線性序列排列,得到對齊后的句子為“梅花是深入靈魂和血液的一種花,有幾千年的栽培史?!逼渲袠?biāo)點符號“,”是對齊過程中加入的。
圖2 簡單句的句法分析樹
3.3 句子生成
詞對齊融合后的句子有時存在多余信息,同時流暢度不夠,因此需要進一步處理。本文使用整數(shù)線性規(guī)劃思想,將句子生成問題看做優(yōu)化問題,即優(yōu)化目標(biāo)是使句子可讀性及重要度最大化。目標(biāo)函數(shù)中綜合了依存關(guān)系、語言模型及詞重要度三種因素,其中句子可讀性通過詞的依存關(guān)系概率及二元語言模型概率進行決策,句子重要度通過詞重要度進行決策。
目標(biāo)函數(shù)如式(5)所示。
(5)
其中,wi表示第i個詞,P(di|hi) 表示依存關(guān)系概率,hi表示依存關(guān)系中wi的父親節(jié)點詞,di表示hi與wi的依存關(guān)系類型;P(wj|wi)表示二元語言模型。
δ(wi)、η(wi,wj)分別由依存關(guān)系、語言模型決定,其取值如式(6)、式(7)所示。
其中,i=0時wi表示句子的開始標(biāo)志,j=n+1時wj表示句子的結(jié)束標(biāo)志。
整數(shù)線性規(guī)劃的約束如下:
(1) 句子起始約束:以下兩個約束保證一個句子中必須有一個詞作為開始詞,同時,必須有一個詞作為結(jié)束詞。如式(8)、式(9)所示。
(2) 語言模型連通性約束:式(10)保證語言模型中每個詞都有后繼詞,同時每個詞都有前驅(qū)詞。
?k∈[1..n]
(10)
(3) 依存關(guān)系的連通性約束:式(11)表示詞wi如果保留,則其父親節(jié)點詞hi也保留,以此保證依存關(guān)系的連通性。
δ(wi)-δ(hi)≤0,?i∈[1..n]
(11)
(4) 語言模型、依存關(guān)系一致性約束:語言模型詞的保留與依存關(guān)系中詞的保留一致。如式(12)所示。
?k∈[1..n]
(12)
(5) 語義完整性約束:保證句子主要成分,即主、謂、賓,必須保留。其中,di=HED時表示詞wi是依存關(guān)系中的核心詞,di=SVB時表示詞wi是核心詞的主語,di=VOB時表示詞wi是核心詞的謂語,如式(13)所示。
δ(wi)=1,?di∈{HED,SVB,VOB}
(13)
本文具體實現(xiàn)時采用了開源整數(shù)線性規(guī)劃代碼*https://sourceforge.net/projects/lpsolve/,利用哈爾濱工業(yè)大學(xué)LTP*http://www.ltp-cloud.com/進行依存分析。
4.1 實驗過程
實驗過程中word2vec的訓(xùn)練及P(di|hi)、P(wj|wi)的估計都是基于網(wǎng)絡(luò)爬取的大規(guī)模文本數(shù)據(jù)。由于本文面向的是文學(xué)作品的閱讀理解,且word2vec訓(xùn)練得到的詞向量對訓(xùn)練語料的依賴性很強,因此我們下載了近七萬篇文學(xué)作品,規(guī)模為416MB,來進行相關(guān)參數(shù)的估計。詞重要度中的參數(shù)在實驗中經(jīng)過多次測試后,最終設(shè)定為β(wi)=0.1,a=0.8,b=0.1,c=0.1。
本文的目標(biāo)是復(fù)雜問題的解答,所以選擇北京市近11年的語文高考試題進行測試,其中涉及到句子融合的復(fù)雜問題有20道,在該數(shù)據(jù)上進行的實驗記作實驗一。該實驗中的句子融合是基于正確的答案句子集進行。
由于實驗一中的相關(guān)數(shù)據(jù)及問題比較少,為了驗證本文方法的有效性,我們設(shè)計了另一組實驗,記作實驗二。一般來說,文章中每個自然段是一個獨立的短文本,段中各句互相關(guān)聯(lián),且其主題與文章題目相關(guān)?;谠撚^察,實驗二為:將每個文章中的每個自然段落作為一個句子集,文章題目作為問題,然后對每段中的句子做句子融合。共收集了135篇文章,每篇文章平均有十個段落,相當(dāng)于對1 350個句子集進行句子融合。
4.2 結(jié)果及分析
目前國際上還沒有專門針對句子融合的自動評測方法。文獻[17]中使用人工評測的方法,從可讀性及信息量兩個方面評價句子融合結(jié)果。參照文獻[17],本文采用人工評測的方法,從可讀性及信息量兩個方面對句子融合結(jié)果進行打分,分值為1—5。這里的信息量表示與問題相關(guān)的程度。實驗中由三名標(biāo)注者從這兩個評測方面對句子融合結(jié)果打分,最后取平均值作為評測結(jié)果。另外,本文還借鑒了文獻[14]中句子壓縮的評測方法:首先人工對句子集中的每個詞打標(biāo)簽,1表示該詞應(yīng)該保留,否則表示刪除,然后將人工標(biāo)注結(jié)果與句子融合結(jié)果相對比,最后基于準(zhǔn)確率、召回率計算得到F值來評價實驗結(jié)果。標(biāo)注者對7 267個詞標(biāo)注的結(jié)果顯示,兩兩標(biāo)注的一致性最高為84.07%,說明句子融合任務(wù)較困難。
本文實現(xiàn)了一個類似文獻[17]的方法作為Baseline1,即首先將句子集表示成依存圖,然后用基于依存句法的整數(shù)線性規(guī)劃壓縮依存圖,生成新的句子,其中考慮了依存關(guān)系連通性約束及語義完整性約束,該方法是目前所查文獻中最具代表性的句子融合方法。其中詞的重要度通過tfidf值計算,因為在單篇文章中,tfidf值更能顯示出詞之間的差異性。另外,為了去除詞重要度的影響,我們將Baseline1中的詞重要度計算方法替換為本文的詞重要度計算方法,作為Baseline2。Baseline3是參考文獻[15]中的方法,基于語言模型的整數(shù)線性規(guī)劃對句子進行優(yōu)化,但詞重要度計算方法與本文所提方法一致。Baseline4是參考文獻[19]中的方法,該方法以句法分析后的名詞短語NP及動詞短語VP為基本生成單元,然后通過最大化句子重要度生成新句子。本文方法與Baseline的實驗結(jié)果如表2所示,其中實驗二是從句子融合結(jié)果中隨機抽取200句進行人工評測得到的。
表2 本文方法與Baseline對比實驗結(jié)果
本文方法與Baseline1對比可以看出,在復(fù)雜問題中本文句子融合方法的效果明顯優(yōu)于Baseline1;與Baseline2、BaseLine3對比可以看出,基于依存關(guān)系及語言模型的整數(shù)線性規(guī)劃函數(shù)比單純基于依存關(guān)系或語言模型的整數(shù)線性規(guī)劃函數(shù)效果好;Baseline4的語言粒度較粗,而本文面向的句子都是復(fù)雜句,因此該方法效果較差,容易產(chǎn)生冗余無法去除、融合效果差、語法不合理等問題。
為了評測復(fù)雜問題中詞的問題關(guān)聯(lián)度的影響,我們設(shè)計了一組去除問題關(guān)聯(lián)度特征的對比實驗,實驗結(jié)果如表3所示,可以看出,問題關(guān)聯(lián)度特征對問題的回答有重要的指示作用。
表3 去除問題關(guān)聯(lián)度的對比實驗結(jié)果
為了評價本文所提詞重要度表示方法中各項參數(shù)對實驗結(jié)果的影響,我們設(shè)計了三組對比實驗。本文方法涉及到的參數(shù)分別為:詞重要度中的tfidf特征(TI),詞重要度中的情感詞特征(SW),詞重要度中的問題關(guān)聯(lián)度特征(QR)。對比實驗結(jié)果如表4所示。
由實驗①、②、③、④可以看出,整數(shù)線性規(guī)劃目標(biāo)函數(shù)相同的情況下,詞重要度的度量對實驗結(jié)果有一定影響,包含TI、SW、QR三個特征的詞重要度度量比其它度量指標(biāo)效果好。
表4 各參數(shù)影響
綜上得知,本文方法中詞重要度的度量指標(biāo)對信息量的衡量有明顯作用,同時基于依存關(guān)系及語言模型的線性規(guī)劃也很大程度的提高了句子的流暢度,保留了句子中的重要信息。
本文實驗中存在的局限有:(1)實驗依賴于句法分析及依存分析工具,句法分析結(jié)果對句子拆分、詞對齊有重要影響,依存分析結(jié)果對整數(shù)線性規(guī)劃最優(yōu)化有重要影響,錯誤的分析結(jié)果最終會產(chǎn)生不合理的句子; (2)由于閱讀理解中語言現(xiàn)象比較復(fù)雜,經(jīng)常會出現(xiàn)很多不常見的搭配詞匯,整數(shù)線性規(guī)劃部分P(di|hi)、P(wj|wi)估計會有數(shù)據(jù)稀疏的問題,對實驗結(jié)果有一定的影響。表5是對表1中句子集融合的一個展示。
表5 句子融合示例
閱讀理解中復(fù)雜問答的研究,除了答案句抽取之外,必不可少的一項是答案的生成,針對這一難題,本文提出了句子融合的生成方法。在句子融合時,首先考慮詞語重要度的衡量指標(biāo);然后拆分待融合句,根據(jù)詞重要度從拆分得到的簡單句中選擇最重要的簡單句作為待融合部分;再用簡單的詞對齊策略融合多個句子的關(guān)聯(lián)信息;最后進行句子流暢度的考量,使用基于依存關(guān)系、語言模型及詞重要度的整數(shù)線性規(guī)劃得到最優(yōu)句。最終的實驗結(jié)果表明這種句子融合的方法效果較好。在未來的工作中,首先需要考慮具體問題的答案句集的構(gòu)建;其次在句子融合過程中,除詞對齊的策略外,應(yīng)該再考慮其它融合策略。
[1] Voorhees E M,Tice D M.Building a question answering test collection[C]//Proceeding of International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2000:200-207.
[2] 張志昌,張宇,劉挺,等.開放域問答技術(shù)研究進展[J].電子學(xué)報,2009,37(5):1058-1069.
[3] Matthew Richardson,Christopher J.C.Burges,Eric Renshaw.MCTest:A Challenge Dataset for the Open-Domain Machine Comprehension of Text[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.2013:193-203.
[4] Jason Weston,Antoine Borses,Sumit Chopra,et al.Towards AI-Complete Question Answering:A Set of Prerequisite Toy Tasks[J].Computer Science,2015.
[5] Lynette Hirschman,Marc Light,Eric Breck,et al.Deep Read:A reading comprehension system[C]// Meeting of the Association for Computational Linguistics,2002:325-332.
[6] 張志昌,張宇,劉挺,等.基于話題和修辭識別的閱讀理解why型問題回答[J].計算機研究與發(fā)展,2011,48(2):216-223.
[7] Jawad Sadek,Fairouz Chakkour,Farid Meziane.Arabic Rhetorical Relations Extraction for Answering "Why" and "How to" Questions[C]//Proceedings of International Conference on Applications of Natural Language Processing and Information Systems,2012:385-390.
[8] Kevin Knight,Daniel Marcu.Statistics-Based Summarization-Step One:Sentence Compression[C]//Proceedings of Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence.AAAI Press,2000:703-710.
[9] Nitin Madnani,Jimmy Lin,Bonnie Dorr.TREC 2007 ciQA Task:University of Maryland[C]//Proceeding of Sixteenth Text Retrieval Conference,Trec 2007,2007:214-220.
[10] K Knight,D Marcu.Summarization beyond sentence extraction:A probabilistic approach to sentence compression[J].Artificial Intelligence,2002,139(1):91-107.
[11] J Turner,E Charniak.Supervised and unsupervised learning for sentence compression[C]//Proceeding of Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2005:140-141.
[12] RT McDonald.Discriminative Sentence Compression with Soft Syntactic Evidence.[C]//Proceedings of the Conference of the European Chapter of the Association for Computational Linguistics,Proceedings of the Conference,2006.
[13] Wanxiang Che,Yanyan Zhao,Honglei Guo,et al.Sentence compression for aspect-based sentiment analysis[J].Audio Speech & Language Processing IEEE/ACM Transactions on,2015,23(12):2111-2124.
[14] Katja Filippova,Enrique Alfonseca,Carlos A.Colmenares,et al.Sentence Compression by Deletion with LSTMs[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:360-368.
[15] Barzilay,Regina,Kathleen R.McKeown.Sentence Fusion for Multidocument News Summarization[J].Computational Linguistics,2005,31(3):297-328.
[16] Marsi,Erwin,Emiel Krahmer.Explorations in sentence fusion[C]//Proceedings of the 10th European Workshop on Natural Language Generation,2010:109-117.
[17] Katja Filippova,Michael Strube.Sentence fusion via dependency graph compression[C]//Proceeding of Conference on Empirical Methods in Natural Language Processing,2008:177-185.
[18] Stephen Wan,Robert Dale,Mark Dras,et al.Global revision in summarization:Generating novel sentences with Prim’s algorithm[C]//Proceedings of the 10th Conference of the Pacific Association for Computational Linguistics,2007:26-235.
[19] Lidong Bing,Piji Li,Yi Liao,et al.Abstractive Multi-Document Summarization via Phrase Selection and Merging[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015:1587-1597.
[20] Kavita Ganesan,ChengXiang Zhai,and Jiawei Han.Opinosis:A Graph-based Approach to Abstractive Summarization of Highly Redundant Opinions[C]//Proceedings of the International Conference on Computational Linguistics,Proceedings of the Conference,2010:340-348.
[21] 王紅玲,張明慧,周國棟.主題信息的中文多文檔自動文摘系統(tǒng)[J].計算機工程與應(yīng)用,2012,48(25):132-136.
[22] 劉江鳴,徐金安,張玉潔.基于隱主題馬爾科夫模型的多特征自動文摘[J].北京大學(xué)學(xué)報:自然科學(xué)版,2014,50(1):187-193.
[23] Marie-Catherine de Marneffe,Bill MacCartney,Christopher D.Manning.Generating Typed Dependency Parses from Phrase Structure Parses[J].Lrec,2006:449-454.
Sentence Fusion for Complex Problems in Reading Comprehension
TAN Hongye1,2,ZHAO Honghong1,LI Ru1,2
(1.School of Computer and Information Technology of Shanxi University,Taiyuan,Shanxi 030006,China; 2.Key Laboratory of Ministry of Education for Computation Intelligence and Chinese Information Processing of Shanxi University,Taiyuan,Shanxi 030006,China)
Reading comprehension system is a research focus in natural language processing.In these systems,both answer extraction and sentence fusion are necessary for answering complex problems.This paper focuses on the techniques of sentence fusion for complex problems,and presents a method considering the sentence importance,the relevancy to queries and the sentence readability.This method first chooses the partsto be fused based on sentence division and word salience.Then,the repeated contents are merged by word alignments.Finally,the sentences are generated based on the integer linear optimization,which utilizes dependency relations,the language model and word salient.The experiments on reading comprehension datasets in college entrance examinations achieve an F-measure of 82.62%.
reading comprehension; complex problems; sentence fusion; text generation
譚紅葉(1971—),副教授,博士,碩士生導(dǎo)師,主要研究領(lǐng)域為中文信息處理、信息檢索。E-mail:tanhongye@sxu.edu.cn趙紅紅(1992—),碩士研究生,主要研究領(lǐng)域為中文信息處理。E-mail:1325046270@qq.com李茹(1963—),教授,博士,博士生導(dǎo)師,主要研究領(lǐng)域為中文信息處理、信息檢索。E-mail:liru@sxu.edu.cn
1003-0077(2011)00-0008-09
2016-09-15 定稿日期:2016-10-20
國家高技術(shù)研究發(fā)展計劃(863計劃)項目(2015AA015407);國家自然科學(xué)青年基金(61100138,61403238);山西省自然科學(xué)基金(2011011016-2,2012021012-1);山西省回國留學(xué)人員科研項目(2013-022);山西省高??萍奸_發(fā)項目(20121117);山西省2012年度留學(xué)回國人員科技活動擇優(yōu)項目
TP391
A