關(guān) 勇,呂國英,李 茹,2,3,郭少茹,譚紅葉
(1. 山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;3. 山西省大數(shù)據(jù)挖掘與智能技術(shù)協(xié)同創(chuàng)新中心,山西 太原 030006)
閱讀理解(reading comprehension,RC)作為問答任務(wù)的一個重要分支,受到越來越多的關(guān)注[1-2]。閱讀理解式問答系統(tǒng)是從一篇給定的背景材料中查找答案,要求系統(tǒng)在“閱讀”完一篇材料后,根據(jù)對材料的“理解”給出問題的答案[3]。
高考語文閱讀理解中,背景材料相對較短且極具隱藏性,答案可能無法在背景材料中直接找到,因此,更注重考查機(jī)器對文章理解和概括的能力。高考語文閱讀理解科技文分為選擇題和問答題兩大題型。選擇題題型劃分為五種,分別為“文意理解”、“觀點支持”、“擬寫標(biāo)題”、“指代消解”和“補(bǔ)寫句子”[4]。目前,選擇題主要針對“文意理解”、“觀點支持”類題目展開研究,解答這兩類題目需要通過對與選項相關(guān)句子或片段的理解選出答案。標(biāo)題選擇題目的解答則需要對整個篇章進(jìn)行理解概括,分析標(biāo)題與篇章的相關(guān)性,進(jìn)而選出答案。
篇章標(biāo)題選擇類題目可形式化描述為: 篇章、題干和選項三元組
針對高考語文閱讀理解科技文篇章標(biāo)題選擇類題目,本文提出基于標(biāo)題與篇章要點相關(guān)性分析模型。該模型構(gòu)建了基于標(biāo)題與篇章要點的相關(guān)度矩陣(2.1節(jié)),并融入標(biāo)題結(jié)構(gòu)特征(2.2節(jié))進(jìn)一步優(yōu)化模型。在全國近10年高考真題和測試題上進(jìn)行實驗,對實驗結(jié)果進(jìn)行分析,最后對本文工作進(jìn)行總結(jié)。
表1 篇章標(biāo)題選擇題目示例
針對閱讀理解任務(wù)提出的相關(guān)技術(shù)可以分為兩種: 基于特征的方法[5-7]和基于深度學(xué)習(xí)的方法[8-11]。
基于特征的方法通常使用特征工程、語言工具、外部資源等來解決這類問題。文獻(xiàn)[3]針對高考語文閱讀理解文意理解類題型,提出一種多維度投票算法。該算法將Word2Vec、HowNet、詞袋模型、框架語義場景四個方面作為度量標(biāo)準(zhǔn),運用投票算法的思想,選取最佳答案。文獻(xiàn)[4]針對高考語文閱讀理解題干支持類題目,通過對篇章、題干、選項三者的關(guān)系進(jìn)行建模,制定聯(lián)合打分函數(shù),加入句子相似度特征、反義匹配特征、否定特征三個語義特征信息,提出基于題干與選項一致性判別模型。文獻(xiàn)[12]提出一種答案蘊含策略,把問題、正確選項和文章之間的關(guān)系用一個答案蘊含結(jié)構(gòu)表達(dá),通過模型獲得該答案蘊含結(jié)構(gòu),選出正確選項。
基于深度學(xué)習(xí)的方法主要是通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。在基于詞向量表示基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子的向量表示,然后把任務(wù)轉(zhuǎn)換成分類或排序問題。文獻(xiàn)[13]針對MCtest數(shù)據(jù)集機(jī)器理解任務(wù),構(gòu)建一個基于Attention機(jī)制的分層的卷積神經(jīng)網(wǎng)絡(luò)模型。通過對文章、問題、答案進(jìn)行建模,發(fā)現(xiàn)與回答問題相關(guān)的關(guān)鍵短語、關(guān)鍵句和關(guān)鍵片段。文獻(xiàn)[14]針對閱讀理解任務(wù)提出一個循環(huán)神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)詞和短語的向量表示進(jìn)行實體推理,用邏輯回歸分類器對篇章預(yù)測類別,類別標(biāo)簽就是問題的答案。文獻(xiàn)[15]基于分布式表達(dá)的思想,將問題與候選答案都映射到一個分布式的語義表達(dá)中,然后,基于二者的表達(dá)來學(xué)習(xí)問題與候選答案的匹配程度。
基于特征的方法需要人工構(gòu)建不同的特征,耗費大量的時間,而基于端到端的神經(jīng)網(wǎng)絡(luò)模型雖然可以自動學(xué)習(xí)特征,但是由于數(shù)據(jù)的稀疏性、問題的復(fù)雜性,效果提升不是很明顯。因此,本文結(jié)合基于特征的方法和神經(jīng)網(wǎng)絡(luò)的方法,提出標(biāo)題與篇章要點相關(guān)性分析模型。
篇章由不同的段落組成,篇章各段落涉及不同的要點內(nèi)容,標(biāo)題是對篇章中各要點內(nèi)容的高度理解概括。恰當(dāng)?shù)臉?biāo)題覆蓋篇章各個要點內(nèi)容,如何判斷標(biāo)題對各要點的覆蓋程度是解決標(biāo)題選擇題的關(guān)鍵問題。針對此問題,提出了標(biāo)題與篇章要點相關(guān)度矩陣。矩陣由選項和篇章要點相似度組成,行表示選項與各篇章要點相似度值,列表示篇章要點與各選項相似度值。根據(jù)相關(guān)度矩陣選取覆蓋篇章要點內(nèi)容最全面的一項作為最恰當(dāng)?shù)臉?biāo)題。圖1為2015年北京高考題(第三題)相關(guān)度矩陣示意圖。矩陣維度為4*5,分別表示四個選項和五個段落,顏色的深淺代表相似度值的大小,顏色越深代表相似度值越大??梢钥闯鲞x項B覆蓋篇章要點內(nèi)容最全面,為最恰當(dāng)?shù)臉?biāo)題。具體公式如式(1)、式(2)所示。
其中,Sim(Ak,Seni)表示選項Ak與篇章要點Seni的相似度值,Ak,k∈[1,n],Seni表示篇章要點,m表示篇章要點的個數(shù),Answermatrix表示選項與篇章要點相關(guān)度最高的一項。
圖1 標(biāo)題與篇章要點相關(guān)度矩陣
2.1.1篇章要點抽取
篇章要點的獲取是形成標(biāo)題與篇章要點相關(guān)度矩陣的關(guān)鍵。篇章各段落涉及不同的要點內(nèi)容,段落主旨句是段落的中心句或者主題句,具有概括段落的作用,是段落的中心所在,所以,選取段落主旨句作為篇章要點。針對篇章要點獲取問題,提出了基于相關(guān)因素的段落主旨句抽取方法。該方法對同義、上下位概念進(jìn)行歸并,同時,綜合語句所在位置、文章標(biāo)題、語句中所含重要詞匯等多種度量方式,綜合評估句子反映主題的價值,從而更精確地抽取出段落的主旨句。在文獻(xiàn)[16-17]方法基礎(chǔ)上,針對高考科技文的特點進(jìn)行了改進(jìn)。
(1) 段首、段尾句權(quán)值優(yōu)化。高考科技文的段落中,段首句或者段尾句一般是總結(jié)段落內(nèi)容的句子,所以段落的段首、段尾句包含的主題信息量比重比較大。對語句權(quán)值的調(diào)整如式(3)、式(4)所示。
其中,W(Si)表示語句的位置權(quán)值,Lnum表示段落中句子數(shù)量,j表示當(dāng)前句子在段落中的位置,W(SLnum)表示段落尾句的權(quán)值。
(2) 長句權(quán)值優(yōu)化。主旨句大多包含說明文章主題或關(guān)鍵內(nèi)容的主題概念字串,所以包含主題字串多的語句可作為主旨句。長句所包含的主題字串的數(shù)量一般要高于短句,因而長句計算出來的權(quán)值較高,因此需要減弱語句長度對權(quán)值的影響,對語句權(quán)值的調(diào)整如式(5)、式(6)所示。
選取段落中語句權(quán)值最大的語句作為段落的主旨句,語句的權(quán)值可由不同的度量方式組合得到,如式(7)所示。
(7)
其中,σ1+σ2+σ3=1,F(xiàn)(Pi,Sj)表示段落Pi的第Sj句話的語句權(quán)值,WTitle(Sj)表示第Sj句話的標(biāo)題權(quán)值。
2.1.2基于LSTM的選項與篇章要點的相關(guān)性計算
2.1.1節(jié)中,抽取了段落主旨句作為篇章要點。如何計算標(biāo)題與篇章要點的相關(guān)性是生成相關(guān)度矩陣的難點。針對該問題,提出了基于LSTM的選項與篇章要點相關(guān)性計算方法,模型如圖2所示。
基于神經(jīng)網(wǎng)絡(luò)的方法大多是在基于詞向量表示的基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子的向量表示,把任務(wù)轉(zhuǎn)換成分類或排序問題。模型結(jié)構(gòu)與文獻(xiàn)[18-19]類似。
輸入層是由篇章要點(集合SK)和選項(集合A)組成的二元組
圖2 基于LSTM的選項與篇章要點的相關(guān)性計算
LSTM層使用bi-LSTM獲取選項和篇章要點的向量表示[21]。bi-LSTM會提供給輸入序列每一個節(jié)點過去和未來的上下文信息,相對于單向LSTM來說能提供更多的特征信息。具體公式如下:
池化操作有最大池化、平均池化等,本文使用的是最大池化k-Maxpooling(k=1)方式。hsk和ha分別表示篇章要點和選項的向量表示,篇章要點和選項之間的相關(guān)性用篇章要點和選項的向量的余弦相似度表示。損失函數(shù)和文獻(xiàn)[22]類似,如式(11)所示。
(11)
其中,cos(hsk,ha+)表示文章和正確選項的相似度,cos(hsk,ha-)表示文章和錯誤選項的相似度,hsk表示篇章要點,ha+表示正確選項,ha-表示錯誤選項,Q表示閾值。訓(xùn)練集中,每條數(shù)據(jù)中只有一個正例標(biāo)題和一個負(fù)例標(biāo)題。在測試集上,每條數(shù)據(jù)中有四個候選選項,分別輸出每個選項和各個篇章要點的相似度值,形成標(biāo)題和篇章的相關(guān)度矩陣。
標(biāo)題作為讀者閱讀文章的第一項內(nèi)容,對理解文章內(nèi)容具有重要的作用。本文參考文獻(xiàn)[23-25]的分類體系,分析了5 872篇高考科技文標(biāo)題結(jié)構(gòu)和語言特點。根據(jù)高考科技文標(biāo)題的特點,制定了相應(yīng)的結(jié)構(gòu)體系,如(1)~(5)所示。具體類別比例如表2所示,其中以名詞短語結(jié)構(gòu)為主。
(1) 名詞短語+名詞短語標(biāo)題(n+n): 由一個以上的名詞短語構(gòu)成。例如,“圍棋與國家”。
(2) 動詞短語+名詞短語標(biāo)題(v+n): 由動詞和名詞短語構(gòu)成。例如,“拯救閱讀”。
(3) 名詞短語+動詞短語標(biāo)題(n+v): 由名詞和動詞短語構(gòu)成。例如,“太空行走”。
(4) 完整句子結(jié)構(gòu)標(biāo)題(s): 指從語法角度講符合句子構(gòu)成的標(biāo)題。例如,“企業(yè)家為什么越來越重視書畫文化?”。
(5) 名詞標(biāo)題(n): 由單一名詞短語或是專有名詞構(gòu)成。例如,“古琴”。
表2 標(biāo)題類別比例
對標(biāo)題結(jié)構(gòu)進(jìn)行分析統(tǒng)計,形成標(biāo)題結(jié)構(gòu)權(quán)值,如式(12)所示。
(12)
其中,F(xiàn)T(Ai)表示標(biāo)題類別為i的權(quán)值,Ki表示標(biāo)題類別為i所占的比例。
標(biāo)題具有高度歸納概括篇章內(nèi)容、結(jié)構(gòu)鮮明的特點。標(biāo)題與篇章要點相關(guān)度矩陣方法主要考慮了對篇章內(nèi)容的概括、標(biāo)題與篇章內(nèi)容的相關(guān)性分析。篇章標(biāo)題結(jié)構(gòu)分析方法主要研究了標(biāo)題的結(jié)構(gòu)特點,對標(biāo)題進(jìn)行分類。因此,將以上兩種方法進(jìn)行融合來獲得更好的實驗結(jié)果。具體如式(13)、式(14)所示。
其中,Answerfuse表示融合標(biāo)題結(jié)構(gòu)信息后最終的答案,F(xiàn)W(Ai)表示選項Ai融合標(biāo)題結(jié)構(gòu)信息后的答案。
標(biāo)題與篇章要點相關(guān)性分析模型具體思路為: 先抽取段落Pi的主旨句作為段落的要點,計算每個選項Ak與各個要點的相關(guān)性,形成相關(guān)度矩陣。再根據(jù)標(biāo)題結(jié)構(gòu)的特點對標(biāo)題進(jìn)行分類,形成標(biāo)題結(jié)構(gòu)權(quán)值,融合相關(guān)度矩陣和標(biāo)題結(jié)構(gòu)權(quán)值選出最佳選項A*。如算法1所示。
算法1標(biāo)題與篇章要點相關(guān)性分析
輸入: 篇章D={P1,P2,…,Pi,…,Pm};選項A={A1,A2,…,Ak,…,An};
輸出: 最佳選項A*
初始化 集合Dyd中存儲篇章各要點,集合Fstruct存儲標(biāo)題結(jié)構(gòu)權(quán)值,集合Fbd存儲選項與篇章要點的相似度,S*臨時存儲段落要點,F(xiàn)*臨時存儲選項與篇章要點的相似度,T*臨時存儲標(biāo)題結(jié)構(gòu)權(quán)值
FORPiIND
S*=MAX{F(Pi,Sj)}
//獲取段落要點S*,將S*添加到Dyd中;
ENDFOR
FORAkINA
ENDFOR
//獲取選項與篇章要點的相似度F*,將F*添加到Fbd中;
T*=FT(Ak)
//獲取標(biāo)題結(jié)構(gòu)權(quán)值T*,將T*添加到Fstruct中;
ENDFOR
FORAkINA
//融合標(biāo)題結(jié)構(gòu)權(quán)值