• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向高考語文閱讀理解的篇章標(biāo)題選擇研究

    2018-07-18 03:02:40呂國英郭少茹譚紅葉
    中文信息學(xué)報 2018年6期
    關(guān)鍵詞:測試題主旨段落

    關(guān) 勇,呂國英,李 茹,2,3,郭少茹,譚紅葉

    (1. 山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;3. 山西省大數(shù)據(jù)挖掘與智能技術(shù)協(xié)同創(chuàng)新中心,山西 太原 030006)

    0 引言

    閱讀理解(reading comprehension,RC)作為問答任務(wù)的一個重要分支,受到越來越多的關(guān)注[1-2]。閱讀理解式問答系統(tǒng)是從一篇給定的背景材料中查找答案,要求系統(tǒng)在“閱讀”完一篇材料后,根據(jù)對材料的“理解”給出問題的答案[3]。

    高考語文閱讀理解中,背景材料相對較短且極具隱藏性,答案可能無法在背景材料中直接找到,因此,更注重考查機(jī)器對文章理解和概括的能力。高考語文閱讀理解科技文分為選擇題和問答題兩大題型。選擇題題型劃分為五種,分別為“文意理解”、“觀點支持”、“擬寫標(biāo)題”、“指代消解”和“補(bǔ)寫句子”[4]。目前,選擇題主要針對“文意理解”、“觀點支持”類題目展開研究,解答這兩類題目需要通過對與選項相關(guān)句子或片段的理解選出答案。標(biāo)題選擇題目的解答則需要對整個篇章進(jìn)行理解概括,分析標(biāo)題與篇章的相關(guān)性,進(jìn)而選出答案。

    篇章標(biāo)題選擇類題目可形式化描述為: 篇章、題干和選項三元組,篇章D={P1,P2,…,Pi,…,Pm}。其中,Pi,(i∈[1,m])為篇章D中第i個段落。Q表示題干,題干中沒有提供解題相關(guān)的信息,因此解題過程中沒有涉及題干的內(nèi)容。選項集A={A1,A2,…,Ak,…,An},其中,Ak,(k∈[1,n])為選項A中第k個選項。解答此類問題,首先抽取篇章要點,計算每個選項Ak與各個要點的相關(guān)性,形成相關(guān)度矩陣。然后,根據(jù)標(biāo)題結(jié)構(gòu)特點對標(biāo)題進(jìn)行分類,形成標(biāo)題結(jié)構(gòu)權(quán)值。最后,融合相關(guān)度矩陣和標(biāo)題結(jié)構(gòu)權(quán)值選出最佳選項A*。題目示例如表1所示。

    針對高考語文閱讀理解科技文篇章標(biāo)題選擇類題目,本文提出基于標(biāo)題與篇章要點相關(guān)性分析模型。該模型構(gòu)建了基于標(biāo)題與篇章要點的相關(guān)度矩陣(2.1節(jié)),并融入標(biāo)題結(jié)構(gòu)特征(2.2節(jié))進(jìn)一步優(yōu)化模型。在全國近10年高考真題和測試題上進(jìn)行實驗,對實驗結(jié)果進(jìn)行分析,最后對本文工作進(jìn)行總結(jié)。

    表1 篇章標(biāo)題選擇題目示例

    1 相關(guān)工作

    針對閱讀理解任務(wù)提出的相關(guān)技術(shù)可以分為兩種: 基于特征的方法[5-7]和基于深度學(xué)習(xí)的方法[8-11]。

    基于特征的方法通常使用特征工程、語言工具、外部資源等來解決這類問題。文獻(xiàn)[3]針對高考語文閱讀理解文意理解類題型,提出一種多維度投票算法。該算法將Word2Vec、HowNet、詞袋模型、框架語義場景四個方面作為度量標(biāo)準(zhǔn),運用投票算法的思想,選取最佳答案。文獻(xiàn)[4]針對高考語文閱讀理解題干支持類題目,通過對篇章、題干、選項三者的關(guān)系進(jìn)行建模,制定聯(lián)合打分函數(shù),加入句子相似度特征、反義匹配特征、否定特征三個語義特征信息,提出基于題干與選項一致性判別模型。文獻(xiàn)[12]提出一種答案蘊含策略,把問題、正確選項和文章之間的關(guān)系用一個答案蘊含結(jié)構(gòu)表達(dá),通過模型獲得該答案蘊含結(jié)構(gòu),選出正確選項。

    基于深度學(xué)習(xí)的方法主要是通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。在基于詞向量表示基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子的向量表示,然后把任務(wù)轉(zhuǎn)換成分類或排序問題。文獻(xiàn)[13]針對MCtest數(shù)據(jù)集機(jī)器理解任務(wù),構(gòu)建一個基于Attention機(jī)制的分層的卷積神經(jīng)網(wǎng)絡(luò)模型。通過對文章、問題、答案進(jìn)行建模,發(fā)現(xiàn)與回答問題相關(guān)的關(guān)鍵短語、關(guān)鍵句和關(guān)鍵片段。文獻(xiàn)[14]針對閱讀理解任務(wù)提出一個循環(huán)神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)詞和短語的向量表示進(jìn)行實體推理,用邏輯回歸分類器對篇章預(yù)測類別,類別標(biāo)簽就是問題的答案。文獻(xiàn)[15]基于分布式表達(dá)的思想,將問題與候選答案都映射到一個分布式的語義表達(dá)中,然后,基于二者的表達(dá)來學(xué)習(xí)問題與候選答案的匹配程度。

    基于特征的方法需要人工構(gòu)建不同的特征,耗費大量的時間,而基于端到端的神經(jīng)網(wǎng)絡(luò)模型雖然可以自動學(xué)習(xí)特征,但是由于數(shù)據(jù)的稀疏性、問題的復(fù)雜性,效果提升不是很明顯。因此,本文結(jié)合基于特征的方法和神經(jīng)網(wǎng)絡(luò)的方法,提出標(biāo)題與篇章要點相關(guān)性分析模型。

    2 標(biāo)題與篇章要點相關(guān)性分析模型

    2.1 標(biāo)題與篇章要點相關(guān)度矩陣

    篇章由不同的段落組成,篇章各段落涉及不同的要點內(nèi)容,標(biāo)題是對篇章中各要點內(nèi)容的高度理解概括。恰當(dāng)?shù)臉?biāo)題覆蓋篇章各個要點內(nèi)容,如何判斷標(biāo)題對各要點的覆蓋程度是解決標(biāo)題選擇題的關(guān)鍵問題。針對此問題,提出了標(biāo)題與篇章要點相關(guān)度矩陣。矩陣由選項和篇章要點相似度組成,行表示選項與各篇章要點相似度值,列表示篇章要點與各選項相似度值。根據(jù)相關(guān)度矩陣選取覆蓋篇章要點內(nèi)容最全面的一項作為最恰當(dāng)?shù)臉?biāo)題。圖1為2015年北京高考題(第三題)相關(guān)度矩陣示意圖。矩陣維度為4*5,分別表示四個選項和五個段落,顏色的深淺代表相似度值的大小,顏色越深代表相似度值越大??梢钥闯鲞x項B覆蓋篇章要點內(nèi)容最全面,為最恰當(dāng)?shù)臉?biāo)題。具體公式如式(1)、式(2)所示。

    其中,Sim(Ak,Seni)表示選項Ak與篇章要點Seni的相似度值,Ak,k∈[1,n],Seni表示篇章要點,m表示篇章要點的個數(shù),Answermatrix表示選項與篇章要點相關(guān)度最高的一項。

    圖1 標(biāo)題與篇章要點相關(guān)度矩陣

    2.1.1篇章要點抽取

    篇章要點的獲取是形成標(biāo)題與篇章要點相關(guān)度矩陣的關(guān)鍵。篇章各段落涉及不同的要點內(nèi)容,段落主旨句是段落的中心句或者主題句,具有概括段落的作用,是段落的中心所在,所以,選取段落主旨句作為篇章要點。針對篇章要點獲取問題,提出了基于相關(guān)因素的段落主旨句抽取方法。該方法對同義、上下位概念進(jìn)行歸并,同時,綜合語句所在位置、文章標(biāo)題、語句中所含重要詞匯等多種度量方式,綜合評估句子反映主題的價值,從而更精確地抽取出段落的主旨句。在文獻(xiàn)[16-17]方法基礎(chǔ)上,針對高考科技文的特點進(jìn)行了改進(jìn)。

    (1) 段首、段尾句權(quán)值優(yōu)化。高考科技文的段落中,段首句或者段尾句一般是總結(jié)段落內(nèi)容的句子,所以段落的段首、段尾句包含的主題信息量比重比較大。對語句權(quán)值的調(diào)整如式(3)、式(4)所示。

    其中,W(Si)表示語句的位置權(quán)值,Lnum表示段落中句子數(shù)量,j表示當(dāng)前句子在段落中的位置,W(SLnum)表示段落尾句的權(quán)值。

    (2) 長句權(quán)值優(yōu)化。主旨句大多包含說明文章主題或關(guān)鍵內(nèi)容的主題概念字串,所以包含主題字串多的語句可作為主旨句。長句所包含的主題字串的數(shù)量一般要高于短句,因而長句計算出來的權(quán)值較高,因此需要減弱語句長度對權(quán)值的影響,對語句權(quán)值的調(diào)整如式(5)、式(6)所示。

    選取段落中語句權(quán)值最大的語句作為段落的主旨句,語句的權(quán)值可由不同的度量方式組合得到,如式(7)所示。

    (7)

    其中,σ1+σ2+σ3=1,F(xiàn)(Pi,Sj)表示段落Pi的第Sj句話的語句權(quán)值,WTitle(Sj)表示第Sj句話的標(biāo)題權(quán)值。

    2.1.2基于LSTM的選項與篇章要點的相關(guān)性計算

    2.1.1節(jié)中,抽取了段落主旨句作為篇章要點。如何計算標(biāo)題與篇章要點的相關(guān)性是生成相關(guān)度矩陣的難點。針對該問題,提出了基于LSTM的選項與篇章要點相關(guān)性計算方法,模型如圖2所示。

    基于神經(jīng)網(wǎng)絡(luò)的方法大多是在基于詞向量表示的基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子的向量表示,把任務(wù)轉(zhuǎn)換成分類或排序問題。模型結(jié)構(gòu)與文獻(xiàn)[18-19]類似。

    輸入層是由篇章要點(集合SK)和選項(集合A)組成的二元組。其中,SK表示篇章要點集合,A表示選項集合。把集合SK、A用預(yù)先訓(xùn)練好的詞向量分別表示為一個詞向量矩陣W。實驗中使用Word2Vec[20]訓(xùn)練詞向量。每個詞向量的維度為100維,窗口大小為5,訓(xùn)練語料為百度百科,語料大小為13.3G。

    圖2 基于LSTM的選項與篇章要點的相關(guān)性計算

    LSTM層使用bi-LSTM獲取選項和篇章要點的向量表示[21]。bi-LSTM會提供給輸入序列每一個節(jié)點過去和未來的上下文信息,相對于單向LSTM來說能提供更多的特征信息。具體公式如下:

    池化操作有最大池化、平均池化等,本文使用的是最大池化k-Maxpooling(k=1)方式。hsk和ha分別表示篇章要點和選項的向量表示,篇章要點和選項之間的相關(guān)性用篇章要點和選項的向量的余弦相似度表示。損失函數(shù)和文獻(xiàn)[22]類似,如式(11)所示。

    (11)

    其中,cos(hsk,ha+)表示文章和正確選項的相似度,cos(hsk,ha-)表示文章和錯誤選項的相似度,hsk表示篇章要點,ha+表示正確選項,ha-表示錯誤選項,Q表示閾值。訓(xùn)練集中,每條數(shù)據(jù)中只有一個正例標(biāo)題和一個負(fù)例標(biāo)題。在測試集上,每條數(shù)據(jù)中有四個候選選項,分別輸出每個選項和各個篇章要點的相似度值,形成標(biāo)題和篇章的相關(guān)度矩陣。

    2.2 篇章標(biāo)題結(jié)構(gòu)分析

    標(biāo)題作為讀者閱讀文章的第一項內(nèi)容,對理解文章內(nèi)容具有重要的作用。本文參考文獻(xiàn)[23-25]的分類體系,分析了5 872篇高考科技文標(biāo)題結(jié)構(gòu)和語言特點。根據(jù)高考科技文標(biāo)題的特點,制定了相應(yīng)的結(jié)構(gòu)體系,如(1)~(5)所示。具體類別比例如表2所示,其中以名詞短語結(jié)構(gòu)為主。

    (1) 名詞短語+名詞短語標(biāo)題(n+n): 由一個以上的名詞短語構(gòu)成。例如,“圍棋與國家”。

    (2) 動詞短語+名詞短語標(biāo)題(v+n): 由動詞和名詞短語構(gòu)成。例如,“拯救閱讀”。

    (3) 名詞短語+動詞短語標(biāo)題(n+v): 由名詞和動詞短語構(gòu)成。例如,“太空行走”。

    (4) 完整句子結(jié)構(gòu)標(biāo)題(s): 指從語法角度講符合句子構(gòu)成的標(biāo)題。例如,“企業(yè)家為什么越來越重視書畫文化?”。

    (5) 名詞標(biāo)題(n): 由單一名詞短語或是專有名詞構(gòu)成。例如,“古琴”。

    表2 標(biāo)題類別比例

    對標(biāo)題結(jié)構(gòu)進(jìn)行分析統(tǒng)計,形成標(biāo)題結(jié)構(gòu)權(quán)值,如式(12)所示。

    (12)

    其中,F(xiàn)T(Ai)表示標(biāo)題類別為i的權(quán)值,Ki表示標(biāo)題類別為i所占的比例。

    2.3 融合標(biāo)題結(jié)構(gòu)權(quán)值

    標(biāo)題具有高度歸納概括篇章內(nèi)容、結(jié)構(gòu)鮮明的特點。標(biāo)題與篇章要點相關(guān)度矩陣方法主要考慮了對篇章內(nèi)容的概括、標(biāo)題與篇章內(nèi)容的相關(guān)性分析。篇章標(biāo)題結(jié)構(gòu)分析方法主要研究了標(biāo)題的結(jié)構(gòu)特點,對標(biāo)題進(jìn)行分類。因此,將以上兩種方法進(jìn)行融合來獲得更好的實驗結(jié)果。具體如式(13)、式(14)所示。

    其中,Answerfuse表示融合標(biāo)題結(jié)構(gòu)信息后最終的答案,F(xiàn)W(Ai)表示選項Ai融合標(biāo)題結(jié)構(gòu)信息后的答案。

    標(biāo)題與篇章要點相關(guān)性分析模型具體思路為: 先抽取段落Pi的主旨句作為段落的要點,計算每個選項Ak與各個要點的相關(guān)性,形成相關(guān)度矩陣。再根據(jù)標(biāo)題結(jié)構(gòu)的特點對標(biāo)題進(jìn)行分類,形成標(biāo)題結(jié)構(gòu)權(quán)值,融合相關(guān)度矩陣和標(biāo)題結(jié)構(gòu)權(quán)值選出最佳選項A*。如算法1所示。

    算法1標(biāo)題與篇章要點相關(guān)性分析

    輸入: 篇章D={P1,P2,…,Pi,…,Pm};選項A={A1,A2,…,Ak,…,An};

    輸出: 最佳選項A*

    初始化 集合Dyd中存儲篇章各要點,集合Fstruct存儲標(biāo)題結(jié)構(gòu)權(quán)值,集合Fbd存儲選項與篇章要點的相似度,S*臨時存儲段落要點,F(xiàn)*臨時存儲選項與篇章要點的相似度,T*臨時存儲標(biāo)題結(jié)構(gòu)權(quán)值

    FORPiIND

    S*=MAX{F(Pi,Sj)}

    //獲取段落要點S*,將S*添加到Dyd中;

    ENDFOR

    FORAkINA

    ENDFOR

    //獲取選項與篇章要點的相似度F*,將F*添加到Fbd中;

    T*=FT(Ak)

    //獲取標(biāo)題結(jié)構(gòu)權(quán)值T*,將T*添加到Fstruct中;

    ENDFOR

    FORAkINA

    //融合標(biāo)題結(jié)構(gòu)權(quán)值

    IFA*

    A*=A

    ENDIF

    ENDFOR

    返回A*

    3 實驗結(jié)果及分析

    3.1 實驗數(shù)據(jù)

    實驗所使用的語料包括5 872套高考模擬題(包含23 428個段落)和216套高考題(包含864個段落)。其中,訓(xùn)練語料為5 872套高考模擬題,測試集包括18道高考真題和134道測試題。測試題語料的篇章為有標(biāo)題的高考科技文,選項正例為文章標(biāo)題,負(fù)例由三名同學(xué)分別為文章擬寫一個標(biāo)題構(gòu)成。測試題樣例如表3所示。實驗所用的高考題及高考模擬題語料均由山西大學(xué)中文信息處理課題組收集。本文使用哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心的語言處理集成平臺LTP[26]對篇章文本進(jìn)行分詞、詞性標(biāo)注。

    3.2 Baseline

    為了驗證標(biāo)題與篇章要點相關(guān)性模型的有效性,實驗設(shè)置了較為常用的比較方法,包括:

    a) 基于詞匹配的方法(Baseline1): 針對閱讀理解問題,該方法通過計算每個選項和候選句的相似度來實現(xiàn)答案選取的功能。首先抽取文章中每段的首句作為候選句,并且對每個選項提取關(guān)鍵詞,利用預(yù)先訓(xùn)練好的詞向量計算每個選項和候選句的相似度,最后選取相似度值最高的一項作為正確答案。

    表3 測試題樣例

    b) 卷積神經(jīng)網(wǎng)絡(luò)框架[21](Baseline2): 針對非事實類的問答任務(wù),作者基于CNN提出了六種框架。使用第二個框架做對比實驗,該框架使用CNN來學(xué)習(xí)問題和答案的向量表示,然后用余弦相似度對答案進(jìn)行排序。

    c) 基于多維度投票的算法(Multi-Dimension Voting): 針對高考語文閱讀理解文意理解類題型進(jìn)行分析,提出一種多維度投票算法。該算法將Word2Vec、HowNet、詞袋模型、框架語義場景四個方面作為度量標(biāo)準(zhǔn),運用投票算法的思想,計算相關(guān)句子與選項之間的語義相關(guān)性。

    3.3 實驗結(jié)果

    主旨句的抽取分別在高考真題、測試題和高考模擬題上進(jìn)行了實驗。通過實驗對比分析式(7)中參數(shù)σ1、σ2、σ3分別設(shè)置為{0.52,0.32,0.16},實驗結(jié)果如表4所示。抽取段落主旨句的評價標(biāo)準(zhǔn),使用抽取精度表示,如式(15)所示。

    (15)

    其中,Ptopic表示準(zhǔn)確率,s表示抽取正確的主旨句個數(shù),t表示總主旨句個數(shù)。

    表4 主旨句抽取結(jié)果

    從表4可以看出,主旨句抽取準(zhǔn)確率最高的是高考真題,準(zhǔn)確率達(dá)到了85.3%,最低的是高考模擬題。追蹤實驗數(shù)據(jù),發(fā)現(xiàn)影響抽取準(zhǔn)確率的一個因素。本文對每個段落都抽取了主旨句,實際上有些段落的主旨句不明顯,其主旨句是由兩句話組成,或者該段落的主旨句需要總結(jié)概括,不能直接抽取句子作為主旨句。

    參數(shù)選擇。為了確定式(13)中φ的取值,本文在134道測試題上用不同的φ取值做實驗,選取最優(yōu)的參數(shù)取值,實驗結(jié)果如圖3所示。

    圖3 不同權(quán)重φ下融合方法的準(zhǔn)確率

    其中,橫坐標(biāo)為權(quán)重φ的取值,縱坐標(biāo)為實驗結(jié)果??煽闯鲈讦罩禐?0.4 時,準(zhǔn)確率最高,后續(xù)實驗中φ取值均為0.4。

    為了更好地對比本文的方法,對本文方法做了兩個變式。

    Variant-1: LSTM擁有記憶功能,能夠捕捉文章上下文信息,可以解決序列問題,該方法把文章每個段落整段作為基于LSTM的選項與篇章要點相關(guān)性計算方法的輸入,而不是先抽取段落主旨句作為輸入(圖2)。

    Variant-2: 該方法在本文方法的基礎(chǔ)上去除標(biāo)題結(jié)構(gòu)分析部分,來驗證篇章標(biāo)題結(jié)構(gòu)分析對實驗結(jié)果的影響。

    為了統(tǒng)計準(zhǔn)確答案處于候選項中第一或是第二位置的結(jié)果,使用Top-k的準(zhǔn)確率P來評價答題結(jié)果[27],如式(16)所示。

    (16)

    CorrectAnswer(k)表示針對測試語料題目中前k個結(jié)果中正確的答案個數(shù)。

    表5為18道高考真題測試的準(zhǔn)確率,表6為134道測試題測試的準(zhǔn)確率。其中,Top-1的準(zhǔn)確率表示解題正確的概率,Top-2表示在四個選項中正確答案排在前兩位的概率。

    表5 測試語料為高考真題的準(zhǔn)確率

    從表5可以看出,在Top-1、Top-2準(zhǔn)確率上,本文方法準(zhǔn)確率都是最好的。其中,Top-1準(zhǔn)確率達(dá)到了0.487。從Top-2準(zhǔn)確率可以看出正確選項位于前二位的概率達(dá)到了0.76。

    表6 測試語料為測試題的準(zhǔn)確率

    從表6可以看出,在Top-1、Top-2準(zhǔn)確率上,本文方法準(zhǔn)確率都是最高的。其中,高考題Top-1準(zhǔn)確率達(dá)到了0.487,測試題Top-1準(zhǔn)確率達(dá)到了0.46。

    從表5、表6可以看出,本文方法Top-1準(zhǔn)確率在不同的數(shù)據(jù)集上均比其他方法高。但高考真題的準(zhǔn)確率比測試題的準(zhǔn)確率高了2.7%。研究實驗結(jié)果后發(fā)現(xiàn),主旨句的抽取準(zhǔn)確率會對實驗結(jié)果產(chǎn)生影響。測試題中主旨句的抽取準(zhǔn)確率為83.7%,由于測試題選項為人工出的,故沒有高考真題規(guī)范。

    從表5、表6可以看出,在不同的數(shù)據(jù)集上本文方法準(zhǔn)確率都是最高的。通過Variant-1和本文方法對比,可以發(fā)現(xiàn)本文抽取段落主旨句作為篇章要點輸入比整個段落輸入實驗效果好。通過Variant-2和本文方法的對比,可以發(fā)現(xiàn)當(dāng)加入了標(biāo)題結(jié)構(gòu)權(quán)值信息之后,模型的準(zhǔn)確率有了提升。這說明本文提出的抽取段落主旨句作為篇章要點和融合標(biāo)題結(jié)構(gòu)信息的方法是有效的。

    從表5 、表6還可以看出,Multi-Dimension Voting方法結(jié)果與Variant-1結(jié)果相近,沒有本文方法結(jié)果好。研究實驗數(shù)據(jù)后發(fā)現(xiàn)一個最主要的原因是,Multi-Dimension Voting方法針對的是高考語文閱讀理解文意理解類題型。該類題目的題干中包含文章內(nèi)容信息量大,且解題需要的信息只與文章中某個片段信息相關(guān)。而標(biāo)題選擇類題目的解答需要對整個篇章內(nèi)容進(jìn)行理解概括,分析標(biāo)題與篇章內(nèi)容的相關(guān)性。

    從表5 、表6以可以看出,在不同的數(shù)據(jù)集不同方法中Top-2的準(zhǔn)確率均大于Top-1的準(zhǔn)確率。Top-2的準(zhǔn)確率在高考題上最高,達(dá)到了0.76,在測試題上本文方法的Top-2準(zhǔn)確率也達(dá)到了0.71,這說明在四個候選項中本文方法可以很好地去除兩個干擾項的影響。

    從圖4可以看出,在不同方法上高考真題的準(zhǔn)確率都高于測試題的準(zhǔn)確率(除了Baseline高考真題的準(zhǔn)確率比測試題的低了1%)。這是由于本文方法主要是針對高考題,且高考真題比較規(guī)范。從圖4中可以看出在不同數(shù)據(jù)集上本文方法的準(zhǔn)確率都是最高的,從而驗證了本文方法的有效性。

    圖4 不同方法Top-1準(zhǔn)確率在兩個測試集上的對比

    4 總結(jié)與展望

    本文針對高考語文閱讀理解篇章標(biāo)題選擇題目,提出標(biāo)題與篇章要點相關(guān)性分析模型。根據(jù)標(biāo)題高度凝練且能準(zhǔn)確表達(dá)文意的特點,構(gòu)建了基于標(biāo)題與篇章要點的相關(guān)度矩陣。并在此基礎(chǔ)上,依據(jù)標(biāo)題結(jié)構(gòu)鮮明的特點,對標(biāo)題進(jìn)行梳理和分類,融入標(biāo)題結(jié)構(gòu)特征,實現(xiàn)篇章標(biāo)題選擇題目的解答。實驗結(jié)果表明,本文的方法與對比實驗方法相比,在兩個測試集上實驗準(zhǔn)確率都有所提升。

    本文方法在高考真題上Top-2的準(zhǔn)確率達(dá)到了0.76,下一步將分析總結(jié)選項位于第一位和第二位的特點,進(jìn)一步提升Top-1準(zhǔn)確率。同時,進(jìn)一步搜集相關(guān)的語料,擴(kuò)大語料規(guī)模,進(jìn)一步提升模型的準(zhǔn)確率和普適性。

    猜你喜歡
    測試題主旨段落
    【短文篇】
    高一化學(xué)期末測試題(一)
    高一化學(xué)期末測試題(二)
    心理小測試
    主旨演講
    海峽姐妹(2019年6期)2019-06-26 00:52:26
    記敘文的選材與主旨
    夏天,愛情的第四段落
    散文詩(2017年17期)2018-01-31 02:34:11
    《一次函數(shù)》測試題
    必修1、必修2第二輪復(fù)習(xí)測試題
    平淡真實顯主旨
    凤翔县| 阿图什市| 余庆县| 米脂县| 游戏| 麟游县| 红桥区| 张家港市| 海丰县| 突泉县| 抚远县| 麻江县| 怀来县| 洞头县| 小金县| 章丘市| 安泽县| 双江| 明水县| 鹿邑县| 黄龙县| 宜川县| 高安市| 巢湖市| 渝北区| 淮滨县| 巴塘县| 江北区| 石渠县| 鄂伦春自治旗| 彝良县| 邵东县| 宜兴市| 久治县| 长武县| 额敏县| 绥宁县| 大庆市| 桐庐县| 高阳县| 茶陵县|