譚紅葉,段慶龍,陳夏飛
(山西大學 計算機與信息技術學院,山西 太原 030006)
面向中文閱讀理解復雜選項分類研究
譚紅葉,段慶龍,陳夏飛
(山西大學 計算機與信息技術學院,山西 太原 030006)
閱讀理解系統(tǒng)是一種特殊的復雜問答系統(tǒng),問題分析是重要的組成部分,對后續(xù)答題起著至關重要的作用。針對高考文學類閱讀理解復雜選擇題的選項分類進行研究,將選項看作短文本,對選項的類別標簽進行了定義,引入依存語義和情感語義等多種特征對選項進行建模,使用多標簽分類算法對選項進行分類,在語義層面上為閱讀理解選擇題的進一步解答奠定基礎。
復雜選項;分類;中文閱讀理解
閱讀理解是一類對單篇文本進行深層理解的問答系統(tǒng),近幾年已成為一個研究熱點,許多公司和研究機構針對閱讀理解開展研究,如微軟的MCtest、Facebook的bAbi項目、斯坦福大學的Process Bank以及日本的Todai Robot項目。其中,日本的Todai Robot項目開始于2011年,目的是讓機器通過日本東京大學的入學考試,題目包括閱讀理解的多項選擇題和短文本的寫作。該系統(tǒng)在2015年日本大學入學考試中取得了511分的成績,而所有考生平均分只有416分。雖然Todai項目取得了一定成績,但距離通過東京大學的分數(shù)線目標相差甚遠,還需要更深入的研究。
目前閱讀理解的研究大多針對簡單事實類問題進行。但是,人類高考場景中的閱讀理解問題非常復雜。以北京高考為例,根據(jù)《2015年北京語文高考考試說明》,現(xiàn)代文閱讀理解主要考察以下內容:文中重要詞語、句子的理解和解釋;文中信息的分析、篩選、整合;文本內容的歸納和概括;依據(jù)文本內容進行的合理推斷;文學作品思想內容、作者情感的把握和評價;文學作品語言、表現(xiàn)手法和藝術形象的賞析;以及從不同角度和層面對文本內容或形式的體察、闡發(fā)和評價;基于知識積累和生活經(jīng)驗對文本意蘊的思考、領悟和闡釋。一般來說,高考閱讀理解主要通過問答題和選擇題的形式考察讀者對給定文本的理解。選擇題具體示例如表1所示。
表1 閱讀理解選擇題示例
該示例的答案為A和D。選項A有兩個錯誤點,其中“飲食占有重要地位”在原文中沒有依據(jù),屬于對文本內容概括總結錯誤,同時選項A中“根源于作者無法追懷的童年”是主觀臆斷,屬于因果推斷錯誤。選項D中“水”是本文在介紹紹興和魯迅那部分內容的核心線索,不是全文的核心線索,屬于寫作手法賞析錯誤。
通過以上示例可知,高考閱讀理解選擇題中選項內容并非簡單事實類問題,更多的是對文章進行內容組織結構、全文主旨等不同角度和層面的語義理解和概括后才能解答的復雜問題,這些問題一般通過陳述句表述。同時也可看出,不同類型的選項考查內容不同,潛在錯誤類型不同,需要對文本進行不同的分析,采取不同的策略進行解答。
因此,選項的分類是高考文學作品復雜選擇題解題的基礎,其類型決定后續(xù)的解題策略?,F(xiàn)有閱讀理解中的問題分類只針對簡單事實類問題分類[1-3],并不適用于復雜類選項分類問題。高考閱讀理解中,為了增加選項判斷的難度,會從多個角度對一個選項進行考察,因此本文針對復雜選項分類,提出了一種融入多種語義特征的多標簽分類方法,目的在于更完備地分析出選項潛在的錯誤類型,并將分類結果作為下一步選擇題解答策略的依據(jù)。
問題分類的研究主要集中在簡單事實或實體類問題的分類,以實現(xiàn)對答案及其驗證的指導。由于英文的句子結構和表達方式更易于機器理解,因此針對英文的QA問題分析和解答方法比較成熟。Dell和Wee使用TREC評測中的QA數(shù)據(jù)集[4-5],針對開放域的社區(qū)問答進行問題分類,類別包括拓展類、描述類、實體類、人物類、處所類、數(shù)字類,使用詞袋模型和n-gram詞袋模型對TREC中給出的問題進行向量表示,使用基于樹核的SVM作為分類器時得到了最好的分類效果。Dominique和Baptiste在CLEF2014和CLEF2015年日本的英語高考閱讀理解評測任務上提出了一種CDS(Clause Description Structure)結構[6-7],通過分析文章中句子、問題和選項的CDS結構,來對選項與問題和文章之間的CDS結構匹配程度進行打分。這種方法在CLEF2014和CLEF2015評測中都取得了第一名,2015年的問題回答準確率為58%。CDS結構分析錯誤主要集中在WHY型問題等一些復雜問題上,使用CDS的方法對復雜問題所涉及的文本并不能正確理解。隨著基于神經(jīng)網(wǎng)絡表示學習的興起,很多學者使用多種神經(jīng)網(wǎng)絡模型對文檔和選項進行表示,通過文本蘊含的方式對閱讀理解問題進行解答[8-11]。目前國內對于中文閱讀理解問題分析研究不是很多,主要集中在傳統(tǒng)QA的問句分類上。劉挺等人使用哈爾濱工業(yè)大學的中文問題分類數(shù)據(jù)集[13],將問題分為人物類、地點類、數(shù)字類、時間類、實體類、描述類,提出了一種疑問語義單元的概念,將疑問語義單元和HowNet相結合對含有疑問詞的問題進行分類,在該數(shù)據(jù)集上的準確率達到92%。
短文本分類是目前文本分類研究的熱點之一,尤其是針對微博類型短文本進行分類。短文本由于長度較短,特征比較稀疏,因此從語義層面對短文本進行特征拓展是短文本分類的主要研究內容。劉子濤等人使用HowNet語義資源對短文本中的名詞、動詞、形容詞與副詞等語義豐富的詞進行語義層面的特征擴展[13]。程傳鵬等人考慮短文本中各個詞語之間的語義關聯(lián)信息[14],提出一種候選特征詞的特征度計算方法,將特征度值較大的詞項作為微博短文本的分類特征。以上研究均針對微博這類短文本進行,都從語義層面考慮了詞之間的語義關聯(lián),從而對短文特征進行了有效拓展。
本文將高考閱讀理解選項的分類看作是一種多標簽分類問題,選項的分類過程可以表示為如下映射函數(shù):
其中Q={qi}表示所有問題的集合,{C1,C2,…,Cn}是選項類別所組成的集合,當輸入一個問題qi∈Q,G利用先驗知識將其映射到相應的類別。
2.1 類別定義
從語言學的角度來說,高考文學作品閱讀理解選擇題當中出現(xiàn)的錯誤有多種,常見的有:以偏概全、張冠李戴、混淆范圍、是非顛倒、無中生有、因果顛倒、偷換概念,斷章取義等。但是這些錯誤是從人所能理解的角度進行的錯誤分類,不適合機器進行前期分析。
結合語言學中對錯誤的劃分,我們對文學作品選項潛在錯誤進行了進一步分析,結合經(jīng)常出現(xiàn)的錯誤類型,定義了五種選項類別,如表2所示。
在高考閱讀理解中,一個選項可能屬于多個類別,如表1示例中的A選項:“飲食在作者關于故鄉(xiāng)的感興中占有重要地位,根源于作者無法追懷的童年?!边x項的前半部分屬于語言鑒賞類,后半部分屬于因果推斷類。因此我們將選項分類問題定義為多標簽分類問題。
2.2 分類特征
復雜選項屬于短文本,由于短文本的特征比較稀疏,所以我們參照其它研究擴展了詞匯、語法、語義等多方面的多種特征對選項的特征進行擴展[15-16]。由于選項中的詞匯信息較少,我們選擇了選項中的語氣詞作為停用詞進行排除。以下是本文在分類過程中使用的特征。
詞的位置特征:在文學作品選項中,詞的位置越往后越重要,因為選項總是先給出一定線索,然后表述需要讀者判斷的內容。因此對選項中每一個詞賦予了一個位置權重,計算方法如下:
(1)
其中i為當前詞w的位置,加1是避免起始詞的特征為0,Sn為當前選項的長度。
情感語義類特征:為了更好地對思想情感類選項進行處理,引入了情感特征。使用文獻[17]中的情感本體庫進行拓展,選擇了更精確的二級情感類標簽對詞的情感語義進行拓展。部分情感類別特征的示例如表3所示。
依存語義特征:依存語義分析提供了實詞和實詞之間的語義關系。具體來說,這類特征包括:事件關系標記、語義角色標記。
事件關系標記是依存語義中提供的重要信息,反映了選項表達的事件之間的語義信息。
語義角色標記是對選項中詞所承擔的語義角色(Hownet體系下)進行標記,該標記可用于語義概念方面的拓展。
情感詞特征和依存語義特征均由詞袋模型進行表示,出現(xiàn)時為1,未出現(xiàn)時取值為0。
表3 情感語義類特征
選項的重合度特征:不同類型的選項所引用的原文內容比例不同,例如:表1示例中的A選項,“飲食在作者關于故鄉(xiāng)的感興中占有重要地位,根源于作者無法追懷的童年?!焙蟀刖涫且蚬愡x項,選項是對原文中事件之間的因果關系進行判別,所以大部分描述的內容在原文中出現(xiàn)。因此在選項分類中引入選項與原文的重合度特征,計算方法如下:
(2)
在文章和選項中,名詞、動詞、形容詞的語義比較豐富[18],所以只選擇此類詞來計算選項的重合度特征,SW為選項中名詞、動詞、形容詞的集合,TW為文章中分詞后的詞的集合。
2.3 基于詞向量的選項表示
除了使用以上特征對選項進行表示,本文還使用Word2vec工具對詞進行分布式向量化表示。使用大量文學作品數(shù)據(jù)將選項中的每個詞訓練映射成K維實數(shù)向量,訓練完成后使用詞向量累加求平均方式對選項進行表示。訓練時我們參考文獻[19]中的方法將詞向量的維度參數(shù)設置為100維。其中Si表示選項,Wi表示詞向量,n表示選項中詞的個數(shù)。公式如下:
(3)
人工整理構建了中文文學作品閱讀理解語料庫,其中包括三個文學作品閱讀理解數(shù)據(jù)集,如表4所示,數(shù)據(jù)集A來自于近十二年北京市高考真題,數(shù)據(jù)集B來自于歷年北京市高考的模擬題,數(shù)據(jù)集C是從互聯(lián)網(wǎng)上爬取整理后得到文學作品閱讀理解題目。此外還搜集了2萬多篇散文數(shù)據(jù)作為詞向量Word2vector的訓練資源。
表4 中文文學類閱讀理解語料庫
表5 選項類別分布統(tǒng)計
表5是各類選項的分布情況。從表5中可以看出,依據(jù)人工標注的結果,思想情感類、概括總結類和因果類的類別標簽在語科中所占比重較大,關系推斷類和語言鑒賞類的比重較小。相較于后兩類選項,前三類選項需要更細致的語義分析,屬于文學類閱讀理解選擇題常見的選項類型。
3.1 評價方法
多標簽分類的評價方法較多,本文選擇以下評價指標[20]對實驗結果進行評價。
漢明損失(Hamming loss)是用來評價平均每個實例的標簽類別集合中的損失情況。該指標既衡量了分類錯誤的類別標簽信息,又衡量了分類過程中丟失的類別標簽信息。下面是漢明損失的計算公式:
(4)
其中Zi和Yi分別是對多標簽分類器的預測結果和實際的樣本所標注的類別,Δ是表示兩個集合中不同標簽的數(shù)量,t表示分類實驗中樣本的個數(shù),1/q是對結果歸一化到[0,1]之間,評價結果越低效果越好。
我們也使用多標簽分類中常見的評價指標每個標簽的準確率(Accuracy,A)、完全匹配數(shù)(Exact Match,EM)對多標簽分類結果進行評價。公式分別如下:
(5)
(6)
3.2 實驗結果分析
本文使用前面提到的中文文學作品閱讀理解語料庫進行實驗。該語料庫包括193篇中文文學類閱讀理解選擇題文章及題目,其中選項個數(shù)為1 010個,人工標注選項的多標簽類別。我們使用其中的910條作為訓練集,另外100條作為測試集。抽取所需要的特征對選項進行表示,分別使用基于SVM的二元關聯(lián)(Binary Relevance)算法和基于SVM的分類的鏈(Classifier Chains)算法進行實驗[20]。
Binary Relevance算法是將多標簽數(shù)據(jù)集轉換成多個二分類的數(shù)據(jù)集,創(chuàng)建多個二元分類器進行分類。然后將各個二元分類器的結果進行組合,得到最終的多標簽分類結果。Classifier Chains算法與Binary Relevance算法在數(shù)據(jù)集轉換方法相同,但不同的是在訓練多個二元分類器時,第N個分類器會將前N-1個分類器的標簽作為該分類器的特征進行分類,通過這種方式能夠挖掘出更多的標簽之間的關聯(lián)信息。
我們針對高考文學作品選項進行分類,類別主要包括:概括總結類(1),關系推斷類(2),因果類(3),思想情感類(4),語言鑒賞類(5)五個類別,實驗結果如表6,其中HL為漢明損失,EM為完全匹配數(shù),A為每個標簽準確率。
表6 多標簽選項分類實驗
通過表6可知使用基于SVM分類器的Binary Relevance算法效果整體上要好于使用基于SVM分類器的Classifier Chains算法。詞袋模型的Hamming loss要低于詞向量累加模型,這說明詞袋模型在標簽丟失和標簽的錯誤預測上要低于詞向量累加模型。
值得注意的是在語言鑒賞類標簽上使用分類器鏈算法的召回率要高于二元關聯(lián)算法。這說明語言鑒賞類的標簽與其他標簽的關聯(lián)性較強,因為基于分類器鏈的算法能更好地挖掘出標簽之間的關聯(lián)性。從EM的結果看出使用基于分類器鏈的算法能更完備的預測出選項可能的類別標簽。此外與其他標簽的召回率相比概括總結類標簽的識別率始終不佳,這在一定程度上表現(xiàn)了該類別標簽的特征不明顯,區(qū)分度較弱。
本文首次探索了中文文學作品閱讀理解選擇題的復雜選項分類任務,從選項的類別定義和自動分類方法兩方面進行了研究。通過人工分析、標注193篇閱讀理解的選項,進行類別定義,獲取了中文文學類閱讀理解復雜選擇題語料庫;提出詞匯、語義、語法等一系列特征和詞向量累加模型等特征對選項進行表示,采用了基于SVM的Binary Relevance算法和基于SVM的Classifier Chains算法嘗試了對選項進行多標簽分類。本文的選項分析和實驗結果為后續(xù)問題解答提供了支持,推動了中文閱讀理解的研究,尤其是復雜類選擇題解答方法的進一步研究。下一步將選擇更好的特征,進一步優(yōu)化多標簽分類結果并針對已有的分類對各個類別選項的解答策略進行研究。
[1] Zhang Shouwei,Liu Bo.Chinese Question Classify Model Based on Interrogative Semantic Unit[C]∥International Conference on Information Science and Computer Applications,2013,16(6):30-41.DOI:10.2991/isca-13.2013.3.
[2] Niu Yanqing,Chen jun jie.Study on Classification Features of Chinese Interrogatives[J].ComputerApplicationandSoftware,2012,29(3):108-111.
[3] Cai Dongfeng,Sun Jingguang,Zhang Guiping.HowNet Based Chinese Question Classification[C]∥Pacific Asia Conference on Language,Information and Computation PACLIC’06.2006:366-369.
[4] Dell Zhang,Wee Sun Lee.Question Classification Using Support Vector Machines[A].In the 26th ACM SIGIR.2003.DOI:10.1145/860435.860443.
[5] Richardson,Matthew and Burges,Christopher J C.MCTest:A Challenge Dataset for the open-Domain Machine Comprehension of Text[C]∥Proceedings of EMNLP 2013:193-203.
[6] Dominique Laurent,Baptiste Chardon,Sophie Nègre.English Run of Synapse Développement AtEntranceExams 2014[C]∥CLEF 2014 Evaluation Labs and Work-shop Online Working Notes.2014.
[7] Dominique Laurent,Baptiste Chardon,Sophie Nègre.Reading Comprehension at Entrance Exams 2015[C]∥CLEF 2015 Evaluation Labs and Work-shop Online Working Notes.2015.
[8] Sachan M,Dubey A,Xing E P,etal.Learning Answer Entailing Structures for Machine Comprehension[C]∥Proceedings of ACL.2015.
[9] Chen D,Bolton J,Manning C D.A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task[C]∥Meeting of the Association for Computational Linguistics,2016.DOI:10.18653/v1/p16-1223.
[10] Kobayashi S,Tian R,Okazaki N,etal.Dynamic Entity Representation with Max-pooling Improves Machine Reading[C]∥Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,2016.DOI:10.18653/v1/n16-1099.
[11] Cheng J,Dong L,Lapata M.Long Short-Term Memory-Networks for Machine Reading[C]∥Proceeding of Emnlp,2016:100-104.
[12] 文勖,張宇,劉挺,等.基于句法結構分析的中文問題分類[J].中文信息學報,2006,20(2):35-41.
[13] Liu Zitao,Yu Wenchao,Chen Wei,etal.Short Text Feature Selection for Micro-blog mining[C]∥Proc of 2010 International Conference on IEEE Computational Intelligence and Software Engineering,2010:1-4.DOI:10.1109/CISE.2010.5677015.
[14] 程傳鵬,蘇安婕.一種短文本特征詞提取的方法[J].計算機應用與軟件.2014,31(6):105-108.
[15] Wang Hai,Mohit Bansal,Kevin Gimpel.Machine Comprehension with Syntax,Frames,and Semantics[C]∥Proceedings of ACL,2015:700-706.DOI:10.3115/v1/p15-2115.
[16] Li Xin,Dan Roth.The Role of Semantic Information in Learning Question Classifiers[C]∥First International Joint Conference on Natural Language Processing,2004:451-458.
[17] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構造[J].情報學報,2008,27(2):180-185.
[18] 唐青葉.語篇語言學[M].上海:上海大學出版社,2009.
[19] Lai Siwei,Liu Kang,Xu Liheng,etal.How to Generate a Good Word Embedding?[Z/OL].arxiv:1507.0ss23vl[CSCL]20 Jol 2015,http:∥arxiv.org/abs/1507.05523.
[20] de Carvalho A C,Freitas A A.A Tutorial on Multi-label Classification Techniques[M].Foundations of Computational Intelligence Volume 5. Springer Berlin Heidelberg,2009:177-195.
Research on Option Classification Oriented to Chinese Reading Comprehension
TAN Hongye,DUAN Qinglong,CHEN Xiafei
(SchoolofComputerandInformationTechnology,ShanxiUniversity,Taiyuan030006,China)
Reading comprehension is a complex question answering(QA) system,in which problem analysis is one of important components. Aiming at the college entrance examination, this paper studies classification of complex multiple-choice options in reading comprehension.We regard options as short texts and define their categories. Using the dependency semantic features and sentiment features, we build a multi-label classification model, which provides foundation for further question answer.
Complex options;Classification;Chinese reading comprehension
10.13451/j.cnki.shanxi.univ(nat.sci.).2017.01.012
2016-10-31;
2016-11-01
國家863計劃項目(2015AA015407);國家自然科學基金(61673248;61100138;61403238;61502287);山西省自然科學基金(2011011016-2;2012021012-1);山西省留學人員科研項目(2013-022)
譚紅葉(1971-),女,博士,副教授,研究方向:人工智能、自然語言處理,E-mail:hytan_2006@126.com
TP391
A
0253-2395(2017)01-0078-06