• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合事件信息的中文問答系統(tǒng)問題語義表征

      2015-04-25 09:57:06魏楚元樊孝忠張大奎
      中文信息學報 2015年1期
      關(guān)鍵詞:組塊焦點語義

      魏楚元,湛 強,樊孝忠,毛 煜,張大奎

      (1. 北京理工大學 計算機學院,北京 100081;2. 北京建筑大學 計算機系,北京 100044)

      ?

      融合事件信息的中文問答系統(tǒng)問題語義表征

      魏楚元1,2,湛 強1,樊孝忠1,毛 煜1,張大奎1

      (1. 北京理工大學 計算機學院,北京 100081;2. 北京建筑大學 計算機系,北京 100044)

      復雜類問題理解是中文問答系統(tǒng)研究的難點,基于組塊的問句分析方法將整個問句轉(zhuǎn)化為若干組塊,降低了問句分析的難度和復雜性。針對以含有事件(動作)信息的復雜類問題,提出基于語義組塊的中文問答系統(tǒng)問題語義表征模型,采用語義組塊的思想將問題的語義成分定義為疑問焦點塊、問題主題塊和問題事件塊三個語義組塊,對問句中的事件語義信息,建立了問題事件語義結(jié)構(gòu),將一個問句表征為一個基于語義組塊的問題語義表征結(jié)構(gòu),用于問答系統(tǒng)的問題理解。通過序列標注學習方法實現(xiàn)問題語義表征中語義組塊自動標注。實驗結(jié)果表明: 問題語義組塊標注效果較好,問題語義表征模型獲取了問題的關(guān)鍵語義信息,為語義層面上的問題理解提供基礎。

      復雜類問題;事件;問題語義表征;語義組塊;問題理解

      1 引言

      問句分析、問題理解一直是中文問答系統(tǒng)研究的重點和難點,許多學者開展了大量的研究工作,特別是近年來在句法分析、語義分析方面取得了一些新的研究成果應用于問題理解,提高了中文問答系統(tǒng)的準確率。與英文問答系統(tǒng)不同的是,中文問答系統(tǒng)問句分析有其自身的復雜性和困難,主要在于漢語問句指代復雜性和問句結(jié)構(gòu)復雜性,疑問句蘊涵信息豐富、提問方式靈活多樣性、語法不夠嚴謹,造成問句分析、問題理解更加困難[1-2]。近年來提出的依存句法、組塊分析、語義角色標注等句法分析或語義分析方法,其最終目的在于分析出一個問句的完整語義信息,以有助于抽取更準確的答案。但這些方法目前更多適用于中文問答系統(tǒng)的事實類問題。中文問答系統(tǒng)的問題分為事實型、列舉型、定義型和復雜類問題[3],特別是含有事件(動作)信息的復雜類問題,成為中文問答系統(tǒng)新的關(guān)注點[4]。

      世界上的一切事物都可以分為: 萬物和事件。事實上,疑問句也可以分為對萬物的疑問和對事件的疑問。對萬物的疑問可以表現(xiàn)為“什么、哪里”等疑問所期待答案的實體信息;對事件的疑問可以表現(xiàn)為“怎么樣、怎么、如何、為何”等疑問所期待答案的事件信息。在特定的時間和空間等環(huán)境影響下,實體之間的相互作用和影響可以描述為事件。在疑問句中,對實體和事件的描述從一定程度上反映了用戶所期望的答案類型,也表達了提問者的真實意圖。因此,疑問句中除疑問信息之外,實體和事件都是非常重要的信息。在含有事件(動作)信息的疑問句中的疑問詞突出了疑問焦點信息;實體信息實際對應的是問句的主題信息;還有一類表達事件(動作)的信息。復雜類問題處理的一個難點如何處理其中包含的事件信息以及這些事件的語義信息[4]。一個對復雜類問題語義信息表示的結(jié)構(gòu),能夠完整地將一個疑問句通過句法分析、語義分析獲取該問句核心的語義信息并映射到一個結(jié)構(gòu)化的語義空間,對復雜類問題理解將起到十分重要的作用。本文從語義分析的角度,將復雜類問題作為問題理解的研究對象,將其蘊涵的最重要的語義信息抽象為疑問焦點、問題主題、問題事件三個語義成分,通過語義塊標注方法,將問題語義成分標注為疑問焦點塊、問題主題塊和問題事件塊等主要組塊,將一個問題表征為一個基于組塊的問題語義表征結(jié)構(gòu),用于問答系統(tǒng)的問題理解。

      本文的組織結(jié)構(gòu)如下: 第2節(jié)介紹相關(guān)的工作;第3節(jié)對問題語義成分進行了分析;第4節(jié)是對問題語義表征模型的描述;第5節(jié)是語義組塊標注方法;第6節(jié)為實驗結(jié)果分析;第7節(jié)為結(jié)論及展望。

      2 相關(guān)工作

      問句與普通句子一樣,除疑問成分以外,也有關(guān)鍵的語法成分(主、謂、賓)和修飾成分(定、狀、補等),通過句法分析方法可以解析出問句的句法信息,但是僅僅從句法層面理解一個問題是遠遠不夠的。語義分析指的是將自然語言句子轉(zhuǎn)化為反映這個句子意義(即句義)的某種形式化表示,即將人類能夠理解的自然語言轉(zhuǎn)化為計算機能夠理解的形式語言,做到人與機器的互相溝通[5]。要實現(xiàn)對問題的理解,必須要識別出問句的關(guān)鍵語義信息。因此,語義分析是問題理解的關(guān)鍵任務和挑戰(zhàn)。當然,語義分析是自然語言領(lǐng)域需要解決的根本性問題和目標,目前還只能進行以語義角色標注為代表方法的淺層語義分析,深層語義分析方法還很難實現(xiàn),效果并不理想。

      中文句子語義信息的表示并沒有統(tǒng)一的標準和體系,《知網(wǎng)》、漢語框架網(wǎng)、HNC等理論和語義資源的建立,極大提升了中文語義分析的水平,但面向單個句子的語義表示模型并不多見。構(gòu)建單個句子的語義表示模型也是一種淺層語義分析方法,根據(jù)句中每個實詞的詞義,推導出能夠反映這個句子意義的某種形式化表示。文獻[6]提出了“義面—義原—義境”的漢語句子語義三維表示模型并提出了基于三維模型的語義計算方法,該方法基于框架網(wǎng)絡表示語義,但是義面到義原的映射難以用規(guī)則進行表示、而且義境很難確定和表示。在中文問答系統(tǒng)的問句語義表示方面,北京理工大學自然語言處理研究室提出了問句語義表征(Question Semantic Representation, QSR)的概念,問句語義表征是問句語義信息的形式化表示,剔除了問句中無關(guān)或者干擾的信息,是問句語義的必要表示,后續(xù)的答案提取模塊可以很方便地依據(jù)它進行答案的提取[7]。文獻[8]結(jié)合實體和事件的語義提出問句語義表征模型,其局限性是用基于問句句型模板規(guī)則匹配的方法提取問句語義表征。文獻[9]提出了漢語問句的語義組塊,從語義角度識別出問句中能表達問句語義信息的語義塊,以《知網(wǎng)》知識庫為基礎,提取和定義了表達漢語問句的6種語義塊,將問句復雜的語義表示轉(zhuǎn)化為一種組塊結(jié)構(gòu)。文獻[4]提出了一種融合事件信息的復雜問句分析方法,利用相關(guān)的事件抽取方法獲取復雜問句中的事件信息,生成事件的語義模型實例,然后利用事件語義模型實例構(gòu)成的矢量表征復雜問題的完整語義信息,從而根據(jù)表征矢量計算復雜問句的相似度,實驗結(jié)果顯示在受限領(lǐng)域里取得78.6%的準確率。

      近年來在自然語言處理領(lǐng)域還提出了一些基于主題和焦點的問句分析方法。關(guān)于疑問句焦點的概念多來自于語言學家的研究成果,呂叔湘最早提出“特指問句里的疑問詞代表疑問所在,是疑問的焦點”[10];邵敬敏認為疑問點即疑問句的信息焦點[11]。文獻[12]認為特指疑問句都有焦點,疑問焦點在語言中體現(xiàn)在疑問句的疑問部分。關(guān)于問句主題的概念,語言學家并未明確提出,文獻[13]提出通過句法分析選擇合適粒度的問句中心詞和相關(guān)的修飾詞成為問題的主題。文獻[14]認為問句的主題通常代表一個問題的主要背景或約束,它描述提問用戶的興趣;問句焦點代表問句主題的特定的某個方面的特征。文獻[9]將詢問的焦點定義為問題的問點,問點語義塊通常由疑問詞或由疑問詞和相關(guān)的詞結(jié)合而成。文獻[15]提出了一種基于用戶問題的主題和焦點的問題理解的方法,找出主題和焦點等關(guān)鍵信息在知網(wǎng)中的首義原作為問題分類特征,提高分類效果。文獻[2]研究了面向真實環(huán)境的問句分析方法,將問句中的信息分為問句主題、主題焦點、限制信息、疑問信息塊和其他標記五類,并定義了疑問信息塊的12種類型,通過標注的方式進行識別。

      本文主要關(guān)注了問題語義表征模型、問題主題和焦點兩個方面的研究,從上述問句分析、問題理解的研究方法與成果來看,問題語義信息的抽取仍然較為困難,準確率不高;基于主題和焦點的問題理解方法最大的特點是抓住了問題理解最重要的語義信息,但是忽略了問題中重要的事件信息,而且對含有事件信息的問題理解研究仍然不夠深入。現(xiàn)有的問題語義表征模型表示的語義信息是不完整的,不利于整個問題的理解。本文和文獻[2,9]的研究目的相同,區(qū)別是本文的研究對象是含有事件(動作)信息的問句,試圖從焦點、主題和事件三個維度表征問題的語義成分。

      3 問題語義成分

      問題理解的關(guān)鍵是要識別出問題的主要語義成分,獲取問題的語義信息。問題語義成分及其標注并沒有統(tǒng)一的標準。文獻[16]對現(xiàn)代漢語句子語義成分標注進行研究,將句子劃分為施事、受事等25類語義成分,細化到對句子中每一個詞標注出準確的語義;文獻[2]根據(jù)語義將問句中的信息分為問句主題、主題焦點、疑問信息、限制信息和其它信息五類并進行了分類標注;文獻[9]將問句的主要語義成分分為實體、事件、屬性、屬性值、問點等,以語義塊的方式進行了標注。結(jié)合語言學家和自然語言處理專家提出的焦點和主題的概念,本文將問句中的焦點、主題、事件看作是一種抽象的問題語義成分,與文獻[16]總結(jié)的句子語義成分不同的是,本文提出的問題主題、疑問焦點及問題事件并不是傳統(tǒng)意義上的詞的語義成分,而是將問句關(guān)鍵的語義成分以組塊的形式標注為疑問焦點、問題主題和問題事件,構(gòu)建一種新的問題語義表征模型。

      3.1 主題和焦點

      一個問題的提出一定是圍繞某個話題展開的,問題的背景、上下文能夠?qū)@個問題的領(lǐng)域、范疇給出一些關(guān)鍵信息,對回答這個問題能給出一些指導和幫助。一個問題必定有一個主題,就是該問題疑問的對象究竟是什么。沒有疑問對象的問題,也是沒有意義的。例如,問句“什么是期貨”,可以看出這個問題的主題是“期貨”,它是針對“期貨”這個對象提出疑問;如問句“什么是期貨操盤手”,這個問題的主題是“期貨操盤手”,它是針對“期貨操盤手”這個對象提出疑問,而不是“期貨”。本文認為,主題是提問者最關(guān)切的疑問對象及相關(guān)背景信息,是問題的信息主體,也是問題的關(guān)鍵語義信息。通過找出問題(問句)的主題,在信息搜索時可以檢索出與主題相關(guān)的文檔和段落,有利于后續(xù)答案抽取。

      語言學家關(guān)于焦點的研究成果逐步被引入到中文問答系統(tǒng)問句分析中,文獻[9]將疑問的焦點定義為問題的問點,由疑問詞或由疑問詞和相關(guān)的詞結(jié)合稱之為問點塊;文獻[17]將焦點定義為疑問類型和疑問內(nèi)容的二元組。特指疑問句的疑問詞指代了問題中提問者未知但是需要回答的內(nèi)容,實際就是問題的焦點信息。問題焦點由問句中疑問詞或疑問詞短語構(gòu)成,在問句中反映出最有強度的疑問信息,代表著該問題期待獲得的答案類型及疑問內(nèi)容。如問句“北京銀行的京卡具有哪些用途”,問題期待的答案是“用途”,疑問詞“哪些”反映出問題類型可能是列舉,“哪些用途”反映出該問題的疑問焦點。

      3.2 事件

      通過對大量漢語特殊疑問句的觀察發(fā)現(xiàn),特別是以“怎么、如何、怎么樣、為什么”等疑問詞為代表的特殊疑問句,往往含有大量的事件(動作)信息。如果忽略這些信息,不利于對整個問題的理解。例如,問句1“央行為什么下調(diào)縣域農(nóng)村商業(yè)銀行存款準備金率?”和問句2“央行為什么上調(diào)縣域農(nóng)村商業(yè)銀行存款準備金率?”,問句1包含了一個“下調(diào)”事件;問句2包含了一個“上調(diào)”事件,如果忽略這些事件語義信息,問句1和問句2同義,顯然是不正確的。事件抽取是一個研究熱點問題,國際評測會議MUC(Message Understanding Conference) 和ACE(Automatic Content Extraction)專門負責事件抽取任務的評測,給出了事件的定義和實例,認為事件由事件觸發(fā)詞(Trigger)和描述事件結(jié)構(gòu)的論元(Argument)構(gòu)成[18],文獻[19]基于這種定義,采用最大熵分類方法實現(xiàn)了事件抽取,取得不錯的結(jié)果。文獻[20]認為事件是在某個特定的時間和環(huán)境下發(fā)生的,由若干角色參與,表現(xiàn)出若干動作特征的一件事情。事件六元組中的元素稱為事件要素,分別表示動作、對象、時間、環(huán)境、斷言和語言表現(xiàn)。在問答系統(tǒng)中事件的識別與抽取也引起了相關(guān)學者的研究,時態(tài)(Temporal)問答系統(tǒng)中事件之間的時態(tài)關(guān)系識別、時態(tài)知識庫、事件知識庫是研究的重點問題[21]。文獻[22]給出了時態(tài)問答系統(tǒng)中時態(tài)和事件識別的具體算法和實例。文獻[17]以計算機診斷受限領(lǐng)域問答系統(tǒng)為例構(gòu)建領(lǐng)域事件關(guān)鍵詞庫,定義了事件語義模型,事件由事件觸發(fā)詞觸發(fā),事件觸發(fā)詞是標識事件的動詞或者動詞性名詞,是表示事件發(fā)生的術(shù)語;事件發(fā)生的空間(Where)、時間(When)、參與者(Who,Whom) 和事件發(fā)生的狀態(tài)、方式、程度或效果等要素是事件的論元,事件觸發(fā)詞和事件論元構(gòu)成了事件完整的語義信息。

      本文認為: 漢語疑問句即使是復雜類問句,句子構(gòu)成的詞語數(shù)量有限、句式較短,所包含和揭示的事件信息并沒有中文文本中描述的事件信息豐富,對事件發(fā)生的過程、狀態(tài)、作用效果、程度難以完整地呈現(xiàn),但又是不可缺少的重要因素。通常一個問句的事件往往包含有一個或有限個動詞或動名詞,事件之間的關(guān)系并沒有文本中的事件關(guān)系復雜。借鑒上述事件相關(guān)定義,結(jié)合漢語疑問句的特點,定義一種問題事件語義結(jié)構(gòu),事件由事件觸發(fā)詞和事件論元構(gòu)成,事件觸發(fā)詞是標識問句中事件的動詞或者動詞性名詞(Action);事件的論元表示為事件發(fā)生的空間(Location)、時間(Time)和事件發(fā)生的狀態(tài)、方式、程度或效果等輔助描述要素。觸發(fā)事件的核心動詞或動名詞作為事件核心要素,是識別事件的主要特征;事件的時間、空間或事件效果等作為事件的輔助描述要素。

      定義1 問題事件語義結(jié)構(gòu)(SSQE,Semantic Structure of Question Event )。SSQE=,其中A表示事件觸發(fā)詞動詞或動名詞;L表示事件發(fā)生的空間要素;T表示事件發(fā)生的時間要素;D表示事件發(fā)生的狀態(tài)、方式、程度或效果等輔助描述要素。

      問題事件語義結(jié)構(gòu)將事件簡化表征為包含為動作、時間、空間和效果四要素,事件的施事主體和受事客體等信息被分解為問題主題或疑問焦點信息,并且忽略問句中較少體現(xiàn)的斷言、語言表現(xiàn)、復雜時態(tài)等因素。例如,問句“1998年中國出臺了什么政策成功化解金融危機?”,根據(jù)文獻[20]中事件的定義,該問句的核心事件是“金融危機”。但根據(jù)本節(jié)對問題語義成分的分析和定義1,該問句的主題是“金融危機”,問題焦點是“什么政策”。該問句的問題事件核心觸發(fā)詞是“出臺”、“化解”,“1998年”是時間要素,“中國”是空間要素,“成功”是效果要素?!敖鹑谖C”是該問題主題。

      基于上述分析,對一個含有事件(動作)信息的問句,將其主要語義成分標記為問題主題、疑問焦點和問題事件。獲取這些問題包含的關(guān)鍵語義信息,對問題理解和答案抽取具有非常重要的意義。例如,問句“2013年國內(nèi)哪個銀行率先上調(diào)了房貸利率”,用戶需要知道的答案是“2013年第一個上調(diào)了房貸利率的銀行”,問題的答案一定是“某個銀行”。從問題主題、疑問焦點和事件問題這幾個關(guān)鍵語義要素來解析問句,可以分析出: 問題主題是“房貸利率”,是這個問題的基本背景和話題,也是問題的信息主體,代表著疑問對象;疑問焦點是“哪個銀行”,代表著問題的疑問內(nèi)容;問題事件是“上調(diào)”,“上調(diào)”是金融領(lǐng)域的某個事件信息。“2013年”、“國內(nèi)”、“率先”等信息是關(guān)于時間、地點、程度或效果等事件的輔助描述要素。

      4 問題語義表征模型

      4.1 問題語義組塊的相關(guān)定義

      通過對問題主要語義成分的分析,問題理解的重點是對一個問句中疑問焦點、問題主題和問題事件的表征與識別,抓住了這三個核心語義要素,從語義層面促進了問句分析與問題理解。在問答系統(tǒng)中,為了降低問句句法分析的難度,可采用組塊方式分析問句,提取能表達漢語問句語義層面上的語義塊,通過這些語義塊來幫助實現(xiàn)問句的理解是一種很好的實現(xiàn)模式[9]。將問句中具有固定語義,且位置相對固定的部分稱為語義組塊(Semantic Chunk)。根據(jù)問句中出現(xiàn)的詞及上下文環(huán)境特征,通過構(gòu)建問題的語義組塊,將問句中的詞及詞與詞的組合,歸并到表示問題主要語義信息的疑問焦點、問題主題和問題事件組塊中。Abney[23]最早給出了一個完整的組塊描述體系,組塊是一種語法結(jié)果,其核心思想是把組塊定義為從句內(nèi)的一個非遞歸的核心成分,每個組塊有一個中心詞,組塊內(nèi)的所有成分圍繞該中心詞展開,任何一種類型的組塊內(nèi)部不包含其它類型的組塊。文獻[24]也提出了兩條中文組塊的基本規(guī)則并進行了語義類組塊分析。問題語義組塊的目標是為了從語義角度識別問句中能表達問題語義信息的語塊,對其進行語義上的標注。本文參照組塊的相關(guān)概念,給出三個語義組塊的定義。

      定義2 疑問焦點塊(question focus chunk,QF)。 疑問焦點是與問題類型和答案內(nèi)容密切相關(guān)的疑問內(nèi)容,是問題中最有強度的信息。疑問焦點塊對應的是問句中的疑問詞或疑問詞與名詞短語等詞組的組合。

      定義3 問題主題塊(question topic chunk,QT)。 問題主題是一個問題的疑問對象所在,是問題的信息主體,描述某個與該問題密切相關(guān)的話題和背景。問題主題塊對應的是問句中主要實體信息。

      定義4 問題事件塊(question event chunk,QE)。問題事件是問題中在某個特定的時間和地點下發(fā)生的若干動作行為。一般情況下,動作的觸發(fā)詞是問句中的主要動詞或動名詞。問題事件塊由<(動作),(時間),(空間),(效果)>四元組構(gòu)成。

      4.2 問題語義表征模型

      問題語義表征是一種問句語義信息表示的方法,通過語義組塊的形式,將問句最直觀的疑問焦點、主題和事件等主要信息看作是一種抽象的語義標記,從而達到對問句進行語義分析的目的。通過定義疑問焦點塊、問題主題塊、問題事件塊三個核心語義組塊,對一個問句進行問題語義表征。問題語義表征將一個問句映射為一個問題理解的語義數(shù)據(jù)結(jié)構(gòu),表示問題的語義信息。對一個問句Q,定義一個三元組表示問題語義組塊結(jié)構(gòu)(Question Semantic Chunk Structure,QSCS),如式(1)所示。

      QSCS (Q) ={Qf, Qt, Qe}

      (1)

      Qe=SSQE==

      (2)

      式(1)中的Qf表示疑問焦點塊,Qt表示問題主題塊,Qe表示問題事件塊。式(2)表示問題事件塊的問題事件語義,是一個復合結(jié)構(gòu)。Qea表示問題事件塊的觸發(fā)詞核心動作要素;Qet表示問題事件塊的時間要素;Qel表示問題事件的空間要素;Qed表示問題事件的程度和效果等描述要素。三個語義組塊及其要素由問句中相應的詞語組成。通過問題語義組塊結(jié)構(gòu),采用向量表示問題主要語義成分。

      例句Q: 2013年國內(nèi)哪個銀行率先上調(diào)了房貸利率?

      2013年/Qet國內(nèi)/Qel/哪個銀行/Qf/率先/Qed/上調(diào)/Qe/了/O/房貸利率/Qt

      QSCS(Q)={Qf(<哪個>,<銀行>),Qt(<房貸>,<利率>),Qe}

      Qe=),Qet(<2013年>),Qel(<國內(nèi)>),Qed(<率先>)>,O表示語義組塊以外的其他無關(guān)信息。

      問題語義組塊結(jié)構(gòu)是問題語義表征的一種形式化表示。通過對問句進行問題語義表征,將一個問句轉(zhuǎn)化為一個語義結(jié)構(gòu),而且以語義組塊的形式進行表示,降低了問題語義分析的復雜性。問題語義表征模型獲取了問題的關(guān)鍵語義信息,從而為從語義層面上問題理解提供基礎。在問題語義表征的基礎上,還可以進行問題語義相似度計算。

      例如,問句Q1={2011年哪位運動員艱難獲得了澳大利亞網(wǎng)球公開賽單打冠軍?}、問句Q2={2011年誰最終拿到了澳大利亞網(wǎng)球公開賽單打冠軍?},對兩個問句分別進行問題語義表征后,得到的結(jié)果是:

      QSCS(Q1)=,<運動員>),Qt(<澳大利亞>,<網(wǎng)球>,<公開賽>,<單打>,<冠軍>),Qea(<獲得>),Qet(<2011年>,Qed(<艱難>))>

      QSCS(Q2)=),Qt(<澳大利亞>,<網(wǎng)球>,<公開賽>,<單打>,<冠軍>),Qea(<拿到>),Qet(<2011年>,Qed(<最終>))>

      可以看出,問句Q1和Q2進行問題語義表征之后,建立了問題語義表征結(jié)構(gòu)向量。通過對兩個問題語義表征結(jié)構(gòu)進行相似度計算,可以判斷兩個問題所表達語義的一致性。利用問題語義表征結(jié)構(gòu)還可以對語義組塊的詞語進行語義標注和同義詞擴展,更深層次表達問題的語義信息,也可以采用基于問題語義表征結(jié)構(gòu)對社區(qū)問答系統(tǒng)中大規(guī)模真實問句進行表征后,檢索相似問題。

      5 問題語義組塊標注方法

      在建立問題語義表征之后,如何獲取其對應的語義信息,是要解決的關(guān)鍵問題。不同于文本事件抽取的是,本文面向開放域自動問答系統(tǒng),并不能預先設定事件類別和區(qū)分候選事件。事件抽取方法分為基于規(guī)則的方法和基于機器學習方法?;谝?guī)則的方法依靠經(jīng)驗建立事件觸發(fā)詞庫和時態(tài)知識庫,更適合于受限領(lǐng)域?;跈C器學習的方法在事件抽取中得到了廣泛的應用,例如,隱馬爾科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,ME)、最大熵馬爾科夫模型(Maximum Entropy Markov Model,MEMM)和條件隨機場模型(Conditional Radom Fields,CRFs) 等,這些方法基本思想是將事件抽取任務形式化為序列標注問題[25]或分類問題[18],取得了不錯的效果。本文在識別問題事件信息的同時,還要抽取問題焦點和問題主題等語義信息,因此采用機器學習方法進行語義組塊的識別。IOB2[26]標注體系在中文組塊分析取得了很好的效果。本文使用IOB2策略,將一個問句看作一個序列,問題語義組塊標注轉(zhuǎn)化為序列標注問題,并使用機器學習算法條件隨機場模型進行求解。

      5.1 組塊標注

      采用IOB2策略刻畫每個問句語義組塊標注序列,為此設計一種專門用于問題語義組塊的標注集合。在標注集中,每一個標記均有兩個部分構(gòu)成: 第一部分是詞語在問句語義成分中的位置,起始位置用B(Begin)表示,內(nèi)部位置用I(Inter)標識;第二個部分標識問題語義組塊的類別,分別為Qt(問題主題塊),Qf(疑問焦點塊)、Qea(問題事件塊動作要素)、Qet(問題事件時間要素)、Qel(問題事件空間要素)和Qed(問題事件效果要素)。標注集合為{B-QT,I-QT,B-QF,I-QF,B-QEA,I-QEA,B-QET,I-QET,B-QEL,I-QEL,B-QED,I-QED,O}。不屬于問題語義成分的詞語,統(tǒng)一標記為O(Outer)。

      5.2 序列標注學習模型

      條件隨機場模型(Conditional Random Fields,簡稱CRFs)[27]是一種判別式訓練的概率無向圖模型,它具有表達元素之間的長距離依賴性特征能力以及較好地解決標注偏置問題等特點,在漢語組塊分析取得了最好的識別效果[28]。

      其中,w~v互為圖G中的相鄰節(jié)點。此時,(X,Y)可以看作是一個條件隨機場。

      CRFs模型最簡單的形式是線性的CRFs,即模型中各個節(jié)點之間構(gòu)成線性結(jié)構(gòu)。設觀測序列X=(X1,X2,…,Xn)和輸出標注序列Y=(Y1,Y2,…,Yn),并且假設X,Y的長度相同。聯(lián)合概率分布的表達形式可以寫為式(4)。

      (5)

      其中i遍歷輸入數(shù)據(jù)序列的所有位置,fk(yi-1,yi,x,i)表示在i位置時各個特征組成的特征向量。于是,CRFs定義的條件概率分布為式(6)。

      在確定概率分布公式后,CRFs需要進行參數(shù)估計和解碼。CRFs參數(shù)估計是對概率的對數(shù)最大似然函數(shù)求最值。對于該CRFs概率模型來說,對數(shù)最大似然參數(shù)估計的任務是從相互獨立的訓練數(shù)據(jù)中估計參數(shù)λ=(λ1,λ2,…,λn)的值,文獻[27]提出了兩個迭代縮放的算法GIS算法和IIS算法,用于估計條件隨機場的極大似然參數(shù)。給定一個輸入數(shù)據(jù)序列x,標注的目的就是找出其對應的最可能的標注結(jié)果序列y*,如式(7)所示。

      CRFs使用維特比解碼(Viterbidecoding)算法來得到最佳的標注結(jié)果序列。

      5.3 特征選擇

      在語義組塊標記實驗中采用CRFs模型的實現(xiàn)軟件CRF++作為序列標注工具[29],定義特征函數(shù)

      模板,包括狀態(tài)特征函數(shù)和轉(zhuǎn)移特征函數(shù)。CRF++工具包區(qū)別了兩個類型的特征,一個是Unigram特征;另一個是Bigram特征,區(qū)別是構(gòu)建特征時是否包含前一個輸出。Bigram可以產(chǎn)生更多的特征但是效率較低。本文利用了兩種特征,定義的語義組塊是針對每一個詞進行的,對每一個詞按照一定的規(guī)則進行語義塊標注,在詞層面選擇的特征有詞(Word)特征、詞性(POS)特征以及二者的組合特征。選取特征的范圍包括以當前詞為中心,前后兩個詞,大小范圍為5的窗口內(nèi)的詞和詞性。設計的特征模板如表1所示。

      表1 語義組塊標注特征模板

      其中,特征模板中W代表的是詞本身,P代表了詞性。括號內(nèi)的數(shù)值代表了與當前詞的位置信息,例如,W(0)表示當前詞,W(+1)表示當前詞的后一個詞,W(-1)表示當前詞的前一個詞;“+”號代表特征的組合。CRF++根據(jù)特征模板和訓練語料中的語義組塊標記集,生成全部的特征函數(shù)。

      6 實驗結(jié)果分析

      6.1 實驗語料及評價方法

      本文實驗從百度知道、新浪愛問等互動媒體上搜集了金融、電腦等領(lǐng)域含有事件(動作)信息的問句共11 370個(其中金融領(lǐng)域問句6 670個,電腦領(lǐng)域問句4 700個),使用中科院分詞系統(tǒng)進行了分詞和詞性標注,采用5.1節(jié)中定義的13個標記組成的標記集,對問句集的所有問句按照問題語義表征的標注方法人工進行了語義組塊標注,為了保證人工標注的正確性,在兩人同時標注的基礎上交叉核對,遇到爭議的情況討論決定。在對收集到的問句進行人工標注的過程中,發(fā)現(xiàn)社區(qū)問答系統(tǒng)領(lǐng)域真實問句存在大量事件信息不完整的情況,事件信息完整的問句僅有851個,占7.48%;問句中的時間要素、空間要素或效果部分缺失或全部缺失的情況較為普遍。對標注后的語料的事件要素進行統(tǒng)計情況如表2所示。

      表2 實驗語料事件要素統(tǒng)計

      在實驗中取問句集的2/3(7 580句)用作訓練語料,其余1/3(3 790句)用作測試語料。對于測試結(jié)果的評價分析,本文采用信息檢索常用的3個評測指標: 準確率(P)、召回率(R)和綜合指標F值(F)來評測問題語義組塊識別的結(jié)果。其定義如式(8)所示。

      6.2 實驗結(jié)果分析

      條件隨機場模型在序列標注上具有優(yōu)勢,本文的標注實驗采用CRF++工具包完成??紤]到標注數(shù)據(jù)量有限,實驗中CRF++的參數(shù)設置頻率閾值f默認為1 ;擬合度c 值取值為5。實驗結(jié)果如表3所示。

      表3 基于CRFs的組塊識別實驗結(jié)果

      表3是對疑問焦點塊、問題主題塊及問題事件要素組塊的標注實驗結(jié)果,從中可以看出,問題事件的疑問焦點和問題主題的標注效果較好;問題事件的動作要素標注正確率達到了83.48%。但是,問題事件時間要素、問題事件空間要素、問題事件效果要素等標注正確率并不高。進一步我們做了一個實驗,將疑問焦點塊、問題主題塊全部手工標注為無關(guān)信息(O),定義四個語義組塊QEA,QET,QEL和QED,只對問題事件語義信息進行學習標注,發(fā)現(xiàn)問題事件動作要素的標注正確率達到86.78%,而問題事件其他要素的標注正確率仍然較低。從本實驗中可以發(fā)現(xiàn),問題事件時間、空間和效果等要素的數(shù)據(jù)稀疏,對語義組塊的訓練學習效果具有較大的影響。

      本文還采用最大熵模型、最大熵馬爾科夫模型對本文的語料進行了實驗,并與條件隨機場模型進行了比較,其結(jié)果如表4所示。

      表4 不同模型實驗結(jié)果比較(%)

      從表4不同模型的實驗結(jié)果比較來看,在相同特征和語料庫的條件下,與ME、MEMM模型相比,CRFs取得了較好的性能,CRFs模型能夠考慮到上下文標記間的轉(zhuǎn)移概率,克服了最大熵馬爾科夫模型所具有的標記偏置的問題。

      7 結(jié)論及展望

      研究復雜類問題的問題理解算法是實現(xiàn)面向中文問答系統(tǒng)的關(guān)鍵步驟。目前很少有針對復雜類問題的問題理解方法,復雜問題處理的一個難點如何處理其中包含的事件信息以及這些事件的語義信息。復雜類問題所蘊涵的語義信息如沒有得到全面的分析和理解,導致句子理解并不能從語義層面上進行處理,問答系統(tǒng)難以獲得滿意的效果。由此可見,要提高中文問答系統(tǒng)的水平,關(guān)鍵在于提高問題理解,特別是在問題理解語義分析上的水平。本文從疑問焦點、問題主題和問題事件三個語義成分的角度,提出了一種問題語義表征模型,試圖獲取復雜類問題的問題語義信息,目前較為困難的是對問題中事件語義的表征,且語義組塊內(nèi)的結(jié)構(gòu)信息或語義組塊之間的關(guān)系難以獲取,同時缺乏足夠的問題語義組塊標注語料,在自動標注方面還難以取得出色的效果。下一步將嘗試采用半監(jiān)督學習算法,探索在語料標注資源有限的情況下的自動標注算法,并且考慮加入語義組塊內(nèi)部結(jié)構(gòu)信息或語義組塊之間的關(guān)系,以提高問題理解的性能。

      [1] 鄭實福,劉挺,秦兵等.自動問答綜述[J]. 中文信息學報,2002, 16(6):46-52.

      [2] 范士喜,王曉龍,王軒等.面向真實環(huán)境的問句分析方法[J].電子學報,2010,38(5):1131-1135.

      [3] 張志昌,張宇,劉挺等.開放域問答技術(shù)研究進展[J].電子學報,2009,37(5):1058-1069.

      [4] 劉小明,樊孝忠,劉里.融合事件信息的復雜問句分析方法[J].華南理工大學學報, 2011,39(7):140-145.

      [5] 由麗萍,范開泰,劉開瑛. 漢語語義分析模型研究述評[J].中文信息學報, 2005, 19 (6) : 57-64.

      [6] 朱倩,程顯毅,韓飛.漢語句子語義三維表示模型[J].智能系統(tǒng)學報,2009,4(2):122-130.

      [7] 陳康,樊孝忠,劉杰等.基于問句語義表征的中文問句相似度計算方法[J].北京理工大學學報,2007,27(12):1073-1076.

      [8] 陳康,樊孝忠,劉杰等.受限領(lǐng)域問答系統(tǒng)的中文問句分析研究[J].計算機工程,2008,34(10):25-27.

      [9] 余正濤,樊孝忠.基于最大熵模型的漢語問句語義組塊分析[J].計算機工程,2005,31(17):3-5.

      [10] 呂叔湘. 疑問?否定?肯定[J]. 中國語文, 1985, 4: 241-250.

      [11] 邵敬敏.現(xiàn)代漢語疑問句研究[M]:華東師范大學出版社,1996.

      [12] 尹洪波.現(xiàn)代漢語疑問句焦點研究[J].江漢大學學報(人文科學版),2008,27(1):92-96.

      [13] 陳永平,楊思春,毛萬勝等.中文問答系統(tǒng)中基于主題和焦點的問題理解[J].計算機系統(tǒng)應用,2011,20(6):56-60.

      [14] Huizhong Duan, Yunbo Cao, Chin Yew Lin, et al. Searching questions by identifying question topic and question focus[C]//Proceedings of ACL 2008: HLT. Columbus, Ohio, USA: Association for Computational Linguistics, 2008: 15-20.

      [15] 孫景廣,蔡東風,呂德新.基于知網(wǎng)的中文問題自動分類[J].中文信息學報,2007,21(1),90-95.

      [16] 亢世勇,許小星,劉金鳳等.現(xiàn)代漢語句子語義成分標注研究[C]//第七屆中文信息處理國際會議論文集.2007.

      [17] 劉小明,樊孝忠,李方方.一種結(jié)合本體和焦點的問題分類方法.北京理工大學學報[J].2012,32(5):498-502.

      [18] ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events. National Institute of Standardsand Technology, 2005.

      [19] 趙妍妍,秦兵,車萬翔等.中文事件抽取技術(shù)研究[J].中文信息學報,2008,22(1): 3-8.

      [20] 劉宗田,黃美麗,周文等.面向事件的本體研究[J].計算機科學,2009, 36(11):189-192.

      [21] Frank Schilder, Christopher Habel.Temporal information extraction for temporal question answering[R]. AAAI Technical Report SS-03-07,2003.

      [22] James Pustejovsky, Luc Belanger.NRRC summer workshop on temporal and event recognition for question answering systems[R].Technical Report,2002.

      [23] Abney S.Part of speech tagging and partial parsing,In: Ken Church,Steve Young and Gerrit Bloothooft(eds.)[C]//Proceedings of the Corpus-Based Methods in Language end Speech,An ELSNET Volume.Kluwer Academic Publishers,Dordrecht,1996, 119-136.

      [24] 孫廣路,郎非,薛一波.基于條件隨機域和語義類的中文組塊分析方法[J].哈爾濱工業(yè)大學學報,2011,43(7):135-139.

      [25] 胡博磊,賀瑞芳,孫宏等.基于條件隨機域的中文事件類型識別[J].模式識別與人工智能,2012,25(23):445-449.

      [26] Ramshaw L, Marcus M. Text chunking using transformation-based learning [C]//Proceedings of the 3rdWorkshop on Very Large Corpora. Stroudsburg, PA: Association for Computational Linguistics, 1995: 82-94.

      [27] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the 18th Int Conf on Machine Learning. San Francisco, CA: Morgan Kaufmann, 2001:282-289.

      [28] 周俊生,戴新宇,陳家駿等.基于大間隔方法的漢語組塊分析[J].軟件學報,2009,20(4):870-877.

      [29] Taku K.CRF++ Toolkit[CP].(2003-01-06)[2009-01-02].http://crfpp.sourceforge.net.

      Event Information Enhanced Question Semantic Representation for Chinese Question Answering System

      WEI Chuyuan1, 2, ZHAN Qiang1, FAN Xiaozhong1, MAO Yu1, ZHANG Dakui1

      (1. School of Computer Science &Technology, Beijing Institute of Technology, Beijing 100081, China;2. Department of Computer Science&Technology, Beijing University of Civil Engineering and Architecture, Beijing 100044, China)

      Question understanding of complex questions is a challenging issue in question answering system. For complex questions containing events (actions) information, this paper presents a question semantic representation (QSR) model based on semantic chunk. The semantic components of a complex question are labeled abstractly as the question focus, the question topic and the question event. A Semantic Structure of Question Event is then created to represent the semantic information of question event, including the question focus chunk, the question topic chunk and the question event chunk. To map the interrogative sentence into this question semantic representation, the Conditional Random Fields model is adopted for automatic semantic labeling of question semantic representation. The results show that automatic semantic labeling gains better performance.

      complex classes of questions; event; question semantic representation; semantic chunk; question understanding

      魏楚元(1977—),博士研究生,副教授,主要研究領(lǐng)域為自然語言處理、問答系統(tǒng)。E?mail:weichuyuan@bucea.edu.cn湛強(1975—),博士研究生,講師,主要研究領(lǐng)域為自然語言處理。E?mail:zq156259@126.com樊孝忠(1948—),教授,博士生導師,主要研究領(lǐng)域為自然語言處理、數(shù)字化網(wǎng)絡教學。E?mail:fxz@bit.edu.cn

      1003-0077(2015)01-0146-09

      2014-05-14 定稿日期: 2014-09-19

      國家重點基礎研究發(fā)展計劃 (973 計劃)(2013CB329303);國家自然科學基金(61371194);北京市優(yōu)秀人才培養(yǎng)資助項目(2013D005017000006)

      TP391

      A

      猜你喜歡
      組塊焦點語義
      焦點
      橫浪作用下大型上部組塊雙船浮托安裝動力響應特性試驗研究
      語言與語義
      “兩會”焦點
      南方周末(2018-03-08)2018-03-08 08:34:56
      本期焦點
      陸豐7-2油田導管架平臺上部組塊低位浮托安裝關(guān)鍵技術(shù)
      “上”與“下”語義的不對稱性及其認知闡釋
      焦點
      攝影之友(2016年8期)2016-05-14 11:30:04
      認知范疇模糊與語義模糊
      英語詞匯組塊學習路徑研究——組塊法
      思南县| 宣城市| 石景山区| 尖扎县| 延安市| 庆阳市| 徐汇区| 玉树县| 上高县| 大同市| 海阳市| 和田县| 瓦房店市| 兖州市| 阿城市| 邵阳县| 庐江县| 凤凰县| 沙湾县| 太仆寺旗| 枞阳县| 西华县| 胶南市| 东山县| 德兴市| 上犹县| 冕宁县| 乐至县| 新营市| 葵青区| 安塞县| 克什克腾旗| 东山县| 濮阳市| 富锦市| 汉阴县| 巴塘县| 巴彦县| 兰溪市| 河西区| 彩票|