• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體和語義文法的上下文相關(guān)問答

      2016-05-04 02:55:58王東升王衛(wèi)民劉亮亮符建輝
      中文信息學(xué)報(bào) 2016年2期
      關(guān)鍵詞:焦點(diǎn)本體語義

      王東升,王 石,王衛(wèi)民,劉亮亮,符建輝

      (1. 江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江 212001;2. 中國科學(xué)院 計(jì)算技術(shù)研究所,北京 100190;3. 北京工業(yè)大學(xué) 國際WIC研究院,北京 100022)

      基于本體和語義文法的上下文相關(guān)問答

      王東升1,3,王 石2,王衛(wèi)民1,劉亮亮1,符建輝2

      (1. 江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江 212001;2. 中國科學(xué)院 計(jì)算技術(shù)研究所,北京 100190;3. 北京工業(yè)大學(xué) 國際WIC研究院,北京 100022)

      在問答系統(tǒng)中,用戶的提問通常不是孤立的,而是使用連續(xù)的多個(gè)相關(guān)的問題來獲取信息,用戶在與這樣的系統(tǒng)進(jìn)行交互時(shí),才會感覺更自然。在已構(gòu)建的非上下文相關(guān)問答系統(tǒng)的基礎(chǔ)上,該文提出了一種可以處理上下文相關(guān)問題的方法并開發(fā)了系統(tǒng)OSG-IQAs。方法首先識別當(dāng)前問題是否是一個(gè)從問題(follow-up),并判別其與前面問題的具體的相關(guān)類別,然后根據(jù)相關(guān)類別,利用話語結(jié)構(gòu)中的信息對當(dāng)前的follow-up問題進(jìn)行重構(gòu),并提交到非上下文相關(guān)問答系統(tǒng)中。最后,將方法在兩個(gè)不同規(guī)模的領(lǐng)域進(jìn)行測試,并與相關(guān)系統(tǒng)或方法進(jìn)行比較,測試結(jié)果表明,該方法具有較好的可擴(kuò)展性。在總體測試中,該方法比基線系統(tǒng)獲得了更好地效果,同時(shí)利用手工將所有上下文相關(guān)問題進(jìn)行上下文消解,系統(tǒng)與此也進(jìn)行了比較,并獲得了相近的性能。

      本體;語義文法;上下文;問答

      1 前言

      近年來,上下文相關(guān)的問題回答(IQA)系統(tǒng)作為一種獲取信息的新技術(shù)獲得了越來越多的關(guān)注。正如一些作者指出[1-2],問答系統(tǒng)過程單回合的提問方式往往不能滿足用戶的信息獲取需求。在人機(jī)交互中,用戶所提問的問題都是與同一個(gè)主題相關(guān)的,所以用戶在形成新問題時(shí),可以重復(fù)使用部分上下文信息。幾種比較常見的上下文現(xiàn)象包括省略(ellipsis)、指代(anaphora)、明確說明(definite descriptions)等[3-4]。

      上下文現(xiàn)象中的指稱消解是交互式問答系統(tǒng)的一大挑戰(zhàn)。為了能夠消解上下文現(xiàn)象,在人機(jī)交互的過程中,系統(tǒng)必須對用戶的關(guān)注焦點(diǎn)進(jìn)行跟蹤記錄。本文構(gòu)建了一個(gè)基于本體和語義文法的上下文相關(guān)問答系統(tǒng)(OSG-IQAs),這個(gè)系統(tǒng)是在已建立的一個(gè)非上下文問答系統(tǒng)基礎(chǔ)之上建立的(OSG-QAs)[5]。在構(gòu)建OSG-QAs時(shí),首先創(chuàng)建用本體描述的領(lǐng)域模型以及通過抽象常見問題來設(shè)計(jì)語義文法,其中領(lǐng)域中的概念、屬性和關(guān)系映射到領(lǐng)域本體。在處理用戶查詢句子時(shí),通過生成句子的解析樹,實(shí)現(xiàn)將用戶查詢句子中所關(guān)心的概念、屬性或概念間的關(guān)系與領(lǐng)域概念模型片斷的匹配,并依據(jù)匹配結(jié)果和語義動(dòng)作的參數(shù)列表,實(shí)例化參數(shù),并從預(yù)先構(gòu)造的數(shù)據(jù)庫中查詢答案并返回給用戶,領(lǐng)域本體及語義文法的具體解析過程詳見文獻(xiàn)[5]。

      當(dāng)領(lǐng)域相關(guān)的用戶問題不能從OSG-QAs得到答案時(shí),也就是說,用戶問題沒有生成任何解析樹,那么在這種情況下,系統(tǒng)將認(rèn)為這個(gè)問題極有可能是一個(gè)follow-up問題(即該問題與用戶已經(jīng)提過的其他問題相關(guān),在該問題中,用戶重用了部分上文信息)。

      在OSG-QAs中,問題沒有生成任何解析樹的原因主要有兩種。第一,用戶的當(dāng)前問題是領(lǐng)域相關(guān)的,但沒有被已有的語義文法所覆蓋;第二,用戶的問題中省略或遺漏了部分信息,而這些信息正是生成解析樹所必須的,也就是說,用戶的問題是語義不完整的,而這些省略掉的信息可能包含在用戶以前的問題或系統(tǒng)給出的答案中。第一種原因在OSG-QAs中是幾乎可以忽略的,因?yàn)樵谙到y(tǒng)穩(wěn)定運(yùn)行一段時(shí)間之后,系統(tǒng)的知識庫將逐漸得到完善,絕大部分的語義完整、領(lǐng)域相關(guān)的問題都可以生成一棵或多棵解析樹。另外,當(dāng)一個(gè)問題所生成的得分最高的解析樹中的分值低于某一個(gè)設(shè)定閾值時(shí),也認(rèn)為這個(gè)問題可能是一個(gè)follow-up問題,上述判別主要是基于這樣的直觀想法:不匹配比弱匹配更好(Non-match is better than poor match)。

      雖然一個(gè)上下文相關(guān)問題通常包含了指代表述或省略了一些重要的內(nèi)容,但我們認(rèn)為如果能夠依據(jù)問題的上下文信息,將這些上下文中的指代成分正確消解或缺失信息補(bǔ)充完整,則依然可以將這些“補(bǔ)充完整”的句子提交到一個(gè)非上下文問答系統(tǒng)中并得到正確答案。在OSG-IQAs中,我們就是按照這樣的思路來回答用戶的上下文相關(guān)問題。系統(tǒng)首先識別上下文現(xiàn)象的類別,并采用不同的策略來恢復(fù)問題中“丟失掉”的信息,最后,將恢復(fù)后的問題再次提交到非上下文問答系統(tǒng)OSG-QAs中進(jìn)行分析。

      2 相關(guān)工作

      2.1 上下文問答

      近年來,基于上下文的問答系統(tǒng)引起了很多的國際會議和期刊的關(guān)注[6-8]。上下文相關(guān)問答最早是于2001年國際著名的文本檢索會議(TREC)中作為一個(gè)挑戰(zhàn)任務(wù)。在TREC中,一個(gè)QA競賽單元(Track)試圖評估參賽問答系統(tǒng)在一系列問題中跟蹤上下文的能力。然而,Voorhees對這一評測任務(wù)作出了這樣的評價(jià):“一個(gè)問題系列中的第一個(gè)問題通常已經(jīng)將后續(xù)問題答案的查找范圍限定在了一個(gè)足夠小的文檔子集合中,所以整個(gè)上下文問答系統(tǒng)性能直接受第一個(gè)問題是否能夠被正確回答影響,而與系統(tǒng)的上下文跟蹤能力不是很相關(guān)”[9]。正是由于上述原因,在后續(xù)的幾屆TREC會議中,上下文問答任務(wù)沒有被作為挑戰(zhàn)任務(wù)[10]。2004年,TREC會議重新推出了這一任務(wù),并將所有問題組織在64個(gè)系列中,每個(gè)系列中的問題重點(diǎn)關(guān)注某一個(gè)特定的主題。文獻(xiàn)[11]比較了TREC數(shù)據(jù)和真正的問答系統(tǒng)的日志,發(fā)現(xiàn)TREC的數(shù)據(jù)集與用戶的真實(shí)問題在一些方面還有較大的區(qū)別,比如,TREC數(shù)據(jù)集中的問題通常比較長,而實(shí)際用戶的問題一般比較短;TREC數(shù)據(jù)集中的指代現(xiàn)象比較多,而實(shí)際用戶問題中的指代現(xiàn)象較少等。所以,他們建議在以后類似的評測中,應(yīng)該考慮這些因素,并使得評測數(shù)據(jù)集中的問題盡量真實(shí)。

      在一個(gè)系列問題中,較早出現(xiàn)的問題通常為后續(xù)的問題提供了上下文環(huán)境。然而,在現(xiàn)實(shí)中,QA系統(tǒng)并不會被提前告知各個(gè)系列之間的界線。文獻(xiàn)[12]提出了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的方法來識別系列之間的界線。具體來說,若當(dāng)前問題與前面的問題相關(guān),則認(rèn)為當(dāng)前的問題與前面的問題屬于同一個(gè)系列中;反之,若當(dāng)前問題與前面的問題不相關(guān),則認(rèn)為這個(gè)問題屬于一個(gè)新的系列,作者使用決策樹學(xué)習(xí)方法,將界線識別問題看作是一個(gè)二元分類問題:一個(gè)問題開始了一個(gè)新的主題或延續(xù)現(xiàn)有的主題。他們的方法并不能直接應(yīng)用于本文的系統(tǒng)中,因?yàn)楸疚牡南到y(tǒng)不但要識別當(dāng)前問題是否是一個(gè)follow-up問題,還要識別當(dāng)前問題與前面問題的關(guān)聯(lián)類別。在識別follow-up問題的具體類別方面,文獻(xiàn)[13]等指出在交互式問答系統(tǒng)中,通過度量問題和答案之間的淺層詞匯相似性來區(qū)分follow-up問題類別的性能與手工標(biāo)注相近(如主題延續(xù)和主題轉(zhuǎn)移)。文獻(xiàn)[14]對這一方法進(jìn)行了改進(jìn),提出的方法基于不同的對話理論和話語結(jié)構(gòu),并加入了一些深層次的特征來度量文本之間的一致性。然而,前述幾種識別follow-up類別的方法中,要么是使用單一的、手工選擇的淺層或深層特征,要么是使用手工選擇的淺層特征與深層特征的組合,這些方法的缺點(diǎn)是需要較多的人工干預(yù),對系統(tǒng)效率有一定的限制。文獻(xiàn)[15]對上述幾個(gè)系統(tǒng)的方法進(jìn)行了優(yōu)化,通過自動(dòng)收集對話管理的元數(shù)據(jù)來增加新的特征,并通過主成分分析(PCA)將這些信息進(jìn)行組合。

      在由日本國家信息研究所主辦的一系列信息檢索評測講習(xí)班NTCIR上,一個(gè)上下文語境任務(wù)也被作為問答競賽單元的一個(gè)子任務(wù)。他們根據(jù)文獻(xiàn)[16]的建議準(zhǔn)備了NTCIR QAC的測試數(shù)據(jù),即:1)一個(gè)系列中的問題應(yīng)該相對較多,通常應(yīng)該達(dá)到七個(gè)問題(QAC-3);2)引入兩種系列類型,分別是集中型和瀏覽型,在集中型系列中,所有問題都是與同一個(gè)主題相關(guān)的,而在瀏覽型系列中,隨著對話的進(jìn)行,主題不斷變化。在處理這兩種類型系列中的問題時(shí),都需要將先前的交互歷史考慮進(jìn)來,并且進(jìn)行某種形式的語境融合,即識別出先前交互歷史中與follow-up問題相關(guān)的信息,并且能夠?qū)⑦@些信息用于處理follow-up問題。在不同類別的follow-up問題中,最重要的是要能夠區(qū)分話題轉(zhuǎn)移(Topic Shift)和話題繼續(xù)(Topic Continuation)兩種類別,在處理這兩種類別時(shí),通常需要使用完全不同的處理策略。

      因此,在交互式問答領(lǐng)域中,重要的子任務(wù)包括確定問句的分類體系,識別問句所屬的類別,以及針對每一種類別制定不同的語境融合策略[17]。

      總的來說,目前所采用的語境融合方法可以分為兩類,第一類方法主要將語境融合的焦點(diǎn)放在文檔/文本片段的檢索過程中,主要思想是對當(dāng)前提交給檢索系統(tǒng)的query進(jìn)行擴(kuò)展,而用來擴(kuò)展的相關(guān)的詞或短語出現(xiàn)在以前提交給系統(tǒng)的問題中[18]。第二類方法則基于指代消解等方法對問題進(jìn)行完善,完善過程包括用具體的指示成分來代替代詞,補(bǔ)充完整省略的成分等,對問題完善后,再將完善后的問題提交到一個(gè)非上下文問答系統(tǒng)[6]。為了保證問句完善的正確性,文獻(xiàn)[10]提出一種檢查問題的完善是否合適的方法,方法主要檢測完善后的問題是否與知識庫相一致,以及檢測完善后的問題是否與語境相一致。

      本文提出的方法與上述的第二種方法類似。但是,本文所使用的上下文信息并不是簡單的出現(xiàn)在以前的問題中的關(guān)鍵詞或短語,而是系統(tǒng)對于以前的問題的理解結(jié)果。此外,我們根據(jù)不同的上下文關(guān)聯(lián)類別分別將上下文信息的不同部分融合到當(dāng)前問句的理解過程中。

      2.2 話語建模

      為了能夠解決上下文問題,問答系統(tǒng)通常需要在與用戶的交互過程中,跟蹤并保存用戶的關(guān)注焦點(diǎn)。在人機(jī)交互過程中,通常使用一個(gè)話語結(jié)構(gòu)(Discourse Structure)來對某一時(shí)刻的用戶關(guān)注狀態(tài)進(jìn)行建模。在自然語言處理領(lǐng)域,已經(jīng)有大量關(guān)于話語建模的工作。關(guān)于話語的研究主要解決兩個(gè)重要的問題:1)要從話語中獲得什么信息;2)這些信息將如何應(yīng)用到語言解釋和語言生成中。

      已經(jīng)出現(xiàn)了很多的關(guān)于文本或?qū)υ挼睦碚摚罢呷鏗obbs theory[19]和Rhetorical Structure Theory[20],后者如Grosz與Sidner的對話理論(Conversation Theory)[21]和話語表示理論[22]。文獻(xiàn)[23]認(rèn)為,在系統(tǒng)和用戶的行為有限的情形下,人機(jī)交互中的自然語言接口所涉及的話語結(jié)構(gòu),比隱藏于實(shí)際的人與人之間對話中的話語結(jié)構(gòu)要簡單的多。文獻(xiàn)[24-25]實(shí)現(xiàn)了一個(gè)名為yourQA的面向開放域的問答系統(tǒng),在交互時(shí),用戶可以以自然對話的方式向系統(tǒng)提交查詢語句。在yourQA系統(tǒng)中,他們增加了一個(gè)名為user mode的模塊,這個(gè)模塊主要負(fù)責(zé)跟蹤并記錄用戶的年齡范圍,閱讀水平和用戶所感興趣的網(wǎng)頁[26]等,同時(shí),系統(tǒng)使用了一個(gè)對話管理器來管理用戶與系統(tǒng)之間的對話,對話管理器通過識別用戶查詢語句中的言語行為(Speech Act),并使用不同的策略來消解不同的上下文指代問題,從而使得系統(tǒng)能夠智能地與用戶進(jìn)行交互。

      文獻(xiàn)[2]提出了一種新的面向交互式問答系統(tǒng)的話語模型,在這個(gè)話語模型中,系統(tǒng)跟蹤并記錄了用戶查詢語句之間的主題轉(zhuǎn)換。雖然關(guān)于跟蹤查詢語句之間的主題轉(zhuǎn)換的應(yīng)用還沒有進(jìn)行較深入的研究,但文獻(xiàn)[27]給出了一個(gè)初步的試驗(yàn),他們使用一種基于中心理論的主題轉(zhuǎn)換模型來處理上下文相關(guān)問題,試驗(yàn)結(jié)果表明他們的方法要優(yōu)于一般的查詢擴(kuò)展方法。

      上述提到的話語結(jié)構(gòu)對于中小型應(yīng)用來說顯得比較復(fù)雜,并且通常都需要依賴于對用戶查詢語句的深層次理解,而自然語言理解目前還是一個(gè)很不成熟的技術(shù)。本文中,我們提出了一個(gè)包含問句語義信息的話語結(jié)構(gòu),問句的語義信息通過對問句的淺層次語言理解獲得;在與用戶的交互過程中,系統(tǒng)還將動(dòng)態(tài)地更新話語結(jié)構(gòu)中的信息。

      3 領(lǐng)域建模

      在構(gòu)建系統(tǒng)時(shí),需要首先建立領(lǐng)域本體和問題本體,其中,問題本體與本文的上下文相關(guān)問答密切相關(guān)。“問題本體”主要是用于處理用戶問題。問題本體刻畫了用戶查詢意圖的語義分類,語義文法中的開始符與查詢意圖相對應(yīng)。問題本體本質(zhì)上對應(yīng)著用戶查詢問題的分類體系,本體的上層對應(yīng)著對查詢問題意圖的粗分類,而本體的下層則對應(yīng)著查詢問題意圖的細(xì)分類。問題本體中的節(jié)點(diǎn)的粒度大小與具體的應(yīng)用相關(guān),比如,可以將問題本體分為三層,第一層包括所有的問題集合,第二層是對問題的主題分類,這是一個(gè)粗分類,第三層為問題查詢意圖的分類(也稱作問題焦點(diǎn)),這是在每一個(gè)主題下的細(xì)分類。為了下文舉例的方便,這里給出一個(gè)通信業(yè)務(wù)信息查詢領(lǐng)域的問題本體,如圖1所示。

      圖1 問題本體示例

      在上述問題本體中,第二層對應(yīng)著對用戶查詢問題意圖的粗分類,也稱主題分類,再在每一個(gè)主題類中,對用戶查詢問題的意圖進(jìn)行進(jìn)一步細(xì)分,比如主題“分期付款”下面包括分期付款辦理,分期付款手續(xù)費(fèi)等等(用“IO”表示Instance Of“是實(shí)例”關(guān)系)。

      4 上下文相關(guān)問答

      4.1 話語結(jié)構(gòu)

      在人機(jī)交互過程中,本文使用話語結(jié)構(gòu)來跟蹤并記錄人機(jī)對話的狀態(tài)。在OSG-IQAs系統(tǒng)中,話語結(jié)構(gòu)中包含了下面幾個(gè)槽信息,分別是:用戶ID,目標(biāo)概念,主題,查詢焦點(diǎn)。其中,用戶ID可以根據(jù)應(yīng)用的需要,填充不同的值,如電話號碼,IP地址等,其作用是:QA系統(tǒng)可能與多個(gè)用戶在同時(shí)交互,利用用戶ID來判別問題是否來自同一個(gè)用戶,只有來自同一個(gè)用戶的問題才是本文上下文相關(guān)問答所關(guān)心的。目標(biāo)概念與領(lǐng)域本體中的概念相對應(yīng),表明當(dāng)前問題所關(guān)心的具體概念,如某一個(gè)具體業(yè)務(wù)等;主題對應(yīng)于問題本體中的非葉節(jié)點(diǎn),表示了用戶查詢意圖的粗分類;查詢焦點(diǎn)與問題本體中的葉子節(jié)點(diǎn)相對應(yīng),它表明了用戶當(dāng)前的查詢關(guān)注點(diǎn)。目標(biāo)概念,主題以及查詢焦點(diǎn)與一個(gè)用戶查詢語句的語義信息相關(guān)聯(lián),是從查詢語句的理解結(jié)果中獲得的,而這些信息都是組織在領(lǐng)域本體和問題本體中的。話語結(jié)構(gòu)如下所示。

      話語結(jié)構(gòu){

      槽名:用戶ID

      槽名:目標(biāo)概念

      槽名:主題

      槽名:查詢焦點(diǎn)

      }

      例如,當(dāng)一個(gè)用戶向系統(tǒng)提交了查詢語句:

      南航信用卡有什么特色?

      經(jīng)過系統(tǒng)的理解后,所對應(yīng)的話語結(jié)構(gòu)如表1所示。

      表1 話語結(jié)構(gòu)示例

      表1中的話語結(jié)構(gòu)目標(biāo)概念是在語義動(dòng)作中加以標(biāo)志并抽取出的概念實(shí)例;查詢焦點(diǎn)對應(yīng)著語義解析樹的根節(jié)點(diǎn);而主題“介紹”則是在獲得查詢焦點(diǎn)后,利用問題本體中的主題-查詢焦點(diǎn)的上下位關(guān)系獲得的。

      根據(jù)不同的應(yīng)用需求,話語結(jié)構(gòu)中所記錄的信息的粒度大小以及包括信息的多少都可以改變。信息的粒度越小,越有利于將它們應(yīng)用于語境推理。但是,信息粒度越小,就意味著需要對查詢語句進(jìn)行更深層次的語義理解,也就意味著系統(tǒng)的復(fù)雜度越高。所以,在具體設(shè)計(jì)話語結(jié)構(gòu)時(shí),需要充分考慮到系統(tǒng)的實(shí)現(xiàn)復(fù)雜度。

      4.2 話語轉(zhuǎn)換

      定義1 (Follow-up問題)Follow-up問題是指該問題與用戶已經(jīng)提過的其他問題相關(guān),在該問題中,用戶重用了與其相關(guān)的問題的部分上文信息,需借助于相關(guān)問題才能正確理解Follow-up問題。

      在上下文相關(guān)問題回答中,問題之間的相互關(guān)系取決于話語結(jié)構(gòu)中的各個(gè)部分(稱作“槽”)的演變情況。本文依據(jù)話語結(jié)構(gòu)中槽的演變將話語轉(zhuǎn)換分為三種類型,即目標(biāo)概念轉(zhuǎn)換,查詢焦點(diǎn)轉(zhuǎn)換,同一個(gè)主題中的查詢焦點(diǎn)細(xì)化。

      從一個(gè)問題到另一個(gè)問題的轉(zhuǎn)換類型將決定在解釋問句時(shí)如何使用上下文信息。話語轉(zhuǎn)換類別也是與對話語結(jié)構(gòu)的不同角度相對應(yīng),在下面,我們將通過具體的例子來說明不同類型的話語轉(zhuǎn)換。在下面的例子,方括號中的文字表示用戶在提交的查詢句子中省略的部分。

      1. 目標(biāo)概念轉(zhuǎn)換(TCS,Target Concept Shift)

      當(dāng)前問題與前面的相關(guān)問題關(guān)注了同樣的屬性或焦點(diǎn),但是和不同的概念實(shí)體相關(guān),也就是目標(biāo)概念不同,例如:

      (a)

      (a.1)南航信用卡有什么特色?

      (a.2)運(yùn)通信用卡[有什么特色]呢?

      在上述問題系列(a)中,前一個(gè)問題與后一個(gè)問題是關(guān)于不同目標(biāo)概念的相同的查詢焦點(diǎn),兩個(gè)問題分別問詢了兩個(gè)不同的目標(biāo)概念,即“南航信用卡”和“運(yùn)通信用卡”的相關(guān)情況,但其所關(guān)注的查詢焦點(diǎn)是相同的,即都是關(guān)于兩個(gè)目標(biāo)概念的“特色介紹”。在這個(gè)例子中,若要能夠正確處理后一個(gè)問題,則要能夠從其前面的問題中恢復(fù)“被遺漏”的信息。

      2. 查詢焦點(diǎn)轉(zhuǎn)換(QFS, Query Focus Shift)

      這種類型的話語轉(zhuǎn)換的特點(diǎn)是,當(dāng)前問題與前面的問題描述的是同一個(gè)目標(biāo)概念,但是關(guān)注的卻是目標(biāo)概念的不同方面,即查詢焦點(diǎn)不同。根據(jù)目標(biāo)概念是否在前面的問題中被顯式地提到,可以再細(xì)分為兩種類型:

      (1) Follow-up問題與前面的問題是相關(guān)的,并且目標(biāo)概念在前面的問題中被顯式地表達(dá)出來,例如下面的一個(gè)問題系列:

      (b)

      (b.1) 南航信用卡有什么特色?

      (b.2) [南航信用卡] 如何辦理?

      (b.3) [該卡] 在國外可以使用嗎?

      (b.4) 如何辦理 [它]?

      (b.5) [它] [的] 手續(xù)費(fèi)如何收?

      在上面的問題系列中,從(b.1)到(b.5)的所有問題詢問的都是關(guān)于同一個(gè)目標(biāo)概念,即“南航信用卡”,但是,這些問句卻關(guān)注了目標(biāo)概念的不同方面,即問題的查詢焦點(diǎn)不同。這種類型的話語轉(zhuǎn)移的特點(diǎn)是:目標(biāo)概念在前面的問題中被顯式地表達(dá)出來,但在follow-up問題中被省略了。比如例子中的目標(biāo)概念“南航信用卡”在(b.1)問題中被顯式地表達(dá)出來了。

      (2) Follow-up問題與前面的問題是相關(guān)的,并且目標(biāo)概念沒有在前面的問題中被顯式地表達(dá)出來,也就是說,F(xiàn)ollow-up問題是與前面問題的答案相關(guān),例如:

      (c)

      (c.1) 有什么卡可以分期付款并且可以在國外使用?

      (c.2) [它]怎么辦理?

      在這個(gè)例子中,follow-up問題(c.2)中被省略的“它”指向隱含在前面的問題(c.1)中的目標(biāo)概念,即指向問題(c.1)的答案中的概念。這種指代使用傳統(tǒng)的消解方法是無法成功的,因?yàn)樗复膶?shí)體在前面的問題中根本沒有出現(xiàn)。這種類型的指代消解需要依賴對前面問題的理解基礎(chǔ)上才能成功。

      3. 同一個(gè)主題中的查詢焦點(diǎn)細(xì)化(IFR, In-topic Focus Refinement)

      幾個(gè)相關(guān)的問題查詢的是同一個(gè)目標(biāo)概念和主題,但針對不同的查詢焦點(diǎn),這些查詢焦點(diǎn)在問題本體中處于同一個(gè)主題下,例如:

      (d)

      (d.1) 南航信用卡 分期付款 怎么辦理?

      (d.2) [南航信用卡] [分期付款] 手續(xù)費(fèi)怎么收 呢?

      在這個(gè)例子中,前面的問題(d.1)查詢的是關(guān)于目標(biāo)概念“南航信用卡”的查詢焦點(diǎn)“分期付款辦理方法”,F(xiàn)ollow-up問題(d.2)查詢的是關(guān)于同一個(gè)目標(biāo)概念,但是關(guān)于不同的查詢焦點(diǎn)“分期付款手續(xù)費(fèi)收取”。這種類型的話語轉(zhuǎn)換似乎與前一種“查詢焦點(diǎn)轉(zhuǎn)換”類似,但是,這個(gè)問題系列中的兩個(gè)問題所查詢的焦點(diǎn)在問題本體中處于同一個(gè)主題“分期付款”下面,所以,這種類型中的問題之間比“查詢焦點(diǎn)轉(zhuǎn)換”類型中的問題共享了更多的信息,在follow-up問題中會省略更多的信息。比如,在上述例子中,問題(d.2)中,不但省略了目標(biāo)概念“南航信用卡”,還省略了主題相關(guān)的詞“分期付款”,而在“查詢焦點(diǎn)轉(zhuǎn)換”類型中,一般用戶在follow-up問題表述中只會省略問題之間所共享的目標(biāo)概念詞。

      雖然文獻(xiàn)[2]考慮了對話中問題之間關(guān)于事件的轉(zhuǎn)移,但是我們上述所定義的話語轉(zhuǎn)換還是可以與他們的轉(zhuǎn)移類型有一些對應(yīng)關(guān)系,如本文的目標(biāo)概念轉(zhuǎn)換可與他們的事件參與者轉(zhuǎn)換對應(yīng),查詢焦點(diǎn)轉(zhuǎn)換可與他們的探索新主題(Topic Exploration)相對應(yīng),而“同一個(gè)主題中的焦點(diǎn)細(xì)化”與他們的約束細(xì)化(Constraint Refinement)相對應(yīng)。

      通過上面的討論,可以知道,上下文相關(guān)問答的目標(biāo)是能夠自動(dòng)識別問題的話語結(jié)構(gòu),以及在對話進(jìn)行的過程中,識別問題之間的話語轉(zhuǎn)換類型。而這一任務(wù)看似是十分困難的,因?yàn)樗枰罅康闹R支持以及深層的語義處理。而文獻(xiàn)[5]所提出的基于本體和語義文法的自然語言理解技術(shù)為這一任務(wù)提供了很好的基礎(chǔ)。

      對于每一個(gè)查詢語句,系統(tǒng)都要判定當(dāng)前問題是否是一個(gè)follow-up問題,以及當(dāng)前問題與前面問題的關(guān)聯(lián)類型,本文提出一種上下文相關(guān)類別識別算法(Relevancy Type Recognition,RTR)來實(shí)現(xiàn)這一功能。而在當(dāng)前問題被識別為某一個(gè)具體類型的follow-up問題后,就需要依據(jù)不同的話語轉(zhuǎn)換類別,融合不同的語境信息來對當(dāng)前問題進(jìn)行重新解釋。本文提出一種語境信息融合算法(Context Information Fusion,CIF)算法來實(shí)現(xiàn)這一功能。下面將分別介紹這兩個(gè)算法。

      4.3 上下文相關(guān)類別識別算法(RTR)

      先給出本文的一個(gè)基本假設(shè):

      假設(shè)1 對于同一個(gè)用戶提出的多個(gè)問題,圍繞各個(gè)主題的一系列問題呈線性、連續(xù)排列,不存在交叉、嵌套的情況。

      在OSG-IQAs系統(tǒng)中,識別一個(gè)查詢語句是否是一個(gè)follow-up問題的一個(gè)重要特征是當(dāng)前問題是否能夠生成一棵或多棵解析樹。正如在上文提到的,在系統(tǒng)穩(wěn)定運(yùn)行一段時(shí)間之后,隨著知識庫的逐漸完善,大多數(shù)領(lǐng)域相關(guān)的問題都能夠生成一棵或多棵解析樹(由OSG-QAs的測試結(jié)果可知,OSG-QAs具有很高的用戶問題識別率[5])。

      如果用戶的當(dāng)前查詢問題沒有生成任何解析樹,那么一種可能性就是:由于當(dāng)前問題與前面的問題具有某種關(guān)聯(lián),一些重要的成分可能被用戶省略了。在這種可能性下,當(dāng)前問題就有可能是一個(gè)follow-up問題。另外,當(dāng)用戶查詢問題能夠生成一些解析樹時(shí),也有可能被識別為一個(gè)follow-up問題,即當(dāng)所生成的所有解析樹的分值均低于某個(gè)閾值時(shí),則認(rèn)為匹配結(jié)果是不可信的,這個(gè)時(shí)候當(dāng)前問題也被認(rèn)為可能是一個(gè)follow-up問題。當(dāng)然,還有一種情況是,用戶輸入的問題是完全領(lǐng)域無關(guān)的,這個(gè)時(shí)候也可能會出現(xiàn)問題不能生成任何解析樹或生成的解析樹的分值低于設(shè)定閾值的情形,我們會在后續(xù)的步驟以及下一節(jié)中的CIF算法中進(jìn)一步驗(yàn)證其是否是一個(gè)follow-up問題或領(lǐng)域相關(guān)問題。

      通過觀察發(fā)現(xiàn),用戶在表述關(guān)聯(lián)問題時(shí),通常具有一定的模式。比如,下面是兩個(gè)問題系列,follow-up問題與前面問題的關(guān)聯(lián)類型均為“查詢焦點(diǎn)轉(zhuǎn)換”。

      (a)

      (a.1) 南航信用卡有什么特色?

      (a.2) 運(yùn)通信用卡 [有什么特色] 呢?

      (b)

      (b.1) 南航信用卡分期付款怎么辦理?

      (b.2) 運(yùn)通信用卡 [分期付款怎么辦理]如何?

      通過對上述問題進(jìn)行分詞和語義標(biāo)注后發(fā)現(xiàn),“南航信用卡”和“運(yùn)通信用卡”分別是兩個(gè)概念詞,上述兩個(gè)問題系列中的follow-up問題的具有如下兩個(gè)特征模式:

      (I) Concept 呢?

      (II) Concept 如何?

      其中,concept與領(lǐng)域本體中的概念相對應(yīng),當(dāng)問題具有這些特征模式時(shí),則認(rèn)為其可能是一個(gè)特定關(guān)聯(lián)類型的follow-up問題。

      定義2 (上下文相關(guān)模式)上下文相關(guān)模式是指用于表征當(dāng)前問題與上文問題相關(guān)聯(lián)的特征模式。

      本文認(rèn)為,在面向領(lǐng)域的系統(tǒng)應(yīng)用中,上下文相關(guān)模式的數(shù)量是有限的且數(shù)量不大,可以手工總結(jié),也可以通過自動(dòng)或半自動(dòng)方式來獲取,本文目前通過手工總結(jié)方式,獲得了表征“查詢焦點(diǎn)轉(zhuǎn)換”類型的上下文相關(guān)模式36條。

      鑒于上述描述,本文提出了上下文相關(guān)類別識別(RTR)算法,如圖3所示。

      圖3 上下文相關(guān)類別識別(RTR)算法

      在RTR算法中,當(dāng)一個(gè)問題被認(rèn)為可能是一個(gè)follow-up問題后(按照上文提到的兩個(gè)方法進(jìn)行判別),再識別其與上文問題的相關(guān)類型。具體來說,如果當(dāng)前問題Qi(下文同)中含有一個(gè)指代詞,并且利用指代消解方法發(fā)現(xiàn),該指代詞不指向當(dāng)前問題中的任何實(shí)體,那么則認(rèn)為當(dāng)前問題是一個(gè)follow-up問題,并且其與前面問題的關(guān)聯(lián)類型為“查詢焦點(diǎn)轉(zhuǎn)換”;如果當(dāng)前問題Qi中不含有任何動(dòng)詞,并且其表達(dá)方式與某一個(gè)上下文相關(guān)模式相匹配,則認(rèn)為Qi是一個(gè)follow-up問題,并且其與前面問題的關(guān)聯(lián)類型為“目標(biāo)概念轉(zhuǎn)換”;如果當(dāng)前問題Qi中不含有任何領(lǐng)域概念詞(即領(lǐng)域本體中所包含的概念),并且其表達(dá)方式不與任何一個(gè)上下文相關(guān)模式相匹配,則認(rèn)為當(dāng)前問題是一個(gè)follow-up問題,并且其與前面問題的關(guān)聯(lián)類型為“同一個(gè)主題中的查詢焦點(diǎn)細(xì)化”;若當(dāng)前問題不能滿足上面的任意一個(gè)條件,則認(rèn)為其不是一個(gè)follow-up問題。

      4.4 語境信息融合算法(CIF)

      4.3節(jié)中,當(dāng)問題被識別為是某一個(gè)具體類別的follow-up問題后,就應(yīng)該使用特定的話語結(jié)構(gòu)中的上下文信息來對當(dāng)前問題進(jìn)行重新解釋。語境信息融合算法(CIF)如圖4所示。

      圖4 語境信息融合(CIF)算法

      在進(jìn)行上下文融合時(shí),首先需要判別當(dāng)前用戶的userID在系統(tǒng)中是否有對應(yīng)的話語結(jié)構(gòu)存在,如果不存在,并且因?yàn)檩斎氲紺IF算法的均被認(rèn)為是follow-up問題,所以可以認(rèn)為當(dāng)前問題是一個(gè)領(lǐng)域無關(guān)問題。若當(dāng)前用戶已經(jīng)有相應(yīng)的話語結(jié)構(gòu),則需要根據(jù)當(dāng)前問題與前面問題的關(guān)聯(lián)類型(由RTR算法產(chǎn)生),分別使用話語結(jié)構(gòu)中的不同部分來重新解釋當(dāng)前問題。具體來說,若當(dāng)前問題與前面問題的關(guān)聯(lián)類型為“查詢焦點(diǎn)轉(zhuǎn)換”,則說明前后兩個(gè)問題是關(guān)于同一個(gè)目標(biāo)概念的不同方面(即查詢焦點(diǎn))的提問,這種情況下,用戶在表述后面的問題時(shí),通常會省略掉與前面問題相同的目標(biāo)概念。這時(shí),就需要根據(jù)話語結(jié)構(gòu)中記錄的關(guān)于以前問題中所涉及的目標(biāo)概念,將當(dāng)前問題補(bǔ)充完整,即將目標(biāo)概念插入到當(dāng)前問題的適當(dāng)?shù)奈恢蒙匣蛱鎿Q掉對應(yīng)的代詞。例如,當(dāng)一個(gè)用戶向系統(tǒng)提交了查詢語句:

      (1) 南航信用卡有什么特色?

      經(jīng)過系統(tǒng)的理解后,所對應(yīng)的話語結(jié)構(gòu)如表3.2 所示。

      這時(shí),若同一個(gè)用戶繼續(xù)向系統(tǒng)提問:

      (2) 如何辦理呢?

      則根據(jù)RTR算法,可以判別問題(2)與前面的問題(1)的關(guān)聯(lián)類別為“查詢焦點(diǎn)轉(zhuǎn)換”,則這里使用話語結(jié)構(gòu)中的“目標(biāo)概念”:南航信用卡,將問題(2)補(bǔ)充完整,形成新的問題(2′):

      (2′)南航信用卡 如何辦理呢?

      重新形成問題(2′)后,系統(tǒng)將新問題重新提交到OSG-QAs中,根據(jù)理解結(jié)果,更新話語結(jié)構(gòu),如表2所示。

      表2 話語結(jié)構(gòu)狀態(tài)1

      從上面的例子可以看出,自然語言理解過程與領(lǐng)域知識庫的構(gòu)建(包括領(lǐng)域本體、問題本體、語義文法等)密切相關(guān),完備的和精細(xì)化的領(lǐng)域知識庫可以為自然語言理解提供很好的支持,這也正是本文所提出的面向領(lǐng)域的自然語言理解技術(shù)取得這么好的效果的原因所在。上述例子只給出了上下文消解的示例,具體的語義文法匹配過程詳見文獻(xiàn)[5]

      5 實(shí)驗(yàn)

      5.1 測試數(shù)據(jù)描述

      據(jù)我們所知,目前還沒有針對漢語的上下文相關(guān)問答的公認(rèn)的標(biāo)準(zhǔn)測試語料,所以本文手工構(gòu)造了上下文相關(guān)測試集。本文在兩個(gè)應(yīng)用領(lǐng)域中分別構(gòu)造了測試數(shù)據(jù),包括用戶對某銀行的業(yè)務(wù)信息查詢和用戶對某通信公司的產(chǎn)品及業(yè)務(wù)的信息查詢,其中前者的領(lǐng)域概念相對較少,信息查詢點(diǎn)(問題焦點(diǎn))較少,而后者是一個(gè)較大的領(lǐng)域,涉及的領(lǐng)域概念比較多,信息查詢點(diǎn)(問題焦點(diǎn))較多。通過將方法應(yīng)用于不同規(guī)模的領(lǐng)域中,來檢測方法的可擴(kuò)展性(scalability)。為了驗(yàn)證本文的上下文識別和信息融合算法,本文在選擇數(shù)據(jù)集中的數(shù)據(jù)時(shí),挑選的用戶咨詢均是上下文相關(guān)的問題,而對于其他非上下文相關(guān)問題以及一些噪聲數(shù)據(jù)(比如亂碼、垃圾信息等)并沒有放入數(shù)據(jù)集中,主要目的就是為了測試本文所提出的兩個(gè)算法的性能,對于非上下文相關(guān)問題的處理及分析詳見文獻(xiàn)[5].

      數(shù)據(jù)集1:BSC_CONTEXT Data Set,數(shù)據(jù)集中的問題是關(guān)于某個(gè)銀行的產(chǎn)品或業(yè)務(wù)的咨詢,比如關(guān)于如何辦理信用卡或匯款手續(xù)費(fèi)等,這些問題都是真實(shí)用戶提交到系統(tǒng)中的。數(shù)據(jù)集中包括240個(gè)問題系列(對應(yīng)著240個(gè)不同的用戶),共720個(gè)問題,平均每個(gè)系列包含三個(gè)問題。在這些系列中,有90個(gè)系列共236個(gè)問題是關(guān)于目標(biāo)概念轉(zhuǎn)移的,60個(gè)系列共214個(gè)問題是關(guān)于查詢焦點(diǎn)轉(zhuǎn)移,90個(gè)系列共270個(gè)問題是關(guān)于“同一個(gè)主題內(nèi)的查詢焦點(diǎn)細(xì)化”。前文所舉示例均取自該數(shù)據(jù)集。

      數(shù)據(jù)集2:MSC_CONTEXT Data Set,數(shù)據(jù)集中的問題是關(guān)于某個(gè)通信公司的產(chǎn)品或業(yè)務(wù)的咨詢,比如關(guān)于手機(jī)歸屬地查詢或辦理通信套餐業(yè)務(wù)等。數(shù)據(jù)集中包括1 000個(gè)問題系列(對應(yīng)著1 000個(gè)不同的用戶),共4 200個(gè)問題,平均每個(gè)系列包含四個(gè)問題。在這些系列中,有200個(gè)系列共740個(gè)問題是關(guān)于目標(biāo)概念轉(zhuǎn)移的,比如Q1,“彩鈴怎么開通?”,CQ1,“飛信呢?”;340個(gè)系列共1 328個(gè)問題是關(guān)于查詢焦點(diǎn)轉(zhuǎn)移,比如Q2,“彩鈴咋開通???”,CQ2,“月租費(fèi)多少”;460個(gè)系列共2 132個(gè)問題是關(guān)于“同一個(gè)主題內(nèi)的查詢焦點(diǎn)細(xì)化”,比如Q3,“寬帶怎么辦理?”,CQ3,“要手續(xù)費(fèi)嗎?”。上述示例中,CQi表示是上下文相關(guān)問題。

      根據(jù)兩個(gè)數(shù)據(jù)集所在領(lǐng)域,首先構(gòu)造了領(lǐng)域本體,依此限定領(lǐng)域范圍,并據(jù)此從真實(shí)用戶咨詢中構(gòu)造了開發(fā)數(shù)據(jù)集,開發(fā)數(shù)據(jù)集與測試數(shù)據(jù)集完全獨(dú)立收集,用于構(gòu)造語義文法,語義文法的構(gòu)造是一個(gè)逐步完善的過程,本文所提出的上下文處理方法依賴于一個(gè)已經(jīng)構(gòu)建相對完善的非上下文相關(guān)問答系統(tǒng),具體過程詳見文獻(xiàn)[5]。

      5.2 評測指標(biāo)

      本文采用精確率和平均排序倒數(shù)(Mean Reciprocal Rank,MRR)這兩個(gè)指標(biāo)來評價(jià)算法的性能。精確率公式如式(1)所示。

      Accuracy=

      (1)

      其中,T表示測試語料,t表示測試語料中的一個(gè)句子,trees(t)表示系統(tǒng)對句子t的所有解析結(jié)果,按照解析樹的得分高低進(jìn)行排序,TA(t)表示句子t的正確的解析結(jié)果。

      MRR公式如式(2)所示。

      (2)

      其中,T表示整個(gè)測試集,TA(t)表示句子t的正確的解析結(jié)果,rank(TA(t))用于計(jì)算查詢問題t的正確分析結(jié)果在其所有分析結(jié)果中的排名。其定義如下:

      (3)

      引入如上定義,是因?yàn)槿艟渥觮無法理解或理解結(jié)果中沒有正確的分析結(jié)果時(shí),rank(TA(t))=0,本文取了一個(gè)較大的數(shù)值(如令∝≈10 000)來處理這種情況。

      5.3 比較算法

      比較方法1:為了檢測RTR算法對于后續(xù)的上下文信息融合的影響,我們構(gòu)建了一個(gè)baseline系統(tǒng),這個(gè)系統(tǒng)不對follow-up問題進(jìn)行分類,在遇到系統(tǒng)不能處理的問題時(shí),隨機(jī)地使用話語結(jié)構(gòu)中的上文信息來對未能處理的問題進(jìn)行重新解釋。

      比較方法2:為了驗(yàn)證系統(tǒng)處理上下文的整體效果,本文對測試集中的所有上下文相關(guān)問題進(jìn)行了手工處理,即根據(jù)上下文關(guān)聯(lián)類別,手工將不完整的問題補(bǔ)充完整,或?qū)栴}中出現(xiàn)的指代上文的代詞用相應(yīng)的指代成分替換,依此構(gòu)造兩個(gè)非上下文相關(guān)的問題集合。比如將“它怎么開通?”變換為“彩鈴怎么開通”,然后將非上下相關(guān)問題再用已構(gòu)建的系統(tǒng)進(jìn)行測試.該試驗(yàn)主要是為了驗(yàn)證本文提出的RTR算法與CIF算法對上下文問題識別和上下文信息融合的性能。

      5.4 試驗(yàn)結(jié)果及討論

      表3和表4分別給出了本文所提出方法在某銀行業(yè)務(wù)信息咨詢領(lǐng)域的上下文相關(guān)測試集BSC_CONTEXT Data Set上的測試準(zhǔn)確率和MRR值,并分別給出了方法在三種上下文轉(zhuǎn)換類別上的測試結(jié)果。

      表3 BSC_CONTEXT Data Set上的測試結(jié)果(Accuracy)

      表4 BSC_CONTEXT Data Set上的測試結(jié)果(MRR)

      表5和表6分別給出了本文所提出方法在某通信公司業(yè)務(wù)信息咨詢領(lǐng)域的上下文相關(guān)測試集MSC _CONTEXT Data Set上的測試準(zhǔn)確率和MRR值,并分別給出了方法在三種上下文轉(zhuǎn)換類別上的測試結(jié)果。

      在兩個(gè)不同規(guī)模的領(lǐng)域測試結(jié)果表明,方法在較小規(guī)模領(lǐng)域和較大規(guī)模領(lǐng)域中的測試結(jié)果相當(dāng),總體上準(zhǔn)確率分別達(dá)到了88.4%和86.4%,以及MRR值分別達(dá)到了93.1%和91.7%。上述實(shí)驗(yàn)表明,本文所提出方法具有較好的可擴(kuò)展性,能夠適應(yīng)不同規(guī)模的領(lǐng)域應(yīng)用。

      表5 MSC_CONTEXT Data Set上的測試結(jié)果(Accuracy)

      表6 MSC_CONTEXT Data Set上的測試結(jié)果(MRR)

      在上述“同一個(gè)主題內(nèi)的查詢焦點(diǎn)細(xì)化”這一類型的問題測試中,取得了相對較低的準(zhǔn)確率。以下兩個(gè)原因是導(dǎo)致“同一個(gè)主題下的查詢焦點(diǎn)細(xì)化”類別的準(zhǔn)確率相對較低的主要原因,包括:

      (1) 在問題相關(guān)類別分類過程中,當(dāng)問題中的代詞有指代歧義時(shí),即某個(gè)代詞所指代的可能不是前面問題中的某一個(gè)概念實(shí)體,而是指向了某個(gè)概念實(shí)體與主題的組合,這時(shí),“同一個(gè)主題內(nèi)的查詢焦點(diǎn)細(xì)化” 類型的問題會被錯(cuò)誤地分類為“查詢焦點(diǎn)轉(zhuǎn)移”類別,可通過引入指代消解技術(shù)來解決這類問題。

      (2) 在RTR算法中,一個(gè)問題系列中的問題若不含有領(lǐng)域概念,則有可能被識別為“同一個(gè)主題下的查詢焦點(diǎn)細(xì)化”,但是,如果這些相關(guān)問題所對應(yīng)的查詢焦點(diǎn)在本體層次上沒有被組織在同一個(gè)主題下,將導(dǎo)致在信息融合時(shí),將錯(cuò)誤的主題融合到后續(xù)的相關(guān)問題中。這類錯(cuò)誤的出現(xiàn),說明我們所設(shè)計(jì)的本體是不合理的,需要根據(jù)測試情況,對本體結(jié)構(gòu)進(jìn)行調(diào)整,將一些相關(guān)的查詢焦點(diǎn)組織在同一個(gè)主題下,比如,應(yīng)該將查詢焦點(diǎn)“辦理方法”與“辦理失敗原因”組織在同一個(gè)主題“辦理”下。

      總體上,引起文中幾種問題類型的解析失敗原因還包括以下四種。

      (1) 在上下文問題處理中,前面的問題的正確理解對后續(xù)相關(guān)問題的理解起到?jīng)Q定作用,話語結(jié)構(gòu)中的語義信息都是由對于問題的理解結(jié)果填充的,這些信息將在上下文融合過程中用來對后續(xù)的相關(guān)問題進(jìn)行重構(gòu),若前面的問題不能理解或理解錯(cuò)誤,將很可能導(dǎo)致使用錯(cuò)誤的上下文信息來對后續(xù)的相關(guān)問題進(jìn)行重構(gòu)。

      (2) 在構(gòu)造測試數(shù)據(jù)集時(shí),本文是直接從用戶的咨詢?nèi)罩局羞M(jìn)行提取的,但并沒有考慮這些咨詢的具體時(shí)間,所以會出現(xiàn)這樣的一種情況:由于同一個(gè)用戶提交的多個(gè)問題相隔時(shí)間較長,有些問題之間并沒有相關(guān)性,當(dāng)這些問題被錯(cuò)誤地識別為上下文相關(guān)時(shí),就可能出現(xiàn)一些意想不到的錯(cuò)誤。在將來的工作中,可以通過在話語結(jié)構(gòu)中考慮時(shí)間因素來避免這類錯(cuò)誤。

      (3) 目前,本文所提出的RTR算法還主要是基于規(guī)則的方法,由于上下文相關(guān)模式集合不完備以及模式匹配歧義等會引起一些識別錯(cuò)誤。在以后的工作中,可通過引入一些機(jī)器學(xué)習(xí)方法來輔助歸納學(xué)習(xí)上下文相關(guān)模式。

      (4) 目前的CIF算法中,在進(jìn)行上下文信息融合時(shí),本文只是簡單地將相應(yīng)的上文信息放在了句子的頭部,而這種做法雖然對系統(tǒng)的整體效果影響不大(從測試結(jié)果可以看出),但還是存在一些由此帶來的匹配歧義或匹配錯(cuò)誤的情形(比如有一些規(guī)則是要求有序匹配的),在將來的工作中,可以通過引入句法分析方法,分析句子是否是句法完整的,若不完整,可依據(jù)句法分析的部分結(jié)果來估計(jì)適當(dāng)?shù)纳舷挛牟迦胛恢谩?/p>

      6 結(jié)論

      Follow-up問題的識別和分類、指代消解等是面向開放領(lǐng)域的上下文問答系統(tǒng)的重要技術(shù)。但目前這些技術(shù)還遠(yuǎn)未達(dá)到實(shí)用水平。而本文所提出的OSG-IQAs系統(tǒng)是一個(gè)面向限定領(lǐng)域的上下文問答系統(tǒng),用戶的查詢問題一般不會超出某個(gè)領(lǐng)域范圍,本文提出的使用基于領(lǐng)域本體和語義文法的自然語言理解技術(shù),取得了較高的用戶提問問題識別率和理解準(zhǔn)確率(詳見文獻(xiàn)[5])。通過觀察發(fā)現(xiàn),大多數(shù)的follow-up問題通常不能生成任何解析樹或生成的解析樹的分值低于設(shè)定閾值,本文將此作為識別follow-up問題的重要特征。在此基礎(chǔ)上,再通過其他的約束條件識別出具體的關(guān)聯(lián)類別(RTR算法)。然后提出了一種簡單但十分有效的話語結(jié)構(gòu)來跟蹤記錄用戶的話語狀態(tài),并根據(jù)不同的上下文關(guān)聯(lián)類別,利用話語結(jié)構(gòu)中的不同部分來對follow-up問題進(jìn)行重構(gòu),并提交到已有的非上下文相關(guān)的問答系統(tǒng)中重新進(jìn)行處理。本文并沒有使用較為較復(fù)雜的基于機(jī)器學(xué)習(xí)的follow-up問題識別和同指消解等技術(shù),而是使用了基于知識的方法來有效地解決了這些較復(fù)雜的問題。

      [1] 宋巍, 張宇, 劉挺, 等. 基于檢索歷史上下文的個(gè)性化查詢重構(gòu)技術(shù)研究[J]. 中文信息學(xué)報(bào), 2010, 24(3): 144-152.

      [2] Chai Joyce Y, Ron Jin. Discourse Status for Context Questions[C]//Proceedings of the HLT-NAACL 2004 Workshop on Pragmatics in Question Answering, 2004: 23-30.

      [3] Jaime G. Carbonell. Discourse pragmatics and ellipsis resolution in task-oriented natural language interfaces[C]//Proceedings of the 21st Annual Meeting on Association for Computational Linguistics, 1983: 164-168.

      [4] Dahlback Nils, Arne Jonsson. Empirical Studies of Discourse Representations for Natural Language Interfaces[C]//Proceedings of the Fourth Conference of the European Chapter of the ACL (EACL’89), 1989: 291-298.

      [5] D S Wang. A Domain-Specific Question Answering System Based on Ontology and Question Templates[C]//Proceedings of the 11th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, 2010: 151-156.

      [6] Matsuda M, Fukumoto J. Answering questions of IAD task using reference resolution of follow-up questions[C]//Proceedings of the 5th NTCIR Workshop Meeting, 2005: 414-421.

      [7] Ahrenberg Lars, Dahlback Nils, Arne Jonsson. Discourse representation and discourse management for natural language interfaces[C]//Proceeding of the Second Nordic Conference on Text Comprehension in Man and Machine, 1990.

      [8] Sun Mingyu, Joycie J Chai. Towards Intelligent QA Interfaces: Discourse Processing for Context Questions[C]//Proceedings of the International Conference on Intelligent User Interfaces, 2006: 163-170.

      [9] Voorhees, E M. Overview of the TREC 2001 question answering track[C]//Proceedings of the tenth Text Retrieval Conference, 2001.

      [10] T Mori, S Kawaguchi, M Ishioroshi. Answering Contextual Questions Based on the Cohesion with Knowledge[C]//Proceedings of the 21st International Conference on the Computer Processing of Oriental Languages. 2006: 4285:1-12.

      [11] Marco De Boni, Suresh Manandhar. Implementing clarification dialogues in open domain question answering[C]//Proceedings of the Natural Language Engineering, 2005: 343-361.

      [12] F Yang, J Feng, G DiFabbrizio. A data driven approach to relevancy recognition for contextual question answering[C]//Proceedings of the HLT-NAACL 2006 Workshop on Interactive Question Answering, 2006.

      [13] Kirschner M, Bernardi R, Baroni M, et al. Analyzing interactive QA dialogues using logistic regression

      models[C]//Proceedings of XIth International Conference of the Italian Association for Artificial Intelligence Reggio Emilia on Emergent Perspectives in Artificial Intelligence, 2009: 334-344.

      [14] Bernardi R, Kirschner M, Ratkovic Z. Context fusion: the role of discourse structure and centering theory[C]//Proceedings of 19th International Conference on Language Resources and Evaluation, 2010: 2014-2021.

      [15] Kirschner M, Bernadi R. Towards an empirically motivated typology of follow-up questions: the role of dialogue context[C]//Proceedings of the 11th annual meeting of the special interest group on discourse and dialogue, 2010: 322-331.

      [16] Kato T, Fukumoto J, Masui F, et al. Are open-domain question answering technologies useful for information access dialogues?-an empirical study and a proposal of a novel challenge[C]//Proceedings of the ACM Transactions on Asian Language Information Processing, 2005, 4(3): 243-262.

      [17] Van schooten B W, Op den akker R, et al. Follow-up question handling in the IMIX and Ritel systems: A comparative study[J]. Journal of Natural Language Engineering, 2009, 15(1):97-118.

      [18] Murata Y, Akiba T, Fujii A, et al. Question answering experiments at NTCIR-5: Acquisition of answer evaluation patterns and context processing using passage retrieval[C]//Proceedings of the 5th NTCIR Workshop Meeting, 2005: 394-401.

      [19] Hobbs J R. On the coherence and structure of discourse. Center for the Study of Language and Information from Leland Stanford Junior University[R], Report No. CSLI-85-37, 1985.

      [20] MannWC, Thompson S A. Rhetorical structure theory: a theory of text organization[R]. USC/ISI Technical Report ISI/RS-87-190, 1987.

      [21] Grosz B J, Sidner C. Attention, intention, and the structure of discourse[J]. Computational Linguistics, 1986, 12(3): 175-204.

      [22] Kamp H, Reyle U. From Discourse to Logic[M]. Dordrecht: Kluwer Academic Publishers, 1993.

      [23] Lars A, Nils D, Jagonsson A. Discourse representation and discourse management for natural language interfaces[C]//Proceeding of the 2nd Nordic Conference on Text Comprehension in Man and Machine, 1990: 1-14.

      [24] Quarteroni S, Manandhar S. Adaptivity in question answering with user modeling and a dialogue interface[C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, 2006: 199-202.

      [25] Quarteroni S, Manandhar S. Designing an interactive open-domain question answering system[J]. Journal of Natural Language Engineering, 2009, 15(1): 73-95.

      [26] Quarteroni S, Manandhar S. User modeling for personalized question answering[C]//Proceedings of the 10th Congress of the Italian Association for Artificial Intelligence on AI*IA, 2007: 386-397.

      [27] Sun M, Chai J. Towards intelligent QA interfaces: discourse processing for context questions[C]//Proceedings of 11th International Conference on Intelligent User Interfaces, 2006: 163-170.

      Interactive Question Answering Based on Ontology and Semantic Grammar

      WANG Dongsheng1,3, WANG Shi2, WANG Weimin1, LIU Liangliang1, FU Jianhui2

      (1. School of Computer Science and Engineering, Jiangsu university of Science of Technology Zhenjiang, Jiangsu 212001,China; 2. Institute of Computing Technology ,Chinese Academy of Sciences,Beijing 100190,China; 3. International WIC Institute, Beijing University of Technology, Beijing 100022, China)

      In QA system, the user queries are usually not isolated, but correlated. This paper proposes an ontology and semantic grammar based method for interactive question answering, and we developes a QA system called OSG-IQAs based on an existing non-contextual question answering system. We first propose a discourse structure to maintain semantic information (i.e., the understanding result) of questions, and then use an approach to recognizing the specific type of relevancy between the previous question and follow-up question. We then propose an algorithm which fuses different contextual information (recorded in discourse structure) into the current, follow-up question according to the specific relevancy type. Lastly, the transformed question is resubmitted to the non-contextual question answering system. We finally evaluate the proposed method on two real contextual QA data sets from two areas of different scales. The results show that the proposed method has better scalability; we achieved an overall performance better than a baseline system and almost the same performance as another comparison system whose contextual phenomena are manually resolved.

      ontology; semantic grammar; interactive QA

      王東升(1982—),博士,講師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、問答系統(tǒng)、文法學(xué)習(xí)等。E?mail:wds_ict@163.com王石(1981—),博士,助理研究員,主要研究領(lǐng)域?yàn)橹形膶?shí)體識別、問答系統(tǒng)等。E?mail:wangshi@ict.a(chǎn)c.cn王衛(wèi)民(1978—),博士,講師,主要研究領(lǐng)域?yàn)楸倔w建模、知識處理等。E?mail:wangweimin@gmail.com

      1003-0077(2016)02-0142-11

      2013-07-13 定稿日期: 2014-03-13

      國家自然科學(xué)基金(61203284,61173063);江蘇科技大學(xué)博士科研啟動(dòng)基金;北京市博士后基金(2015ZZ-25);北京市朝陽區(qū)博士后基金(2015ZZ-11)

      TP391

      A

      猜你喜歡
      焦點(diǎn)本體語義
      Abstracts and Key Words
      焦點(diǎn)
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      語言與語義
      “兩會”焦點(diǎn)
      南方周末(2018-03-08)2018-03-08 08:34:56
      本期焦點(diǎn)
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      焦點(diǎn)
      攝影之友(2016年8期)2016-05-14 11:30:04
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      認(rèn)知范疇模糊與語義模糊
      连山| 商丘市| 龙里县| 改则县| 鹤岗市| 商都县| 通榆县| 宜都市| 高要市| 墨竹工卡县| 漠河县| 石台县| 珠海市| 沙坪坝区| 盐边县| 信宜市| 霍林郭勒市| 同江市| 平谷区| 平凉市| 永平县| 雅江县| 汶上县| 宣城市| 长沙市| 庆云县| 铜梁县| 广水市| 勐海县| 成安县| 手游| 巴林右旗| 唐山市| 苍梧县| 仁寿县| 西林县| 芦溪县| 江川县| 上蔡县| 蒙城县| 饶阳县|