• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    特定領(lǐng)域問答系統(tǒng)中基于語義檢索的非事實(shí)型問題研究

    2019-01-29 05:48:44仇瑜程力DaniyalAlghazzawi
    關(guān)鍵詞:知識庫條款排序

    仇瑜 程力,? Daniyal Alghazzawi

    1.中國科學(xué)院新疆理化技術(shù)研究所, 烏魯木齊 830011; 2.中國科學(xué)院大學(xué), 北京 100049; 3.新疆民族語音語言信息處理實(shí)驗(yàn)室,烏魯木齊 830011; 4.阿卜杜勒阿齊茲國王大學(xué)計(jì)算機(jī)和信息技術(shù)學(xué)院, 吉達(dá) 21493; ? 通信作者, E-mail: chengli@ms.xjb.ac.cn

    與傳統(tǒng)的信息檢索(information retrieval, IR)不同, 問答系統(tǒng)(question answering system, QAS)允許用戶輸入自然語言問句, 系統(tǒng)返回結(jié)果不再是相關(guān)文檔或網(wǎng)頁的列表, 而是一個(gè)準(zhǔn)確的答案。關(guān)于問答系統(tǒng)的研究已取得一定的進(jìn)展, 但是研究重點(diǎn)集中于事實(shí)型問題(factoid)的問答, 對于非事實(shí)型問題(non-factoid)問答的研究相對較少。

    事實(shí)型問題詢問的是某一客觀事實(shí), 答案通常為實(shí)體或短語[1]。非事實(shí)型問題沒有固定的范圍和查找句式, 答案通常為句子或段落[2]。目前, 非事實(shí)型問答系統(tǒng)的研究熱點(diǎn)主要面向開放領(lǐng)域, 系統(tǒng)從已有的問題庫中搜索相似問題, 然后將該問題的最佳答案反饋給用戶。問題庫包括常見問題集(frequent asked question, FQA)和社區(qū)問答集(community question answering, CQA)等[2]。相關(guān)測評任務(wù)(如TREC①https://trec.nist.gov/tracks.html;, CLEF②http://www.clef-campaign.org/2002.htm;和NTCIR③http://research.nii.ac.jp/ntcir/ntcir-14/tasks.html)關(guān)注如何從海量的文本中找到包含答案的文本片段, 主要方法是使用信息檢索技術(shù)在Web文檔抽取相關(guān)答案。這些方法雖然在測試任務(wù)中取得不錯(cuò)的效果, 但在特定領(lǐng)域?qū)嶋H問答系統(tǒng)中還不能得到較滿意的結(jié)果。原因在于,特定領(lǐng)域的非事實(shí)型問題更復(fù)雜、多樣, 需要更深層次地理解用戶查詢需求; 特定領(lǐng)域的答案獲取過程需要借助更多的領(lǐng)域相關(guān)資源和文本特征。如何有效地理解用戶意圖, 利用豐富的領(lǐng)域資源來提高領(lǐng)域問答系統(tǒng)的可用性及實(shí)用性成為關(guān)鍵問題[3]。

    本文重點(diǎn)研究財(cái)稅領(lǐng)域非事實(shí)型問題(如對詢問某個(gè)涉稅行為的處理方式)。這類問題不能用簡單的事實(shí)作為答案, 而是需要更長的答案(句子或段落)。非事實(shí)型問題的信息源(答案源)為財(cái)稅法規(guī)及案例, 財(cái)稅法規(guī)給出問題解答的依據(jù), 相似的案例直接提供問題的準(zhǔn)確答案。在實(shí)際問題的分析中, 財(cái)稅領(lǐng)域的專家也需要依據(jù)法規(guī)條款給出問題的答案, 因此在缺乏相似案例時(shí), 可以用相關(guān)法規(guī)條款作為推薦答案。

    與其他領(lǐng)域相比, 財(cái)稅領(lǐng)域非事實(shí)型問題的答案抽取面臨如下挑戰(zhàn): 1)財(cái)稅用語中的事實(shí)及概念與日常生活不同, 存在查詢不匹配的問題, 即答案句中可能不包含問句中的詞匯, 只是具有語義相關(guān)性; 2)財(cái)稅的文檔種類和結(jié)構(gòu)比較復(fù)雜, 各類屬性特征是影響查詢結(jié)果的重要因素, 只考慮文本內(nèi)容的相似性很難找到正確答案。

    針對上述問題, 本文引入領(lǐng)域知識庫, 對問題和領(lǐng)域文檔進(jìn)行自動(dòng)標(biāo)注, 將文本中的實(shí)體或概念映射到知識庫中, 發(fā)現(xiàn)更多語義信息, 利用句子之間的語義相似度來提高法規(guī)及案例的檢索準(zhǔn)確率;采用排序?qū)W習(xí)算法, 融合領(lǐng)域文本的靜態(tài)特征、屬性特征及關(guān)聯(lián)特征等, 建立排序模型, 對檢索結(jié)果重新排序, 優(yōu)化檢索結(jié)果。

    1 相關(guān)研究

    非事實(shí)型問答系統(tǒng)能夠回答關(guān)于尋求意見、方式、原因和定義的問題, 與事實(shí)型問答系統(tǒng)相比,非事實(shí)型問答系統(tǒng)回答的問題范圍更廣[4-5]。研究者探索使用各類資源作為答案獲取的途徑, 如Fukumoto[6]用模式匹配的方法, 在常見問答集(FAQ)中對“how”、“why”以及“definition”類型的問題進(jìn)行答案抽取。Tran等[7]用排序?qū)W習(xí)的方法, 在社區(qū)問答集(CQA)中查找相似問題, 并抽取相關(guān)答案。Savenkov[8]結(jié)合從社區(qū)問答集相似問題中抽取的候選答案集以及網(wǎng)絡(luò)中檢索的候選答案段落, 使用線性模型篩選正確答案。這些方法雖然在通用領(lǐng)域取得不錯(cuò)的應(yīng)用效果, 但是檢索目標(biāo)以及范圍都受到一定程度的限制, 并且, 領(lǐng)域術(shù)語和句子長度過長及特殊文本結(jié)構(gòu)等問題, 使得這些方法在特定領(lǐng)域并不適用[7]。

    目前關(guān)于財(cái)稅領(lǐng)域的問答系統(tǒng)研究較少, 通常仍采用基于規(guī)則或關(guān)鍵字檢索的方法。在相似領(lǐng)域(如法律)有很多研究值得參考。Prolo等[9]提出對葡萄牙司法文件的問答系統(tǒng), 基于句法及語義進(jìn)行問句分析, 然后使用本體及邏輯推理得出答案。但是該系統(tǒng)需要大量人工標(biāo)注數(shù)據(jù), 且問題范圍有限。Monroy等[10]用法規(guī)條款間的關(guān)系來構(gòu)建圖模型,并使用領(lǐng)域詞典對法規(guī)條款進(jìn)行檢索, 系統(tǒng)給出相關(guān)的條款作為問題的答案。但是, 該研究僅用人工構(gòu)建的有限的問題示例進(jìn)行測試, 并沒有應(yīng)用在實(shí)際場景中。2014年, 在法律信息抽取及蘊(yùn)涵競賽(COLIEE)中, 將法律問答作為測試任務(wù), 測試問題為司法考試中的非事實(shí)型問題。任務(wù)分為兩個(gè)階段, 首先從法律文檔中檢索相關(guān)文檔, 然后根據(jù)檢索到的法律條款判斷問題的答案。Kim等[11]針對上述任務(wù), 使用TF-IDF及主題模型LDA進(jìn)行法律檢索, 并用排序?qū)W習(xí)算法對檢索結(jié)果排序, 并用句法及語義相似度比較問句與相關(guān)法律條文來確定最后答案。這種非事實(shí)型問答只限于描述比較規(guī)范的考試問題, 能夠直接使用法規(guī)條款作為答案。

    本文對財(cái)稅領(lǐng)域非事實(shí)型問答的問題種類研究更加廣泛, 不限于現(xiàn)有的問題類別; 獲取答案的途徑更多, 結(jié)合財(cái)稅法規(guī)及案例; 檢索的目標(biāo)內(nèi)容更復(fù)雜, 財(cái)稅文檔結(jié)構(gòu)種類更多。

    2 研究方法

    本文將研究任務(wù)定義為在領(lǐng)域文本集中檢索可能包含答案的段落(句子), 形式化表示如下: 給定一個(gè)非事實(shí)型問題Q, 法規(guī)文檔集為 {D1,D2,...,Dm},案例集為 {C1,C2,...,Cn}。答案抽取的過程分為兩步: 首先從法規(guī)庫中檢索到相關(guān)的條款集T={t1,t2,...,ts}, 然后在案例集中檢索到相似案例集Cs={Ci,...,Ck}, 并從相似案例中抽取可能包含答案的句子集S={S1,S2,...,Sl}返回給用戶。問答示例如表1所示, 其中Q1為用戶查詢問題,T1,T2和T3為相關(guān)法規(guī)條款,C-Q2為案例中的問題描述,A為案例中的答案。

    問答系統(tǒng)的基本流程如圖1所示。系統(tǒng)首先通過人機(jī)交互界面接受用戶輸入的自然語言問句, 由問句解析模塊識別問句中的實(shí)體, 經(jīng)過實(shí)體鏈接與標(biāo)注, 對查詢語句進(jìn)行語義標(biāo)注, 將相關(guān)實(shí)體或概念鏈接到知識庫, 獲得查詢向量及語義標(biāo)注信息。然后, 分別對法規(guī)和案例進(jìn)行檢索。在法規(guī)檢索模塊, 使用語義相似度檢索相關(guān)條款, 并通過排序?qū)W習(xí), 對檢索結(jié)果排序, 得到相關(guān)條款集。在案例集檢索模塊, 使用語義相似度檢索相似問題, 并結(jié)合法規(guī)條款特征進(jìn)行篩選, 得到相似案例。最后, 從相似案例中抽取相關(guān)答案句推薦給用戶, 對于未在案例集中找到答案的問題, 僅返回相關(guān)的法規(guī)條款作為參考。

    表1 財(cái)稅問答示例Table 1 Examples of tax questions and answers

    圖1 系統(tǒng)流程Fig.1 System flow chart

    2.1 財(cái)稅知識庫

    財(cái)稅知識庫主要用來存儲財(cái)稅領(lǐng)域的概念、實(shí)體及關(guān)系等信息。首先, 我們使用半自動(dòng)化的方法構(gòu)建財(cái)稅領(lǐng)域知識庫, 構(gòu)建過程分為 3 個(gè)階段[12]:1)領(lǐng)域?qū)<腋鶕?jù)可重用的相關(guān)本體及領(lǐng)域詞典, 構(gòu)建財(cái)稅領(lǐng)域的頂層本體; 2)用規(guī)則+統(tǒng)計(jì)的方法, 從基本法規(guī)中抽取出重要的概念及關(guān)系及實(shí)例, 經(jīng)專家驗(yàn)證后加入頂層本體, 構(gòu)成初始的領(lǐng)域知識庫;3)根據(jù)前兩步得到的本體概念及部分實(shí)例, 對領(lǐng)域?qū)嶓w進(jìn)行訓(xùn)練, 使用實(shí)體識別及標(biāo)注方法, 從財(cái)稅文本中識別領(lǐng)域?qū)嶓w及關(guān)系, 并映射到相應(yīng)的概念類別。

    目前的知識庫中包含1326個(gè)概念、326種關(guān)系及235343個(gè)實(shí)例。主要實(shí)體類別包括征稅對象、文件、主體和地點(diǎn)等。

    2.2 問句分析

    對于用戶輸入的自然語言問句, 首先進(jìn)行實(shí)體鏈接與標(biāo)注, 使用知識庫中的實(shí)例或概念, 對問句中的詞進(jìn)行標(biāo)注, 生成查詢向量。

    問句分析的總體流程見圖2, 首先對問句進(jìn)行預(yù)處理, 包括分詞、詞性標(biāo)注(使用ICTCALAS)和句法分析(使用Stanford Parser)等。分詞過程中加入自定義規(guī)則(如Hearst模式[13])和用戶詞典(由知識庫中的實(shí)體、概念及關(guān)系構(gòu)成)來提高分詞的準(zhǔn)確性。

    傳統(tǒng)的命名實(shí)體方法(如Stanford NER)是由特定的標(biāo)注語料訓(xùn)練的, 可識別的實(shí)體類型有限。對于特定領(lǐng)域來說, 由于缺乏相關(guān)訓(xùn)練語料, 因而不能準(zhǔn)確地識別領(lǐng)域?qū)嶓w(如征稅對象名“租金”沒有被識別為實(shí)體)。為了盡可能多地抽取有用信息,本文根據(jù)詞性標(biāo)注結(jié)果及句法分析, 將名詞短語、動(dòng)詞和動(dòng)詞短語作為候選實(shí)體。

    2.2.1 實(shí)體鏈接

    使用Levenshtein距離[14]計(jì)算實(shí)體鏈接對識別出的候選實(shí)體與知識庫中實(shí)體之間的相似度, 當(dāng)相似度大于一定閾值時(shí), 將候選實(shí)體鏈接到知識庫中。

    財(cái)稅領(lǐng)域中普遍存在縮寫的形式(如“個(gè)稅”為“個(gè)人所得稅”的縮寫, “納稅人”為“納稅義務(wù)人”的縮寫), 所以本文采用Zhang等[15]的啟發(fā)式規(guī)則, 對縮略詞進(jìn)行擴(kuò)展。此外, 由于財(cái)稅領(lǐng)域?qū)嶓w的歧義性相對較小, 所以沒有進(jìn)行其他消歧處理。

    2.2.2 實(shí)體標(biāo)注

    實(shí)體標(biāo)注是針對沒有鏈接到知識庫中的候選實(shí)體進(jìn)行標(biāo)注。由于知識庫固有的不完備性[16], 部分實(shí)體無法在知識庫中找到對應(yīng)項(xiàng)。本文通過監(jiān)督學(xué)習(xí)的方法, 對這些實(shí)體進(jìn)行類別預(yù)測, 將其映射到知識庫的相應(yīng)類別??蓪⒃撨^程視為一個(gè)層次分類問題, 支持多標(biāo)簽分類及部分深度標(biāo)簽(標(biāo)簽路徑可以以非葉子節(jié)點(diǎn)結(jié)束)。本文參考Yosef等[17]的方法, 對實(shí)體在知識庫中的類別進(jìn)行預(yù)測, 具體步驟為: 1)根據(jù)知識庫中的概念結(jié)構(gòu), 定義層次標(biāo)注集;2)采用遠(yuǎn)程監(jiān)督的方法, 根據(jù)知識庫中的實(shí)體, 生成訓(xùn)練數(shù)據(jù); 3)在訓(xùn)練集中抽取實(shí)體的特征集, 并訓(xùn)練分類器; 4)根據(jù)訓(xùn)練好的分類器, 對候選實(shí)體進(jìn)行類別預(yù)測。

    圖2 問句分析流程Fig.2 Qeustion analysis flow chart

    Yosef等[17]使用支持向量機(jī)(SVM)模型進(jìn)行分類, 存在訓(xùn)練數(shù)據(jù)不平衡問題及單個(gè)分類器的偏差(bias)問題。本文使用集成學(xué)習(xí)的方法進(jìn)行改進(jìn)。根據(jù)對分類器的差異度計(jì)算[18], 選擇SVM、邏輯回歸及感知機(jī) 3 種分類器。使用Bagging方法進(jìn)行集成, 對每個(gè)分類器的分類結(jié)果, 采用簡單投票法(major voting)來確定最終的實(shí)體類別[19]。本文實(shí)體分類使用的特征集如表 2 所示。實(shí)驗(yàn)證明, 分類預(yù)測效果優(yōu)于單個(gè)分類器。

    最后根據(jù)類別標(biāo)注, 將預(yù)測值大于閾值的實(shí)體映射到知識庫中。例如, 對于問句Q1, 經(jīng)過分析后將“趙某”標(biāo)注為“個(gè)人”, 知識庫中存在實(shí)體“寫字樓”為“非住房”類的實(shí)例, 可以直接連接。

    2.3 法規(guī)條款檢索

    財(cái)稅法規(guī)是問題答案或案例決策判斷的重要依據(jù), 相關(guān)的法規(guī)條款具有重要的解釋作用。由于問題是對實(shí)例層面的描述, 法規(guī)是對概念層面的描述,因此傳統(tǒng)的基于關(guān)鍵詞的檢索方法很難取得準(zhǔn)確的結(jié)果。為了分析不同語義特征對檢索結(jié)果的影響,同時(shí)提高排序?qū)W習(xí)的效率, 本文中法規(guī)條款檢索分為兩個(gè)階段: 第一階段, 使用多種語義相似度獲取與用戶問句相關(guān)的法規(guī)條款集; 第二階段, 根據(jù)問句分析得到的查詢向量, 使用排序?qū)W習(xí)算法, 結(jié)合法規(guī)條款的多維度特征, 對查詢到的條款進(jìn)行重新排序。檢索過程包括預(yù)處理、相似度計(jì)算和排序?qū)W習(xí) 3 個(gè)步驟。

    2.3.1 預(yù)處理

    根據(jù)法規(guī)結(jié)構(gòu), 將法規(guī)文檔分解為較短的段落(條款), 由于較短的條款可能不會包含查詢詞, 所以本文將長度較短的條款與其父條款合并, 然后進(jìn)行預(yù)處理、實(shí)體連接與標(biāo)注(方法同2.2節(jié))。

    2.3.2 相似度計(jì)算

    使用Fernando等[20]關(guān)于釋義識別(paraphrase identification)的方法, 計(jì)算問句與段落之間的文本相似度, 用相似度矩陣計(jì)算向量之間的相似度(相似度得分考慮了句子中每個(gè)詞的相似度), 計(jì)算公式如下:

    其中,W為語義相似度矩陣(包含任意兩個(gè)詞之間的相似度), 矩陣中wij表示問句中詞qi與條款中詞tj的相似度sim(qi,tj)。 傳統(tǒng)的基于字符相似度的方法難以挖掘詞匯之間的語義關(guān)系, 本文使用詞在知識庫及語料庫中的語義相關(guān)性來計(jì)算sim(qi,tj)。

    目前基于知識庫(如wordnet)的語義相似度計(jì)算方法主要利用知識庫中的層次分類關(guān)系[21], 如Li等[22]使用一種結(jié)合最短路徑及深度的相似度(簡稱結(jié)構(gòu)特征)計(jì)算方法:

    其中, len(a,b)為知識庫中公共節(jié)點(diǎn)a和b的最短路徑,h(a,b)為最近公共節(jié)點(diǎn)a,b到根節(jié)點(diǎn)的深度。α和β為調(diào)節(jié)參數(shù), 經(jīng)驗(yàn)值為α=0.2和β=0.6。

    此方法是針對知識庫中層次分類關(guān)系結(jié)構(gòu)的研究, 大量的非分類關(guān)系沒有被有效地利用。本文將當(dāng)前節(jié)點(diǎn)的所有非分類關(guān)系節(jié)點(diǎn)及關(guān)系本身作為節(jié)點(diǎn)的屬性特征, 然后根據(jù)特征集計(jì)算語義相似度(簡稱屬性特征), 計(jì)算方法為

    表2 實(shí)體特征集Table 2 Feature set of entities

    其中,F(a)和F(b)分別為a和b具有非分類關(guān)系的實(shí)體、概念或關(guān)系集合。

    本文借鑒Lin等[23]結(jié)合知識庫結(jié)構(gòu)和語料庫,使用基于信息量(information content)的方法, 通過比較共同祖先節(jié)點(diǎn)包含的信息量來衡量相似度(簡稱信息量特征):

    其中IC(a)為a的信息量, IC(a)=-log(P(a));P(a)是概念a在訓(xùn)練語料中出現(xiàn)的次數(shù)與訓(xùn)練語料的總數(shù)比; lso(a,b)為a和b最近的共同祖先節(jié)點(diǎn)。

    我們使用Word2Vec[24]訓(xùn)練的詞向量(語料庫法規(guī)及案例集), 發(fā)現(xiàn)詞項(xiàng)之間的隱含語義信息, 通過詞項(xiàng)間的向量距離來計(jì)算相似度(簡稱詞向量特征):

    其中,n表示訓(xùn)練向量的維度,va和vb分別表示a和b的詞向量。

    最后, 融合多種語義特征, 對詞項(xiàng)之間的語義距離進(jìn)行計(jì)算:

    δ,γ,λ和μ為相似度調(diào)節(jié)因子, 且δ+γ+λ+μ=1。

    2.3.3 排序?qū)W習(xí)

    語義檢索利用詞項(xiàng)之間的各種語義信息, 豐富了查詢結(jié)果, 但也引入大量噪音數(shù)據(jù)。查詢結(jié)果僅依據(jù)語義相關(guān)性進(jìn)行排序, 排序標(biāo)準(zhǔn)單一, 很多領(lǐng)域特征沒有被有效地利用。由于財(cái)稅法規(guī)結(jié)構(gòu)復(fù)雜, 法規(guī)條款之間具有引用關(guān)系, 同時(shí)法規(guī)的各類屬性(如發(fā)布時(shí)間、效力級別和使用范圍等)對檢索結(jié)果有重要影響, 所以本文使用排序?qū)W習(xí)方法, 融合法規(guī)的多種特征, 對語義檢索的結(jié)果重新排序。排序?qū)W習(xí)的流程如圖 3 所示。

    1)訓(xùn)練數(shù)據(jù)獲取。根據(jù)案例集和語義檢索結(jié)果構(gòu)建訓(xùn)練語料, 首選從案例中抽取問題與條款的對應(yīng)關(guān)系, 構(gòu)建pair對。然后用抽取的問題進(jìn)行語義檢索, 對獲取的結(jié)果, 再用案例集中的條款進(jìn)行標(biāo)注。最后, 根據(jù)標(biāo)注語料, 對排序模型進(jìn)行訓(xùn)練。如根據(jù)問句查詢得到10個(gè)條款, 按順序, 用ti表示,如果案例中有1, 3, 7三條法規(guī), 優(yōu)化的排序1, 3, 7應(yīng)該排到前面, 得到文檔對的順序關(guān)系。

    圖3 排序?qū)W習(xí)流程Fig.3 Lerning to rank flow char

    2)排序?qū)W習(xí)算法。排序?qū)W習(xí)是采用機(jī)器學(xué)習(xí)的方法訓(xùn)練模型來處理排序問題。本文使用Rank-SVM算法[25]進(jìn)行排序模型的訓(xùn)練。算法在訓(xùn)練集構(gòu)造樣本有序數(shù)據(jù)對, 將排序問題轉(zhuǎn)化為分類問題,使用SVM分類模型進(jìn)行學(xué)習(xí)并求解。對給定查詢和為相關(guān)條款, 按評分大小得到偏序關(guān)系,為相關(guān)性標(biāo)簽,f(x)=wTx為線性評分函數(shù),w為權(quán)重向量,C為懲罰因子。損失函數(shù)計(jì)算公式如下:

    通過最小化損失函數(shù)訓(xùn)練, 得到最優(yōu)排序函數(shù),對條款進(jìn)行排序, 獲取排序列表。

    3)特征選取。在排序?qū)W習(xí)中, 特征選取對于排序模型的預(yù)測結(jié)果有直接影響, 本文參考Liu[26]關(guān)于信息檢索排序?qū)W習(xí)的特征總結(jié), 并考慮財(cái)稅法規(guī)的屬性特征, 使用條款的靜態(tài)特征、條款與問句的關(guān)聯(lián)特征及問句本身的特征, 共4種特征作為特征集進(jìn)行訓(xùn)練, 如表 3 所示。

    對于特征集中的非數(shù)值類型的特征(如類別屬性特征), 我們用one-hot方法[27]處理。由于每個(gè)特征的取值范圍不同, 需要對其進(jìn)行歸一化:

    其中,j為某一維特征,n為特征維數(shù),i為數(shù)據(jù)集編號,m為數(shù)據(jù)集數(shù)量。

    法規(guī)庫及案例庫中具有時(shí)效屬性特征。在對案

    表3 條款特征集Table 3 Feature set of provisions

    例中的問句進(jìn)行檢索時(shí), 根據(jù)案例及法規(guī)條款的時(shí)效特征進(jìn)行匹配, 對失效條款進(jìn)行過濾。排序?qū)W習(xí)訓(xùn)練完成后, 對于新的問句查詢, 將語義檢索結(jié)果屬輸入排序模型進(jìn)行重新排序。最后, 選取排序結(jié)果top N作為條款檢索最終結(jié)果。

    2.4 案例檢索與答案抽取

    案例內(nèi)容比較規(guī)范, 包括問題描述、分析與結(jié)論。問題描述特征比較明顯, 可以使用規(guī)則的形式抽取, 答案的抽取則需要更復(fù)雜的分析。答案獲取的過程分為相似案例檢索及答案抽取兩個(gè)步驟。

    2.4.1 相似案例檢索

    相似案例檢索是根據(jù)用戶輸入的問題, 在案例集的問題描述中發(fā)現(xiàn)相似問題。由于案例是對某個(gè)具體涉稅行為的描述, 同類行為可能涉及不同的實(shí)體實(shí)例, 因此關(guān)鍵字檢索很難準(zhǔn)確地找到相似案例(如圖1中的Q1和C-Q2)。本文使用語義相似度衡量新問題與案例問題的相似度, 計(jì)算過程同2.3節(jié), 將相似度大于閾值的作為候選案例集。

    為了更準(zhǔn)確地找到相似案例, 本文使用排序?qū)W習(xí)對檢索結(jié)果進(jìn)行優(yōu)化。由于缺少案例的標(biāo)注, 所以需要大量的人工處理。本文僅利用法規(guī)引文, 對案例集進(jìn)行篩選。篩選條件基于如下假設(shè): 問題的解答過程是法規(guī)條款的應(yīng)用過程, 相似的問題需要相似的法規(guī)條款進(jìn)行解釋。因此, 具有相同參考法規(guī)的問題相似度更高。設(shè)Tq={tq1,tq2,...,tqk}為問題檢索到條款集,Tc={tc1,tc2,...,tcl}為案例中引用的條款集, 用如下公式計(jì)算條款集的相似性:

    最后, 將相似度小于閾值的案例從候選案例集中移除。

    2.4.2 答案抽取

    在案例中, 答案的描述段沒有明顯的標(biāo)識, 無法用模板匹配的方法直接抽取, 需要使用更復(fù)雜的方法來識別以及抽取答案句。目前, 答案句檢索方法主要分為基于句子相似度和基于機(jī)器學(xué)習(xí)的方法[2,28]。由于缺少相關(guān)的訓(xùn)練語料, 本文僅使用基于句子相似度的方法對答案句進(jìn)行抽取。利用式(1)計(jì)算語義相似度, 選取相似度最高的句子作為最終答案的參考。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 數(shù)據(jù)集

    本文使用的數(shù)據(jù)集為半自動(dòng)化方法構(gòu)建的財(cái)稅知識庫以及從財(cái)稅網(wǎng)站中爬取的公開法規(guī)集。獲取過程中可以通過相關(guān)描述, 得到發(fā)布時(shí)間、效力級別和有效性等結(jié)構(gòu)化屬性。案例集由專業(yè)服務(wù)人員提供。由于財(cái)稅法規(guī)及案例具有比較規(guī)范的結(jié)構(gòu)特點(diǎn), 對財(cái)稅法規(guī), 通過機(jī)器學(xué)習(xí)及規(guī)則的方法進(jìn)行分解, 得到具有層次關(guān)系的條款集合及法規(guī)條款之間的引用關(guān)系; 對財(cái)稅案例, 通過模式匹配的方法,抽取出問句描述及引用的相關(guān)法規(guī)條款信息, 對其映射關(guān)系進(jìn)行自動(dòng)標(biāo)注。最后獲取財(cái)稅法規(guī)集22327篇, 條款集415236條, 案例集56261篇, 問題集56261, 問句與條款之間的映射關(guān)系148372個(gè)。

    為了對比排序?qū)W習(xí)的效果, 在法規(guī)檢索與排序?qū)W習(xí)的測試集中, 選取對應(yīng)法規(guī)條款數(shù)大于3的問句作為法規(guī)條款檢索及排序?qū)W習(xí)的測試語料, 得到問句33261個(gè), 平均每個(gè)問句對應(yīng)法規(guī)條款3.6條。法規(guī)語義檢索測試集使用自動(dòng)獲取的問題與條款的映射關(guān)系, 排序?qū)W習(xí)測試集需要人工對排序結(jié)果進(jìn)行標(biāo)注。對檢索結(jié)果的前10項(xiàng), 按相關(guān)性進(jìn)行人工標(biāo)注。同一個(gè)任務(wù)分配給兩個(gè)標(biāo)注者, 如果提交的結(jié)果不同, 則分配給專家進(jìn)行標(biāo)注。兩個(gè)標(biāo)注者標(biāo)注的一致率約為91%。

    在案例檢索與答案抽取測試集中, 隨機(jī)選取200個(gè)案例進(jìn)行人工標(biāo)注。標(biāo)注內(nèi)容為相似案例及案例中的答案句。相似案例標(biāo)注的一致率約為93%, 答案句標(biāo)注的一致率為98%。

    3.2 評估方法及結(jié)果

    3.2.1 法規(guī)條款檢索評估

    使用案例中問題和相關(guān)法規(guī)條款的標(biāo)注集進(jìn)行測試?;鶞?zhǔn)測試使用BM25及TF-IDF方法[26], 評價(jià)指標(biāo)使用前n個(gè)結(jié)果的準(zhǔn)確率(P@n)和平均查準(zhǔn)率(mean average precision, MAP)。由于測試問句的相關(guān)條款大于3條, 同時(shí)為了對比排序?qū)W習(xí)對檢索結(jié)果排序的影響, 本文選取指標(biāo)P@3和P@5對檢索結(jié)果進(jìn)行分析。

    為了進(jìn)一步測試各語義特征的影響, 首先使用式(6)(融合特征)進(jìn)行測試, 然后分別去掉單個(gè)語義特征, 測試其對檢索結(jié)果的影響(通過測試, 當(dāng)δ,γ,λ,μ取值分別為0.3, 0.15, 0.35, 0.2時(shí)效果最好), 結(jié)果如表 4 所示。

    從表 4 看出, 對于條款的檢索, 與基于關(guān)鍵字的方法相比, 融合多種語義特征的方法在查詢性能上均明顯地提高。主要原因是進(jìn)行語義相似度計(jì)算時(shí), 考慮了更多字符不匹配的實(shí)體, 如Q1和C-Q2中的“寫字樓”和“商鋪”在知識庫中都屬于“非住房”概念, 通過結(jié)構(gòu)特征分析, 可以得到較高的相似度值, 而基于關(guān)鍵字的方法無法衡量這種關(guān)系。我們還隨機(jī)選取 30 個(gè)問題檢索結(jié)果, 發(fā)現(xiàn)融合多種語義特征能夠提高檢索的召回率。這是由于增加問句的語義特征相當(dāng)于對查詢詞進(jìn)行一定程度的擴(kuò)展。表 4 顯示, 基于知識庫的各類語義特征與詞向量特征都能在不同程度上提高檢索的效果, 其中去除結(jié)構(gòu)語義特征, 指標(biāo)下降最明顯, 原因可能是實(shí)體的類別信息對檢索過程影響較大(法規(guī)的內(nèi)容多為概念性的描述)。此外, 對部分錯(cuò)誤結(jié)果進(jìn)行分析發(fā)現(xiàn), 很多錯(cuò)誤是由實(shí)體鏈接與標(biāo)注引起的, 錯(cuò)誤的標(biāo)注召回更多不相關(guān)的內(nèi)容。

    表4 法規(guī)條款檢索測試結(jié)果Table 4 Evaluation results of provision retrieval

    3.2.2 排序?qū)W習(xí)評估

    對3.1節(jié)中篩選后的案例集, 選取其中的2/3作為訓(xùn)練集, 1/3作為測試集。使用SVMrank工具①http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html(模型參數(shù)C設(shè)為3)對語義檢索結(jié)果進(jìn)行排序, 分析各類特征對排序結(jié)果的影響, 分別去掉單個(gè)特征進(jìn)行測試。評價(jià)指標(biāo)使用平均查準(zhǔn)率MAP及平均倒排序(mean reciprocal rank, MRR), 用于對排序算法進(jìn)行評價(jià), 結(jié)果如表 5 所示。

    表5 法規(guī)條款排序?qū)W習(xí)測試結(jié)果Table 5 Evaluation results of provision ranking

    通過與表 4 對比, 發(fā)現(xiàn)排序?qū)W習(xí)后 MAP 值提高21%, 去除某類特征都會不同程度地降低MAP和MRR值, 說明法規(guī)的領(lǐng)域相關(guān)特征對優(yōu)化查詢結(jié)果是有效的。屬性特征對排序結(jié)果指標(biāo)下降的影響最明顯, 證明法規(guī)條款的屬性特征對排序結(jié)果影響最大。通過分析實(shí)驗(yàn)結(jié)果, 我們發(fā)現(xiàn)一些規(guī)律, 如中央法規(guī)一般比地方法規(guī)排序更靠前, 新的法規(guī)比舊的法規(guī)排序更靠前, 但也有很多例外的情況。

    3.2.3 案例檢索和答案抽取評估

    我們采用人工判別的方法, 對案例的檢索進(jìn)行評估。從案例集中隨機(jī)抽取 200 個(gè)案例進(jìn)行測試,使用案例問題描述檢索相似案例, 由領(lǐng)域?qū)<以u估返回的相似案例是否與檢索問題相似, 同時(shí)判斷答案抽取的句子是否正確。案例檢索評價(jià)指標(biāo)使用P@n, MAP 和 MAC。答案抽取指標(biāo)使用 P@n, MRR和召回率。

    從表 6 可以看出, 與關(guān)鍵字檢索相比, 語義特征對案例的檢索效果同樣有明顯的提升, 實(shí)驗(yàn)結(jié)果與法規(guī)條款的檢索結(jié)果基本上一致。使用相關(guān)條款對檢索結(jié)果進(jìn)行篩選, 可以進(jìn)一步提高準(zhǔn)確率和MAP 值, 這也體現(xiàn)了之前的假說(法規(guī)條款是問題解答的依據(jù), 相似的問題具有需要相似法規(guī)條款進(jìn)行解釋)。對錯(cuò)誤案例進(jìn)行觀察發(fā)現(xiàn), 多數(shù)錯(cuò)誤的檢索結(jié)果為含有數(shù)值型描述的問題。這是因?yàn)閷τ谪?cái)稅案例, 數(shù)值的大小不同時(shí), 會有不同的處理方式(如金額和日期等)。

    表6 案例檢索測試結(jié)果Table 6 Evaluation results of case retrieval

    對于答案抽取的測試, 首先選取檢索的正確相似案例, 對比基于關(guān)鍵詞的句子相似性和基于語義的句子相似性計(jì)算方法, 分別記為S-關(guān)鍵字方法和S-語義方法。為了評估法規(guī)檢索和案例檢索對整個(gè)系統(tǒng)答案抽取的作用, 我們還測試了直接使用問句在案例文本中檢索答案的方法, 記為P-關(guān)鍵字方法和P-語義方法。關(guān)鍵字查詢使用TF-IDF方法, 測試結(jié)果如表 7 所示。

    表7 答案抽取測試結(jié)果Table 7 Evaluation results of answer extraction

    在表 7 可以看出, 語義特征能夠有效地提高答案句抽取的準(zhǔn)確率、召回率和MRR值。與直接使用問句檢索答案的方法相比, 加入法規(guī)和案例檢索過程對最終答案的獲取效果提升顯著, 說明利用法規(guī)特征可以更準(zhǔn)確地找到相似案例, 證明了本文方法的有效性。分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn), 錯(cuò)誤主要出現(xiàn)在較簡短或包含多個(gè)句子的答案中, 這類答案需要考慮更多的特征進(jìn)行分析。

    4 結(jié)語

    本文研究財(cái)稅領(lǐng)域非事實(shí)型問題的答案抽取方法, 主要貢獻(xiàn)在于以下幾個(gè)方面。

    1)根據(jù)財(cái)稅非事實(shí)型問答的領(lǐng)域資源特征, 提出一種結(jié)合法規(guī)和案例資源的兩階段答案抽取方法, 以法規(guī)條款為支撐, 從案例中抽取相關(guān)答案,提高了答案獲取的準(zhǔn)確率。

    2)針對用戶問題表述不規(guī)范以及查詢匹配不準(zhǔn)確的問題, 使用領(lǐng)域知識庫的多種語義特征, 對傳統(tǒng)的語義檢索算法進(jìn)行改進(jìn), 提高了法規(guī)和案例檢索的效率。

    3)針對領(lǐng)域文本結(jié)構(gòu)復(fù)雜以及領(lǐng)域特性難以有效利用的問題, 使用排序?qū)W習(xí)算法, 融合多種領(lǐng)域文本特征, 對檢索結(jié)果進(jìn)行排序, 優(yōu)化了法規(guī)檢索的結(jié)果。

    4)根據(jù)真實(shí)數(shù)據(jù)創(chuàng)建財(cái)稅領(lǐng)域非事實(shí)型問答測評集, 并用本文方法進(jìn)行測試, 實(shí)驗(yàn)結(jié)果證明了該方法的有效性。

    在未來的工作中, 我們將進(jìn)行以下方面的研究:1)改進(jìn)實(shí)體鏈接與標(biāo)注算法, 提高語義標(biāo)注的準(zhǔn)確率, 以便更準(zhǔn)確地獲取文本的語義信息。2)進(jìn)一步考察和分析法規(guī)、案例及答案句的特征, 研究特征選擇方法[29], 對特征的重要性進(jìn)行評估, 選擇最優(yōu)特征集。3)對案例答案句進(jìn)行人工標(biāo)注, 采用機(jī)器學(xué)習(xí)方法, 結(jié)合篇章結(jié)構(gòu)、上下文以及句子長度等多種特征進(jìn)行訓(xùn)練, 學(xué)習(xí)答案特征模型, 進(jìn)一步提高答案抽取的準(zhǔn)確率。4)研究知識推理方法, 發(fā)現(xiàn)隱含的語義信息, 為答案抽取提供更多的依據(jù)。

    猜你喜歡
    知識庫條款排序
    性侵未成年人新修訂若干爭議條款的理解與適用
    排序不等式
    恐怖排序
    正確審視“紐約假期”條款
    中國外匯(2019年15期)2019-10-14 01:00:48
    基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    On Knock-for-Knock Principle:Analysis of SUPPLYTIME 2017 Clause 14(a)
    節(jié)日排序
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    东莞市| 洱源县| 轮台县| 崇文区| 苍梧县| 宁安市| 黎城县| 龙州县| 芦山县| 遂平县| 清涧县| 百色市| 六枝特区| 含山县| 海阳市| 星座| 泽库县| 文化| 讷河市| 霍林郭勒市| 宝应县| 百色市| 阿巴嘎旗| 恩施市| 政和县| 双桥区| 夹江县| 京山县| 嘉兴市| 孝昌县| 女性| 罗山县| 西峡县| 彰化市| 信阳市| 金塔县| 苗栗县| 永丰县| 辽源市| 湘阴县| 镇宁|