• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于復(fù)述的中文自然語(yǔ)言接口

      2016-05-14 09:34:53張俊馳胡婕劉夢(mèng)赤
      計(jì)算機(jī)應(yīng)用 2016年5期
      關(guān)鍵詞:復(fù)述機(jī)器學(xué)習(xí)

      張俊馳 胡婕 劉夢(mèng)赤

      摘要:針對(duì)傳統(tǒng)以句法分析為主的數(shù)據(jù)庫(kù)自然語(yǔ)言接口系統(tǒng)識(shí)別用戶語(yǔ)義準(zhǔn)確率不高,且需要大量人工標(biāo)注訓(xùn)練語(yǔ)料的問題,提出了一種基于復(fù)述的中文自然語(yǔ)言接口(NLIDB)實(shí)現(xiàn)方法。首先提取用戶語(yǔ)句中表征數(shù)據(jù)庫(kù)實(shí)體詞,建立候選樹集及對(duì)應(yīng)的形式化自然語(yǔ)言表達(dá);其次由網(wǎng)絡(luò)問答語(yǔ)料訓(xùn)練得到的復(fù)述分類器篩選出語(yǔ)義最相近的表達(dá);最后將相應(yīng)的候選樹轉(zhuǎn)換為結(jié)構(gòu)化查詢語(yǔ)句(SQL)。實(shí)驗(yàn)表明該方法在美國(guó)地理問答語(yǔ)料(GeoQueries880)、餐飲問答語(yǔ)料(RestQueries250)上的F1值分別達(dá)到83.4%、90%,均優(yōu)于句法分析方法。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)基于復(fù)述方法的數(shù)據(jù)庫(kù)自然語(yǔ)言接口系統(tǒng)能更好地處理用戶與數(shù)據(jù)庫(kù)的語(yǔ)義鴻溝問題。

      關(guān)鍵詞:數(shù)據(jù)庫(kù)自然語(yǔ)言接口;詞向量;復(fù)述;自然語(yǔ)言表達(dá);機(jī)器學(xué)習(xí)

      中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A

      Abstract:In this paper, a novel method for Chinese Natural Language Interface of Database (NLIDB) based on Chinese paraphrase was proposed to solve the problems of traditional methods based on syntactic parsing which cannot obtain high accuracy and need a lot of manual label training corpus. First, key entities of user statements in databases were extracted, and candidate tree sets and their tree expressions were generated. Then most relevant semantic expressions were filtered by paraphrase classifier which was obtained from the Internet Q&A training corpus. Finally, candidate trees were translated into Structured Query Language (SQL). F1 score was respectively 83.4% and 90% on data sets of Chinese America Geography (GeoQueries880) and Questions about Restaurants (RestQueries250) by using the proposed method, better than syntactic based method. The experimental results demonstrate that the NLIDB based on paraphrase can handle the semantic gaps between users and databases better.

      Key words:Natural Language Interface of DataBase (NLIDB); word vector; paraphrase; natural language expression; machine learning

      0 引言

      隨著現(xiàn)代信息技術(shù)的發(fā)展以及數(shù)據(jù)的海量式增長(zhǎng),人們希望以更自然、便捷的方式從數(shù)據(jù)庫(kù)中獲取信息,數(shù)據(jù)庫(kù)自然語(yǔ)言接口(Natural Language Interface of DataBase, NLIDB)應(yīng)運(yùn)而生,旨在幫助用戶使用熟悉的自然語(yǔ)言(如中文)從結(jié)構(gòu)化存儲(chǔ)系統(tǒng)中獲取信息,消除計(jì)算機(jī)與人之間的“隔閡”。

      Rodolfo等[1]從不同角度分析、總結(jié)了目前主流的NLIDB系統(tǒng),大體分為兩類:一類是以規(guī)則匹配、句法分析或語(yǔ)義規(guī)則[2-6]等為主要技術(shù)手段,分析用戶查詢語(yǔ)義然后轉(zhuǎn)換為結(jié)構(gòu)化查詢語(yǔ)言(Structured Query Language, SQL),即自然語(yǔ)言到SQL的直接映射;另一類是首先將自然語(yǔ)言翻譯成一種中間層表示的邏輯查詢語(yǔ)言,再轉(zhuǎn)換為SQL[7-9],這種方法由于具有數(shù)據(jù)庫(kù)無(wú)關(guān)、領(lǐng)域適應(yīng)性等特點(diǎn),成為近年來(lái)該領(lǐng)域研究的熱點(diǎn)。然而,以上方法的難點(diǎn)在于需要直接處理用戶靈活多變的查詢語(yǔ)義,由于目前詞法分析、句法分析技術(shù)尚未達(dá)到足夠高的正確率,語(yǔ)義分析階段的錯(cuò)誤將導(dǎo)致最后生成的SQL不符合用戶查詢意圖。

      近來(lái),一些學(xué)者將NLIDB轉(zhuǎn)換為最優(yōu)結(jié)構(gòu)篩選問題,即對(duì)用戶輸入首先生成可能的候選結(jié)構(gòu)集,再借用規(guī)則或統(tǒng)計(jì)學(xué)方法對(duì)其排序,最后取分?jǐn)?shù)最高的候選結(jié)構(gòu)轉(zhuǎn)換為SQL[10-13]。目前上述方法主要依賴人工編寫規(guī)則以及標(biāo)注語(yǔ)料,不便于跨領(lǐng)域使用。根據(jù)文獻(xiàn)[1]總結(jié)的查詢問題發(fā)現(xiàn),僅依靠輸入語(yǔ)句與數(shù)據(jù)庫(kù)模式很多情況無(wú)法篩選出正確結(jié)構(gòu),例如,問句“有多少人居住于亞拉巴馬州?”“亞拉巴馬州有多少公民?”“亞拉巴馬州的人數(shù)幾何?”查詢目標(biāo)都應(yīng)匹配到數(shù)據(jù)庫(kù)屬性“人口”。為彌補(bǔ)這種語(yǔ)義差異,文獻(xiàn)[14-15]使用信息抽取方法從大規(guī)模文本中學(xué)習(xí)出詞匯與知識(shí)庫(kù)實(shí)體之間的映射關(guān)系,但實(shí)際中,該方法受限于知識(shí)庫(kù)的大小以及信息抽取的準(zhǔn)確度。

      綜合以上問題,本文提出了一種基于復(fù)述的中文自然語(yǔ)言接口(Paraphrase Natural Language Interface, PaNLI)實(shí)現(xiàn)方法。PaNLI使用網(wǎng)絡(luò)問答平臺(tái)提供的大量“類似問題”“相關(guān)知識(shí)”作為復(fù)述(paraphrases)訓(xùn)練語(yǔ)料,這些語(yǔ)料涉及領(lǐng)域廣泛且來(lái)自用戶的真實(shí)提問,訓(xùn)練得到的復(fù)述分類器能更好地解決NLIDB語(yǔ)義鴻溝問題。PaNLI首先提取出句子中可映射到數(shù)據(jù)庫(kù)元素的實(shí)體詞,并通過(guò)子樹遍歷等操作得到候選樹集與初始排序;其次根據(jù)候選結(jié)構(gòu)匹配的屬性句法類別結(jié)合規(guī)則模板生成若干個(gè)形式化的自然語(yǔ)言表達(dá);最后利用訓(xùn)練得到的支持向量機(jī)模型(Support Vector Machine, SVM)分類器計(jì)算輸入語(yǔ)句與形式化自然語(yǔ)言表達(dá)的語(yǔ)義相關(guān)度,重新排序候選樹集,將得到的最優(yōu)候選樹轉(zhuǎn)換為SQL。

      使用機(jī)器學(xué)習(xí)方法處理分類問題時(shí),關(guān)鍵點(diǎn)在于對(duì)問題抽取合適的特征表示,以往句子表示通常使用詞袋模型,即不考慮詞語(yǔ)順序以及關(guān)聯(lián)信息。本文提出一種富語(yǔ)義的句子級(jí)特征表示方法,使用Word2Vec工具[16]在大量未標(biāo)注文本上訓(xùn)練得到詞語(yǔ)的低維向量表示,結(jié)合依存句法分析結(jié)果,得到句子的多維語(yǔ)義特征表示。實(shí)驗(yàn)表明該特征表示方法能有效提高復(fù)述分類精度。

      1 系統(tǒng)組成

      數(shù)據(jù)庫(kù)自然語(yǔ)言接口PaNLI系統(tǒng)結(jié)構(gòu)如圖1所示,主要由以下4個(gè)模塊構(gòu)成:1)候選集生成;2)形式化自然語(yǔ)言表達(dá)構(gòu)造;3)最優(yōu)自然語(yǔ)言表達(dá)與候選樹篩選;4)候選樹轉(zhuǎn)換為SQL語(yǔ)句。

      1.1 數(shù)據(jù)庫(kù)預(yù)處理

      數(shù)據(jù)庫(kù)預(yù)處理包含索引以及模式圖建立。為提高查全率,首先,采用基于信息檢索的細(xì)粒度分詞方法[17]對(duì)數(shù)據(jù)庫(kù)中的模式及實(shí)例分詞建立索引;其次,將數(shù)據(jù)庫(kù)模式G(V,E)視為一個(gè)有向圖結(jié)構(gòu),其中V包含關(guān)系名以及屬性名兩種節(jié)點(diǎn),E分為關(guān)系屬性邊和主鍵外鍵邊。對(duì)E中每條邊e賦予一個(gè)0~1的權(quán)值ω(e),值越高表明連通性越強(qiáng),本文依據(jù)包含e的實(shí)例數(shù)量與實(shí)例總量的比值來(lái)設(shè)置邊的初始權(quán)值。

      1.2 候選結(jié)構(gòu)建立

      文獻(xiàn)[10]以句子的依存句法分析為輸入,生成多個(gè)候選SQL語(yǔ)句,使用機(jī)器學(xué)習(xí)方法計(jì)算SQL與句子短語(yǔ)結(jié)構(gòu)樹之間的相似程度,該方法不足之處在于SQL語(yǔ)句與自然語(yǔ)言從結(jié)構(gòu)以及語(yǔ)法上都有很大差異,雖然可以將兩者以樹結(jié)構(gòu)表示,但是其所表達(dá)的語(yǔ)義無(wú)法證明具有相似性。

      本文中,該模塊使用預(yù)建立的詞表匹配出用戶輸入語(yǔ)句中的數(shù)據(jù)庫(kù)實(shí)體詞,以此生成包含正確語(yǔ)義結(jié)構(gòu)的候選樹集。對(duì)每一個(gè)候選樹,根據(jù)其匹配屬性的句法類別結(jié)合規(guī)則模板構(gòu)造出若干形式化自然語(yǔ)言表達(dá),使得語(yǔ)義相似度計(jì)算發(fā)生在同類型語(yǔ)言中,計(jì)算結(jié)果更加合理。

      1.3 復(fù)述分類器

      該模塊利用網(wǎng)絡(luò)問答平臺(tái)提供的主題類似問題作為原始語(yǔ)料,首先使用分類方法過(guò)濾掉部分雜質(zhì)語(yǔ)句,在篩選出的語(yǔ)料中人工標(biāo)注少量復(fù)述問句對(duì);然后應(yīng)用半監(jiān)督學(xué)習(xí)方法擴(kuò)充復(fù)述語(yǔ)料;最后訓(xùn)練得到一個(gè)基于支持向量機(jī)的排序復(fù)述分類器。本文使用該分類器對(duì)生成的自然語(yǔ)言表達(dá)按照語(yǔ)義相近程度排序,該方法提供了兩方面的優(yōu)勢(shì):1)復(fù)述方法避免了對(duì)用戶的原語(yǔ)句直接語(yǔ)義分析,使得轉(zhuǎn)換的正確率不會(huì)過(guò)于依賴預(yù)定義規(guī)則以及句法分析的正確率;2)用戶時(shí)常隱晦地表達(dá)查詢謂詞,例如,問句“有多少人居住在亞拉巴馬州?”其中“居住”與屬性“人口”有語(yǔ)義關(guān)聯(lián)關(guān)系,復(fù)述方法尤為適合解決這種語(yǔ)義鴻溝問題。

      1.4 結(jié)構(gòu)化查詢語(yǔ)句生成

      SQL生成是將經(jīng)過(guò)篩選的符合預(yù)定義的語(yǔ)義規(guī)則(見第2章)的候選結(jié)構(gòu)樹,按照數(shù)據(jù)庫(kù)模式圖進(jìn)行調(diào)整(包括插入路徑缺失節(jié)點(diǎn)、屬性關(guān)系名替換等)轉(zhuǎn)換為數(shù)據(jù)庫(kù)能直接執(zhí)行的結(jié)構(gòu)化查詢語(yǔ)句的過(guò)程。將候選結(jié)構(gòu)樹轉(zhuǎn)換為SQL的方法與生成自然語(yǔ)言表達(dá)的方法類似,故本文不再單獨(dú)描述。

      2 候選樹集生成

      給定一個(gè)輸入查詢語(yǔ)句q及數(shù)據(jù)庫(kù)DB,首先抽取出若干可映射到數(shù)據(jù)庫(kù)元素的實(shí)體詞WD以及對(duì)應(yīng)的數(shù)據(jù)庫(kù)元素S,其次由WD生成符合語(yǔ)義規(guī)則的候選樹集Tq。在關(guān)系數(shù)據(jù)庫(kù)中,定義數(shù)據(jù)庫(kù)元素S包括關(guān)系名R、屬性名A以及屬性值V。為簡(jiǎn)化生成過(guò)程,預(yù)先將具有固定表達(dá)的聚類函數(shù)詞(如,最多、總和、平均值等)以及邏輯操作詞(如,大于、等于、并且等)分離出來(lái)。

      生成算法的基本思想是通過(guò)子樹移動(dòng)操作來(lái)遍歷(WD,S)可能的樹結(jié)構(gòu),考慮到候選樹集隨著WD增加呈指數(shù)級(jí)增長(zhǎng),在子樹移動(dòng)的過(guò)程中根據(jù)模式圖以及語(yǔ)義規(guī)則裁剪掉不可能生成正確結(jié)構(gòu)的子樹。候選樹生成算法表述如下:

      3 形式化自然語(yǔ)言表達(dá)構(gòu)造

      以往的NLIDB系統(tǒng)側(cè)重于自然語(yǔ)言到結(jié)構(gòu)化語(yǔ)句的單方向研究,而一個(gè)用戶友好的系統(tǒng)應(yīng)同時(shí)具備逆向翻譯功能[19],即把執(zhí)行語(yǔ)句以用戶熟悉的語(yǔ)言呈現(xiàn)。本文中,該逆向過(guò)程除了用于結(jié)果呈現(xiàn),更重要的作用是作為候選樹篩選的“中間自然語(yǔ)言”,使用復(fù)述方法計(jì)算語(yǔ)義相似度。

      文獻(xiàn)[20]使用基于圖的多種合并方法將SQL轉(zhuǎn)換為自然語(yǔ)言表達(dá)。這里,候選樹是由模式圖路徑生成得到的直觀結(jié)構(gòu),僅需使用若干固定模板即可完成轉(zhuǎn)換。表1中歸納了形式化自然語(yǔ)言表達(dá)構(gòu)造模板(加粗的詞為表格中S(a)類別),其中關(guān)系名、屬性值、聚類函數(shù)、操作符由S(r)、S(v)、AGGR、OPR表示,S(a)為屬性名的句法類別。生成的問句分為兩類,分別以“……是多少”、“……是什么”結(jié)尾或以疑問詞“哪些……”開頭,然后關(guān)系名S(r)作為句子描述部分的起始詞,其后包含屬性值S(v)、聚類函數(shù)AGGR、操作符OPR,本文根據(jù)模式中屬性名S(a)所屬的句法類別(NP、VP等)構(gòu)造句子順序并添加必要的結(jié)構(gòu)助詞。

      在生成的候選樹結(jié)構(gòu)中,根節(jié)點(diǎn)關(guān)系名作為句子描述部分的起始詞,若其直接子節(jié)點(diǎn)包含屬性值則使用第一種類型的問句模板,否則使用以“哪些”開頭的第二種模板。屬性值S(v)通常作為條件限定where的組成部分,從而不包含S(v)子節(jié)點(diǎn)的關(guān)系名或?qū)傩悦鳛榫渲械牟樵兡康模湓谀0逯芯o靠疑問代詞。當(dāng)候選樹的結(jié)構(gòu)較復(fù)雜時(shí),本文使用模板合并的方法構(gòu)造長(zhǎng)問句,例如圖2中的候選樹(c),結(jié)合表1的模板規(guī)則1、4生成問句“哪些州的面積大于猶他州的面積,其人口是多少?”,合并過(guò)程中使用代詞“其”連接多條規(guī)則,避免生成冗余的自然語(yǔ)言表達(dá)。

      數(shù)據(jù)庫(kù)模式中每個(gè)主外鍵關(guān)系R都有一個(gè)R′與其互為逆關(guān)系(例如,“首都”和“所屬國(guó)家”)。對(duì)每一個(gè)候選結(jié)構(gòu)樹t,本文生成具有相同語(yǔ)義的結(jié)構(gòu)樹t′,其中關(guān)系R由R′替代。由逆關(guān)系建立的候選結(jié)構(gòu)使用不同的規(guī)則模板生成自然語(yǔ)句,實(shí)體在規(guī)則中交換主語(yǔ)和賓語(yǔ)位置。最后將t′生成的自然語(yǔ)句添加到結(jié)構(gòu)樹t的對(duì)應(yīng)形式化自然語(yǔ)言表達(dá)集中。對(duì)美國(guó)地理問答數(shù)據(jù)集(GeoQueries880),每條用戶查詢,平均對(duì)應(yīng)生成132條形式化自然語(yǔ)句。

      4 復(fù)述方法

      復(fù)述,通俗來(lái)講,就是對(duì)相同語(yǔ)義的不同表達(dá)[21],在機(jī)器翻譯、自動(dòng)問答、信息抽取以及自然語(yǔ)言生成等領(lǐng)域有著諸多應(yīng)用[22],但目前復(fù)述語(yǔ)料抽取方法不夠完善,構(gòu)建一個(gè)含有大量復(fù)述句對(duì)的語(yǔ)料庫(kù)周期長(zhǎng)且資源獲取困難。

      在NLIDB系統(tǒng)研究中,本文主要關(guān)注問句形式的復(fù)述語(yǔ)料,通過(guò)對(duì)百度知道、搜狗問問等平臺(tái)的觀察發(fā)現(xiàn),大量具有相同含義的提問以“類似問題”“相關(guān)知識(shí)”等形式在主題頁(yè)面中展現(xiàn),

      例如,百度知道用戶的提問“有多少人居住在上海?”,該頁(yè)面的其他類似問題包括“上海現(xiàn)在住的人口有多少?”“居住于上海的,目前大概有多少人口?”等。對(duì)于搜索引擎本身,其后臺(tái)積累了大量用戶搜索、提問日志,通過(guò)聚類、挖掘等操作可以將具有類似語(yǔ)義的提問歸結(jié)起來(lái),本文以頁(yè)面中的提問以及類似問題作為一個(gè)基本塊(平均包含1條主題問句以及5條類似問題),大量抽取以塊為單位的復(fù)述訓(xùn)練語(yǔ)料。

      4.1 語(yǔ)料處理

      從網(wǎng)絡(luò)上抽取得到的原始語(yǔ)料中包含枚舉、事實(shí)、概念等多種問題類型,NLIDB系統(tǒng)不同于自動(dòng)問答系統(tǒng),不能處理例如“中國(guó)為什么要進(jìn)行改革開放?”這種概念性問題。本文將問題類型分為可處理(枚舉、需求、事實(shí)、是非)與不可處理(概念、推薦、評(píng)價(jià))兩類,使用復(fù)旦中文問答系統(tǒng)問題標(biāo)注集作為語(yǔ)料,按照文獻(xiàn)[23]中的方法訓(xùn)練得到一個(gè)二值分類器,過(guò)濾掉不可處理問題及其類似問題,由于該分類目的是篩選出不可處理的雜質(zhì)語(yǔ)料,減少人工篩選工作量,其分類準(zhǔn)確度不會(huì)影響最后結(jié)果。篩選出的可處理數(shù)據(jù)中以塊為基礎(chǔ)使用少量人工標(biāo)注出語(yǔ)義相同(復(fù)述語(yǔ)料標(biāo)記為1)以及語(yǔ)義不同(非復(fù)述語(yǔ)料標(biāo)記問0)的問句對(duì),最后得到4800條人工標(biāo)注訓(xùn)練集。網(wǎng)絡(luò)問答平臺(tái)中用戶提問覆蓋多個(gè)領(lǐng)域,對(duì)于自然語(yǔ)言接口系統(tǒng),通過(guò)觀察發(fā)現(xiàn)領(lǐng)域相關(guān)聯(lián)的問答語(yǔ)料更能提升系統(tǒng)轉(zhuǎn)換效果,從而對(duì)訓(xùn)練復(fù)述集,本文根據(jù)其在網(wǎng)絡(luò)平臺(tái)中的所屬類別將問句分類。實(shí)際應(yīng)用時(shí),針對(duì)不同的查詢領(lǐng)域本文選擇不同的分類復(fù)述語(yǔ)料。

      4.2 訓(xùn)練數(shù)據(jù)擴(kuò)充

      在人工標(biāo)注的少量復(fù)述語(yǔ)料基礎(chǔ)上,本文使用基于協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法擴(kuò)充訓(xùn)練語(yǔ)料,其核心思想是:對(duì)于一個(gè)未標(biāo)注樣本,如果SVM、隨機(jī)森林以及最大熵中兩個(gè)分類器的判別一致,則將該樣本進(jìn)行標(biāo)記,并將其納入另一個(gè)分類器的訓(xùn)練樣本;如此重復(fù)迭代,直至所有訓(xùn)練樣本都被標(biāo)記或者三個(gè)分類器不再有變化。

      4.3 向量空間模型

      在模型訓(xùn)練之前需使用合適的方法表示句子,傳統(tǒng)的文本處理方法詞袋模型(BagOfWords, BOW),將文本拆解為單詞,以單詞作為矢量空間的維度,以每個(gè)單詞在文本中出現(xiàn)的頻率作為文本矢量對(duì)應(yīng)維度的值。BOW的缺點(diǎn)是忽略了詞語(yǔ)在文本中出現(xiàn)的先后次序,并且沒有考慮詞語(yǔ)的語(yǔ)義信息(實(shí)驗(yàn)5.2節(jié))。

      詞向量模型最早由Hinton提出,它將所有詞映射到一個(gè)低維實(shí)數(shù)向量空間,語(yǔ)義相近的詞在向量空間中的距離也更近。本文使用文獻(xiàn)[16]所提出的Word2Vec工具設(shè)置窗口大小為5的CBOW模型以及hierarchical softmax方法,在中文維基百科上訓(xùn)練得到詞語(yǔ)語(yǔ)義的Word Embedding模型。Word2Vec是一個(gè)無(wú)隱含層的神經(jīng)網(wǎng)絡(luò),直接訓(xùn)練詞的N維(本文中設(shè)置N為50)實(shí)數(shù)向量與內(nèi)部節(jié)點(diǎn)向量的條件概率。訓(xùn)練結(jié)果中,任意兩個(gè)詞的語(yǔ)義相關(guān)程度可以通過(guò)計(jì)算兩個(gè)詞對(duì)應(yīng)向量的余弦相似度得到。

      除了詞向量,本文同時(shí)還考慮依存句法關(guān)系的低維向量特征表示。本文使用斯坦福依存句法分析器[24],依存弧標(biāo)記δ={amod,tmod,nsubj,csubj,dobj,…}是相對(duì)離散的標(biāo)簽集合,也有類似詞語(yǔ)的語(yǔ)義相關(guān)性。例如amod(形容詞修飾)與num(數(shù)詞修飾)更相近而不是nsubj(名詞性主語(yǔ))。本文使用與詞語(yǔ)相似的方法,將訓(xùn)練語(yǔ)料中的依存關(guān)系標(biāo)記映射到向量空間模型,窗口大小設(shè)為3。

      4.4 句子特征提取

      特征提取是采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法解決分類問題中至關(guān)重要的一個(gè)部分。本文所面向的處理對(duì)象是相對(duì)簡(jiǎn)短的問句,問句中通常包含較少的詞,因此所含特征信息也相對(duì)較少。實(shí)際訓(xùn)練中本文考慮問句3方面的特征:詞、詞性以及依存句法關(guān)系。由于問句長(zhǎng)度為變量,而訓(xùn)練特征維度固定,本文提出一種句子特征提取算法,結(jié)合Transitionbased句法分析[25]思想提取特征詞,添加對(duì)應(yīng)的詞性以及依存關(guān)系特征,算法具體表述如下:

      算法2 Feature_Selection。

      輸入 經(jīng)過(guò)分詞的復(fù)述問句對(duì),詞性標(biāo)注,依存句法關(guān)系,Word Embedding模型,特征詞數(shù)N。

      輸出 K維特征。

      第一步 候選詞添加。跟隨文獻(xiàn)[25],對(duì)arcstandard句法分析系統(tǒng)本文選擇棧緩沖區(qū)(stack and buffer)中前3個(gè)詞加入候選詞集,并將依存關(guān)系中的SUBJ、OBJ以及MOD類型所包含的詞加入隊(duì)列Queue1及Queue2。

      第二步 特征詞添加。循環(huán)地從Queue1及Queue2中分別取出第一個(gè)詞性為核心詞性(名詞、動(dòng)詞、形容詞或疑問代詞)的詞語(yǔ)w1和w2,計(jì)算其在詞向量空間上的余弦相似度θ,若θ大于閾值參數(shù)τ(0<τ<1),則將w1,w2分別添加到詞語(yǔ)列表wordList1與wordList2中,當(dāng)詞語(yǔ)長(zhǎng)度大于N時(shí)結(jié)束循環(huán)。如果計(jì)算得到θ小于參數(shù)τ,則加入備選列表backList1與backList2。

      第三步 補(bǔ)足特征詞。若某個(gè)結(jié)果列表中的詞語(yǔ)數(shù)量小于3則分別計(jì)算其備選列表中的詞與另?xiàng)l問句中的核心詞性的詞向量距離,并取相似度最高的詞補(bǔ)足結(jié)果列表。若此時(shí)仍結(jié)果列表仍不足N個(gè)詞,則將句中剩余詞按上述方法添加。

      第四步 特征生成。對(duì)每條問句,取結(jié)果列表中的N個(gè)詞的實(shí)數(shù)向量總和的平均值、對(duì)應(yīng)的詞性標(biāo)注以及依存關(guān)系類型以連接方式添加到特征向量中。

      實(shí)驗(yàn)中發(fā)現(xiàn),特征詞數(shù)為3時(shí),在系統(tǒng)運(yùn)行效率以及準(zhǔn)確度上的平衡最好。

      4.5 最優(yōu)結(jié)構(gòu)樹篩選

      根據(jù)第4.4節(jié)提取的特征,本文使用基于徑向基核函數(shù)(Radial Basis Function,RBF)的SVM模型訓(xùn)練得到復(fù)述分類器。由于支持向量機(jī)為判別式模型,不能直接計(jì)算特征與類別的聯(lián)合概率,本文使用基于投票的SVM方法[26]得到語(yǔ)義相似度值P(Nt),從而候選樹的總得分由如下公式得到:

      5 實(shí)驗(yàn)結(jié)果與分析

      5.1 實(shí)驗(yàn)數(shù)據(jù)與設(shè)置

      實(shí)驗(yàn)包括2部分:首先是基于SVM的復(fù)述問句分類精度測(cè)試,主要觀察不同大小數(shù)據(jù)集以及不同特征組合對(duì)復(fù)述分類效果的影響,測(cè)試數(shù)據(jù)為從百度知道、搜狗問問等平臺(tái)抽取的“類似問題”“相關(guān)知識(shí)”經(jīng)過(guò)問題處理、擴(kuò)充最后得到57000條問句對(duì),其中正例38150條(問句對(duì)為復(fù)述),反例18850條(問句對(duì)不為復(fù)述)。

      其次,自然語(yǔ)言到SQL轉(zhuǎn)換的系統(tǒng)測(cè)試。由于目前中文方面缺少統(tǒng)一的NLIDB系統(tǒng)測(cè)試平臺(tái),本文將英文中常用的問答測(cè)試集,美國(guó)地理問答語(yǔ)料(GeoQueries880)以及餐飲問答語(yǔ)料(RestQueries250)經(jīng)過(guò)多人翻譯、校對(duì)得到漢語(yǔ)問答測(cè)試集,簡(jiǎn)稱Geo880CN、Rest250CN。為對(duì)比本文PaNLI系統(tǒng)的效果,本文使用當(dāng)時(shí)在英文GeoQueries880上取得最好成績(jī)的Precise [27]及基于句法分析的樹核函數(shù)系統(tǒng)[10]作為基準(zhǔn),測(cè)試在不同大小、不同領(lǐng)域數(shù)據(jù)集的轉(zhuǎn)換效果。

      PaNLI以及對(duì)比系統(tǒng)實(shí)現(xiàn)使用Java語(yǔ)言編寫,JDK版本為1.8。實(shí)驗(yàn)代碼運(yùn)行于Linux系統(tǒng)FedoraLiveDesktopx86,CPU 2.6GHz雙核Inter Corei5,8GB 1600MHz DDR3L內(nèi)存。

      5.2 復(fù)述分類測(cè)試

      特征詞數(shù)N是實(shí)現(xiàn)復(fù)述問句準(zhǔn)確分類的重要因素,同時(shí)為保證系統(tǒng)實(shí)際運(yùn)行有效性,實(shí)驗(yàn)將測(cè)試上述因素對(duì)分類準(zhǔn)確度及一條查詢語(yǔ)句轉(zhuǎn)換時(shí)間的影響。實(shí)驗(yàn)使用數(shù)據(jù)集的80%作為訓(xùn)練集,剩余20%作為測(cè)試集,使用LIBSVM作為訓(xùn)練及測(cè)試工具,RBF核函數(shù)懲罰因子參數(shù)C設(shè)為1。

      由表2知,隨著特征詞數(shù)增加,系統(tǒng)耗時(shí)等幅增加,意味著對(duì)用戶較長(zhǎng)的等待時(shí)間,當(dāng)詞數(shù)達(dá)到5個(gè)時(shí)分類準(zhǔn)確率開始下降,此時(shí)過(guò)多詞數(shù)使得特征維數(shù)增加,并且引入數(shù)據(jù)雜質(zhì)(如,句中“的”“是”等停用詞)。實(shí)際應(yīng)用中本文選擇特征詞數(shù)為3,在系統(tǒng)運(yùn)行效率以及準(zhǔn)確度上的平衡較好。

      表3給出了多種特征組合下,SVM采用不同核函數(shù)的分類精度,選取的特征包括問句詞袋模型表示(BOW)、詞向量模型(Word Embedding)、詞性標(biāo)注(PartOfSpeech,POS)、依存句法關(guān)系枚舉表示(Dependency Relation)及實(shí)數(shù)向量表示(Dependency Embedding)。

      由表3可以看出,使用詞向量模型、詞性及依存關(guān)系組合作為特征,在不同大小數(shù)據(jù)集上的分類精度都好于其他特征組合,相對(duì)于傳統(tǒng)的詞袋模型,詞向量特征對(duì)分類效果有顯著提升。依存關(guān)系枚舉表示與向量空間表示也對(duì)結(jié)果準(zhǔn)確度影響,一種直觀理解是,具有相似的上下文句法關(guān)系的標(biāo)記在語(yǔ)義上更相近,在分類時(shí)這種相似性如同詞語(yǔ),能更好地捕捉句子特征。在4種核函數(shù)中,RBF核函數(shù)在數(shù)據(jù)量增大的情況分類效果更好,因而在系統(tǒng)測(cè)試中,使用基于RBF核函數(shù)的SVM作為復(fù)述分類器。

      5.3 系統(tǒng)測(cè)試

      該部分測(cè)試系統(tǒng)將自然語(yǔ)言轉(zhuǎn)換為SQL語(yǔ)句的效果,實(shí)驗(yàn)中本文將數(shù)據(jù)Geo880CN按照句子長(zhǎng)度以及句子數(shù)量切分為Geo100CN、Geo250CN、Geo500CN、Geo660CN、Geo880CN五種數(shù)據(jù)集,句子數(shù)量以及句子長(zhǎng)度依次遞增,其中Geo880CN包含所有的880條問句,餐飲數(shù)據(jù)Rest250CN直接使用全部250條查詢作測(cè)試。評(píng)價(jià)指標(biāo)選擇數(shù)據(jù)挖掘中常用的F1值:

      F1=2*P*RP+R(3)

      其中:P為準(zhǔn)確度,即測(cè)試語(yǔ)句中正確轉(zhuǎn)換為SQL語(yǔ)句的數(shù)量占所有測(cè)試語(yǔ)句數(shù)量的比例;R為召回率,指正確轉(zhuǎn)換為SQL語(yǔ)句的數(shù)量與能夠正確識(shí)別并轉(zhuǎn)換的查詢語(yǔ)句數(shù)量比值。

      由圖3可以看出本文提出的復(fù)述方法PaNLI與樹核函數(shù)法,Precise在Geo880CN五種切分?jǐn)?shù)據(jù)集上F1值的變化。實(shí)驗(yàn)結(jié)果表明在美國(guó)地里問答數(shù)據(jù)集上復(fù)述方法PaNLI在不同大小的數(shù)據(jù)集上優(yōu)于樹核函數(shù)方法與圖匹配方法,當(dāng)問句數(shù)量增加到880時(shí),復(fù)述方法F1值為83.4%,與其他系統(tǒng)相比下降更平穩(wěn)。樹核函數(shù)由于人工編寫語(yǔ)料有限,某些語(yǔ)義差異無(wú)法涵蓋?;谧畲罅髌ヅ涞腜recise系統(tǒng)主要依賴圖結(jié)構(gòu)的搜索及字符串表層對(duì)應(yīng),而使用漢語(yǔ)數(shù)據(jù)集測(cè)試時(shí)同一個(gè)問題有多種表達(dá)方式,難以直接匹配,從而表現(xiàn)較差。PaNLI訓(xùn)練語(yǔ)料來(lái)源于網(wǎng)絡(luò)平臺(tái)上用戶的真實(shí)提問,對(duì)復(fù)述問句捕捉更好,即使用戶表達(dá)方法不同,很多情況下本文也能篩選出正確的候選結(jié)構(gòu)。

      表4為本文所建系統(tǒng)在餐飲問答語(yǔ)料(Rest250CN)上的查詢轉(zhuǎn)換結(jié)果。相較樹核函數(shù),PaNLI在準(zhǔn)確度上略低1.7%,原因是Rest250CN包含更多復(fù)雜長(zhǎng)問句,例如“在柏林市的弗雷德里希大街有哪些餐館的面條做的比較好吃?”,這些句子在短語(yǔ)結(jié)構(gòu)樹上與文獻(xiàn)[10]提出的SQLTree相似度較高,更易篩選出正確SQL,但缺點(diǎn)是訓(xùn)練階段需提供正確、完整的SQLTree。召回率方面復(fù)述方法比樹核函數(shù)高5%,PaNLI更易識(shí)別出具有相同含義的形容詞、動(dòng)詞,比如復(fù)述語(yǔ)料“……好吃嗎?”與“……哪個(gè)更美味”其中“好吃”與“美味”有較隱晦的相似性,從而幫助系統(tǒng)更多識(shí)別出能夠轉(zhuǎn)換的查詢。綜上所述,相比其他NLIDB系統(tǒng),本文提出的基于復(fù)述方法的PaNLI有如下幾點(diǎn)優(yōu)勢(shì):1)訓(xùn)練語(yǔ)料來(lái)源于網(wǎng)絡(luò),語(yǔ)義覆蓋面更廣,具有領(lǐng)域適應(yīng)性;2)人工干預(yù)部分只需少量篩選復(fù)述語(yǔ)料,較編寫大量邏輯表達(dá)式以及語(yǔ)法規(guī)則成本更低;3)本文復(fù)述方法更適用于漢語(yǔ)多樣化的口語(yǔ)表達(dá),能有效避免語(yǔ)言本身歧義性以及詞法分析、句法分析錯(cuò)誤導(dǎo)致最后生成SQL錯(cuò)誤,語(yǔ)義鴻溝問題更少。

      6 結(jié)語(yǔ)

      本文提出的基于復(fù)述NLIDB系統(tǒng)實(shí)現(xiàn)方法,避免了對(duì)用戶語(yǔ)句的直接分析,利用網(wǎng)絡(luò)問答語(yǔ)料訓(xùn)練得到的復(fù)述分類器篩選出語(yǔ)義最相近的自然語(yǔ)言表達(dá)。網(wǎng)絡(luò)問答語(yǔ)料覆蓋面廣且易于獲取,避免費(fèi)時(shí)的人工標(biāo)注操作。在訓(xùn)練過(guò)程中,提出一種結(jié)合依存句法分析器的句子級(jí)別特征提取方法。實(shí)驗(yàn)表明該句子特征表示能有效提高分類準(zhǔn)確度,在測(cè)試集上均超過(guò)現(xiàn)有取得較好效果的系統(tǒng)。在今后的研究中進(jìn)一步引入機(jī)器學(xué)習(xí)中深度學(xué)習(xí)方法,提取句子深層次特征,提高分類準(zhǔn)確度。

      參考文獻(xiàn):

      [1]RODOLFO A, JUAN J, MARCO A, et al. Natural language interfaces to databases: an analysis of the state of the art[C]// Recent Advances on Hybrid Intelligent Systems. Berlin: Springer, 2013, 451:463-480.

      [2]AHMAD R, KHAN M, ALI R. Efficient transformation of natural language query to SQL for Urdu[C]// Proceedings of the 2nd Conference on Language and Technology. [S.l.]: Society for Natural Language Processing, 2009:53-60.

      [3]POPESCU A, ARMANASU A, ETZIONI O, et al. Modern natural language interfaces to databases: composing statistical parsing with semantic tractability[C]// Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2004:141-147.

      [4]孟小峰, 王珊. 中文數(shù)據(jù)庫(kù)自然語(yǔ)言查詢系統(tǒng)NCHIQL設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2001, 38(9):1080-1086. (MENG X F, WANG S. Design and implementation of a Chinese natural language interface to database (NCHIQL) [J]. Computer Research and Development,2001, 38(9): 1080-1086.)

      [5]RODOLFO A, JUAN J, MARCO A. Semantic model for improving the performance of natural language interfaces to databases[C]// Proceedings of the 10th Mexican International Conference on Advances in Artificial Intelligence, LNCS 7094. Berlin: SpringerVerlag, 2011: 277-290.

      [6]許龍飛, 楊曉昀, 唐世渭. 基于受限漢語(yǔ)的數(shù)據(jù)庫(kù)自然語(yǔ)言接口技術(shù)研究[J]. 軟件學(xué)報(bào), 2002, 13(4):537-544.(XU L F, YANG X Y, TANG S W. Study on a database natural language interface technique based on restrictive Chinese[J]. Journal of Software, 2002, 13(4): 537-544.)

      [7]MINOCK M, OLOFSSON P, NSLUND A. Towards building robust natural language interfaces to databases[C]// Proceedings of the 13th International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems. Berlin: SpringerVerlag, 2008, 5039:187-198.

      [8]WARREN D, PEREIRA F. An efficient easily adaptable system for interpreting natural language queries[J]. Computational Linguistics, 1982,8(3/4):110-122.

      [9]WEISCHEDEL R. A hybrid approach to representation in the Janus natural language processor[C]// Proceedings of the 27th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1989:193-202.

      [10]GIORDANI A, MOSCHITTI A. Automatic generation and reranking of SQLderived answers to NL questions[C]// Proceedings of the 2nd International Workshop on Trustworthy Eternal Systems via Evolving Software, Data and Knowledge, Volume 379 of the series Communications in Computer and Information Science. Berlin: SpringerVerlag, 2013: 59-76.

      [11]LI F, JAGADISH H. Constructing an interactive natural language interface for relational databases[J]. Proceedings of the VLDB Endowment,2014,8(1):73-84

      [12]POON H. Grounded unsupervised semantic parsing[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013:1-10.

      [13]GIORDANI A, MOSCHITTI A. Generating SQL queries using natural language syntactic dependencies and metadata[C]// Proceedings of the 17th International Conference on Applications of Natural Language to Information Systems, LNCS 7337. Berlin: Springer, 2012:164-170.

      [14]BERANT J, CHOU A, FROSTIG R, et al. Semantic parsing on freebase from questionanswer pairs[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013:1533-1544.

      [15]CAI Q, YATES A. Largescale semantic parsing via schema matching and lexicon extension[C]// Proceedings of the Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013:423-433.

      [16]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the Advances in Neural Information Processing Systems. Nevada: NIPS, 2013: 3111-3119.

      [17]曹勇剛, 曹羽中, 金茂忠,等. 面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J]. 軟件學(xué)報(bào), 2006, 17(3):356-363. (CAO Y G, CAO Y Z, JIN M Z, et al. Information retrieval oriented adaptive Chinese word segmentation system[J]. Journal of Software,2006, 17(3):356-363.)

      [18]ESPAABOQUERA S, CASTROBLEDA M, ZAMORAMARTNEZ F, et al. Efficient viterbi algorithms for lexical tree based models[C]// Proceedings of the 2007 International Conference on Advances in Nonlinear Speech Processing. Berlin: SpringerVerlag, 2007, 4885:179-187.

      [19]SIMITSIS A, IOANNIDIS Y. DBMSs should talk back too[C]// Proceedings of the 4th Biennal Conference on Innovative Data Systems Research. [S.l.]: arXiv, 2009:62-70.

      [20]KOUTRIKA G, SIMITSIS A, IOANNIDIS Y E. Explaining structured queries in natural language[C]// Proceedings of the 2010 IEEE 26th International Conference on Data Engineering. Piscataway, NJ: IEEE, 2010:333-344.

      [21]BARZILAY R, MCKEOWN K. Extracting paraphrases from a parallel corpus[C]// Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2002:50-57.

      [22]趙世奇, 劉挺, 李生. 復(fù)述技術(shù)研究[J]. 軟件學(xué)報(bào), 2009, 20(8):2124-2137.(ZHAO S Q, LIU T, LI S. Research on paraphrasing technology[J]. Journal of Software, 2009, 20(8):2124-2137.)

      [23]ZHANG D. Question classification using support vector machines[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM, 2003:26-32.

      [24]CHANG P, TSENG H, JURAFSKY D, et al. Discriminative reordering with Chinese grammatical relations features[C]// Proceedings of the 3rd Workshop on Syntax and Structure in Statistical Translation. Stroudsburg, PA: Association for Computational Linguistics, 2009: 51-59.

      [25]ZHANG Y, NIVRE J. Transitionbased dependency parsing with rich nonlocal features[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011:188-193.

      [26]SHEN L, JOSHI A K. An SVM based voting algorithm with application to parse reranking[C]// Proceedings of the 7th Conference on Natural Language Learning at HLTNAACL. Stroudsburg, PA: Association for Computational Linguistics, 2003:9-16.

      [27]POPESCU A M, ETZIONI O, KAUTZ H. Towards a theory of natural language interfaces to databases[C]// Proceedings of the 8th International Conference on Intelligent User Interfaces. New York: ACM, 2003: 149-157.

      猜你喜歡
      復(fù)述機(jī)器學(xué)習(xí)
      淺談低年級(jí)數(shù)學(xué)教學(xué)中的復(fù)述策略
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      借助復(fù)述培養(yǎng)學(xué)生的英語(yǔ)表達(dá)能力
      薛法根老師指導(dǎo)學(xué)生“復(fù)述”藝術(shù)之微探
      考試周刊(2016年16期)2016-03-31 02:34:18
      淺談?dòng)⒄Z(yǔ)口語(yǔ)訓(xùn)練三部曲
      彩票| 华亭县| 西华县| 盈江县| 南汇区| 太仓市| 弥渡县| 奉贤区| 抚松县| 三门峡市| 鲁甸县| 康平县| 南乐县| 稻城县| 乌鲁木齐市| 白朗县| 怀柔区| 玛沁县| 海原县| 凌源市| 邵武市| 长乐市| 四平市| 日照市| 洞口县| 梅州市| 普宁市| 鱼台县| 莆田市| 桦南县| 保定市| 隆化县| 图木舒克市| 安多县| 阜宁县| 顺平县| 六枝特区| 什邡市| 衢州市| 台北市| 三穗县|