• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)問(wèn)答

      2017-09-22 09:28:14金麗嬌傅云斌董啟文
      關(guān)鍵詞:知識(shí)庫(kù)實(shí)體語(yǔ)義

      金麗嬌,傅云斌,董啟文

      (華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海200062)

      基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)問(wèn)答

      金麗嬌,傅云斌,董啟文

      (華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海200062)

      自動(dòng)問(wèn)答是自然語(yǔ)言處理領(lǐng)域中的一個(gè)研究熱點(diǎn),自動(dòng)問(wèn)答系統(tǒng)能夠用簡(jiǎn)短、精確的答案直接回答用戶提出的問(wèn)題,給用戶提供更加精確的信息服務(wù).自動(dòng)問(wèn)答系統(tǒng)中需解決兩個(gè)關(guān)鍵問(wèn)題:一是實(shí)現(xiàn)自然語(yǔ)言問(wèn)句及答案的語(yǔ)義表示,另一個(gè)是實(shí)現(xiàn)問(wèn)句及答案間的語(yǔ)義匹配.卷積神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的深層網(wǎng)絡(luò)結(jié)構(gòu),近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域表現(xiàn)出強(qiáng)大的語(yǔ)言表示能力,被廣泛應(yīng)用于自動(dòng)問(wèn)答領(lǐng)域中.本文對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)問(wèn)答技術(shù)進(jìn)行了梳理和總結(jié),從語(yǔ)義表示和語(yǔ)義匹配兩個(gè)主要角度分別對(duì)面向知識(shí)庫(kù)和面向文本的問(wèn)答技術(shù)進(jìn)行了歸納,并指出了當(dāng)前的研究難點(diǎn).

      卷積神經(jīng)網(wǎng)絡(luò);自動(dòng)問(wèn)答;語(yǔ)義表示;語(yǔ)義匹配

      0 引言

      隨著信息技術(shù)的發(fā)展,人們對(duì)信息的精準(zhǔn)化需求也越來(lái)越高,傳統(tǒng)的搜索引擎主要是基于關(guān)鍵字匹配的檢索模式,然后返回相關(guān)文檔.然而在很多情況下,用戶可能只是想知道某一問(wèn)題的具體答案,而不是一堆文檔.自動(dòng)問(wèn)答系統(tǒng)允許用戶以自然語(yǔ)言形式提出問(wèn)題,并采用自然語(yǔ)言處理技術(shù)自動(dòng)地將簡(jiǎn)潔、正確的回答返回給用戶.

      早在上世紀(jì)60年代人工智能剛剛興起的時(shí)候,人們就提出過(guò)自動(dòng)問(wèn)答的相關(guān)概念,但由于當(dāng)時(shí)技術(shù)和條件的限制,問(wèn)答系統(tǒng)并沒(méi)有得到很大的發(fā)展.隨著近幾年來(lái)信息檢索、自然語(yǔ)言處理和人工智能等相關(guān)領(lǐng)域的發(fā)展,為自動(dòng)問(wèn)答系統(tǒng)的構(gòu)建創(chuàng)造了新的條件.

      Start系統(tǒng)[1]是最早的自動(dòng)問(wèn)答系統(tǒng),1993年由麻省理工學(xué)院Boris Katz等人開(kāi)發(fā),可以回答有關(guān)電影、科技、歷史等方面的簡(jiǎn)單問(wèn)題.除了Start系統(tǒng),askJeeves[2]、AnswerBus[3]等系統(tǒng)都是目前較為成熟的問(wèn)答系統(tǒng),但它們返回包含結(jié)果的句子或段落.

      目前的搜索引擎大多基于信息檢索技術(shù),即先對(duì)問(wèn)句進(jìn)行簡(jiǎn)單的分析,提取關(guān)鍵字,然后根據(jù)關(guān)鍵字從相應(yīng)的資源庫(kù)中查詢并返回一系列相關(guān)文檔或網(wǎng)頁(yè).而自動(dòng)問(wèn)答系統(tǒng)包含信息抽取、自然語(yǔ)言處理等多方面的研究技術(shù).一個(gè)問(wèn)答系統(tǒng)一般由問(wèn)句分析、信息檢索和答案抽取三部分組成[4].目前基于卷積神經(jīng)網(wǎng)絡(luò)的問(wèn)答任務(wù)實(shí)現(xiàn)過(guò)程主要是先利用信息檢索技術(shù)對(duì)海量文本進(jìn)行過(guò)濾,再將自然語(yǔ)言問(wèn)句和答案集合通過(guò)一定的技術(shù)匹配,最后進(jìn)行相似度計(jì)算來(lái)抽取答案.自動(dòng)問(wèn)答任務(wù)需要對(duì)問(wèn)句進(jìn)行更細(xì)致的分析,處理更復(fù)雜的語(yǔ)法、語(yǔ)義分析,問(wèn)句和相關(guān)文檔需要進(jìn)行更精細(xì)的匹配.

      根據(jù)不同的分類標(biāo)準(zhǔn),問(wèn)答系統(tǒng)可以劃分成多種類型.根據(jù)獲取問(wèn)題答案所依存的信息資源的不同,問(wèn)答系統(tǒng)可以被粗略地分為基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)和基于文本的問(wèn)答系統(tǒng).基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)面向的是結(jié)構(gòu)化的數(shù)據(jù),基于文本的問(wèn)答系統(tǒng)面向的一般是自然語(yǔ)言句子.根據(jù)信息資源庫(kù)數(shù)據(jù)不同的表現(xiàn)形式,問(wèn)答系統(tǒng)的實(shí)現(xiàn)技術(shù)也千差萬(wàn)別.文獻(xiàn)[5]從不同的實(shí)現(xiàn)技術(shù)角度,將問(wèn)答技術(shù)分為兩大類型,一類基于語(yǔ)義解析,另一類則基于信息抽取.

      基于語(yǔ)義解析的問(wèn)答系統(tǒng)的任務(wù)是將自然語(yǔ)言問(wèn)句轉(zhuǎn)化為結(jié)構(gòu)化、計(jì)算機(jī)可理解的語(yǔ)義表示形式,例如λ范式[6]、DCS-Tree[7]等,然后在相應(yīng)的知識(shí)庫(kù)上查詢,推理出匹配的答案.現(xiàn)有的知識(shí)庫(kù)包括維基百科等,基于語(yǔ)義解析的問(wèn)答系統(tǒng)一般都是面向知識(shí)庫(kù)的.而基于信息抽取的問(wèn)答系統(tǒng)則需從大量資源中先查找候選文檔,再根據(jù)問(wèn)句語(yǔ)義信息等特征,從這些候選文檔中抽取答案.

      近年來(lái),由于深度學(xué)習(xí)在多個(gè)領(lǐng)域都取得了突破性進(jìn)展,很多研究人員開(kāi)始研究深度學(xué)習(xí)模型在自然語(yǔ)言處理上的應(yīng)用.深度學(xué)習(xí)模型為實(shí)現(xiàn)句子和文檔的語(yǔ)義表示提供了新的方案,特別是用基于神經(jīng)網(wǎng)絡(luò)的方法來(lái)進(jìn)行問(wèn)句和答案句的語(yǔ)義表示、為基于知識(shí)庫(kù)技術(shù)的問(wèn)答系統(tǒng)提供了新的解決思路,同時(shí)在語(yǔ)義匹配上,也相比傳統(tǒng)的方法有了更好的效果.本文從語(yǔ)義表示和語(yǔ)義匹配的角度出發(fā),并重點(diǎn)關(guān)注深度學(xué)習(xí)中的一個(gè)分支——卷積神經(jīng)網(wǎng)絡(luò)在自動(dòng)問(wèn)答領(lǐng)域中的應(yīng)用.

      本文內(nèi)容組織如下.第1節(jié)對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義表示做簡(jiǎn)要介紹;第2節(jié)對(duì)語(yǔ)義匹配技術(shù)以及基于卷積神經(jīng)網(wǎng)絡(luò)的現(xiàn)有模型進(jìn)行概述;第3節(jié)從語(yǔ)義表示學(xué)習(xí)和語(yǔ)義匹配模型兩方面出發(fā),分別描述利用卷積神經(jīng)網(wǎng)絡(luò),在基于知識(shí)庫(kù)和基于文本的問(wèn)答系統(tǒng)中的實(shí)現(xiàn)思路;最后,第4節(jié)對(duì)本文進(jìn)行了簡(jiǎn)單總結(jié).

      1 卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義表示

      1.1 概述

      傳統(tǒng)的文本表示方法是采用詞袋表示模型[8],它用向量來(lái)實(shí)現(xiàn)文本的表示.在詞袋模型中,常用的特征有二元詞組、n元詞組或一些人工抽取的特征,用詞袋表示上下文信息的詞表示模型有基于矩陣的LSA模型[9]、Brown等人提出的clustering模型[10].但是這種向量是高維稀疏的,而且忽略了詞序,因此不能有效地表示句子的上下文信息.后來(lái),Bengio等人提出神經(jīng)語(yǔ)言模型,同時(shí)在學(xué)習(xí)時(shí)得到了一種名為詞嵌入的向量表示方法[11],詞嵌入表示技術(shù)通過(guò)神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)上下文、上下文和目標(biāo)詞的關(guān)系進(jìn)行建模,是一種低維、稠密、連續(xù)的向量表示,可以表示復(fù)雜的上下文.并且,詞嵌入可以從大量無(wú)標(biāo)注語(yǔ)料中自動(dòng)學(xué)習(xí)句法和語(yǔ)義特征[12],現(xiàn)有的詞嵌入模型有skip-gram,CBOW[13],C&W[14],LBL[15],NNLM[11]等.目前,基于深度學(xué)習(xí)的自動(dòng)問(wèn)答系統(tǒng),一般都是基于詞嵌入的表示.

      然而,在實(shí)際的需求中,如果僅僅使用詞級(jí)別的語(yǔ)義表示,還遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)實(shí)場(chǎng)景,句子和篇章級(jí)別的語(yǔ)義表示相對(duì)來(lái)說(shuō)意義會(huì)更大.關(guān)于句子和文檔的語(yǔ)義表示,德國(guó)數(shù)學(xué)家弗雷格曾指出:一段話的語(yǔ)義由其各組合部分的語(yǔ)義以及它們之間的組成方法所確定[16],進(jìn)而提出組合語(yǔ)義的思想.常用的組合語(yǔ)義函數(shù)有加權(quán)組合、矩陣乘法、張量乘法等[17].從神經(jīng)網(wǎng)絡(luò)角度上看,則主要可分為三類:循環(huán)神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)[18].本文主要對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行展開(kāi)描述.

      1.2 卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義表示模型

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)最早由Fukushima在1980年提出[19],此后,LeCun等人對(duì)其做了重要改進(jìn)[20],結(jié)構(gòu)如圖1[21]所示.其核心思想是局部感知和權(quán)值共享,基本結(jié)構(gòu)主要包括兩層,一層為卷積層,又可稱特征提取層,另一層為池化層,又稱為特征映射層.

      在卷積層,通過(guò)一個(gè)固定窗口的卷積核(濾波器)對(duì)文本中每個(gè)部分的局部信息進(jìn)行建模,一般一個(gè)卷積層會(huì)有多個(gè)卷積核.輸入層通過(guò)多個(gè)卷積核的卷積操作會(huì)得到若干個(gè)特征映射面,卷積核是一個(gè)權(quán)值矩陣,對(duì)于每一個(gè)卷積核,對(duì)句子從左到右進(jìn)行掃描,窗口內(nèi)有多個(gè)單詞,每個(gè)單詞由一個(gè)向量表示,卷積核與窗口內(nèi)的多個(gè)詞向量進(jìn)行局部連接.然后該局部加權(quán)和傳遞給一個(gè)激活函數(shù),最后的輸出為一個(gè)特征映射向量,對(duì)于同一特征映射面,每一個(gè)節(jié)點(diǎn)都是權(quán)值共享的.對(duì)于輸入的句子S,用一個(gè)窗口為m的卷積核W作用后,得到一個(gè)向量hi,具體公式為

      然后hi再通過(guò)一個(gè)激活函數(shù),得到一個(gè)特征映射向量ci:

      其中α為非線性激活函數(shù),一般有sigmoid函數(shù),tanh函數(shù)和Relu等[22],bi為偏置項(xiàng).

      池化是對(duì)所有的語(yǔ)義組合進(jìn)行選擇,即從每一個(gè)特征映射面中選擇固定數(shù)目的節(jié)點(diǎn),最后將句子表示為一個(gè)固定長(zhǎng)度的向量.常用的池化技術(shù)有均值池化和最大值池化[23],池化操作不僅可以解決不同長(zhǎng)度句子的輸入問(wèn)題,同時(shí)可以起到降維的作用.

      在卷積神經(jīng)網(wǎng)絡(luò)中,一般會(huì)有多個(gè)卷積層和池化層,經(jīng)過(guò)一個(gè)或若干個(gè)卷積層和池化層后,最終會(huì)得到表示句子語(yǔ)義信息的輸出向量.隨著深度的加深,模型得到的輸出表示可以捕捉全局語(yǔ)義信息和更加高級(jí)的特征.

      圖1 卷積網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 The architecture of convolution network

      2 基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義匹配

      2.1 概述

      語(yǔ)義匹配是自動(dòng)問(wèn)答的核心技術(shù),在自動(dòng)問(wèn)答系統(tǒng)中,問(wèn)句分析模塊(問(wèn)題的復(fù)述)、信息檢索模塊和答案的抽取模塊都主要涉及到語(yǔ)義匹配技術(shù).語(yǔ)義匹配基于語(yǔ)義表示,從不同的粒度考慮,語(yǔ)義匹配有詞、短語(yǔ)、句子、文本等級(jí)別的匹配.

      傳統(tǒng)的文本語(yǔ)義匹配模型,如Berger等人提出的翻譯模型[24],Wu等人提出的正則化隱空間映射[25]等,往往需要依賴于人工定制的特征和外部的語(yǔ)義資源庫(kù)[26-27],這種基于手工定義特征的模型大部分都針對(duì)于一些特定的問(wèn)題的應(yīng)用(如答案抽取,信息檢索),沒(méi)有很好的擴(kuò)展性.因此,傳統(tǒng)的語(yǔ)義匹配方法存在效率低,擴(kuò)展性差,無(wú)法挖掘大量數(shù)據(jù)中的隱含特征等問(wèn)題.利用深度學(xué)習(xí)技術(shù),可以在沒(méi)有人工干預(yù)的情況下在大量樣本中自動(dòng)學(xué)習(xí)選擇特征,省去了手工定義特征的開(kāi)銷.除此之外,通過(guò)結(jié)合詞向量技術(shù)(如Word2Vec[28])以及神經(jīng)網(wǎng)絡(luò)的層次化設(shè)計(jì),可以解決詞語(yǔ)匹配的多元性、短語(yǔ)匹配的結(jié)構(gòu)性和文本匹配的層次性問(wèn)題[29].

      2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義匹配模型

      本文將重點(diǎn)分析基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義匹配模型,并根據(jù)不同的應(yīng)用場(chǎng)景,將問(wèn)答領(lǐng)域的匹配模型分為兩類:并列式匹配模型(如圖2所示)和交互式匹配模型(如圖3所示).并列式匹配模型的思路是,先將兩個(gè)句子分別通過(guò)卷積網(wǎng)絡(luò)表示成一個(gè)包含語(yǔ)義信息的稠密向量,然后直接計(jì)算兩個(gè)向量的相似度[30],或者再通過(guò)一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)輸出兩個(gè)句子的匹配分?jǐn)?shù).如果是處理比較復(fù)雜的問(wèn)答語(yǔ)句,則需要從多個(gè)角度處理問(wèn)答句的語(yǔ)義信息[31].并列式匹配模型注重于文本的表示,交互式模型則是直接捕獲問(wèn)句和答案句之間的匹配特征,將問(wèn)句與答案句同時(shí)送入一個(gè)卷積網(wǎng)絡(luò),最后學(xué)習(xí)得到的是問(wèn)答句的匹配特征,從而更加注意匹配的本質(zhì).

      圖2 并列式匹配模型Fig.2 Parallel matching model

      圖3 交互式匹配模型Fig.3 Interactive matching model

      3 基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)問(wèn)答

      3.1 基于卷積神經(jīng)網(wǎng)絡(luò)的知識(shí)庫(kù)問(wèn)答

      知識(shí)庫(kù)中的數(shù)據(jù)以三元組(e1,p,e2)的形式保存,e1,e2表示實(shí)體對(duì)象,p表示實(shí)體的謂語(yǔ)關(guān)系.目前,基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)一般有兩種實(shí)現(xiàn)方式,其一是傳統(tǒng)的基于語(yǔ)義解析的方法,這種方法主要是先將句子的主謂賓等成分抽取出來(lái),再轉(zhuǎn)化成結(jié)構(gòu)化的表達(dá)形式,最終推理出正確的答案,如組合范疇語(yǔ)法(CCG)[32],依存語(yǔ)義分析[7]等,然而構(gòu)建這樣的解析器需要大量的人工標(biāo)注,代價(jià)昂貴,而且效果并不是很好.另外一種方法就是基于深度學(xué)習(xí)模型,該方法的核心就是把自然語(yǔ)言問(wèn)句和知識(shí)庫(kù)中的數(shù)據(jù)都通過(guò)深度學(xué)習(xí)模型映射到一個(gè)低維的向量空間,這樣問(wèn)句和以結(jié)構(gòu)化形式表示的答案都可以用向量來(lái)表示,基于知識(shí)庫(kù)的問(wèn)答就轉(zhuǎn)化成求解向量相似度的問(wèn)題,該方法最先由Bordes等人[33]提出,他們的方法在Reverb數(shù)據(jù)集上取得了不錯(cuò)的實(shí)驗(yàn)效果,不過(guò)對(duì)問(wèn)句和知識(shí)庫(kù)的語(yǔ)義分析僅僅是簡(jiǎn)單的對(duì)基于實(shí)體、關(guān)系向量的求和.同年,Bordes等人在文[33]的基礎(chǔ)上進(jìn)行了改進(jìn),提出子圖嵌入的表示方法[34],他們從3種角度來(lái)表示答案:1.單個(gè)實(shí)體的向量表示;2.答案路徑的向量表示;3.子圖的向量表示,即與答案直接關(guān)聯(lián)的實(shí)體和路徑的向量表示.該模型在WEBQUESTIONS上的實(shí)驗(yàn)效果要比之前的模型好.Bordes等人原先模型[33]的F1值為29.7%,改進(jìn)后模型[34]的F1值為39.2%.

      在Huang等人[35],Shen等人[36]對(duì)問(wèn)答句中語(yǔ)義距離分析的研究基礎(chǔ)上,針對(duì)單語(yǔ)義的問(wèn)句,Yih等人[30]從實(shí)體和關(guān)系兩個(gè)層面進(jìn)行匹配,將問(wèn)句拆分為實(shí)體集合和關(guān)系集合,在對(duì)自然語(yǔ)言問(wèn)句的語(yǔ)義表示學(xué)習(xí)上,采用字母三元組的計(jì)數(shù)向量對(duì)詞向量進(jìn)行初始化,并使用深層卷積網(wǎng)絡(luò)進(jìn)行句子的語(yǔ)義學(xué)習(xí).在語(yǔ)義匹配模型上,實(shí)現(xiàn)問(wèn)句和關(guān)系與知識(shí)庫(kù)中的實(shí)體和關(guān)系分別映射.作者采用枚舉的方法,列出句子所有可能的分解組合,其中實(shí)體集合為問(wèn)題中連續(xù)詞語(yǔ)的子序列,關(guān)系模板為問(wèn)句實(shí)體被特殊符號(hào)代替后的對(duì)應(yīng)句子,然后將關(guān)系模板與知識(shí)庫(kù)的所有關(guān)系詞進(jìn)行映射匹配,得到候選的關(guān)系集,接著找出所有的包含候選關(guān)系集的三元組,再進(jìn)行實(shí)體的映射匹配,找到對(duì)應(yīng)的實(shí)體和關(guān)系后,就可以從知識(shí)庫(kù)中找到其指向的答案實(shí)體.參考Collobert等人[23]的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),Yih等人提出了基于語(yǔ)義模型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(CNNSM)來(lái)處理自然語(yǔ)言句子.CNNSM模型的結(jié)構(gòu)如圖4[30]所示,該模型對(duì)輸入的問(wèn)句實(shí)體(關(guān)系)先進(jìn)行詞哈希操作[35],初始詞向量的表示采用“字母三元組”計(jì)數(shù)向量,然后進(jìn)行卷積、最大值池化操作,池化后的輸出向量與一個(gè)語(yǔ)義預(yù)測(cè)矩陣相乘后經(jīng)過(guò)激活函數(shù)處理,最后輸出一個(gè)表示語(yǔ)義層面的向量.相應(yīng)地,知識(shí)庫(kù)中的實(shí)體或關(guān)系也用向量表示,訓(xùn)練時(shí),分別訓(xùn)練實(shí)體和關(guān)系兩個(gè)模型,但方法基本類似.以關(guān)系匹配為例,其目標(biāo)函數(shù)為

      其中yQ為問(wèn)句的關(guān)系模板的輸出向量,yR+為知識(shí)庫(kù)中與問(wèn)句匹配度高的關(guān)系向量表示,γ是一個(gè)縮放因子.

      該實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)來(lái)自Paralex[37],其答案的數(shù)據(jù)來(lái)自ReVerb[38]數(shù)據(jù)集,數(shù)據(jù)以三元組的形式保存,但并不是完全結(jié)構(gòu)化的數(shù)據(jù).Yih等人分別進(jìn)行了兩次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,考慮實(shí)體和關(guān)系兩個(gè)層面匹配的結(jié)果要比只考慮實(shí)體匹配的結(jié)果好,F1值分別為0.57和0.54, Yih等人將實(shí)驗(yàn)結(jié)果與Paralex系統(tǒng)進(jìn)行了對(duì)比,Paralex系統(tǒng)[37]也是從句子的關(guān)系和實(shí)體兩方面考慮,但該模型的目的是建立一個(gè)語(yǔ)義詞典,這種基于語(yǔ)義模型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)要好于Paralex.

      文獻(xiàn)[30]提出的這種模型是針對(duì)單語(yǔ)義問(wèn)答,比較注重句子的語(yǔ)義表示學(xué)習(xí),匹配模式相對(duì)簡(jiǎn)單.2015年,Yih等人受Yao等人[39]、Bao等人[40]的啟發(fā),針對(duì)大型的結(jié)構(gòu)化知識(shí)庫(kù),如DBPedia[41],Freebase[42],YAGO[43]等,提出了一個(gè)新的語(yǔ)義解析架構(gòu)——查詢圖[44]. Yih等人將自然語(yǔ)言問(wèn)句轉(zhuǎn)化成查詢圖的表達(dá)形式,查詢圖可以直接被映射到邏輯表單,這使得原本的語(yǔ)義解析問(wèn)題被轉(zhuǎn)變成了查詢圖的生成問(wèn)題,查詢圖的結(jié)構(gòu)如圖5[44]所示,它由四種類型的節(jié)點(diǎn)組成:1.存在實(shí)體,指知識(shí)庫(kù)中存在的實(shí)體,圖中用圓角矩形表示;2.存在變量,它不是一個(gè)具體的實(shí)體,圖中用圓表示;3.聚合函數(shù),指對(duì)實(shí)體的修飾性語(yǔ)言等,圖中用菱形表示;4.λ變量,指最后輸出的答案,圖中由陰影圓表示.各個(gè)節(jié)點(diǎn)之間通過(guò)謂語(yǔ)關(guān)系鏈接.而查詢圖的生成,主要分為3步,首先找到主題實(shí)體,然后根據(jù)自然語(yǔ)言問(wèn)句的謂語(yǔ)與知識(shí)庫(kù)中關(guān)系的匹配度確定圖的主鏈.最后根據(jù)知識(shí)庫(kù)中主鏈的其他附加條件為查詢圖添加聚合函數(shù).查找主題實(shí)體和確定主鏈?zhǔn)钦麄€(gè)任務(wù)的關(guān)鍵,因此整個(gè)問(wèn)題轉(zhuǎn)變成了一個(gè)階段化的搜索問(wèn)題.Yih等使用了現(xiàn)有的實(shí)體鏈接系統(tǒng)[45]確定自然語(yǔ)言問(wèn)句的候選主題實(shí)體,構(gòu)建查詢圖的第一節(jié)點(diǎn).主鏈的生成主要是通過(guò)在知識(shí)庫(kù)中搜索與主題實(shí)體關(guān)聯(lián)的謂語(yǔ)關(guān)系,根據(jù)知識(shí)庫(kù)的關(guān)系鏈確定查詢圖的主鏈,這是一個(gè)自然語(yǔ)言問(wèn)句關(guān)系與知識(shí)庫(kù)中謂語(yǔ)的匹配問(wèn)題.而兩者匹配的模型與文獻(xiàn)[30]的方法類似,首先用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子的語(yǔ)義表示,在語(yǔ)義的表示上也是基于圖4的CNN模型,把自然語(yǔ)言問(wèn)句的主題實(shí)體用特殊符號(hào)代替,然后通過(guò)圖4的卷積網(wǎng)絡(luò),得到一個(gè)語(yǔ)義表示向量,謂語(yǔ)關(guān)系鏈也通過(guò)一個(gè)CNN網(wǎng)絡(luò)轉(zhuǎn)化成向量的表達(dá)形式,最后根據(jù)向量間的距離算法求自然語(yǔ)言問(wèn)句與候選查詢圖主鏈的相似度,根據(jù)相似度確定查詢圖的主鏈.兩個(gè)CNN網(wǎng)絡(luò)的訓(xùn)練方法與[30]的訓(xùn)練方法類似,該實(shí)驗(yàn)的數(shù)據(jù)來(lái)自WEBQUESTIONS,相比于之前的模型,該實(shí)驗(yàn)結(jié)果有了很大的提高,F1值為52.5%.相比于其他模型(如Bordes等人的模型[34]),該模型的主要優(yōu)勢(shì)如下:其一是在詞向量初始化時(shí),采用了同文獻(xiàn)[30]的字母三元組的計(jì)數(shù)向量,這樣不僅有助于控制輸入空間的維度,而且能夠包容輸入單詞中的一些輕微拼寫問(wèn)題.其二是該模型利用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)擁有更強(qiáng)大的語(yǔ)義表示能力.

      圖4 CNNSM模型Fig.4 CNNSM model

      圖5 問(wèn)句“Who fi rst voiced Meg on Family Guy”的查詢圖Fig.5 Query graph that represents the question“Who fi rst voiced Meg on Family Guy”

      與Bordes等人在文獻(xiàn)[34]中提到的想法類似,Dong等人[31]考慮從多個(gè)方面去分析問(wèn)題,提取答案時(shí),從答案的類型、答案的路徑(即關(guān)系)、答案的內(nèi)容三方面分析,并提出多欄卷積模型(MCCNN),如圖6[31]所示.問(wèn)句端訓(xùn)練了3個(gè)不同參數(shù)的CNN模型,最后輸出3個(gè)表示不同語(yǔ)義的向量表達(dá)式f1(q),f2(q),f3(q).知識(shí)庫(kù)中從答案路徑(答案實(shí)體與問(wèn)句實(shí)體之間的關(guān)系集合)、答案內(nèi)容(直接與答案路徑關(guān)聯(lián)的實(shí)體和關(guān)系)、答案類型這3方面計(jì)算答案端的向量表達(dá)式,記為g1(a),g2(a),g3(a).最后計(jì)算各個(gè)向量的相似度分?jǐn)?shù)

      該模型在WEBQUESTIONS上進(jìn)行實(shí)驗(yàn),F1為40.8%,結(jié)果明顯優(yōu)于其他模型,在其對(duì)比實(shí)驗(yàn)中,其中Berant等人的方法[46],Berant與Liang的方法[47],Bao等人的方法[40]的F1值分別為31.4%,39.9%,37.5%,以上3種方法都基于語(yǔ)義解析,且依賴于手工定義的特征和預(yù)定義的規(guī)則.這說(shuō)明這種卷積網(wǎng)絡(luò)模型的效果與手工定義特征模型的效果相當(dāng),甚至更優(yōu).與Bordes等人[34]的實(shí)驗(yàn)對(duì)比表明,多欄卷積模型也要優(yōu)于Bordes等人[34]使用詞嵌入和作為問(wèn)題的表達(dá)方式的模型.

      圖6 MCCNN模型Fig.6 MCCNN model

      從以上幾個(gè)代表性的工作來(lái)看,基于卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理面向知識(shí)庫(kù)的問(wèn)答系統(tǒng)時(shí),將傳統(tǒng)的基于符號(hào)的語(yǔ)義分析的知識(shí)庫(kù)問(wèn)答看成基于語(yǔ)義表示的語(yǔ)義匹配學(xué)習(xí)任務(wù),提高了系統(tǒng)的準(zhǔn)確率和召回率.同時(shí),我們也可以看出,如果采用通用的方法對(duì)自然語(yǔ)言問(wèn)句或基于知識(shí)庫(kù)的語(yǔ)義直接進(jìn)行學(xué)習(xí),得到的效果往往不太好.最好對(duì)自然語(yǔ)言問(wèn)句進(jìn)行多角度的分析,學(xué)習(xí)多個(gè)語(yǔ)義表達(dá)式,如從問(wèn)句的主題、答案類型等方面與知識(shí)庫(kù)中的實(shí)體、關(guān)系進(jìn)行匹配.

      3.2 基于卷積神經(jīng)網(wǎng)絡(luò)的文本問(wèn)答

      近年來(lái),對(duì)于卷積神經(jīng)網(wǎng)絡(luò)在面向文本的問(wèn)答系統(tǒng)的應(yīng)用,研究人員主要關(guān)注于文本的抽取以及問(wèn)答句的相似度計(jì)算的研究.即給定一個(gè)自然語(yǔ)言問(wèn)句,通過(guò)一定的算法模型在自己的語(yǔ)料庫(kù)或是在互聯(lián)網(wǎng)上選出正確的答案.

      Yu等人[26]將問(wèn)句與答案的匹配判斷看成一個(gè)二分類問(wèn)題,并把每一個(gè)候選數(shù)據(jù)用一個(gè)三元組(qi,aij,yij)表示,yij的值為0或1,其中1表示相應(yīng)的答案為正確答案,0表示錯(cuò)誤答案.最后的任務(wù)則是學(xué)習(xí)一個(gè)分類器去預(yù)測(cè)每一個(gè)三元組的y值,即對(duì)于輸入的一個(gè)問(wèn)答對(duì)能夠自動(dòng)判斷兩者是否匹配,q和a是句子的向量表示,在學(xué)習(xí)句子的向量表示時(shí),Yu等人采用的是二元詞袋模型與卷積神經(jīng)網(wǎng)絡(luò)組合的方式,即將二元詞袋模型用于詞向量的表示,再通過(guò)只有一層卷積和一層池化的卷積神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建整個(gè)句子的語(yǔ)義表示.根據(jù)Bordes等人在文[34]中提出的問(wèn)答句的相似度計(jì)算方法,得到正確答案的概率為

      其中qTMa是問(wèn)句和答句兩個(gè)向量的相似度計(jì)算分?jǐn)?shù),M為相似度矩陣,σ為sigmoid激活函數(shù),使概率限制在0~1之間.訓(xùn)練時(shí),為了解決詞向量中沒(méi)有專有名詞和數(shù)字的缺陷,Yu等人對(duì)問(wèn)答句中共同出現(xiàn)的單詞進(jìn)行計(jì)數(shù),并將其計(jì)數(shù)值和這些單詞的TF-IDF值與分布式詞向量進(jìn)行整合,一起作為學(xué)習(xí)邏輯回歸分類器的特征向量,最后通過(guò)最小化交叉熵來(lái)訓(xùn)練模型,訓(xùn)練的目標(biāo)函數(shù)為

      實(shí)驗(yàn)的數(shù)據(jù)集都來(lái)自TREC[48],評(píng)估方法都采用MAP(Mean Average Precision)標(biāo)準(zhǔn)和MRR(Mean Reciprocal Rank)標(biāo)準(zhǔn),Yu等人[26]的MAP和MPP值分別為0.711 3和 0.784 6.該結(jié)果較對(duì)比實(shí)驗(yàn)中的所有模型都要好,之前的模型,如文獻(xiàn)[48-51]等中的方法都側(cè)重于語(yǔ)法分析,并不重視語(yǔ)義分析.在之前的模型中,文獻(xiàn)[52]的模型表現(xiàn)較好,它是唯一集中進(jìn)行語(yǔ)義分析的模型.在文獻(xiàn)[52]的模型中,先在問(wèn)題和答案匹配對(duì)齊的單詞中提取特征,再將詞特征進(jìn)行聚合用以句子分類,然后將這一組詞特征與從外部資源獲取的語(yǔ)義特征(如WordNet,PILSA[53]等)結(jié)合.Yu等人[26]的模型使用兩種非分布特征——通過(guò)簡(jiǎn)單卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的問(wèn)答句匹配和以IDF值衡量的詞匹配來(lái)進(jìn)行語(yǔ)義語(yǔ)法分析,該模型不依賴于外部的語(yǔ)義資源,還可以對(duì)初始詞向量進(jìn)行訓(xùn)練.

      Yu等人[26]只是對(duì)整個(gè)模型進(jìn)行概括,與此想法類似,Severyn等人[21]采用了相同的相似度計(jì)算方法,但是Severyn等人的模型是基于多元詞組模型.該模型先利用Word2Vec工具將單詞轉(zhuǎn)化成詞向量,作為整個(gè)模型的初始詞向量,接著用Skip-gram模型訓(xùn)練,之后,再通過(guò)深層次的卷積網(wǎng)絡(luò)構(gòu)建問(wèn)句與答案的向量表示,并將句子向量看成是中間表達(dá)式的一部分.具體的架構(gòu)如圖7[21]所示,經(jīng)過(guò)卷積網(wǎng)絡(luò)后,分別得到兩個(gè)句子的向量表達(dá)式,再采用和文獻(xiàn)[26]中同樣的向量相似度計(jì)算方法,計(jì)算兩個(gè)向量的相似值,這個(gè)相似值也作為中間表達(dá)式的一部分.對(duì)于一些分布式詞向量不能表示的專有名詞和數(shù)字,以及一些能夠判斷問(wèn)題類型的詞(如what,when等詞),Severyn等人[21]的處理方法與Yu等人[26]類似,同樣將這些信息作為額外的特征用于問(wèn)答句之間的向量表達(dá)式的匹配度建立,用特性向量xfeat表示,也作為中間表達(dá)式的一部分.然后將所有中間向量輸入到一個(gè)包括一個(gè)全連接層、隱藏層和Softmax層的神經(jīng)網(wǎng)絡(luò),其中全連接層將所有的中間向量進(jìn)行連接,隱藏層是用一個(gè)非線性函數(shù)作用于全連接后的輸入向量,最后,通過(guò)Softmax輸出,概率分布公式為

      其中θk為第k類的權(quán)值參數(shù).文獻(xiàn)[21]的訓(xùn)練方法與文獻(xiàn)[26]類似,但是,文獻(xiàn)[21]采用端到端的形式訓(xùn)練,文獻(xiàn)[26]則是訓(xùn)練一個(gè)分類器.

      文獻(xiàn)[21]實(shí)驗(yàn)的數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn)與文獻(xiàn)[26]一樣,這個(gè)模型的MAP和MPP值為0.745 9和0.807 8,相比文獻(xiàn)[26]差不多有了3%的提高,文獻(xiàn)[26]使用了一個(gè)更有表現(xiàn)力的卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)查詢的中間表示和答案,允許問(wèn)答對(duì)之間進(jìn)行更精確的匹配.此外,文獻(xiàn)[26]的模型中還包括了問(wèn)題和答案的中間表示,這使得問(wèn)答對(duì)之間有著更豐富的表示.最后,文獻(xiàn)[26]采用一種端對(duì)端的方式對(duì)系統(tǒng)訓(xùn)練,而文獻(xiàn)[21]則使用其深度學(xué)習(xí)系統(tǒng)作為邏輯回歸分類器中的一個(gè)特性.但是文獻(xiàn)[26]模型的參數(shù)較多,在實(shí)現(xiàn)上有一定的難度.

      Hu等人則提出了一種不一樣的匹配思路,Hu在文獻(xiàn)[54]中給出了一種交互式的匹配模型(ARC-II),其架構(gòu)如圖8[54]所示.該模型的基本思想是先把句子表達(dá)成為由句中單詞的詞向量的組合,然后直接在兩個(gè)句子的交互空間中構(gòu)建CNN模型,對(duì)匹配模式進(jìn)行學(xué)習(xí).得到兩個(gè)句子的整體交互的向量表示后,最后通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)(MLP[55])來(lái)衡量這個(gè)匹配向量的匹配程度.

      圖7 問(wèn)答句匹配的深度學(xué)習(xí)架構(gòu)Fig.7 Deep learning architecture for matching QA sentence

      圖8 交互式語(yǔ)義匹配架構(gòu)Fig.8 Architecture of interactive matching model

      進(jìn)行池化操作后,在結(jié)構(gòu)的第三層,再一次對(duì)降維后的矩陣進(jìn)行卷積操作.之后,再進(jìn)行一定次數(shù)的“池化+卷積”的操作,得到兩個(gè)句子交互的向量表示.

      在訓(xùn)練該模型時(shí),Hu等人也采用了一種不同的訓(xùn)練方法,通過(guò)采集大量三元組樣本(x,y+,y?)使用基于排序的損失函數(shù),這旨在拉大正負(fù)樣本的匹配分?jǐn)?shù)的差距,而不在意匹配度分?jǐn)?shù)的絕對(duì)值大小:

      其中s(x,y+)為正樣本的匹配分?jǐn)?shù),s(x,y?)為負(fù)樣本的匹配分?jǐn)?shù),訓(xùn)練過(guò)程中用隨機(jī)梯度下降方法來(lái)不斷優(yōu)化模型.Hu等人在句子的補(bǔ)充,社交問(wèn)答以及問(wèn)句復(fù)述三種數(shù)據(jù)集上分別用ARC-II模型與ARC-I模型進(jìn)行實(shí)驗(yàn).文獻(xiàn)[54]中提到的ARC-I模型是一種并列式匹配模型,ARC-I模型將兩個(gè)句子分別通過(guò)卷積網(wǎng)絡(luò)表示為兩個(gè)定長(zhǎng)的向量,然后直接拼接兩個(gè)向量并輸入一個(gè)全連接的多層神經(jīng)網(wǎng)絡(luò),從神經(jīng)網(wǎng)絡(luò)的輸出得到最終的匹配值,實(shí)驗(yàn)結(jié)果顯示交互式的匹配模型ARC-II要好于并列式的匹配模型ARC-I.而這兩種模型都優(yōu)于之前的一些模型.相比于主題深度匹配模型[56],Hu等人[54]的利用卷積網(wǎng)絡(luò)的深度匹配模型考慮了句子中詞的順序,從而可以對(duì)兩個(gè)句子的匹配關(guān)系進(jìn)行相對(duì)完整的描述;相比于樹(shù)深度匹配模型[57],Hu等人[54]模型的學(xué)習(xí)框架更加靈活.

      對(duì)于面向文本的自動(dòng)問(wèn)答,問(wèn)句和答案可以用同樣的語(yǔ)義表示方法,進(jìn)行語(yǔ)義表示時(shí),詞向量初始表示的選擇對(duì)最后的結(jié)果有著重要的影響.在進(jìn)行語(yǔ)義匹配學(xué)習(xí)時(shí),基于語(yǔ)義學(xué)習(xí)的匹配模式是對(duì)句子的整體語(yǔ)義表示進(jìn)行匹配,對(duì)于某些不能用詞向量表示的專有名詞,則需要單獨(dú)學(xué)習(xí).而直接建模匹配模式能夠考慮文本的一些局部性表達(dá),能有效捕捉問(wèn)答句間短語(yǔ)的匹配.

      3.3 困難與挑戰(zhàn)

      卷積神經(jīng)網(wǎng)絡(luò)在文本的語(yǔ)義表示以及文本的語(yǔ)義匹配上,能夠充分考慮句子的順序,且可以從多個(gè)方面考慮句子的語(yǔ)義,在自動(dòng)問(wèn)答系統(tǒng)的應(yīng)用上取得了較好的效果.但與此同時(shí),在自動(dòng)問(wèn)答領(lǐng)域還有很多的挑戰(zhàn),比如利用卷積網(wǎng)絡(luò),只是對(duì)連續(xù)的短語(yǔ)進(jìn)行組合,只考慮了滑動(dòng)窗口內(nèi)的詞序,而無(wú)法捕捉遠(yuǎn)距離的依存關(guān)系,也無(wú)法很好地表示復(fù)雜語(yǔ)義的句子,對(duì)于能夠捕捉句子復(fù)雜語(yǔ)義的模型,其訓(xùn)練參數(shù)很多,往往在實(shí)現(xiàn)上有一定難度.目前,大部分的問(wèn)答系統(tǒng)都能處理簡(jiǎn)單的問(wèn)答句子,而對(duì)于一些復(fù)雜的或是不常見(jiàn)的問(wèn)題的處理,仍是當(dāng)前問(wèn)答領(lǐng)域的一大挑戰(zhàn).特別是對(duì)面向知識(shí)庫(kù)的問(wèn)答系統(tǒng),除了需要對(duì)自然語(yǔ)言問(wèn)句進(jìn)行語(yǔ)義分析外,還需依賴其他的技術(shù),如學(xué)習(xí)知識(shí)庫(kù)語(yǔ)言的語(yǔ)義表示、實(shí)體鏈接技術(shù)等,現(xiàn)有的模型在處理面向知識(shí)庫(kù)的問(wèn)答時(shí),一般比較好的效果也只在50%~60%區(qū)間.

      4 總結(jié)

      本文主要對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)下的自動(dòng)問(wèn)答技術(shù)進(jìn)行綜述,針對(duì)卷積網(wǎng)絡(luò)目前在面向知識(shí)庫(kù)和面向文本的兩大問(wèn)答系統(tǒng)的應(yīng)用,重點(diǎn)關(guān)注卷積網(wǎng)絡(luò)用于語(yǔ)義表示學(xué)習(xí)和語(yǔ)義匹配兩大技術(shù)點(diǎn).本文將問(wèn)答匹配模型分為兩類:并列式匹配模型和交互式匹配模型,并對(duì)兩大知識(shí)庫(kù)系統(tǒng)的不同實(shí)現(xiàn)技術(shù)進(jìn)行展開(kāi).知識(shí)庫(kù)問(wèn)答系統(tǒng)主要是自然語(yǔ)言問(wèn)句與結(jié)構(gòu)化語(yǔ)言的匹配問(wèn)題,面向文本的問(wèn)答系統(tǒng)是自然語(yǔ)言問(wèn)句和自然語(yǔ)言答案句的匹配問(wèn)題.在介紹基于卷積網(wǎng)絡(luò)的兩大問(wèn)答系統(tǒng)的主流方法的同時(shí),對(duì)其存在的挑戰(zhàn)和困難進(jìn)行討論.自動(dòng)問(wèn)答是一個(gè)具有挑戰(zhàn)性的研究領(lǐng)域,特別是基于深度學(xué)習(xí)的自動(dòng)問(wèn)答系統(tǒng)是當(dāng)下的研究熱點(diǎn)之一.相信隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的自動(dòng)問(wèn)答技術(shù)會(huì)有更大的突破.

      [1]KATZ B.Annotating the World Wide Web using natural language[C]//Proceedings of RIAO’97 Computer-Assisted Information Searching on Internet.1997:136-155.

      [2]SPINK A,GUNAR O.E-commerce web queries:eExcite and ask jeeves study[J/OL].First Monday,2001,6(7). [2017-06-02].http:// fi rstmonday.org/issues/issue6 7/spink/index.html.

      [3]ZHENG Z.AnswerBus question answering system[C]//Proceedings of the Second International Conference on Human Language Technology Research.Morgan Kaufmann Publishers Inc,2002:399-404.

      [4]鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問(wèn)答綜述[J].中文信息學(xué)報(bào),2002,16(6):46-52.

      [5]MOLLAD,VICEDO J L.Special section on restricted-domain question answering[J].Computational Linguistics, 2006,33(1):41-61.

      [6]KWIATKOWSKI T,ZETTLEMOYER L,GOLDWATER S,et al.Lexical generalization in CCG grammar induction for semantic parsing[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1512-1523.

      [7]LIANG P,JORDAN M I,KLEIN D.Learning dependency-based compositional semantics[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies(I). Association for Computational Linguistics,2011:590-599.

      [8]ZHANG Y,JIN R,ZHOU Z H.Understanding bag-of-words model:A statistical framework[J].International Journal of Machine Learning and Cybernetics,2010,1(1/4):43-52.

      [9]LANDAUER T K,FOLTZ P W,LAHAM D.An introduction to latent semantic analysis[J].Discourse Processes, 1998,25:259-284.

      [10]BROWN P F,DESOUZA P V,MERCER R L,et al.Class-based n-gram models of natural language[J]. Computational Linguistics,1992,18(4):467-479.

      [11]BENGIO Y,DUCHARME R,VINCENT P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3:1137-1155.

      [12]MIKOLOV T,YIH W T,ZWEIG G.Linguistic regularities in continuous space word representations[C]//Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistic. 2013,13:746-751.

      [13]MIKOLOV T,CHEN K,CORRADO G,et al.Effi cient estimation of word representations in vector space. [EB/OL].[2017-06-02].arXiv:1301.3781.https://arxiv.org/pdf/1301.3781.pdf.

      [14]COLLOBERT R,WESTON J.A unif i ed architecture for natural language processing:Deep neural networks with multitask learning[C]//Proceedings of the 25th International Conference on Machine Learning.ACM, 2008:160-167.

      [15]MNIH A,HINTON G.Three new graphical models for statistical language modelling[C]//Proceedings of the 24th International Conference on Machine Learning.ACM,2007:641-648.

      [16]FREGE G.Funktion,Begrif f,Bedeutung[M].Gottingen:Vandenhoeck&Ruprecht,2002.

      [17]HERMANN K M.Distributed representations for compositional semantics[D].Oxford:University of Oxford, 2014.

      [18]來(lái)斯惟.基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語(yǔ)義向量表示方法研究[D].北京:中國(guó)科學(xué)院研究生院,2016.

      [19]FUKUSHIMA K,MIYAKE S.Neocognitron:A self organizing neural network model for a mechanism of pattern recognition unaf f ected by shift in position[J].Biological Cybernetics,1980,36(4):193-202.

      [20]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE.1998,86(11):2278-2324.

      [21]SEVERYN A,MOSCHITTI A.Learning to rank short text pairs with convolutional deep neural networks[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2015:373-382.

      [22]DAHL G E,SAINATH T N,HINTON G E.Improving deep neural networks for LVCSR using rectif i ed linear units and dropout[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing. 2013:8609-8613.

      [23]COLLOBERT R,WESTON J,BOTTOU L,et al.Natural language processing(almost)from scratch[J].Journal of Machine Learning Research,2011,12:2493-2537.

      [24]BERGER A,LAFFERTY J.Information retrieval as statistical translation[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,1999: 222-229.

      [25]WU W,LU Z,LI H.Learning bilinear model for matching queries and documents[J].Journal of Machine Learning Research,2013,14(1):2519-2548.

      [26]YU L,HERMANN K M,BLUNSOM P,et al.Deep learning for answer sentence selection[EB/OL].[2017-06-02]. arXiv:1412.1632.https://arxiv.org/pdf/1412.1632.pdf.

      [27]SURDEANU M,CIARAMITA M,ZARAGOZA H.Learning to rank answers to non-factoid questions from web collections[J].Computational Linguistics,2011,37(2):351-383.

      [28]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C]//Advances in Neural Information Processing Systems.2013:3111-3119.

      [29]龐亮,蘭艷艷,徐君,等.深度文本匹配綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(4):985-1003.

      [30]YIH W,HE X D,MEEK C.Semantic parsing for single-relation question answering[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics.2014:643-648.

      [31]DONG L,WEI F,ZHOU M,et al.Question Answering over Freebase with Multi-Column Convolutional Neural Networks[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics.2015:260-269.

      [32]CAI Q,YATES A.Large-scale semantic parsing via schema matching and lexicon extension[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics.2013:423-433.

      [33]BORDES A,WESTON J,USUNIER N.Open question answering with weakly supervised embedding models [C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer, 2014:165-180.

      [34]BORDES A,CHOPRA S,WESTON J.Question answering with subgraph embeddings[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.2014:615-620.

      [35]HUANG P S,HE X,GAO J,et al.Learning deep structured semantic models for web search using clickthrough data[C]//Proceedings of the 22nd ACM International Conference on Conference on Information&Knowledge Management.ACM,2013:2333-2338.

      [36]SHEN Y,HE X,GAO J,et al.Learning semantic representations using convolutional neural networks for web search[C]//Proceedings of the 23rd International Conference on World Wide Web.ACM,2014:373-374.

      [37]FADER A,ZETTLEMOYER L S,ETZIONI O.Paraphrase-driven learning for open question answering[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics.2013:1608-1618.

      [38]FADERA,SODERLAND S,ETZIONI O.Identifying relations for open information extraction[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.2011:1535-1545.

      [39]YAO X,VAN DURME B.Information extraction over structured data:Question answering with freebase[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics.2014:956-966.

      [40]BAO J,DUAN N,ZHOU M,et al.Knowledge-based question answering as machine translation[J].Cell,2014, 2(6):967-976.

      [41]LEHMANN J,ISELE R,JAKOB M,et al.DBpedia–a large-scale,multilingual knowledge base extracted from Wikipedia[J].Semantic Web,2015,6(2):167-195.

      [42]BOLLACKER K,EVANS C,PARITOSH P,et al.Freebase:A collaboratively created graph database for structuring human knowledge[C]//Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data.ACM,2008:1247-1250.

      [43]SUCHANEK F M,KASNECI G,WEIKUM G.Yago:A core of semantic knowledge[C]//Proceedings of the 16th International Conference on World Wide Web.ACM,2007:697-706.

      [44]YIH S W,CHANG M W,HE X,et al.Semantic parsing via staged query graph generation:Question answering with knowledge base[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics. 2015:1321-1331.

      [45]YANG Y,CHANG M W.S-MART:Novel tree-based structured learning algorithms applied to tweet entity linking[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics.2015: 504-513.

      [46]BERANT J,CHOU A,FROSTIG R,et al.Semantic parsing on freebase from question-answer pairs[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing.2013:1533-1544.

      [47]BERANT J,LIANG P.Semantic parsing via paraphrasing[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics.2014:1415-1425.

      [48]WANG M,SMITH N A,MITAMURA T.What is the Jeopardy model?A quasi-synchronous grammar for QA[C]//Proceedings of EMNLP-CoNLL’07.2007:22-32.

      [49]HEILMAN M,SMITH N A.Tree edit models for recognizing textual entailments,paraphrases,and answers to questions[C]//Proceedings of the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.ACL,2010:1011-1019.

      [50]WANG M,MANNING C D.Probabilistic tree-edit models with structured latent variables for textual entailment and question answering[C]//Proceedings of the 23rd International Conference on Computational Linguistics. ACL,2010:1164-1172.

      [51]YAO X,VAN DURME B,CALLISON-BURCH C,et al.Answer extraction as sequence tagging with tree edit distance[C]//Proceedings of NAACL-HLT.2013:858-867.

      [52]YIH W,CHANG M W,MEEK C,et al.Question answering using enhanced lexical semantic models[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics.ACL,2013: 1744-1753.

      [53]YIH W,ZWEIG G,PLATT J C.Polarity inducing latent semantic analysis[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Association for Computational Linguistics,2012:1212-1222.

      [54]HU B,LU Z,LI H,et al.Convolutional neural network architectures for matching natural language sentences[C]//Proceedings of Advances in Neural Information Processing Systems.2015:2042-2050.

      [55]BENGIO Y.Learning Deep Architectures for AI[M].Foundations and Trends in Machine Learning.Boston, USA:Now Publishers Ins,2009.

      [56]LU Z,LI H.A deep architecture for matching short texts[C]//Proceedings of Advances in Neural Information Processing Systems.2013:1367-1375.

      [57]WANG M,LU Z,LI H,et al.Syntax-based deep matching of short texts[C]//Proceedings of the 24th International Conference on Artif i cial Intelligence.AAAI Press,2015:1354-1361.

      (責(zé)任編輯:林磊)

      The auto-question answering system based on convolution neural network

      JING Li-jiao,FU Yun-bin,DONG Qi-wen
      (School of Data Science and Engineering,East China Normal University,Shanghai 200062,China)

      The question-answering is a hot research f i eld in natural language processing, which can give users concise and precise answer to the question presented in natural language and provide the users with more accurate information service.There are two key questions to be solved in the question answering system:one is to realize the semantic representation of natural language question and answer,and the other is to realize the semantic matching learning between question and answer.Convolution neural network is a classic deep network structure which has a strong ability to express semantics in the f i eld of natural language processing in recent years,and is widely used in the f i eld of automatic question and answer.This paper reviews some techniques in the question answering system that is based on the convolution neural network,the paper focuses on the knowledge-based and the text-oriented Q&A techniques from the two main perspectivesof semantic representation and semantic matching,and indicates the current research diffi culties.

      convolution neural network;automatic question answering;semantic representation;semantic matching

      TP391

      A

      10.3969/j.issn.1000-5641.2017.05.007

      1000-5641(2017)05-0066-14

      2017-06-23

      國(guó)家重點(diǎn)研發(fā)計(jì)劃(2016YFB1000905);國(guó)家自然科學(xué)基金廣東省聯(lián)合重點(diǎn)項(xiàng)目(U1401256);國(guó)家自然科學(xué)基金(61672234,61402177);華東師范大學(xué)信息化軟課題

      金麗嬌,女,碩士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理與自動(dòng)問(wèn)答. E-mail:51164500102@stu.ecnu.edu.cn.

      傅云斌,男,博士后,研究方向?yàn)閿?shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí).E-mail:fuyunbin2012@163.com.

      猜你喜歡
      知識(shí)庫(kù)實(shí)體語(yǔ)義
      語(yǔ)言與語(yǔ)義
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      認(rèn)知范疇模糊與語(yǔ)義模糊
      普兰县| 青铜峡市| 镇远县| 五河县| 依兰县| 宜宾市| 密云县| 保亭| 武平县| 三明市| 丘北县| 聂拉木县| 晋城| 临夏市| 望谟县| 兴宁市| 彰武县| 苗栗市| 武胜县| 沙洋县| 荣成市| 博兴县| 舞钢市| 鹰潭市| 高尔夫| 兰州市| 德庆县| 大化| 洛扎县| 宣威市| 柳州市| 长宁县| 宁都县| 肥乡县| 会宁县| 彩票| 远安县| 平遥县| 汉源县| 淮滨县| 泗阳县|