• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于領(lǐng)域知識的增強約束詞向量

      2019-05-24 06:41:30王恒升
      中文信息學報 2019年4期
      關(guān)鍵詞:本體語義向量

      王恒升,劉 通,任 晉

      (1. 中南大學 機電工程學院,湖南 長沙 410083;2. 中南大學 高性能復雜制造國家重點實驗室,湖南 長沙 410083)

      0 引言

      自然語言是人類生產(chǎn)生活中長期積累形成的,用于表達情感、意圖的工具以及記錄、傳播知識的載體。文字是語言的基本構(gòu)成,是記錄語言的符號體系[1]。用信息技術(shù)的術(shù)語來講,自然語言是一種典型的信息系統(tǒng)。

      計算機及信息技術(shù)的發(fā)展,為自然語言的計算機處理奠定了基礎(chǔ)。按照認識論的分類,計算機自然語言處理可分為基于理性主義的方法和基于經(jīng)驗主義的方法。研究工作的早期階段以依靠人類知識構(gòu)建各種語言及語法規(guī)則的理性主義研究為主,形成基于規(guī)則的句法分析和語義分析技術(shù)[2]。隨著處理自然語言的規(guī)模不斷擴大,自然語言作為伴隨人類進化過程而不斷進化的一種信息系統(tǒng),其復雜性特征和各種語言現(xiàn)象層出不窮,基于理性主義的方法很快遇到了瓶頸,導致無法處理大規(guī)模的真實文本[3]?;诮y(tǒng)計學理論的經(jīng)驗主義方法,利用大規(guī)模語料庫,使用概率統(tǒng)計的方法建立語言模型[4],取得了意想不到的成功。由于基于經(jīng)驗主義的方法在理論的完備性上存在不足,從長遠來講,要解決這個問題,必須將兩種方法結(jié)合起來,彼此取長補短,才能相得益彰[5]。本文基于這一思想,針對自然語言處理的一個特殊應用場合(限定場合的對話系統(tǒng)),將理性知識融入詞向量(一種統(tǒng)計語言模型)中,對詞向量建模過程進行干預,得到本文稱為“增強約束詞向量”的文本模型。經(jīng)實驗測定,增強約束詞向量具有更強的詞語表達能力,針對本文的應用,能更準確地得到自然語言的語義信息。

      本文后續(xù)安排如下: 第1節(jié)介紹應用背景,第2節(jié)闡述增強約束詞向量;第3節(jié)介紹基于本體知識的增強約束詞向量;第4節(jié)實驗驗證并分析實驗結(jié)果;第5節(jié)總結(jié)全文,得出結(jié)論。

      1 應用背景

      計算機的應用進軍到自然語言領(lǐng)域可以說是科學家雄心勃勃努力的結(jié)果,這一工作與人工智能有密切的聯(lián)系,以至于圖靈測試把人機自然語言對話作為通過人工智能檢驗的一個標準?;谧匀徽Z言的人機對話系統(tǒng)按照用途可分為開放型和領(lǐng)域任務型兩種。開放型人機對話系統(tǒng)不針對具體問題,是一種開放式的對話,常用作聊天機器人;領(lǐng)域任務型人機對話系統(tǒng)往往針對某一場景,旨在幫助人類解決某一方面的實際應用問題。

      本文將自然語言處理任務應用于大學校園的信息查詢,針對某大學的一個集教學、科研和實驗于一體的綜合大樓,提供信息查詢、路徑導航等功能,是一種領(lǐng)域任務型人機對話系統(tǒng)的應用。(其中的信息查詢系統(tǒng)本身不是本文的主要內(nèi)容,不做詳細介紹)

      語義理解是人機對話系統(tǒng)的關(guān)鍵部分,其任務是對人的自然語言輸入指令進行意圖識別及要素提取。大多數(shù)學者采用改進語義理解模型的方法提高語義理解的準確性,如Xu[6]等將TriCRF模型與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,用于航班預定對話的語義理解,相比標準TriCRF模型在所用數(shù)據(jù)集上取得了更好的效果。Zhang[7]等基于循環(huán)神經(jīng)網(wǎng)絡(luò)提出一種聯(lián)合模型,同時進行對話的意圖識別與要素抽取,在所用對話數(shù)據(jù)集中,兩個任務均取得了最佳的效果。盡管利用改進的模型取得了不錯的效果,然而大多數(shù)模型的特征輸入來源于傳統(tǒng)方法: 手工標注、one-hot或基于詞頻的表示(如TF-IDF等)。手工標注費時費力,one-hot與基于詞頻的表示雖能自動構(gòu)建,但無法考慮特征間的語義相關(guān)性,這個缺點成了進一步提高模型性能的瓶頸。

      基于Harris假設(shè)[8]“具有相似上下文的詞語,其語義是相似的”,Bengio[9]等于2003年提出經(jīng)典的詞向量訓練模型——神經(jīng)網(wǎng)絡(luò)語言模型,將詞的表示向量化,同時保證了語義接近的詞語其詞向量也是接近的。自此,眾多研究學者開始利用帶有語義信息的詞向量作為文本的特征表達,以克服傳統(tǒng)特征表示方法的缺點,提高任務效果。馮艷紅[10]等基于詞向量技術(shù)得到文本特征向量,采用CRF方法實現(xiàn)了領(lǐng)域術(shù)語識別,相比于傳統(tǒng)的TF-IDF特征,提高了領(lǐng)域術(shù)語識別的精度;Liao[11]等利用含有文本主題信息的詞向量作為輸入特征,在中文情感分析任務中取得了良好的效果。

      詞的向量表達為自然語言處理打開了一個通道,吸引了大批的研究者。但由于自然語言本身的復雜性,已有的詞向量訓練模型得到的詞向量往往表達力有限,詞向量的實際應用效果還有待提高,尋找更好的詞向量表達成為一個關(guān)鍵問題,將人類關(guān)于自然語言方面的知識顯式地融入詞向量中成為許多學者努力的方向。一類方式是融入通用語言學方面的知識,如字詞的形態(tài)學特性(如漢語中的偏旁部首、英語中的詞根、前后綴等)、句子的語法規(guī)則(如詞性、英語中的比較級、單復數(shù)、時態(tài)等)、詞語的語義特性(如文本數(shù)據(jù)庫WordNet, Freebase, Probase等提供的詞的關(guān)聯(lián)關(guān)系)[12],或者詞的情感特性[13];文獻[14]利用句法知識,將動詞、名詞信息加入詞向量的學習過程中,得到更準確的表達。另一類方式是將領(lǐng)域知識顯式地融入詞向量表達中,如Liu[15]等利用本體構(gòu)建學術(shù)論文的領(lǐng)域知識,在訓練過程中融入學術(shù)論文的語義關(guān)系,最大化上下文約束與領(lǐng)域知識約束。Chen[16]等利用UMLS(統(tǒng)一醫(yī)學語言系統(tǒng))作為額外的知識庫,結(jié)合大量與醫(yī)療相關(guān)的未標注文章,生成醫(yī)學領(lǐng)域詞向量。Taghipour[17]等提出一種改進的詞向量模型(adapted word embeddings),在詞向量學習過程中增加更具有區(qū)別性的領(lǐng)域信息,得到針對于特定領(lǐng)域(金融、體育)的詞向量,提高了詞語消歧系統(tǒng)的準確性。

      本文的研究屬于上述第二類,針對校園信息查詢對話系統(tǒng)的特殊應用,建立該系統(tǒng)基于本體的知識庫,改進skip-gram的訓練模型,將該應用的本體知識融入詞向量的訓練過程中,改造詞向量的基分布,在詞向量的表達中體現(xiàn)該應用的知識,提高該對話系統(tǒng)對用戶提問的理解的準確性,實現(xiàn)更為自然流暢的對話過程。

      2 增強約束詞向量

      訓練詞向量的基本思想可以理解為以語料庫中詞語之間的上下文關(guān)系為約束條件,對神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)進行優(yōu)化,其中的一部分模型參數(shù)就構(gòu)成了詞語的數(shù)字化表達,將其表示成向量形式,就是詞語的向量表達。這種模型看似簡單,但經(jīng)過海量的模型訓練,得到驚人的表達效果: 相近含義的詞語會在向量空間中相對集中,具有相似關(guān)系的詞語之間的向量差也會得到相近的向量。下面先簡單介紹一下詞向量的訓練方法,然后介紹本文提出的基于領(lǐng)域本體知識的增強約束的詞向量訓練方法。

      2.1 skip-gram方法

      Word2Vec是Google公司2013年開放的、目前應用廣泛的訓練詞向量的軟件工具,是基于Mikolv等[18]所提出神經(jīng)網(wǎng)絡(luò)訓練模型的實現(xiàn),包括CBOW和skip-gram兩種模型。本文采用skip-gram模型。

      Skip-gram模型由輸入層、投影層和輸出層組成,如圖1所示。skip-gram模型由前饋神經(jīng)網(wǎng)絡(luò)語言模型(feedforward neural net language model,NNLM)改進而來。與NNLM不同的是,skip-gram去掉了非線性隱藏層,投影層由全部詞語共享。

      整個模型是一種全連接神經(jīng)網(wǎng)絡(luò),這里將輸入層與投影層之間的權(quán)值矩陣W稱為詞向量矩陣,W∈k×V;投影層與輸出層之間的權(quán)值矩陣稱為輔助矩陣W′,W′∈V×k,k表示詞向量維數(shù),V表示詞典大小。

      模型輸入是中心詞wt的one-hot表示wt(wt∈V×1),它的第t個元素為1,其余為0。

      投影層對輸入進行式(1)所示的操作,取出詞向量矩陣W中對應中心詞wt的第t列的列向量vt(vt∈k×1)。

      模型輸出層是softmax函數(shù)歸一化的條件概率p(wt+j|wt), 如式(2)所示。

      其中,b∈V×1,表示偏置向量;w′t+j表示列向量w′∈V×1中第m個元素,m與詞典順序有關(guān)。

      Skip-gram模型的中心思想是使用中心詞wt預測上下文wt+j,其訓練目標是使得目標函數(shù)取最大值,如式(3)所示。

      其中,T表示語料庫大小,c表示上下文窗口長度。

      圖1 skip-gram詞向量訓練模型

      通過圖1可以看出,skip-gram模型僅通過詞語之間位置關(guān)系捕捉語義關(guān)系。在很多情況下由于語料不是規(guī)范的,例如,口語語料、微博語料等,詞語之間的相對位置變動較大,出現(xiàn)較大的訓練噪聲,難以訓練出所需的高精度詞向量。為此,我們在skip-gram方法的基礎(chǔ)上,針對特定應用,融入詞庫中詞語的類別信息,提出增強約束詞向量并給出了訓練方法。

      2.2 增強約束詞向量訓練方法

      一般詞向量在訓練中(如skip-gram,CBOW等)僅使用詞語之間上下文關(guān)系這一種約束條件,詞語的其他信息(例如詞性)并沒有參與到詞向量的訓練過程中。本文期望通過在詞向量的訓練過程中,增加約束條件,改變詞在向量空間的分布,使其分布更加合理。

      本文的目標是限定領(lǐng)域的詞向量應用,通過將特定領(lǐng)域的詞進行分類,建立一個分類本體(ontology)。將這一分類本體看作是該領(lǐng)域的知識,作為約束條件,引入到詞向量的訓練過程中,期望得到的詞向量能夠反映這一知識,形成詞向量在空間上更好的分布,更好地反映該領(lǐng)域的詞的語義信息。

      在詞向量訓練過程中,增加約束的有效方法是對其目標函數(shù)進行修正,或者是在訓練過程中增加訓練目標的多任務訓練。圖2為這種方法的一種實現(xiàn)—constraint-enhanced skip-gram(CE-skip-gram),在圖1的skip-gram的基礎(chǔ)上,增加了第二任務,形成了式(4)所示的目標函數(shù)。

      圖2 constraint enhanced skip-gram模型示意圖

      CE-skip-gram模型需要對語料{w1,w2,...,wt,...,wT}根據(jù)知識信息進行標注,具體標注方法見3.2節(jié),得到每個詞的標簽{l1,l2,…,lt,…lT},l表示標簽。

      模型訓練目標為最大化Q′,如式(4)所示。

      其中,β表示控制約束力度的系數(shù),β越大表示詞的分類知識起的作用越大。

      CE-skip-gram模型的輸入層和隱藏層與skip-gram模型一致,投影層共享詞向量矩陣W;不同之處在于,通過聯(lián)合模型的形式,進行多任務學習,輸出層在預測上下文的同時,也預測中心詞的類別,通過附加任務,影響詞向量矩陣W的參數(shù)。

      模型的訓練目標是最大化式(4)。采用梯度下降(gradient descent, GD)算法對目標函數(shù)Q′進行訓練,如式(5)所示。

      其中,α表示學習率,控制神經(jīng)網(wǎng)絡(luò)參數(shù)更新的速度。

      這樣,通過新的目標函數(shù),在詞向量訓練過程中,將知識標簽作為一種約束,干預詞向量的生成。

      3 基于本體知識的增強約束詞向量

      3.1 領(lǐng)域知識表達

      本文涉及的信息查詢系統(tǒng)針對于某大學科教大樓,通過自然語言人機對話,獲得該大樓內(nèi)的路線導航信息、教師信息、研究生信息、教學實驗及科研學術(shù)活動等信息。該科教大樓是一個集辦公、教學和實驗于一體的綜合建筑,以下簡稱CMEE。CMEE包含四棟建筑,其中A棟為辦公區(qū)域,共6層,BCD棟為實驗區(qū)域與教學區(qū)域,共5層。CMEE包含有實驗室、辦公室、會議室等功能區(qū)域,各層之間通過樓梯、電梯連通,各棟之間通過走廊連通,具有一定的綜合性。下文對該大樓的本體知識表達方法,對大型商場、醫(yī)院、綜合辦公樓等具有一定的參考意義。

      知識表達的方法主要有: 產(chǎn)生式表示法、框架式表示法、面向?qū)ο蟊硎痉?、基于本體(ontology)的表示法等。由于本體論提出了規(guī)范化描述領(lǐng)域知識的方法,解決了知識交互與共享問題,具有明顯優(yōu)勢[19]。本文采用基于本體的方式,構(gòu)建關(guān)于CMEE的領(lǐng)域知識。

      本體是對共享的概念進行形式的規(guī)范說明,由概念、關(guān)系、公理和實例等要素構(gòu)成[20],它在知識工程中表現(xiàn)為某一領(lǐng)域的概念定義集。首先根據(jù)事實,提取CMEE相關(guān)的重要概念,如人、活動、樓層等;其次對概念進行分組,建立本體框架,并定義類、關(guān)系及實例。圖3為CMEE本體知識框架。該本體分為人物、建筑、活動三大類。人物類主要是對該大樓內(nèi)活動主體進行描述,由老師、學生構(gòu)成;建筑類主要是對該大樓本身的描述,由棟、層、房間、區(qū)域連接組成;活動類是對在該大樓內(nèi)從事的相關(guān)活動進行描述,分既定活動和臨時活動類。每種類下又分為若干子類,最后的實例就是具體的描述對象。

      使用Protege軟件,通過可視化的方式編輯本體,可以以本體語言(web ontology language,OWL)的文本文件形式輸出。例如,對于本體間關(guān)系“教授是老師的子類”“王恒升是教授的實例”,使用OWL表示為:

      之后,利用本體類作為增強約束項,調(diào)整詞向量的語義表達。

      圖3 校園信息查詢系統(tǒng)本體知識框架

      3.2 CE-skip-gram的構(gòu)建

      CE-skip-gram方法的關(guān)鍵是利用詞語的分類知識約束詞向量,本文采用上述基于本體的方式構(gòu)建關(guān)于CMEE的領(lǐng)域知識,利用領(lǐng)域知識構(gòu)造詞語的分類標簽。由于本應用的特殊性,所有本體詞語均是名詞,故假設(shè)每個詞語僅有一個標簽。

      構(gòu)造詞語分類標簽的方法如下:

      (1) 構(gòu)建如圖3所示的本體知識框架,對本體上下位關(guān)系進行分級,沒有父類的本體稱為零級本體,有一個父類的本體稱為一級本體,其余依此類推。

      (2) 利用本體知識框架對詞語進行標注,標注粒度根據(jù)具體任務而定,從而實現(xiàn)不同粒度的知識表達。本文采用較粗的粒度標注,如果詞語出現(xiàn)在本體框架中,且是一級本體,則采用本身的標簽;如果是二級及二級以下的本體,采用二級本體作為標簽,例如,“講師”“副教授”“導師”“王xx”等詞的標簽都是二級本體“老師”的標簽: “teacher”。

      (3) 沒有出現(xiàn)在本體中的詞語統(tǒng)一給定標簽“common”。

      例如,對于語料“王|教授|的|辦公室|在|哪里”,根據(jù)上述方法進行知識標注,得到序列“王|nh|教授|teacher|的|common|辦公室|room|在|common|哪里|common”。

      CE-skip-gram中的分類器可選常用的softmax回歸、支持向量機等,本文選用BP(back propagation)神經(jīng)網(wǎng)絡(luò),輸入層是中心詞的詞向量,輸出層選用softmax函數(shù)進行概率歸一化。

      由于本文所涉及任務的特殊性(針對CMEE),無法利用互聯(lián)網(wǎng)開放的大規(guī)模語料,訓練詞向量數(shù)據(jù)集全部由實驗室眾師生與口語對話系統(tǒng)交互所得,共733條(表1)。

      表1 語料示例

      詞向量模型訓練需要先對訓練語料進行分詞,我們使用LTP平臺進行分詞,然后根據(jù)本體知識框架進行標注。本文增強約束詞向量模型訓練的基本數(shù)據(jù)如下: 本體知識標簽數(shù)量為12;訓練數(shù)據(jù)集共有733條語料,詞的總數(shù)為599個;詞向量維數(shù)k設(shè)置為30,約束系數(shù)β為0.7,學習率α為0.1,窗口大小c為2,訓練100 000步。編程語言采用Python,詞向量模型使用tensorflow框架進行編寫。

      3.3 關(guān)于詞的岐義性的說明

      自然語言處理的難題之一是詞語語義岐義性(word sense disambiguation, WSD),因此消歧就成為該領(lǐng)域中的一個重要研究內(nèi)容。楊陟卓[21]等采用語言模型優(yōu)化傳統(tǒng)的有監(jiān)督消歧模型,利用這兩種模型的優(yōu)勢,共同推導歧義詞的語義;Agirre[22]等提出了基于詞匯知識庫的WSD算法,實驗表明該算法能夠更有效地使用WordNet圖,性能優(yōu)勢明顯。

      本文中心詞的語義類別獲取采用的是利用3.2節(jié)中提到的構(gòu)造詞語分類標簽的方法,這里的中心詞語義標簽實際上是本體標簽(根據(jù)本體知識庫構(gòu)建標簽),例如“teacher”“student”“area”“room”等。在本特定應用中,所有的本體詞語均是名詞,中心詞出現(xiàn)歧義性的情況很少,消歧問題不突出。但隨著應用范圍的擴大,語義消歧會成為一個問題,需要關(guān)注。

      4 實驗及結(jié)果分析

      評估詞向量有兩種方法: ①內(nèi)部任務評價(intrinsic evaluation),②外部任務評價(extrinsic evaluation)。內(nèi)部任務評價遵循“語義接近的詞其詞向量也是接近的”原則,通常評價詞向量的語義相關(guān)性,這種方法需要人工收集近義詞表。外部任務評價是在實際任務中對詞向量進行評價,例如文本分類任務,通過任務結(jié)果來評估詞向量,這種與具體任務相結(jié)合的評價方法是很有效的[23]。為驗證本文所述CE-skip-gram模型的有效性,采用上述兩種評價方法。內(nèi)部任務評價見4.1節(jié)實驗1,外部任務評價見4.2節(jié)實驗2、實驗3。

      4.1 實驗1: 內(nèi)部任務評價

      本文采用詞向量語義相關(guān)性實驗作為內(nèi)部任務評價,使用Word2Vec研究中慣用的做法: 人工標注近義詞組,處于同一個近義詞組內(nèi)的詞,互為近義關(guān)系。測試數(shù)據(jù)共9組,36個詞,如表2所示。

      表2 近義詞示例

      續(xù)表

      根據(jù)訓練好的詞向量,利用式(4)計算詞與詞之間的相似度sim。每個近義詞組可以認為是同一類詞,如果與某個詞相似性最高的前三個詞,與該詞所在近義詞組存在交集,且相似度sim>0.65,就認為該詞向量是較為準確的(屬于這類);否則,認為是不準確的(屬于其他類)。這樣評價詞向量語義相關(guān)性就可以看作是多分類任務,評估指標選用精確率(P)、召回率(R)、綜合二者的F1值以及準確率(ACC),計算方法如式(7)~式(10)所示。實驗結(jié)果如表3、表4所示。

      其中TP表示將正類預測為正類數(shù);FN表示將正類預測為負類數(shù);FP表示將負類預測為正類數(shù);TN表示將負類預測為負類數(shù)。對于多分類任務,把每個類別單獨視為“正”,所有其他類別視為“負”。

      根據(jù)表3~4的實驗結(jié)果可知,相較于skip-gram模型,CE-skip-gram模型所得到的詞向量準確率更高,近義詞詞向量聚集更緊密。這個結(jié)果符合我們的預期。口語語料大多不規(guī)整,詞語之間相對位置多變,skip-gram模型僅靠詞語之間上下文關(guān)系約束詞向量矩陣,出現(xiàn)較大訓練噪聲,所得詞向量表達能力有限,而CE-skip-gram模型,在利用上下文關(guān)系作為約束條件的基礎(chǔ)上,增加新的約束條件,利用詞語分類信息約束詞向量矩陣,減小了噪聲的影響,縮小同類詞之間的“距離”,使同類詞語的詞向量分布更加緊密,所得詞向量更加準確。

      表3 skip-gram模型與CE-skip-gram模型對比

      表4 測試結(jié)果的部分細節(jié)

      4.2 外部任務評價

      本文所設(shè)計的信息查詢系統(tǒng)中,語義理解模塊是其關(guān)鍵組成部分(其中的信息查詢系統(tǒng)未在本文中詳細介紹)。該模塊需要對語句進行解析,包括兩個子任務: 意圖理解(intent understanding)與槽填充(slot filling)?!耙鈭D理解”是對語句的整體按意圖進行分類,“槽”指的是每一種意圖的語句經(jīng)過結(jié)構(gòu)化處理的每一個要素的位置。

      根據(jù)本文的應用場景,將用戶對話意圖分為以下7種: Query_student,Query_location,Query_activity,Introduce,Query_teacher,Query_org,Confirm,見表5;槽分為以下20種: teacher, where, name, who, nh, area, activity, p-prop, room, a-prop, org, list, person, location, research, att,

      表5 語句意圖示例

      o, student, department, thing,語句結(jié)構(gòu)化示例見表6。例如,語句“王××|的|研究生|有|哪些|人”,經(jīng)過語義理解模塊,輸出意圖為“Query_teacher”類,語句的相應要素為“name|o|student|o|which|o”。下一步需要根據(jù)所得意圖與要素,生成知識庫查詢語句。

      表6 語句結(jié)構(gòu)化信息示例

      該系統(tǒng)的知識庫通過本體建立起來,是基于謂詞邏輯的RDF描述文檔。知識庫的查詢也是使用基于謂詞邏輯的查詢語句。本系統(tǒng)使用SWI-PROLOG語言,但知識庫及Prolog的處理過程不在本文的介紹范圍之內(nèi)。

      上述例句生成的查詢語句可以表示為(A,is_a_student_of,王××)和(A,is_a,研究生)。其中兩個 謂詞分別為is_a_student_of和is_a,未知變量為A。通過查詢知識庫,可以得到結(jié)果A。文本處理流程如圖4所示。

      圖4 文本處理流程圖

      本文所采用的外部任務評價就是利用詞向量實現(xiàn)上述語義理解任務,通過評價任務來評價詞向量。外部任務評價包括兩部分,其一是意圖識別實驗(實驗2),其二是槽填充實驗(實驗3)。將數(shù)據(jù)集按照2∶8比例分成測試集(147條)和訓練集(586條),模型評估指標選用精確率(P)與召回率(R)以及綜合二者的F1值。

      4.2.1 實驗2: 意圖識別實驗

      對話意圖識別是判別用戶的意圖(目的),是一種分類問題。我們分別將隨機數(shù)詞向量、skip-gram詞向量與CE-skip-gram詞向量作為分類器的輸入,評價分類器的效果。使用的分類器分別為K近鄰(KNN)、支持向量機(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。

      KNN、SVM模型的輸入是詞向量的連接winput=[wt-i⊕...⊕wt⊕...⊕wt+j],構(gòu)成的一個長向量winput∈m×1,m=l×k,其中l(wèi)表示語句的長度,k表示詞向量的維度,⊕表示連接操作。KNN、SVM模型使用sklearn機器學習工具包實現(xiàn),模型參數(shù)設(shè)置見表7。

      表7 分類器模型參數(shù)設(shè)置(1)

      CNN模型[24]如圖5所示,是一個5層的神經(jīng)網(wǎng)絡(luò)。CNN模型的輸入是詞向量的堆疊winput=[wt-i;...;wt;...;wt+j],構(gòu)成一個矩陣winput∈k×l;第一層為卷積層,采用寬度為3、4、5的三種卷積窗口,每種窗口有8個卷積核用于特征提取;池化層采用最大池化操作;在拼接層將所得特征全部拼接;經(jīng)過全連接層后進行softmax操作,得到分類結(jié)果。模型參數(shù)設(shè)置見表8。

      圖5 CNN模型示意圖

      RNN模型[25]是按照時間順序輸入語句中每個詞的詞向量wt,如圖6所示。RNN神經(jīng)網(wǎng)絡(luò)單元采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM),前向LSTM讀取序列的正向信息,得到前向狀態(tài)fhi,反向LSTM讀取序列的反向信息,得到反向狀態(tài)bhi,狀態(tài)hi=[fhi⊕bhi]。 最終狀態(tài)hlast接全連接層,進行softmax操作,得到分類結(jié)果。模型參數(shù)設(shè)置見表8。

      圖6 RNN模型示意圖

      CNNRNN參數(shù)值參數(shù)值fliter_size3,4,5input_steps30num_filter8hidden_size100dropout_keep_prob0.7layer_num2batch_size8batch_size8num_epoch200num_epoch50

      實驗結(jié)果分析總結(jié)為以下兩點:

      (1) 從整體上看,四種機器學習模型均在使用CE-skip-gram詞向量作為特征向量時,效果最優(yōu)。原因在于隨機數(shù)中未包含任何語義信息,skip-gram雖然可以提取到語義信息,但所提取到的語義信息不夠準確,而CE-skip-gram可以提取到準確的語義信息,在skip-gram的基礎(chǔ)上使機器學習模型學習效果進一步提升。

      (2) 觀察表9~12的實驗結(jié)果,使用skip-gram詞向量相比于使用隨機數(shù)詞向量,會給模型帶來較大的提升,尤其是CNN模型,F(xiàn)1值提升了25.8%。但是這種提升效果在實驗4中表現(xiàn)并不明顯,原因在于RNN模型本身是序列模型,文本信息隱藏在序列中,模型不完全依賴詞向量提供的語義信息,而KNN、SVM、CNN模型幾乎不考慮文本的順序,丟失了文本的序列信息,只能通過詞向量獲取語義信息,所以詞向量構(gòu)造的好壞直接影響模型的結(jié)果。

      表9 實驗結(jié)果1: KNN模型實驗結(jié)果

      表10 實驗結(jié)果2: SVM模型實驗結(jié)果

      表11 實驗結(jié)果3: CNN模型實驗結(jié)果

      表12 實驗結(jié)果4: RNN模型實驗結(jié)果

      4.2.2 實驗3: 槽填充實驗

      槽填充是指從用戶對話中提取到與任務相關(guān)的關(guān)鍵信息。例如,在本文所涉及的對話任務中,老師、學生、活動地點等詞就是關(guān)鍵的槽位信息。通過提取到的槽位信息,生成查詢知識庫的語句,得到所需的答案。槽填充任務實質(zhì)是序列標注問題,本文采用的是基于注意力機制的編碼-解碼(encoder-decoder)模型[23]。

      encoder-decoder模型是一種Seq2Seq(sequence to sequence)模型,如圖7所示。在編碼端,使用Bi-LSTM神經(jīng)網(wǎng)絡(luò),前向LSTM讀取序列的正向信息,得到前向狀態(tài)fhi,反向LSTM讀取序列的反向信息,得到反向狀態(tài)bhi,在第i步的狀態(tài)hi=[fhi⊕bhi]。 在解碼端,使用單向LSTM神經(jīng)網(wǎng)絡(luò),采用注意力機制[26],對每個狀態(tài)hi進行解碼,得到序列標注。模型參數(shù)設(shè)置見表13。

      圖7 encoder-decoder模型示意圖

      參數(shù)值input_steps30hidden_size100layer_num2batch_size8num_epoch50

      觀察表14的實驗結(jié)果可以發(fā)現(xiàn),①使用CE-skip-gram詞向量的實驗結(jié)果最優(yōu),使用skip-gram詞向量與隨機數(shù)詞向量的結(jié)果大體一致。原因在于序列模型(Seq2Seq模型)主要利用文本的序列信息,而不是語義信息,所以即使是不包含任何語義信息的隨機數(shù)詞向量作為輸入特征,模型也能達到可觀的效果;②在同樣的序列信息基礎(chǔ)上,使用語義精度較高的CE-skip-gram詞向量,可以進一步提升模型的效果。

      表14 實驗結(jié)果5: 槽填充實驗結(jié)果

      5 結(jié)論

      縱觀自然語言處理研究的歷史,理性主義方法與經(jīng)驗主義方法此消彼長。盡管近年來經(jīng)驗主義方法利用大規(guī)模語料,取得了一定的成功,但是它在理論的完備性上存在不足。要想徹底解決自然語言處理問題,必須將這兩種研究方法結(jié)合起來?;谶@種思想,本文提出了一種詞向量訓練方法——增強約束詞向量模型。在利用詞語上下文關(guān)系作為約束的基礎(chǔ)上,將任務相關(guān)的知識作為增強約束項,干預詞向量的生成。針對具體任務(限定場合的對話系統(tǒng)),我們首先利用本體表達領(lǐng)域知識,之后根據(jù)領(lǐng)域知識對詞語進行標注,通過多任務學習的機制,將預測中心詞的知識標簽作為附加任務,對詞向量矩陣加以約束,從而將知識信息引入詞向量中。這樣,詞向量中蘊含的語義信息在人工知識的幫助下得以修正,使表達更加精確。采用內(nèi)部任務和外部任務兩種方法對詞向量進行評估與對比,結(jié)果表明本文提出的增強約束詞向量在表達詞的語義信息方面更加準確,將其應用于特定場合的對話系統(tǒng)也得到了更好的意圖理解效果,對提高自然語言對話的自然流暢性有較大的幫助。

      本文的解決思路,用于提升領(lǐng)域任務型對話系統(tǒng)的語義理解與對話的自然流暢性具有一定的普適意義,對大型的商場、醫(yī)院、地下車場、旅游景點等場合的口語導引系統(tǒng)等具有一定的借鑒意義。本文對于中心詞的類別處理是根據(jù)知識庫人工給出的,沒有實現(xiàn)自動類別處理。為提高效率可進一步研究自動化獲取領(lǐng)域知識的方法,增加本方法的適用性。

      猜你喜歡
      本體語義向量
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      語言與語義
      “上”與“下”語義的不對稱性及其認知闡釋
      向量垂直在解析幾何中的應用
      《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      認知范疇模糊與語義模糊
      连云港市| 竹北市| 民县| 兰考县| 罗平县| 琼海市| 英吉沙县| 连南| 泊头市| 鹤庆县| 册亨县| 九寨沟县| 罗定市| 鹿邑县| 新余市| 宜春市| 罗源县| 阜阳市| 五大连池市| 海宁市| 万山特区| 罗定市| 营口市| 陵川县| 布尔津县| 三原县| 博白县| 桓台县| 鄂托克旗| 永昌县| 广水市| 包头市| 德昌县| 琼中| 汤阴县| 晋州市| 达拉特旗| 礼泉县| 康乐县| 黄山市| 宣威市|