杜澤宇 楊 燕 賀 樑
(華東師范大學(xué)信息科學(xué)技術(shù)學(xué)院 上海 200062)
基于中文知識(shí)圖譜的電商領(lǐng)域問(wèn)答系統(tǒng)
杜澤宇 楊 燕 賀 樑
(華東師范大學(xué)信息科學(xué)技術(shù)學(xué)院 上海 200062)
隨著知識(shí)圖譜的迅速發(fā)展,面向知識(shí)圖譜的中文領(lǐng)域問(wèn)答系統(tǒng)已成為目前最新最熱的研究方向之一,對(duì)于提高專(zhuān)業(yè)領(lǐng)域服務(wù)智能化程度具有較高的意義和價(jià)值。針對(duì)中文口語(yǔ)語(yǔ)義表達(dá)多樣化、不符合語(yǔ)法規(guī)范以及電商領(lǐng)域特殊性問(wèn)題,提出一套流式的中文知識(shí)圖譜自動(dòng)問(wèn)答系統(tǒng)CEQA,能夠較好地完成電商領(lǐng)域商品咨詢(xún)以及統(tǒng)計(jì)推理等復(fù)雜問(wèn)題,特別是有效地提升了中英文混合商品名稱(chēng)識(shí)別、語(yǔ)義鏈接以及復(fù)雜問(wèn)句的依存分析等方面的性能。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在電商領(lǐng)域問(wèn)答應(yīng)用中具有較高的準(zhǔn)確率和實(shí)用價(jià)值。
自動(dòng)問(wèn)答 知識(shí)圖譜 語(yǔ)義網(wǎng) 本體
知識(shí)圖譜最早起源于Google的Knowledge Graph,它本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),其結(jié)點(diǎn)代表實(shí)體或者概念,邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系。隨著結(jié)構(gòu)化數(shù)據(jù)源的劇增,互聯(lián)網(wǎng)正在從大量互相鏈接的網(wǎng)頁(yè)向包含大量描述各種實(shí)體和實(shí)體之間豐富關(guān)系的語(yǔ)義網(wǎng)演進(jìn)。如今已經(jīng)有很多著名的知識(shí)圖譜知識(shí)庫(kù),如DBpedia、Freebase、Yogo、百度知心、知立方等。知識(shí)圖譜對(duì)搜索引擎提供語(yǔ)義層面上的支持,用戶(hù)通過(guò)關(guān)鍵詞搜索模式已經(jīng)很難滿(mǎn)足用戶(hù)的需求[1]。用戶(hù)更希望通過(guò)自然語(yǔ)言查詢(xún),直接得到所需的答案,智能問(wèn)答系統(tǒng)正在成為新一代信息檢索技術(shù)發(fā)展的必然趨勢(shì)。
知識(shí)圖譜構(gòu)建是自底向上數(shù)據(jù)驅(qū)動(dòng)型,相對(duì)于本體而言,數(shù)據(jù)語(yǔ)義表達(dá)靈活,實(shí)體覆蓋率更高,語(yǔ)義關(guān)系也更加全面。現(xiàn)有的知識(shí)圖譜的標(biāo)準(zhǔn)數(shù)據(jù)通常是由RDF三元組數(shù)據(jù)存儲(chǔ)形式構(gòu)成,即:<主語(yǔ),謂語(yǔ),賓語(yǔ)>,還有一些加入本體信息結(jié)構(gòu)的OWL數(shù)據(jù),其中包含本體的基本概念,例如類(lèi)(Class)、屬性(Property)、實(shí)例(Individual)等。龐大知識(shí)圖譜不僅包含事實(shí)類(lèi)知識(shí),還有豐富的語(yǔ)義知識(shí)為自然語(yǔ)言理解、知識(shí)推理和計(jì)算等方面提供強(qiáng)有力的支持。
基于知識(shí)圖譜的問(wèn)答系統(tǒng)有兩大核心問(wèn)題,前端語(yǔ)義理解和后端知識(shí)圖譜構(gòu)建。通用的問(wèn)答流程是將自然語(yǔ)言翻譯成結(jié)構(gòu)化的查詢(xún)語(yǔ)言,比如SQL[2]、SPARQL[3-5],以及其他的語(yǔ)言[6-8]查詢(xún)知識(shí)圖譜中的實(shí)體和關(guān)系?;谥R(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng)能夠支持推理等更多復(fù)雜的問(wèn)題,如包含邏輯判斷的問(wèn)句,如電商中“與iphone5s相同尺寸的手機(jī)有哪些?” 等這類(lèi)問(wèn)句。近年來(lái),IBM 的Waston、Google Now和Siri等都應(yīng)用了知識(shí)圖譜相關(guān)技術(shù),目前,我國(guó)電商行業(yè)發(fā)展迅速,用戶(hù)對(duì)于商品的咨詢(xún)量較大,自動(dòng)問(wèn)答系統(tǒng)可以部分緩解人工客服壓力,做到24×7在線(xiàn)服務(wù),并且容易結(jié)合用戶(hù)信息擴(kuò)展為對(duì)用戶(hù)提供個(gè)性化智能服務(wù),例如京東的JIMI機(jī)器人可以提供基本查詢(xún)和聊天等服務(wù)。
國(guó)內(nèi)外在語(yǔ)義網(wǎng)相關(guān)問(wèn)答系統(tǒng)方面已經(jīng)有了很長(zhǎng)時(shí)間的研究。AquaLog[9]是較早基于多樣化語(yǔ)義網(wǎng)資源進(jìn)行自動(dòng)問(wèn)答的系統(tǒng),其主要特點(diǎn)在于融合了消岐與排序的技術(shù),可以處理多個(gè)語(yǔ)義網(wǎng)資源混合情況下的問(wèn)答。其瓶頸在于無(wú)法處理類(lèi)似于
目前大部分性能優(yōu)秀的系統(tǒng)和研究都基于英文,因此在中文方面存在很多挑戰(zhàn):① 口語(yǔ)表達(dá)多樣化,用戶(hù)的表達(dá)往往無(wú)法在知識(shí)庫(kù)中進(jìn)行識(shí)別。②不符合語(yǔ)法,對(duì)于語(yǔ)法復(fù)雜的問(wèn)句進(jìn)行依存關(guān)系分析時(shí)存在大量語(yǔ)義提取錯(cuò)誤的問(wèn)題。③領(lǐng)域特殊性,例如,實(shí)體名稱(chēng)可能包含品牌型號(hào)等中英文混雜情況,如果用通用分詞軟件無(wú)法做到正確的實(shí)體識(shí)別。
本文在TBSL算法的基礎(chǔ)上,針對(duì)中文特定領(lǐng)域內(nèi)的知識(shí)庫(kù)進(jìn)行優(yōu)化,提出了一套流式的中文知識(shí)圖譜自動(dòng)問(wèn)答系統(tǒng)CEQA,能夠較好地完成商品咨詢(xún)以及統(tǒng)計(jì)推理等復(fù)雜問(wèn)題。針對(duì)商品名稱(chēng)特征,提出了混合詞典的CRF方法,對(duì)該領(lǐng)域特殊實(shí)體識(shí)別有較好的效果;針對(duì)依存分析對(duì)于復(fù)雜問(wèn)句三元組提取存在噪聲的問(wèn)題,本文在哈工大LTP語(yǔ)義依存分析 SDP(Semantic Dependency Parsing)[12]的基礎(chǔ)上,提出了從三元組類(lèi)別識(shí)別,到SDP依賴(lài)縮減,語(yǔ)義槽提取等一套算法框架,提高了語(yǔ)義三元組提取的準(zhǔn)確率;為了解決自然語(yǔ)言翻譯成SPARQL查詢(xún)中自然語(yǔ)言多樣性表達(dá)的問(wèn)題,本文提出利用Word2Vec[13]進(jìn)行詞與詞直接的語(yǔ)義相似性計(jì)算,不需要標(biāo)注大量數(shù)據(jù),在電商領(lǐng)域的語(yǔ)義鏈接問(wèn)題上取得了較好的效果。識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng)已成為最新最熱的研究范疇。
基于知識(shí)圖譜問(wèn)答系統(tǒng)解決核心問(wèn)題的方法主要有三類(lèi):基于模式的問(wèn)答系統(tǒng)、基于統(tǒng)計(jì)學(xué)習(xí)的語(yǔ)義提取技術(shù)和基于依賴(lài)樹(shù)的語(yǔ)義提取技術(shù)。基于模式的問(wèn)答系統(tǒng)根據(jù)模板和規(guī)則最早的系統(tǒng)采用了基于模式匹配的語(yǔ)義提取方法,找到符合規(guī)則的問(wèn)句,利用制定好的模板進(jìn)行轉(zhuǎn)換。如:找到一句話(huà)中含有(首都,國(guó)家)這一對(duì)關(guān)鍵詞,則認(rèn)為該句的問(wèn)題是詢(xún)問(wèn)國(guó)家的首都。TBSL系統(tǒng)第一步根據(jù)依賴(lài)關(guān)系、詞性關(guān)系等生成基本的三元組,繼而采用構(gòu)建SPARQL解析器來(lái)生成查詢(xún)模板。使用更多的信息提取三元組的準(zhǔn)確率要高于直接使用依賴(lài)關(guān)系來(lái)構(gòu)建查詢(xún)?;诮y(tǒng)計(jì)學(xué)習(xí)的語(yǔ)義提取技術(shù)主要是機(jī)器學(xué)習(xí)的思路,直接針對(duì)這種圖結(jié)構(gòu)與關(guān)系數(shù)據(jù)進(jìn)行學(xué)習(xí), 包括ILP歸納邏輯編程和SRL統(tǒng)計(jì)關(guān)系學(xué)習(xí)[14]以及最近的一些研究,如:利用SVM進(jìn)行語(yǔ)義在線(xiàn)學(xué)習(xí)[14-16]。推理一直是使用語(yǔ)義網(wǎng)的焦點(diǎn),基于統(tǒng)計(jì)的方法雖然可以一定程度使用語(yǔ)義網(wǎng)的資源進(jìn)行計(jì)算,但也會(huì)失去語(yǔ)義網(wǎng)結(jié)構(gòu)中最重要的本體以及支持推理的特性。由于語(yǔ)義網(wǎng)結(jié)構(gòu)數(shù)據(jù)大量涌現(xiàn),在很多情況下基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)技術(shù)非常有效,大量的自動(dòng)問(wèn)答系統(tǒng)都應(yīng)用了基于統(tǒng)計(jì)的基本思想?;谝蕾?lài)樹(shù)的語(yǔ)義提取技術(shù), 利用語(yǔ)法樹(shù)進(jìn)行語(yǔ)義提取非常符合語(yǔ)義網(wǎng)本身的鏈接結(jié)構(gòu),很多方法都依賴(lài)于一定的語(yǔ)法解析器。
另一些系統(tǒng)如FREyA[17],在QuestID[18]的基礎(chǔ)上加入了用戶(hù)模型,利用用戶(hù)反饋信息提升領(lǐng)域詞典映射的準(zhǔn)確度。而RTV[19]混合了一般基于字典的方法和統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,將隱馬爾科夫模型加入三元組映射中,相似的系統(tǒng)還有Ngonga[20]。這些系統(tǒng)雖然在模型上有一定的優(yōu)化,但都是針對(duì)英語(yǔ)系的知識(shí)庫(kù)和語(yǔ)法規(guī)律進(jìn)行。中文領(lǐng)域也有一些基于語(yǔ)義網(wǎng)的研究,最早在文獻(xiàn)[21]的研究中提出了基于本體的自動(dòng)問(wèn)答算法,回答了幾種特殊的問(wèn)題,但模板適用性有一定限制。最新的中文領(lǐng)域的文章[22]對(duì)問(wèn)題進(jìn)行了分類(lèi)和細(xì)致的處理,但需要大量的問(wèn)題庫(kù)。本文在已有研究成果的基礎(chǔ)上,提出了面向電商領(lǐng)域的中文知識(shí)圖譜問(wèn)答系統(tǒng)(CEQA)。
2.1 系統(tǒng)結(jié)構(gòu)
CE-QA方法是一套針對(duì)特定領(lǐng)域的算法框架,重點(diǎn)解決將中文自然語(yǔ)言轉(zhuǎn)換為SPARQL查詢(xún)的問(wèn)題。本文特別針對(duì)電商領(lǐng)域進(jìn)行了實(shí)驗(yàn),在準(zhǔn)確率和算法運(yùn)行效率方面與其他方法進(jìn)行了對(duì)比,取得了較好的效果。整體算法框架如圖1所示。
(1) 自然語(yǔ)言問(wèn)題輸入:輸入電商領(lǐng)域與商品查詢(xún)相關(guān)的問(wèn)題,例如,夏普支持翻蓋的手機(jī)有哪些?
(2) 問(wèn)題分類(lèi):對(duì)于輸入的自然語(yǔ)言,進(jìn)行問(wèn)題的分類(lèi)。本文采用基于SVM算法分類(lèi)。
(3) 問(wèn)題分析:主要完成分詞、詞性標(biāo)注、實(shí)體識(shí)別和實(shí)體消歧工作。本文基于LTP的分詞包之后,如,諾基亞8200 被切分成<諾基亞,8200>, 斯黛爾塑顏腮紅被切分成<斯黛爾,塑顏,腮紅>,另外,蘋(píng)果在電商領(lǐng)域中為品牌詞,而不是水果。所以需要針對(duì)電商領(lǐng)域的數(shù)據(jù)庫(kù)構(gòu)建詞典并訓(xùn)練其特定的實(shí)體識(shí)別器。在得到分詞序列和體序列之后,本文依據(jù)SDP的初步依賴(lài)結(jié)果進(jìn)行縮減,提出了SDP-Reduce的方法,縮減了復(fù)雜的依賴(lài)關(guān)系。
(4) 語(yǔ)義槽提取:語(yǔ)義槽是代表自然語(yǔ)言的三元組集合,是表達(dá)問(wèn)句語(yǔ)義的基本組成,其中的槽代表待鏈接的自然語(yǔ)言描述,由3個(gè)部分構(gòu)成:一個(gè)變量、一個(gè)可能的URL(類(lèi)別:class,屬性:property,實(shí)體:resource)、語(yǔ)義塊(詞或詞組)。本模塊主要完成類(lèi)型判別,例如夏普=resource,翻蓋=property,手機(jī)=class,以及變量提取,,。本文提出了粗分類(lèi)的方式,先簡(jiǎn)單地將依賴(lài)縮減后的語(yǔ)義塊分別映射到資源、屬性、和類(lèi)別上,這里簡(jiǎn)化RDF的類(lèi)別僅分為3類(lèi),保證粗分類(lèi)的準(zhǔn)確度。
(5) SPARQL抽取:主要完成構(gòu)造SPARQL模板工作。例如,Select?x WHERE {?x?p?y;?x rdf:type?z}。
(6) 語(yǔ)義鏈接:主要解決語(yǔ)義槽中的待鏈接自然語(yǔ)言表達(dá)分別鏈接到 <類(lèi)別,資源,實(shí)體> 對(duì)應(yīng)的知識(shí)圖譜中的URL上。例如,
(7) SPARQL查詢(xún)生成:查詢(xún)生成模塊以及問(wèn)題類(lèi)別,以及連接完成的實(shí)體,構(gòu)造標(biāo)準(zhǔn)的SPARQL查詢(xún)。
PREFIX db:
PREFIX res:
SELECT DISTINCT ?x WHERE ({
?x ?p res:夏普.
?x rdf:type db:手機(jī).
?x db:翻蓋 ?z
}
2.2 問(wèn)題分類(lèi)器
將知識(shí)圖譜中的實(shí)體概念和屬性等詞加入領(lǐng)域詞庫(kù),同時(shí)初始化分詞器,完成領(lǐng)域分詞器的構(gòu)建。針對(duì)百度知道抓取獲得的用戶(hù)問(wèn)題分詞后的結(jié)果,根據(jù)抓取的集進(jìn)行抽取標(biāo)注,共定義8類(lèi)問(wèn)題類(lèi)別,見(jiàn)表1所示。
表1 問(wèn)題類(lèi)別
對(duì)于輸入的自然語(yǔ)言,首先進(jìn)行問(wèn)題的分類(lèi),根據(jù)問(wèn)題類(lèi)別的關(guān)鍵詞(“能”、“嗎”、“有”、“可以”、“哪些”、“多大”等詞)構(gòu)造出問(wèn)句類(lèi)別向量,問(wèn)題分類(lèi)大多是從統(tǒng)計(jì)學(xué)的角度進(jìn)行分類(lèi)。由于本文初步問(wèn)題分類(lèi)類(lèi)別少,特征突出,所以本文基于LibSVM[23]進(jìn)行多分類(lèi)器的訓(xùn)練。
2.3 實(shí)體識(shí)別與消歧
傳統(tǒng)的實(shí)體識(shí)別包括人名、機(jī)構(gòu)名等命名實(shí)體識(shí)別,主流的算法是基于條件隨機(jī)場(chǎng)(CRF)的命名實(shí)體識(shí)別算法。而電商領(lǐng)域的實(shí)體不同于傳統(tǒng)的命名實(shí)體,其主要包括品牌名(BrandName)、型號(hào)名(SerialName),單品名(TrunkName),并且電商領(lǐng)域內(nèi)的實(shí)體往往由中英文混搭、長(zhǎng)實(shí)體等多種不同的形式構(gòu)成。例如,商品標(biāo)題為:<嬌韻詩(shī)(clarins)花樣年華纖柔美腹霜200 ml> ,其中單品名為(花樣年華纖柔美腹霜);或者 <三星 Galaxy Note4 > 型號(hào)名為(Note4)。由于CRF沒(méi)有HMM那樣嚴(yán)格的獨(dú)立性假設(shè)條件,因而可以容納任意的上下文信息,特征設(shè)計(jì)靈活。針對(duì)電商領(lǐng)域特點(diǎn),本系統(tǒng)在CRF++[24]的基礎(chǔ)上混合n-gram特征模板混合詞型和單品特征在商品標(biāo)題數(shù)據(jù)訓(xùn)練領(lǐng)域內(nèi)的實(shí)體識(shí)別模型。線(xiàn)性CRF主要目標(biāo)函數(shù)如式(1)所示,其中tk和sl是特征函數(shù),而λlμl分別是它們對(duì)應(yīng)的參數(shù)。這里特征函數(shù)tk和sl取0或1,當(dāng)滿(mǎn)足條件時(shí)為0,不滿(mǎn)足時(shí)為1,對(duì)于上述特征模板實(shí)際上會(huì)轉(zhuǎn)化為0或1的特征向量。部分特征模板如表2所示。
(1)
2.4 序列詞性依賴(lài)標(biāo)注
本文基于哈工大LTP工具進(jìn)行詞性標(biāo)注,獲得標(biāo)注好的詞序列。中文領(lǐng)域不同于英文的語(yǔ)法結(jié)構(gòu),傳統(tǒng)的依存句法分析關(guān)注實(shí)詞和實(shí)詞之間的介詞關(guān)系,而針對(duì)問(wèn)答,則更關(guān)心有語(yǔ)義關(guān)系的詞。這里我們結(jié)合LTP的語(yǔ)義依存分析SDP(Semantic Dependency Parsing),替代了傳統(tǒng)的依存語(yǔ)法DP(Dependency Parsing)。雖然SDP能夠部分有效地提取語(yǔ)義相關(guān)的詞匯關(guān)系,但用于特定領(lǐng)域的問(wèn)句時(shí)存在兩個(gè)問(wèn)題,一是SDP的訓(xùn)練和效果依賴(lài)于語(yǔ)料,并不能廣泛適用于特定領(lǐng)域;二是SDP的依賴(lài)過(guò)于復(fù)雜,同時(shí)針對(duì)一些較短的語(yǔ)句不能很好提取。本文在SDP的語(yǔ)義依存序列和領(lǐng)域內(nèi)實(shí)體序列的基礎(chǔ)上提出了依賴(lài)縮減算法。
1) 生成基于SDP初始化的依賴(lài)圖。如圖2所示:每個(gè)節(jié)點(diǎn)表示一個(gè)詞,每條邊表示它們的依賴(lài)關(guān)系。在下圖的例子中,Agt表示施事關(guān)系(如我送她一束花 (我 <--送)),F(xiàn)eat表示描寫(xiě)關(guān)系,Cont表示客事關(guān)系,在這個(gè)句子中相應(yīng)詢(xún)問(wèn)的實(shí)體是<中興C580>,而其屬性是<網(wǎng)絡(luò)類(lèi)型>,三句話(huà)表述相同的含義,由于缺少領(lǐng)域?qū)嶓w的支持,在SDP的描述下形成復(fù)雜的依賴(lài)結(jié)構(gòu)。
圖2 SDP依賴(lài)初始化
2) 利用CRF識(shí)別出的實(shí)體進(jìn)行初步合并,如圖3所示,合并品牌名和型號(hào)名為同一個(gè)產(chǎn)品詞,并利用約簡(jiǎn)規(guī)則減少標(biāo)簽,我們對(duì)于每種依賴(lài)關(guān)系定義了四種基本操作:刪除(OMT)、合并(MRG),反轉(zhuǎn)(REV)和保持(REM)。OMT:表示刪除該條關(guān)系,并分別刪除兩端節(jié)點(diǎn)詞之間的鏈接。MRG:表示A詞和B詞之間的關(guān)系需要合并,合并后詞保留在源節(jié)點(diǎn)中,并使用源節(jié)點(diǎn)的指向關(guān)系,如圖3所示,要合并(類(lèi)型->feat->網(wǎng)絡(luò))則保留類(lèi)型的指向關(guān)系(網(wǎng)絡(luò)類(lèi)型->Feat-什么樣)。REV:表示反轉(zhuǎn)關(guān)系。REM:表示關(guān)系保持,及保留這一條邊。
圖3 SDP實(shí)體初步合并
我們得到帶依賴(lài)序列的詞序列,并定義依賴(lài)縮減規(guī)則。定義縮減操作為F,對(duì)于任意語(yǔ)義依賴(lài)關(guān)系s,一定能找到一種操作(OMT、MRG、REV、REM中的一種)對(duì)該依賴(lài)進(jìn)行操作。
F(Agt , 中興 C580[brandName+serialName],支持[v]) = REM
F(mAux , 的[u],什么樣[r]) = OMT
如圖4 所示,最后獲得的實(shí)體序列為:<中興c580>、<支持>、<網(wǎng)絡(luò)類(lèi)型>。基于依賴(lài)縮減的簡(jiǎn)化規(guī)則簡(jiǎn)化了復(fù)雜依賴(lài)關(guān)系,保留保護(hù)語(yǔ)義的實(shí)體塊之間的依賴(lài)關(guān)系。
圖4 SDP依賴(lài)縮減
2.5 SPARQL提取
SPARQL模板是在上述的標(biāo)注序列中生成的,針對(duì)不同的問(wèn)題類(lèi)別采用不同的策略。
事實(shí)類(lèi)問(wèn)題:定義了基本的查詢(xún)模板。對(duì)于類(lèi)是完全正確的,使用?c替換對(duì)應(yīng)的類(lèi)。使用的詞匯信息(連詞如“和”,關(guān)系代詞如“什么”)和依存句法分析進(jìn)行三元組的提取。
計(jì)數(shù)最值類(lèi)問(wèn)題:包含一個(gè)聚合函數(shù)問(wèn)題的模板,使用了“聚合”屬性,說(shuō)明是否需要添加聚合語(yǔ)句。定義的“聚合”函數(shù)有“計(jì)數(shù)”、“過(guò)濾器”和“比較器”這三種,并定義了目標(biāo)作為聚合函數(shù)的目標(biāo)。例如,使用了兩種類(lèi)型的函數(shù),分別用于回答計(jì)數(shù)類(lèi)和比較類(lèi)的問(wèn)題:
1) COUNT: SELECT COUNT (DISTINCT?x) WHERE {?x?p?y.}
2) ORDER: SELECT DISTINCT?x WHERE {?x?p?y.} ORDER BY DESC(?x)OFFSET 0 LIMIT n
另外,對(duì)于一些詞有特殊的功能類(lèi)型。我們將這些話(huà)定義為“聚合指標(biāo)”。例如,如果一個(gè)句子包含“多少”,則提取計(jì)數(shù)模板和提取技術(shù)指標(biāo)。如果問(wèn)題中包含一個(gè)“高級(jí)的”,我們認(rèn)為這個(gè)問(wèn)題需要過(guò)濾器。如果問(wèn)題包含比較,推斷這個(gè)問(wèn)題需要一個(gè)比較器操作。我們使用“聚合指標(biāo)”來(lái)檢測(cè)這些類(lèi)型的操作的目標(biāo)和常數(shù)(如價(jià)格多于2 000的手機(jī),會(huì)直接使用2 000和手機(jī)的依賴(lài)關(guān)系,Quan (手機(jī),2 000 )。針對(duì)不同問(wèn)題類(lèi)別,制定相應(yīng)的語(yǔ)義模板,再結(jié)合之前獲得實(shí)體序列獲得初步的SPARQL表達(dá)式。
2.6 語(yǔ)義鏈接
生成可以執(zhí)行的SPARQL后,還有復(fù)雜的鏈接問(wèn)題需要處理。由于上文得到的函數(shù)式還包括自然語(yǔ)言,語(yǔ)義網(wǎng)中的表達(dá)則是以URL為單位的,本文提出先粗分類(lèi)再利用Word2Vec混合詞典鏈接的模型。
主要流程如圖5所示:
1) 構(gòu)建字典,直接從RDF中建立到名詞短語(yǔ)識(shí)別資源/類(lèi)URI的鏈接關(guān)系詞典,并基于Redis(一個(gè)開(kāi)源的Key-Value存儲(chǔ)系統(tǒng))進(jìn)行數(shù)據(jù)緩存。
2) 自然語(yǔ)言表達(dá)首先根據(jù)如下公式進(jìn)行粗分類(lèi)。
ScoreclassW(i)=WSDP(W(i))+Wdepm(W(i))+Whdpt(W(i))
(2)
其中Wi表示原問(wèn)句中的一個(gè)詞,WSDP(W(i))表示當(dāng)這個(gè)詞的詞性得分,Wdepm(W(i))表示這個(gè)詞的依賴(lài)得分,Whdpt(W(i))代表這個(gè)詞是否在RDF詞典中存在這個(gè)類(lèi)別(存在為1,不存在為0)。利用SDP的依賴(lài)結(jié)果標(biāo)注一部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,最終獲得WSDP、Wdepm兩個(gè)參數(shù)。
3) 利用粗分類(lèi)的結(jié)果,分別對(duì)每個(gè)自然語(yǔ)言的表達(dá)構(gòu)建候選項(xiàng)集合。
4) 計(jì)算相似度,本文并沒(méi)有采用WordNet或者同義詞網(wǎng)絡(luò),而是采用Word2Vec尋找相似詞(找到 花花公子=Playboy simi=0.89)。Word2vec 是 Google的詞向量化工具,使用深度學(xué)習(xí)的思想,可以計(jì)算詞與詞之間的相似性,其主要假設(shè)是相似的單詞擁有相似的語(yǔ)境。主要目標(biāo)函數(shù)如下所示:?jiǎn)卧~w用長(zhǎng)度為d的列向量表示,條件概率p(c|w)表示當(dāng)w出現(xiàn)時(shí),某一語(yǔ)境c出現(xiàn)的概率,θ表示模型參數(shù),D表示所有單詞w和它的語(yǔ)境C(w)構(gòu)成的組合的集合。
(3)
圖5 語(yǔ)義鏈接
5) 對(duì)于直接命中的進(jìn)行構(gòu)建查詢(xún),對(duì)于未命中的自然語(yǔ)言表達(dá),取滿(mǎn)足閾值T的TopN的相似詞進(jìn)行查詢(xún),直到有查詢(xún)結(jié)果為止。
3.1 數(shù)據(jù)準(zhǔn)備
實(shí)驗(yàn)主要對(duì)比該系統(tǒng)在實(shí)際電商領(lǐng)域問(wèn)答數(shù)據(jù)中的問(wèn)答準(zhǔn)確度,我們參考國(guó)際標(biāo)準(zhǔn)比賽QALD的評(píng)測(cè)方法,利用準(zhǔn)確率,召回率,和F值三個(gè)指標(biāo)綜合衡量系統(tǒng)的準(zhǔn)確程度,計(jì)算方法見(jiàn)式(4)。P表示準(zhǔn)確率,R表示召回率,Pnum是準(zhǔn)確答案的數(shù)目,ResNum是對(duì)所有問(wèn)題系統(tǒng)給出的答案數(shù)據(jù),AucNum是實(shí)際的答案數(shù)目。
(4)
實(shí)驗(yàn)抓取了京東、蘇寧等電商手機(jī)和電腦類(lèi)的SPU數(shù)據(jù)整理成RDF資源,共有手機(jī)類(lèi)(103 137個(gè)三元組),電腦類(lèi)(508 123個(gè)三元組)。并利用百度知道和新浪愛(ài)問(wèn)的相關(guān)問(wèn)題100個(gè)和手工整理不同類(lèi)別問(wèn)題共200個(gè)作為訓(xùn)練數(shù)據(jù)。
3.2 實(shí)驗(yàn)分析
實(shí)驗(yàn)主要比較了3種方法,最基礎(chǔ)的是TBSL(一個(gè)開(kāi)源的問(wèn)答系統(tǒng),由DBpedia團(tuán)隊(duì)設(shè)計(jì))算法的基礎(chǔ)上加入了實(shí)體識(shí)別,CEQA-N-W2V是CEQA框架下加入Word2Vec的實(shí)體鏈接的方法,后者取得了比以前更高的F值。此外,我們對(duì)后者是否添加依賴(lài)縮減算法進(jìn)行對(duì)比,縮減圖的方法取得了最高的F值。如表3所示。
表3 實(shí)驗(yàn)結(jié)果
在電商領(lǐng)域內(nèi),由于用戶(hù)關(guān)注的實(shí)體詞具有特殊性,構(gòu)建友好的問(wèn)答系統(tǒng)需要解決領(lǐng)域內(nèi)的實(shí)體詞識(shí)別,以及行業(yè)內(nèi)的自然語(yǔ)言鏈接。從TBSL-NER實(shí)驗(yàn)中可以發(fā)現(xiàn),在加入品牌名、型號(hào)名、單品名識(shí)別的基礎(chǔ)上F值可以達(dá)到0.25,而不使用實(shí)體識(shí)別的情況下無(wú)法正常解析用戶(hù)問(wèn)句,由此說(shuō)明的CEQA中加入領(lǐng)域特征的實(shí)體識(shí)別已經(jīng)初步具備回答問(wèn)題的能力。進(jìn)一步,我們對(duì)比了先粗分類(lèi),再利用Word2Vec做鏈接的CEQA-N-W2V方法,將類(lèi)別、屬性、資源分別進(jìn)行鏈接,并在Word2Vec的基礎(chǔ)上解決語(yǔ)義槽到圖譜數(shù)據(jù)鏈接的問(wèn)題。在實(shí)驗(yàn)中我們發(fā)現(xiàn),如這樣的句子“ThinkPad R4007445A46的硬盤(pán)容量有多大?”,Thinkpad本身并不在知識(shí)庫(kù)中,而“聯(lián)想”在知識(shí)庫(kù)中,利用word2vec訓(xùn)練商品標(biāo)題可以增加自然語(yǔ)言表達(dá)的豐富性。從實(shí)驗(yàn)中也可以看出其增加了6%的F值,并且準(zhǔn)確率沒(méi)有下降。雖然word2vec并不會(huì)比人工構(gòu)建同義詞庫(kù)準(zhǔn)確度高,但是人工構(gòu)建的代價(jià)太大,在存儲(chǔ)電商標(biāo)題數(shù)據(jù)的時(shí)候,直接使用標(biāo)題無(wú)監(jiān)督訓(xùn)練出詞向量更有優(yōu)勢(shì)。最后,加入了依賴(lài)縮減規(guī)則的CEQA-N-Reduce可以將一部分語(yǔ)義過(guò)于復(fù)雜的語(yǔ)句進(jìn)行縮減,效果最好。在實(shí)驗(yàn)中我們發(fā)現(xiàn),如“中興C580支持什么樣的網(wǎng)絡(luò)類(lèi)型?”,“中興C580的網(wǎng)絡(luò)類(lèi)型”均可以進(jìn)行有效解析答案,實(shí)驗(yàn)結(jié)果符合預(yù)期縮減SDP提取三元組的設(shè)想,其最終增加了7%的F值。并由于依賴(lài)縮減,使得準(zhǔn)確率有了17%的提升,說(shuō)明在SDP基礎(chǔ)上的依賴(lài)縮減對(duì)于電商領(lǐng)域的問(wèn)答不僅可以回答更多的問(wèn)題,而且更加準(zhǔn)確。
現(xiàn)有實(shí)驗(yàn)說(shuō)明CEQA的整套框架可以有效地在電商領(lǐng)域的知識(shí)圖譜數(shù)據(jù)上提供問(wèn)答服務(wù),整套框架中各個(gè)模塊都可以持續(xù)優(yōu)化,而實(shí)際上鏈接算法、分類(lèi)算法針對(duì)其他領(lǐng)域的問(wèn)題方便設(shè)計(jì)特征進(jìn)行替換,算法的可移植性也很好。
本文研發(fā)了基于中文知識(shí)圖譜的電商領(lǐng)域自動(dòng)問(wèn)答系統(tǒng),利用語(yǔ)義依存分析等自然語(yǔ)言處理技術(shù),提出縮減依賴(lài)算法提高問(wèn)題的識(shí)別率,提取相應(yīng)的語(yǔ)義槽,構(gòu)建SPARQL查詢(xún)。先進(jìn)行粗分類(lèi),再結(jié)合Word2Vec完成了自然語(yǔ)言的鏈接,提高了URL的匹配的覆蓋率。另外,我們結(jié)合特定領(lǐng)域的特征在實(shí)體識(shí)別部分加入了特定的實(shí)體識(shí)別,使得進(jìn)一步使用LTP變?yōu)榭赡?。然而本文提出的系統(tǒng)仍然有局限性,制定規(guī)則來(lái)確定標(biāo)簽是一項(xiàng)艱巨的任務(wù),比如對(duì)于這樣的問(wèn)題:“給我所有的手機(jī)與手機(jī)的顏色。”這樣的句子規(guī)則難以提取,同時(shí)LTP的精確度也有很大的影響。在未來(lái)的工作中,我們將重點(diǎn)放在LTP縮減的問(wèn)題上,目前的縮減規(guī)則準(zhǔn)確但是覆蓋率不夠,下一步將使用更多的機(jī)器學(xué)習(xí)算法提取。此外,我們還將研究在答案存在多個(gè)或沒(méi)有答案時(shí)的推薦式展現(xiàn)策略。
[1] Lopez V, Unger C, Cimiano P, et al. Evaluating question answering over linked data[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2013, 21: 3-13.
[2] Popescu A M, Etzioni O, Kautz H. Towards a theory of natural language interfaces to databases[C]//Proceedings of the 8th International Conference on Intelligent User Interfaces. ACM, 2003: 149-157.
[3] Unger C, Bühmann L, Lehmann J, et al. Template-based question answering over RDF data[C]//Proceedings of the 21stInternational Conference on World Wide Web. Lyon, France: ACM, 2012: 639-648.
[4] Yahya M, Berberich K, Elbassuoni S, et al. Natural language questions for the web of data[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012: 379-390.
[5] 郭磊. 基于領(lǐng)域本體中文自動(dòng)問(wèn)答系統(tǒng)相關(guān)技術(shù)的研究與實(shí)現(xiàn)[D]. 上海:華東理工大學(xué), 2013.
[6] Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs[C]//Proceedings of EMNLP, 2013: 1533-1544.
[7] Berners-Lee T, Hendler J, Lassila O. The Semantic Web[J]. Scientific American, 2001, 284(5): 35-43.
[8] Fazzinga B, Lukasiewicz T. Semantic Search on the Web[J]. Semantic Web, 2010, 1(1-2): 89-96.
[9] Lopez V, Pasin M, Motta E. AquaLog: An ontology-portable question answering system for the semantic web[C]//Second European Semantic Web Conference, 2005: 546-562.
[10] Cimiano P, Haase P, Heizmann J. Porting natural language interfaces between domains: an experimental user study with the ORAKEL system[C]//Proceedings of the 12th International Conference on Intelligent User Interfaces. ACM, 2007: 180-189.
[11] Unger C, Cimiano P. Pythia: Compositional meaning construction for ontology-based question answering on the semantic web[C]//16thInternational Conference on Applications of Natural Language to Information Systems, 2011: 153-160.
[12] Che W, Li Z, Liu T. LTP: A Chinese Language Technology Platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. ACM, 2010: 13-16.
[13] Goldberg Y, Levy O. word2vec Explained: deriving Mikolov et al.’s negative-sampling word-embedding method[DB]. arXiv preprint arXiv: 1402.3722.
[14] Muggleton S, Raedt L D. Inductive Logic Programming: Theory and Methods[J]. The Journal of Logic Programming,1994, 19-20(S1): 629-679.
[15] Bordes A, Glorot X, Weston J, et al. A semantic matching energy function for learning with multi-relational data[J]. Machine Learning, 2014, 94(2): 233-259.
[16] Fanizzi N, d’Amato C, Esposito F. Learning with kernels in description logics[C]//18thInternational Conference on Inductive Logic Programming, 2008: 210-225.
[17] Damljanovic D, Agatonovic M, Cunningham H. FREyA: an interactive way of querying linked data using natural language[C]//Proceedings of the 1stWorkshop on Question Answering over Linked Data lab (QALD-1), 2011: 125-138.
[18] Damljanovic D, Tablan V, Bontcheva K. A text-based query interface to OWL ontologies[C]//Proceedings of the 6th Language Resources and Evaluation Conference(LREC), 2008: 205-212.
[19] Giannone C, Bellomaria V, Basili R. A HMM-based approach to question answering against linked data[C]//Proceedings of the 3rdWorkshop on Question Answering over Linked Data lab (QALD-3) at CLEF, 2013: 1-13.
[20] Shekarpour S, Ngomo A C N, Auer S. Question answering on interlinked data[C]//Proceedings of the 22nd International Conference on World Wide Web (WWW). ACM, 2013: 1145-1156.
[21] 何海蕓, 袁春風(fēng). 基于Ontology 的領(lǐng)域知識(shí)構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2005, 22(3): 14-18.
[22] 洪韻佳, 許鑫. 聯(lián)合虛擬參考咨詢(xún)系統(tǒng)知識(shí)庫(kù)的發(fā)展現(xiàn)狀與趨勢(shì)[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù), 2012(9): 2-9.
[23] 張巍, 陳俊杰. 信息熵方法及在中文問(wèn)題分類(lèi)中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2013, 49(10): 129-131,179.
[24] 唐旭日, 陳小荷, 張雪英. 中文文本的地名解析方法研究[J]. 武漢大學(xué)學(xué)報(bào)信息科學(xué)版, 2010, 35(8): 930-935,982.
QUESTION ANSWERING SYSTEM OF ELECTRIC BUSINESS FIELD BASED ON CHINESE KNOWLEDGE MAP
Du Zeyu Yang Yan He Liang
(SchoolofInformationScienceTechnology,EastChinaNormalUniversity,Shanghai200062,China)
With the rapid development of knowledge map, the Chinese domain question answering system for knowledge map has become one of the newest and hotest research directions at present, and it is of great significance and value to improve the intelligence level of professional field. In this paper, a set of streaming Chinese knowledge map automatic question answering system (CEQA) is proposed for the diversification of Chinese spoken language semantic expression, grammatical specification and the particularity of electricity business domain. It can accomplish the complex problem of commodity consultation and statistical reasoning in the field of electric business, especially the improvement of the interdependence between Chinese and English mixed commodity name recognition, semantic link and complex question. The experimental results show that the system has high accuracy and practical value in the application of question and answer.
Question answering Knowledge map Semantic Web Ontolog
2016-02-21。國(guó)家高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目(2015BAH12F01-04);上海市科委重點(diǎn)項(xiàng)目(14511107000)。杜澤宇,碩士生,主研領(lǐng)域:自然語(yǔ)言處理。楊燕,博士生。賀樑,教授。
TP3
A
10.3969/j.issn.1000-386x.2017.05.027