• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于啟發(fā)式規(guī)則的SPARQL本體查詢

      2017-01-18 01:59:53譚立威邵志清張歡歡蔣宇一胡芳槐
      關(guān)鍵詞:三元組謂語賓語

      譚立威, 邵志清, 張歡歡, 蔣宇一, 胡芳槐

      (華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)

      基于啟發(fā)式規(guī)則的SPARQL本體查詢

      譚立威, 邵志清, 張歡歡, 蔣宇一, 胡芳槐

      (華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)

      提出了基于啟發(fā)式規(guī)則的SPARQL查詢。用語言技術(shù)平臺(LTP)解析出問句的依存分析樹(DPT),然后對問句集的依存分析樹進(jìn)行統(tǒng)計(jì)和分析,總結(jié)出用于查詢?nèi)M抽取的啟發(fā)式規(guī)則,利用這些規(guī)則去掉無意義的查詢?nèi)M,合并和重組意義不完整的查詢?nèi)M。查詢?nèi)M經(jīng)過類映射、實(shí)例映射和屬性映射得到本體三元組,形成SPARQL查詢。用戶在B/S結(jié)構(gòu)的查詢界面中提交中文自然語言問句,得到中間結(jié)果和問句結(jié)果。實(shí)驗(yàn)結(jié)果表明了該方法的有效性。

      自然語言問句; 依存分析樹; 三元組映射; SPARQL查詢

      本體能清楚地表示某一領(lǐng)域的分類(類和屬性)和存儲大量的知識(實(shí)例和實(shí)例關(guān)系),通過共享和交換知識在語義網(wǎng)中起著關(guān)鍵作用[1]。然而,為了查詢本體內(nèi)的知識,人們需要了解本體和本體查詢語言,對普通用戶顯然不友好。由于問答系統(tǒng)的輸入是更為自然的日常語言的問句,并且有能力直接返回針對用戶提問的答案[2],因此結(jié)合本體和問答系統(tǒng)功能的基于本體的問答系統(tǒng)、問答模型或查詢接口得到了越來越多的關(guān)注。

      基于本體的自然語言查詢關(guān)鍵在于自然語言問句到本體查詢語言的轉(zhuǎn)換。文獻(xiàn)[3] 簡單地使用語言技術(shù)平臺(LTP)解析中文問句得到依存分析樹,再根據(jù)本體元數(shù)據(jù)和經(jīng)驗(yàn)找出詞語間的映射關(guān)系得到本體三元組,效率較低。文獻(xiàn)[4-5]中先生成查詢?nèi)M然后生成本體三元組。AquaLog在擴(kuò)展性和方便程度上優(yōu)于PANTO,但只支持23類問題。PANTO比AquaLog支持更多問題,但缺少AquaLog的其他特性[6]。選擇不同的自然語言處理平臺使得上述3種方法所處理的數(shù)據(jù)結(jié)構(gòu)有所不同,PANTO利用Stanford Parser[7]解析問句得到的句法樹作為算法的輸入,AquaLog利用GATE[8]標(biāo)注過后的問句作為算法輸入,標(biāo)注內(nèi)容包括:動詞的時(shí)態(tài)和名詞的類別等。

      本文提出了基于啟發(fā)式規(guī)則的SPARQL本體查詢,利用LTP解析問句生成依存分析樹,提出了6條啟發(fā)式規(guī)則用于從依存分析樹中抽取查詢?nèi)M,提高了查詢?nèi)M的抽取效率。用戶只需在B/S結(jié)構(gòu)的查詢界面提交中文自然語言問句,便能從本體庫中檢索出答案。為了便于驗(yàn)證和改進(jìn)本文方法,中間結(jié)果即問句的查詢?nèi)M和本體三元組也作為查詢結(jié)果的一部分返回給用戶。

      1 自然語言映射為SPARQL查詢的一般步驟及分析

      自然語言映射為SPARQL查詢的一般步驟如圖1所示,可概括如下:

      圖1 自然語言問句映射為SPARQL查詢的一般步驟Fig.1 General steps of mapping natural language question to SPARQL query

      (1)利用自然語言處理平臺對問句進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識別和句法分析等工作后得到問句的組件(命名實(shí)體、疑問焦點(diǎn)等)。

      (2)構(gòu)建本體庫和詞典。

      (3)使用映射方法或抽取算法結(jié)合知識庫和問句組件中得到SPARQL查詢。

      分析發(fā)現(xiàn),在第3步抽取算法中,從問句中抽取查詢?nèi)M時(shí),可用啟發(fā)式規(guī)則來提高查詢?nèi)M的抽取效率,從而有利于提高整個(gè)映射過程的效率。

      本文在一般步驟的基礎(chǔ)上使用LTP的依存句法分析功能分析問句,得到問句的依存分析樹,然后對問句集的依存分析樹的標(biāo)注關(guān)系進(jìn)行統(tǒng)計(jì)和分析得到用于抽取查詢?nèi)M的啟發(fā)式規(guī)則,通過這些規(guī)則和查詢?nèi)M抽取算法去掉了無意義的查詢?nèi)M,合并和重組了意義不完整的查詢?nèi)M。再利用本體庫和字典,把查詢?nèi)M映射為本體三元組,最終形成SPARQL查詢,整個(gè)流程如圖2所示。本文在一般步驟的基礎(chǔ)上作了如下改進(jìn):

      圖2 本文的自然語言問句映射為SPARQL查詢的步驟Fig.2 This paper’s steps of mapping natural language question to SPARQL query

      (1)對問句集的依存分析樹的標(biāo)注關(guān)系進(jìn)行統(tǒng)計(jì)和分析,由此提出用于抽取查詢?nèi)M的啟發(fā)式規(guī)則。

      (2)設(shè)計(jì)查詢?nèi)M抽取算法并結(jié)合抽取規(guī)則從依存分析樹中抽取查詢?nèi)M,然后經(jīng)過類、實(shí)例和屬性的映射得到本體三元組,組合后得到SPARQL查詢。

      (3)開發(fā)B/S結(jié)構(gòu)系統(tǒng)提供用戶查詢界面,用戶提交自然語言問句后,系統(tǒng)自動把問句映射為SPARQL查詢,然后在本體庫上執(zhí)行,最終得到答案。

      2 依存分析樹及統(tǒng)計(jì)和分析

      2.1 依存分析樹

      依存分析樹由LTP解析問句后得到,它是查詢?nèi)M抽取算法的輸入。LTP是一個(gè)處理中文的集成平臺,擁有一系列自然語言處理模塊,包括詞法分析(分詞、詞性標(biāo)注和命名實(shí)體識別)、句法分析和可視化工具等模塊[9]。

      本文的依存分析樹(又稱為依存結(jié)構(gòu)樹)不同于句法樹,是利用LTP提供的WEB API對語句進(jìn)行依存句法分析后生成,且以標(biāo)注關(guān)系為邊、詞語為節(jié)點(diǎn)的有序樹。句法樹是依據(jù)上下文無關(guān)文法表示句子句法結(jié)構(gòu)的有根節(jié)點(diǎn)的有序樹[10],依存分析樹識別了句子中的“主謂賓”、“定狀補(bǔ)”這些語法成分,并分析了各成分之間的關(guān)系[11]。有序樹是一棵有根節(jié)點(diǎn)的樹,且樹中每個(gè)節(jié)點(diǎn)的孩子節(jié)點(diǎn)的順序是固定的。LTP依存句法標(biāo)注關(guān)系有14種,如表1[11]所示。

      表1 LTP依存句法標(biāo)注關(guān)系Table 1 LTP dependency relationships

      例如:“阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司”經(jīng)LTP分析后得到該句子的依存分析樹,如圖3(a)所示;圖3(b)是該依存分析樹對應(yīng)的直觀樹形圖。圖3(a)中,節(jié)點(diǎn)“Root ”經(jīng)弧“HED”指向單詞“有限公司”,表示“有限公司”是核心單詞,是這棵樹實(shí)際上的根節(jié)點(diǎn),簡稱為根單詞,“Root”起頭節(jié)點(diǎn)的作用?!坝邢薰尽苯?jīng)弧“ATT”指向單詞“阿里巴巴”,表示“阿里巴巴”和“有限公司”是定中關(guān)系。圖3中其他關(guān)系可類推。

      圖3 依存分析樹和對應(yīng)的樹形圖示例Fig.3 ADPT and its tree structure

      2.2 問句標(biāo)注關(guān)系的統(tǒng)計(jì)和分析

      以往的基于LTP的SPARQL本體查詢方法缺乏對問句的標(biāo)注關(guān)系的統(tǒng)計(jì)和分析,如文獻(xiàn)[3,12]。問句的依存分析樹中的標(biāo)注關(guān)系體現(xiàn)了各詞語間的依賴關(guān)系,是各個(gè)詞語如何組成查詢?nèi)M的依據(jù)。除HED關(guān)系外,每一個(gè)標(biāo)注關(guān)系都是一個(gè)候選查詢?nèi)M?;跇?biāo)注關(guān)系的統(tǒng)計(jì)和分析有助于生成啟發(fā)式規(guī)則,從而去掉無意義的查詢?nèi)M,合并和重組意義不完整的查詢?nèi)M,提高抽取查詢?nèi)M的效率。本文提出當(dāng)查詢?nèi)M能獨(dú)立地映射為本體三元組時(shí),則認(rèn)為該查詢?nèi)M是意義完整的。

      查詢?nèi)M的形式為:<主語部分,謂語部分,賓語部分>,簡寫為<主語,謂語,賓語>。查詢?nèi)?個(gè)部分的內(nèi)容都是依存分析樹中的單詞,它的謂語可以為空,謂語為空時(shí)填入null,或者填入主語和賓語之間的標(biāo)注關(guān)系。

      哈工大信息檢索研究中心語言技術(shù)平臺中的問答系統(tǒng)問題集[13]包含機(jī)構(gòu)、概念、人物等類別的問句,這些類別的問句能夠與百度百科中的詞條對應(yīng)起來,而百度百科是本文實(shí)驗(yàn)系統(tǒng)的數(shù)據(jù)源之一,因此本文采用該問題集,對該問題集的標(biāo)注關(guān)系進(jìn)行統(tǒng)計(jì)和分析。調(diào)用LTP的WEB API的依存句法分析功能解析問題集中的629個(gè)問句,得到它們的依存分析樹,然后統(tǒng)計(jì)各標(biāo)注關(guān)系,并按照各標(biāo)注關(guān)系出現(xiàn)的頻率降序排列,排前10位的標(biāo)注關(guān)系柱的狀圖如圖4所示。

      圖4 特定問句標(biāo)注關(guān)系的頻率統(tǒng)計(jì)Fig.4 Frequency of certain dependency relationships

      從圖4可以看出,中文問句標(biāo)注關(guān)系中出現(xiàn)頻率最高的依次是定中關(guān)系(ATT)、動賓關(guān)系(VOB)、核心關(guān)系(HED)、主謂關(guān)系(SBV)、狀中結(jié)構(gòu)(ADV)和右附加關(guān)系(RAD),這6個(gè)標(biāo)注關(guān)系是中文問句的主要標(biāo)注關(guān)系,需要重點(diǎn)處理。6個(gè)標(biāo)注關(guān)系轉(zhuǎn)換成查詢?nèi)M的具體分析如下:

      (1)ATT標(biāo)注關(guān)系,簡稱為ATT關(guān)系,其他標(biāo)注關(guān)系采用同樣的方式進(jìn)行簡稱。ATT關(guān)系修飾名詞,起限定名詞的作用,因此可直接抽取為查詢?nèi)M。當(dāng)命名實(shí)體或行業(yè)名詞被LTP解析成多個(gè)ATT關(guān)系時(shí)需要合并這些ATT關(guān)系成一個(gè)單詞以表示一個(gè)整體。

      (2)同一個(gè)動詞對應(yīng)的一對SBV關(guān)系和VOB關(guān)系分別轉(zhuǎn)換成查詢?nèi)M時(shí),缺少主語或賓語,意義不完整,這樣的一對關(guān)系需要合并從而得到包含主謂賓意義完整的查詢?nèi)M。

      (3)HED關(guān)系標(biāo)識出查詢?nèi)M抽取的起始單詞是哪個(gè)單詞,對查詢?nèi)M的抽取無其他意義。

      (4)RAD關(guān)系出現(xiàn)的頻次高是因?yàn)橹~“的”和各個(gè)名詞構(gòu)成的RAD關(guān)系在問句中頻繁出現(xiàn),這類關(guān)系所表達(dá)的含義隱含在各名詞的ATT關(guān)系中,可直接去掉。比如在問句“公司的創(chuàng)始人是誰”經(jīng)LTP解析后得到標(biāo)注關(guān)系:<的,RAD,公司>和<公司,ATT,創(chuàng)始人>等標(biāo)注關(guān)系。右附加關(guān)系<的,RAD,公司>的含義已隱含在定中關(guān)系<公司,ATT,創(chuàng)始人>中,因此可以直接去掉。

      (5)ADV關(guān)系修飾形容詞或動詞,在本文的問題集中,ADV關(guān)系主要修飾形容詞,表示程度、范圍等,視情況決定是否要映射為查詢?nèi)M,這是因?yàn)锳DV關(guān)系所描述的程度或范圍等信息,本體庫中常常沒有與之直接對應(yīng)的屬性,也難以量化。

      3 查詢?nèi)M的抽取規(guī)則與抽取算法

      3.1 抽取規(guī)則與抽取算法

      基于2.2節(jié)的分析,提出6條從依存分析樹中抽取查詢?nèi)M的抽取規(guī)則如下:

      (1)命名實(shí)體名詞和行業(yè)名詞在問句中表示一個(gè)整體概念,因此提出抽取規(guī)則:合并依存分析樹中被拆分為多個(gè)單詞的命名實(shí)體名詞和行業(yè)名詞。

      (2)根據(jù)2.2節(jié)的分析(4)提出用于去掉無意義組合的抽取規(guī)則:去掉首單詞為助詞“的”的RAD關(guān)系。

      (3)根據(jù)2.2節(jié)的分析(1)和本節(jié)抽取規(guī)則(1),提出抽取規(guī)則:當(dāng)滿足本節(jié)規(guī)則(1)且ATT關(guān)系對應(yīng)的首尾單詞都是名詞時(shí),一個(gè)ATT關(guān)系對應(yīng)一個(gè)查詢?nèi)M。

      (4)根據(jù)2.2節(jié)分析(2)提出合并意義不完整的查詢?nèi)M的抽取規(guī)則:一對SBV關(guān)系和VOB關(guān)系合并為一個(gè)查詢?nèi)M,簡稱為SBV-VOB查詢?nèi)M。

      (5)當(dāng)本節(jié)規(guī)則(4)中的SBV-VOB查詢?nèi)M修飾名詞時(shí),需要拆分SBV-VOB查詢?nèi)M再和被修飾的名詞組成新查詢?nèi)M,因此提出用于重組查詢?nèi)M的抽取規(guī)則:當(dāng)SBV-VOB查詢?nèi)M的謂語(動詞)和某一名詞存在ATT關(guān)系時(shí),拆分SBV-VOB查詢?nèi)M,然后和ATT關(guān)系組成新查詢?nèi)M。

      (6)依據(jù)就近原則,和疑問單詞(比如:誰,哪里)在同一查詢?nèi)M內(nèi)的主語或賓語為疑問焦點(diǎn),得到以下抽取規(guī)則:查詢?nèi)M的主語或賓語為疑問單詞時(shí),對應(yīng)的賓語或主語為疑問焦點(diǎn)。

      抽取規(guī)則中,首單詞為標(biāo)注關(guān)系到達(dá)的單詞,對應(yīng)查詢?nèi)M的主語。尾單詞為標(biāo)注關(guān)系出發(fā)的單詞,對應(yīng)查詢?nèi)M的賓語,如圖3中的標(biāo)注關(guān)系<網(wǎng)絡(luò),ATT,技術(shù)>,“網(wǎng)絡(luò)”是首單詞,“技術(shù)”是尾單詞,起連接作用的弧是ATT關(guān)系。

      抽取算法描述如下:

      輸入:問句依存分析樹

      輸出:問句查詢?nèi)M

      (1)執(zhí)行抽取規(guī)則(1)和規(guī)則(2)。

      (2)根據(jù)HED關(guān)系找到依存分析樹的根單詞并把它作為參數(shù)傳入第(3)步。

      (3)傳入的單詞作為父單詞,檢索其孩子單詞,若孩子單詞為空則此趟遍歷結(jié)束;否則,根據(jù)所有孩子單詞和父單詞的詞性與標(biāo)注關(guān)系抽取查詢?nèi)M。

      (4)將第(3)步中的孩子單詞作為參數(shù)傳入第(3)步,遞歸處理孩子單詞。

      3.2 抽取規(guī)則與抽取算法的應(yīng)用

      以問句“阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司的創(chuàng)始人是誰”為例說明抽取規(guī)則的作用和抽取算法的執(zhí)行過程。該問句的依存分析樹如圖5所示,其中陰影部分為LTP命名實(shí)體識別功能模塊識別出來的機(jī)構(gòu)實(shí)體。

      第1步,合并機(jī)構(gòu)實(shí)體名詞“阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司”,去掉首單詞為助詞“的”的RAD關(guān)系<的,RAD,阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司>。

      第2步,確定根單詞為單詞“是”,把該單詞作為參數(shù)傳入算法的第3步。

      第3步,“是”的孩子單詞非空,根據(jù)抽取規(guī)則(4),抽取出SBV-VOB查詢?nèi)M:

      <創(chuàng)始人,是,誰>

      第4步,“創(chuàng)始人”和“誰”分別作為參數(shù)傳入第3步。

      執(zhí)行算法的第3步,“創(chuàng)始人”是傳入?yún)?shù),根據(jù)抽取規(guī)則(3),抽取出查詢?nèi)M:

      <阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司,ATT,創(chuàng)始人>

      執(zhí)行算法的第4步,“阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司”傳入第3步,該單詞已無孩子單詞,此趟遍歷結(jié)束。

      執(zhí)行算法的第3步,“誰”是傳入?yún)?shù),它的孩子單詞為空,此趟遍歷結(jié)束,整個(gè)遍歷隨之結(jié)束。

      例句的依存分析樹中的7個(gè)標(biāo)注關(guān)系(HED關(guān)系除外)對應(yīng)7個(gè)候選查詢?nèi)M,抽取過程不是簡單的依賴經(jīng)驗(yàn)而是利用抽取算法和抽取規(guī)則去除了1個(gè)RAD關(guān)系、合并了3個(gè)ATT關(guān)系和1對SBV-VOB關(guān)系,提高了抽取效率,最后生成2個(gè)查詢?nèi)M。

      圖5 “阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司的創(chuàng)始人是誰”的依存分析樹Fig.5 DPT of question “a li ba ba wang luo ji shu you xian gong si de chuang shi ren shi shui”

      4 映射本體三元組

      4.1 SPARQL和詞典

      SPARQL[14]是一種RDF(Resource Description Framework)[15]查詢語言,可以檢索和操作RDF格式的數(shù)據(jù)。RDF是有向的、含標(biāo)簽的圖數(shù)據(jù)格式,也是以三元組的形式表示和存儲數(shù)據(jù):<主語,謂語,賓語>。例如,通過三元組<誰,創(chuàng)作,紅高粱>來表示問句“誰創(chuàng)作了《紅高粱》”。RDF三元組可構(gòu)成本體庫,然后通過SPARQL語句查詢本體庫內(nèi)的RDF數(shù)據(jù)。SPARQL的語法類似SQL,使用“SELECT”語句包含查詢變量,“FROM”語句指出具體查詢哪一個(gè)本體庫,設(shè)置默認(rèn)本體庫后可省略“FROM”語句?!癢HERE”語句塊表示與查詢變量相關(guān)的約束條件,約束條件也是通過三元組的形式表示。查詢變量可以出現(xiàn)在三元組中任何一個(gè)位置上。上述問句可簡單地映射為SPARQL查詢語句:

      PREFIX:

      SELECT ?author

      WHERE { ?author :created “紅高粱”.}

      為了實(shí)現(xiàn)查詢?nèi)M到SPARQL查詢的映射需要借助詞典。詞典主要包括3部分:本體實(shí)體、通用詞典、用戶詞典[16]。本體實(shí)體包含類(概念)、屬性(關(guān)系)和實(shí)例(個(gè)體)。通用詞典可以使用中文WordNet[17]和維基百科。用戶詞典是對通用詞典的補(bǔ)充,補(bǔ)充新名詞、術(shù)語等。例如:本體實(shí)體中包含詞語“公司”,它對應(yīng)的本體類“:Company”,即存在一條映射規(guī)則:<公司, :Company>。在通用詞典中“公司”和“企業(yè)”是近義詞,因此,結(jié)合本體實(shí)體和通用詞典便可以推出新的映射規(guī)則:<企業(yè),:Company>。問句“餓了么的網(wǎng)址”,經(jīng)LTP解析后,機(jī)構(gòu)名詞“餓了么”會被解析為兩個(gè)標(biāo)注關(guān)系<了,RAD,餓>和<么,RAD,餓>,當(dāng)“餓了么”作為機(jī)構(gòu)名詞加入用戶詞典后,便可以在抽取查詢?nèi)M和映射本體三元組時(shí)正確地識別為一個(gè)整體。

      4.2 映射本體三元組

      本體三元組也是通過三元組的形式表示:<主語,謂語,賓語>,但三元組內(nèi)的主謂賓是本體元素:本體實(shí)體、查詢變量和本體格式數(shù)據(jù)。每個(gè)查詢?nèi)M映射為本體三元組都需要3個(gè)步驟:映射主語、映射賓語、映射謂語。先映射主語和賓語再映射謂語。映射謂語時(shí),謂語非空時(shí)根據(jù)主語、謂語和賓語映射謂語,謂語為空時(shí)則根據(jù)主語和賓語及它們之間的標(biāo)注關(guān)系映射謂語。查詢?nèi)M映射為本體三元組有3類映射:類映射、實(shí)例映射和屬性映射。

      例如:3.2節(jié)中第1個(gè)生成的查詢?nèi)M<創(chuàng)始人,是,誰>在映射為本體三元組時(shí),第1步映射主語 “創(chuàng)始人”,它對應(yīng)本體類“:Person”,進(jìn)行類映射,通過以下本體三元組描述該類映射:

      ?person rdf:type :Person

      第2步映射賓語“誰”,它是疑問詞,根據(jù)抽取規(guī)則(6)確定與它對應(yīng)的主語“創(chuàng)始人”是疑問焦點(diǎn),疑問詞本身不需要做映射,從而也不需要進(jìn)行第3步謂語映射,第1個(gè)查詢?nèi)M的映射結(jié)束。

      類似的,3.2節(jié)中第2個(gè)查詢?nèi)M<阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司,ATT,創(chuàng)始人>映射為本體三元組時(shí),第1步映射主語“阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司”,它對應(yīng)本體實(shí)例,進(jìn)行實(shí)例映射。該實(shí)例對應(yīng)本體類“:Company”。實(shí)例名稱為“阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司”,名稱對應(yīng)的本體屬性為“:name”,“:name”的值即為實(shí)例名稱。因此,通過以下兩個(gè)本體三元組描述該實(shí)例映射:

      ?company rdf:type :Company

      ?company :name "阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司"

      第2步映射賓語“創(chuàng)始人”,由圖5可知,它和第1個(gè)查詢?nèi)M的主語是同一個(gè)詞語且在之前的步驟中已經(jīng)映射過,這里無須再映射。第3步映射謂語,ATT是主語和賓語之間的標(biāo)注關(guān)系,說明謂語為空,主語是對應(yīng)類“:Company”,賓語對應(yīng)類“:Person”,根據(jù)類“:Company”和類“:Person”之間可能存在的屬性和“創(chuàng)始人”的語義,把謂語映射為屬性“:founder”,因此,通過以下本體三元組描述該屬性映射:

      ?company :founder ?person.

      本體三元組映射過程中需要的類(名)和屬性(名)包含在本體庫中。3.2節(jié)中的2個(gè)查詢?nèi)M按步驟,經(jīng)過3類映射之后得到本體三元組,同時(shí)確定疑問焦點(diǎn)是“創(chuàng)始人”,因此SELECT語句中的查詢變量設(shè)為“?person”,與生成的本體三元組組合后得到的SPARQL查詢語句(查詢結(jié)果為“馬云”):

      PREFIX rdf:http://www.w3.org/1999/02/22-rdf-syntax-ns#

      PREFIX:http://cise.ecust.edu.cn/ontology#

      SELECT ?person WHERE {

      ?person rdf:type :Person

      ?company rdf:type :Company.

      ?company :name "阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司".

      ?company :founder ?person.

      }

      5 實(shí) 驗(yàn)

      實(shí)驗(yàn)使用本體編輯器Protégé5.0.0[18]設(shè)計(jì)本體庫,采用Jena2.10.0[19]和Java程序向本體庫中批量導(dǎo)入本體實(shí)例,使用SPARQL作為本體查詢語言,利用LTP解析問句得到依存分析樹。實(shí)驗(yàn)使用JSP和Tomcat6.0.39開發(fā)B/S結(jié)構(gòu)系統(tǒng)方便用戶提問,如圖6。本體實(shí)例的數(shù)據(jù)源之一是百度百科詞條,同時(shí)支持互動百科和中文維基百科,詞條到本體實(shí)例的映射和本體庫的構(gòu)建,限于篇幅不再贅述。

      文獻(xiàn)[3]中的方法簡單地利用了元數(shù)據(jù)和經(jīng)驗(yàn)實(shí)現(xiàn)自然語言問句到SPARQL查詢的轉(zhuǎn)換,本文利用抽取算法和抽取規(guī)則去掉了無意義的查詢?nèi)M,合并和重組意義不完整的查詢?nèi)M,提高了抽取效率。以問句“北京經(jīng)營電子商務(wù)的公司有哪些”為例,利用抽取算法和抽取規(guī)則去掉了一個(gè)RAD關(guān)系,合并了一個(gè)ATT關(guān)系和兩對SBV-VOB關(guān)系,重組了一對SBV-VOB關(guān)系,問句的中間結(jié)果和答案如圖6所示。該例句的處理過程類似3.2節(jié)的例句的處理過程。

      圖6 B/S結(jié)構(gòu)查詢界面Fig.6 Query interface based on B/S structure

      實(shí)驗(yàn)主要針對經(jīng)濟(jì)本體、人物本體和城市本體這3個(gè)本體進(jìn)行查詢。實(shí)驗(yàn)數(shù)據(jù)如表2所示。

      采用準(zhǔn)確率評價(jià)本文方法,定義如下:

      準(zhǔn)確率=

      表2 實(shí)驗(yàn)數(shù)據(jù)Table 2 Experimental data

      實(shí)驗(yàn)中,對ATT關(guān)系、SBV關(guān)系和VOB關(guān)系的映射效果較好,對ADV關(guān)系的映射效果映射較差。因?yàn)锳DV關(guān)系所描述范圍和程度難以映射,例如問句:“哪些公司和華東理工大學(xué)比較近”,經(jīng)LTP解析后得到ADV關(guān)系<比較,ADV,近>,如何定義“比較近”以及如何映射到本體庫中都有待通過將來進(jìn)一步的研究來解決。另一方面,由于本方法依賴LTP,當(dāng)LTP解析依存分析樹出現(xiàn)偏差時(shí),后續(xù)的映射也出現(xiàn)錯(cuò)誤。例如:“阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司的簡稱為什么”,目前為止,LTP都把“為什么”解析為疑問詞,然而正確的解析是把“什么”解析為疑問詞。

      6 結(jié)束語

      本文映射中文自然語言問句為SPARQL查詢的方法,在一般步驟基礎(chǔ)上,進(jìn)一步對問句集的依存分析樹進(jìn)行統(tǒng)計(jì)和分析,提出了查詢?nèi)M抽取規(guī)則,設(shè)計(jì)并利用查詢?nèi)M抽取算法結(jié)合抽取規(guī)則從問句的依存分析樹中抽取出查詢?nèi)M,提高了查詢?nèi)M的抽取效率。實(shí)驗(yàn)表明該方法的有效性。不過,該方法依賴于LTP,而LTP所生成的依存分析樹存在偏差,針對這一情況我們將會研究人工修正和問句等價(jià)替換兩種方法來處理這種情況。此外,本文主要分析處理了6種高頻率的標(biāo)注關(guān)系,其他標(biāo)注關(guān)系也會在將來的工作中得到研究。

      [1] CHANDRASEKARAN B,JOSEPHSON J R,BENJAMINS V R.What are ontologies,and why do we need them?[J].IEEE Intelligent Systems,1999,14(1):20-26.

      [2] 孫昂,江銘虎,賀一帆,等.基于句法分析和答案分類的中文問答系統(tǒng)[J].電子學(xué)報(bào),2008,36(5):833-839.

      [3] CHANG Qingling,ZHOU Yuanchun,XU Shiting,etal.Research on ontology-based Chinese semantic retrieval model[C]// 2014 International Conference on Computational Science and Computational Intelligence (CSCI).USA:IEEE,2014:302-307.

      [4] LOPEZ V,PASIN M,MOTTA E.AquaLog:An ontology-portable question answering system for the semantic Web[J].Lecture Notes in Computer Science,2005,3532:546-562.

      [5] WANG Chong,XIONG Miao,ZHOU Qi,etal.PANTO:A portable natural language interface to ontologies[J].Lecture Notes in Computer Science,2007,4519:473-487.

      [6] KARIM N,LATIF K,AHMED N,etal.Mapping natural language questions to SPARQL queries for job search[C]// 2013 IEEE Seventh International Conference on Semantic Computing.Irvine:IEEE,2013:150-153.

      [7] KLEIN D,MANNING C D.Accurate unlexicalized parsing[C]// Proceedings of the 41st Annual Meeting on Association for Computational Linguistics.USA:ACM,2003:423-430.

      [8] CUNNINGHAM H,MAYNARD D,BONTCHEVA K,etal.GATE:A framework and graphical development environment for robust NLP tools and applications[C]// Proceedings 40th Anniversary Meeting of the Association for Computational Linguistics (ACL).Philadelphia,USA:DBLP,2002:10-15.

      [9] CHE Wanxiang,LI Zhenghua,LIU Ting.LTP:A Chinese language technology platform[C]// 23rd International Conference on Computational Linguistics.Beijing:DBLP,2010:13-16.

      [10] Parsetree[EB/OL].[2015-07-20].https://en.wikipedia.org/wiki/Parse_tree.

      [11] 語言技術(shù)平臺[EB/OL].[2015-11-10].http://www.ltp-cloud.com/intro/.

      [12] YIN Wenke,GE Weiyi,WANG Heng.CDQA:An ontology-based question answering system for Chinese delicacy[C]//2014 IEEE 3rd International Conference on Cloud Computing and Intelligence Systems (CCIS).Shenzhen:IEEE,2014:1-7.

      [13] 劉挺.哈工大信息檢索研究室對外共享語料庫資源[EB/OL].[2015-09-22].http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm.

      [14] PRUD’HOMMEAUX E,SEABORNE A.SPARQL query language for RDF[EB/OL].[1015-08-20].http://www.w3.org/TR/2008/REC-rdf-sparql-query-20080115/

      [15] KLYNE G,CARROLL J J.Resource description framework (RDF):Concepts and abstract syntax[EB/OL].[2015-10-15].http://w3c.org/TR/rdf-concepts,2004.

      [16] 張宗仁,楊天奇.基于自然語言理解的SPARQL本體查詢[J].計(jì)算機(jī)應(yīng)用,2010(12):3397-3400.

      [17] 張俐,李晶皎,胡明涵,等.中文WordNet的研究及實(shí)現(xiàn)[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,24(4):327-329.

      [18] Protégé[EB/OL].[2015-09-25].http://protege.stan-ford.edu/.

      [19] Jena[EB/OL].[2015-10-20].http://jena.apache.org/documentation/ontology/.

      SPARQL Ontology Query Based on Heuristic Rules

      TAN Li-wei, SHAO Zhi-qing, ZHANG Huan-huan, JIANG Yu-yi, HU Fang-huai

      (School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

      This paper proposes an SPARQL ontology query based on heuristic rules.In the proposed method,LTP (Language Technology Platform) is utilized to parse a question to dependency parsing tree (DPT).Heuristic query triple extraction rules are formed according to the statistic and analysis of DPTs of question set.Query triple(s) are extracted accurately by deleting meaningless query triple(s) and recombining incomplete query triple(s) based on these rules.Query triple(s) are mapped to ontology triple(s) by means of three kinds of mapping:class mapping,instance mapping and property mapping.And then,SPARQL query is obtained.Intermediate results and answer will be presented to users when they submit a Chinese natural language question in the query interface.The experiment shows that the presented method is effective.

      natural language question; dependency parsing tree; triple mapping; SPARQL query

      1006-3080(2016)06-0851-07

      10.14135/j.cnki.1006-3080.2016.06.016

      2016-01-13

      國家高技術(shù)研究發(fā)展“863”計(jì)劃(2015AA020107)

      譚立威(1988-),男,湖南郴州人,碩士生,主要研究方向?yàn)樽匀徽Z言處理。E-mail:tanliweii@qq.com

      邵志清,E-mail:zshao@ecust.edu.cn

      TP39

      A

      猜你喜歡
      三元組謂語賓語
      基于語義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      非謂語動詞
      連詞that引導(dǎo)的賓語從句
      非謂語動詞
      賓語從句及練習(xí)
      關(guān)于余撓三元組的periodic-模
      中考試題中的賓語從句
      非謂語動詞題不難答 石娟
      非謂語動詞
      宁明县| 蓝田县| 海口市| 白山市| 广德县| 龙江县| 固始县| 芦山县| 大英县| 察隅县| 宁河县| 宜兴市| 河津市| 铁岭市| 穆棱市| 阿拉善盟| 望江县| 柘荣县| 即墨市| 资中县| 那坡县| 招远市| 黑山县| 新竹县| 通榆县| 永寿县| 蕉岭县| 泰宁县| 扶余县| 卢氏县| 石门县| 静安区| 弥勒县| 张家港市| 斗六市| 繁昌县| 罗甸县| 潞城市| 宝丰县| 博乐市| 东港市|