劉昱甫
(清華大學(xué),北京100084)
大數(shù)據(jù)技術(shù)迅速發(fā)展,已經(jīng)在醫(yī)療保健、用戶(hù)生成數(shù)據(jù)、互聯(lián)網(wǎng)和金融公司、供應(yīng)鏈系統(tǒng)等行業(yè)領(lǐng)域得到深入應(yīng)用[1],也已經(jīng)在人們的日常生活中展示出不可替代的作用[2]。另一方面,不同類(lèi)型數(shù)據(jù)量的迅猛增加,增加了信息檢索的難度,降低了信息檢索的效率,為信息查詢(xún)帶來(lái)了極大挑戰(zhàn)[3]。本文介紹了一種基于知識(shí)圖譜的信息查詢(xún)系統(tǒng)的新方案。
傳統(tǒng)的信息查詢(xún)系統(tǒng)主要根據(jù)用戶(hù)輸入的關(guān)鍵詞進(jìn)行索引匹配,完成信息的檢索與調(diào)取。這種信息查詢(xún)與檢索方式在理解用戶(hù)查詢(xún)需求,展示檢索結(jié)果等方面擴(kuò)展性不強(qiáng)。為了滿(mǎn)足用戶(hù)對(duì)于信息查詢(xún)快速性、準(zhǔn)確性、智能性的不斷增長(zhǎng)的需求,本文介紹了一種基于知識(shí)圖譜的信息查詢(xún)系統(tǒng)的新方案[4]。
知識(shí)圖譜是一種語(yǔ)義網(wǎng)絡(luò)。知識(shí)圖譜的構(gòu)建是一個(gè)系統(tǒng)性的工程[5],它包括本體構(gòu)造、知識(shí)抽取和關(guān)系抽取、知識(shí)推理和關(guān)系推理等[6-7]。此外,還需對(duì)知識(shí)抽取的監(jiān)督算法進(jìn)行樣本標(biāo)注,或?qū)ψ詣?dòng)標(biāo)注的樣本進(jìn)行效果確認(rèn)。在知識(shí)抽取的過(guò)程中需要完成實(shí)體抽取、關(guān)系抽取和屬性抽取。
信息檢索技術(shù)主要指信息按一定的方式組織起來(lái),并根據(jù)信息用戶(hù)的需要找出有關(guān)的信息的過(guò)程和技術(shù)[8]。常用的信息檢索方式包括手工檢索和機(jī)械檢索(計(jì)算機(jī)檢索、網(wǎng)絡(luò)信息檢索)。本文介紹的基于知識(shí)圖譜的信息查詢(xún)系統(tǒng),選用網(wǎng)絡(luò)信息檢索的方式,即依托特定的網(wǎng)絡(luò)檢索工具或?yàn)g覽方式,讓用戶(hù)在網(wǎng)絡(luò)終端完成所需信息的查找與獲取。
基于知識(shí)圖譜的信息查詢(xún)系統(tǒng)的邏輯機(jī)構(gòu)包括查詢(xún)應(yīng)用層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)預(yù)處理層、網(wǎng)絡(luò)數(shù)據(jù)獲取層。其中,查詢(xún)應(yīng)用層主要包含信息檢索、知識(shí)圖譜展示、智能問(wèn)答。它為用戶(hù)提供信息檢索服務(wù),滿(mǎn)足用戶(hù)信息查詢(xún)與獲取需求。數(shù)據(jù)存儲(chǔ)層主要包括基于數(shù)據(jù)庫(kù)的知識(shí)存儲(chǔ),它能夠把CSV文件格式存儲(chǔ)的實(shí)體及其關(guān)系文件傳遞至Neo4j圖數(shù)據(jù)庫(kù)中管理,實(shí)現(xiàn)知識(shí)信息的存儲(chǔ)。
數(shù)據(jù)預(yù)處理層主要包括結(jié)構(gòu)化知識(shí)庫(kù)、中文分詞、詞性標(biāo)注、相似度計(jì)算、文本分類(lèi)、實(shí)體抽取、實(shí)體對(duì)齊、資源庫(kù)等功能模塊。該層在解析器的支持下,完成對(duì)原始數(shù)據(jù)的抽取,并實(shí)現(xiàn)多樣化的數(shù)據(jù)信息預(yù)處理。網(wǎng)絡(luò)數(shù)據(jù)獲取層主要面向各類(lèi)網(wǎng)站數(shù)據(jù)源主動(dòng)獲取數(shù)據(jù),主要包括網(wǎng)頁(yè)文本資源的提取。
3.2.1 數(shù)據(jù)獲取功能模塊設(shè)計(jì)
該功能模塊需要針對(duì)不同的數(shù)據(jù)源網(wǎng)站所包含的知識(shí),比如“豆瓣讀書(shū)”網(wǎng)站包含的書(shū)籍、作者、出版社等,應(yīng)用爬蟲(chóng)技術(shù)獲取網(wǎng)頁(yè)文本資源,提取和組織知識(shí)信息。
3.2.2 數(shù)據(jù)預(yù)處理功能模塊設(shè)計(jì)
該模塊需要實(shí)現(xiàn)中文分詞和詞性標(biāo)注、相似度計(jì)算和文本分類(lèi)三個(gè)主要功能??梢詰?yīng)用用戶(hù)詞典功能等實(shí)現(xiàn)中文分詞和詞性標(biāo)注,基于余弦定理等完成字符串相似度計(jì)算,應(yīng)用KNN鄰近算法等完成文本分類(lèi)。
3.2.3 知識(shí)存儲(chǔ)功能模塊設(shè)計(jì)
可以采用Neo4j圖數(shù)據(jù)庫(kù)完成實(shí)體節(jié)點(diǎn)及其關(guān)聯(lián)關(guān)系的長(zhǎng)效性存儲(chǔ)[9],進(jìn)而基于實(shí)體屬性或者關(guān)聯(lián)關(guān)系實(shí)現(xiàn)知識(shí)檢索。
3.2.4 圖譜構(gòu)建功能模塊設(shè)計(jì)
圖譜構(gòu)建功能可以細(xì)化為六個(gè)功能單元,具體包括知識(shí)獲取、知識(shí)融合、知識(shí)存儲(chǔ)、查詢(xún)語(yǔ)義理解、知識(shí)檢索、可視化展現(xiàn)[10]。它們共同完成自然語(yǔ)言查詢(xún)的語(yǔ)義分析處理、知識(shí)信息匹配、查詢(xún)結(jié)果反饋及其可視化展現(xiàn)的完整過(guò)程,幫助用戶(hù)迅速、準(zhǔn)確、全面地獲取信息。
為了確定本系統(tǒng)的應(yīng)用效果,展示系統(tǒng)設(shè)計(jì)方案的可行性,以中文小說(shuō)圖書(shū)為知識(shí)對(duì)象,搭建了實(shí)驗(yàn)環(huán)境。其中試驗(yàn)數(shù)據(jù)設(shè)置如下:Dbpedia的實(shí)體穩(wěn)定在0.4億,類(lèi)別設(shè)置為250,事實(shí)設(shè)置為5億條,屬性控制在6 000種;Freebase的實(shí)體穩(wěn)定在2億,主題設(shè)置為2 000,事實(shí)設(shè)置為1億條,屬性控制在4 000種;NELL的實(shí)體穩(wěn)定在300萬(wàn),類(lèi)別設(shè)置為300,學(xué)習(xí)規(guī)則控制在1 500萬(wàn)條;谷歌知識(shí)圖譜的實(shí)體穩(wěn)定在5億,事實(shí)設(shè)置為35億條。
試驗(yàn)步驟如下:①完成系統(tǒng)開(kāi)發(fā)技術(shù)的設(shè)定。在基于知識(shí)圖譜的信息查詢(xún)系統(tǒng)實(shí)現(xiàn)中,使用的技術(shù)主要包括Java語(yǔ)言(編程語(yǔ)言)、Neo4j圖數(shù)據(jù)庫(kù)(數(shù)據(jù)庫(kù)),使用的開(kāi)發(fā)工具為Eclipse開(kāi)發(fā)平臺(tái),使用的Web服務(wù)器為T(mén)omcat。②構(gòu)建圖譜。在“豆瓣讀書(shū)”網(wǎng)站中展開(kāi)實(shí)體的抽選,并在CSV實(shí)體文件中保存。實(shí)踐中,主要根據(jù)固定的格式,在CSV實(shí)體關(guān)系文件中保存實(shí)體之間的關(guān)系。隨后,將CSV實(shí)體文件、CSV實(shí)體關(guān)系文件均轉(zhuǎn)移至數(shù)據(jù)庫(kù)中保存,達(dá)到構(gòu)建圖譜的效果。③系統(tǒng)開(kāi)發(fā)。出于對(duì)基于知識(shí)圖譜的信息查詢(xún)系統(tǒng)開(kāi)發(fā)效率的考量,將開(kāi)發(fā)架構(gòu)設(shè)定為MVC中的“JSP+Servlet+JavaBean”模式。
該系統(tǒng)可以迅速地響應(yīng)用戶(hù)的查詢(xún)需求。和之前基于關(guān)鍵詞的書(shū)籍和作者信息檢索系統(tǒng)相比,該系統(tǒng)能夠?qū)Σ樵?xún)需求的語(yǔ)義信息進(jìn)行深入分析,為用戶(hù)提供更為全面、準(zhǔn)確的信息查詢(xún)結(jié)果。比如,針對(duì)用戶(hù)輸入的查詢(xún)?cè)~為“活著”,系統(tǒng)能夠判斷出其為余華的代表作之一,除了展示本書(shū)的相關(guān)信息,還能同時(shí)展示作者余華的生平簡(jiǎn)歷、其他相關(guān)的著作信息、網(wǎng)站購(gòu)書(shū)鏈接等。由此可以看出,基于知識(shí)圖譜的信息查詢(xún)系統(tǒng)能夠?yàn)橛脩?hù)提供更為詳細(xì)、全面、精準(zhǔn)的查詢(xún)信息,突破了傳統(tǒng)的基于關(guān)鍵詞的檢索能力,有著非常高的應(yīng)用價(jià)值。
傳統(tǒng)的信息查詢(xún)系統(tǒng)往往依賴(lài)關(guān)鍵詞匹配。為了滿(mǎn)足用戶(hù)對(duì)于信息查詢(xún)的快速性、準(zhǔn)確性、智能性不斷增長(zhǎng)的需求,本文展示了基于知識(shí)圖譜的信息檢索架構(gòu),通過(guò)數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、知識(shí)存儲(chǔ)、圖譜構(gòu)建和可視化展示等功能模塊的緊密集成,實(shí)現(xiàn)了基于知識(shí)圖譜的信息查詢(xún)系統(tǒng)的構(gòu)建。以中文小說(shuō)圖書(shū)為知識(shí)對(duì)象的應(yīng)用案例表明,這種基于知識(shí)圖譜的信息查詢(xún)能夠?yàn)橛脩?hù)提供更為詳細(xì)、全面、精準(zhǔn)的信息查詢(xún)能力,突破了傳統(tǒng)的基于關(guān)鍵詞的檢索能力,有著非常高的應(yīng)用價(jià)值。