胡柳忻
摘要:智能檢索在信息行業(yè)中發(fā)展迅速并占據(jù)了主導地位,現(xiàn)有搜索引擎大多采用單一關鍵詞搜索模式,無法完全達到用戶的查詢意圖。與此同時,隨著各地旅游業(yè)的發(fā)展,導游業(yè)也在逐漸趨于多元化。在手機移動終端上使用景區(qū)導游系統(tǒng),將更加方便游客隨時獲取景點相關介紹,多方位、多角度地了解景點特色。針對以上問題,提出將基于上下文的智能查詢應用于景區(qū)導游系統(tǒng)中。實驗結(jié)果表明,基于語義概念樹和局部上下文的查詢擴展算法可以有效地提高系統(tǒng)檢索效率,基本滿足用戶的查詢意愿。
關鍵詞:智能查詢;查詢擴展;導游系統(tǒng);語義概念樹;局部上下文
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)17-0095-04
Abstract: Intelligent information retrieval has developed rapidly and occupied the dominant position. Most of the search engines choose the single keyword search mode which cannot meet the user's query intention. Along with the development of tourism, the tour guide industry has also been gradually tended to be diversified. Using scenic tour guide system in mobile terminal, the tourists can get attractions introduction handily and know the features of the scenic spots from all the aspects. In view of this, propose an intelligent query method based on the context algorithm which is used in tour guide system. Experimental results show that the query expansion algorithm based on the tree of semantic concept and the local context can improve the efficiency of retrieval effectively, which can meet the user's query intention.
Key words: intelligent inquiry; query expansion; guide system; semantic concept tree; local context
1 背景
隨著計算技術(shù)的不斷普及和發(fā)展,智能化人機交互逐漸成為計算模式發(fā)展的主導趨勢,特別是Mark Weiser在20世紀90年代提出普適計算的概念之后,這一趨勢表現(xiàn)得越發(fā)明顯。智能查詢可以廣泛地應用于信息檢索、信息推送等領域,而交互上下文往往是系統(tǒng)確定其自身行為最為直接、有效的依據(jù)。
目前,搜索引擎使用的查詢方式過于單一,大多采用關鍵詞匹配,查詢者輸入與主題相關的查詢詞匯,系統(tǒng)自動檢索得到包含該詞匯的相關內(nèi)容。雖然該種方法簡便可行,但是它對查詢詞的個數(shù)具有一定要求[1-3]并且容易出現(xiàn)詞典問題[4],以上原因使得查詢擴展技術(shù)變得十分重要。現(xiàn)階段,已有多種查詢擴展方法成功應用于實際案例中,例如利用搜索結(jié)果選擇查詢擴展詞、在語義學習對象檢索領域的本體擴展查詢算法、利用醫(yī)療本體改善多模式信息檢索系統(tǒng)的查詢擴展方法等。隨著該項技術(shù)的逐步發(fā)展,更多學者加入到了查詢擴展的研究當中,并發(fā)布了多部文獻對其進行說明,如文獻[5]中提到的基于上下文的查詢擴展方法。盡管如此,目前幾種成型的查詢擴展算法,包括全局分析方法[6]、局部分析方法[7]、基于文檔上下文信息的查詢擴展等都存在過程繁瑣、局限性大、易產(chǎn)生主題漂移現(xiàn)象等不同的弊端。鑒于以上情況,將兩種或多種擴展方法綜合在一起使用逐漸成為一種新的趨勢,它能夠有效地提高查詢準確度,例如文獻[8]提出的基于局部共現(xiàn)分析和概念語義的查詢擴展方法、基于本體和局部上下文分析的查詢擴展方法等。
與此同時,隨著自助旅游的興起及信息技術(shù)在旅游業(yè)中的廣泛應用,景區(qū)導游的范疇已不局限于傳統(tǒng)模式,為了在最大程度上節(jié)省人力、物力、財力的消耗,專門面向游客的自助電子導游系統(tǒng)逐漸興起。
在國外,許多博物館逐漸開始使用電子講解設備取代傳統(tǒng)的人工講解;溫哥華推出的具有顯示景點信息、酒店信息功能的電子導游系統(tǒng)也已成功投放于市場;而在波士頓,部分景點采用無繩電話聽筒電子導游器,供游客使用[9]。至于國內(nèi),自助導游系統(tǒng)的應用在市場中正處于起步階段,目前市場中已存在GPS定位導航的手機導游服務系統(tǒng),如故宮導游手持系統(tǒng)。該系統(tǒng)能夠幫助用戶實時定位所處位置,查詢景點圖文介紹,同時系統(tǒng)提供旅游攻略、旅游資訊、景區(qū)特產(chǎn)美食等相關信息介紹服務。但目前,導游系統(tǒng)更多注重的是導航部分,在景點介紹查詢部分普遍采用的是最簡單的依據(jù)單一關鍵詞進行搜索。在此基礎上,將基于上下文的智能搜索應用于景點查詢中,改變故有的單一關鍵詞查詢模式,使用者能根據(jù)自身需求,方便快捷并且更加準確地獲取景區(qū)信息。
2 算法設計
該系統(tǒng)將基于語義概念樹和局部上下文分析的查詢擴展算法應用于導游系統(tǒng)查詢功能之中,接下來本文將詳細介紹該算法并給出算法改進。該算法實現(xiàn)的過程主要有三個步驟[10]。
2.1 語義概念樹構(gòu)造擴展詞集
3 系統(tǒng)實現(xiàn)及性能分析
3.1 系統(tǒng)設計
該系統(tǒng)研究的主要內(nèi)容可以概括為:將智能搜索應用于頤和園景區(qū)Android手機自助導游系統(tǒng)中,構(gòu)建立體化、可視化的多功能景區(qū)導航導游系統(tǒng)。該系統(tǒng)實現(xiàn)的功能主要劃分為兩大部分,分別為景點查詢功能和景區(qū)導航功能。其中,前者包含相關景點查詢功能,該項功能中,在同一景區(qū)或不同景區(qū)中景點常常出現(xiàn)名稱相同的情況,用戶輸入該景點的名稱后系統(tǒng)輸出的結(jié)果不一定是用戶真正需求的,系統(tǒng)無法自動判斷哪個景點是用戶希望查詢的,不能完全達到使用者的搜索意圖。該系統(tǒng)使用基于語義概念樹和局部上下文的查詢擴展算法,通過計算權(quán)重得出使用者最有可能查找的景點名稱并輸出該景點的相關介紹。同時,提供語音輸入功能,方便用戶使用。
3.2 語音輸入
在景點查詢功能中,用戶可通過手機鍵盤輸入查詢內(nèi)容,但是當使用者處于步行狀態(tài)或者在某些情況下雙手無法在移動終端設備上快速輸入關鍵詞時,鍵盤輸入阻礙了查詢速度。鑒于該原因,該系統(tǒng)中加入了語音輸入功能。
在景點查詢功能中,用戶可使用該功能,系統(tǒng)后臺自動將語音信號轉(zhuǎn)變?yōu)槲淖州敵鲈诓樵兛騼?nèi),再進行查詢功能。語音輸入部分,系統(tǒng)應用了訊飛語音。語音作為一種自然交互正在被更多的移動互聯(lián)網(wǎng)接受,也正在進一步深入人們的日常生活當中,而訊飛語音在不斷的發(fā)展下逐漸占據(jù)了部分市場,其語音識別功能的綜合準確率在復雜的環(huán)境下已達到90%以上。在實驗初期,該功能并不能很好地發(fā)揮其作用。由于系統(tǒng)數(shù)據(jù)庫中存在較多固有名詞,例如頤和園景區(qū)中的景點名稱,系統(tǒng)識別得到的詞語與實際查詢關鍵詞不符,這將大大降低系統(tǒng)的查詢準確率。為改良這一功能,采用語音訓練,其具體實施方法為針對系統(tǒng)數(shù)據(jù)庫中的每一項內(nèi)容,進行特定的語音輸入訓練。例如排云殿的特征詞匯“云錦”,在復雜的環(huán)境條件下首次語音輸入該詞語時,系統(tǒng)默認輸出的詞語為“運進”,接下來對這一詞匯進行反復練習,訓練10次后,系統(tǒng)已基本能夠做到正確識別該詞匯。依照此種方法,對于數(shù)據(jù)庫中的每項內(nèi)容進行多次語音訓練,從而大大提高了語音識別的準確度以及查詢準確度,增強了系統(tǒng)的實用性。
3.3 結(jié)果分析及算法改進
在“相關查詢”功能中,采用了基于語義概念樹和局部上下文分析的查詢擴展算法。以“長廊”為例,在頤和園景區(qū)和北海公園景區(qū)中均存在長廊景點,即出現(xiàn)景點名稱相同的情況。此時,用戶輸入查詢詞后,系統(tǒng)依照算法進行后臺處理,計算出與原查詢詞相關度最高的景點名稱,并輸出該景點的圖文介紹。
在該測試用例中,原查詢詞的語義概念樹如圖1所示。與原始算法中語義概念樹的構(gòu)造方法有些不同的是,該系統(tǒng)中的概念樹的構(gòu)造并沒有使用Hownet知網(wǎng),也就是說該系統(tǒng)中將詞語概念間的聯(lián)系轉(zhuǎn)換為景區(qū)之間的聯(lián)系。而在“概念樹”中每個節(jié)點即景區(qū)選擇方面,主要依據(jù)搜索引擎,根據(jù)其搜索出來的與原查詢景區(qū)最為相關的n個景區(qū)構(gòu)造每個節(jié)點。依照此種方法構(gòu)造出的語義擴展詞集為semT={"通道","人文","文化長廊","景區(qū)","長廊頤和園","長廊北海公園","十里杜鵑長廊"}。
在統(tǒng)計詞集的構(gòu)造方面,檢索得到與原查詢最相關的n篇文章,該系統(tǒng)中使用頤和園官網(wǎng)中的全部文章以及通過搜索引擎檢索到的最相關的三篇文章,然后從該n篇文章中選取與原查詢最相關的m個詞與詞組作為統(tǒng)計擴展詞。因此,構(gòu)造出的統(tǒng)計擴展詞集為staT={"長廊頤和園","長廊北海公園","走廊","通道" }。
依照前面介紹的式(2)計算統(tǒng)計擴展詞的相關度時,需要的數(shù)據(jù),例如擴展詞在文章中出現(xiàn)的頻率、原查詢詞在文章中出現(xiàn)的頻率等均由爬蟲抓取相關網(wǎng)頁內(nèi)容實現(xiàn)。網(wǎng)絡爬蟲是一種按照一定的規(guī)則,自動抓取網(wǎng)絡信息的程序,實現(xiàn)對網(wǎng)頁或數(shù)據(jù)的分析與過濾,將不需要的信息排除,留下使用者需要的數(shù)據(jù)。將頤和園官網(wǎng)的每個頁面作為一篇文章,加上通過搜索引擎檢索到的最相關的三篇文章,總文章數(shù)量為24篇。爬蟲可以抓取到關鍵詞存在于哪幾個url頁面中,即存在于幾篇文章中,從而得到該詞語出現(xiàn)在前n篇文章中的頻率。在整個過程中,首先爬蟲抓取想要的網(wǎng)頁,然后下載網(wǎng)頁,提取正文,并進行分詞。之后進行比對,判斷某個關鍵詞出現(xiàn)于哪一個url中。以排云殿為例,輸入排云殿后,爬蟲開始抓取,共得到5個頁面即該關鍵詞在前24篇文章中出現(xiàn)的頻率為5,爬蟲運行結(jié)果如圖2所示。為了方便用戶查看爬蟲抓取的內(nèi)容,系統(tǒng)將url對應的網(wǎng)頁正文內(nèi)容下載下來,存于文件夾中的記事本,如圖3所示。該爬蟲抓取的結(jié)果已自動排除網(wǎng)頁中的無關內(nèi)容。
從上圖可以看出,四個擴展詞中除了“長廊北海公園”,其他三個擴展詞的相關度即bel值較為接近,相對地,也可以說明這三個擴展詞與原查詢詞的相關度較高,其中“通道”擴展詞的相關度最高。接下來,也是整個算法的最后階段,系統(tǒng)后臺計算出每個擴展詞的權(quán)值,令權(quán)值調(diào)節(jié)因子α=1,均衡兩個詞集的權(quán)重,得到最終的綜合擴展詞集權(quán)重,輸出權(quán)值最大的詞語。在該用例中,輸出的擴展詞為“通道”。
在實際開發(fā)的導游系統(tǒng)中,對該方法進行了大量測試。例如,在“景點”界面下,用戶可輸入景點的特征詞,系統(tǒng)將自動匹配數(shù)據(jù)庫中對應的景點ID,從而匹配出相應的景點,并呈現(xiàn)該景點的圖文介紹,完成景點查詢功能。測試階段以排云殿為例,“云錦”為排云殿的特征詞,輸入后,點擊按鈕“按特征搜索”,即可搜索到排云殿的詳細信息,如圖5和圖6所示。實驗結(jié)果表明,該方法有效地提高了信息查詢的準確率。
4 結(jié)束語
該系統(tǒng)將基于上下文的智能查詢應用于導游系統(tǒng)中的景點查詢,滿足用戶的真正需求,提高系統(tǒng)的實用性,具有一定的研究意義。在景點查詢功能中采用了基于語義概念樹和局部上下文分析的查詢擴展算法,對改善系統(tǒng)的查詢性能有良好的作用。
參考文獻:
[1] Furnas G W, Landauer T K, Gomez L M, et al. The vocabulary problem in human-system communication[J]. Communication of ACM, 1987, 30(11): 964-971.
[2] 朱立紅, 楊鶴標. 海量結(jié)構(gòu)化數(shù)據(jù)查詢系統(tǒng)的研究與實現(xiàn)[J]. 計算機應用與軟件, 2014, 31(2): 29-32.
[3] 丁曉淵, 顧春華, 王明永. 基于查詢?nèi)罩镜木植抗铂F(xiàn)查詢擴展[J]. 計算機應用與軟件, 2013, 30(12): 22-27.
[4] Wen J R, Nie J Y, Zhang H J. Clustering user queries of a search engine[C] //Proceedings of the 10th International Conference on World Wide Web. ACM, 2001: 162-168.
[5] 李衛(wèi)疆, 趙鐵軍, 王憲剛. 基于上下文的查詢擴展[J]. 計算機研究與發(fā)展, 2010, 47(2): 300-304.
[6] Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis[J]. JASIS, 1990, 41(6): 391-407.
[7] Attar R, Fraenkel A S. Local feedback in full-text retrieval systems[J]. Journal of the ACM (JACM), 1977, 24(3): 397-417.
[8] 秦玉平, 孟祥娜, 王秀坤, 等. 基于局部共現(xiàn)分析和概念語義的查詢擴展研究[J]. 微計算機應用, 2010, 31(6): 8-13.
[9] 劉欣欣. 基于RFID技術(shù)的旅游景區(qū)導游系統(tǒng)的研究及應用[D]. 石家莊: 河北科技大學, 2012.
[10] 楊海南. 基于語義概念樹和局部上下文分析的查詢擴展[J]. 武漢理工大學學報: 信息與管理工程版, 2011, 33(1): 79-82.