林麗姝
(海南經貿職業(yè)技術學院,海南 海口 571127)
一種基于領域本體的資源反饋檢索模型研究
林麗姝
(海南經貿職業(yè)技術學院,海南 ???571127)
針對現(xiàn)有資源平臺無法互通共享資源,資源庫檢索系統(tǒng)僅依靠用戶輸入的單詞關鍵字描述檢索資源而無法挖掘用戶需求中的語義信息的問題,提出了一種基于本體的資源反饋檢索模型。該模型通過構建本體、概念相似度計算、查詢關鍵字擴展等關鍵技術,利用了用戶多次反饋中的包含語義知識,滿足了用戶的查詢需求。實驗表明,該模型能夠有效提高檢索的性能。
領域本體;資源檢索;知識反饋
現(xiàn)代信息的發(fā)展引起了資源的爆發(fā),同時為了更好地使用資源、利用資源,很多機構特別是教育部門都積極地建立起資源檢索平臺,以達到資源共享的作用。每個資源檢索平臺都“各自為政”,資源的重復不可避免,但又因為自身建設特色所限,無法囊括所有的特色資源,沒法給用戶一個“一站式”搜索的體驗。所有用戶有時為了滿足自己的需求,甚至要登陸多個信息檢索平臺多次搜尋,造成了時間和精力的浪費。
在傳統(tǒng)的資源檢索系統(tǒng)中,只能針對某個資源庫平臺來進行。而資源存放目錄、學科分類等分類方式摻雜了太多人為的主觀意念。往往同一個資源在不同的資源庫平臺中的存放規(guī)則不同,資源所屬的分類也會有差異,這樣就造成用戶也不能通過相同的搜索規(guī)則來進行查詢同一類的資源。資源庫平臺之間的共享共用也幾乎成了一句空話。即使是使用關鍵字進行資源檢索,如果用戶不能準確地使用關鍵字來描述目標資源,那么檢索系統(tǒng)更難以理解用戶的意圖,更不能通過知識推理來進行關鍵字的語義匹配,無法實現(xiàn)智能化的資源檢索。
針對目前高校建立的教學資源庫平臺存在的資源難以共享和檢索效率低下問題,提出一種基于本體的資源反饋檢索模型。該檢索模型嘗試基于領域本體來構建,用戶可以通過該檢索平臺同時連接檢索各高校教學資源平臺。用戶不需要多次登錄,即可同時在多個教學資源平臺中找到合適的資源。該模型的特色在于借助概念相似度算法和查詢關鍵字擴展,并將用戶在檢索過程中的語義反饋反映到檢索模型當中,能夠解決目前高校資源平臺存在的信息鴻溝和信息重用等問題,提高檢索效率,使信息資源得到有效的利用和科學的管理。
在進行資源檢索時,用戶不但希望能夠過濾掉無用的干擾信息,也希望能夠高效率地得到有價值的、符合自身要求的資源,以便幫助自己解決問題。本體(Ontology)能夠準確地描述資源的語義含義,使用基于領域的本體模型,可以在語義層次上描述資源,從而能夠實現(xiàn)Web語義檢索。
通過領域本體的構建,利用本體作為一種能夠實現(xiàn)語義理解的有效方法的優(yōu)勢,對用戶的查詢請求進行相似度計算、語義擴展,使得用戶每次的反饋得到不斷優(yōu)化,最后檢索到的結果能夠通過反映出用戶語義層次上要求的信息。同時,基于本體的構建方式,不同資源庫平臺的資源的共享工作不再受限于資源存放規(guī)則,只要描述關鍵字能夠準確體現(xiàn)出資源的內容和特點,那就可以達到在檢索平臺“一站式”檢索到多個資源庫平臺有價值資源的效果。
整個檢索模型的框架如圖1所示。
圖1 檢索模型框架
基于領域本體的資源反饋檢索模型與傳統(tǒng)的檢索模型的區(qū)別和優(yōu)勢在于語義的運用,現(xiàn)在使用一個例子進行說明。例如用戶需要搜索關于會計統(tǒng)計方面的Excel函數(shù)用法資料,但是又不是很清楚到底是哪個Excel函數(shù),這樣在傳統(tǒng)的教育資源檢索模型中,用戶大多只能通過以下方式進行搜索:
(1)通過學科目錄查找到計算機類資源的存放目錄,然后看著一堆的課程資源目錄,猜想資源存放的位置來挨個查看。
(2)使用關鍵字“會計Excel函數(shù)”查詢,不能得到檢索系統(tǒng)任何的提示而進一步地明確自己的檢索內容。
而采取基于領域本體的資源反饋檢索模型,則用戶無需查找資源的目錄分類和學科歸屬,只需要一步步地根據提示信息進行反饋即可,檢索流程如下:
(1)用戶輸入關鍵字“會計Excel函數(shù)”,則檢索系統(tǒng)進行語義擴展,在人機界面給用戶展示“會計”類和“統(tǒng)計”類中最常用excel函數(shù)如“PV函數(shù)”和“Count If函數(shù)”等關鍵字,并給出與這些關鍵字匹配的資源列表。
(2)用戶根據資源列表查詢,如果覺得Count If函數(shù)更加貼切自己的表達需求,則可以再次輸入關鍵字為“Count If函數(shù)”和“統(tǒng)計”,則系統(tǒng)再次進行語義檢索,查找統(tǒng)計類函數(shù)中所有和“Count If”函數(shù)相似度最大的資源,并給用戶列出。
由此可以看出,基于領域本體的資源反饋檢索模型通過用戶反饋的方式,能夠利用用戶的語義信息進行擴展,從而避免了用戶在龐大的資源庫大海撈針的茫然搜索。
3.1 語義檢索
語義檢索模塊是整個模型的核心,重點在于確定查詢關鍵字與資源實例的描述關鍵字之間的相似度,進而確認該資源是否符合用戶的需求。語義檢索建立在教育領域本體的基礎上,通過對教育領域本體的有效利用,計算查詢關鍵字與資源的描述關鍵字之間的相似度并進行對比,以滿足用戶和智能檢索系統(tǒng)的需求。
需要注意的是,資源實例的描述關鍵字要遵循針對性和獨立性兩個原則,即關鍵字之間沒有明顯的包含關系,并且能夠正確地描述實例的特點。描述關鍵字的粒度劃分關系到用戶對資源實例的搜索,因此資源擁有者正確設置資源實例的描述關鍵字尤其重要。
定義C={G,Q}描述資源庫中的所有資源實例,其中:
描述關鍵詞列表:G=(g1,g2,…,gi),gi為描述資源實例C的第i(4≥i≥1)個關鍵字。在實際應用中,每個資源實例的描述關鍵字一般為2至4個就可以很好地描述該資源的特點和內容。
權值列表:Q=(q1,q2,…,qi),qi表示gi關鍵字在描述資源實例C中的相關度,或是權值,q1+q2+…+qi=1。
同理,定義R={T,Y}描述目標資源實例,其中T={t1,t2,……,tk},Y=(y1,y2,…,yk)(4≥k≥1),tk為目標資源實例的第k個描述關鍵字,yk為tk的權值,y1+y2…+yk=1。
在人機交互頁面,用戶可以通過機構分類、學科分類等方式進行初步的資源檢索,還可以通過關鍵字進行查詢。使用關鍵字進行語義匹配檢索的流程圖如圖2所示。
圖2 語義匹配檢索的流程
以下是語義匹配檢索的步驟:
Step1用戶在人機交互頁面輸入一個可以描述目標資源R的屬性關鍵字t,即目標資源R={T,Y},其中T={t},Y={1}。
Step2查找系統(tǒng)中所有的教育資源,計算教育資源與用戶需求的相關度,定義Sim(tk,gi)為關鍵字tk和gi的相似度,根據相似度計算公式[],則可以得到資源實例C和目標實例R的相似度
Step3按照相似度S的大小順序將符合要求的資源實例返回給用戶。
Step4檢索結果符合預期目標,則用戶結束檢索,下載需要的資源;否則用戶在輸入框中重新調整描述關鍵字為t1,進入用戶反饋關鍵字擴展模塊進行處理,檢索平臺更新目標資源實例R={T',Y'},繼續(xù)Step2。
本體可以看作是一個有向圖,概念是圖中的節(jié)點,概念間的語義關系是圖中的有向邊。直覺上,本體上語義關系中蘊含著一定的語義相關度,所以本體上語義相關度的計算應該和有向邊上的語義關系聯(lián)系起來[2]。要計算本體網絡中概念之間的相似度Sim(tk,gi),應該利用它們之間的語義關系,綜合使用基于結構的概念相似度計算方法和基于屬性的概念相似度計算方法[3]。
對于以上兩種相似度計算方法都設置一個權值,最終得到一個綜合的概念相似度。
3.2 用戶反饋關鍵字擴展
用戶再次輸入描述目標資源實例的關鍵字時,反饋關鍵字擴展模塊的任務就是進行語義關系計算,以深層次地挖掘語義內涵,更加貼切地表達用戶的需求,從而產生擴展關鍵字列表和對應的權值列表來進一步描述目標資源實例。
語義關系計算包含了語義等價關系、語義父子關系和語義關聯(lián)關系,對前后兩次描述目標資源實例的關鍵字t和t1之間的每一種語義關系采取不同的擴展關鍵字搜索策略,將指定搜索范圍內的關鍵字納入候選擴展關鍵字集合W,并對候選擴展關鍵字集合中的關鍵字進行概念相似度計算。
提取概念相似度值最大前4個擴展關鍵字組成最終的擴展關鍵字列表T'={t'1,t'2,……,t'k},權值列表為Y'={y'1,y'2,…,y'k}(4≥k≥1)。其中,y'k權值按照t'k/∑t'k進行分配,以此來更新目標資源實例R={T',Y'}。
資源庫的建立是為了能夠達到資源共享共建共用,提出的基于本體的資源反饋檢索模型采用了領域本體的統(tǒng)一表示方式,多個資源信息平臺通過檢索模型得到了整合,同時以將用戶反饋的關鍵字進行語義分析后得到概念相似度為依據,進行目標資源描述關鍵字擴展,從而使得逐步得到檢索結果更加貼近用戶的需求,實驗證明,檢索模型的查全率和查準率都有了一定的提高,驗證了該檢索模型的可靠性。
但是,概念相似度計算是檢索模型的核心,相似度計算算法仍需不斷地挖掘關鍵字屬性之間的語義關系進行完善,引入自然計算到檢索模型中將是下一步的重點工作。
[1]鄧志鴻,唐世渭,張銘.Ontology研究綜述[J].北京大學學報:自然科學版,2002,38(5):730-738.
[2]田首,杜小勇,李海華.一種基于語義關系計算領域本體中概念間語義相關度的方法關[J].計算機科學,2007,34(10):172-173.
[3]李榮,楊冬,劉磊.基于本體的概念相似度計算方法研究[J].計算機研究和發(fā)展,2011,48(增刊):312-317.
[4]Ehring M,Sure Y.Ontology mapping-an integrated approach// LNCS 3053:Proc of the 1st European Semantic Web Symp.Berlin:Springer 2004:76-91.
[5]石林,徐飛,徐守坤.基于用戶興趣建模的個性化推薦[J].計算機應用與軟件,2013,30(12):211-214.264.
[6]蘇雪陽,左萬利,王俊華.基于本體與模式的網絡用戶興趣挖掘[J].電子學報,2014,42(8):1556-1563.
[7]Bin Tan,et al.Mining long-lasting exploratory user interests from search history[C].CIKM'12 Proceedings of the19th ACM international conference on Information and knowledge management.New York,USA,2012:1477-1481.
[8]張滬寅,張銘洋,李鑫.基于領域本體的電子學習資源庫模型[J].計算機應用,2012,32(1):191-195.
[9]林麗姝,林珍,劉露思.基于本體與粗糙集的教育資源檢索模型的關鍵技術研究[J].實驗技術與管理,2012,29(10):123-125.
[10]蔣勇,譚懷亮,李光文.基于量子遺傳算法的XML聚類方法[J].計算機應用,2011,31(2):446-449.
Research on Resource Feedback Retrieval Model Based on Ontology
Lin Lishu
(Hainan College of Economics and Business,Haikou 571127,Hainan)
act】Focused on the problems of poor efficiency of the traditional retrieval systems which can not detect semantic information from user's keywords,a resource feedback retrieval model is proposed in this paper.The main idea of the model is to use the technology of ontology construction and semantic annotation and expansion keywords which can use semantic knowledge form user's feedback to meet user's needs.The experimental results show that the retrieval performance can be improved effectively.
domain ontology;resource retrieval;knowledge feedback
TP391
A
1008-6609(2015)03-0031-03
林麗姝,女,海南臨高人,碩士,副教授,研究方向:知識工程、創(chuàng)新設計。
海南省教育科學規(guī)劃課題,項目編號:NO.QJY125048。