陸虹
(鄭州輕工業(yè)學(xué)院,河南 鄭州 450002)
由于網(wǎng)絡(luò)中的信息浩如煙海、內(nèi)容龐雜、組織松散,為找到有用信息,人們經(jīng)常要耗費(fèi)大量寶貴的時(shí)間,人們?cè)谛畔z索中普遍遇到了“返回信息過多”與“用戶可用信息過少”的問題。如何協(xié)助用戶方便有效地從浩如煙海的網(wǎng)絡(luò)信息中獲取有用的信息是非常具有現(xiàn)實(shí)意義的一個(gè)課題。鑒于此,本文提出了一種基于本體論的個(gè)性化網(wǎng)絡(luò)信息檢索的模型。
目前人們?cè)诶盟阉饕孢M(jìn)行信息檢索的過程中,普遍遇到了“信息過載”的問題,即系統(tǒng)返回的信息量過多,遠(yuǎn)遠(yuǎn)超過了用戶所能接受和處理的能力。雖然返回的信息數(shù)量巨大,但是有相當(dāng)數(shù)量的信息卻并不是用戶所需要的,使得用戶將大量的時(shí)間耗費(fèi)在排除無關(guān)的信息上,也就是說搜索引擎的查準(zhǔn)率較低;同時(shí),又由于檢索用戶和網(wǎng)絡(luò)文檔對(duì)同一概念的表達(dá)形式往往會(huì)有差異,這又導(dǎo)致許多有用的信息用戶無法檢索到,也就是說搜索引擎的查全率也是較低的。造成這一現(xiàn)象產(chǎn)生的根本原因在于當(dāng)前的搜索引擎存在有以下兩大方面的不足。
現(xiàn)有的搜索引擎提供的檢索方式幾乎都是基于關(guān)鍵詞的方式,雖然基于關(guān)鍵詞的檢索方式給人們的檢索帶來了很大的方便,但它卻不能很好地表達(dá)用戶的檢索需求。這主要表現(xiàn)為:第一,關(guān)鍵詞語言是一種自然語言,隨著時(shí)間、地域、領(lǐng)域的改變,同一詞匯可以表達(dá)不同的語義概念,即“一詞多義”的現(xiàn)象;同一概念也可以使用不同的詞匯表達(dá),即“一義多詞”的現(xiàn)象。第二,在人的大腦中,概念不是孤立存在的,它總是與其它概念之間存在著各種聯(lián)系,用戶在檢索一個(gè)詞時(shí)除了希望得到包含該詞的資源之外,還希望得到與該詞相關(guān)的其它信息。在傳統(tǒng)的檢索技術(shù)條件下,這種概念關(guān)聯(lián)的檢索是實(shí)現(xiàn)不了的。
現(xiàn)在的搜索引擎對(duì)所有的用戶采用的都是同一種模式,不同的用戶只要用相同的關(guān)鍵詞進(jìn)行查詢,得到的結(jié)果將會(huì)是一樣的。顯然,這樣的搜索引擎?zhèn)€性化能力太差,它沒有考慮到每個(gè)用戶的個(gè)體差異,不能根據(jù)用戶背景、愛好的不同,獲取用戶不同的個(gè)性化信息需求,給出不同的檢索結(jié)果。
從以上搜索引擎存在的不足我們可以看出,當(dāng)前的搜索引擎在進(jìn)行網(wǎng)上信息收集和提供查詢服務(wù)方面存在著嚴(yán)重的效率和質(zhì)量問題。本體論作為一種新的知識(shí)表示方式,由于具有良好的概念層次結(jié)構(gòu)和對(duì)邏輯推理的支持,因而在實(shí)現(xiàn)智能化的網(wǎng)絡(luò)信息檢索中具有廣闊的應(yīng)用前景。通過本體論,一方面可以把信息檢索從基于關(guān)鍵詞的層次提高到基于概念的層次,從而提高系統(tǒng)的查準(zhǔn)率與查全率;另一方面還可以對(duì)概念的相關(guān)性進(jìn)行推理,挖掘出用戶的真正需求所在,從而實(shí)現(xiàn)智能化的信息檢索。
本文設(shè)計(jì)了一種基于本體論的智能化網(wǎng)絡(luò)信息檢索模型,其基本體系結(jié)構(gòu)如圖1所示。
圖1 一種基于本體論的智能化網(wǎng)絡(luò)信息檢索模型
該模型主要由以下幾個(gè)部分組成:用戶界面代理、本體論服務(wù)器(包括用戶偏好本體論庫、任務(wù)本體論庫和領(lǐng)域本體論庫)、智能檢索模塊、文檔分析器、個(gè)性化信息索引庫以及智能搜索代理等。
用戶界面代理作為信息用戶與智能檢索模塊之間的接口,除了具有接收用戶提交的檢索請(qǐng)求和智能檢索模塊返回的檢索結(jié)果的功能外,它還具有提供用戶對(duì)檢索結(jié)果進(jìn)行信息反饋以及對(duì)用戶行為進(jìn)行動(dòng)態(tài)監(jiān)測(cè)的功能。具體表現(xiàn)為:(1)建立用戶個(gè)人檔案。當(dāng)用戶首次登錄時(shí),用戶界面代理要求用戶通過注冊(cè)建立起自己的個(gè)人檔案,內(nèi)容涉及用戶身份、知識(shí)背景、興趣領(lǐng)域等方面的內(nèi)容。(2)對(duì)用戶行為進(jìn)行動(dòng)態(tài)監(jiān)測(cè)。對(duì)用戶行為的動(dòng)態(tài)監(jiān)測(cè)可以包括:①計(jì)算用戶對(duì)頁面的瀏覽時(shí)間。②記錄用戶對(duì)頁面特定部分的操作,如對(duì)某一部分的復(fù)制。③計(jì)算用戶瀏覽頁面距離現(xiàn)在的時(shí)間。(3)獲取用戶反饋信息。用戶界面代理建立了用戶對(duì)檢索結(jié)果的評(píng)價(jià)機(jī)制,鼓勵(lì)用戶對(duì)檢索結(jié)果給出量化的評(píng)價(jià)值,用于更新用戶偏好本體論庫中的內(nèi)容。
任務(wù)本體論庫以機(jī)器可讀的形式描述領(lǐng)域內(nèi)任務(wù)專家的行為知識(shí),闡明處理某一檢索任務(wù)的策略、方法和過程,指導(dǎo)計(jì)算機(jī)自動(dòng)實(shí)現(xiàn)檢索任務(wù)目標(biāo)的完成。當(dāng)用戶向系統(tǒng)發(fā)出檢索請(qǐng)求時(shí),智能檢索模塊根據(jù)相應(yīng)的用戶偏好本體論庫和任務(wù)本體論庫,指導(dǎo)檢索過程沿著效果最優(yōu)的方向進(jìn)行檢索。為了便于知識(shí)的共享和重用,任務(wù)本體論應(yīng)該盡量采用獨(dú)立于專業(yè)領(lǐng)域的結(jié)構(gòu)設(shè)計(jì),即專業(yè)領(lǐng)域知識(shí)的改變只會(huì)影響任務(wù)的操作對(duì)象,而不會(huì)影響任務(wù)本身的結(jié)構(gòu)定義。
領(lǐng)域本體論庫中包含著一個(gè)領(lǐng)域中最基本的概念、概念的定義以及各個(gè)概念之間的語義關(guān)系,它通過概念蘊(yùn)涵、屬性關(guān)聯(lián)、相互約束和公理定義等方法,組織成具有網(wǎng)狀結(jié)構(gòu)的、可共享的形式化本體論模型。
領(lǐng)域本體論庫在信息檢索系統(tǒng)中的作用主要包括以下三個(gè)方面:(1)利用領(lǐng)域本體論庫對(duì)網(wǎng)頁文檔進(jìn)行語義標(biāo)引。對(duì)于智能搜索代理搜索到的網(wǎng)頁信息文檔,文檔分析器首先對(duì)其進(jìn)行特征詞的抽取,然后可以在領(lǐng)域本體論庫的協(xié)助下,判斷網(wǎng)頁信息文檔特征詞的所屬領(lǐng)域,將其轉(zhuǎn)換為本體論中的概念詞,并與網(wǎng)頁文檔建立起映射關(guān)系,從而實(shí)現(xiàn)對(duì)網(wǎng)頁文檔的語義標(biāo)引。(2)利用領(lǐng)域本體論庫對(duì)用戶的查詢請(qǐng)求進(jìn)行規(guī)范和挖掘。當(dāng)用戶進(jìn)行查詢時(shí),檢索系統(tǒng)根據(jù)用戶的查詢請(qǐng)求,調(diào)用領(lǐng)域本體論庫中的相關(guān)知識(shí),從中找出與用戶查詢關(guān)鍵詞相對(duì)應(yīng)的概念以及所屬領(lǐng)域,供智能檢索模塊生成更精確的查詢,以提高查詢的準(zhǔn)確率。(3)利用領(lǐng)域本體論庫構(gòu)建用戶興趣模型。利用領(lǐng)域本體論庫構(gòu)建的用戶興趣模型(用戶偏好本體論庫),不僅包含了用戶的興趣概念,而且還包含了用戶興趣概念之間的各種關(guān)聯(lián),這樣用戶在進(jìn)行信息檢索時(shí),系統(tǒng)可以在用戶興趣概念之間進(jìn)行推理,挖掘出用戶潛在的興趣概念。
用戶偏好本體庫是實(shí)現(xiàn)智能化信息檢索的重要構(gòu)件。通過用戶偏好本體庫,檢索系統(tǒng)可以獲取用戶的興趣所在,確定用戶檢索詞在領(lǐng)域本體論中的位置,從而明確用戶的個(gè)性化信息需求,使信息檢索變得更有針對(duì)性。具體來講,在用戶輸入檢索詞后,系統(tǒng)將首先把檢索詞提交給相應(yīng)的用戶偏好本體論庫,查驗(yàn)是否屬于用戶已有的興趣,如果是,智能檢索模塊將據(jù)此在個(gè)性化信息索引庫中進(jìn)行檢索;如果不是,則可將檢索請(qǐng)求與本體論服務(wù)器進(jìn)行交互,使其在領(lǐng)域本體論庫和任務(wù)本體論庫的支持下完成信息需求的表達(dá),同時(shí)在該用戶偏好本體庫中對(duì)這一新的愛好需求進(jìn)行記錄,方便以后遇到相似的檢索詞時(shí),系統(tǒng)能較快地識(shí)別檢索詞所屬的本體論領(lǐng)域,這樣既可以節(jié)省用戶檢索的成本,又可以提高系統(tǒng)的檢索效率。
智能檢索模塊的功能是負(fù)責(zé)整個(gè)信息的檢索過程。當(dāng)智能檢索模塊收到用戶界面代理提交的用戶查詢請(qǐng)求后,它首先將用戶查詢?cè)~語與本體論服務(wù)器中的用戶偏好本體論庫進(jìn)行交互,驗(yàn)證它是否屬于用戶已有的興趣:(1)若屬于用戶已有的興趣,則將描述該興趣的關(guān)鍵詞轉(zhuǎn)換為相應(yīng)的領(lǐng)域概念詞,并直接在個(gè)性化信息索引庫中進(jìn)行檢索匹配,當(dāng)匹配成功完成后,智能檢索模塊就把檢索結(jié)果提交給用戶界面代理返回用戶;如果檢索匹配失敗,智能檢索模塊則向智能搜索代理發(fā)出查詢請(qǐng)求,由智能搜索代理對(duì)網(wǎng)絡(luò)信息資源進(jìn)行相應(yīng)的搜索。(2)若用戶輸入的查詢?cè)~不屬于用戶已有的興趣,那么智能檢索模塊就借助本體論服務(wù)器中的領(lǐng)域本體論庫以及任務(wù)本體論庫,篩選出符合用戶信息需求的檢索領(lǐng)域和相關(guān)的概念集,并在該用戶的偏好本體論庫中對(duì)這一新的愛好進(jìn)行記錄,然后通知智能搜索代理對(duì)網(wǎng)絡(luò)上的信息資源進(jìn)行相應(yīng)的搜索。
智能搜索代理的主要功能在于對(duì)網(wǎng)絡(luò)信息資源進(jìn)行搜索。當(dāng)智能搜索代理收到智能檢索模塊向其發(fā)出的搜索信號(hào)時(shí),它首先記錄下智能檢索模塊的檢索請(qǐng)求,以便文檔分析器進(jìn)行過濾,同時(shí)完成對(duì)相關(guān)網(wǎng)絡(luò)信息資源進(jìn)行搜索的任務(wù)。為保持個(gè)性化信息索引庫與網(wǎng)絡(luò)信息環(huán)境更新變化的同步,智能搜索代理可根據(jù)要求連續(xù)運(yùn)轉(zhuǎn)。
文檔分析器的功能主要是對(duì)智能搜索代理收集到的網(wǎng)絡(luò)信息文檔進(jìn)行語義概念層次上的分析與過濾,只保留下與用戶相關(guān)的網(wǎng)絡(luò)文檔,而過濾掉無關(guān)的網(wǎng)絡(luò)文檔。具體來說,首先,文檔分析器需要對(duì)所收集到的每一個(gè)新文檔進(jìn)行網(wǎng)頁特征詞的抽取與加權(quán)。網(wǎng)頁特征詞的抽取,一方面可以從網(wǎng)絡(luò)文檔的標(biāo)題、小標(biāo)題、摘要和關(guān)鍵詞中直接抽取,另一方面可以從網(wǎng)絡(luò)文檔的正文中抽取,從正文中抽取網(wǎng)頁特征詞時(shí),目前大多是采取基于頻率統(tǒng)計(jì)的算法來進(jìn)行的。其次,對(duì)于抽取的這些網(wǎng)頁特征詞,文檔分析器還需要在領(lǐng)域本體論的協(xié)助下,將其轉(zhuǎn)換為本體論中的概念詞語,以明確其真正含義。最后,還要把這些轉(zhuǎn)換為本體論中的概念詞語與智能搜索代理中記錄的檢索概念詞集進(jìn)行匹配,只有匹配成功的概念詞語所對(duì)應(yīng)的網(wǎng)絡(luò)文檔才是需要保留下來的。將這些保留下來的網(wǎng)絡(luò)文檔按照某種規(guī)則排序后存入個(gè)性化信息索引庫中,供智能檢索模塊進(jìn)行檢索。
建立個(gè)性化信息索引庫是對(duì)客觀信息空間的一種抽象,即從中抽取出與用戶相關(guān)的信息實(shí)體,濾出無關(guān)信息。建立個(gè)性化信息索引庫不僅滿足了用戶的個(gè)性化信息需求,節(jié)省了用戶的有限精力,同時(shí)也提高了信息檢索的整體效率。
個(gè)性化信息索引庫中的網(wǎng)頁信息是按照興趣概念進(jìn)行存儲(chǔ)的,每個(gè)興趣概念都與用戶偏好本體論庫中的興趣概念相對(duì)應(yīng)。當(dāng)用戶偏好本體論庫中用戶的興趣發(fā)生變化時(shí),個(gè)性化信息索引庫相應(yīng)地也會(huì)做出調(diào)整。在這里,我們假定個(gè)性化信息索引庫中包含有一個(gè)對(duì)自身信息進(jìn)行管理的管理服務(wù)器,管理服務(wù)器會(huì)把不符合用戶興趣的興趣概念及其相應(yīng)的網(wǎng)頁信息從個(gè)性化信息索引庫中刪去,同時(shí)加進(jìn)用戶新產(chǎn)生的興趣概念等。
本文提出的基于本體論的智能化網(wǎng)絡(luò)信息檢索模型的實(shí)現(xiàn),將在很大程度上改進(jìn)當(dāng)前搜索引擎存在的不足,不僅可以使檢索系統(tǒng)具有更高的查全率和查準(zhǔn)率,而且在一定程度上使檢索系統(tǒng)表現(xiàn)出智能化和個(gè)性化。具體主要有以下幾個(gè)方面:
(1)由于在檢索系統(tǒng)中加入了用戶偏好本體論庫和領(lǐng)域本體論庫,真正提高了信息檢索的查準(zhǔn)率和查全率。借助領(lǐng)域本體論庫,檢索系統(tǒng)可以規(guī)范用戶的提問,使用戶的檢索用詞與信息的標(biāo)引用詞在語義概念層面上達(dá)到一致,從而提高信息檢索的查準(zhǔn)率;借助用戶偏好本體論庫,通過對(duì)用戶興趣偏好的分析,使信息檢索的領(lǐng)域更加明確,同樣也有助于提高信息檢索的查準(zhǔn)率;通過用戶偏好本體論庫和領(lǐng)域本體論庫中概念之間的各種關(guān)聯(lián),可以對(duì)用戶查詢的概念進(jìn)行擴(kuò)檢,使信息檢索的覆蓋面更為寬廣,從而提高系統(tǒng)的查全率。
(2)滿足用戶進(jìn)行智能化和個(gè)性化信息檢索的需求。一方面,用戶可以采用自然語言來描述查詢請(qǐng)求,系統(tǒng)利用本體論的推理功能,把出現(xiàn)在用戶查詢中的概念、屬性、公理以及函數(shù)等信息進(jìn)行綜合考慮,挖掘出用戶的真正需求所在,從而實(shí)現(xiàn)智能化的信息查詢;另一方面,系統(tǒng)通過對(duì)記錄用戶檢索瀏覽行為的日志文件以及用戶反饋的評(píng)價(jià)信息進(jìn)行分析,提取用戶的興趣概念,構(gòu)建用戶的興趣模型,用戶在進(jìn)行檢索時(shí),系統(tǒng)就可以以該用戶的興趣模型為基礎(chǔ),更深入地理解用戶的檢索需求,從而進(jìn)行更有針對(duì)性的個(gè)性化信息檢索。
[1] 鄭美玉.基于本體論的高校圖書館個(gè)性化書目推送系統(tǒng)[J].圖書情報(bào)工作,2010(6):108-111.
[2] 李學(xué)慶,賈玉文.基于本體論的個(gè)性化網(wǎng)絡(luò)信息檢索[J].圖書館學(xué)研究,2007(1):67-69.
[3] 徐麗.本體論導(dǎo)引下的信息檢索[J].情報(bào)雜志,2005(1):121-122.
[4] 昊金紅.一種基于本體論的知識(shí)檢索原型系統(tǒng)[J].情報(bào)雜志,2004(11):45-46.
[5] 董慧.基于本體論和數(shù)字圈韋館的信息檢索[J].情報(bào)學(xué)報(bào),2003(6):648-649.