白曉玲
〔摘 要〕從數(shù)字圖書館知識組織方式、知識組織策略、web信息預(yù)處理及信息預(yù)測和知識檢索,闡述了數(shù)字圖書館的知識組織與知識檢索。
〔關(guān)鍵詞〕知識組織;知識檢索;數(shù)字圖書館
〔中圖分類號〕G250.76 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)01-0073-05
Knowledge Organization and Knowledge Retrieval of Digital Library
Bai Xiaoling
(Library,Hubei Institute for Nationalities,Enshi 445000,China)
〔Abstract〕This article elaborated the digital library knowledge organization and the knowledge retrieval from the digital library knowledge organization way,the knowledge organization strategy,the web information pretreatment and the information forecast and the knowledge retrieval.
〔Key words〕knowledge organization;knowledge retrieval;digital library
知識組織是信息組織的延伸,是將經(jīng)過大腦處理后的信息,即知識進(jìn)行組織的方式,這種方式更有利于實(shí)現(xiàn)用戶解決問題。但也不一定,因?yàn)橹R使用者和知識創(chuàng)建者之間還有一個背景知識匹配問題。對于數(shù)字圖書館來說,知識組織就是通過知識挖掘、知識發(fā)現(xiàn)、知識匹配、數(shù)據(jù)融合、推送技術(shù)、智能搜索等多種智能技術(shù)和軟件技術(shù)對信息進(jìn)行精簡。發(fā)現(xiàn)隱含在信息中的有用知識單元并組織成知識庫。其任務(wù)就是將繁雜的數(shù)字化信息按照一定的結(jié)構(gòu)序化為知識庫,然后將知識庫提供給數(shù)字圖書館的用戶。如何科學(xué)、合理、方便、有效地進(jìn)行數(shù)字圖書館的知識組織,是一個急待探索的現(xiàn)實(shí)問題。
知識檢索是將知識按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出有關(guān)知識信息的過程,它涉及知識的表示、存儲、組織和存取等多個環(huán)節(jié)。知識檢索技術(shù)已經(jīng)成為現(xiàn)代社會各種應(yīng)用的關(guān)鍵。但是,基于關(guān)鍵詞匹配的傳統(tǒng)信息檢索技術(shù)難以避免丟失相關(guān)信息或產(chǎn)生大量冗余信息。在這種情況下,人們不斷地探索新的知識資源組織方法、新的知識檢索理論與技術(shù),嘗試將人工智能技術(shù)應(yīng)用于知識檢索,建立知識檢索的理論、方法與技術(shù)??傊?,知識組織是知識檢索的基礎(chǔ),知識檢索是實(shí)現(xiàn)知識組織的手段。因此,對數(shù)字圖書館知識檢索進(jìn)行探索,必須探討知識的組織方式和知識檢索方式。
1 數(shù)字圖書館知識組織方式
1.1 文本方式
文本方式就是文件夾方式:比如你打開我的電腦,里面有c、d、e、f盤,然后每個盤里又有不同的文件。一種全局性的信息結(jié)構(gòu),它將文檔中的不同部分通過關(guān)鍵字建立鏈接,使信息得以用交互方式搜索。它是超級文本的簡稱。具體說來,文本是一個具有符號名的一組相關(guān)的邏輯記錄集合。一個文本可以包括數(shù)據(jù)程序或字符,是計算機(jī)保存處理結(jié)果的基本單位。以文本方式組織數(shù)字圖書館信息資源的優(yōu)點(diǎn)是:實(shí)現(xiàn)簡單方式,能存儲非結(jié)構(gòu)化信息。但是,當(dāng)信息結(jié)構(gòu)較為復(fù)雜時,文本方式難以實(shí)現(xiàn)有效的控制和管理,而且也存在文本大小和數(shù)量的沖突。因此,文本方式只能是數(shù)字圖書館進(jìn)行知識組織的輔助方式。
1.2 數(shù)據(jù)庫方式
數(shù)據(jù)庫是在計算機(jī)存儲設(shè)備上合理存放的相互關(guān)聯(lián)的數(shù)據(jù)集合。數(shù)據(jù)庫本質(zhì)的3個方面是相關(guān)數(shù)據(jù)、共同存取組織方式、數(shù)據(jù)共享。以數(shù)據(jù)庫方式進(jìn)行數(shù)字圖書館的知識組織,其優(yōu)點(diǎn)是可以高速處理大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且以信息項(xiàng)作為數(shù)據(jù)的最小存取單位;不足是目前數(shù)據(jù)庫技術(shù)尚不能提供數(shù)據(jù)化的數(shù)據(jù)。如專題信息之間的知識關(guān)聯(lián)。此方式適用于規(guī)范數(shù)據(jù)、行業(yè)數(shù)據(jù)等。以物理形態(tài)可劃分為,層次型數(shù)據(jù)庫、網(wǎng)狀型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫。
1.3 主題樹方式
主題樹方式就像注冊表那樣的結(jié)構(gòu)。主題樹是一種可供檢索和查詢的等級式主題目錄,組織信息資源的方法,是將信息資源按照某種事先確定的概念體系分門別類地逐層加以組織。用戶可以先通過瀏覽的方式層層遍歷,直到找到所需要的信息線索,再通過信息線索鏈接到相應(yīng)的網(wǎng)絡(luò)信息資源。主題樹以超文本鏈接的方式將不同學(xué)科、專業(yè)、行業(yè)和區(qū)域的信息按照分類或主題目錄的方式組織起來。它提供一種界面機(jī)制,用戶利用這個界面,通過主題目錄間接地連接并使用多個實(shí)際的數(shù)據(jù)資源。利用主題樹方式進(jìn)行數(shù)字圖書館的知識組織,其優(yōu)點(diǎn)是具有良好的可擴(kuò)充性和嚴(yán)密的系統(tǒng)性,但利用這種方式必須事先建立一套完整的主題目錄分類體系。此方式適合建立專業(yè)性信息資源體系,不適合建立大型的綜合性的信息資源系統(tǒng)。
1.4 超媒體方式
超媒體是超文本(hypertext)和多媒體在信息瀏覽環(huán)境下的結(jié)合。它是超級媒體的簡稱。它將文字、圖表、聲音、圖像、視頻等多媒體信息以超文本方式組織起來,人們通過瀏覽的方式搜尋所需信息。這種方式避免了檢索語言的復(fù)雜性,使人們可以通過高度鏈接的網(wǎng)絡(luò)在各種知識庫中自由遨游;但是,資源的有序化整理和組織存在較大難度,而且當(dāng)超媒體網(wǎng)絡(luò)過于龐大時,用戶很難準(zhǔn)確、迅速地定位于其真正需要的信息節(jié)點(diǎn)上。此方式適合對動態(tài)信息進(jìn)行組織。在Internet瀏覽頁,通過鼠標(biāo)的點(diǎn)擊,用戶不僅能從一個文本跳到另一個文本,而且可以激活一段聲音,顯示一個圖形,甚至可以播放一段動畫。Internet采用超文本和超媒體的信息組織方式,將信息的鏈接擴(kuò)展到整個Internet上。Web就是一種超文本信息系統(tǒng),Web的一個主要的概念就是超文本鏈接,它使得文本不再像一本書一樣是固定的線性的。而是可以從一個位置跳到另外的位置。你可以從中獲取更多的信息??梢赞D(zhuǎn)到別的主題上。想要了解某一個主題的內(nèi)容只要在這個主題上點(diǎn)一下,就可以跳轉(zhuǎn)到包含這一主題的文檔上。正是這種多連接性我們才把它稱為Web。
1.5 知識庫方式[2]
知識庫(Knowledge Base)是知識工程中結(jié)構(gòu)化,易操作,易利用,全面有組織的知識集群,是針對某一(或某些)領(lǐng)域問題求解的需要,采用某種(或若干)知識表示方式在計算機(jī)存儲器中存儲、組織、管理和使用的互相聯(lián)系的知識片集合。這些知識片包括與領(lǐng)域相關(guān)的理論知識、事實(shí)數(shù)據(jù),由專家經(jīng)驗(yàn)得到的啟發(fā)式知識,如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運(yùn)算法則以及常識性知識等。知識庫系統(tǒng)從組織結(jié)構(gòu)上支持?jǐn)?shù)字圖書館的知識組織?,F(xiàn)在多是由數(shù)據(jù)庫系統(tǒng)從組織結(jié)構(gòu)上組織數(shù)字信息的。但數(shù)據(jù)庫技術(shù)不能提供數(shù)據(jù)信息之間的知識關(guān)聯(lián)。知識庫則比數(shù)據(jù)庫有更強(qiáng)的知識組織功能。知識庫是以一致的形式存儲數(shù)字信息的機(jī)構(gòu),其組織的信息是高度結(jié)構(gòu)化的符號數(shù)據(jù)。數(shù)字圖書館可以采用順序文件、索引文件、倒排文件等組織數(shù)字文件的形式來組成知識庫。
1.6 集成化搜索引擎方式
集成搜索引擎顧名思義就是集合了N多搜索類別,且集成了N個專業(yè)的搜索引擎于一身,能方便用戶更全面更快捷地搜索到所需的內(nèi)容。集成搜索引擎(All-in-One Search Page),亦稱為“多引擎同步檢索系統(tǒng) ”(如:引擎之家)是在一個WWW頁面上鏈接若干種獨(dú)立的搜索引擎,檢索時需點(diǎn)選或指定搜索引擎,一次檢索輸入,多引擎同時搜索,用起來相當(dāng)方便。集成搜索引擎無自建數(shù)據(jù)庫,不需研發(fā)支持技術(shù),當(dāng)然也不能控制和優(yōu)化檢索結(jié)果。但集成搜索引擎制作與維護(hù)技術(shù)簡單,可隨時對所鏈接的搜索引擎進(jìn)行增刪調(diào)整和及時更新,尤其大規(guī)模專業(yè)(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。
集成化搜索引擎是今后知識組織發(fā)展的一個重要方向。對于其具體組織方式是在主題樹中集成搜索引擎功能.將各個搜索引擎按主題樹的結(jié)構(gòu)方式組織起來(一種搜索引擎可能分布在多個樹枝上),通過瀏覽主題樹來選擇搜索引擎,供進(jìn)一步查詢需要。
2 數(shù)字圖書館知識組織策略
2.1 采用分類主題一體化模式來組織數(shù)字圖書館的知識[3]
分類法和主題法是圖書館傳統(tǒng)的知識組織方法,當(dāng)然也可以應(yīng)用于數(shù)字圖書館的知識組織,但基于數(shù)字圖書館獨(dú)有的特點(diǎn),分類主題一體化應(yīng)成為目前數(shù)字圖書館知識組織的適用模式,它采用分類主題一體化語言來組織知識。分類主題一體化語言是由分類法與主題法有機(jī)結(jié)合而成的一種標(biāo)引語言,它是在一個語言系統(tǒng)中包括分類表和敘詞表兩個主要部分,并對兩部分的概念、標(biāo)識、參照、索引實(shí)施統(tǒng)一控制,從而同時滿足分類標(biāo)引和主題標(biāo)引的需要;比較有代表性的美國MeSH就是采用了知識樹和字順表相結(jié)合的方式來揭示知識和檢索知識。也可以是由原來的一種或幾種分類語言與一種或幾種主題語言合成的語言對應(yīng)系統(tǒng),以實(shí)現(xiàn)分類語言與主題語言的標(biāo)識互換。分類主題一體化語言實(shí)現(xiàn)了分類語言與主題語言的結(jié)構(gòu)整合和性能互補(bǔ)。
利用搜索引擎來進(jìn)行知識組織是分類主題一體化知識組織模式的雛形,搜索引擎的分類體系雖然有較好的適應(yīng)性和實(shí)用性,但是它在知識體系的建構(gòu)和展示等方面仍存在不少缺陷。理想的分類主題一體化模式應(yīng)包括三部分:一個結(jié)構(gòu)簡明的知識分類體系。通過該知識分類系統(tǒng),實(shí)現(xiàn)對信息知識領(lǐng)域的宏觀控制;一個智能化的控制詞表。通過它可實(shí)現(xiàn)對作者語言與用戶語言的控制和轉(zhuǎn)換。自動標(biāo)引系統(tǒng)可以把使采自信息源的作者語言轉(zhuǎn)換為標(biāo)引語言;查詢系統(tǒng)則可以把用戶語言轉(zhuǎn)換為標(biāo)引語言,使用戶語言與作者語言通過標(biāo)引語言達(dá)到最佳的匹配;建立分類體系與控制詞表的系統(tǒng)聯(lián)系,將標(biāo)引語言進(jìn)而也將作者語言和用戶語言納入分類體系。從而不但實(shí)現(xiàn)自然語言檢索,也可以在任何類下進(jìn)行語詞檢索。
2.2 采用元數(shù)據(jù)來組織數(shù)字圖書館的知識
元數(shù)據(jù)通常被定義為“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。元數(shù)據(jù)技術(shù)在數(shù)字圖書館系統(tǒng)中有著重要的地位,在知識組織方面元數(shù)據(jù)技術(shù)發(fā)揮著關(guān)鍵性的作用。元知識概括地說就是關(guān)于“知識的知識”,在產(chǎn)生式系統(tǒng)中,元知識由元事實(shí)和元規(guī)則構(gòu)成。元知識可以最大限度地滿足數(shù)字圖書館知識組織的要求,但是元知識的廣泛利用還有待知識工程(包括人工智能)的發(fā)展和普及。而人工智能的許多方面仍處在探索階段,距離實(shí)際的推廣應(yīng)用還有一段時間。運(yùn)用元數(shù)據(jù)來組織數(shù)字圖書館知識是目前較好的選擇,這體現(xiàn)在以下兩方面。
2.2.1 知識發(fā)現(xiàn)
知識發(fā)現(xiàn)是近幾年興起的一個極有發(fā)展前途又有廣泛應(yīng)用前景的新領(lǐng)域,其研究的主要目標(biāo)是采用有效的算法,從大量現(xiàn)有或歷史數(shù)據(jù)集合中發(fā)現(xiàn)并找出最初未知、但最終可理解的有用知識,并用簡明的方式顯示出來。目前,關(guān)系數(shù)據(jù)庫應(yīng)用廣泛,并且具有統(tǒng)一的組織結(jié)構(gòu)、一體化的查詢語言、關(guān)系之間及屬性之間具有平等性等優(yōu)點(diǎn),因此,數(shù)據(jù)庫知識發(fā)現(xiàn)的相關(guān)研究非?;钴S。常用的知識發(fā)現(xiàn)方法主要有:分類規(guī)則、關(guān)聯(lián)規(guī)則、序貫?zāi)J?、相似模式和聚類模式。知識發(fā)現(xiàn)一般包括以下幾個步驟:建立問題;建立目標(biāo)數(shù)據(jù)集;數(shù)據(jù)清理和預(yù)處理;數(shù)據(jù)轉(zhuǎn)換;選定數(shù)據(jù)開采算法;數(shù)據(jù)開采;解釋;評價知識。這些步驟通常需要經(jīng)過多次反復(fù),以提高學(xué)習(xí)效果。數(shù)字圖書館注重信息資源的開發(fā)和共享利用,知識發(fā)現(xiàn)技術(shù)正適應(yīng)了這種需要。圖書館擁有內(nèi)容豐富的館藏文獻(xiàn)及大量的數(shù)據(jù)庫,這些可作為知識發(fā)現(xiàn)的對象,在提供全文檢索和網(wǎng)絡(luò)信息檢索的基礎(chǔ)上可從中挖掘出有用的知識,并揭示出其間的規(guī)律。在這個過程中,因?yàn)榫W(wǎng)絡(luò)信息資源的無序性與分散性問題,許多人對網(wǎng)絡(luò)資源進(jìn)行了手工編目與加工,并著重在資源的選擇性、文獻(xiàn)與權(quán)限等方面給某些網(wǎng)址和數(shù)據(jù)集增添了許多有價值的摘要說明。通過人工追加的元數(shù)據(jù)而非機(jī)器抽取的關(guān)鍵詞,用戶可以構(gòu)造更確切的查詢式來對相關(guān)度較高的結(jié)果集進(jìn)行檢索,從而得到比用關(guān)鍵詞等檢索方式更精確的檢索結(jié)果。
2.2.2 知識保存
數(shù)字信息與知識以數(shù)字載體的形式存儲,具有豐富、生動、方便、快捷等優(yōu)點(diǎn),但它與物質(zhì)載體的信息與知識相比壽命卻顯著下降,數(shù)字信息如何實(shí)現(xiàn)長期保存成為數(shù)字圖書館和信息業(yè)所面臨的巨大挑戰(zhàn)。目前對于數(shù)字資源的長期保存通常有兩種策略:一是對原硬件、操作系統(tǒng)和軟件進(jìn)行仿真,二是定期把上一代計算機(jī)上的數(shù)字信息遷移到下一代計算機(jī)。不管是采用“仿真” 策略還是“遷移”策略,數(shù)宇信息資源的長期保存都與元數(shù)據(jù)的創(chuàng)建和維護(hù)有關(guān)。我國國家圖書館制定的《中文元數(shù)據(jù)方案》,正在成為數(shù)字信息的形成與管理中使用標(biāo)準(zhǔn),有助于數(shù)字信息在存取與保存時的完整性。也直接降低保存數(shù)字信息的費(fèi)用。目前,在數(shù)字信息長期保護(hù)方面還沒有統(tǒng)一或通用的元數(shù)據(jù)格式,但有關(guān)研究項(xiàng)目已經(jīng)提出了若干種格式。
2.3 集成分類法、主題詞表和語義元數(shù)據(jù)[4]構(gòu)造數(shù)字圖書館知識組織系統(tǒng)
上文提到分類法和主題詞表是傳統(tǒng)圖書館中最重要的知識組織工具,當(dāng)然也可以應(yīng)用于數(shù)字圖書館的知識組織,但二者直接應(yīng)用于數(shù)字圖書館中,尚有許多缺陷。例如,分類法和主題詞表相對于網(wǎng)絡(luò)信息資源的迅速更新和變化,其結(jié)構(gòu)和內(nèi)容難于自動更新;二者體系龐大、結(jié)構(gòu)復(fù)雜,難于被普通用戶所掌握;它們都側(cè)重于對文獻(xiàn)的標(biāo)引和組織,對數(shù)字圖書館需要的檢索服務(wù)考慮較少。因此,將分類法和主題詞表應(yīng)用于數(shù)字圖書館的知識組織,必須對它們進(jìn)行改造。數(shù)字圖書館中,元數(shù)據(jù)中所包含的原始文獻(xiàn)的內(nèi)容標(biāo)引信息是標(biāo)引員在理解文獻(xiàn)內(nèi)容的基礎(chǔ)上,根據(jù)分類法、主題法的知識體系和標(biāo)識系統(tǒng)來表示的,稱為語義元數(shù)據(jù)。由于元數(shù)據(jù)資源沒有像傳統(tǒng)圖書館中的館藏那樣,進(jìn)行分類排架和目錄組織,從而肢解了隱藏其中的知識系統(tǒng),因此,構(gòu)建數(shù)字圖書館知識組織系統(tǒng)的關(guān)鍵是使元數(shù)據(jù)資源中被掩蓋的知識體系顯現(xiàn)出來,發(fā)揮其資源組織和檢索服務(wù)功能。這就是集成分類法、主題詞表和語義元數(shù)據(jù)構(gòu)造數(shù)字圖書館的知識組織系統(tǒng)的基本方法。
2.4 采用專家系統(tǒng)來組織數(shù)字圖書館的知識[5]
人工智能是計算機(jī)科學(xué)的一個分支,它研究如何用計算機(jī)來模擬人的思維和行為從事推理、學(xué)習(xí)、思考、規(guī)劃等活動,解決需人類專家才能解決的復(fù)雜問題。在人工智能的多個研究方向中,專家系統(tǒng)是最成功的一個研究領(lǐng)域。專家系統(tǒng)的基本結(jié)構(gòu)主要包括4個組成部分:知識庫、推理機(jī)、工作存儲器、人機(jī)接口。其中,知識庫和推理機(jī)是專家系統(tǒng)的核心,建立知識庫的關(guān)鍵問題是采用什么知識表示方法能準(zhǔn)確地表達(dá)領(lǐng)域知識;推理機(jī)設(shè)計的主要問題是確定推理機(jī)制;人機(jī)接口是一個用戶窗口,以處理各種咨詢問題;工作存儲器則是一個“黑板”,用于推理過程中的中問假設(shè)和結(jié)論。目前在圖書情報領(lǐng)域應(yīng)用較多的是情報檢索及分類專家系統(tǒng),這些專家系統(tǒng)多數(shù)是依照其它專業(yè)領(lǐng)域的專家系統(tǒng)。將專家系統(tǒng)應(yīng)用于數(shù)字圖書館的建設(shè),探索智能化的知識組織系統(tǒng)是一個新的研究課題。與現(xiàn)行的各類知識組織系統(tǒng)相比較,專家系統(tǒng)在知識處理和組織上有如下優(yōu)勢:專家系統(tǒng)除存有數(shù)據(jù)元素外,還存貯數(shù)據(jù)元素的組合規(guī)則,在需要時可以通過學(xué)習(xí)和推理機(jī)制實(shí)現(xiàn)知識和信息的重構(gòu);專家系統(tǒng)可以按款目意義組織數(shù)據(jù)庫,并能夠理解自然語言的查詢,以很強(qiáng)的交往形式啟發(fā)用戶準(zhǔn)確表達(dá)自己的信息需求,實(shí)現(xiàn)智能查詢;專家系統(tǒng)具有閱讀和理解能力,能自動而非人工輸人新增加的數(shù)據(jù);專家系統(tǒng)以自然語言來實(shí)現(xiàn)人機(jī)接口,并以很強(qiáng)的交返形式啟發(fā)用戶準(zhǔn)確表達(dá)自己的知識需求,具有很強(qiáng)的系統(tǒng)易用性。專家系統(tǒng)的這些性能決定了它在知識組織方面比以往任柯其他方法都顯得靈活先進(jìn)。
3 知識檢索
知識檢索是一種全新的信息檢索方式,是在現(xiàn)有的信息檢索技術(shù)以及模型上發(fā)展而來的。知識檢索和信息檢索的不同,就在于知識檢索強(qiáng)調(diào)了語義,不會和信息檢索一樣,只是基于字面的機(jī)械匹配,它從文章的語義、概念出發(fā),能夠揭示文章的內(nèi)在含義。做到了語義和概念層次上的標(biāo)引工作,知識檢索就提高了查全率和查準(zhǔn)率,降低了用戶的負(fù)擔(dān)。知識檢索一般包括以下兩方面。
3.1 WEB信息的預(yù)處理[6]
信息預(yù)處理的主要功能是過濾文件系統(tǒng)信息,為文件系統(tǒng)的表達(dá)提供一種滿意的索引輸出。其基本目的是為了獲取最優(yōu)的索引記錄,使用戶能很容易地檢索到所需信息。
3.2 信息過濾
信息過濾(Information Filtering)稱為信息篩選,簡稱IF,信息過濾的含義應(yīng)該包括兩個層面的內(nèi)容:一方面是從大量無序的信息中去除無用的信息;另一方面是從動態(tài)的信息流中將滿足用戶需求和興趣的信息挑選出來。
3.3 格式過濾
信息預(yù)處理應(yīng)該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
3.4 語詞切分
語詞是信息表達(dá)的最小單位,而漢語不同于西方語言,其句子的語詞間沒有分隔符因此需要進(jìn)行語詞切分。常用的語詞切分方法有按詞典進(jìn)行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯(lián)想——回溯法、全自動詞典切詞等。近年來,又出現(xiàn)了基于神經(jīng)元網(wǎng)絡(luò)的和專家系統(tǒng)的分詞方法和基于統(tǒng)計和頻度分析的分詞方法。
3.5 詞法分析
詞法分析作為漢語分析的基礎(chǔ),分析結(jié)果的準(zhǔn)確性將在很大程度上影響后來的句法分析和語義分析。詞法分析過程中應(yīng)注意以下問題:①切分排歧。歧義處理是自動切分的難題之一,一般把切分歧義分為兩種結(jié)構(gòu)類型:交集型歧義(交叉歧義)和組合型歧義(覆蓋歧義)。②未登錄詞識別。未登錄詞是指沒有包括在分詞詞表中但必須切分出來的詞,包括各類專有名詞、術(shù)語、縮略詞和新詞等。③詞性消歧。詞性兼類是詞性標(biāo)注的主要問題,進(jìn)行詞性標(biāo)注時的難點(diǎn)在于兼類詞的消歧。
3.6 詞性標(biāo)注和短語識別
詞性標(biāo)注就是采用適當(dāng)?shù)姆椒?。根?jù)上下文的語法關(guān)系消除句子中的語法兼類,確定其詞性并加以標(biāo)注的過程。漢語短語識別就是把漢語文本中的短語作為一個整體識別出來,而不對內(nèi)部結(jié)構(gòu)做分析。漢語句子在切分的基礎(chǔ)上,利用基于規(guī)則和統(tǒng)計的方法進(jìn)行詞性標(biāo)注。在此基礎(chǔ)上,還要利用各種語法規(guī)則,識別出重要的短語結(jié)構(gòu)。
3.7 自動標(biāo)引
自動標(biāo)引是指直接通過計算機(jī)的操作處理,賦予檢索標(biāo)識的活動。自動標(biāo)引是根據(jù)檢索的需要發(fā)展起來的,是電子環(huán)境下出現(xiàn)的一種新的標(biāo)引形式。從網(wǎng)頁文檔中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶檢索入口的關(guān)鍵性信息,用該組信息對文件進(jìn)行標(biāo)引,使用戶可以通過輸入關(guān)鍵信息檢索到該文文件的簡要信息,如標(biāo)題、摘要、時間、作者和URL等,進(jìn)一步點(diǎn)擊可查詢到該文檔。
3.8 自動分類
建立并維護(hù)一套完整的分類目錄體系,根據(jù)文件的信息特征,計算出與其相關(guān)程度最大的一個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔[7]。
4 知識檢索表達(dá)及信息預(yù)測
知識檢索包括文件信息表達(dá)和查詢信息表達(dá)以及相關(guān)信息預(yù)測過程[8]。
4.1 信息表達(dá)
信息的表達(dá)有多種方式,如布爾表達(dá)、矢量空間表達(dá)、自然語言表達(dá)等,每種表達(dá)方式由應(yīng)用系統(tǒng)服務(wù)者提出并由整個應(yīng)用系統(tǒng)的目的和需求所決定,并對應(yīng)于相應(yīng)的存儲模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務(wù)系統(tǒng)的性能。
4.2 查詢分析
用戶端的查詢信息首先要進(jìn)行分析處理,提取出查詢項(xiàng)索引、邏輯表達(dá)式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索和獲取預(yù)先生成的本地索引。查詢索引和文件索引采取同樣的表達(dá)方式,因此能夠采取相似性估計算法檢索出相關(guān)文件。
4.3 查詢擴(kuò)展
查詢擴(kuò)展指在檢索前,先根據(jù)擴(kuò)展詞表自動把用戶查詢關(guān)鍵詞的同義、近義詞擴(kuò)展進(jìn)來形成新的查詢,然后提交檢索。其核心是從詞的概念層次來認(rèn)識和擴(kuò)充用戶的檢索請求,從而提高檢索的查全率。近年來,為了提高信息檢索的性能,將應(yīng)用領(lǐng)域知識和索引、相關(guān)性、估計、查詢表達(dá)相結(jié)合實(shí)現(xiàn)查詢擴(kuò)展,即查詢索引還包括不在用戶查詢中出現(xiàn)的查詢詞部分。
4.4 查詢詞的選擇策略
查詢詞的選擇包括,非獨(dú)立詞:非獨(dú)立詞指的是和查詢詞具有較大相關(guān)性的詞。但是預(yù)先必須計算文件集合中的所有詞之間的相關(guān)性。反饋詞:根據(jù)用戶反饋的文件信息,按照在相關(guān)文件和非相關(guān)文件中詞的出現(xiàn)頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。交互式選擇:用戶從通過上述策略得出的待選詞中決定最后的查詢詞。反饋網(wǎng)絡(luò)屬于人機(jī)交互范疇,目的在于提高查詢性能和針對性。不同的用戶根據(jù)實(shí)際情況提供不同的反饋信息,不同的信息檢索服務(wù)系統(tǒng)按照其功能與檢索方法也有不同的反饋結(jié)構(gòu)和交互方式,因此查詢結(jié)果也不盡相同。
4.5 信息檢索模型
信息檢索系統(tǒng)的核心是搜索引擎,它需要從大量復(fù)雜信息中,篩選出符合用戶需要的信息。根據(jù)搜索引擎查找相關(guān)信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
綜上所述,知識檢索就是綜合應(yīng)用信息管理科學(xué)、人工智能、認(rèn)知科學(xué)及語言學(xué)等多學(xué)科的先進(jìn)理論與技術(shù),基于知識和知識組織,融合知識處理和多媒體信息處理等多種方法與技術(shù),充分表達(dá)和優(yōu)化用戶需求,能高效存取所有媒體類型的知識源,并能準(zhǔn)確精選用戶需要的結(jié)果。知識檢索是傳統(tǒng)信息檢索的發(fā)展,它利用語義分析的結(jié)果,對知識源進(jìn)行概念級的檢索,對用戶提出的問題給出準(zhǔn)確度和相關(guān)度最高的檢索結(jié)果。知識檢索的實(shí)質(zhì)是把借助語義知識庫理解、分析和規(guī)范后的檢索請求與經(jīng)過語義知識庫分析的信息源索引庫進(jìn)行語義匹配。并提交給界面主體的過程。知識檢索是針對信息檢索中存在的語義性較差、智能性低、知識性較弱等現(xiàn)狀提出的一種基于語義和知識關(guān)聯(lián)。運(yùn)用知識處理技術(shù)和知識組織技術(shù),實(shí)現(xiàn)信息查詢語義化、智能化的一種高級信息檢索方式。未來在語義網(wǎng)上,知識檢索的對象是定義完善的本體,知識檢索是指根據(jù)用戶需求或問題的實(shí)際情況找出可利用的知識使問題得到圓滿解決的過程。知識檢索實(shí)際上是約束與知識之間的映射過程。知識檢索是在需要的時候把知識從知識庫中取出來。
參考文獻(xiàn)
[1]王輝.關(guān)于知識組織與信息組織[J].情報科學(xué),2003,21(5):496-498.
[2]鄧君,畢強(qiáng).國內(nèi)機(jī)構(gòu)知識庫研究進(jìn)展[J].圖書與情報,2007,(5):37-42.
[3]劉維開.數(shù)字圖書館的知識組織研究[J].現(xiàn)代情報,2002,22(10):123-124,126.
[4]王軍.VISION:集成分類法、主題詞表和語義元數(shù)據(jù)的概念網(wǎng)絡(luò)[J].情報學(xué)報,2003,22(4):412-418.
[5]盛小平,周媛.數(shù)字圖書館知識組織策略[J].大學(xué)圖書館學(xué)報,2002,20(2):13-18,21.
[6]化柏林,趙亮.知識抽取中的嵌套向量分詞技術(shù)[J].現(xiàn)代圖書情報技術(shù),2007,(7):50-53.
[7]欒芳芳.多種載體信息資源的自動分類方法與實(shí)踐[J].現(xiàn)代圖書情報技術(shù),2007,(7):83-87.
[8]季葉克.情報信息預(yù)測合理化之探討[J].圖書館學(xué)刊,2005,27(5):51-53.