王雅坤 成全
摘 要:文章從相關(guān)性的基本概念、理論模型、用戶認(rèn)知、影響因素以及當(dāng)前基于Web的相關(guān)性等方面對(duì)信息檢索的相關(guān)性問題進(jìn)行了系統(tǒng)梳理,并指出該領(lǐng)域研究未來的發(fā)展趨勢(shì)。
關(guān)鍵詞:信息檢索 相關(guān)性 理論模型 用戶認(rèn)知
中圖分類號(hào): G250.73文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2012)01-0088-07
Research on the Development Trends and Review of Information Retrieval Relevance
Abstract This article gives a systematic review on the information retrieval relevance from five aspects, such as basic concepts, theoretical models, user awareness, influencing factors and the relevance of Web-based, and raises the future development trend of research in this field.
Keywords Information Retrieval; Relevance; Theoretical Model; User Awareness
1 引言
相關(guān)性一直以來都是信息檢索領(lǐng)域的核心研究?jī)?nèi)容之一,其概念的起源可以追溯到17世紀(jì)的早期圖書館用戶認(rèn)識(shí)到查找相關(guān)信息的問題,但由于客觀原因,相關(guān)性只是作為一種朦朧意識(shí)停留在人們頭腦中,直到20世紀(jì)20年代少數(shù)學(xué)者(Lotka(1926),Zipf(1949),Urquhart(1959),Price(1965))才陸續(xù)從各個(gè)領(lǐng)域開始了相關(guān)性的研究工作。在信息科學(xué)界,Saracevic[1]認(rèn)為Bradford[2]是最先使用相關(guān)性一詞的學(xué)者,其在20世紀(jì)30年代發(fā)表的“文獻(xiàn)的混沌狀態(tài)”一文中首次提出“主題相關(guān)”的概念。而此后關(guān)于“相關(guān)性”的探討并未引起學(xué)界更大范圍的關(guān)注,直到1958年國(guó)際科學(xué)信息會(huì)議(ICSI)的召開,“相關(guān)性”(Relevance)才作為信息科學(xué)領(lǐng)域的一個(gè)重要概念被學(xué)術(shù)界認(rèn)可[3],至此“相關(guān)性”逐漸成為信息科學(xué)尤其是信息檢索領(lǐng)域經(jīng)久不衰的研究課題,甚至知識(shí)交流學(xué)派的代表人物Saracevic認(rèn)為信息科學(xué)之所以成為獨(dú)立學(xué)科,而不再隸屬于圖書館學(xué)或文獻(xiàn)學(xué)的原因就在于它開展了相關(guān)性的研究,也在于相關(guān)性能夠解釋科學(xué)交流中的諸多問題,足見“相關(guān)性”在信息科學(xué)中的重要地位。
當(dāng)前,各國(guó)學(xué)者已對(duì)信息檢索的相關(guān)性問題展開了深入研究,就其主題領(lǐng)域來看,主要包括相關(guān)性的基本概念研究、理論模型研究、用戶認(rèn)知研究、影響因素研究以及當(dāng)前基于Web的相關(guān)性研究新發(fā)展等[4]。各個(gè)領(lǐng)域在相關(guān)性研究的不同時(shí)期都有所側(cè)重,本文即就上述五個(gè)方面對(duì)相關(guān)性研究的現(xiàn)有成果進(jìn)行分析并指出該領(lǐng)域研究未來的發(fā)展趨勢(shì)。
2 信息檢索相關(guān)性基本概念研究
對(duì)信息檢索相關(guān)性基本概念方面的研究工作始于20世紀(jì)50年代末,各國(guó)學(xué)者借助數(shù)學(xué)工具及各種概念提取方法從各個(gè)角度對(duì)“相關(guān)性”的含義及內(nèi)容進(jìn)行了深入剖析[5]。而相關(guān)性的基本概念研究以1976年為邊界經(jīng)歷了前后兩個(gè)階段。
第一階段(1959-1976)的主要成果有:Maron和Kuhns(1960)利用概率論定義相關(guān)性的概念,提出相關(guān)性并非只是簡(jiǎn)單的是/非選擇問題;Rees(1966)認(rèn)為相關(guān)性受文檔所包含的信息概念的影響,認(rèn)為相關(guān)信息是對(duì)用戶原來所具備的知識(shí)而言有用的信息;Goffman(1970)和Newill(1967)把相關(guān)性當(dāng)成連接有效性的一種測(cè)度,并試圖用數(shù)學(xué)方法證明相關(guān)性(Relevance)與關(guān)聯(lián)性(Relation)之間具有等價(jià)關(guān)系[6];Saracevic(1970,1975,1976)則建議從文檔、詞與文獻(xiàn)引用等各種文獻(xiàn)特征上來定義檢索的相關(guān)性;Cooper(1971)利用數(shù)理邏輯給相關(guān)性做了一個(gè)明確的定義,Wilson(1973)則在Cooper研究的基礎(chǔ)上對(duì)數(shù)理邏輯相關(guān)性描述做了進(jìn)一步擴(kuò)充,并將“情境相關(guān)性”的概念首次引入到相關(guān)性的研究中,這些成果成為第二階段研究工作的基礎(chǔ)[7]。
在第二階段(1977至今),由于相關(guān)性各領(lǐng)域研究成果的相繼出現(xiàn),使相關(guān)性的概念描述也呈現(xiàn)出許多新的時(shí)代特征。首先是從面向用戶及認(rèn)知方法的觀點(diǎn)重新審視相關(guān)性,認(rèn)為相關(guān)性是個(gè)多維的認(rèn)知概念,在很大程度上依賴于用戶個(gè)人對(duì)信息的理解以及信息需求的情境;相關(guān)性是一個(gè)動(dòng)態(tài)的概念,它依賴于信息與用戶某一特定時(shí)間所需信息之間關(guān)系質(zhì)量的評(píng)價(jià);以用戶的觀點(diǎn)來看,相關(guān)性是個(gè)復(fù)雜的、系統(tǒng)的、可測(cè)度的概念[8]。其次是一些學(xué)者試圖給信息檢索定義一個(gè)邏輯模型來理解相關(guān)性概念,這項(xiàng)工作由Rijsbergen(1986,1989)開創(chuàng),之后又吸引了眾多學(xué)者的參與。
3 信息檢索相關(guān)性理論模型研究
從20世紀(jì)70年代開始,信息科學(xué)界開始嘗試建立相關(guān)性的理論框架,在諸多理論框架研究的學(xué)者當(dāng)中Saracevic和Mizzaro的研究成果較全面系統(tǒng)。Saracevic(1970,1975,1996)[9][10][11]從直覺、哲學(xué)、交流科學(xué)以及基本屬性等方面闡述了相關(guān)性的廣義框架,闡述了信息科學(xué)框架中的涉及相關(guān)性本質(zhì)四種模型,即系統(tǒng)、通信、情境以及心理模型,在基于信息檢索交互的分層模型的基礎(chǔ)上,提出了第五種模型即交互式模型,并列舉出相關(guān)性的所有可能的層次,該模型借用了人機(jī)交互研究中闡釋理論以及語言學(xué)中的分層理論;Mizzaro[12]提出了四維框架以描述相關(guān)性,即:①信息資源,包括文獻(xiàn)(document)、文獻(xiàn)的替代品(surrogate)以及信息(information);②用戶信息需求的描述,包括信息問題、信息需求、查詢請(qǐng)求以及查詢表達(dá)式;③時(shí)間,時(shí)間維非常典型地體現(xiàn)了相關(guān)性判斷的動(dòng)態(tài)性;④構(gòu)件,信息資源和用戶信息需求的描述以及二者結(jié)合中的所有元素都可以分解為主題(topic)、任務(wù)(task)和背景(context)等三個(gè)組件[12];在近期的研究結(jié)果中,Borlund(2003)[13]通過重新引入情境相關(guān)性構(gòu)建了整體的相關(guān)性框架;由Bo-Y.Kang,Dae-Won Kim,Sang-Jo Lee(2005)[14]研究的模糊集相關(guān)性模型試圖利用模糊集理論實(shí)現(xiàn)了一種基于文檔內(nèi)容語義理解的檢索系統(tǒng)從而提高網(wǎng)絡(luò)檢索的有效性。
Saracevic將這些成果劃分成為系統(tǒng)相關(guān)、通信相關(guān)、情境相關(guān)、心理相關(guān)和交互式相關(guān)這五種類型的相關(guān)模型。這些不同種類的相關(guān)模型在信息檢索相關(guān)性問題的描述方法及解決思路上各有優(yōu)劣。
3.1 系統(tǒng)相關(guān)模型
系統(tǒng)模型是出現(xiàn)得最早也是應(yīng)用最廣泛的模型,自上世紀(jì)50年代系統(tǒng)模型出現(xiàn)以來,已被廣泛認(rèn)同并逐漸演化為我們所熟知的“傳統(tǒng)信息檢索模型”。系統(tǒng)模型將信息檢索描述成對(duì)應(yīng)的兩極元素:系統(tǒng)和用戶。系統(tǒng)端將給定的數(shù)據(jù)信息按一定的數(shù)據(jù)結(jié)構(gòu)組織起來以便于與用戶的信息提問進(jìn)行匹配,匹配的過程遵照系統(tǒng)預(yù)先定義的算法進(jìn)行;用戶端則將信息用戶的問題和信息需求轉(zhuǎn)化成系統(tǒng)所能理解的檢索提問式;信息檢索的過程就是文檔與信息需求提問式相互匹配的過程。系統(tǒng)模型對(duì)相關(guān)性的描述和評(píng)價(jià)主要依托文檔與信息需求提問間的匹配來實(shí)現(xiàn),而系統(tǒng)的相關(guān)反饋機(jī)制則對(duì)于用戶信息需求提問式的修正具有良好的指導(dǎo)作用。
系統(tǒng)相關(guān)性模型的著眼點(diǎn)集中在檢索系統(tǒng)中文檔的獲取、表達(dá)、組織與匹配,關(guān)注的是系統(tǒng)內(nèi)部操作方面的問題。由于檢索系統(tǒng)實(shí)現(xiàn)的方法多種多樣,因而,從系統(tǒng)角度評(píng)價(jià)信息檢索則更多地依賴于尋求與系統(tǒng)構(gòu)成相適應(yīng)的不同的方法和算法從而達(dá)到提高信息檢索相關(guān)度的目的。傳統(tǒng)的信息檢索模型和與之對(duì)應(yīng)的系統(tǒng)相關(guān)性模型從最初的布爾邏輯精確匹配開始,一直致力于尋求最優(yōu)的相關(guān)性匹配算法,基于概率的、向量空間的、邏輯的、自然語言處理的相關(guān)性匹配在系統(tǒng)模型研究的各個(gè)階段發(fā)揮著重要的作用。對(duì)于信息檢索相關(guān)性的評(píng)價(jià)研究從20世紀(jì)50年代末60年代初到1990年的TREC評(píng)價(jià)一直都植根于系統(tǒng)模型。
3.2 通信相關(guān)模型
1975年Saracevic[15]借助香農(nóng)的信息論提出基于通信的信息檢索相關(guān)性模型,該模型試圖利用信息交流的代碼模型來解釋相關(guān)性問題,模型將信源與信宿之間的信息交換作為通信,同時(shí)考慮到通信過程受到噪音的干擾和相關(guān)反饋機(jī)制的影響。在信息檢索的交互過程中,排除這種通信的不確定性,相關(guān)性被理解成如何在系統(tǒng)與用戶之間建立一種有效的通信方式。相關(guān)性在系統(tǒng)與用戶之間建立起了某種關(guān)聯(lián),這種關(guān)聯(lián)的影響因素從系統(tǒng)的角度看包含主題知識(shí)、主題文檔、系統(tǒng)文件以及文檔的表示;從用戶的角度看則包括信息需求、需求的表達(dá)、用戶的認(rèn)知結(jié)構(gòu)、信息需求的用途及其價(jià)值。這些因素所形成的關(guān)聯(lián)Saracevic稱其為“相關(guān)性的不同視角”,如從主題文檔的視角來看,相關(guān)性是指查詢主題與文檔主題之間的關(guān)聯(lián)度;而從系統(tǒng)的視角來看,相關(guān)性則成為檢索系統(tǒng)中系統(tǒng)文件與文檔操作與用戶的信息需求表達(dá)之間的關(guān)聯(lián)度。
通信相關(guān)性模型從通信交流的廣義框架層次給相關(guān)性作了定位,但對(duì)于信息檢索相關(guān)性的交互性及動(dòng)態(tài)性特征不能給予充分的體現(xiàn)。
3.3 情境相關(guān)模型
上世紀(jì)70年代末到80年代初的近十年時(shí)間是相關(guān)性模型研究的冬眠時(shí)期,這段時(shí)間理論界并未出現(xiàn)新的相關(guān)性理論框架模型,學(xué)者們大多依賴于原有的模型體系研究檢索系統(tǒng)的相關(guān)性問題,直到80年代中期相關(guān)性模型的研究才開始復(fù)蘇。1990年意大利錫拉庫(kù)扎大學(xué)的學(xué)者Schamber、Eisenberg和Nilan[16]提出了情境相關(guān)性模型,該模型將情境關(guān)系、用戶關(guān)聯(lián)性、多維性、時(shí)間依賴性和動(dòng)態(tài)性特征全部納入到相關(guān)性的基本特性當(dāng)中。考慮到信息交換和信息通信的動(dòng)態(tài)變化特征,相關(guān)性被學(xué)者們理解為對(duì)某一特定時(shí)間信息與信息需求之間相互關(guān)系質(zhì)量評(píng)價(jià)的動(dòng)態(tài)概念。
情境相關(guān)模型弱化了相關(guān)性的系統(tǒng)主體特征,擴(kuò)大了相關(guān)性的外延,然而情境相關(guān)模型也必然存在著自身的缺陷,最本質(zhì)的缺點(diǎn)是該模型沒有將相關(guān)性的動(dòng)態(tài)特征及其與情境的關(guān)系同信息檢索的過程和系統(tǒng)主體聯(lián)系起來考慮,而只是強(qiáng)調(diào)用戶在信息檢索過程中的核心地位,全然不顧系統(tǒng)對(duì)相關(guān)性的影響,使得情境相關(guān)模型研究由原始的系統(tǒng)相關(guān)模型走向了另一個(gè)極端,這對(duì)相關(guān)性的全面系統(tǒng)研究極為不利。
3.4 心理相關(guān)模型
由于早期系統(tǒng)相關(guān)模型只注重系統(tǒng)不重視用戶的弊端,也隨著信息科學(xué)研究者們對(duì)相關(guān)性研究過程中用戶所扮演角色的逐漸重視,一些信息科學(xué)家發(fā)現(xiàn)在信息處理與檢索的過程中用戶對(duì)信息的認(rèn)知狀態(tài)和認(rèn)知過程對(duì)信息檢索相關(guān)性的評(píng)價(jià)產(chǎn)生了重要影響。基于認(rèn)知心理學(xué)的理論基礎(chǔ),1992年信息學(xué)者Harter[17]提出了一個(gè)新的面向用戶的相關(guān)性模型,Harter稱其為“心理相關(guān)模型”,由于該模型注重用戶的認(rèn)知,因而一個(gè)更加精確的描述是“認(rèn)知相關(guān)模型”。心理相關(guān)模型的出現(xiàn)給主題相關(guān)帶來了極大的挑戰(zhàn),Harter的心理相關(guān)模型從本質(zhì)上否定了主題相關(guān),認(rèn)為用戶的信息需求來源于自身的研究興趣,而這種興趣主要受用戶心理所驅(qū)動(dòng)。
Harterz的心理相關(guān)模型揭示了信息需求的滿足,從認(rèn)知心理學(xué)的角度來看信息需求的滿足意味著達(dá)到用戶的某種認(rèn)知狀態(tài),而用戶的認(rèn)知狀態(tài)始終是流動(dòng)和變化的。盡管心理相關(guān)模型對(duì)用戶的心理認(rèn)知變化進(jìn)行了很好的揭示,但是對(duì)于信息檢索交互性而言依然存在其自身的缺陷。針對(duì)其他檢索相關(guān)性模型,心理模型嚴(yán)格孤立于認(rèn)知心理的相關(guān)理論,從某種意義上說視角非常狹隘,只關(guān)注用戶自身信息需求的表達(dá)以及當(dāng)?shù)玫綑z索答案時(shí)認(rèn)知結(jié)構(gòu)的變化,忽視了檢索過程的動(dòng)態(tài)特征和交互性,忽視了情境特征在信息檢索過程中的作用。盡管心理相關(guān)模型在相關(guān)性構(gòu)成的研究過程中起到了不可替代的作用,但由于其構(gòu)建的過程只是對(duì)信息檢索作出一種有效的反應(yīng),而并非與檢索系統(tǒng)進(jìn)行有機(jī)融合,因而其作用受到了較大限制。
3.5 交互式相關(guān)模型
早期的信息檢索是一種批處理的靜態(tài)過程,然而,由于1970年之后聯(lián)機(jī)系統(tǒng)的廣泛應(yīng)用,信息檢索的交互性特征得到了鮮明的體現(xiàn),學(xué)術(shù)界對(duì)交互式領(lǐng)域的研究也逐漸受到重視。Bennet(1972),Belkin、Vickery(1985,1995)與Ingwersen(1992,1996)都從自身的研究角度構(gòu)建了信息檢索的交互式相關(guān)模型。其中以Ingwersen提出的認(rèn)知模型與Belkin交互模型為主要代表。Saracevic(1996)在此基礎(chǔ)上提出了信息檢索交互性層級(jí)模型,該模型試圖從下列三個(gè)方面解決信息檢索過程中的交互性問題:①充分協(xié)調(diào)及優(yōu)化信息檢索過程中人員與機(jī)器的各自優(yōu)勢(shì);②盡可能地減小并解決在以系統(tǒng)為中心及以用戶為中心的檢索系統(tǒng)中存在的弱勢(shì);③在模型的構(gòu)建過程中創(chuàng)建一個(gè)通用的框架來揭示信息科學(xué)研究領(lǐng)域的相關(guān)性問題。該模型借助了人機(jī)交互的理論,而人機(jī)交互行為的層級(jí)關(guān)系則是構(gòu)成現(xiàn)代語言學(xué)的基礎(chǔ)。
4 基于用戶認(rèn)知的信息檢索相關(guān)性研究
相關(guān)性的動(dòng)態(tài)理論由來以久,早在上世紀(jì)50年代,Vickey等人就指出相關(guān)性判斷總是隨著時(shí)間變化,而且因用戶不同而不同,1966年Rees和Saracevic指出對(duì)于特定用戶而言,時(shí)間是相關(guān)性評(píng)價(jià)的一個(gè)重要指標(biāo)[18]。但此后一段時(shí)間,學(xué)術(shù)界對(duì)這方面的論著甚少,直到1975年,相關(guān)性的動(dòng)態(tài)及認(rèn)知觀才再一次進(jìn)入眾多學(xué)者的視線。這段時(shí)期Swanson等學(xué)者的工作對(duì)本領(lǐng)域深入研究起了積極的推動(dòng)作用。Swanson認(rèn)為,信息檢索是一種試驗(yàn)性的動(dòng)態(tài)修正過程,用戶提交給信息檢索系統(tǒng)的信息需求描述只是對(duì)原始問題的猜測(cè)性描述,這種描述會(huì)隨著系統(tǒng)通過反饋從而影響用戶對(duì)原始問題認(rèn)知程度的加深而得到相應(yīng)的修正,由于實(shí)驗(yàn)性動(dòng)態(tài)修正過程而導(dǎo)致的用戶認(rèn)知的改變給相關(guān)性研究帶來了一種全新的認(rèn)識(shí),信息科學(xué)者開始從用戶認(rèn)知的觀點(diǎn)來研究信息檢索系統(tǒng)的相關(guān)性問題。從上世紀(jì)80年代開始,圍繞相關(guān)性的用戶認(rèn)知及動(dòng)態(tài)理論,信息科學(xué)界就以下幾個(gè)方面展開了激烈的討論:①用戶需求、請(qǐng)求與查詢提問的動(dòng)態(tài)性研究[19][20];②基于學(xué)習(xí)的認(rèn)知理論[21](Regazzi,1988)與心智模型[22][23](Harter,1992;Sutton,1994)研究;③時(shí)間是影響相關(guān)性評(píng)價(jià)的一個(gè)重要因素[24](Bruce,1994);④用戶認(rèn)知隨時(shí)間變化的數(shù)學(xué)模型研究[25][26](Bookstein,1983;Tiamiyu,Ajiferuke,1982)。同時(shí)也取得了豐碩的研究成果,Harter[27]認(rèn)為相關(guān)性的評(píng)價(jià)是動(dòng)態(tài)的,它是用戶的一種心理狀態(tài),這種心理狀態(tài)隨被檢索的客觀信息所激發(fā)用戶心理認(rèn)知程度的大小而發(fā)生相應(yīng)的改變;Bruce(1994)[28]的研究基于這樣一種假設(shè),用戶的相關(guān)性評(píng)價(jià)隨著信息檢索系統(tǒng)與用戶的交互過程發(fā)生改變,為證明其真實(shí)性他利用認(rèn)知方法建立了捕獲與評(píng)價(jià)用戶相關(guān)性改變的模型;Spink(1998)[29]與他的同事證實(shí)了檢索系統(tǒng)反饋給用戶的信息能夠影響用戶對(duì)信息需求的認(rèn)識(shí),并改變用戶對(duì)原始問題的重新定義。以知識(shí)表示(Knowledge representation)等為理論基礎(chǔ)的觀點(diǎn)認(rèn)為,用戶的判斷實(shí)際上是在文檔信息與頭腦中已有的概念知識(shí)體系之間尋找匹配的過程,這種觀點(diǎn)注意的是用戶的內(nèi)部概念體系與外部世界的相互作用以及內(nèi)部知識(shí)與相關(guān)性判斷的關(guān)系。相關(guān)性的動(dòng)態(tài)及認(rèn)知觀念在上世紀(jì)80年代被融合于信息檢索過程中的人機(jī)交互(Ingwersen 1984)以及人工智能中的問題求解(Problem solving)之中(Simon 1981),不過這一時(shí)期對(duì)相關(guān)性這一概念的理論探討尚不多見,它將成為下階段相關(guān)性理論研究的核心內(nèi)容之一[30]。
5 信息檢索相關(guān)性影響因素驗(yàn)證研究
為了弄清相關(guān)性判斷受何種因素的影響,信息科學(xué)界進(jìn)行了幾次卓有成效的實(shí)驗(yàn)性研究,分別在上世紀(jì)60年代和90年代形成本領(lǐng)域研究的兩次高峰。
第一次高峰以Cranfield(1957,1962)、Goffman、Nevill(1967)、Cuadra、Katter、Rees、Schultz(1967)的試驗(yàn)研究為主要標(biāo)志。Cranfield測(cè)試先后進(jìn)行了兩次,開創(chuàng)了相關(guān)性影響因素分析的先河,找到了影響相關(guān)性判斷的多種因素,第一個(gè)采用基于相關(guān)性的標(biāo)準(zhǔn),即查全率與查準(zhǔn)率進(jìn)行檢索系統(tǒng)評(píng)估,引起了相關(guān)性研究的爭(zhēng)論[31];Goffman和Nevill認(rèn)為相關(guān)性是信源與信宿之間信息傳遞的有效性的測(cè)度。這種觀點(diǎn)是從信息交流的角度來考慮問題的。信息交流的目的是減少信宿的不確定性或改變信宿的知識(shí)結(jié)構(gòu)。當(dāng)信宿接收到信息之后要判斷其能否滿足需求,是否能減少不確定性或增加知識(shí),這個(gè)判斷過程就是傳遞過程中信息的相關(guān)性判斷,也是信息交流的有效性的測(cè)度[32];Guadra和Katter認(rèn)為相關(guān)性是兩組實(shí)體之間關(guān)系的一種反映,對(duì)相關(guān)性的定義就是列舉這兩組實(shí)體中的事物,定義形式為:相關(guān)性是由A決定的B與C之間的D的E。其中A表示判定者、用戶等;B表示信息、情報(bào)、文獻(xiàn)等;C表示需求、提問等;D表示相關(guān)、一致等;E表示程度、層次、關(guān)聯(lián)等。在信息科學(xué)中相關(guān)性即是指在一定條件下信息、文獻(xiàn)與信息需求、信息提問之間的相似性,并認(rèn)為相關(guān)性判斷應(yīng)隨著刺激材料特征的不同而有所變化,也應(yīng)隨著用戶狀態(tài)(包括需求、態(tài)度、偏見以及知識(shí)儲(chǔ)備等)的不同而異;Rees和Schuhz則認(rèn)為個(gè)體差異對(duì)相關(guān)性判斷的影響很大,越是對(duì)主題的科學(xué)內(nèi)涵熟悉的個(gè)體被判斷為相關(guān)的文獻(xiàn)越少,尤其是當(dāng)判斷者以及文獻(xiàn),文獻(xiàn)表示發(fā)生變化的情況下,這說明相關(guān)性判斷依賴于個(gè)體知識(shí)儲(chǔ)備的內(nèi)在差別[33]。
第二次高峰以Schamber、Park、Barry、Wang(1994)等學(xué)者的研究成果為標(biāo)志,這階段的研究主要側(cè)重于尋求完善的相關(guān)性評(píng)價(jià)指標(biāo),并制定相關(guān)性評(píng)價(jià)體系。Schamber[34]的研究目的是探討在信息源以及信息表現(xiàn)形式都呈多樣性的環(huán)境中,用戶在其真實(shí)的信息查詢以及信息利用活動(dòng)中所采用的相關(guān)性標(biāo)準(zhǔn),將最后確定的標(biāo)準(zhǔn)分成10大類22小類;Park[35]將到1990年為止的所有涉及相關(guān)性評(píng)估標(biāo)準(zhǔn)的研究歸納為5類,分別是文獻(xiàn)、判斷情境、檢索問題表述、判斷者以及文獻(xiàn)表現(xiàn)形式。以此為基礎(chǔ),Park[36]以大學(xué)教師以及研究生等在內(nèi)共10人為研究對(duì)象,以其真實(shí)的信息問題為背景,通過分析實(shí)驗(yàn)對(duì)象對(duì)檢索結(jié)果(書目記錄)的相關(guān)性判斷發(fā)現(xiàn)了影響用戶相關(guān)性判斷的因素,并將其分為三類,即用戶的內(nèi)部情境、外部情境以及問題情境;Barry[37][38]的研究也是基于用戶自發(fā)的信息需求,評(píng)判用戶面對(duì)真實(shí)的信息需求所進(jìn)行的相關(guān)性評(píng)估,結(jié)論顯示用戶會(huì)使用主題以外的信息進(jìn)行相關(guān)判斷,由此可斷定在相關(guān)判斷的過程中,很多情境因素事實(shí)上起著相當(dāng)重要的作用,這些情境因素主要包括用戶的經(jīng)驗(yàn)、背景、知識(shí)素養(yǎng)、信仰以及個(gè)人喜好等;Wang[39][40][41]則從認(rèn)知的角度構(gòu)建了文獻(xiàn)選擇的認(rèn)知模型,包括六個(gè)組件:文獻(xiàn)信息元素、用戶標(biāo)準(zhǔn)、文獻(xiàn)價(jià)值、個(gè)人知識(shí)、決策標(biāo)準(zhǔn)以及決策自身。
6 信息檢索相關(guān)性研究的新發(fā)展
上世紀(jì)90年代以后相關(guān)性研究已經(jīng)逐步走向成熟,理論研究成果也由單一的片面研究向多層次、多角度的研究方向發(fā)展。相關(guān)性概念被解剖得非常細(xì)致,各種新的觀點(diǎn)層出不窮,討論得也更加全面。Schamber(1994)[42][43]等從行為科學(xué)的角度詮釋信息行為與相關(guān)性之間的關(guān)系,認(rèn)為相關(guān)性是設(shè)計(jì)與評(píng)估信息檢索系統(tǒng)的主要依據(jù),它受控與人們的信息活動(dòng)過程中的行為,因而相關(guān)性應(yīng)當(dāng)被應(yīng)用于人類的整個(gè)信息行為中進(jìn)行研究。以Saracevic(1996)為代表的論述更加深入細(xì)致地剖析相關(guān)性的概念意義,指出應(yīng)該在多個(gè)層次和角度上研究相關(guān)性,包括系統(tǒng)(system)角度、認(rèn)知(cognitive)角度、情境(situational)角度和動(dòng)機(jī)(motivational)角度等,人機(jī)交互已經(jīng)成為這方面研究的焦點(diǎn)之一;Mizzaro(1998)提出一個(gè)重要的觀點(diǎn),認(rèn)為時(shí)間也是相關(guān)性的一個(gè)維度,在人機(jī)交互過程中是無法回避的,這一觀點(diǎn)已經(jīng)得到普遍認(rèn)同[44];Brajnik,Mizzaro和Tassso(1996)從三個(gè)角度來描述相關(guān)性,即:主題相關(guān)、任務(wù)相關(guān)、背景相關(guān)。即某一信息屬于用戶所感興趣的主題范圍,或有利于用戶解決當(dāng)前面臨的問題,或是適用于當(dāng)前的環(huán)境、條件。在具體情況中可能會(huì)是主題、任務(wù)、背景相關(guān),或者是主題相關(guān)和任務(wù)相關(guān),或者是主題、任務(wù)、背景均相關(guān)[45]。進(jìn)入網(wǎng)絡(luò)時(shí)代,基于Web的相關(guān)性研究再一次吸引了眾多學(xué)者的目光。Web不是一個(gè)純文本信息的展示平臺(tái),而是一個(gè)動(dòng)態(tài)交互的多媒體資源融合的平臺(tái),同時(shí)還可兼容FTP、MailingList、Newsgroups等各類資源,Web強(qiáng)大的發(fā)展勢(shì)頭促使著Web信息檢索發(fā)展為Internet上主流的檢索方式,雖然它的發(fā)展時(shí)間并不長(zhǎng),但是已由功能單一、種類稀少進(jìn)入到了功能多元化、種類多樣的發(fā)展階段,如何在動(dòng)態(tài)的網(wǎng)絡(luò)環(huán)境中研究相關(guān)性問題,雖然可以借助現(xiàn)有的不少成熟理論與技術(shù),但終究還有不少懸而未決的問題需要廣大信息科研工作者去解決[46]。
近年來,基于Web的信息檢索相關(guān)性研究吸引了越來越多國(guó)內(nèi)學(xué)者的關(guān)注,相關(guān)的實(shí)證研究開始出現(xiàn)。武漢大學(xué)何紹華教授針對(duì)傳統(tǒng)網(wǎng)絡(luò)信息檢索查全率、查準(zhǔn)率低下的問題,對(duì)Mizzaro的相關(guān)性及語義網(wǎng)理論進(jìn)行融合,指出網(wǎng)絡(luò)環(huán)境下信息檢索效率低下的主要原因在于檢索算法采用詞型匹配而非詞義匹配以及對(duì)來源信息標(biāo)引缺乏語義描述信息,在此基礎(chǔ)上設(shè)計(jì)了一種語義信息標(biāo)引方法和語義查詢擴(kuò)展方法來改善查全率和查準(zhǔn)率[47]。南京大學(xué)成穎[48]在Saracevic及Harter研究的基礎(chǔ)上,提出了將語言學(xué)中的關(guān)聯(lián)理論作為相關(guān)性研究的理論基礎(chǔ),并利用關(guān)聯(lián)理論驗(yàn)證了信息檢索交互模型中的信息生產(chǎn)以及信息標(biāo)引兩項(xiàng)工作。
7 結(jié)語
目前,信息檢索的相關(guān)性研究已經(jīng)越來越引起人們的重視,其發(fā)展也已經(jīng)取得了一定的成效,但縱觀現(xiàn)有的研究成果,主要還是集中于相關(guān)性的理論探討階段。由于相關(guān)性研究領(lǐng)域的技術(shù)不成熟而導(dǎo)致的相關(guān)性實(shí)驗(yàn)驗(yàn)證及判據(jù)性的實(shí)證研究成果還十分有限,尤其在網(wǎng)絡(luò)信息資源飛速發(fā)展,而網(wǎng)絡(luò)已成為信息用戶主要信息檢索環(huán)境的今天,基于網(wǎng)絡(luò)環(huán)境、側(cè)重語義視角、面向用戶需求、體現(xiàn)用戶行為的信息檢索相關(guān)性實(shí)證研究將成為該領(lǐng)域研究的主流發(fā)展趨勢(shì)。
參考文獻(xiàn):
[1]Saracevic,T.Relevance:A review of and a framework for the thinking on the notion in information science[J].Journal of the American Society for Information Science,1975,26(6):321-343.
[2]Bradford,S.C.Sources of information on specific subjects[J].Engineering,1934,(137):85-86.
[3]Mizzaro. S. Relevance:The Whole History[J].Journal of the American Society for Information Science,1997,48(9):810-832.
[4][10][30][44]王家鉞.信息檢索中“相關(guān)性”概念的研究[J].現(xiàn)代外語,2001,(2):181-191.
[5]黃麗紅.信息檢索中“相關(guān)性”的探究[J].圖書館學(xué)研究,2006,(2):65-67.
[6][7][8]Schamber,L.,M. B. Eisenberg and M. S. Nilan.A re-examination of relevance:toward a dynamic,situational definition”[J].Information Processing&Management,1990,26(61):755-776.
[9]Saracevic,T.Relevance Reconsidered 1996[A].P.Inguersen,&N.O.Pors.Proceedings of CoLIS2.second international conference on conceptions of library and information science:Integration in perspective[M].Copenhagen:Royal School of Librarianship,1996:201-218.
[11][30]成穎,孫建軍.信息檢索中的相關(guān)性研究[J].情報(bào)學(xué)報(bào),2004,(6):689-696.
[12]Mizzaro,S.Relevance:The whole history[J].Journal of the American Society for Information Science,1997,48(9):810-832.
[13]Borlund P.Th e concept of relevance in IR[J].Journal of the American Society for Information Science,2003,54(10):913-925.
[14]Bo-Y.Kang,Dae-Won Kim,Sang-Jo Lee.Semantic Indexing and Fuzzy Relevance Model in Information Retrieval[J].Studies in Computational Intelligence(SCI),2005,(2):49-60.
[15]Saracevic,T.Relevance:A review of and framework for the thinking on the notion in information science[J].Journal of the American Society for Information Science,1975,26 (6):321-343.
[16]Schamber,L.,Eisenberg,M. B., & Nilan, M. S. A re-examination of relevance:Toward a dynamic,situational definition[J].Information Processing and Management,1990,26(6):755-776.
[17]Harter,S.P.Psychological relevance and information science[J].Journal of the American Society for Information Science,1992,43 (9):602-615.
[18]Rees,A.M.,&Saracevic,T.The measurability of relevance.Proceedings of the American Documentation Institute[M].Washington,DC:American Documentation Institute,1966:225-234.
[19]Katzer,J.,& Snyder,H.Toward a more realistic assessment of information retrieval performance.Proceedings of the American Society for Information Science[M].Medford,NJ:Learned Information,1990: 80-85.
[20]Ottaviani, J.S.The fractal nature of relevance: A hypothesis[J].Journal of the American Society for Information Science,1994,(45):263-272.
[21]Regazzi,J.J.Performance measures for information retrieval systems—An experimental approach[J].Journal of the American Society for Information Science,1988,(39):235-251.
[22]Harter,S.P.Psychological relevance and information science[J].Journal of the American Society for Information Science,1992,(43):602-615.
[23]Sutton,S.A.The role of attorney mental models of law in caserelevance determinations:An exploratory analysis[J]. Journal of theAmerican Society for Information Science,1994,(45):186-200.
[24]Bruce,H.W.A cognitive view of the situational dynamism of user-centered relevance estimation[J].Journal of the American Societyfor Information Science,1994,(45):142-148.
[25]Bookstein, A.Information retrieval:A sequential learning process[J].Journal of the American Society for Information Science,1983,(34):331-342.
[26]Tiamiyu,A.M.,& Ajiferuke,I.Y.A total relevance and document interaction effects model for the evaluation of information retrieval processes[J].Information Processing & Management,1982,24(4):391-404.
[27]Harter,S.P.Psychological relevance and information science[J].Journal of the American Society for Information Science,1992,(43):602-615.
[28]Bruce,H.W.A cognitive view of the situational dynamism of user-centered relevance estimation[J].Journal of the American Society for Information Science,1994,(45):142-148.
[29]Spink,A.,Greisdorf,H.,& Bateman,J.From highly relevant to not relevant:Examining different regions of relevance[J].Information Processing & Management,1998,(34):599-621.
[31]Schamber,L.Relevance and information behavior[J].Annual Review of Information Science and Technology,1994,(29):3-48.
[32]蘇君華.基于信息用戶的相關(guān)性研究[J].圖書館學(xué)研究,2003,(9):57-59.
[34] Schamber,L.Userscriteria for evaluation in a muhimedia information seeking and use situation[D].Unpublished doctoral dissertation,Syracuse University,Syracuse,NY.1991.
[35]Park,T.K.The nature of relevance in information retrieval:Anempirical study[D].Unpublished doctoral dissertation,School of Library and Information Science,Indiana University,Bloomington,IN.1992.
[36]Park,T.K.The nature of relevance in information retrieval:An empirical study[J].Library Quarterly,1993,63(3):318-351.
[37]Barry,C.L.The identification of user releyance criteria and document characteristics:Beyond the topical approach to information retrieva1[D].Unpublished doctoral dissertation,Syracuse University,Syracuse,NY.1993.
[38]Barry,C.L.User-defined relevance criteria:An exploratory study[J].Journal of the American Society for Information Science,1994,45(3):149-159.
[39]Wang,P.A cognitive model of document selection of real users of information retrieval systems[D].Unpublished doctoral dissertation,University of Maryland,College of Library and Information Science,College Park,MD.1994.
[40]Wang,P.,&Soergel,D.A cognitive model of document use during a research project.Study I:Document selection[J].Journal of the American Society for Information Science,1998,49(2):ll5-l33.
[41]Wang,P,W hite,M.D.A Cognitive Model of Document Use during a Research Project.Study II.Decisions at the Readingand Citing Stages[J].Journal ofthe American Society for Information Science,1999,50(2):98-114.
[42]Schamber,L.eta1.A re-examination of relevance:Toward a dynamic,situational definition[J].Information Processing &Management,1990,26(6):755-775.
[43]Schamber,L.Relevance and information behavior[J].Annual Review of Information Science and Technology,1994,(29):3-48.
[45]蘇君華.基于信息用戶的相關(guān)性研究[J].圖書館學(xué)研究,2003,(9):57-59.
[46]黃昆,賴茂生.Web信息檢索技術(shù)及研究進(jìn)展[J].現(xiàn)代圖書情報(bào)技術(shù),2004,(5):44-48.
[47]何紹華,宮兆暉.基于語義網(wǎng)的網(wǎng)絡(luò)信息檢索相關(guān)性研究[J].情報(bào)雜志,2007,(12):120-123.
[48]成穎,孫建軍.基于關(guān)聯(lián)理論的信息檢索相關(guān)性研究——信息生產(chǎn)、標(biāo)引[J].情報(bào)科學(xué),2010,(1):7-12.
作者簡(jiǎn)介:王雅坤(1974—),女,河北大學(xué)期刊社講師,研究方向:信息管理、編輯出版;成全(1979—),男,國(guó)家圖書館博士后,福州大學(xué)公共管理學(xué)院信息管理系碩士生導(dǎo)師。