朱靖
【摘要】以在CSSCI數(shù)據(jù)庫中檢索到的數(shù)據(jù)為基礎(chǔ),利用Citespace、Netdraw和SATI文獻(xiàn)題目統(tǒng)計(jì)和可視化工具對2007 -2011年信息檢索領(lǐng)域文獻(xiàn)的期刊分布、作者與機(jī)構(gòu)分布、被引作者分布、研究熱點(diǎn)分布以及當(dāng)前存在的問題和未來發(fā)展趨勢作分析研究,以期為我國信息檢索領(lǐng)域的研究提供參考。
【關(guān)鍵詞】信息檢索 研究進(jìn)展 可視化
引 言
邁入信息社會(huì),網(wǎng)絡(luò)已成為人們生活中不可或缺的一部分,而信息檢索理所當(dāng)然地成為人們?nèi)谌刖W(wǎng)絡(luò)的一個(gè)重要途徑。在互聯(lián)網(wǎng)迅速發(fā)展的同時(shí),信息檢索的研究也取得了較大的成績,信息檢索的理論和實(shí)踐對推動(dòng)互聯(lián)網(wǎng)的發(fā)展有著重要的作用。為進(jìn)一步了解我國信息檢索的研究狀況,本文對2007 -2011年這5年間的相關(guān)研究進(jìn)行統(tǒng)計(jì)分析。
數(shù)據(jù)來源
筆者在CSSCI數(shù)據(jù)庫中以“信息檢索”為關(guān)鍵詞,時(shí)間設(shè)定為2007-2011年,檢索共得到398篇文獻(xiàn),以這些文獻(xiàn)為基礎(chǔ),利用文獻(xiàn)題錄統(tǒng)計(jì)與可視化工具來分析信息檢索研究的進(jìn)展情況。
研究方法
作為現(xiàn)今多學(xué)科中一種常見的信息或數(shù)據(jù)可視化形式,科學(xué)知識(shí)圖譜是通過對某學(xué)科領(lǐng)域在特定時(shí)間段內(nèi)發(fā)表的學(xué)術(shù)論文或者專著的作者、題名、關(guān)鍵詞、作者機(jī)構(gòu)等信息用可視化的圖譜形象地展示學(xué)科的核心框架、前沿領(lǐng)域和其他有關(guān)的信息,也可運(yùn)用多元分析手段得出某學(xué)科領(lǐng)域在特定時(shí)期內(nèi)形成的以作者、文獻(xiàn)、期刊、機(jī)構(gòu)等為節(jié)點(diǎn)的圖譜[1]。由于科學(xué)知識(shí)圖譜能夠直觀地展現(xiàn)學(xué)科知識(shí)結(jié)構(gòu),自20世紀(jì)80年代創(chuàng)制以來得到廣泛的傳播和深入的發(fā)展,出現(xiàn)了較多的知識(shí)圖譜分析工具。本文選取了Citespace、Netdraw和SATI這三種代表性工具來統(tǒng)計(jì)文獻(xiàn)信息和繪制科學(xué)知識(shí)圖表,通過對檢索到的信息檢索研究相關(guān)文獻(xiàn)信息進(jìn)行統(tǒng)計(jì)和可視化展現(xiàn),更清晰地展示這5年間信息檢索的研究概況。
研究狀況分析
4.1文獻(xiàn)總量與年度分布
在這398篇文獻(xiàn)中,研究論文有359篇,綜述23篇,評論8篇,報(bào)告4篇;涉及的學(xué)科有管理學(xué)、語言學(xué)、藝術(shù)學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、教育學(xué)等,其中圖書館、情報(bào)與文獻(xiàn)學(xué)是最多的,共352篇;在年度分布中,2007年113篇、2008年100篇、2009年73篇、2010年61篇、2011年51篇,如圖1所示:
從圖1中可以看出,有關(guān)信息檢索的研究文獻(xiàn)在2007-2011年是逐年遞減的,其中下降幅度最大的是2009年。筆者用同樣的檢索關(guān)建詞在CSSCI數(shù)據(jù)庫中查看往年的文獻(xiàn)數(shù)量,發(fā)現(xiàn)我國信息檢索的研究是經(jīng)歷了一個(gè)又冷到熱再組建到冷的發(fā)展,有關(guān)文獻(xiàn)的高峰期是在2004-2005年,之后由熱逐漸轉(zhuǎn)冷的過程由圖1可以清晰看到。
4.2 文獻(xiàn)的期刊分布
這398篇文獻(xiàn)分布在32種期刊上,平均每種期刊載文量是12.44篇,其中發(fā)表1篇的有10種,發(fā)表2篇的有3種,發(fā)表3篇的有2種,發(fā)表4篇以上的有17種,如表1所示:
這17種期刊都是圖書情報(bào)類期刊,共發(fā)表文獻(xiàn)376篇,占所檢索出的文獻(xiàn)總量的94.47%。這項(xiàng)統(tǒng)計(jì)也進(jìn)一步說明了圖書情報(bào)類的期刊是信息檢索研究文獻(xiàn)發(fā)表的主要陣地。其中發(fā)文篇數(shù)在50篇以上的有《情報(bào)理論與實(shí)踐》、《情報(bào)雜志》、《圖書情報(bào)工作》。
4.3 作者與機(jī)構(gòu)的分布
筆者對這398篇文獻(xiàn)的作者進(jìn)行了統(tǒng)計(jì),共有581人,發(fā)表3篇以上文獻(xiàn)的作者有38人。表2列出了2007-2011年間發(fā)表文獻(xiàn)最多的前19位學(xué)者,也就是發(fā)文總數(shù)在4篇及以上的作者及其所在的機(jī)構(gòu)。需要說明的是,表中的數(shù)字可能不是每一個(gè)學(xué)者的全部發(fā)文量,因?yàn)楣P者檢索文獻(xiàn)時(shí)設(shè)置了關(guān)鍵詞和CSSCI來源期刊等條件。
從表3可以看出,武漢大學(xué)以5年發(fā)文29篇、平均每年發(fā)文5.8篇高居榜首,其次是南京大學(xué)、中國科學(xué)技術(shù)信息研究所、中山大學(xué)、北京大學(xué)等機(jī)構(gòu),從高產(chǎn)機(jī)構(gòu)的分布來看,信息檢索研究的主力軍還是來自高等院校。
4.4 高被引作者的分布
為更好地顯示信息檢索領(lǐng)域作者的學(xué)術(shù)影響力,筆者從作者的被引視角來進(jìn)行分析。經(jīng)統(tǒng)計(jì),在2007-2011年間發(fā)表的398篇文獻(xiàn)中,引用文獻(xiàn)共4 291篇次,篇均引文數(shù)為10.78篇次。在統(tǒng)計(jì)過程中剔除了無效引文和署名為機(jī)構(gòu)或課題組的引文,最后統(tǒng)計(jì)出了作者被引數(shù), 2007-2011年被引數(shù)在5次及以上的作者,共20人,如表4所示:
從表4中可以看出,被引次數(shù)最高的是G.Salton,其次是賴茂生、T.Saracevic、N.J.Belkin、P.Ingwersen、周寧等學(xué)者,排除國外學(xué)者,國內(nèi)被引次數(shù)排在前列是有賴茂生、周寧、成穎、張曉林、吳丹、馬費(fèi)成、李景、黃名選、孫茂松、曹樹金等學(xué)者。圖2顯示的是高被引作者按中心度分布的可視圖,中心度越大,在圖中表示的圓圈越大,其在信息檢索領(lǐng)域的影響也越大,其與被引次數(shù)作者的分布基本一致,更形象地表示了被引作者的影響力。
4.5 核心研究主題的分析
為更好地分析和展示近幾年信息檢索領(lǐng)域的研究主題和研究進(jìn)展,筆者對這398篇文獻(xiàn)的關(guān)鍵詞作了統(tǒng)計(jì)分析。統(tǒng)計(jì)發(fā)現(xiàn)共有861個(gè)關(guān)鍵詞(無關(guān)鍵詞的文獻(xiàn)不在統(tǒng)計(jì)范疇),而共現(xiàn)次數(shù)越多的主題詞就越能成為近幾年的研究熱點(diǎn)。出現(xiàn)頻次在5次及以上的關(guān)鍵詞,如表5所示:
圖3是對共現(xiàn)次數(shù)高的關(guān)鍵詞進(jìn)行了可視化的結(jié)果,可以更清晰地表示主題詞的分布特征。從表5和圖3可以看出,排除 “信息檢索”這一關(guān)鍵詞之后, 2007-2011年間關(guān)鍵詞共現(xiàn)較高的有:本體、跨語言信息檢索、查詢擴(kuò)展、網(wǎng)絡(luò)信息檢索、數(shù)字圖書館、信息檢索系統(tǒng)、搜索引擎、向量空間模型、關(guān)聯(lián)規(guī)則、檢索模型、信息可視化、語義網(wǎng)、信息查詢、智能信息檢索、Web 2.0等,這些高頻主題詞無疑構(gòu)成了近幾年信息檢索領(lǐng)域的研究熱點(diǎn),其中跨語言信息檢索、網(wǎng)絡(luò)信息檢索、查詢擴(kuò)展、信息檢索模型與系統(tǒng)、語義網(wǎng)等是最受研究者關(guān)注的。
信息檢索研究當(dāng)前存在的問題
5.1 信息組織特別是網(wǎng)絡(luò)信息組織標(biāo)準(zhǔn)化、規(guī)范化研究滯后
網(wǎng)絡(luò)發(fā)展迅速,網(wǎng)絡(luò)信息發(fā)布和更新非???,而且網(wǎng)絡(luò)的開放性使得任何單位或個(gè)人都可以在網(wǎng)上隨意發(fā)布信息,但信息發(fā)布者不會(huì)依據(jù)一定的標(biāo)準(zhǔn)或規(guī)范去組織他們的信息,而這些呈指數(shù)增長卻又無序的網(wǎng)絡(luò)信息增加了信息檢索的復(fù)雜度。要提高信息檢索的效率, 必須從源頭上來解決相關(guān)問題, 實(shí)行網(wǎng)絡(luò)信息組織標(biāo)準(zhǔn)化、規(guī)范化[2]。這方面的問題在信息檢索領(lǐng)域還有待解決。
5.2 檢索技術(shù)和工具的適應(yīng)性研究滯后
當(dāng)前我國對于檢索技術(shù)和工具的研究大多是集中在一般說明和比較分析方面, 很少有較具體的改進(jìn)方案的提出和實(shí)現(xiàn),可以說我國信息檢索的技術(shù)性研究較薄弱。而且從現(xiàn)在的信息種類來看,人們不僅是要檢索文本和數(shù)據(jù)信息,而且更多地會(huì)關(guān)注圖形圖像、視頻、音頻等多媒體信息,所以要使人們在越來越發(fā)達(dá)的信息時(shí)代獲得所需信息, 就必須致力于解決新的技術(shù)和新工具的研究問題[3]。
5.3 檢索工具評價(jià)較模糊,檢索語言有待改進(jìn)
高性能的檢索工具會(huì)大大提高檢索效率, 能為信息檢索者節(jié)省不少時(shí)間, 但面對較多的檢索工具時(shí), 檢索者往往不知道如何選擇, 因此需要一套較完善的檢索工具評價(jià)指標(biāo)作為選擇的依據(jù)[4]。另外,并非所有的檢索者都能懂檢索語言, 他們更傾向于使用自然語言,而目前的檢索結(jié)果往往無法滿足真正的需求,所以應(yīng)致力于方便易用的檢索語言開發(fā)研究, 最終能使檢索者用簡易的檢索語言來達(dá)到檢索目標(biāo)。
5.4 文獻(xiàn)研究內(nèi)容冗余、創(chuàng)新性低
筆者所檢索到的398篇關(guān)于信息檢索的文獻(xiàn),有不少是內(nèi)容交叉、重復(fù)率高、可用性差的,使研究成果的質(zhì)量降低,另有較大一部分僅僅是引進(jìn)說明或分析比較國外的信息檢索成果,與國外信息檢索領(lǐng)域的研究深度差距仍較大。
信息檢索未來發(fā)展趨勢
6.1 個(gè)性化發(fā)展,對用戶體驗(yàn)的關(guān)注越來越顯著
信息的冗余、雷同乃至信息爆炸等問題時(shí)刻困擾著人們,而信息檢索研究的目的就是要從紛繁復(fù)雜的信息中尋找出符合需求的信息,并且不同群體或用戶個(gè)體對信息的需求欲望愈來愈強(qiáng)烈,這就促使了信息檢索要向符合個(gè)性化服務(wù)的方向發(fā)展[5],更注重用戶的檢索體驗(yàn),針對不同用戶的不同需求來處理檢索的相關(guān)問題。
6.2 智能化發(fā)展
智能檢索是基于自然語言的檢索形式,通過對知識(shí)庫的推理和搜索,把現(xiàn)代人工智能的技術(shù)與方法引入信息檢索系統(tǒng),使后者具有一定程度的智能特征,其目的是使信息檢索系統(tǒng)理解文件包含的信息內(nèi)容和用戶的信息需要,在對內(nèi)容的分析理解、內(nèi)容表達(dá)、知識(shí)學(xué)習(xí)、推理機(jī)制、決策等基礎(chǔ)上實(shí)現(xiàn)檢索的智能化,得到用戶能直接加以利用的知識(shí)或信息[6-7]。隨著計(jì)算機(jī)智能技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,信息檢索的智能化發(fā)展是必然趨勢。
6.3 融合趨勢更加突出
信息檢索不僅僅在計(jì)算機(jī)學(xué)科、圖書情報(bào)學(xué)領(lǐng)域作用突出,在醫(yī)藥、生物、農(nóng)業(yè)等領(lǐng)域也逐漸應(yīng)用較多,現(xiàn)階段更有與金融商務(wù)、電子商務(wù)、網(wǎng)絡(luò)技術(shù)等學(xué)科融合緊密,成為了不可或缺的重要應(yīng)用工具。在經(jīng)濟(jì)全球化的發(fā)展進(jìn)程中,信息是發(fā)展的支持要素,而且信息檢索會(huì)更融入全球化的發(fā)展中,與其他更多的學(xué)科和領(lǐng)域相融發(fā)展。
6.4 專題信息、多媒體信息等新的信息檢索發(fā)展顯著
專題化信息檢索是基于某一信息領(lǐng)域或某一特定用戶領(lǐng)域的檢索,針對特定的用戶群或領(lǐng)域,在標(biāo)引的過程中可以構(gòu)建專業(yè)詞庫,大大提高標(biāo)引的深度和專指度;網(wǎng)絡(luò)上多媒體信息越來越多,根據(jù)用戶自身體驗(yàn),在圖像、視頻、音頻的多媒體基礎(chǔ)上進(jìn)行新技術(shù)的信息檢索。專題和多媒體信息檢索同樣也是個(gè)性化信息檢索發(fā)展的重要部分。
6.5 多語言、全球化信息檢索發(fā)展穩(wěn)步前進(jìn)
由于互聯(lián)網(wǎng)是一個(gè)巨大的數(shù)字資源庫,包含不同語言信息,隨著信息查詢用戶素質(zhì)的不斷提高,對全球信息了解的需要越來越強(qiáng)烈,針對這種需求,在網(wǎng)絡(luò)版敘詞表的基礎(chǔ)上,利用新的智能檢索技術(shù),實(shí)現(xiàn)不同語種間的有效轉(zhuǎn)換,可以使用戶檢索不同語言的同類信息。這種多語言、全球化信息檢索也會(huì)是今后發(fā)展的一大趨勢。
結(jié)語
信息檢索是一門技術(shù)性和實(shí)踐性很強(qiáng)的學(xué)科[[8],在網(wǎng)絡(luò)信息化時(shí)代,我們更應(yīng)認(rèn)識(shí)到現(xiàn)階段信息檢索領(lǐng)域存在的問題,加強(qiáng)理論研究,大膽實(shí)踐創(chuàng)新,順應(yīng)發(fā)展潮流,信息檢索領(lǐng)域的研究才能得到真正地長足地提升。
[參考文獻(xiàn)]
[ ] 侯劍華.工商管理學(xué)科演進(jìn)與前沿?zé)狳c(diǎn)的可視化分析[D].大連:大連理工大學(xué),2009.
[2] 談大軍,陳曉轉(zhuǎn).1998-2003年我國網(wǎng)絡(luò)信息檢索研究論文的定量分析與研究[J].現(xiàn)代情報(bào),2004(12):66-69.
[3] 常春.網(wǎng)絡(luò)信息檢索存在的問題及發(fā)展方向[J].情報(bào)雜志,2003(11):93-94.
[4] 韓圣龍.網(wǎng)絡(luò)信息檢索工具評價(jià)指標(biāo)[J].情報(bào)學(xué)報(bào),2001,20(4):471-477.
[5] 黃如花,張春蕾.網(wǎng)絡(luò)信息檢索的發(fā)展趨勢[J].圖書情報(bào)知識(shí),2002(4):49-50.
[6] 畢維峰,劉劍鋒.網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索發(fā)展趨勢[J].現(xiàn)代情報(bào),2007(6):89-90.
[7] 劉宏偉.現(xiàn)代信息檢索在網(wǎng)絡(luò)環(huán)境下的發(fā)展趨勢[J].現(xiàn)代情報(bào),2006(10):67-68.
[8] 葉鷹.信息檢索:理論與方法[M].北京:高等教育出版社,2004:378-379.