沈艷紅 張 娣 (江南大學(xué)圖書館 江蘇 無錫 214122)
目前,大量學(xué)者利用文獻(xiàn)計(jì)量學(xué)的各種方法來進(jìn)行學(xué)科情報(bào)分析,這些分析研究是非常有意義的。期刊刊發(fā)的文獻(xiàn)計(jì)量分析類論文,一般都會(huì)對(duì)數(shù)據(jù)準(zhǔn)備工作進(jìn)行簡單的介紹。但是筆者發(fā)現(xiàn),不論是作者、編輯,還是讀者,對(duì)這部分內(nèi)容的重視程度都比較低,導(dǎo)致一部分文獻(xiàn)計(jì)量分析在數(shù)據(jù)準(zhǔn)備工作中出現(xiàn)了很大的偏差。
文獻(xiàn)計(jì)量分析研究的過程主要包括6個(gè)步驟:確定文獻(xiàn)計(jì)量分析目標(biāo)、制定分析方案并設(shè)計(jì)文獻(xiàn)計(jì)量指標(biāo)、進(jìn)行數(shù)據(jù)準(zhǔn)備、分析指標(biāo)數(shù)據(jù)、形成分析報(bào)告、發(fā)布分析報(bào)告。其中,文獻(xiàn)計(jì)量分析中的數(shù)據(jù)準(zhǔn)備工作主要包括數(shù)據(jù)采集和數(shù)據(jù)清洗兩個(gè)方面。
文獻(xiàn)計(jì)量分析中的數(shù)據(jù)采集是指選擇與文獻(xiàn)計(jì)量分析指標(biāo)配套的數(shù)據(jù)的過程。目前,文獻(xiàn)計(jì)量分析的數(shù)據(jù)采集主要有3種方法:①直接從數(shù)據(jù)庫商獲處取數(shù)據(jù)庫數(shù)據(jù)[1-4],其數(shù)據(jù)來源是CSSCI(Chinese Social Sciences Citation Index,中文社會(huì)科學(xué)引文索引)的后臺(tái)數(shù)據(jù)庫;②在數(shù)據(jù)庫商的網(wǎng)站上通過檢索得到檢索結(jié)果[5-7],其分別利用CNKI(中國知網(wǎng))、SCI(Science Citation Index,科學(xué)引文索引)、EI(The Engineering Index,工程索引)數(shù)據(jù)庫,通過檢索得到詳細(xì)記錄,然后復(fù)制檢索結(jié)果網(wǎng)頁上的相關(guān)內(nèi)容;③自動(dòng)下載,通過程序構(gòu)造URL(Uniform Resource Locator,統(tǒng)一資源定位符),然后根據(jù)URL下載HTML(Hypertext Markup Language,超文本標(biāo)記語言)網(wǎng)頁文件,讀取下載的網(wǎng)頁文件且濾掉HTML的標(biāo)簽,根據(jù)字段名稱獲取數(shù)據(jù)記錄,如通過上述方法下載萬方學(xué)位論文數(shù)據(jù)庫某高校鏡像網(wǎng)站上的符合檢索要求的學(xué)位論文全部內(nèi)容[8]。其中,第1種方法需要研究人員與數(shù)據(jù)庫商有很好的協(xié)商與溝通,一般情況下只有數(shù)據(jù)庫所在單位的內(nèi)部人員才有開展的條件;第3種方法需要具有較高的技術(shù)水平才能實(shí)現(xiàn)。因此,目前使用最為廣泛的是第2種方法,但是這種方法對(duì)檢索者的檢索水平要求較高,很多計(jì)量分析類文獻(xiàn)的數(shù)據(jù)出現(xiàn)問題就是因?yàn)闄z索人員對(duì)數(shù)據(jù)庫了解不夠。
數(shù)據(jù)清洗就是將來自不同數(shù)據(jù)源的不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式,去除錯(cuò)誤記錄和重復(fù)記錄,補(bǔ)充遺漏記錄,以提高數(shù)據(jù)質(zhì)量的工作。數(shù)據(jù)清洗的原理主要是根據(jù)回溯思想,通過分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用現(xiàn)有的技術(shù)手段和方法檢測(cè)“臟數(shù)據(jù)”, 制訂數(shù)據(jù)清洗的方法、規(guī)則和策略并加以實(shí)施,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應(yīng)用要求的“干凈數(shù)據(jù)”。
GIGO(Garbage In, Garbage out;垃圾進(jìn),垃圾出)理論指出,“無論系統(tǒng)的能力有多強(qiáng),如果輸入數(shù)據(jù)是錯(cuò)誤的,輸出結(jié)果必然也是錯(cuò)誤的?!盵9]推而廣之,如果采用不正確、不完整、不一致、不可靠的數(shù)據(jù),不論我們運(yùn)用多么強(qiáng)大的分析方法,也無法確保分析結(jié)果的正確、完整、一致、可靠。數(shù)據(jù)準(zhǔn)備工作作為文獻(xiàn)計(jì)量分析的基礎(chǔ),其質(zhì)量直接影響著分析結(jié)果的科學(xué)性、客觀性。然而,即便是從同一個(gè)數(shù)據(jù)庫中獲取數(shù)據(jù),也會(huì)因?yàn)閿?shù)據(jù)采集和數(shù)據(jù)清洗時(shí)所運(yùn)用方法的不同而導(dǎo)致所獲數(shù)據(jù)差異較大。這就要求文獻(xiàn)計(jì)量分析人員高度重視數(shù)據(jù)準(zhǔn)備工作,選用最合適、最有效的方法和手段,從而獲得最正確、完整、一致、可靠的數(shù)據(jù)。筆者以基于CNKI檢索圖書館學(xué)高被引論文為例,進(jìn)行如下實(shí)證的闡述。
張?jiān)姴┰鴮?duì)國內(nèi)2004—2008年圖書館學(xué)研究高被引論文的被引用情況進(jìn)行了統(tǒng)計(jì)分析,篩選出了圖書館學(xué)研究的重要期刊、多產(chǎn)作者和多產(chǎn)科研機(jī)構(gòu),同時(shí)對(duì)高被引論文的產(chǎn)出地區(qū)和研究主題進(jìn)行了統(tǒng)計(jì)與分析,該研究對(duì)圖書館學(xué)的研究工作非常有借鑒意義[10]。張?jiān)姴┑臋z索方法是:選用CNKI的中國引文數(shù)據(jù)庫,確定檢索項(xiàng)為“被引題名”、檢索詞為“圖書館”、時(shí)間段為“2004—2008年”,得到2004—2008年國內(nèi)圖書館學(xué)研究的高被引論文20篇[10]。
基于CNKI的中國引文數(shù)據(jù)庫檢索上述課題,筆者采用分類檢索方式,具體步驟如下:
第1步:確定查詢范圍。在中國引文數(shù)據(jù)庫中點(diǎn)擊高級(jí)檢索,在檢索界面的左側(cè)查詢范圍中,首先清除默認(rèn)查詢范圍,然后點(diǎn)擊“電子技術(shù)及信息科學(xué)”;再次清除默認(rèn)的查詢范圍(包括無線電電子學(xué)等10個(gè)專題),然后點(diǎn)擊“圖書情報(bào)與數(shù)字圖書館”(該專題包括“圖書館學(xué)、圖書館事業(yè)”和“情報(bào)學(xué)、情報(bào)工作”),勾選“圖書館學(xué)、圖書館事業(yè)”。
第2步:查詢范圍確定以后,在引文類型中選擇“期刊類型引文”。
第3步:檢索結(jié)果的排序方式選擇“被引頻次”。
第4步:根據(jù)自己的需要輸入發(fā)布時(shí)間。例如,要獲得2004年國內(nèi)圖書館學(xué)研究的高被引論文,發(fā)布時(shí)間就是2004—2004;如果要獲得2004—2008年圖書館學(xué)研究的高被引論文,發(fā)布時(shí)間為2004—2008。
第5步:無需在檢索框中輸入檢索詞,直接點(diǎn)擊檢索就可以獲得2004—2008年該專題論文的被引情況。由于檢索結(jié)果按照被引頻次排序,用戶可以根據(jù)自己的需要獲取高被引論文。
基于中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫檢索上述課題,筆者采用分類檢索方式,具體步驟如下:
第1步:確定查詢范圍。在CNKI首頁點(diǎn)擊“中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫”,進(jìn)入該庫檢索界面;在檢索界面左側(cè)的“文獻(xiàn)分類目錄”中勾選“圖書館學(xué)、圖書館事業(yè)”這一專題。
第2步:在“輸入檢索控制條件”下的期刊年期處選擇從2004年到2008年。
第3步:無需輸入檢索詞,直接點(diǎn)擊“檢索文獻(xiàn)”。
第4步:在“文獻(xiàn)排序?yàn)g覽”處點(diǎn)擊“被引頻次”,使所得78 935條記錄按照被引頻次從高到低排序,用戶可以根據(jù)自己的需要獲取高被引論文。
對(duì)比方案1和方案3所得的檢索結(jié)果發(fā)現(xiàn):方案1所獲得的前20篇論文,除了李國新的《圖書館權(quán)利的定位、實(shí)現(xiàn)與維護(hù)》一文漏檢外,均散落于使用方案3獲得的前40篇論文中。也就是說,方案1的查全率大約是方案3的50%,而基于如此不完備的數(shù)據(jù)所得的分析結(jié)果,其可信度值得懷疑。
對(duì)比方案2和方案3所得的檢索結(jié)果發(fā)現(xiàn):方案3獲得的前20篇論文中,有5篇論文在方案2中并沒有被檢索出來,而利用方案2檢索得到的前20篇高被引論文,通過方案3均可以得到,只是因?yàn)闄z索出了一些被方案2所漏掉的論文,部分論文的排名被往后推了,并且方案3所得文獻(xiàn)被引頻次普遍高于方案2所得文獻(xiàn)。這可能是因?yàn)橹袊臄?shù)據(jù)庫的更新速度低于中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫的更新速度。也就是說,方案2的查全率是方案3的75%。顯然,通過方案3來獲得某一學(xué)科的高被引論文優(yōu)于前兩種方案。
根據(jù)上述實(shí)例發(fā)現(xiàn),同樣以CNKI為數(shù)據(jù)源,采用不同的檢索方法來獲得圖書館學(xué)的高被引論文,其檢索結(jié)果最多可能相差50%。在文獻(xiàn)計(jì)量方法日益受到重視并得到廣泛使用的今天,我們不能只重視采用“什么樣”的方法“如何”分析數(shù)據(jù),更要重視我們分析的是“什么樣的數(shù)據(jù)”。文獻(xiàn)計(jì)量分析工作是否有意義,是建立在被分析的數(shù)據(jù)準(zhǔn)確、可靠的基礎(chǔ)之上的。因此,在進(jìn)行文獻(xiàn)計(jì)量分析研究時(shí),一定要重視數(shù)據(jù)準(zhǔn)備工作。
正確、完整、一致、可靠的數(shù)據(jù)是文獻(xiàn)計(jì)量分析的前提,但是如何才能做到這一點(diǎn)呢?筆者在長期的文獻(xiàn)計(jì)量分析工作中積累了一些經(jīng)驗(yàn),提出以下幾點(diǎn)建議。
在進(jìn)行檢索之前,研究者首先要分析自己的信息需求,然后根據(jù)自己的需求來選擇合適的檢索方法。正如上述案例所示,方案1所得檢索結(jié)果與信息需求之間有很大的差距,因?yàn)樵摲椒ㄋ鶛z索到的是題名中包含“圖書館”一詞的高被引論文,而不是圖書館學(xué)領(lǐng)域中的高被引論文。要對(duì)圖書館學(xué)文獻(xiàn)的被引情況進(jìn)行統(tǒng)計(jì),應(yīng)采用分類檢索,這樣不論題名是否包含“圖書館”3個(gè)字,只要是圖書館學(xué)領(lǐng)域的學(xué)術(shù)論文都可以被檢索到,查全率才能得到保障。
各數(shù)據(jù)庫由不同的開發(fā)商開發(fā),其檢索功能差別很大。用戶只有在了解數(shù)據(jù)庫的使用方法的基礎(chǔ)上,才能通過數(shù)據(jù)庫的檢索功能檢索到自己所需的信息。例如,在Web of Knowledge 中區(qū)分自引與他引,靠人工逐篇判斷極為費(fèi)時(shí)費(fèi)力,還容易出錯(cuò),但是如果了解該數(shù)據(jù)庫檢索功能,就可以利用“檢索結(jié)果分析”功能,對(duì)檢索到的施引文獻(xiàn)進(jìn)行“作者分析”,然后排除本文作者,所得結(jié)果即他引數(shù)。
當(dāng)前的檢索系統(tǒng)多是用自然語言組織的,這極大地方便了信息用戶的檢索。但在自然語言中,同一個(gè)概念或事物可以用很多不同的詞來表述。如果希望得到高的查全率,用戶在選取檢索詞的時(shí)候,必須從多種角度來考慮,如同義詞、近義詞、反義詞、上下位詞和檢索詞的易錯(cuò)形式等[11]。
得到檢索結(jié)果后不要急于進(jìn)入分析階段,應(yīng)先查看數(shù)據(jù)是否合理、是否存在漏檢。例如,筆者利用CNKI的中國引文數(shù)據(jù)庫,在食品工業(yè)類中檢索圖書的被引情況,按照被引頻次從高到低排序后,統(tǒng)計(jì)構(gòu)成總被引量80%的高被引圖書,以構(gòu)成食品工業(yè)類的核心書目。但筆者發(fā)現(xiàn),其中沒有一種圖書是2005年以后出版的,這是為什么呢?考慮到中文學(xué)術(shù)性文獻(xiàn)的引用期大致為出版后2~5年,因此,筆者以年均被引5次作為一個(gè)補(bǔ)充指標(biāo),獲得近5年出版的圖書60種,將其納入核心圖書的范疇,得到一個(gè)較完整的核心書目[5]。
查全率和查準(zhǔn)率之間存在互逆關(guān)系,估算和補(bǔ)充漏檢數(shù)據(jù)的難度遠(yuǎn)高于刪除誤檢數(shù)據(jù)。因此,研究者首先要保證的是查全率,貫徹“寧可誤檢,不可漏檢”的原則,在此基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行審核,刪除不符合要求的文獻(xiàn)。例如,丁玉東在統(tǒng)計(jì)1999—2008年EI收錄的燕山大學(xué)論文時(shí),使用檢索式: ((yan shan univ*)WN AF)AND((qinhuangdao)WN AF))、((yanshan univ*)WN AF),兩個(gè)檢索式的時(shí)間限定在1999—2008年,共得到論文3 313篇,手動(dòng)刪除誤檢論文41篇,得到符合要求的論文共3 272篇[7]。
[1]李 平.我國民族學(xué)圖書學(xué)術(shù)影響力報(bào)告:基于CSSCI(2000-2007年)數(shù)據(jù)[J].西南民族大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版, 2009(7):71-80.
[2]許 鑫, 王 偉.我國文化學(xué)圖書學(xué)術(shù)影響力報(bào)告:基于CSSCI的分析[J].東岳論叢, 2009(7):14-21.
[3]謝 靖.中國文學(xué)圖書學(xué)術(shù)影響力分析(國內(nèi)學(xué)術(shù)著作):基于CSSCI(2000-2007)[J].東岳論叢, 2009(10):59-66.
[4]賈 潔.我國“圖書館、情報(bào)與文獻(xiàn)學(xué)”圖書學(xué)術(shù)影響力報(bào)告:基于CSSCI的分析[J].中國圖書館學(xué)報(bào), 2010(2):56-69.
[5]沈艷紅, 吳信嵐.基于中國引文數(shù)據(jù)庫的核心書目測(cè)定研究[J].現(xiàn)代情報(bào), 2011(9):136-139.
[6]沈艷紅, 彭奇志, 張逸新, 等.基于Web of Science的無線傳感網(wǎng)學(xué)術(shù)研究發(fā)展分析[J].現(xiàn)代情報(bào), 2011(2):64-69.
[7]丁玉東.1999~2008年EI收錄燕山大學(xué)論文統(tǒng)計(jì)分析[J].教學(xué)研究, 2010(3):43-46.
[8]化柏林.文獻(xiàn)計(jì)量分析研究的分類與處理流程[J].情報(bào)科學(xué), 2007(9):1332-1336.
[9]王永紅.定量專利分析的樣本選取與數(shù)據(jù)清洗[J].情報(bào)理論與實(shí)踐, 2007(1):93-96.
[10]張?jiān)姴?2004-2008年國內(nèi)圖書館學(xué)研究高被引論文的統(tǒng)計(jì)與分析[J].情報(bào)科學(xué), 2011(3):387-390.
[11]沈艷紅.信息檢索中檢索詞的選擇對(duì)查全率的影響[J].情報(bào)探索,2006(11):73-74.