文獻(xiàn)計(jì)量分析中的數(shù)據(jù)準(zhǔn)備工作研究*

2012-02-15 09:34:20沈艷紅江南大學(xué)圖書館江蘇無錫214122

圖書館建設(shè) 2012年5期

沈艷紅張娣（江南大學(xué)圖書館江蘇無錫 214122）

目前，大量學(xué)者利用文獻(xiàn)計(jì)量學(xué)的各種方法來進(jìn)行學(xué)科情報(bào)分析，這些分析研究是非常有意義的。期刊刊發(fā)的文獻(xiàn)計(jì)量分析類論文，一般都會(huì)對(duì)數(shù)據(jù)準(zhǔn)備工作進(jìn)行簡單的介紹。但是筆者發(fā)現(xiàn)，不論是作者、編輯，還是讀者，對(duì)這部分內(nèi)容的重視程度都比較低，導(dǎo)致一部分文獻(xiàn)計(jì)量分析在數(shù)據(jù)準(zhǔn)備工作中出現(xiàn)了很大的偏差。

1 數(shù)據(jù)準(zhǔn)備工作的具體內(nèi)容

文獻(xiàn)計(jì)量分析研究的過程主要包括6個(gè)步驟：確定文獻(xiàn)計(jì)量分析目標(biāo)、制定分析方案并設(shè)計(jì)文獻(xiàn)計(jì)量指標(biāo)、進(jìn)行數(shù)據(jù)準(zhǔn)備、分析指標(biāo)數(shù)據(jù)、形成分析報(bào)告、發(fā)布分析報(bào)告。其中，文獻(xiàn)計(jì)量分析中的數(shù)據(jù)準(zhǔn)備工作主要包括數(shù)據(jù)采集和數(shù)據(jù)清洗兩個(gè)方面。

1.1 數(shù)據(jù)采集

文獻(xiàn)計(jì)量分析中的數(shù)據(jù)采集是指選擇與文獻(xiàn)計(jì)量分析指標(biāo)配套的數(shù)據(jù)的過程。目前，文獻(xiàn)計(jì)量分析的數(shù)據(jù)采集主要有3種方法：①直接從數(shù)據(jù)庫商獲處取數(shù)據(jù)庫數(shù)據(jù)[1-4]，其數(shù)據(jù)來源是CSSCI（Chinese Social Sciences Citation Index，中文社會(huì)科學(xué)引文索引）的后臺(tái)數(shù)據(jù)庫；②在數(shù)據(jù)庫商的網(wǎng)站上通過檢索得到檢索結(jié)果[5-7]，其分別利用CNKI（中國知網(wǎng)）、SCI（Science Citation Index，科學(xué)引文索引）、EI（The Engineering Index，工程索引）數(shù)據(jù)庫，通過檢索得到詳細(xì)記錄，然后復(fù)制檢索結(jié)果網(wǎng)頁上的相關(guān)內(nèi)容；③自動(dòng)下載，通過程序構(gòu)造URL（Uniform Resource Locator，統(tǒng)一資源定位符），然后根據(jù)URL下載HTML（Hypertext Markup Language，超文本標(biāo)記語言）網(wǎng)頁文件，讀取下載的網(wǎng)頁文件且濾掉HTML的標(biāo)簽，根據(jù)字段名稱獲取數(shù)據(jù)記錄，如通過上述方法下載萬方學(xué)位論文數(shù)據(jù)庫某高校鏡像網(wǎng)站上的符合檢索要求的學(xué)位論文全部內(nèi)容[8]。其中，第1種方法需要研究人員與數(shù)據(jù)庫商有很好的協(xié)商與溝通，一般情況下只有數(shù)據(jù)庫所在單位的內(nèi)部人員才有開展的條件；第3種方法需要具有較高的技術(shù)水平才能實(shí)現(xiàn)。因此，目前使用最為廣泛的是第2種方法，但是這種方法對(duì)檢索者的檢索水平要求較高，很多計(jì)量分析類文獻(xiàn)的數(shù)據(jù)出現(xiàn)問題就是因?yàn)闄z索人員對(duì)數(shù)據(jù)庫了解不夠。

1.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗就是將來自不同數(shù)據(jù)源的不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式，去除錯(cuò)誤記錄和重復(fù)記錄，補(bǔ)充遺漏記錄，以提高數(shù)據(jù)質(zhì)量的工作。數(shù)據(jù)清洗的原理主要是根據(jù)回溯思想，通過分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式，利用現(xiàn)有的技術(shù)手段和方法檢測(cè)“臟數(shù)據(jù)”，制訂數(shù)據(jù)清洗的方法、規(guī)則和策略并加以實(shí)施，將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應(yīng)用要求的“干凈數(shù)據(jù)”。

2 數(shù)據(jù)準(zhǔn)備工作的重要性：基于實(shí)證的闡述

GIGO（Garbage In, Garbage out；垃圾進(jìn)，垃圾出）理論指出，“無論系統(tǒng)的能力有多強(qiáng)，如果輸入數(shù)據(jù)是錯(cuò)誤的，輸出結(jié)果必然也是錯(cuò)誤的?！盵9]推而廣之，如果采用不正確、不完整、不一致、不可靠的數(shù)據(jù)，不論我們運(yùn)用多么強(qiáng)大的分析方法，也無法確保分析結(jié)果的正確、完整、一致、可靠。數(shù)據(jù)準(zhǔn)備工作作為文獻(xiàn)計(jì)量分析的基礎(chǔ)，其質(zhì)量直接影響著分析結(jié)果的科學(xué)性、客觀性。然而，即便是從同一個(gè)數(shù)據(jù)庫中獲取數(shù)據(jù)，也會(huì)因?yàn)閿?shù)據(jù)采集和數(shù)據(jù)清洗時(shí)所運(yùn)用方法的不同而導(dǎo)致所獲數(shù)據(jù)差異較大。這就要求文獻(xiàn)計(jì)量分析人員高度重視數(shù)據(jù)準(zhǔn)備工作，選用最合適、最有效的方法和手段，從而獲得最正確、完整、一致、可靠的數(shù)據(jù)。筆者以基于CNKI檢索圖書館學(xué)高被引論文為例，進(jìn)行如下實(shí)證的闡述。

2.1 方案1：某文所述檢索方法

張?jiān)姴┰鴮?duì)國內(nèi)2004—2008年圖書館學(xué)研究高被引論文的被引用情況進(jìn)行了統(tǒng)計(jì)分析，篩選出了圖書館學(xué)研究的重要期刊、多產(chǎn)作者和多產(chǎn)科研機(jī)構(gòu)，同時(shí)對(duì)高被引論文的產(chǎn)出地區(qū)和研究主題進(jìn)行了統(tǒng)計(jì)與分析，該研究對(duì)圖書館學(xué)的研究工作非常有借鑒意義[10]。張?jiān)姴┑臋z索方法是：選用CNKI的中國引文數(shù)據(jù)庫，確定檢索項(xiàng)為“被引題名”、檢索詞為“圖書館”、時(shí)間段為“2004—2008年”，得到2004—2008年國內(nèi)圖書館學(xué)研究的高被引論文20篇[10]。

2.2 方案2：基于中國引文數(shù)據(jù)庫的分類檢索

基于CNKI的中國引文數(shù)據(jù)庫檢索上述課題，筆者采用分類檢索方式，具體步驟如下：

第1步：確定查詢范圍。在中國引文數(shù)據(jù)庫中點(diǎn)擊高級(jí)檢索，在檢索界面的左側(cè)查詢范圍中，首先清除默認(rèn)查詢范圍，然后點(diǎn)擊“電子技術(shù)及信息科學(xué)”；再次清除默認(rèn)的查詢范圍（包括無線電電子學(xué)等10個(gè)專題），然后點(diǎn)擊“圖書情報(bào)與數(shù)字圖書館”（該專題包括“圖書館學(xué)、圖書館事業(yè)”和“情報(bào)學(xué)、情報(bào)工作”），勾選“圖書館學(xué)、圖書館事業(yè)”。

第2步：查詢范圍確定以后，在引文類型中選擇“期刊類型引文”。

第3步：檢索結(jié)果的排序方式選擇“被引頻次”。

第4步：根據(jù)自己的需要輸入發(fā)布時(shí)間。例如，要獲得2004年國內(nèi)圖書館學(xué)研究的高被引論文，發(fā)布時(shí)間就是2004—2004；如果要獲得2004—2008年圖書館學(xué)研究的高被引論文，發(fā)布時(shí)間為2004—2008。

第5步：無需在檢索框中輸入檢索詞，直接點(diǎn)擊檢索就可以獲得2004—2008年該專題論文的被引情況。由于檢索結(jié)果按照被引頻次排序，用戶可以根據(jù)自己的需要獲取高被引論文。

2.3 方案3：基于中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫的分類檢索

基于中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫檢索上述課題，筆者采用分類檢索方式，具體步驟如下：

第1步：確定查詢范圍。在CNKI首頁點(diǎn)擊“中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫”，進(jìn)入該庫檢索界面；在檢索界面左側(cè)的“文獻(xiàn)分類目錄”中勾選“圖書館學(xué)、圖書館事業(yè)”這一專題。

第2步：在“輸入檢索控制條件”下的期刊年期處選擇從2004年到2008年。

第3步：無需輸入檢索詞，直接點(diǎn)擊“檢索文獻(xiàn)”。

第4步：在“文獻(xiàn)排序?yàn)g覽”處點(diǎn)擊“被引頻次”，使所得78 935條記錄按照被引頻次從高到低排序，用戶可以根據(jù)自己的需要獲取高被引論文。

2.4 數(shù)據(jù)對(duì)比分析

對(duì)比方案1和方案3所得的檢索結(jié)果發(fā)現(xiàn)：方案1所獲得的前20篇論文，除了李國新的《圖書館權(quán)利的定位、實(shí)現(xiàn)與維護(hù)》一文漏檢外，均散落于使用方案3獲得的前40篇論文中。也就是說，方案1的查全率大約是方案3的50%，而基于如此不完備的數(shù)據(jù)所得的分析結(jié)果，其可信度值得懷疑。

對(duì)比方案2和方案3所得的檢索結(jié)果發(fā)現(xiàn)：方案3獲得的前20篇論文中，有5篇論文在方案2中并沒有被檢索出來，而利用方案2檢索得到的前20篇高被引論文，通過方案3均可以得到，只是因?yàn)闄z索出了一些被方案2所漏掉的論文，部分論文的排名被往后推了，并且方案3所得文獻(xiàn)被引頻次普遍高于方案2所得文獻(xiàn)。這可能是因?yàn)橹袊臄?shù)據(jù)庫的更新速度低于中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫的更新速度。也就是說，方案2的查全率是方案3的75%。顯然，通過方案3來獲得某一學(xué)科的高被引論文優(yōu)于前兩種方案。

根據(jù)上述實(shí)例發(fā)現(xiàn)，同樣以CNKI為數(shù)據(jù)源，采用不同的檢索方法來獲得圖書館學(xué)的高被引論文，其檢索結(jié)果最多可能相差50%。在文獻(xiàn)計(jì)量方法日益受到重視并得到廣泛使用的今天，我們不能只重視采用“什么樣”的方法“如何”分析數(shù)據(jù)，更要重視我們分析的是“什么樣的數(shù)據(jù)”。文獻(xiàn)計(jì)量分析工作是否有意義，是建立在被分析的數(shù)據(jù)準(zhǔn)確、可靠的基礎(chǔ)之上的。因此，在進(jìn)行文獻(xiàn)計(jì)量分析研究時(shí)，一定要重視數(shù)據(jù)準(zhǔn)備工作。

3 數(shù)據(jù)準(zhǔn)備工作的幾個(gè)建議

正確、完整、一致、可靠的數(shù)據(jù)是文獻(xiàn)計(jì)量分析的前提，但是如何才能做到這一點(diǎn)呢？筆者在長期的文獻(xiàn)計(jì)量分析工作中積累了一些經(jīng)驗(yàn)，提出以下幾點(diǎn)建議。

3.1 分析信息需求，選用合適的檢索方法。

在進(jìn)行檢索之前，研究者首先要分析自己的信息需求，然后根據(jù)自己的需求來選擇合適的檢索方法。正如上述案例所示，方案1所得檢索結(jié)果與信息需求之間有很大的差距，因?yàn)樵摲椒ㄋ鶛z索到的是題名中包含“圖書館”一詞的高被引論文，而不是圖書館學(xué)領(lǐng)域中的高被引論文。要對(duì)圖書館學(xué)文獻(xiàn)的被引情況進(jìn)行統(tǒng)計(jì)，應(yīng)采用分類檢索，這樣不論題名是否包含“圖書館”3個(gè)字，只要是圖書館學(xué)領(lǐng)域的學(xué)術(shù)論文都可以被檢索到，查全率才能得到保障。

3.2 掌握數(shù)據(jù)庫的使用方法

各數(shù)據(jù)庫由不同的開發(fā)商開發(fā)，其檢索功能差別很大。用戶只有在了解數(shù)據(jù)庫的使用方法的基礎(chǔ)上，才能通過數(shù)據(jù)庫的檢索功能檢索到自己所需的信息。例如，在Web of Knowledge 中區(qū)分自引與他引，靠人工逐篇判斷極為費(fèi)時(shí)費(fèi)力，還容易出錯(cuò)，但是如果了解該數(shù)據(jù)庫檢索功能，就可以利用“檢索結(jié)果分析”功能，對(duì)檢索到的施引文獻(xiàn)進(jìn)行“作者分析”，然后排除本文作者，所得結(jié)果即他引數(shù)。

3.3 盡量提高查全率，及時(shí)補(bǔ)充遺漏數(shù)據(jù)。

當(dāng)前的檢索系統(tǒng)多是用自然語言組織的，這極大地方便了信息用戶的檢索。但在自然語言中，同一個(gè)概念或事物可以用很多不同的詞來表述。如果希望得到高的查全率，用戶在選取檢索詞的時(shí)候，必須從多種角度來考慮，如同義詞、近義詞、反義詞、上下位詞和檢索詞的易錯(cuò)形式等[11]。

得到檢索結(jié)果后不要急于進(jìn)入分析階段，應(yīng)先查看數(shù)據(jù)是否合理、是否存在漏檢。例如，筆者利用CNKI的中國引文數(shù)據(jù)庫，在食品工業(yè)類中檢索圖書的被引情況，按照被引頻次從高到低排序后，統(tǒng)計(jì)構(gòu)成總被引量80%的高被引圖書，以構(gòu)成食品工業(yè)類的核心書目。但筆者發(fā)現(xiàn)，其中沒有一種圖書是2005年以后出版的，這是為什么呢？考慮到中文學(xué)術(shù)性文獻(xiàn)的引用期大致為出版后2～5年，因此，筆者以年均被引5次作為一個(gè)補(bǔ)充指標(biāo)，獲得近5年出版的圖書60種，將其納入核心圖書的范疇，得到一個(gè)較完整的核心書目[5]。

3.4 刪除誤檢數(shù)據(jù)

查全率和查準(zhǔn)率之間存在互逆關(guān)系，估算和補(bǔ)充漏檢數(shù)據(jù)的難度遠(yuǎn)高于刪除誤檢數(shù)據(jù)。因此，研究者首先要保證的是查全率，貫徹“寧可誤檢，不可漏檢”的原則，在此基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行審核，刪除不符合要求的文獻(xiàn)。例如，丁玉東在統(tǒng)計(jì)1999—2008年EI收錄的燕山大學(xué)論文時(shí)，使用檢索式： ((yan shan univ*)WN AF)AND((qinhuangdao)WN AF))、((yanshan univ*)WN AF)，兩個(gè)檢索式的時(shí)間限定在1999—2008年，共得到論文3 313篇，手動(dòng)刪除誤檢論文41篇，得到符合要求的論文共3 272篇[7]。

[1]李平.我國民族學(xué)圖書學(xué)術(shù)影響力報(bào)告:基于CSSCI(2000-2007年)數(shù)據(jù)[J].西南民族大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版, 2009(7):71-80.

[2]許鑫, 王偉.我國文化學(xué)圖書學(xué)術(shù)影響力報(bào)告:基于CSSCI的分析[J].東岳論叢, 2009(7):14-21.

[3]謝靖.中國文學(xué)圖書學(xué)術(shù)影響力分析(國內(nèi)學(xué)術(shù)著作):基于CSSCI(2000-2007)[J].東岳論叢, 2009(10):59-66.

[4]賈潔.我國“圖書館、情報(bào)與文獻(xiàn)學(xué)”圖書學(xué)術(shù)影響力報(bào)告:基于CSSCI的分析[J].中國圖書館學(xué)報(bào), 2010(2):56-69.

[5]沈艷紅, 吳信嵐.基于中國引文數(shù)據(jù)庫的核心書目測(cè)定研究[J].現(xiàn)代情報(bào), 2011(9):136-139.

[6]沈艷紅, 彭奇志, 張逸新, 等.基于Web of Science的無線傳感網(wǎng)學(xué)術(shù)研究發(fā)展分析[J].現(xiàn)代情報(bào), 2011(2):64-69.

[7]丁玉東.1999～2008年EI收錄燕山大學(xué)論文統(tǒng)計(jì)分析[J].教學(xué)研究, 2010(3):43-46.

[8]化柏林.文獻(xiàn)計(jì)量分析研究的分類與處理流程[J].情報(bào)科學(xué), 2007(9):1332-1336.

[9]王永紅.定量專利分析的樣本選取與數(shù)據(jù)清洗[J].情報(bào)理論與實(shí)踐, 2007(1):93-96.

[10]張?jiān)姴?2004-2008年國內(nèi)圖書館學(xué)研究高被引論文的統(tǒng)計(jì)與分析[J].情報(bào)科學(xué), 2011(3):387-390.

[11]沈艷紅.信息檢索中檢索詞的選擇對(duì)查全率的影響[J].情報(bào)探索,2006(11):73-74.