■袁 慧 馬建霞 王文娟
1) 中國科學(xué)院蘭州文獻(xiàn)情報中心,甘肅省蘭州市天水中路8號 7300002) 中國科學(xué)院大學(xué),北京市石景山區(qū)玉泉路19號(甲) 100049
本文的引文文本是指文獻(xiàn)正文中引用標(biāo)識的上下文構(gòu)成的內(nèi)容,是有關(guān)參考文獻(xiàn)中與相關(guān)內(nèi)容的敘述或評價[5]。當(dāng)前,引文文本分析是對引文文本內(nèi)容進(jìn)行引文類型分類等分析,主要集中在情感傾向、功能、位置、影響力幾個維度。本文的引用行為包括引文的引用數(shù)量、基于引文內(nèi)容的引用情感傾向和引用功能分類等。傳統(tǒng)期刊影響力評價是以被引頻次為基礎(chǔ)的影響因子(IF)[6],本文利用影響因子表征期刊文獻(xiàn)的被引頻次。期刊中文獻(xiàn)的引用行為與影響因子的關(guān)系,在一定程度上能夠反映文獻(xiàn)獲得較高的引用或者是獲得較高引用的潛力。
為了研究引用行為與影響因子的關(guān)系,以2014—2015年荒漠化與水土保持領(lǐng)域的8種中文核心期刊為研究對象,統(tǒng)計文獻(xiàn)中的引文數(shù)量以及引文內(nèi)容,根據(jù)期刊中文獻(xiàn)的平均參考文獻(xiàn)數(shù)量、引文的情感傾向和不同引用功能的引用行為重要性加權(quán)差異情況,結(jié)合其他因素,探討引用行為與影響因子之間的相關(guān)性。
荒漠化與水土保持是環(huán)境生態(tài)領(lǐng)域一個重要的研究方向,共有10種中文期刊,其中《灌溉排水學(xué)報》的文章內(nèi)容主要涉及農(nóng)業(yè)基礎(chǔ)與作物學(xué)等方面,不作具體分析。在獲取引文內(nèi)容的過程中由于《林業(yè)科學(xué)》的參考文獻(xiàn)著錄方式與其他期刊不同,無法獲取引文內(nèi)容,因此研究對象為其余8種期刊,通過中國知網(wǎng)期刊大全獲取期刊基本信息,包括國際標(biāo)準(zhǔn)連續(xù)出版物編號(ISSN)、期刊名稱、復(fù)合影響因子、綜合影響因子[7](表1)。
由于表1中計算2014—2015年影響因子,因而引文內(nèi)容分析的數(shù)據(jù)也選擇2014—2015年。在中國知網(wǎng)數(shù)據(jù)庫中以期刊名稱檢索2014—2015年的文獻(xiàn),按照每年文獻(xiàn)數(shù)量總數(shù)的30%隨機抽取。下載全文數(shù)據(jù),然后轉(zhuǎn)換為TXT格式文本,使用編程方法抽取全文中出現(xiàn)的引文文本,抽取方法見圖1。
表1 荒漠化與水土保持領(lǐng)域中文核心期刊
注:表1的復(fù)合影響因子和綜合影響因子來源于中國知網(wǎng)數(shù)據(jù)庫2016版,即計算年份為2014—2015年,綜合影響因子僅計算期刊論文的被引頻次,復(fù)合影響因子還包含碩博士學(xué)位論文以及會議論文的被引頻次。
經(jīng)過上述方法清洗數(shù)據(jù)后,過濾和剔除抽取結(jié)果中的干擾項和非引文文本,最后經(jīng)過篩選和整理,得到8種期刊的引文文本數(shù)量(表2)。在處理引文文本的過程中,部分文獻(xiàn)由于格式原因?qū)е聰?shù)據(jù)丟失或者出現(xiàn)亂碼,因而無法獲取部分引文文本相應(yīng)內(nèi)容。上述情況在每種期刊中均出現(xiàn),約占引用文本總量的0.83%,因此對總體情況影響可以忽略不計。
表2 不同期刊的引用文本總量
將已得到的引文文本按照如下過程進(jìn)行分析:首先,人工標(biāo)注部分引文文本的情感傾向和引用功能,基于結(jié)構(gòu)線索詞[8]機器標(biāo)記情感傾向,使用支持向量機(SVM)算法[9]機器標(biāo)記引用功能分類(圖2);其次,采用統(tǒng)計方法分析得到的引文情感傾向和引用功能分類數(shù)據(jù)的引用行為,觀察引用行為與期刊影響力(復(fù)合影響因子、綜合影響因子)的關(guān)系。
圖2 引文文本標(biāo)記過程
8種期刊的平均參考文獻(xiàn)數(shù)量見表2。由表2可知不同期刊的平均參考文獻(xiàn)數(shù)量的區(qū)別較為明顯,其中,平均參考文獻(xiàn)數(shù)量最多的期刊為《土壤學(xué)報》,為34.56篇,平均參考文獻(xiàn)數(shù)量最少的期刊為《水土保持通報》,僅為13.07篇。通過隨機閱讀抽取的文獻(xiàn),發(fā)現(xiàn)《土壤學(xué)報》中綜述性文獻(xiàn)所占的比例以及文獻(xiàn)正文中綜述部分所占的比重比其他期刊略高。
平均參考文獻(xiàn)數(shù)量能夠反映期刊的參考文獻(xiàn)數(shù)量水平,為探索引用參考文獻(xiàn)的數(shù)量是否影響期刊的被引潛力,利用R語言分析平均參考文獻(xiàn)數(shù)量與影響因子的關(guān)系,得到平均參考文獻(xiàn)數(shù)量與影響因子之間的Pearson相關(guān)系數(shù),結(jié)果見表3。
表3 平均參考文獻(xiàn)數(shù)量與影響因子的相關(guān)性分析
注:①*表示在0.05水平(雙側(cè))顯著相關(guān);②**表示在0.01水平(雙側(cè))顯著相關(guān);③綜合影響因子僅計算期刊論文的被引頻次,復(fù)合影響因子還包含碩博士學(xué)位論文及會議論文的被引頻次;④括號內(nèi)數(shù)據(jù)為顯著性系數(shù)。
由表3可知,平均參考文獻(xiàn)數(shù)量在統(tǒng)計意義上與期刊復(fù)合影響因子和綜合影響因子均顯著相關(guān)。從相關(guān)性分析結(jié)果來看,盡管采集數(shù)據(jù)中不包含學(xué)位論文、會議論文等數(shù)據(jù)源,但是平均參考文獻(xiàn)數(shù)量仍與復(fù)合影響因子具有統(tǒng)計相關(guān)性。其主要原因是(1)復(fù)合影響因子與綜合影響因子之間存在相關(guān)關(guān)系;(2)復(fù)合影響因子本身已經(jīng)表征了期刊的被引頻次情況。
期刊影響因子通過該期刊前兩年的被引頻次和文獻(xiàn)數(shù)量計算得出,統(tǒng)計被引情況,表征期刊的文獻(xiàn)被引用情況,較高的影響因子意味著獲得了較高的被引頻次。然而本研究的平均參考文獻(xiàn)數(shù)量與期刊影響因子之間存在顯著相關(guān)關(guān)系,說明參考文獻(xiàn)數(shù)量較多的文獻(xiàn)更有可能獲得較高的引用或者具有獲得較高引用的潛力。但是文獻(xiàn)在引用參考文獻(xiàn)過程中可能存在其他的影響因素,忽略不同引用目的的復(fù)雜引用情況。
2.2.1 情感傾向分類
引文文本的情感傾向是指文獻(xiàn)作者在正文中對被引用參考文獻(xiàn)表述的態(tài)度,即持肯定態(tài)度或否定態(tài)度[10]。引文文本情感傾向分為兩類:正向情感和負(fù)向情感。正向情感包括支持和中立態(tài)度,負(fù)向情感是指對引用文獻(xiàn)中的觀點或者結(jié)論持批判態(tài)度。在分析引文的過程中,發(fā)現(xiàn)負(fù)向情感傾向的引用相對較少,表述方式也類似,因此,將負(fù)向情感傾向以外的引用情感傾向均歸結(jié)為正向情感傾向。本研究以負(fù)向情感傾向作為研究對象,從而可推斷正向情感傾向的結(jié)果。引文文本中出現(xiàn)負(fù)向情感的表述結(jié)構(gòu)見表4。
表4 引文文本中負(fù)向情感的表述結(jié)構(gòu)
2.2.2 負(fù)向引用數(shù)量分析
通過手工標(biāo)記與機器標(biāo)記引文文本的情感傾向,統(tǒng)計得到荒漠化與水土保持領(lǐng)域8種中文核心期刊近5年的負(fù)向引用數(shù)量與引文總數(shù)的比例(表5)。本研究統(tǒng)計發(fā)現(xiàn),負(fù)向引用共計1741條,占抽取樣本總數(shù)的3.71%,所占比例較低,與已有研究中其他學(xué)科發(fā)現(xiàn)的負(fù)向引用比例相當(dāng)[11]。其中《水土保持學(xué)報》負(fù)向引用比例最高,《巖土力學(xué)》負(fù)向引用比例最低,但是各個期刊負(fù)向引用比例相差不大。
2.2.3 負(fù)向引用與影響因子的相關(guān)性分析
分析表5中的負(fù)向情感傾向引用在總引文數(shù)量中的占比與影響因子的相關(guān)性,結(jié)果見表6,發(fā)現(xiàn)負(fù)向引用占比與影響因子之間不具有統(tǒng)計相關(guān)性,即期刊文獻(xiàn)中的負(fù)向引用數(shù)量不影響期刊的影響因子,兩者沒有直接關(guān)系。情感傾向的劃分標(biāo)準(zhǔn)為:非負(fù)向引用即為正向引用。分析正向引用占比與影響因子的相關(guān)性,結(jié)果顯示正向情感傾向的引用與影響因子之間也不存在相關(guān)關(guān)系。因此,引文文本中的情感傾向與影響因子無關(guān),即不影響文獻(xiàn)是否具有獲得較高引用的潛力。
表5 期刊的負(fù)向傾向引文文本數(shù)量對比
表6 負(fù)向引用比例與影響因子的相關(guān)性分析
注:①**表示在0.01水平(雙側(cè))顯著相關(guān);②綜合影響因子僅計算期刊論文的被引頻次,復(fù)合影響因子還包含碩博士學(xué)位論文及會議論文的被引頻次;④括號內(nèi)數(shù)據(jù)為顯著性系數(shù)。
根據(jù)正向和負(fù)向情感的分類標(biāo)準(zhǔn),引用文本中的負(fù)向情感是指對被引文獻(xiàn)或者參考文獻(xiàn)中觀點、結(jié)論或者實驗過程的批判或者改進(jìn),這種類型的引用大多數(shù)是對前人研究的改進(jìn)、糾正或者一種觀點的不同解釋等,體現(xiàn)了學(xué)術(shù)中的百家爭鳴現(xiàn)象,因而認(rèn)為負(fù)向引用占比高的期刊中可能容納了更多不同的觀點、結(jié)論、方法等相關(guān)研究的探討,有利于學(xué)科發(fā)展。
2.3.1 引用功能分類
文獻(xiàn)中不同功能類型的引用對文獻(xiàn)的貢獻(xiàn)不同[12],對引文文本的引用功能進(jìn)行分類,并劃分不同引用功能的重要性等級,能夠了解期刊中不同引用功能的占比,并且了解基于不同功能的引用行為重要性加權(quán)與影響因子的關(guān)系。引用功能分類建立在Chang等[13]和Sula等[14]分類的基礎(chǔ)上,分為5個等級和10類,具體分類模型見表7。
表7 引文文本中引用功能的表述結(jié)構(gòu)
由表7可知,功能與重要性等級形成了一定的映射關(guān)系,根據(jù)不同引用功能的重要程度劃分等級,在功能引用數(shù)據(jù)的基礎(chǔ)上計算期刊引用行為的重要性加權(quán),嘗試解釋引用功能與影響因子之間的相關(guān)性。
2.3.2 不同引用功能分析
按照表7中的引用功能,標(biāo)注獲取到的46972條引文文本,包括人工標(biāo)記和機器自動標(biāo)記2部分,統(tǒng)計結(jié)果見表8。由表8數(shù)據(jù)可知,擴展閱讀功能的引用最多,平均占比約26.78%,根據(jù)引用功能分類模型中的定義,此類引用為讀者提供導(dǎo)讀,不詳細(xì)介紹被引文獻(xiàn)內(nèi)容,隨機抽樣閱讀擴展閱讀類型引文,發(fā)現(xiàn)部分引文甚至可能與施引文獻(xiàn)內(nèi)容不相關(guān)。其次是引用結(jié)論,對比被引文獻(xiàn)中的結(jié)論與施引文獻(xiàn)結(jié)論,引用觀點也是如此。引用功能中以引用相關(guān)研究和方法最為重要,這兩類引用功能占比合計約18%,是重要的研究基礎(chǔ)和思路來源。
觀察表8中每種功能引用的最值,結(jié)合表7中每種引用功能的重要性等級,發(fā)現(xiàn)《土壤學(xué)報》對重要性等級較低的背景和擴展閱讀的引用在所有期刊中最少,然而對重要性等級較高的數(shù)據(jù)和相關(guān)研究的引用最多。相反,《水土保持通報》對重要性等級較低的背景和擴展閱讀的引用在所有期刊中最多,《中國沙漠》對重要性等級較高的觀點和方法的引用最少。結(jié)合8種期刊的影響因子,《土壤學(xué)報》的影響因子較高,《水土保持通報》的影響因子較低,說明影響因子較高的期刊文章,對重要性等級較低的背景和擴展閱讀的引用較少,對重要性等級較高的數(shù)據(jù)和相關(guān)研究的引用較多,然而影響因子較低的期刊文章則相反。
2.3.3 基于引用功能的引用行為的重要性加權(quán)
在表7的引用功能分類模型中,劃分10種類型的重要等級,將各功能類型的占比按照重要性等級計算引用行為的重要性加權(quán)。計算公式為:引用行為的重要性加權(quán)=∑(功能類型×等級),計算結(jié)果見表9。由計算結(jié)果可知,《農(nóng)業(yè)工程學(xué)報》重要性加權(quán)最高,《水土保持通報》最低。同時發(fā)現(xiàn)引用行為的重要性加權(quán)與期刊綜合影響因子的兩個最值相互對應(yīng),因此引用行為的重要性加權(quán)與期刊影響因子之間是否具有相關(guān)關(guān)系仍需要進(jìn)一步驗證。
表8 不同期刊中引用功能類型的引文分布
注:表8中數(shù)據(jù)是人工標(biāo)記與機器標(biāo)記的合集,加粗?jǐn)?shù)據(jù)為每種引用功能的最大值與最小值。
表9 不同期刊中基于引用功能的引用行為重要性加權(quán)
分析引用行為重要性加權(quán)與影響因子的Pearson相關(guān)性,結(jié)果見表10,可知引用行為重要性加權(quán)與期刊的復(fù)合影響因子和綜合影響因子均存在顯著的統(tǒng)計相關(guān)關(guān)系,原因與2.1節(jié)中分析的情況相同。因此,引用行為重要性加權(quán)即高質(zhì)量引用更有可能獲得較高的引用或者具有獲得較高引用的潛力。
以引用行為重要性加權(quán)為橫坐標(biāo),期刊綜合影響因子為縱坐標(biāo),繪制對應(yīng)關(guān)系,見圖3。分布趨勢為y=3.4946x-9.9275,擬合優(yōu)度(R)達(dá)到90%,說明引用行為重要性加權(quán)與期刊綜合影響因子之間基本呈現(xiàn)線性相關(guān)。最明顯的離群點是《中國沙漠》,其引用行為重要性加權(quán)值為3.132,而其綜合影響因子為1.395。
表10 引用行為重要性加權(quán)與影響因子的相關(guān)性分析
注:①**表示在0.01水平(雙側(cè))顯著相關(guān);②綜合影響因子僅計算期刊論文的被引頻次,復(fù)合影響因子還包含碩博士學(xué)位論文及會議論文的被引頻次;③括號內(nèi)數(shù)據(jù)為顯著性系數(shù)。
圖3 引用行為重要性加權(quán)與期刊綜合影響因子的擬合關(guān)系
由表10和圖3可知,引用行為重要性加權(quán)與影響因子之間的線性相關(guān)關(guān)系為強相關(guān),因此期刊中文獻(xiàn)若引用較多的重要性等級較高的觀點、結(jié)論、數(shù)據(jù)、方法和相關(guān)研究,意味著其有可能獲得較高的引用或者認(rèn)為其具有獲得較高引用的潛力。同時,期刊編輯可以通過在審稿中關(guān)注文獻(xiàn)中的引用行為,多錄用對結(jié)論、觀點、數(shù)據(jù)和方法等引用行為較多的文獻(xiàn),從而提高期刊的影響力。
結(jié)合2014—2015年荒漠化與水土保持領(lǐng)域中文核心期刊的引文文本,分析了8種期刊的平均引文數(shù)量、引文情感傾向和引用功能,探討其與2016年期刊影響因子(計算年為2014—2015年)之間的關(guān)系。通過研究期刊影響因子與期刊的引文數(shù)量、引文情感和引用功能的相關(guān)分析得到以下三個結(jié)論。
首先,期刊文獻(xiàn)的平均參考文獻(xiàn)數(shù)量與影響因子存在顯著相關(guān)關(guān)系。通常如果文獻(xiàn)引用的參考文獻(xiàn)數(shù)量較多,認(rèn)為其對前期研究作了充分的調(diào)研和分析[15],或者文獻(xiàn)可能更偏向于綜述類型,被引用的可能性較大。這說明期刊文獻(xiàn)的參考文獻(xiàn)數(shù)量在一定程度上影響期刊的被引情況。
其次,期刊文獻(xiàn)引文中的情感傾向與期刊影響因子無直接關(guān)系。將負(fù)向引用占比較大的期刊中的相關(guān)文章對不同研究的觀點、結(jié)論、方法進(jìn)行對比,發(fā)現(xiàn)引文的負(fù)向情感傾向是批判或者改進(jìn)被引文獻(xiàn)[16],是作者表達(dá)觀點的一種方式。
最后,基于不同引用功能的引用行為重要性加權(quán)與期刊影響因子存在顯著的相關(guān)關(guān)系。加權(quán)計算不同引用功能的占比和重要性等級,凸顯重要性較高的引用功能的價值,除《中國沙漠》稍有差異的離群點以外,計算所得的引用行為重要性加權(quán)能夠客觀地反映文獻(xiàn)引用行為的重要性。因此在一定程度上,期刊文獻(xiàn)可以關(guān)注引用功能的類型以判斷其被引潛力。
綜上所述,對于2014—2015年荒漠化與水土保持領(lǐng)域的中文核心期刊而言,期刊中文獻(xiàn)的平均引文數(shù)量、引用行為重要性加權(quán)都與影響因子存在相關(guān)關(guān)系,而引用中的情感傾向則與影響因子無關(guān)。因此,對于作者而言,增加參考文獻(xiàn)數(shù)量和在文獻(xiàn)中較多引用觀點、結(jié)論、數(shù)據(jù)、方法和相關(guān)研究等,意味著有可能獲得較高被引的潛力;對于期刊編輯而言,可以通過在審稿中關(guān)注文獻(xiàn)的參考文獻(xiàn)數(shù)量和引用行為,從而提高期刊的被引頻次。
[1] 陸偉,孟睿,劉興幫. 面向引用關(guān)系的引文內(nèi)容標(biāo)注框架研究[J]. 中國圖書館學(xué)報,2014,40(6):93-104.
[2] Liu Y,Rousseau R. Interestingness and the essence of citation[J].JournalofDocumentation,2013,69(4):580-589.
[3] Small H,Greenlee E. Citation context analysis of a co-citation cluster:Recombinant-DNA[J].Scientometrics,1980,2(4):277-301.
[4] 王文娟. 基于引文文本的引用行為分析——以國內(nèi)圖情領(lǐng)域為例[D]. 北京:中國科學(xué)院大學(xué),2016.
[5] Bornmann L,Daniel H D. What do citation counts measure? A review of studies on citing behavior[J].JournalofDocumentation,2008,64(1):45-80.
[6] Garfield E. The history and meaning of the journal impact factor[J].Jama,2006,295(1):90-93.
[7] 中國知網(wǎng). 期刊導(dǎo)航[EB/OL]. [2017-03-11]. http:∥navi.cnki.net/KNavi/Journal.html.
[8] Garzone M,Mercer R. Towards an automated citation classifier[J].AdvancesinArtificialIntelligence,2000,1822:337-346.
[9] Agarwal N K,Xu Y C,Poo D C C. A context-based investigation into source use by information seekers[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2011,62(6):1087-1104.
[10] Moravcsik M J,Murugesan P. Some results on the function and quality of citations[J].SocialStudiesofScience,1975,5(1):86-92.
[11] Martens V,Goodrum A A. The diffusion of theories:A functional approach[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2006,57(3):330-341.
[12] 陳曉麗. 引文類型比較分析[J]. 圖書與情報,1998(4):50-53.
[13] Chang S J,Rice R E. Browsing:A multidimensional framework[J].AnnualReviewofInformationScienceandTechnology,1993,28:231-276.
[14] Sula C A,Miller M. Citations,contexts,and humanistic discourse:Toward automatic extraction and classification[J].LiteraryandLinguisticComputing,2014,29(3):452-464.
[15] Webster G D,Jonason P K,Schember T O. Hot topics and popular papers in evolutionary psychology:Analyses of title words and citation counts inEvolutionandHumanBehavior,1979—2008[J].EvolutionaryPsychology,2009,7(3):348-362.
[16] 魏楊燁,孫玉琦,汪琦凡. 基于引用頻次和引用內(nèi)容的引文評價分析[J]. 情報探索,2016(8):116-120.