阮選敏,呂冬晴,張 培,成 穎,柯 青
學術文獻被引頻次作為輔助同行評議的重要手段[1],被廣泛應用于科研評價工作中。但是,學界對引用頻次是否適合作為學術文獻質量的評估指標尚未形成統(tǒng)一意見。據(jù)此,探索學術文獻被引頻次的影響因素,理解引用的分布和意義就顯得尤為重要。學術論文(以下簡稱論文)作為學術文獻的重要類型,其被引影響因素的研究已碩果累累。Tahamtan 等[2]對該主題進行了綜述,發(fā)現(xiàn)28個影響因素,并將其分為三類:論文、期刊、作者相關因素。在眾多影響因素中,哪些因素在論文被引中起到主要的作用以及如何利用其預測被引成為一個新的研究問題,負二項回歸[3-4]和線性回歸模型[5-7]是研究該問題的常用方法。
學術圖書(以下簡稱“圖書”)也是重要的學術文獻類型。目前已經(jīng)開展了多項有關圖書被引的影響因素研究,研究者探討了開放存取(Open Access)[8]、語言[8-9]、學科[8-10]、作者數(shù)量[11]、出版年份[9]、出版社[12]、是否為叢書[12]、是否為編著[9][12]等因素的影響。相較于論文,圖書被引影響因素研究的廣度和深度都有待進一步發(fā)掘。
相較于自然科學,圖書對人文社會科學具有更重要的學術價值[13-18],其被引在人文社科中的比例更高[15]。據(jù)此,本文開展中文人文社科圖書被引影響因素的研究,具體內(nèi)容包括:(1)書名長度、有無英文書名、有無叢書項、所屬學科、出版地和出版社等6個圖書相關因素對被引的影響;(2)作者數(shù)、機構類別、機構所在地和基金資助4個作者相關因素對圖書被引的影響;(3)分析10個影響因素對圖書被引的預測能力。
目前對學術文獻被引頻次影響因素的研究以期刊論文為主,涉及論文、期刊、作者、參考文獻等特征,而有關圖書被引頻次的研究較少。
多項研究表明作者人數(shù)對學術文獻的被引有顯著影響。以論文為研究對象的大部分研究發(fā)現(xiàn)多作者論文能獲得更多的引用[11][19-20];不過,Bornmann 等[21]的探究未發(fā)現(xiàn)二者間存在顯著的相關關系,也有研究發(fā)現(xiàn)了二者間的負效應[22]。Thelwall 等[11]選擇BKCI 30個學科的圖書為數(shù)據(jù)源,采用Mann Whitney 檢驗,發(fā)現(xiàn)單作者和多作者圖書的被引不存在顯著差異。Abrizah 等[9]發(fā)現(xiàn)在高被引圖書中,單作者圖書的比例顯著高于多作者,從側面說明多作者優(yōu)勢在圖書中不明顯甚至處于劣勢。
作者的地區(qū)差異對被引存在影響。Sin[19]以6種圖書情報學科的頂級期刊在1980-2008年發(fā)表的論文作為研究樣本,邏輯回歸結果顯示作者為北美及北歐的論文被引高于東亞、東南亞、南歐;作者來自中低收入國家的論文被引低于高收入國家。Peng 等[23]將作者機構按照地理位置和文化相似度分成七個地區(qū),發(fā)現(xiàn)來自美國的論文比來自中國大陸、日本等地區(qū)的被引頻次要高,而與英國等地區(qū)沒有顯著差異。Willis 等[24]發(fā)現(xiàn)來自美國的作者被引頻次要高于亞洲地區(qū)的作者,歐洲在這方面的表現(xiàn)略遜于美國。
作者的機構屬性也是影響被引的因素。作者機構的聲望越高、大學的排名越靠前,論文的被引頻次也越高[25]。Griffiths[26]針對團體作者的工作證實上述結論,其對聯(lián)合國、歐盟等國際組織的研究發(fā)現(xiàn),得益于良好的國際聲望,聯(lián)合國在國際研究領域的被引數(shù)量是其他國際組織的兩倍。
基金論文具備引用優(yōu)勢得到了很多實證研究的支持。Amara 等[25]對加拿大35個商學院學者的研究證實基金等級與被引和產(chǎn)出呈正相關關系。戚爾鵬等[27]對Web of Science 數(shù)據(jù)庫收錄的2010—2012年基礎學科論文數(shù)據(jù)進行的實證研究表明,除邏輯學外,基礎學科的基金論文具備引用優(yōu)勢。董建軍[28]通過對《中國學術文獻出版總庫》中收錄的各類基金論文和篇均被引頻次的分析,發(fā)現(xiàn)基金論文整體上能夠獲得更高的被引量;不過,也有研究發(fā)現(xiàn)二者間的關系不顯著[24]。
圍繞作者數(shù)量的研究發(fā)現(xiàn),針對論文與圖書的結論存在明顯差異,有必要探討該變量對中文人文社會科學圖書的影響;作者的地區(qū)差異、機構屬性以及基金資助信息對于被引的影響目前均僅見到針對論文的結論,這三個因素對圖書,尤其是中文人文社科類圖書被引的影響有必要通過實證研究予以揭示。
標題是文獻的眼睛,是讀者最先接觸到的部分。不少研究分析了標題長度對論文被引的影響。一些研究發(fā)現(xiàn),標題越長,被引頻次越低[29-30];但是在一些學科中,二者的關系正好相反。Van Wesel 等[20]發(fā)現(xiàn)全科醫(yī)學以及內(nèi)科學(General & Internal Medicine)文獻中,標題長度與論文被引呈現(xiàn)微弱的正相關。部分研究未發(fā)現(xiàn)二者的顯性相關關系[31-32]。
學術文獻的被引頻次在不同學科間差異明顯。Tang[10]隨機選擇宗教學、歷史學、心理學、社會學、數(shù)學和物理學6個學科750 本圖書,方差分析結果表明圖書被引頻次、被引率和price 指數(shù)間有顯著學科差異,即使是同一學科,論文與圖書的被引差異也十分明顯。Miettunen 等[33]發(fā)現(xiàn)精神病學四個子學科間的論文被引存在顯著差異。
叢書和出版社是圖書的獨特特征,相關研究較少,僅有的研究表明[12]大學出版社出版的圖書被引頻次最高,而屬于叢書的圖書被引情況則因學科而異:工程技術和自然科學領域的叢書比非叢書圖書的被引頻次高;人文學科的結論正好相反,而社會科學未發(fā)現(xiàn)顯著差異。
上述研究表明,同一影響因素對論文和圖書被引的影響也存在一定差異;不論是從相關研究的數(shù)量來看,還是從已發(fā)掘的被引影響因素的數(shù)量來看,期刊論文的研究成果顯著多于圖書;圖書作為學術交流的重要媒介,相較于論文,對其被引影響因素的研究明顯不足。
哪些特征是影響被引的主要因素,研究者常試圖利用負二項回歸和多元線性回歸予以回答;部分研究還利用回歸模型進行被引的預測研究。
引文數(shù)據(jù)符合泊松分布,但存在過度分散問題,負二項回歸模型適合處理該類型的因變量。Bornmann 等[3]使用負二項回歸模型,用期刊影響因子(JIF)、作者人數(shù)及評審分數(shù)等特征預測論文發(fā)表前十年的年被引頻次和累計被引頻次,發(fā)現(xiàn)JIF 影響最大,而表示論文質量的同行評議分數(shù)對被引頻次的影響較小。Didegah 等[4]利用負二項邏輯障礙模型(Negative Binomial-Logit Hurdle Model),以期刊和參考文獻等特征為自變量預測論文的被引頻次,發(fā)現(xiàn)JIF 的影響依然最大。Snijder[8]使用負二項回歸模型分析語種、學科和開放存取對圖書被引的影響,發(fā)現(xiàn)三者均顯著。
線性回歸模型也是常用的模型之一。Yu 等[5]將論文作者、期刊及引用等24個特征作為自變量,線性回歸發(fā)現(xiàn)被引文獻數(shù)量、作者人數(shù)及期刊五年IF 等能夠預測論文的被引。Vanclay 等[6]將JIF、期刊自引頻次及論文類型等作為自變量,結果發(fā)現(xiàn)JIF 仍然是最重要的影響因素,而作者的h 指數(shù)和作者人數(shù)等特征的影響低于預期。
回歸分析通過控制其他變量以觀察某一變量對因變量的影響,且多個變量對因變量的影響效果可以相互比較,因此,回歸分析的結果往往讓人信服。雖然負二項回歸模型加符合引文的偏態(tài)分布特征,但也有學者指出使用負二項回歸分析引文數(shù)據(jù)值得商榷[34]。故本文擬選擇線性回歸模型比較多個自變量對圖書被引的影響。
本文選擇CBKCI1999-2009年出版的2844冊圖書為數(shù)據(jù)源。CBKCI收錄了21個人文社會科學的圖書,覆蓋范圍廣,收錄的圖書綜合了被引頻次以及專家意見,具有原創(chuàng)性以及較高的學術水平。選取1999-2009年出版的圖書的原因是,本研究的因變量是圖書的被引頻次,發(fā)表時間較近的圖書被引的可能性很小,把這些圖書包含在分析數(shù)據(jù)中會削弱檢驗結果的信度[11],選擇2009年作為截止年可以為圖書留足充裕的被引時間。
本研究沒有選擇CBKCI的被引數(shù)據(jù),原因是該數(shù)據(jù)庫的被引僅涉及為數(shù)不多的圖書被引信息,沒有圖書的期刊被引數(shù)據(jù),同時該數(shù)據(jù)庫在短暫試用之后暫未繼續(xù)開放,考慮到中文社會科學引文索引(CSSCI)的引文數(shù)據(jù)較為規(guī)范,是國內(nèi)人文社科領域比較權威的數(shù)據(jù)庫,同時引文數(shù)據(jù)的生產(chǎn)有一定時差,為確保數(shù)據(jù)的完整性,本文選擇1999-2014年的引文數(shù)據(jù)作為圖書被引的數(shù)據(jù)源。
為了獲取每一本圖書對應的被引信息,本文借鑒蘇新寧[35]的數(shù)據(jù)處理方式,即用圖書的題名、作者、出版年和出版社四個字段在CSSCI 引文數(shù)據(jù)庫中查找對應圖書的被引信息。因為CSSCI數(shù)據(jù)庫部分數(shù)據(jù)標引方式與CBKCI 提供的圖書元數(shù)據(jù)不完全一致,同時存在部分錯誤數(shù)據(jù),所以分兩個步驟確定圖書的被引頻次。第一步是精確匹配,即題名、作者、出版年和出版社四個字段能夠在CSSCI 中完全匹配,即認為是該圖書的被引;第二步是模糊匹配,考慮到CSSCI 中存在各種原因引起的數(shù)據(jù)錯誤,本文采取模糊匹配策略:(1)題名:CSSCI 中被引文獻的題名包含在CBKCI 提供的圖書題名中即匹配成功。(2)作者:CSSCI 中被引文獻的作者包含在CBKCI 提供的圖書作者中即匹配成功。(3)年代:CSSCI 中被引文獻的年代與CBKCI 提供的圖書出版年一致即匹配成功。(4)出版社:CSSCI 中被引文獻的出版社包含在CBKCI 提供的圖書出版社中或者CBKCI 提供的圖書的出版社包含在CSSCI 中被引文獻的出版社中即也認為匹配成功。上述四個字段中有三個字段匹配成功,即納入備選數(shù)據(jù)集。隨之,對入選數(shù)據(jù)進行人工篩選,去除所選2844 冊圖書之外的被引文獻。經(jīng)過上述兩步操作之后,保留的被引記錄有111693 條,平均每本圖書的被引頻次為39.27,年均被引頻次為3.66,零被引圖書有74 冊。
CBKCI 對收錄的圖書進行標引,元數(shù)據(jù)包括書名、所屬學科、作者名、作者機構、出版地、出版社、出版年、圖書分類號、叢書項、ISBN、CIP、資助項目類型、圖書簡介以及作者簡介等。考慮到ISBN、CIP 以及作者名等對被引難覓潛在的影響,因此選擇可能影響圖書被引的10個特征作為自變量,其中作者機構還包括高等院校與大陸高校類型兩個子類別(見表1)。
表1 自變量信息
相關研究多以被引頻次作為因變量,先前研究中出現(xiàn)過的指標有總被引頻次、平均年被引頻次以及不同年份的被引頻次等。不同形式的被引頻次指標僅僅考慮“量”,不能區(qū)分施引文獻的“質”,因此,本文引入被引質量指標以實現(xiàn)從“質”的方面完善測度。參考Thelwall等[11]的做法,引入總被引頻次作為因變量,類似地引入總被引質量指標;由于總被引頻次未考慮時間的影響,引入圖書的年均被引頻次;為了消除半衰期對圖書被引的影響,借鑒IF5 的思想,再進一步引入五年被引頻次和五年被引質量作為因變量(見表2)。
表2 因變量信息
首先,將CSSCI 的來源期刊劃分為三個等級:第一級是南京大學評選出的各人文社會學科的31 種一流期刊;第二級是1998-2018年持續(xù)入選CSSCI 的來源期刊;剩下的期刊歸為第三級。依據(jù)施引文獻發(fā)表的期刊將其劃分為相應的三個等級,定義n1,n2,n3 分別為第一、二以及三級的施引文獻量。其次,賦予不同等級的施引文獻以不同的權重,參考李克特量表的反向編碼方法,給一、二和三級施引文獻分別賦予權重w1=3,w2=2,w3=1。最后,不同等級施引文獻數(shù)量乘以對應的權重,求和之后即為被引質量得分,總被引質量(Qt)及5年被引質量(Q5)的計算見公式(2)和(3)。
2.4.1 雙變量分析
首先分別對自變量和5個因變量進行雙變量分析。對于分類變量,采用非參數(shù)檢驗完成,即分別使用Mann-Whitney U 和Kruskal Wallis 檢驗兩組及多組圖書因變量間是否存在顯著差異。對于連續(xù)變量,使用Spearman 相關系數(shù)判定自變量與各因變量間是否顯著相關。
2.4.2 回歸分析
(1)多元線性回歸。表1中的變量為自變量,將類別變量轉為虛擬變量(dummy variable),回歸策略采用進入(enter);表2中的變量為因變量,考慮到引文數(shù)據(jù)的偏態(tài)分布,不適合直接應用于線性回歸模型,參考Vanclay[6]的做法,對因變量進行對數(shù)變換,ln(原因變量+1)。
(2)最優(yōu)尺度回歸。最優(yōu)尺度變換可以解決統(tǒng)計建模時分類變量的量化問題。由于本文的自變量以分類變量為主,因此,擬采用最優(yōu)尺度回歸以比較不同測量尺度的自變量對因變量的影響,即將經(jīng)對數(shù)變換的因變量做離散處理,分別建立最優(yōu)尺度回歸模型。
作者人數(shù)為5的圖書僅1冊,本文的檢驗方法多要求樣本量在5以上,故去除該樣本。
對于研究問題1和2的回答,本文采用描述性統(tǒng)計和雙變量分析完成,結果見表3和表4??紤]到篇幅,表4僅列出了其他研究中使用較多的5年被引頻次的均值。
表3 非參數(shù)檢驗與相關分析結果
表4 分類變量的均值表
3.1.1 作者相關因素
雙變量分析的結果顯示基金類別、高等院校、大陸高校類型以及作者機構所在地4個自變量與5個因變量間都呈顯著的相關關系(p<0.001);除了與年均被引頻次的相關性未得到證實外,作者機構類別與其他四個因變量的相關關系顯著(p<0.01);作者人數(shù)與總被引頻次和總被引質量為負相關(p<0.05),未發(fā)現(xiàn)其與年均被引頻次、五年被引質量和五年被引頻次三個因變量間存在顯性的相關關系。
描述性統(tǒng)計發(fā)現(xiàn):(1)無基金資助圖書在所有因變量上的表現(xiàn)均高于有基金資助的圖書;不同類別基金資助的圖書,5個因變量均值的表現(xiàn)一致,由高至低均為其他基金>國家級基金>省部級基金>市廳級基金。(2)作者機構類別在5年被引頻次上的表現(xiàn)依次為:政府機構> 其他機構>高等院校> 研究機構。如果樣本僅考慮高校作者,則五個因變量由高至低均為非大陸地區(qū)高校>“985 工程”高校>“211 工程”高校>普通大陸高校。(3)第一作者的機構所在地的被引表現(xiàn)依次是其他西方國家>美國>其他亞洲國家和地區(qū)>中國大陸。
3.1.2 圖書相關因素
雙變量分析結果顯示學科、出版地、叢書及出版社對5個因變量均存在顯著影響(p<0.001);英文名稱在5個因變量上的表現(xiàn)存在較大差異,除對總被引質量的影響不顯著外,其對另外4個因變量的影響均顯著,顯著性水平隨5年被引頻次、5年被引質量、年均被引頻次、總被引頻次順序遞減;書名長度與5個因變量均呈微弱的負相關。
描述性統(tǒng)計發(fā)現(xiàn):(1)圖書被引的地區(qū)差異顯著,根據(jù)因變量的均值,可將9個地區(qū)劃分為3個等級,即北京、上海> 華南、華中、華北、華東地區(qū)> 西南、西北、東北地區(qū)。(2)在21個學科之中,圖書館情報與文獻學等6個學科的5年被引大于20,且基本穩(wěn)居前列;管理學等10個學科的5年被引頻次介于10~20;中國語言學等5個學科始終處于后5 位。(3)屬于百佳出版社的優(yōu)質出版社,其所出版的圖書有突出的被引表現(xiàn)。(4)叢書中的圖書可以獲得更多的被引。(5)有英文名稱的圖書被引高于書名僅為中文的圖書。
自變量中分類變量多達8個,進行最優(yōu)尺度回歸分析是一個合適的選擇,為比較10個自變量對各因變量的影響程度,本文針對5個因變量分別構建最優(yōu)尺度回歸方程。5個方程均通過了顯著性檢驗(p=0.000),擬合優(yōu)度分別為:0.177、0.177、0.176、0.200、0.193,擬合效果較弱。各方程中所有變量的容差都在0.9 以上,遠大于0.1(見表5),說明變量之間的多重共線性低,最優(yōu)回歸方程結果準確。
在10個自變量中,作者人數(shù)僅對被引頻次存在顯著影響,對其余4個因變量影響不顯著。有無英文名稱對年均被引頻次和五年被引頻次的影響顯著,對另外3個因變量未見顯著影響。其余8個自變量對于5個因變量均存在顯著影響(見表6)。定距變量:書名長度,以及兩個定序變量:出版社是否百佳、作者人數(shù),三者與因變量的系數(shù)均為負數(shù),即書名長度越長、出版社非百佳、作者人數(shù)越多的圖書,其在五年被引頻次等5個因變量上的表現(xiàn)會越差。在5個方程中,學科、出版社是否百佳始終是重要性最高的2個自變量,而作者機構類別以及是否有英文名稱的重要性始終徘徊在1%左右,居于重要性的后列。
表5 總體樣本最優(yōu)尺度回歸重要性與轉換后容差
表6 總體樣本最優(yōu)尺度回歸標準系數(shù)
表7 總體樣本多元線性回歸標準系數(shù)
張文彤[36]建議,由于最優(yōu)尺度回歸主要給出的是變換后評分的分析結果,許多有用的信息被隱含在變換過程中。使用者可以將最優(yōu)尺度分析作為一種預分析手段,通過它快速發(fā)現(xiàn)各類別間的差異和聯(lián)系,然后回到常規(guī)的建模方法,用合并相似類別、建立復雜的啞變量模型等方式得到更易于理解和應用的分析結果。根據(jù)該建議,本文為比較不同組別圖書的被引情況,進一步構建包含虛擬變量的線性回歸方程。
采用進入(enter)策略構建線性回歸方程(見表7),5個回歸方程的自變量與因變量間均存在顯著的線性關系(p=0.000)。線性回歸方程和最優(yōu)尺度回歸方程的擬合優(yōu)度基本相同。三個非定類變量:書名長度、出版社是否百佳的線性回歸結果同最優(yōu)尺度回歸方程,作者人數(shù)對5個因變量均無顯著影響。定類變量引入虛擬變量后發(fā)現(xiàn),有多個自變量對5個因變量的影響均顯著,相較于每個自變量的基準組:(1)學科層面,法學、社會學、體育以及圖書館情報與文獻學的被引較高,藝術學、中國語言學、宗教學及歷史學的被引較低;(2)出版于北京、上海、華東、華南、華中的圖書被引較高,回歸系數(shù)依次遞減;(3)叢書中的圖書、機構位于亞洲其他國家地區(qū)及其他西方國家作者編撰的圖書被引較高;(4)受到省部級和國家級資助圖書的被引較低。
除共性影響外,自變量對部分因變量也存在個性化的顯著影響:(1)被引頻次。調(diào)整后的R2=0.176,除上述共性的解釋變量外(下同),回歸模型中的馬克思主義理論及民族學學科、受到市廳級資助的圖書被引較低,而政治學學科、作者機構位于美國以及機構類型為研究機構的作者撰寫的圖書被引較高。(2)年均被引頻次。調(diào)整后的R2=0.178,馬克思主義理論和民族學兩個學科及受到市廳級資助圖書的效應同總被引頻次;有英文名稱、政治學學科、華北與西南地區(qū)出版以及作者機構位于美國的圖書,被引較高。(3)總被引質量。調(diào)整后的R2=0.17,與前兩個相比,該模型個性的自變量較少,馬克思主義理論學科以及受到市廳級資助的圖書的被引質量偏低,出版地位于華北、作者機構位于美國以及機構類型為研究機構的圖書,被引質量較高。(4)五年被引頻次。調(diào)整后的R2=0.197,民族學圖書的五年被引較低,有英文名稱、政治學學科以及西南地區(qū)出版的圖書,五年被引較高。(5)五年被引質量。調(diào)整后的R2=0.189,民族學圖書的五年被引質量較低,有英文名稱及政治學學科的圖書五年被引質量較高。
在研究樣本中,作者來自高校的圖書有2298本,占全部樣本的80.83%,是數(shù)據(jù)集的主要組成部分,所以有必要探究不同類型高校對學術圖書被引的可能影響。
按照約定俗成將高校類型具體化為“985 工程”“211 工程”以及普通高校。非參數(shù)檢驗的結果表明,作者來自不同類型高校的圖書被引存在顯著差異(p=0.000)??傮w而言,最優(yōu)尺度回歸分析結果發(fā)現(xiàn),5個因變量的回歸方程調(diào)整后的R2都在0.22 以上,與全體樣本相比有明顯的提升,這說明加入了高校類型后,方程的整體解釋度更高。具體地,與全體樣本的最優(yōu)尺度回歸相比,高校的回歸結果不同之處有:(1)有無英文名稱對5個自變量的影響均不顯著,說明先前有無英文名稱對因變量的影響可能是由于沒有控制高校類型而產(chǎn)生,并非由于該自變量自身的差異形成;(2)按照重要性程度來看,學科仍然是影響圖書被引最重要的因素,高校類型取代出版社成為對圖書被引影響的第二位因素,從而出版社是否百佳的影響效果被削弱。
為比較作者來自不同類型高校圖書的被引差異,進一步采用包含虛擬變量的線性回歸方程。分析發(fā)現(xiàn),各方程的擬合優(yōu)度與最優(yōu)尺度回歸方程的擬合優(yōu)度基本相同,相較于總體樣本的線性回歸方程擬合優(yōu)度有明顯提升。在控制其他變量后,“985 工程”院校與普通院校圖書的被引差異十分明顯,表現(xiàn)為:作者來自“985 工程”高校圖書的5個因變量均顯著高于大陸普通高校;“211 工程”高校與普通院校的圖書被引差異也較為顯著,具體而言,作者來自“211 工程”高校圖書的總被引質量和總被引頻次顯著高于大陸普通院校,但是二者在其他3個因變量上沒有顯著區(qū)別。綜合上述分析可見,高校類型是影響圖書被引的重要因素,“985 工程”“211 工程”院校的學者所撰圖書容易獲得更多、更優(yōu)質的引用。
4.1.1 書名長度
書名是一本圖書的重要組成部分,體現(xiàn)了圖書的主題,是讀者判斷是否閱讀的最初依據(jù)之一。本文發(fā)現(xiàn)書名長度與被引頻次和被引質量呈現(xiàn)微弱的負相關;Stremersch 等[29]以論文題名為分析對象的結果與本文的結論一致,得到類似結論的研究還有林佳瑜[30]等??赡艿脑蛟谟?,論文或者圖書的題名越長,題名中所包含的獨立概念越多,則所研究的內(nèi)容就越具體、研究范圍越窄[37],被引用的受眾就越少。不過,有關題名長度對被引影響的結論并不一致,Rostami 等[31]、Jamali 等[32]的研究發(fā)現(xiàn)二者間相關關系不顯著;Van Wesel 等[20]發(fā)現(xiàn)學科對該關系具有調(diào)節(jié)效應,比如在內(nèi)科學論文中,長題名對被引有利,而在社會學及應用物理學中,則短標題能夠獲得更多的被引。
4.1.2 地區(qū)差異
不同出版地的學術專著被引情況存在顯著差異,北京和上海地區(qū)出版的學術專著的被引頻次和質量均較高,而西南、西北和東北的學術專著被引頻次和質量偏低。一方面,地區(qū)間教育資源分配不均衡,比如西部地區(qū)的教育資源相對貧乏。根據(jù)2017年《中國統(tǒng)計年鑒》的數(shù)據(jù),北京和上海2016年教育經(jīng)費分別為11171250萬元、10131153 萬元;西北、西南和東北地區(qū)平均每省(市)的教育經(jīng)費分別為5395703.6 萬元、9206546.8 萬元和7265483 萬元,西北、西南和東北三地的教育經(jīng)費明顯少于其他地區(qū)。此外,在39 所“985 工程”高校中,北京、上海、西北、西南和東北地區(qū)的“985 工程”高校數(shù)量分別為8 所、4 所、4 所、3 所和4 所,優(yōu)質教育資源的懸殊差距直接引發(fā)地區(qū)間人才的不均衡。另一方面,北京地區(qū)擁有53 家“百佳出版社”,上海地區(qū)有7 家,與之相對的東北地區(qū)有4家,西南與西北地區(qū)僅陜西、四川兩省有4 家百佳出版社,這說明北京與上海地區(qū)出版事業(yè)發(fā)展繁榮,而西部與東北地區(qū)出版事業(yè)的發(fā)展則相對緩慢。地區(qū)之間教育資源的不均衡和出版事業(yè)的發(fā)展差異是造成不同地區(qū)出版的圖書影響力差異的重要原因。
4.1.3 學科差異
徐貴水等[38]的研究發(fā)現(xiàn),和生活越貼近、實用性越強、對人們的影響越大的學科,研究人數(shù)和學術成果也越多,可以吸引更多的被引;專業(yè)性與理論性強、離日常生活較遠,研究人數(shù)和學術成果則會相對較少,進而得到被引也會相應減少。本研究證實了這一發(fā)現(xiàn),不同學科圖書的被引差異明顯,兼具理論與應用性的學科,如法學、社會學、體育學、圖書館情報與文獻學和政治學5個學科的圖書被引領先于其他學科;長于理論的學科,如歷史學、藝術學、中國語言學、宗教學、馬克思主義理論等的圖書五年被引頻次等指標較低。本文的發(fā)現(xiàn)在論文的被引影響因素研究中也得到了證實,比如,Tang[10]以及Miettunen 等[33]的研究發(fā)現(xiàn),不同學科間的引用存在顯著差異,Bornmann 等[21]發(fā)現(xiàn)研究面較窄的學科獲得被引的概率相對較低;本文也發(fā)現(xiàn),歷史學大類中的考古學,作為一個研究較為專深的學科代表,其被引在所有學科中處于后列。
4.1.4 出版社質量
國內(nèi)未見正規(guī)的出版社排名,所以本文僅采用是否為百佳出版社這一指標區(qū)分出版社的質量。由分析結果可知,百佳出版社出版的圖書在被引頻次和被引質量上均顯著高于非百佳出版社,說明優(yōu)秀出版社和高品質圖書有強相關性。核心出版社具有信息密度高、文獻新穎、文獻利用率高和學術聲譽高等良好特征[39]。Torres-Salinas 等[12]的研究表明大學類出版社出版圖書的被引頻次比其他出版社高,他將原因歸結于大學出版社的聲望高。本研究中的百佳出版社在國內(nèi)出版行業(yè)有著良好口碑,即證實了Torres-Salinas等[12]的研究結論。人文社科學者傾向于在該領域聲望最高的出版社出版自己的作品[9],從而優(yōu)質圖書與高聲望出版社的有機結合實現(xiàn)了雙贏,帶動了源于高質量出版社圖書的高被引。反過來,實踐中出版社的聲譽也用于圖書質量的評估,比如作為圖書館員挑選圖書的標準之一[40]。
4.1.5 是否是叢書
Torres-Salinas 等[12]的研究表明人文藝術學科、非叢書圖書的被引頻次更高;社會學科,圖書是否具有叢書標識對被引頻次未發(fā)現(xiàn)影響;工程技術與自然科學的結論與人文藝術正好相反。本文的研究顯示,叢書類圖書的被引高于非叢書類圖書。兩項研究結果的差異可能源自引文數(shù)據(jù)的不同,Torres-Salinas 等[12]研究使用的引文數(shù)據(jù)來自圖書引文(BKCI)和期刊引文(WOS)兩部分,本文的數(shù)據(jù)為CSSCI 的來源期刊對圖書的引用,不包括圖書之間的引用關系,因此得到的結果可能有所偏差。相較于非叢書,叢書內(nèi)容具有更好的系統(tǒng)性和完整性,與獨立著作相比,其豐富的信息量更容易得到讀者的認可進而獲得更多的引用。
4.1.6 英文名稱
非參數(shù)檢驗結果表明,有英文名稱的圖書的被引高于無英文名稱的圖書。但在回歸方程中,控制了其他變量之后,有無英文名稱僅對總被引頻次和總被引質量有顯著影響,不過系數(shù)很小,在高校樣本的最優(yōu)尺度回歸結果中,有無英文名稱對5個因變量的影響均不顯著,表明有無英文名稱對被引的影響可以忽略。
4.2.1 基金資助
針對不同資助級別對被引的影響,Amara 等[25]對加拿大35個商學院學者的研究發(fā)現(xiàn)基金等級與被引和產(chǎn)出呈正相關關系,本文的研究也得到了類似的結論,即受到市廳級、省部級、國家級基金資助的圖書,其被引呈現(xiàn)遞增趨勢。對于有無基金資助對被引的影響,董建軍[28]發(fā)現(xiàn)基金論文從整體上能夠獲得更高的被引;趙星等[41]的研究也證實了基金資助對被引的正向影響;本文未能證實董建軍[28]和趙星等[41]在以論文為樣本的研究中發(fā)現(xiàn)的現(xiàn)象;本文發(fā)現(xiàn),無基金資助的圖書能夠獲得更多的被引,該發(fā)現(xiàn)出乎筆者的預料。
對論文來說,基金項目篩選過程嚴格[27],資助的經(jīng)費能為研究提供外部支持,有助于提高論文的質量[42],所以基金資助論文容易獲得更多的引用,可用于解釋趙星等[41]的研究結論。本文如果采集所有的人文社科圖書,那么基金資助圖書的被引表現(xiàn)優(yōu)于非資助圖書值得期待;不過,本文數(shù)據(jù)集來自CBKCI,來源圖書源于專家推薦及CSSCI 篩選的高被引圖書,也就是說,總體而言本文數(shù)據(jù)集中的圖書均為高質量,那么要思考的問題是:在高質量圖書中,非基金資助圖書的質量是否會高于基金資助圖書?人文社科研究,尤其是人文科學與自然科學相比,對基金資助并沒有特別的依賴,高質量圖書的產(chǎn)出更多地依賴于學者對研究主題長期的浸淫,而基金資助圖書有明確的研究時間要求,“十年磨一劍”難以體現(xiàn)。
4.2.2 作者人數(shù)
Thelwall 等[11]發(fā)現(xiàn)在12個學科中,單作者的圖書被引頻次高于多作者;Abrizah 等[9]研究證實在高被引圖書中,單作者圖書比例顯著高于多作者;本研究也發(fā)現(xiàn)了這一現(xiàn)象,即作者人數(shù)越多,圖書的總被引頻次和被引質量越低。以論文為研究對象的工作中,發(fā)現(xiàn)多作者論文的被引往往高于單作者[43-45]。Van Dalen 等[46]認為多作者合作能夠互相補充、取長補短,合作帶來的專業(yè)化和分工優(yōu)勢是高引用的合理解釋。作者數(shù)對不同文獻類型被引影響的差異,意味著合作的優(yōu)勢在短出版物中更加明顯,而隨著出版物篇幅的增加,到圖書這一類型的出版物時,合作的優(yōu)勢已經(jīng)不復存在[11],本研究甚至還發(fā)現(xiàn)了合作“劣勢”。
多作者合作對圖書與論文被引影響的差異可能源于合作方式的不同。論文的篇幅通常較短,合作更多地體現(xiàn)在研究過程中,能夠獲得Van Dalen 等[46]所說“專業(yè)化和分工優(yōu)勢”,而論文初稿的寫作通常由一人完成,其他研究者更多地參與修改,整個過程中不同作者互相取長補短,收“1+1>2”之效,進而顯著提升科研成果的質量。圖書的篇幅遠大于論文,科研合作的粒度顯著增大,在研究實施階段的科研分工也不同于細粒度的單篇論文,多數(shù)采用粗粒度模塊化的分工方式,在成文過程中,也基本按照章節(jié)的劃分由每個研究者獨立完成,從而相對于論文,作為科研成果的圖書存在科研合作與寫作合作兩個階段,由于每位研究者研究能力與寫作能力的差異,整體研究質量與圖書質量的保證有賴于項目負責人扎實、細致的工作,而這顯然有難度。經(jīng)濟學中的規(guī)模經(jīng)濟[47]理論可用于解釋論文中多作者合作帶來的被引提高,而規(guī)模不經(jīng)濟理論則可用于解釋圖書的多作者合作引發(fā)的被引降低現(xiàn)象。
4.2.3 作者機構所在地
本研究發(fā)現(xiàn)作者來自美國等西方國家的圖書被引顯著高于大陸地區(qū),該結論與現(xiàn)有的以論文為對象的研究結果吻合。Leimu 等[48]發(fā)現(xiàn),相較于母語為非英語的國家,母語為英語國家的作者,其論文被引更高。Sin[19]證實作者位于北美和北歐地區(qū)的論文被引高于東亞等地區(qū)。Peng 等[23]發(fā)現(xiàn)作者來自美國和英國的論文比來自中國大陸、日本等地區(qū)的被引頻次高。Willis 等[24]也發(fā)現(xiàn)美國作者的被引頻次要高于亞洲地區(qū)??梢妼W術文獻的被引情況在地區(qū)分布上存在“馬太效應”,現(xiàn)階段歐美等西方國家擁有的優(yōu)秀學者和學術資源領先于其他國家與地區(qū),優(yōu)秀學者集中度高的國家會產(chǎn)出更多優(yōu)秀的科研成果,吸引了更多的被引[19]。此外,收入水平等經(jīng)濟因素也是造成被引地區(qū)差異的原因。Sin[19]證實了作者來自中、低收入國家的論文被引要低于高收入國家;Tahamtan 等[2]認為不同國家的科研水平、基金支持力度不同,造成了論文質量的差異,從而引起被引的不同。
4.2.4 研究機構類別
本研究發(fā)現(xiàn),作者來自中國大陸以外地區(qū)的高校,其圖書被引顯著高于大陸地區(qū),原因已在“作者機構所在地”一節(jié)闡明。在大陸高校中,高校類型對于圖書被引的影響十分顯著,作者來自“985 工程”“211 工程”及普通院校的圖書被引依次降低,即作者所屬的院校排名越靠前,圖書被引越高,這與多項研究不謀而合,例如Amara等[25]的研究。該結果合理的解釋是,與排名較低的大學相比,排名靠前的大學會提供更有利于培養(yǎng)學術生產(chǎn)力的物質、智力和社會激勵措施等資源[25],從而吸引了更多的優(yōu)秀學者加盟,出現(xiàn)更多被引的優(yōu)質成果則是水到渠成之事。
對樣本總體和高校樣本的最優(yōu)尺度回歸發(fā)現(xiàn),學科、高校類型、出版社是否百佳是影響圖書被引最重要的3個因素。據(jù)此,學科對被引的影響應引起科研管理部門的重視,在科研評價工作中,應當充分考慮絕對被引頻次受到學科等因素的影響,在學科間不能采用絕對值進行比較[49]。馬太效應提示人們不僅僅引用對自己有幫助的論文,還傾向于引用著名學者的成果[5],與這種效應類似,本研究發(fā)現(xiàn)了學者不僅會引用與自身研究相關的圖書,還傾向于引用聲譽高的出版社、排名靠前高校產(chǎn)出的圖書。
最優(yōu)尺度回歸和線性回歸結果顯示,本文的10個自變量對圖書被引的擬合優(yōu)度較低,說明本研究涉及的自變量尚不是影響圖書被引的主要因素。以論文為數(shù)據(jù)源的研究證實論文質量是影響其被引的主要因素。Yu 等[5]采用論文前兩年的被引頻次等引用特征作為衡量論文質量的指標,回歸分析結果證實了論文質量是影響被引最重要的因素,在去除論文質量的引用相關指標后,模型的擬合優(yōu)度由0.674 迅速下降至0.177,說明論文質量對被引的重要性。目前一些研究表明圖書的內(nèi)在質量和形式質量是衡量圖書質量的重要指標[50-52]。相較于論文,圖書尚缺少類似于JIF 等約定俗成的用于評價論文內(nèi)在質量的相關指標。
本文以CBKCI 收錄的1999-2009年出版的圖書為研究樣本,探討圖書被引的影響因素。非參數(shù)檢驗和Spearman 相關分析表明,對五個因變量均有顯著影響的特征有:學科、作者機構所在地、出版地、是否為叢書、出版社是否百佳、基金類別、高等院校、大陸高校類型和書名長度;作者數(shù)僅對圖書的總被引頻次和總被引質量有顯著影響;有無英文名稱對除總被引質量外的其余四個因變量有顯著影響;除了年均被引頻次之外,作者機構類別對其余的四個因變量均有顯著的影響。結合回歸分析的結果可以認為有無英文名稱對圖書被引的影響可以忽略。最優(yōu)尺度回歸和線性回歸結果說明學科、出版社質量和高校類型是影響圖書被引最重要的因素?;貧w方程顯示自變量對被解釋變量的擬合優(yōu)度較低,后繼工作擬進一步探究圖書質量、作者特征等因素對圖書被引的影響。本研究的不足之處是,選取的數(shù)據(jù)集源于CBKCI,屬于高質量圖書,沒有涵蓋人文社科圖書;得到的基金資助圖書被引低于非基金資助圖書的結論有待于在全集中繼續(xù)檢驗;引文數(shù)據(jù)來源于CSSCI,缺乏圖書的引文數(shù)據(jù),待CBKCI 開放后進行補充研究。