陳 輝,張瑋欣,趙少飛,王威娜
隨著數(shù)字化網(wǎng)絡(luò)(以下簡稱“數(shù)網(wǎng)”)技術(shù)的發(fā)展與應(yīng)用,學(xué)術(shù)期刊論文數(shù)據(jù)庫成為廣大科研人員獲取信息與文獻(xiàn)的主要平臺。在網(wǎng)絡(luò)環(huán)境下,學(xué)術(shù)期刊的出版?zhèn)鞑ツJ郊捌溆绊懸蜃拥姆治龊脱芯恳灿辛撕艽蟮淖兓?,原因主要是?shù)據(jù)來源更為豐富,獲取數(shù)據(jù)更為便捷,各種數(shù)據(jù)分析手段和方法的應(yīng)用也更為靈活和深入。有兩個方向的選題已引起相關(guān)學(xué)者的重視:一是網(wǎng)絡(luò)出版數(shù)據(jù)(如下載量)與期刊或論文的被引等的相關(guān)性分析;二是讀者的閱讀行為分析。這也是筆者所關(guān)注和研究的兩個方向,并且認(rèn)為如果借助于多層次的分析手段,這類研究可以做得更為精細(xì)和有效。因此,本文將考量論文的網(wǎng)絡(luò)下載量等因素與被引用情況的關(guān)系,除大家所熟悉的引證文獻(xiàn)數(shù)之外,還關(guān)注同被引文獻(xiàn)數(shù)、共引文獻(xiàn)數(shù)等長期被忽視的因素。
不少學(xué)者采用不同方法進(jìn)行了有益的探究,得出的結(jié)論也呈現(xiàn)出不一致性。研究方法主要有:(1)學(xué)術(shù)期刊被引頻次及影響因素的描述性(Descriptive)調(diào)查、分析和總結(jié)[1-9];(2)預(yù)測性(Predictive)統(tǒng)計分析,對變量之間的關(guān)系進(jìn)行線性回歸分析及元分析[10-14]。這些研究的對象大部分是同類學(xué)科期刊,鮮有以多學(xué)科、綜合性期刊的論文為研究對象。以單一學(xué)科期刊作為研究對象,沒有考慮不同學(xué)科間的差異性,得出的相關(guān)性結(jié)論是否適應(yīng)于所有學(xué)科尚有存疑;而以期刊為研究對象,期刊數(shù)據(jù)是整合了論文數(shù)據(jù)而得到的,會導(dǎo)致單篇論文的某些特征消失,從而使所刊載論文的下載量與被引量相關(guān)性的數(shù)據(jù)分析穩(wěn)定性欠佳。由于這些研究的對象、因素、方法不同,出現(xiàn)結(jié)論的不一致性也是有情可原的。
劉筱敏等[1]通過對比15 種化學(xué)類電子期刊的下載量、引用量,指出電子資源對科研人員獲取和使用文獻(xiàn)具有重要作用,并通過對數(shù)據(jù)的描述性統(tǒng)計分析得出,下載量與引用量相關(guān)性較強(qiáng)。這一結(jié)論為同類學(xué)科期刊的對比研究奠定了基礎(chǔ)。丁佐奇等[8]分析CNKI 中兩本藥學(xué)期刊被引Top20 的文章數(shù)據(jù),得出論文發(fā)表后2~4年引證達(dá)到峰值,以及單篇論文的被引與下載相關(guān)性較差的結(jié)論。然而,其數(shù)據(jù)量太小,結(jié)論的支持度不高。郭強(qiáng)等[9]認(rèn)為引文分析有其相對的滯后性,而下載次數(shù)作為反映文獻(xiàn)價值的早期指標(biāo),使論文的評價可以有所提前,這一結(jié)論對數(shù)網(wǎng)環(huán)境下期刊和論文評價的后續(xù)研究有重要的指導(dǎo)意義。上述三者均采用描述性統(tǒng)計分析方法。
在描述性統(tǒng)計分析的基礎(chǔ)上,有學(xué)者采用多層次的分析方法,進(jìn)行更深入的相關(guān)分析。王海濤等[10]采用負(fù)二項(xiàng)回歸模型對2013年JCR 影響因子TOP20 的經(jīng)濟(jì)類期刊論文(英文)的被引頻次影響因素進(jìn)行了研究,認(rèn)為作者數(shù)、文獻(xiàn)數(shù)、論文長度、基金資助、期刊影響因子與被引數(shù)具有顯著的正向關(guān)系,發(fā)表年份與被引數(shù)之間存在顯著的倒U 型關(guān)系;并且關(guān)注了不同研究方向的差異性,認(rèn)為不同研究方向的論文其被引數(shù)存在明顯的差異性。孟凡蓉等[11]對五種科技管理核心期刊論文的被引頻次影響因素進(jìn)行描述性分析和泊松回歸分析,認(rèn)為論文被引頻次對刊載時間有較強(qiáng)的依賴性,且為非線性關(guān)系;論文特征決定了論文的被引頻次。張小強(qiáng)[12]以期刊為對象,重點(diǎn)對同一年份不同期刊的下載頻次、被引頻次與影響因子進(jìn)行線性和非線性回歸方程對比研究,得出如下結(jié)論:期刊被引頻次與下載頻次具有高度正相關(guān)性,下載頻次與影響因子也呈正相關(guān)性,但相關(guān)系數(shù)低于被引頻次與下載頻次。此外,網(wǎng)絡(luò)傳播指標(biāo)——網(wǎng)絡(luò)下載率與影響因子具有統(tǒng)計學(xué)上的一致性,可以作為期刊評價指標(biāo)。謝娟等[13]在梳理國內(nèi)外大量文獻(xiàn)的基礎(chǔ)上,從單篇論文的層面對論文下載量與被引量的相關(guān)性進(jìn)行元分析,發(fā)現(xiàn)二者具有強(qiáng)烈的正相關(guān)關(guān)系,指出由于下載量實(shí)時、易獲取,可以作為科研評價指標(biāo)之一(預(yù)測性分析Predictive Analysis);同時指出,不同質(zhì)量論文的下載量與被引量相關(guān)性實(shí)證研究尚未見,可以作為進(jìn)一步研究的課題。筆者認(rèn)為,網(wǎng)絡(luò)下載率或下載量作為評價指標(biāo)在數(shù)網(wǎng)環(huán)境下值得重視,如何公平、有效地用好這一指標(biāo)值得深入研究。徐慶富等[14]注意到不同學(xué)科論文的差異性,在控制期刊影響因子的前提下,對15 種代表不同學(xué)科類別的專業(yè)期刊的論文進(jìn)行回歸分析,發(fā)現(xiàn)引用半衰期、參考文獻(xiàn)數(shù)量等與論文質(zhì)量之間存在內(nèi)在邏輯關(guān)系,確實(shí)會影響論文被引頻次;而論文篇幅等容易被“人為操縱”的因素并不會對被引頻次產(chǎn)生實(shí)質(zhì)影響,表明用被引頻次衡量論文質(zhì)量具有相對合理性。
大多數(shù)學(xué)者把采集的數(shù)據(jù)作為截面數(shù)據(jù)來進(jìn)行分析,這種分析科學(xué)合理,結(jié)論是正確的。然而從科學(xué)計量學(xué)而言,許多似乎已被證實(shí)的觀點(diǎn)仍需通過控制相關(guān)變量或擴(kuò)大調(diào)研范圍,進(jìn)行邏輯分析和數(shù)據(jù)驗(yàn)證[14]。鑒于上述原因,本文選取某綜合性科學(xué)技術(shù)類高校學(xué)報的論文作為研究對象。高校學(xué)報通常涉及多個學(xué)科,并且其論文的學(xué)術(shù)性審核也有統(tǒng)一的要求和規(guī)范且執(zhí)行比較嚴(yán)格。因此,本研究的結(jié)論應(yīng)具有一定的廣泛性意義。
此外,數(shù)網(wǎng)技術(shù)的發(fā)展與應(yīng)用導(dǎo)致期刊數(shù)據(jù)庫模式的出現(xiàn),也使得期刊本身被虛擬化、拆解,文獻(xiàn)傳播的中心從期刊轉(zhuǎn)移到單篇論文[15],進(jìn)一步說明以論文為研究基本單元相比于以期刊為研究基本單元更為合理。排除期刊自身的因素,把關(guān)注點(diǎn)放在論文上來研究和驗(yàn)證同一種期刊論文的相關(guān)情況,對數(shù)網(wǎng)環(huán)境下論文乃至科學(xué)成果的傳播有著重要的現(xiàn)實(shí)意義。本文擬在固定期刊(選擇某綜合性科學(xué)技術(shù)類期刊)這個因素的前提下,對論文評價的傳統(tǒng)因素(如學(xué)科、出版年限等)以及數(shù)網(wǎng)環(huán)境下的特征因素(如下載量與被引情況,即引證文獻(xiàn)、共引文獻(xiàn)、同被引文獻(xiàn))的相關(guān)性進(jìn)行動態(tài)的、多變量的實(shí)證分析與研究。
大多數(shù)研究的數(shù)據(jù)源于Web of Science,有些則選擇TOP20 英文專業(yè)期刊,也就是影響因子最高的英文學(xué)術(shù)期刊。這樣選擇數(shù)據(jù)也有其不足的地方:一是沒有考慮中文期刊,二是忽略了一般學(xué)術(shù)期刊的數(shù)據(jù)變化規(guī)律。
在學(xué)者們的前期研究中,最小的數(shù)據(jù)記錄(Record)單位是期刊,而不是單篇論文。不同論文之間的引證文獻(xiàn)數(shù)據(jù)分布是不均衡的,整合了論文數(shù)據(jù)后的整期期刊引證文獻(xiàn)數(shù)與下載數(shù)之間的一些重要特性會消失。因此,本研究采集每篇論文的相關(guān)數(shù)據(jù)作為源數(shù)據(jù),選取某高校學(xué)報(屬綜合性科學(xué)技術(shù)類期刊)2013-2015年發(fā)表的論文為研究對象。數(shù)據(jù)主要從知網(wǎng)中爬取,數(shù)據(jù)采集截止日期為2018年3月26日,數(shù)據(jù)結(jié)構(gòu)如表1所示。
表1 數(shù)據(jù)結(jié)構(gòu)表
大部分研究選擇連續(xù)型變量進(jìn)行分析,如論文下載數(shù)、頁數(shù)、作者人數(shù)。雖然也有學(xué)者關(guān)注到一些分類變量(如基金資助、學(xué)科等)對引證文獻(xiàn)數(shù)的影響,但在分析時往往簡單地將分類變量作為邏輯變量,納入回歸分析中,或簡單作一些相關(guān)系數(shù)分析。本研究從分類變量與連續(xù)變量兩方面來考慮與分析。如表1所示,采集的數(shù)據(jù)結(jié)構(gòu)良好,但對于文本類變量數(shù)據(jù),為了后面方差分析的需要,必須作一些轉(zhuǎn)換處理,主要對兩個字段(基金編號和分類號)進(jìn)行處理。
(1)基金編號的處理方法。依據(jù)編號將論文基金分為4 個等級:0 為無資助,1 為國家級(如國家自然科學(xué)基金、國家社科基金),2 為省部級,3 為其他。
(2)分類號的轉(zhuǎn)換。采用圖書標(biāo)準(zhǔn)分類號(參照網(wǎng)站:http://ztflh.xhma.com/),主要困難是如何解決分類號不等長的匹配分析問題。本文分兩階段來處理學(xué)科分類號的問題:首先截取分類號左邊第一個字母,以對應(yīng)不同的學(xué)科,對學(xué)科進(jìn)行分類的方差分析;然后選擇T類(因?yàn)闃颖緛碓礊榫C合性科學(xué)技術(shù)類期刊,T 類論文的比例特別高),對前兩位字母進(jìn)行分類分析。
目前已有研究多從學(xué)術(shù)期刊的截面數(shù)據(jù)來進(jìn)行分析。本文考量有可能影響引證文獻(xiàn)數(shù)的多個因素,主要包括:基金資助等級、學(xué)科分類(分類號)、年份、頁數(shù)、共引文獻(xiàn)數(shù)、同被引文獻(xiàn)數(shù)。從數(shù)據(jù)分析的角度將這些因素分為兩大類:一是分類變量(如基金資助等級與學(xué)科分類);二是連續(xù)變量(如頁數(shù)、共引文獻(xiàn)數(shù)、同被引文獻(xiàn)數(shù))。由下一節(jié)的分析可知,期刊論文的主要變量是學(xué)科、下載量、同被引文獻(xiàn)數(shù)與引征文獻(xiàn)數(shù)。因此,在本節(jié)中只給出下載數(shù)、同被引文獻(xiàn)數(shù)與引證文獻(xiàn)數(shù)的描述性統(tǒng)計分析結(jié)果,以探討引證文獻(xiàn)數(shù)的動態(tài)性問題。描述性統(tǒng)計分析結(jié)果見表2(以論文為統(tǒng)計單位),而相關(guān)的箱線圖如圖1所示,可以明顯看出主要變量的變化特性。
(1)下載數(shù)的分布特點(diǎn)。中位數(shù)在150 左右,四分一位數(shù)在100 左右(2015年略偏低),而四分三位數(shù)約在200~260 之間,但最大值超2000(2015年除外),中位數(shù)與四分位數(shù)的位置分布均勻,整體分布接近正態(tài);由于最大值偏大,所以裁剪了最大值,重點(diǎn)顯示四分位與最小值的分布情況;年份越長,中值越大,但最小值基本不變。(2)同被引文獻(xiàn)數(shù)的分布特點(diǎn)。分布形態(tài)與下載數(shù)相似,也接近正態(tài)分布;中位數(shù)在20~80范圍變化,年份越近,中位數(shù)越小。(3)引證文獻(xiàn)數(shù)的分布特征。偏峰較大,大多數(shù)引證文獻(xiàn)數(shù)小于10,但高被引的文獻(xiàn)數(shù)可接近70;中位值偏向最小值,而且四分位數(shù)與中位數(shù)相差很小,最大值與分位數(shù)及中位數(shù)相差較大。這種分布一般稱為偏峰及峰值較大,在自變量計算時通常認(rèn)為穩(wěn)定性較差。(4)下載數(shù)、同被引文獻(xiàn)數(shù)和引證文獻(xiàn)數(shù)具有一定的相關(guān)性(下一節(jié)將進(jìn)一步用統(tǒng)計分析方法進(jìn)行論證)。從分布特征來看,下載數(shù)與同被引文獻(xiàn)數(shù)的分布比引證文獻(xiàn)數(shù)更為扁平,在影響因子的計算中若考慮這兩個因素會得到更為穩(wěn)定的結(jié)果。因?yàn)橥ㄋ讈碇v,體量越大越具有代表性。上述三個因素有別于基金資助、學(xué)科、頁數(shù)等靜態(tài)因素,呈現(xiàn)出明顯的動態(tài)特性,年份越長數(shù)量值越大。
表2 不同年份期刊論文的描述性統(tǒng)計分析
圖1 下載數(shù)、同被引文獻(xiàn)數(shù)與引證文獻(xiàn)數(shù)動態(tài)箱線圖
本節(jié)將求取對引證文獻(xiàn)數(shù)有顯著性影響的因素。具體的方法為:以分類變量作為自變量時采用方差分析,以連續(xù)變量為自變量時采用回歸分析。
(1)按基金分類的方差分析。將基金資助的數(shù)據(jù)分為四類:0無資助;1國家級;2省部級;3其他。對基金資助及其等級進(jìn)行方差分析后得到P 值為0.56,表明基金資助情況對引證文獻(xiàn)數(shù)以及同被引文獻(xiàn)數(shù)等沒有顯著的影響。造成這個結(jié)果的原因可能是:目標(biāo)期刊90%以上的論文都有基金資助。本文獲取的基礎(chǔ)數(shù)據(jù)顯示,在沒有獲得資助的論文中,30%以上屬于前10%高被引文獻(xiàn),說明在這一類學(xué)術(shù)期刊中,基金項(xiàng)目資助及其等級對論文的引證文獻(xiàn)數(shù)沒有明顯影響,也就是相關(guān)性不顯著。
(2)按學(xué)科分類的方差分析。對論文的第一個學(xué)科分類號進(jìn)行分類,得到引證文獻(xiàn)數(shù)的均值表,見表3。
表3 學(xué)科分類的引證文獻(xiàn)數(shù)均值
為了分析學(xué)科分類對引證文獻(xiàn)數(shù)的影響是否顯著,本文采取單因素方差分析法,得到學(xué)科分類對引證文獻(xiàn)數(shù)的P值為0.01622,表明學(xué)科分類之間的差異性對期刊論文的引證文獻(xiàn)數(shù)有顯著影響。由于所選期刊中綜合性科學(xué)技術(shù)類(T 類)的論文數(shù)量較多(占72.3%),再作深入的影響因子分析時,可以對T 類論文作進(jìn)一步的方差分析,以揭示T 類中哪些具體學(xué)科的影響較大。T 類學(xué)科再細(xì)分后得到的引證文獻(xiàn)數(shù)均值如表4所示。
表4 T類學(xué)科細(xì)分后的引證文獻(xiàn)數(shù)均值
經(jīng)過方差分析后,得到P值為0.01622,說明在T 類中各學(xué)科對引證文獻(xiàn)數(shù)的影響顯著,特別是自動化技術(shù)、計算機(jī)技術(shù)類、化學(xué)工程類等比其他學(xué)科有更明顯的高引證文獻(xiàn)數(shù)。以上結(jié)果表明:(1)自動化、計算機(jī)、環(huán)境等是備受歡迎的熱門學(xué)科;(2)不同學(xué)科論文的質(zhì)量存在差異性;(3)學(xué)科差異性分析對期刊選題有一定的指導(dǎo)意義,但也不能忽視一些特殊學(xué)科,如原子能技術(shù)對科學(xué)整體發(fā)展的貢獻(xiàn)。
對所有連續(xù)型變量進(jìn)行初步多元回歸探索性分析,即將引證文獻(xiàn)數(shù)或同被引文獻(xiàn)數(shù)作為因變量,其余變量為自變量展開分析,結(jié)果如表5所示。
表5 連續(xù)型變量的多元回歸探索性分析
從表5可知,選擇引證文獻(xiàn)數(shù)為因變量,R2值是0.737047,擬合效果比較好;若選擇同被文獻(xiàn)數(shù)為因變量,R2值是0.199649,擬合效果不理想。針對引證文獻(xiàn)數(shù)的回歸分析F檢驗(yàn)的P值是1.4×10-73,線性回歸效果顯著。針對每個自變量的系數(shù)所作的假設(shè)檢驗(yàn)發(fā)現(xiàn),有兩個自變量(頁數(shù)、共引文獻(xiàn)數(shù))沒有通過t檢驗(yàn),在后續(xù)的分析中應(yīng)刪除。表5表明,引證文獻(xiàn)數(shù)、同被引文獻(xiàn)數(shù)與下載數(shù)三者有一定的相關(guān)性,有可能是線性關(guān)系,也有可能是非線性關(guān)系,下面將通過更細(xì)化的回歸分析來展開探討。
對引證文獻(xiàn)數(shù)、同被引文獻(xiàn)數(shù)、下載數(shù)三個變量進(jìn)行單因素回歸分析,從中探討它們之間是否存在線性關(guān)系(見表6)。
從表6可看出,引證文獻(xiàn)數(shù)與同被引文獻(xiàn)數(shù)之間具有很強(qiáng)的線性關(guān)系,引證文獻(xiàn)數(shù)與下載數(shù)之間的線性關(guān)系也是顯著的。但是,同被引文獻(xiàn)數(shù)與下載數(shù)之間不是簡單的線性關(guān)系,經(jīng)過多次仿真分析后發(fā)現(xiàn),二者之間為非線性關(guān)系,而下載數(shù)平方根與立方根的組合線性回歸計算得出的R2值最優(yōu)。圖2展示了三因素之間的回歸關(guān)系,下面進(jìn)一步使用二元回歸作動態(tài)分析。
表6 三因素相互間的回歸分析
圖2 三因素間的回歸關(guān)系
選用下載數(shù)與同被引文獻(xiàn)數(shù)作為回歸分析的自變量,引證文獻(xiàn)數(shù)為因變量,對不同年份的數(shù)據(jù)進(jìn)行線性回歸分析,結(jié)果如表7所示。
表7 2013-2015年論文的回歸分析結(jié)果
可以看到,引證文獻(xiàn)數(shù)回歸分析F檢驗(yàn)的P值均為顯著的,下載數(shù)、同被引文獻(xiàn)數(shù)的t檢驗(yàn)P值全部顯著。三年的R2分別為0.845、0.736、0.611,表明擬合質(zhì)量比較高,但呈逐年下降趨勢。三年對應(yīng)的回歸方程如下所示:
其中,y表示引證文獻(xiàn)數(shù),x1表示下載數(shù),x2表示同被引文獻(xiàn)數(shù),∈表示隨機(jī)干擾項(xiàng)。
從二元回歸分析結(jié)果來看,回歸方程的F檢驗(yàn)顯著,其P值均<0.0000;回歸方程的系數(shù)檢驗(yàn)也是顯著的,兩個自變量(下載數(shù)與同被引文獻(xiàn)數(shù))的t檢驗(yàn)均顯著,其P值均<0.0000。R2值顯現(xiàn)年份越長,回歸效果越好的趨勢,表明如果使用下載數(shù)或同被引文獻(xiàn)數(shù)作為影響因子計算的補(bǔ)充變量時,使用5~6年的數(shù)據(jù)較合理,而不是按傳統(tǒng)的方法,采用最近2年的數(shù)據(jù)。
影響因子以引證文獻(xiàn)數(shù)為其中一個計算變量,由于引證文獻(xiàn)數(shù)一般比較小,而且有偏峰的特點(diǎn),因此眾多學(xué)者將焦點(diǎn)放在引證文獻(xiàn)數(shù)與下載數(shù)的回歸關(guān)系研究上。有些學(xué)者甚至得出相關(guān)回歸方程,但依然使用近兩年數(shù)據(jù)。本研究表明:(1)引證文獻(xiàn)數(shù)不僅僅與下載數(shù)相關(guān),還與同被引文獻(xiàn)數(shù)有顯著的線性關(guān)系,并得出兩者之間的線性回歸方程;(2)引證文獻(xiàn)數(shù)、下載數(shù)與同被引文獻(xiàn)數(shù)在5~6年進(jìn)入穩(wěn)態(tài)期。為此,建議在影響因子的計算中,引入下載數(shù)與同被引數(shù)兩個變量,并考慮采用5~6年的時間窗口。
論文的引證文獻(xiàn)數(shù)是近年來學(xué)者所關(guān)心的一個重要指標(biāo),大家都注意到影響引證文獻(xiàn)數(shù)的因素有很多。在目前的相關(guān)研究中,除考慮論文的基本性質(zhì),如論文的作者數(shù)、頁數(shù)、是否有基金資助、學(xué)科分類之外,還關(guān)注網(wǎng)絡(luò)出版的特征屬性,主要是論文下載數(shù)。本文針對數(shù)網(wǎng)環(huán)境下文獻(xiàn)傳播的特征,在下載數(shù)的基礎(chǔ)上,增加了同被引文獻(xiàn)數(shù)和共引文獻(xiàn)數(shù)作為分析因素,并對關(guān)聯(lián)的因素按兩種變量類別進(jìn)行了分析:一是分類變量,二是連續(xù)變量。主要結(jié)論有:
(1)對論文的引證文獻(xiàn)數(shù)影響最為顯著的變量有:學(xué)科、下載數(shù)、同被引文獻(xiàn)數(shù)。引證文獻(xiàn)數(shù)與下載數(shù)和同被引文獻(xiàn)數(shù)之間呈較強(qiáng)的線性關(guān)系,同被引文獻(xiàn)數(shù)與下載數(shù)之間卻呈現(xiàn)出顯著的非線性關(guān)系。(2)對論文的引證文獻(xiàn)數(shù)影響不顯著的變量有頁數(shù)、基金資助情況、共引文獻(xiàn)數(shù)等。(3)對引證文獻(xiàn)數(shù)(被引頻次)的研究不能局限于傳統(tǒng)指標(biāo)(如頁數(shù)、作者數(shù)、基金、學(xué)科分類),網(wǎng)絡(luò)傳播指標(biāo)(如下載數(shù))以及某些被忽視的指標(biāo)(如同被引文獻(xiàn)數(shù))也應(yīng)給予關(guān)注。若簡單分析相關(guān)系數(shù)與相關(guān)度,則無法得到變量間數(shù)量上的關(guān)系?;貧w分析的最大優(yōu)點(diǎn)是可以得到變量的數(shù)量變化關(guān)系方程,以便于對期刊進(jìn)行計量分析,如影響因子分析。(4)目前無論是影響因子的計算,還是其他的相關(guān)研究,主要采用近2~3年的數(shù)據(jù)。然而,本研究表明:直接使用引證文獻(xiàn)數(shù)的回歸分析效果不太理想,因?yàn)橐C文獻(xiàn)數(shù)存在較大的偏態(tài)性與偏峰性,數(shù)據(jù)的穩(wěn)定性不好;而下載數(shù)與同被引文獻(xiàn)數(shù)接近正態(tài)分布,說明引證文獻(xiàn)數(shù)與下載數(shù)及同被引文獻(xiàn)數(shù)具有顯著的線性關(guān)系,因此采用下載數(shù)與同被引文獻(xiàn)數(shù)來評價論文的學(xué)術(shù)影響力,既有合理性又有穩(wěn)定性。另外,引證文獻(xiàn)數(shù)與年限有著密切的關(guān)系,特別是在5~6年后進(jìn)入穩(wěn)定狀態(tài),所以目前使用近2年的數(shù)據(jù)來計算影響因子是不理想的。(5)對于數(shù)據(jù)的粒度問題,是以論文還是以期刊作為記錄數(shù)據(jù)的最小單位值得考量。由于期刊的數(shù)據(jù)綜合性強(qiáng),如果使用期刊的綜合數(shù)據(jù)作為最小分析單位,不同學(xué)科間、不同論文間的統(tǒng)計特征差異性將會消失,因此以論文作為數(shù)據(jù)分析的最小記錄單位更為合適。(6)在互聯(lián)網(wǎng)時代,傳統(tǒng)紙媒出版面臨新挑戰(zhàn),很多問題還有待研究。比如,采用更多樣本數(shù)據(jù)來分析不同學(xué)術(shù)水平的科技期刊、更多的年份對引證文獻(xiàn)數(shù)的影響。又如,研究科技期刊中讀者的閱讀點(diǎn)擊流數(shù)據(jù),以獲取讀者行為數(shù)據(jù),從而有效分析讀者的行為特征,為設(shè)計具有更好用戶體驗(yàn)的網(wǎng)絡(luò)出版物提供參考依據(jù)。此外,研究還可更進(jìn)一步,提升到規(guī)范性統(tǒng)計分析層面,對影響因子等指標(biāo)構(gòu)建更合理有效的模型和公式,使論文和期刊的評價更為科學(xué)。