孫錚
目前,科技界對熱點學科的預測通常有2種方式,一種是通過某一個學科的權威科學家根據(jù)其自身對本領域的發(fā)展以及現(xiàn)狀作出的個人預測;另一種是科研工作者根據(jù)一個學科中的某一個關鍵詞被引頻次的多寡而作出的臆測。有些對未來的預測相對準確,但也有一部分以往的預測與現(xiàn)今的熱點相左??傊?,沒有一個綜合各種因素并基于統(tǒng)計學數(shù)據(jù)的預測方法。如何充分利用論文作者的公開數(shù)據(jù)并通過設計一個科學合理的預測模型來尋找哪些學科有可能成為未來的熱點學科,已經(jīng)成為科技界關注的問題之一。
一、目前可利用的論文作者公開數(shù)據(jù)
科研論文在發(fā)表時,可利用的公開數(shù)據(jù)有第一作者的職稱、第一作者的單位、發(fā)表刊物的名稱和發(fā)表時間。
論文發(fā)表時間可以說明,論文作者是跟隨熱點學科進行研究,還是針對某一學科進行引導性的研究,是評判該作者的理論是否具有前瞻性的重要依據(jù)。
論文作者的職稱在一定程度上顯示了該作者在其本學科內(nèi)是否具有科研水平和成果,是否獲得了其所在學科內(nèi)的其他專家的認同。以職稱“高級工程師”為例,能否成為“高工”首先要在其學科領域內(nèi)有一定的科研成果并獲得職稱評定委員會的認可,而職稱評定委員會一般都是由該學科內(nèi)的專家組成。
作者單位的科研水平又是由該單位所有科研人員的科研成果作為支撐,并由另一個權威評定機構的專家組進行評定的。
論文發(fā)表的刊物一般都有該刊物的影響因子,影響因子是通過統(tǒng)計某期刊當年的被引用總次數(shù)除以該期刊在前2年內(nèi)發(fā)表的論文總數(shù)得出的評價指標,代表科研工作者對該刊物的認可度。
上述數(shù)據(jù)指標綜合起來建模預測熱點學科,比單純個人預測所依據(jù)的數(shù)據(jù)基礎更加具有權威性。
二、學科發(fā)展的不同階段與統(tǒng)計模型的設計
一個學科的成長可以分為如下幾個階段,起始階段、初始關注階段、廣泛關注階段、大面積爆發(fā)階段,爆發(fā)階段之后就是熱點學科了。
學科冷熱程度可以通過搜索論文關鍵詞的多寡體現(xiàn),可以理解為熱點關鍵詞就是熱點學科。
一些研究生往往是通過尋找近年的熱點關鍵詞來確定自己的研究方向來撰寫論文,以期望畢業(yè)時的論文更容易發(fā)表,這種情況使得某些熱點學科會連續(xù)熱上幾年甚至十幾年。而每個熱點學科的成長歷程在時間跨度上是不一致的,基礎學科的熱點往往會經(jīng)歷一個漫長的成長期甚至“冬眠”數(shù)十年之后才通過應用手段的變化而成為熱點,比如數(shù)學在計算機大面積普及之后,有些十九世紀的研究成果才得以應用。而應用學科的熱點會有一個很短的成長期和一個很短的衰退期。所以不能按照年度來劃分關鍵詞的統(tǒng)計階段,應該按照第一次發(fā)現(xiàn)該關鍵詞為起始點,該關鍵詞首次成為年度前十熱點關鍵詞為結束點。以起始點和結束點之間的中點為基點,來分布各個階段之間統(tǒng)計數(shù)據(jù)。
在設計預測模型時,首先要盡量避免人為的干擾,盡量以一個關鍵詞本學科的權威數(shù)據(jù)為依據(jù),以統(tǒng)計各篇論文中的關鍵詞為基礎,并用文章第一作者的單位科研水平排名、第一作者科研水平、刊載刊物影響因子、當年被引頻次、引用者的單位科研水平排名等數(shù)據(jù)為權重,計算一個可以編程的函數(shù),然后通過服務器的運算來尋找具有相同成長歷程的普通關鍵詞,來預測哪些關鍵詞有可能成為下一年度或者下一階段的熱點學科。
三、預測模型的具體運算方法
各項數(shù)據(jù)的統(tǒng)計權重是,論文第一作者的單位科研水平排名 25%
第一作者科研水平 15%
刊載刊物影響因子 25%
當年被引頻次 15%
引用者的單位科研水平排名 10%
引用者論文刊載刊物影響因子 10%
假設2014年排名第1的關鍵詞A,第1次發(fā)表在“北京大學學報 2004-6”上,第1作者是B教授,B教授的工作單位是北京大學生命科學學院,當年無人引用。那么A的起始得分就應該是“[(北京大學生命科學學院的排名或者北京大學的排名*25%)+(教授*15%)+(北京大學學報的影響因子*25%)+(當年被引0次*15%)+(引用者的單位科研水平排名*10%)+(引用者文章刊載刊物*10%)]*0.1=該關鍵詞2004年的得分”(最后乘以0.1是預防數(shù)字過大而造成服務器運算困難而加入的保險系數(shù),無被引則計算為0)。假設數(shù)值是3.8。
A在2005年第一次被別人引用,發(fā)表在“科技導報 2005-1”上,第1作者是C教授。C教授的工作單位中國農(nóng)業(yè)大學生命科學學院,當年又被中國農(nóng)業(yè)科學院的D教授引用并發(fā)表在“作物學報 2005-11”上。則A的初始關注階段的得分應該是“{(北京大學生命科學學院的排名或者北京大學的排名*25%)+[(教授+教授)*15%]+[(科技導報影響因子+作物學報影響因子)*25%]+(當年被引2次*15%)+[(中國農(nóng)業(yè)大學生命科學學院的排名或者中國農(nóng)業(yè)大學的排名+中國農(nóng)科院的排名)*25%]}*0.1=該關鍵詞2005年的得分”假設數(shù)值是5.3。
這樣從起始點到關注段的2個數(shù)值就出來了,這樣在坐標上就有了(-50x,3.8y)和(-40x,5.3y)兩個數(shù)值。后面的廣泛關注階段、大面積爆發(fā)階段的同樣計算出每階段的得分。
四、如何尋找學科熱點關鍵詞
每個熱點關鍵詞的情況都不會一樣,從作者到刊物的水平也都不會相似,所以每個關鍵詞的起始點和第1次被引的數(shù)值都不會一樣,那么如何比對2個關鍵詞或者說如何比對一個普通關鍵詞和熱點關鍵詞之間關系呢?
不同學科的關鍵詞之間確實沒有關聯(lián),但是科研人員水平和如何關注本學科發(fā)展是成正比的,還有如何看待本學科發(fā)展的眼光也都是相似的。如果一個普通學科能過成為熱點,那他們的成長歷程應該也是相似的。所以可以通過比對普通關鍵詞和熱點關鍵詞的成長歷程來判斷,它是否有可能成為熱點。假設一個普通關鍵詞為G,我們可以把剛才得出的A((-50x,3.8y),(-40x,5.3y))通過函數(shù)運算得出其余弦角度和在坐標中的長度,再運算G的兩點間的余弦角度和在坐標中的長度,角度和長度越接近則說明G在起始點與初始關注階段的發(fā)展歷程與A越類似。通過統(tǒng)計N個熱點關鍵詞的函數(shù)找到一個熱點關鍵詞發(fā)展的函數(shù)區(qū)間,G能否成為熱點也就可以通過比對G是否被這個區(qū)間所包含來預測。
通過統(tǒng)計每個學科的熱點關鍵詞來尋找各個學科內(nèi)熱點成長歷程特點,來完善預測模型。當數(shù)據(jù)累積到一定程度之后就可以大致勾勒出一個學科的熱點成長模式。
對學科關鍵詞的預測,可以讓學術期刊依據(jù)統(tǒng)計模型得出的評分,在刊登論文時盡量發(fā)表那些在統(tǒng)計模型中得分高的論文,這對提高影響因子有很大的幫助。同時,對在校研究生準確選擇科研方向也是一個輔助,對科研機構的項目立項也可以作為參考工具。