〔摘 要〕科研課題與學(xué)術(shù)論文之間存在著互相支撐的緊密關(guān)系,為探尋和利用已有的分析工具開展融通創(chuàng)新服務(wù),合理挖掘各學(xué)科領(lǐng)域最熱或最具優(yōu)勢的科研選題,在今后的實際工作中構(gòu)建切實可行的定量預(yù)測模式,文章以學(xué)術(shù)論文分析工具對科研項目選題進(jìn)行探索研究,舍棄現(xiàn)今人們常用的把ESI與Incites數(shù)據(jù)庫對ESI學(xué)科和潛力學(xué)科分析工作上的固有模式,采用Incites數(shù)據(jù)庫和ESI平臺進(jìn)行耦合關(guān)聯(lián),以申報國家自然科學(xué)基金項目的選題為例,對其近3年的資助發(fā)文情況進(jìn)行統(tǒng)計,以定量分析高水平的SCIE/SSCI研究論文為出發(fā)點,結(jié)合更深層“暗數(shù)據(jù)”可視化信息加工方法,為科研課題的適當(dāng)選題提供思路和借鑒,并為圖書情報部門在高水平大學(xué)建設(shè)中的“暗數(shù)據(jù)”可視化綜合情報分析與優(yōu)勢互補服務(wù)能力提升做出探索實踐性研究。
〔關(guān)鍵詞〕InCites;ESI;“暗數(shù)據(jù)”可視化;科研選題;文獻(xiàn)計量學(xué)
DOI:10.3969/j.issn.1008-0821.2018.06.019
〔中圖分類號〕G301 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2018)06-0122-06
〔Abstract〕In this article,the author knew that research topics and academic papers had the close relationship between the support each other.In order to explore and utilize the existing analysis tools to carry out the financing innovation services,reasonable mining hottest interdisciplinary fields or the most advantage of research topics,in the future practice to build a feasible quantitative prediction model,it used the essay analysis tools to explore the research topics,discarding the commonly used inherent patterns of the ESI and Incites databases on the ESI discipline and the potential disciplinary analysis,using Incites database and ESI platform for the coupling relationship.It declared the National Natural Science Foundation of selected topics as an example,the statistics of the past 3 years the fund issued in the quantitative analysis,to study the quantitative analysis of a high-level SCIE/SSCI papers as a starting point,combining with the deeper“dark”data visual information processing method,suitable for scientific research subject topics provided ideas and reference,and books combining with a deeper“dark data”visualization information processing methods,to provide ideas and reference for the appropriate research topics,and for intelligence in the construction of high-level university for“dark data”visualization integrated intelligence analysis and the complementary service ability to ascend to explore practical research.
〔Key words〕InCites;ESI;“dark data”visualization;research topics;bibliometrics
當(dāng)前,建設(shè)世界一流大學(xué)和一流學(xué)科(簡稱“雙一流”)是國家和地區(qū)發(fā)展的一項國家級重點建設(shè)工程[1]。雖然在2017年9月21日,國家教育部、財政部、發(fā)改委首次公布了世界一流大學(xué)和一流學(xué)科建設(shè)高校及建設(shè)學(xué)科名單[2],但是,也明確指出這次的遴選認(rèn)定結(jié)果不是一勞永逸的,并非“終身制”,這為圖書情報機構(gòu)的創(chuàng)新知識服務(wù)指明了方向。因而,各高校的圖書情報服務(wù)部門幾乎都實施了定期地對各類評價指標(biāo)數(shù)據(jù)進(jìn)行收集、整理和分析,以便對建設(shè)成效開展動態(tài)監(jiān)測,為“雙一流”建設(shè)不斷積累經(jīng)驗。
作為基礎(chǔ)學(xué)科研究較為活躍的高等院校,按照國務(wù)院2018年1月31日正式發(fā)布的《關(guān)于全面加強基礎(chǔ)科學(xué)研究的若干意見》(國發(fā)〔2018〕4號文),明確提出“瞄準(zhǔn)世界科技前沿,強化基礎(chǔ)研究,深化科技體制改革,促進(jìn)基礎(chǔ)研究與應(yīng)用研究融通創(chuàng)新發(fā)展”[3],結(jié)合不同領(lǐng)域和學(xué)科自身特點,積極開展新時期全鏈條科技創(chuàng)新工作,切實推進(jìn)各類科技的創(chuàng)造與轉(zhuǎn)化。根據(jù)2018年2月13日國家科技部、財政部聯(lián)合印發(fā)的關(guān)于《國家科技資源共享服務(wù)平臺管理辦法》的通知(國科發(fā)基〔2018〕48號文)[4],圖書情報部門可充分利用現(xiàn)有的信息資源和服務(wù)優(yōu)勢,提供專業(yè)化的知識服務(wù),打造科技資源全鏈條服務(wù)體系,推動從資源管理向科技資源服務(wù)轉(zhuǎn)變,提升服務(wù)質(zhì)量和水平,為實現(xiàn)融通合作和創(chuàng)新發(fā)展貢獻(xiàn)力量。
1 構(gòu)建思路
通過國家自然科學(xué)基金委員會的科學(xué)基金網(wǎng)絡(luò)信息系統(tǒng)ISIS,可初步完成對過往課題立項資助的信息分析,但僅有題目和學(xué)科分類等,除了中標(biāo)率和成果歸屬統(tǒng)計等分析外,具體項目的研究深度和廣度難以判斷;對于已結(jié)題驗收的課題,雖然增多了主題詞和摘要等信息,可信息量還是較少,對于科研研究中很重要的研究過程和具體方法,一般零碎分散或是無法集中呈現(xiàn)。而在申報的前期研究論文中,以及研究中期和后期發(fā)表的公開學(xué)術(shù)論文中,研究的細(xì)節(jié)、方法和過程等,都有比較詳盡的記錄,因而,增加對Incites數(shù)據(jù)庫和ESI數(shù)據(jù)庫的融通分析,將更有助于在基金申報過程中找準(zhǔn)定位和明確定題。
本文嘗試采用Incites數(shù)據(jù)庫和ESI數(shù)據(jù)庫,通過對國家自然科學(xué)基金項目(簡稱“國自然”)近3年的資助發(fā)文情況進(jìn)行耦合分析,從定量的角度結(jié)合更深層“暗數(shù)據(jù)”可視化信息加工方法,尋找國自然課題近年的熱點研究方向和本機構(gòu)/本學(xué)科的研究優(yōu)勢,為今后在科研課題申報時,提供挖掘本學(xué)科領(lǐng)域最熱或最具優(yōu)勢的課題定位,構(gòu)建充分利用特定工具的融通創(chuàng)新服務(wù)手段和預(yù)測模式,提升“雙一流”學(xué)科建設(shè)中的“暗數(shù)據(jù)”可視化綜合情報分析與優(yōu)勢互補服務(wù)能力做出應(yīng)用探索。
1.1 InCites數(shù)據(jù)庫的基金資助分析功能優(yōu)勢
眾所周知,Incites數(shù)據(jù)庫和ESI數(shù)據(jù)庫是由科睿唯安公司(Clarivate Analytics,原湯森路透知識產(chǎn)權(quán)與科技事業(yè)部)開發(fā),目前,最常用于“雙一流”學(xué)科建設(shè)中的ESI學(xué)科和排名情況的分析中,但其基金資助分析功能幾乎尚未被提及或被忽略。筆者查找了中國知網(wǎng)(CNKI)中心站的期刊全文數(shù)據(jù)庫、維普資訊的期刊全文數(shù)據(jù)庫以及萬方數(shù)據(jù)平臺的期刊全文數(shù)據(jù)庫,這3個國內(nèi)知名數(shù)據(jù)庫進(jìn)行文獻(xiàn)調(diào)研,在不限定檢索年限的情況下,截止到2018年2月10日,尚未發(fā)現(xiàn)以Incites數(shù)據(jù)庫和ESI數(shù)據(jù)庫作為主要研究手段,對基金資助項目或課題選題進(jìn)行預(yù)測性研究的相關(guān)研究文獻(xiàn)。初步分析,在文獻(xiàn)報道方面,國內(nèi)學(xué)者對此研究還處于相對混沌的狀態(tài)。
雖然如此,但I(xiàn)ncites數(shù)據(jù)庫在基金資助分析方面具有一定的優(yōu)勢。
1)由于國自然項目在申報的前期、研究的中期和后期均需有一定的SCI/SSCI成果公開發(fā)表,Incites數(shù)據(jù)庫與包含SCI/SSCI在內(nèi)的Web of Science(簡稱WOS)核心合集均同屬于科睿唯安公司,且具備WOS7個索引數(shù)據(jù)庫的數(shù)據(jù),對國自然的統(tǒng)計分析,具有接口統(tǒng)一性和較好的兼容性,并擁有一定的可視化效果;
2)對全球5 000多所研究機構(gòu)的名稱信息已進(jìn)行規(guī)范化處理;
3)實現(xiàn)對全球基金資助機構(gòu)的歸并,包括中國國家自然科學(xué)基金等在內(nèi)的59個中國大陸基金資助項目和5個來自中國香港的基金資助項目;
4)在分析出自己關(guān)心的高頻或熱點研究方向后,還可與同屬于科睿唯安公司的深度分析型研究工具ESI數(shù)據(jù)庫的全球研究熱點Research Fronts進(jìn)行橫向比對,并選取與其中熱點詞關(guān)聯(lián)的研究論文進(jìn)行深度閱讀和全面揭示。
1.2 “暗數(shù)據(jù)”可視化分析法的引入
在前期研究方面,筆者曾發(fā)表幾篇有關(guān)“暗數(shù)據(jù)”及其可視化的學(xué)術(shù)研究論文,積累了一定的素材和經(jīng)驗。對于“暗數(shù)據(jù)”的研究,我國學(xué)者已經(jīng)起步但尚未深入,在理論探討方面,2015年2月22日我國著名學(xué)者吳建中先生在其個人博客“建中讀書”里,論述了他對暗數(shù)據(jù)的理解并作出了簡要的前景分析,受到了業(yè)界高度關(guān)注[5]。筆者認(rèn)為,“暗數(shù)據(jù)”可以看作是大數(shù)據(jù)的子集,但無論我們是否覺察或感知其存在,暗數(shù)據(jù)是曾經(jīng)投入過人力、物力甚至財力進(jìn)行收集而來的數(shù)據(jù),只是未經(jīng)處理、分析的存儲數(shù)據(jù),也許包含未被發(fā)現(xiàn)的、重要的價值或見解,但并不是無用的數(shù)據(jù)。由于存在數(shù)量大,潛在價值尚不明確,因而以往對其研究較少。但能預(yù)測“暗數(shù)據(jù)”能對未來產(chǎn)生一定推動或阻礙的可能性,也能為用戶提供更多、更廣泛的機遇[6]。
科研項目的申報,尤其是國家自然科學(xué)基金等代表著國家高水平研究項目,研究眼光已不僅僅是在國內(nèi),而是需要放眼全球范圍,因而以“暗數(shù)據(jù)”可視化為主要研究手段,常用Python語言,SQL數(shù)據(jù)庫等數(shù)據(jù)處理工具,后臺需要涉及百萬甚至千萬級的數(shù)據(jù),以便嘗試尋找與實際應(yīng)用更為接近,且具有參考和借鑒意義的創(chuàng)新融通分析方法。
2 應(yīng)用實踐與應(yīng)對策略
2.1 利用InCites數(shù)據(jù)庫進(jìn)行數(shù)據(jù)抓取和初步分析
通過訪問https://incites.thomsonreuters.com,輸入InCites的賬號和密碼進(jìn)行登錄,如果是首次訪問,個人自行使用郵箱注冊后可登錄使用。InCites數(shù)據(jù)庫主界面有包括人員分析、機構(gòu)分析、區(qū)域分析、研究方向分析、期刊圖書會議錄文獻(xiàn)分析和基金資助機構(gòu)等6個主要功能模塊,其中最右上角的基金資助機構(gòu)模塊入口,可分析不同基金資助機構(gòu)的論文資助和研究情況。
選取時間跨度為2015年以來,基金資助機構(gòu)為“National Natural Science Foundation of China”(中國國家自然科學(xué)基金),按照發(fā)表WOS論文數(shù)量進(jìn)行排序,可得如圖2結(jié)果。
圖2為自2015年以來,受中國國家自然科學(xué)基金資助并已公開出版的WOS論文共有603 358篇,由于考慮到WOS核心合集學(xué)科分類共有251個,與國自然項目申報指南中的學(xué)科分類相比更精細(xì),有助于提供進(jìn)一步的研究方向具體信息。故對“研究方向”進(jìn)行“重新聚焦”,可知這60多萬篇WOS論文主要涉及234個學(xué)科研究方向,如圖3所示。
2.2 數(shù)據(jù)清洗和詞頻分析
圖3中得到了234個精細(xì)的學(xué)科分類結(jié)果,可根據(jù)實際中個人的研究方向,選取其中1個或幾個具體方向的論文進(jìn)行深入研究,可選擇發(fā)表在Q1或Q2區(qū)的論文,或是被引次數(shù)排名前1%或10%的論文等,或是限定為Article等較高質(zhì)量的學(xué)術(shù)成果,如圖4。筆者常用的途徑之一,可將其導(dǎo)出其論文清單,去重后,在EXCEL電子文檔中。一般來說,論文的數(shù)據(jù)量比較大,逐一閱讀的可行性小,可對這些論文數(shù)據(jù)的簡要信息進(jìn)行語句的切分,獲取反復(fù)出現(xiàn)的高頻詞(常為實詞),即為該研究方向近幾年來的關(guān)注熱點詞匯。另一種途徑,可把以上數(shù)據(jù)導(dǎo)入到可視化的統(tǒng)計分析工具當(dāng)中,如與WOS論文數(shù)據(jù)匹配度比較好的,亦由科睿唯安公司開發(fā)的DDA分析軟件中,進(jìn)行數(shù)據(jù)清洗,如圖5,同樣能獲得與上述途徑類似的結(jié)果。
通過詞頻分析,以過去3年的腫瘤學(xué)研究項目為例,可發(fā)現(xiàn)腫瘤、基因(miRNA/IncRNA/circRNA)、蛋白、(高通量)組學(xué)、信號通路等相關(guān)論文較多,而特殊細(xì)胞類型、特殊細(xì)胞器、特殊細(xì)胞學(xué)現(xiàn)象、特殊修飾等字眼,在近期大量涌現(xiàn)。
2.3 融通比對ESI和熱點拓展延伸
ESI(Essential Science Indicators,又名基本科學(xué)指標(biāo))平臺提供“Research Fronts”界面分析各ESI學(xué)科的全球研究熱點,但其分析的立足點與上述從Incites數(shù)據(jù)庫出發(fā)的角度不同。
2.3.1 學(xué)科分類體系并不一致
ESI是將SCIE/SSCI收錄的期刊粗分為22個學(xué)科分類,如表1。對于國自然項目則無法滿足其申報過程中對學(xué)科分類較精細(xì)的要求,這也是一開始沒有建議直接使用ESI來獲取全球研究熱點的主要原因之一。但是,如前所述,Incites數(shù)據(jù)庫可選取共有251個類別的WOS核心合集進(jìn)行學(xué)科分類,比國自然項目申報指南中要求的更精細(xì),也有助于分析具體的研究方向。如之前以腫瘤學(xué)作為分析方向,在ESI平臺中則沒有該學(xué)科方向,它可能會被分入臨床醫(yī)學(xué)、免疫學(xué)、生物與生物化學(xué),或是分子生物與遺傳學(xué)等ESI學(xué)科當(dāng)中,如圖6,分析起來會讓研究人員無所適從。但是,在Incites數(shù)據(jù)庫不僅設(shè)有該學(xué)科方向,還能找到具體的研究熱點詞匯。
2.3.2 分析視角并不一致
ESI數(shù)據(jù)是通過全球高水平論文(即高被引論文和熱點論文的合集)為出發(fā)點,通過共被引關(guān)系網(wǎng)絡(luò)尋找反復(fù)出現(xiàn)的高頻詞匯,從而獲得研究熱點,并非基于相關(guān)的基金支持作為研究的出發(fā)點。而本文從Incites數(shù)據(jù)庫出發(fā),起點為針對性和專指性更強的有關(guān)基金項目。
2.3.3 影響范圍也不一致
ESI平臺默認(rèn)是以滾動10年為統(tǒng)計周期,僅以總被引頻次進(jìn)行排名,只有學(xué)科論文總被引頻次排名進(jìn)入前1%才能入圍該數(shù)據(jù)庫。我們常常認(rèn)為ESI平臺收錄的是“優(yōu)質(zhì)”的SCIE/SSCI論文,其高被引論文的持續(xù)影響力或是熱點論文的近期爆發(fā)力都是值得肯定的。相比之下,從Incites數(shù)據(jù)庫分析數(shù)據(jù),一般從創(chuàng)新性考慮,往往只是對近3~5年進(jìn)行分析,其研究定題的可持續(xù)性或熱度尚未得到驗證。
因而,經(jīng)過清洗后從Incites數(shù)據(jù)庫中得到的數(shù)據(jù),通過融通ESI平臺中的全球研究熱點,能實行相互印證,所得結(jié)果有3種情況,如表2。對于目前研究水平和科研投入的個人研究者來說,能夠有的放矢的分析出適合本人,且與全球研究水平接軌、更“接地氣”的熱點選題。
3 討論與展望
自2016年的第四輪學(xué)科評估工作開始,教育部首次明確要求使用ESI作為衡量學(xué)術(shù)產(chǎn)出水平的重要指標(biāo),ESI與Incites數(shù)據(jù)庫成為全球反映學(xué)科論文質(zhì)量、體現(xiàn)學(xué)科競爭力和影響力的權(quán)威工具,越來越受到政府部門、各大高校、科研機構(gòu)的關(guān)注和重視[7]。目前,在高水平大學(xué)建設(shè)過程中,ESI與Incites數(shù)據(jù)庫最常用于對ESI學(xué)科全球排名、入選學(xué)科數(shù)量和潛力學(xué)科可能性分析等工作上,并在圖書情報部門形成動態(tài)、定期跟蹤分析的工作機制。但這兩個工具并不只能做這單一功能,各機構(gòu)的ESI學(xué)科分析工作往往比較宏觀,且主要針對研究結(jié)論部分的學(xué)術(shù)論文,而對于微觀的個人研究,以及作為研究過程部分的科研立項是否也具有積極的指導(dǎo)意義,是本文的研究起點和關(guān)注點。經(jīng)過上述的嘗試和探索,也發(fā)現(xiàn)了一些問題,如作為醫(yī)藥類高等院校的研究人員,自身的學(xué)科門類和研究側(cè)重點相對比較集中,主要以臨床醫(yī)學(xué)、基礎(chǔ)醫(yī)學(xué)和生命科學(xué)等學(xué)科作為實踐分析對象,對于計算機科學(xué)、物理學(xué)等其他學(xué)科是否具有普適性,尚有待進(jìn)一步探討。
科研課題與學(xué)術(shù)論文的先后關(guān)系,就像是“雞”和“蛋”的問題一樣,到底是先有雞還是先有蛋,這個看似簡單的問題卻是長期以來引發(fā)我們深思的課題。在申報課題時,往往需要展示學(xué)術(shù)論文等前期研究成果對其支撐。在獲得基金資助后,中期研究或結(jié)題研究成果,也常常以學(xué)術(shù)論文的形式進(jìn)行展現(xiàn)。無論孰先孰后,我們看到的是它們之間緊密的伴隨性關(guān)系,因而,本文利用科研課題與學(xué)術(shù)論文之間的互相支撐關(guān)系,以申報國家自然科學(xué)基金項目的選題為例,以定量分析高水平的SCIE/SSCI研究論文為出發(fā)點,為科研課題的適當(dāng)選題提供思路和借鑒。
參考文獻(xiàn)
[1]董薇,姜宇飛,張明昊,等.圖書館服務(wù)高校智庫建設(shè)的策略——“雙一流”高校建設(shè)背景下的思考[J].智庫理論與實踐,2017,2(3):36-43.
[2]人民網(wǎng).權(quán)威發(fā)布!“雙一流”建設(shè)高校及建設(shè)學(xué)科名單公布[EB/OL].http://edu.people.com.cn/n1/2017/0921/c367001-29549883.html,2018-01-18.
[3]中華人民共和國中央人民政府.國務(wù)院關(guān)于全面加強基礎(chǔ)科學(xué)研究的若干意見[EB/OL].http://www.gov.cn/zhengce/content/2018-01/31/content_5262539.htm,2018-02-10.
[4]中華人民共和國科學(xué)技術(shù)部.科技部 財務(wù)部關(guān)于印發(fā)《國家科技資源共享服務(wù)平臺管理辦法》的通知[EB/OL].http://www.most.gov.cn/mostinfo/xinxifenlei/fgzc/gfxwj/gfxwj2018/201802/t20180224_138207.htm,2018-02-10.
[5]鄧小茹.暗數(shù)據(jù)可視化在高校圖書館微信移動服務(wù)的應(yīng)用探究[J].圖書館學(xué)研究,2017,(23):59-64.
[6]鄧小茹,陳穎瑜.管窺“暗數(shù)據(jù)”可視化的應(yīng)用前景與隱憂[J].高校圖書館工作,2016,36(3):3-5.
[7]潘衛(wèi),楊眉,董玨.支撐高校管理與決策的產(chǎn)品化情報服務(wù)[J].大學(xué)圖書館學(xué)報,2016,34(6):43-50.
(實習(xí)編輯:陳 媛)