李麗霞,任卓明,張子柯
(杭州師范大學(xué)阿里巴巴商學(xué)院 杭州 311121)
在科學(xué)技術(shù)飛速發(fā)展的今天,創(chuàng)新意識和創(chuàng)新能力越來越成為一個(gè)國家國際競爭力和國際地位的最重要決定因素[1-3]。近年來,引領(lǐng)科技發(fā)展的創(chuàng)新活力不斷被激發(fā),我國科技水平有了大幅提高[4-5]。而作為一個(gè)資源匱乏,國土面積小的國家,瑞士以高效的科技創(chuàng)新體系聞名,被譽(yù)為“創(chuàng)新之國”。其科學(xué)研究水平、自主創(chuàng)新能力均居世界前列,曾連續(xù)九年位居世界經(jīng)濟(jì)論壇全球競爭力排名榜首,并連續(xù)八年排名世界知識產(chǎn)權(quán)組織全球創(chuàng)新指數(shù)榜首[6]。瑞士國家科學(xué)基金會(SNSF)作為瑞士最主要的科研基金提供機(jī)構(gòu),以促進(jìn)基礎(chǔ)科學(xué)學(xué)術(shù)研究和瑞士科技創(chuàng)新的發(fā)展為任務(wù)[7]。因此有必要從具有國際性、權(quán)威性和前沿性的瑞士國家科學(xué)基金數(shù)據(jù)展開現(xiàn)狀分析與趨勢預(yù)測,從而獲取科技發(fā)展的導(dǎo)向,而且了解創(chuàng)新型國家的研究現(xiàn)狀和研究趨勢,可以引起我國科研人員和科技管理人員前瞻性思考,找到科技創(chuàng)新的突破口。
當(dāng)前,基于國內(nèi)外的政府科學(xué)基金和學(xué)術(shù)文獻(xiàn)的數(shù)據(jù)挖掘,分析科學(xué)研究前沿以及探索學(xué)科發(fā)展等的研究,已成為非?;钴S的領(lǐng)域。該方面的研究主要有兩類方法:一是定性研究,以領(lǐng)域?qū)<业慕?jīng)驗(yàn)知識為依托。如文獻(xiàn)[8]針對河北省省級自然科學(xué)基金研制了績效評價(jià)指標(biāo)體系,并根據(jù)評價(jià)結(jié)果確定所需考察的研究熱點(diǎn),但這種方法容易受所選專家自身知識及專家主觀性的限制影響;二是定量研究,以計(jì)量學(xué)方法為主,如文獻(xiàn)[9]采用文獻(xiàn)計(jì)量方法,對“十一五”期間工商管理學(xué)科的國內(nèi)外研究的熱點(diǎn)問題及其內(nèi)容進(jìn)行了分析,并就研究熱點(diǎn)的形成、發(fā)展趨勢的異同等方面進(jìn)行了比較研究。伴隨著科學(xué)知識圖譜作為一種探測學(xué)科知識結(jié)構(gòu)、識別領(lǐng)域?qū)W科熱點(diǎn)主題、追蹤學(xué)科發(fā)展動態(tài)的科學(xué)計(jì)量新手段興起[10-11],國內(nèi)外很多學(xué)者運(yùn)用詞頻分析、共詞分析、共引分析方法結(jié)合科學(xué)知識圖譜技術(shù)對不同領(lǐng)域進(jìn)行研究熱點(diǎn)與未來趨勢的分析。文獻(xiàn)[12]利用詞頻分析法揭示了國內(nèi)外知識管理領(lǐng)域的研究熱點(diǎn)及國內(nèi)外的差異。2016 年,文獻(xiàn)[13]對高頻關(guān)鍵詞進(jìn)行詞頻分析并繪制知識圖譜可視化,分析了國內(nèi)外學(xué)習(xí)分析領(lǐng)域當(dāng)前的研究熱點(diǎn)與未來的研究趨勢。文獻(xiàn)[14]運(yùn)用共詞分析結(jié)合知識圖譜揭示了最近30 年來生命科學(xué)的演進(jìn)趨勢,發(fā)現(xiàn)了新興學(xué)科的產(chǎn)生和發(fā)展。文獻(xiàn)[15]采用文獻(xiàn)計(jì)量方法和關(guān)鍵詞共現(xiàn)分析法,對中國學(xué)術(shù)期刊數(shù)據(jù)庫的查新研究論文進(jìn)行統(tǒng)計(jì)分析,研究了科技查新研究領(lǐng)域的現(xiàn)狀、發(fā)展、熱點(diǎn)和趨勢。文獻(xiàn)[16]基于科研基金項(xiàng)目數(shù)據(jù)采用文獻(xiàn)計(jì)量、詞頻分析、共詞分析的方法研究了中圖書館、情報(bào)與文獻(xiàn)學(xué)的研究進(jìn)展及趨勢分析,發(fā)現(xiàn)研究呈現(xiàn)網(wǎng)絡(luò)化、政策化、服務(wù)化、人性化趨勢。
近幾年,國內(nèi)外對科學(xué)研究前沿的探索更加活躍,采用的方法也更加多樣化。文獻(xiàn)[17]綜合采用引文分析、社會網(wǎng)絡(luò)分析和皮爾遜相關(guān)系數(shù)分析等方法,對1990?2012 年的中國國家自然科學(xué)基金圖書情報(bào)類研究項(xiàng)目進(jìn)行定量化和可視化的處理,探索了情報(bào)學(xué)領(lǐng)域的發(fā)展情況。文獻(xiàn)[18]結(jié)合內(nèi)容詞分析等多種計(jì)量學(xué)方法與科學(xué)知識圖譜技術(shù),深入研究分析學(xué)科知識體系的結(jié)構(gòu)關(guān)系,辨識和探測學(xué)科領(lǐng)域的研究熱點(diǎn)主題及其變化趨勢,為新環(huán)境下科技決策者有效開展科技管理工作提供新手段。文獻(xiàn)[19]通過利用詞頻變化率Z 值對所選取的高頻關(guān)鍵詞進(jìn)行分類,同時(shí)結(jié)合高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)以及多維尺度分析法,不僅有效地從研究熱點(diǎn)、研究主題及研究范式3 個(gè)方面揭示出國內(nèi)情報(bào)學(xué)研究的發(fā)展趨勢,也為探究學(xué)科研究發(fā)展趨勢提供了一個(gè)嶄新的研究視角。上述研究為避免低頻詞的影響,大多選取高頻關(guān)鍵詞進(jìn)行分析,高頻關(guān)鍵詞的選取主要有經(jīng)驗(yàn)判定法、高頻低頻詞界分公式[20]和詞頻g 指數(shù)[21]3 種。其中,文獻(xiàn)[22]為得到更好的分析結(jié)果,在主題識別階段改進(jìn)了詞頻g 指數(shù)來選取共詞分析的對象,在主題演化分析模塊,提出構(gòu)建三維戰(zhàn)略坐標(biāo)來進(jìn)行靜態(tài)分析,并構(gòu)建學(xué)科主題演化現(xiàn)象識別模型來進(jìn)行動態(tài)分析。
在最近的研究中,針對文獻(xiàn)和其他數(shù)據(jù)集的信息挖掘發(fā)現(xiàn)了諸多令人欣喜的研究規(guī)律。文獻(xiàn)[23]用游走模型解釋研究興趣的內(nèi)在演化規(guī)律與特性,對研究和理解科學(xué)家研究興趣的轉(zhuǎn)移與演化具有重要意義。文獻(xiàn)[24]研究發(fā)現(xiàn)職業(yè)巔峰期是普遍存在的并且表現(xiàn)為隨機(jī)分布,通常只出現(xiàn)一次,但一旦出現(xiàn)研究人員top3 作品出現(xiàn)的時(shí)間便有規(guī)律可循。文獻(xiàn)[25]通過量化“伴侶效應(yīng)”發(fā)現(xiàn)其在醫(yī)學(xué)和生物科學(xué)領(lǐng)域更為顯著,對高影響力的期刊有更重要的影響,說明經(jīng)驗(yàn)對在特定的科學(xué)期刊上發(fā)表論文有著非常大的作用,能幫助形成高影響的科學(xué)工作。文獻(xiàn)[26]重構(gòu)50 萬名藝術(shù)家的展覽歷史和聯(lián)系網(wǎng)絡(luò),發(fā)現(xiàn)藝術(shù)家處于網(wǎng)絡(luò)中的中心位置,更容易進(jìn)入夢寐以求的機(jī)構(gòu),說明聲譽(yù)和影響網(wǎng)絡(luò)在決定獲得資源和獎勵方面發(fā)揮著關(guān)鍵作用。文獻(xiàn)[27]發(fā)現(xiàn)在多項(xiàng)運(yùn)動項(xiàng)目中,成員之間共同的成功經(jīng)歷大大提高了團(tuán)隊(duì)獲勝的幾率,而不僅僅是個(gè)人才能。文獻(xiàn)[28]闡述了失敗的動力學(xué)機(jī)制,或許勝敗早有伏筆,從動力學(xué)的早期信號就足以將成功者和無法獲得成功者分離開。文獻(xiàn)[29]發(fā)現(xiàn)諾貝爾獎由于僅授予生理學(xué)或醫(yī)學(xué)、物理、化學(xué)等領(lǐng)域,擴(kuò)大了科研結(jié)構(gòu)化偏差,如今科研跨學(xué)科融合趨勢增強(qiáng),呼吁設(shè)置新的獎勵制度。文獻(xiàn)[30]通過雙曲空間嵌入、KL 散度等方法挖掘技能缺口和影響流,發(fā)現(xiàn)教育技能在工作技能和研究技能之間扮演著關(guān)鍵的過渡角色,并且硬技能的需求增加會促使軟技能的需求增加。
本文采集1999?2018 年SNSF 的P3 數(shù)據(jù)庫的科研基金項(xiàng)目完整信息,分析了信息技術(shù)學(xué)科基金中的關(guān)鍵詞演化情況;以層級結(jié)構(gòu)分布圖可視化交叉關(guān)鍵詞分析了信息技術(shù)和數(shù)學(xué)的分布情況,并通過計(jì)算不同時(shí)間段關(guān)鍵詞分布的Kullback-Leibler散度挖掘了信息技術(shù)與數(shù)學(xué)的學(xué)科交叉情況。
瑞士國家科學(xué)基金項(xiàng)目數(shù)據(jù)來源于SNSF 的P3 數(shù)據(jù)庫[31]。數(shù)據(jù)庫中提供了所有支持的項(xiàng)目、人員和出版物數(shù)據(jù)并每天更新。該數(shù)據(jù)庫包含1975?2018 年70 150 條立項(xiàng)信息。基金項(xiàng)目的數(shù)據(jù)中包含項(xiàng)目編號、項(xiàng)目名稱、項(xiàng)目負(fù)責(zé)人、項(xiàng)目所屬機(jī)構(gòu)、主學(xué)科名稱、涉及的所有學(xué)科、主學(xué)科的上級結(jié)構(gòu)、開始日期、截至日期、資助金額、關(guān)鍵詞、摘要等字段。本文抽取了近20 年即1999?2018 年期間的數(shù)據(jù),其中信息技術(shù)共包含1 493 條立項(xiàng)信息??茖W(xué)基金項(xiàng)目中的關(guān)鍵詞是對研究內(nèi)容進(jìn)行高度概括的詞語,易構(gòu)成知識圖譜,分析結(jié)果可讀性強(qiáng)[32]。關(guān)鍵詞的來源主要為數(shù)據(jù)中已列出的關(guān)鍵詞,而部分關(guān)鍵詞空缺項(xiàng)目需從標(biāo)題或摘要中抽取關(guān)鍵詞。根據(jù)該數(shù)據(jù)的特點(diǎn),應(yīng)用關(guān)鍵詞庫匹配方法比無監(jiān)督的關(guān)鍵詞提取能保證更高的結(jié)果準(zhǔn)確率。
關(guān)鍵詞提取的工作流程為:根據(jù)已提供的關(guān)鍵詞創(chuàng)建關(guān)鍵詞表,對英文的摘要利用Standford Corenlp 進(jìn)行分詞和停用詞表去停用詞,以雙向最大匹配算法匹配關(guān)鍵詞表從而抽取關(guān)鍵詞詞串。由于不同的研究人員有不同的取詞習(xí)慣,需要制定調(diào)整和篩選規(guī)則對關(guān)鍵詞進(jìn)行對齊。針對關(guān)鍵詞的對齊,本文研究采取集體實(shí)體對齊的方法,根據(jù)兩個(gè)實(shí)體詞的本身結(jié)構(gòu)和共現(xiàn)鄰居結(jié)構(gòu)相似性度量,以更加精確的范圍篩選出相似關(guān)鍵詞集。但目前所有通過計(jì)算的方法都存在或大或小的誤差,對于數(shù)據(jù)分析的工作,結(jié)果應(yīng)盡量保證準(zhǔn)確無誤,本文研究通過設(shè)定不同閾值對本數(shù)據(jù)的對齊結(jié)果檢驗(yàn),發(fā)現(xiàn)集體實(shí)體對齊方法的關(guān)鍵詞對齊結(jié)果準(zhǔn)確率較高,此外加以人工輔助使關(guān)鍵詞準(zhǔn)確對齊。主要工作流程為:以經(jīng)過分詞、去停用詞處理的摘要作為word2vec[33]的訓(xùn)練數(shù)據(jù),生成詞向量,計(jì)算每個(gè)關(guān)鍵詞詞組中每個(gè)詞的詞向量加權(quán)平均和作為關(guān)鍵詞向量,利用余弦相似性[34]計(jì)算得到任意兩個(gè)詞的相似性,并設(shè)定閾值(相似性大于0.7)初步劃分相似關(guān)鍵詞集。此時(shí)的相似關(guān)鍵詞集還存在很大的誤差,需要劃分更精確的范圍。以關(guān)鍵詞在文章中的共現(xiàn)頻率作為單元關(guān)系構(gòu)建關(guān)鍵詞共詞網(wǎng)絡(luò),共同出現(xiàn)在同一項(xiàng)目中的關(guān)鍵詞則存在相鄰關(guān)系,計(jì)算相似關(guān)鍵詞集中任意兩個(gè)關(guān)鍵詞實(shí)體的共現(xiàn)鄰居結(jié)構(gòu)的相似性,得到相似度排名,再通過關(guān)鍵詞對齊計(jì)算的主要思想——關(guān)鍵詞的內(nèi)部單詞結(jié)構(gòu)和在共現(xiàn)網(wǎng)絡(luò)中共現(xiàn)鄰居結(jié)構(gòu)相似度高的兩個(gè)關(guān)鍵詞為對齊關(guān)系,使關(guān)鍵詞準(zhǔn)確對齊,最終獲得5 053 個(gè)有效關(guān)鍵詞。
本文統(tǒng)計(jì)了涉及的所有關(guān)鍵詞詞頻,如圖1a的詞云圖所示機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、信息檢索、分布式系統(tǒng)、軟件工程是信息技術(shù)學(xué)科詞頻最高的關(guān)鍵詞,也是近20 年的研究重點(diǎn)。為客觀地揭示該學(xué)科研究熱點(diǎn)的變化趨勢,本文采用詞頻g指數(shù)[20-21]結(jié)合實(shí)際詞頻分布情況篩選高頻關(guān)鍵詞,通過計(jì)算相對詞頻和修均數(shù)據(jù)樣本以消除不同年份科研產(chǎn)量和隨機(jī)干擾成分的影響。具體步驟如下:
1) 統(tǒng)計(jì)所選取的關(guān)鍵詞i 在第j 年的詞頻C0(i,j),(i=1,2,···,28; j=1,2,···,20)。
2) 通過關(guān)鍵詞的連續(xù)3 年相對詞頻(即各關(guān)鍵詞與當(dāng)年關(guān)鍵詞總數(shù)的比值)修均數(shù)據(jù)樣本,消除樣本中干擾成分的影響,進(jìn)而突出數(shù)據(jù)的固有規(guī)律。
3) 計(jì)算每個(gè)關(guān)鍵詞的詞頻變化率Zi。
式中,Zi大于0 表示該關(guān)鍵詞i 受到的關(guān)注整體呈上升趨勢,且Z 值越大說明該研究內(nèi)容上升趨勢越明顯,為目前的研究熱點(diǎn)。
根據(jù)詞頻分布情況,共有28 個(gè)關(guān)鍵詞被選為近20 年信息技術(shù)學(xué)科的高頻關(guān)鍵詞,其累計(jì)詞頻達(dá)到727 次。如圖1b 所示是其中Z 值排名前10 位的研究熱點(diǎn)。這些熱點(diǎn)是:深度學(xué)習(xí)(deep learning)、編程語言(programming languages)、大數(shù)據(jù)(big data)、算法(algorithms)、機(jī)器學(xué)習(xí)(machine learning)等。其中,深度學(xué)習(xí)是近些年上升趨勢最明顯的研究內(nèi)容。
圖1 關(guān)鍵詞情況分析
為進(jìn)一步清晰揭示信息技術(shù)學(xué)科研究的內(nèi)部結(jié)構(gòu)特征和演化,本文將1999?2018 年共20 年的數(shù)據(jù)以每5 年為一個(gè)時(shí)間切片進(jìn)行劃分。為了避免頻次較低的關(guān)鍵詞對知識圖譜可讀性的影響,本文去掉了每個(gè)時(shí)間切片中詞頻小于等于3 的關(guān)鍵詞。另外在不同時(shí)間切片中,由于關(guān)鍵詞頻次存在懸殊,本文利用Ochiia 系數(shù)[16]衡量兩個(gè)關(guān)鍵詞之間的聯(lián)系密切程度。Ochiia 系數(shù)的取值范圍(0,1)。其具體計(jì)算為:
式中,NA與NB分別為關(guān)鍵詞A 與B 出現(xiàn)的頻數(shù),NA∩B為關(guān)鍵A 與B 共同出現(xiàn)的頻數(shù)。在計(jì)算得到Ochiia 系數(shù)的關(guān)鍵詞相關(guān)矩陣后,導(dǎo)入關(guān)鍵詞相關(guān)矩陣和所有關(guān)鍵詞頻次數(shù)據(jù)到Gephi 軟件[35],可視化每個(gè)時(shí)間切片內(nèi)的內(nèi)部結(jié)構(gòu)。以關(guān)鍵詞出現(xiàn)頻次為節(jié)點(diǎn)的大小,連邊的粗細(xì)表示研究內(nèi)容之間關(guān)聯(lián)強(qiáng)度。最后可視化的結(jié)果如圖2 所示,節(jié)點(diǎn)的大小為關(guān)鍵詞出現(xiàn)頻次,連邊的粗細(xì)表示研究內(nèi)容之間關(guān)聯(lián)強(qiáng)度,節(jié)點(diǎn)越大表示關(guān)鍵詞在該時(shí)間段出現(xiàn)頻次越多,連邊越粗表示兩個(gè)關(guān)鍵詞的Ochiia系數(shù)越大。
圖2 關(guān)鍵詞的知識圖譜演化分析
從每個(gè)時(shí)間段知識圖譜的詞頻即節(jié)點(diǎn)大小變化來看,如圖2a,1999?2003 年以分布式系統(tǒng)(distributed system)、隱馬爾可夫模型(hidden markov models)為最主要的兩個(gè)研究方向,其次著重于計(jì)算機(jī)視覺(computer vision)、互聯(lián)網(wǎng)(internet)、信息檢索(information retrieval)和并行計(jì)算(parallel computing)的研究和應(yīng)用,而在2004?2008 年時(shí)間片如圖2b 所示,機(jī)器學(xué)習(xí)(machine learning)與計(jì)算機(jī)視覺成為該時(shí)間段的研究熱點(diǎn)。接著在2009?2013 年期間如圖2c 所示,機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的依然是研究熱點(diǎn),相比較而言在上一個(gè)時(shí)間片的其他熱門研究均呈現(xiàn)不同的下降幅度。如分布式系統(tǒng)的下降幅度最大,軟件工程(software engineering)出現(xiàn)細(xì)微的研究占比下降,同時(shí),上個(gè)時(shí)間片中研究熱度較低的計(jì)算圖形學(xué)(computer graphics)、人機(jī)交互(human computer interaction)、云計(jì)算(cloud computing)逐步上升,出現(xiàn)在大眾的視野中。而從圖2d 的最近5 年的知識圖譜來看,機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺較上個(gè)時(shí)間切片的占比仍為增長的趨勢,其次的研究熱點(diǎn)深度學(xué)習(xí)(deep learning)、大數(shù)據(jù)(big data)和物聯(lián)網(wǎng)(internet of things)即是近5 年新興的研究熱點(diǎn)。
從研究內(nèi)容的關(guān)聯(lián)強(qiáng)度即連邊的粗細(xì)的變化來看,如圖2a,在2009?2013 年的時(shí)間切片知識圖譜中,隱馬爾可夫模型應(yīng)用于計(jì)算機(jī)視覺和語音識別(speech recognition)的研究中。在計(jì)算機(jī)視覺的相關(guān)研究中,值得一提的是圖像處理(image process)在信息技術(shù)學(xué)科的研究中保持著穩(wěn)定發(fā)展,直至2018 年仍占有不少的比重,該研究內(nèi)容在初期與計(jì)算機(jī)視覺聯(lián)系緊密,而伴隨著機(jī)器學(xué)習(xí)的發(fā)展,圖像處理轉(zhuǎn)向與機(jī)器學(xué)習(xí)結(jié)合的研究。而下一個(gè)時(shí)間切片的圖2b 知識圖譜中,以計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和分布式系統(tǒng)為度最大的節(jié)點(diǎn)。就計(jì)算機(jī)視覺而言,除了機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺的交叉研究非常緊密,與該內(nèi)容存在交叉研究的內(nèi)容諸多相同,主要概括為包含文本處理的信息檢索、圖模型、目標(biāo)檢測與模式識別。在此階段,對于分布式系統(tǒng)的研究雖然減少,但相關(guān)的研究更加豐富,最主要展開了協(xié)調(diào)力和中間件(middleware)的研究,還開始涉及了算法(algorithm)、圖論(graph theory)和博弈論(game theory)等復(fù)雜性科學(xué)的研究。在圖2c 的2009?2013 年時(shí)間段,與分布式系統(tǒng)相關(guān)的研究內(nèi)容之間連線比前些年更粗,說明在此時(shí)這些研究聯(lián)系更加緊密。其中可靠性(reliability)、可擴(kuò)展(scalability)和并行(parallel)成為該時(shí)間對軟件工程方向最為側(cè)重的研究點(diǎn)。并在該階段,與機(jī)器學(xué)習(xí)相關(guān)的研究更為豐富,主要包括對近似算法(approximation algorithms)、數(shù)據(jù)挖掘(data mining)、隱私與安全(privacy and security)、計(jì)算與系統(tǒng)生物學(xué)(system and computational biology)、計(jì)算神經(jīng)科學(xué)(computational neuroscience)、自然語言處理(natural language processing)、計(jì)算機(jī)視覺、圖像處理等研究。從圖2d 的這個(gè)時(shí)間切片內(nèi)容來看,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)處于人工智能領(lǐng)域非常核心的位置,形成類星狀結(jié)構(gòu),而計(jì)算機(jī)視覺邊緣化現(xiàn)象已非常明顯。不僅已有研究內(nèi)容得到發(fā)展,還新增了大數(shù)據(jù)(big data)、數(shù)字人文(digital humanities)、物聯(lián)網(wǎng)、智能電網(wǎng)(smart grids)、生物信息學(xué)(bioinformatics)、機(jī)器人技術(shù)(robotics)、虛擬現(xiàn)實(shí)(virtual reality)、眾包(crowdsourcing)、醫(yī)療影像(medical imaging)、高性能計(jì)算(high-performance computing)等新興研究方向。
在瑞士國家科學(xué)基金項(xiàng)目數(shù)據(jù)集中共有290 個(gè)在不同學(xué)科共同出現(xiàn)的關(guān)鍵詞,為直觀地看出這些共同關(guān)鍵詞的不同分布,圖3 繪制了所有詞頻高于5 并且度大于1 的關(guān)鍵詞層級分布圖,節(jié)點(diǎn)的大小表示關(guān)鍵詞的詞頻高低,其節(jié)點(diǎn)越大,詞頻越高。其中,深色節(jié)點(diǎn)為信息技術(shù)與數(shù)學(xué)交叉研究中的共同關(guān)鍵詞,該關(guān)鍵詞在兩學(xué)科的研究中都處于重要的地位,淺色節(jié)點(diǎn)則是僅出現(xiàn)在某一學(xué)科的關(guān)鍵詞,在該學(xué)科為重點(diǎn)研究內(nèi)容,但在另一學(xué)科中研究占比較少。節(jié)點(diǎn)到圓心的距離代表其在層級上接近頂點(diǎn)的程度,處于圓心的節(jié)點(diǎn)是處于該學(xué)科核心地位的研究內(nèi)容。結(jié)果如圖3a 所示,信息技術(shù)學(xué)科的層級分布圖共顯示了64 個(gè)關(guān)鍵詞,如圖3b所示,數(shù)學(xué)學(xué)科的層級分布圖共顯示40 個(gè)關(guān)鍵詞,共同關(guān)鍵詞包含16 個(gè)。在兩學(xué)科層級分布圖中,機(jī)器學(xué)習(xí)和算法(algorithm)分別為最靠近圓心的核心研究內(nèi)容。在共同關(guān)鍵詞中,密碼學(xué)(cryptography)和算法為在兩學(xué)科中研究頻率都相對最高的關(guān)鍵詞,其中,密碼學(xué)在信息技術(shù)學(xué)科中詞頻為32,在數(shù)學(xué)學(xué)科中詞頻為13,比算法的詞頻更高。除機(jī)器學(xué)習(xí)之外的其余共同關(guān)鍵詞研究頻率都比密碼學(xué)和算法略低,但在兩學(xué)科中研究詞頻分布非常均勻。而機(jī)器學(xué)習(xí)在信息技術(shù)學(xué)科中詞頻為86,在數(shù)學(xué)學(xué)科中詞頻為6,研究占比的差距在所有關(guān)鍵詞中最大,但數(shù)學(xué)在機(jī)器學(xué)習(xí)中是很重要的,無論在算法的研究,還是在工程上的系統(tǒng)構(gòu)建。從分布的位置上看,這些表示交叉情況更明顯的共同關(guān)鍵詞比其他關(guān)鍵詞更靠近圓心,說明交叉研究越頻繁,且更容易帶動研究內(nèi)容的發(fā)展。
圖3 關(guān)鍵詞層級分布圖
信息技術(shù)與多個(gè)學(xué)科存在交叉關(guān)系,圖4a 為與信息技術(shù)交叉研究最頻繁的10 個(gè)學(xué)科,以連邊的粗細(xì)體現(xiàn)兩個(gè)學(xué)科交叉研究的頻繁程度,連邊越粗表示兩學(xué)科的聯(lián)系越緊密。其中,數(shù)學(xué)(mathematics)是與信息技術(shù)最為密切的學(xué)科,其次是電氣工程(electrical engineering)和其他工程學(xué)(other disciplines of engineering sciences)心理學(xué)(psychology)和管理科學(xué)(science of management)等學(xué)科。為進(jìn)一步研究這兩個(gè)交叉密切的學(xué)科在不同時(shí)間的交叉情況,本文整合了信息技術(shù)(IT)和數(shù)學(xué)(math)4 個(gè)時(shí)間段(1999?2003 年,2004?2008年,2009?2013 年,2014?2018 年)的所有關(guān)鍵詞,并通過關(guān)鍵詞總數(shù)歸一化,將每個(gè)關(guān)鍵詞出現(xiàn)的頻率轉(zhuǎn)化為概率,然后評估關(guān)鍵詞分布之間的Kullback-Leibler(KL)散度[30],來探測研究內(nèi)容的相似性,從而動態(tài)評估兩學(xué)科內(nèi)部結(jié)構(gòu)差異和交叉情況來探測變化情況。KL 散度也稱相對熵,是用于量化分布間的差異,計(jì)算一個(gè)已有的關(guān)鍵詞概率分布p(x)遇到一個(gè)新的關(guān)鍵詞概率分布q(x)所經(jīng)歷的信息增益,具體計(jì)算為:
圖4 信息技術(shù)與數(shù)學(xué)內(nèi)部結(jié)構(gòu)差異與交叉情況
如圖4b 所示,KL 值為0 時(shí),兩個(gè)概率分布完全相同,顏色為白色;KL 值越大,兩者的差異越大,顏色越深。該矩陣顯示每個(gè)學(xué)科自身年份跨度越大,相似性越低,IT(1999?2003 年)與IT(2014?2018 年)的KL 值相較于其他時(shí)間段的KL 值最大。就學(xué)科自身的演化情況來看,1999?2003 年到2004?2008 年的KL 值比2004?2008 年(2009?2013年)到2009?2013 年(2014?2018 年)更大,演化速度更快,其中數(shù)學(xué)以略微的優(yōu)勢比信息技術(shù)演化更快。從兩學(xué)科的交叉情況來看,在學(xué)科交叉現(xiàn)象(圖3a)不明顯的1999?2003 年,IT 和Math 的研究內(nèi)容不相似度也極高,而伴隨著交叉現(xiàn)象激增,除1999?2003 年的其他時(shí)間段,概率分布的KL 值普遍降低,并且與1999?2003 年和其他4 個(gè)時(shí)間段的KL 值差距明顯。說明針對數(shù)學(xué)和信息技術(shù)的學(xué)科交叉研究也曾加入了交叉研究的大潮流,但近些年信息技術(shù)和數(shù)學(xué)的交叉趨勢趨于平穩(wěn),兩學(xué)科的交叉研究已發(fā)展至較穩(wěn)定、成熟的狀態(tài)。
本文通過分析1999?2018 年瑞士國家科學(xué)基金的立項(xiàng)信息,挖掘瑞士的信息技術(shù)學(xué)科的發(fā)展情況。首先分析了信息技術(shù)學(xué)科的關(guān)鍵詞研究頻率和演化情況,發(fā)現(xiàn)信息技術(shù)從原始圍繞分布式系統(tǒng)等軟件開發(fā)演化成以機(jī)器學(xué)習(xí)、深度學(xué)習(xí)為中心的人工智能研究;然后挖掘信息技術(shù)與交叉現(xiàn)象最明顯的數(shù)學(xué)的交叉情況,發(fā)現(xiàn)密碼學(xué)和算法是信息技術(shù)與數(shù)學(xué)交叉最明顯的研究內(nèi)容,并且這兩個(gè)學(xué)科的交叉研究也曾加入了2002?2010 年的交叉研究大潮流,但近些年兩學(xué)科的交叉研究已發(fā)展至較穩(wěn)定、成熟的狀態(tài)。本文研究以期為信息技術(shù)學(xué)科及相關(guān)交叉學(xué)科的發(fā)展提供一定的參考,但目前對于學(xué)科交叉的演化研究不夠深入。在接下來的研究工作中,將進(jìn)一步通過交叉詞刻畫學(xué)科交叉中研究內(nèi)容相互影響的因果關(guān)系和學(xué)科交叉對研究內(nèi)容發(fā)展的影響,并期望能找到交叉學(xué)科的發(fā)展規(guī)律。
本文研究工作得到杭州師范大學(xué)科研啟動經(jīng)費(fèi)項(xiàng)目和“錢江人才計(jì)劃”D 類項(xiàng)目(QJD1803005)的資助,在此表示感謝。