余 輝,梁鎮(zhèn)濤,張羽帆 (武漢大學(xué)信息資源研究中心,湖北 武漢 430072)
隨著國內(nèi)外對科學(xué)知識的重視以及網(wǎng)絡(luò)設(shè)施的進一步發(fā)展,科學(xué)文獻總量愈發(fā)龐大并以指數(shù)級的速度增長,各領(lǐng)域的研究熱點和前沿也隨時代更迭發(fā)生變化。因此,從大量非結(jié)構(gòu)化的學(xué)術(shù)文本中識別和預(yù)測學(xué)科研究熱點的生命周期,特別是熱點主題的浮現(xiàn)點,有助于學(xué)者把握當(dāng)前領(lǐng)域研究方向、規(guī)劃未來職業(yè)生涯,同時也有利于科研管理機構(gòu)更精準(zhǔn)、更合理地進行科研資金分配,從而更有效地提高國家的軟實力。學(xué)科研究熱點的走勢和演化,是一個對研究主題生命周期中熱度進行測度并量化的研究,直接對主題進行研究熱點統(tǒng)計分析,忽略了研究熱點本身的動態(tài)發(fā)展過程。而研究熱點的生命周期曲線,有助于找到研究熱點的浮現(xiàn)點、最高點和衰落點等重要轉(zhuǎn)折點。學(xué)術(shù)論文是重要的正式學(xué)術(shù)研究成果展現(xiàn)形式,對學(xué)術(shù)論文研究方向的把握是呈現(xiàn)研究熱點和分析研究趨勢的重要方法。對文獻或研究主題進行分類也有助于科學(xué)文獻的檢索,并且能更好地呈現(xiàn)學(xué)科和研究主題的走勢及演化[1]。
目前學(xué)科熱點識別有基于全文文本、主題、引文和關(guān)鍵詞等粒度的方法,考慮到文獻往往包含多個主題,采用更細(xì)粒度的分析方法能夠更好地表達文獻中主題的語義關(guān)系。其中,關(guān)鍵詞是文獻核心內(nèi)容的高度凝練,能直觀反映文獻主題內(nèi)容,目前已被廣泛應(yīng)用于學(xué)術(shù)文本的主題發(fā)現(xiàn)研究中[2]。為了識別國內(nèi)管理科學(xué)領(lǐng)域中的熱點主題并預(yù)測其發(fā)展趨勢,本研究以國內(nèi)管理科學(xué)重要學(xué)術(shù)期刊為數(shù)據(jù)來源,對作者關(guān)鍵詞聚類形成研究主題,并根據(jù)聚類形成主題的熱度,分別計算并比較以熱度排序、達到一半頻次年份以及達到主題浮現(xiàn)點年份3種排序下的主題研究熱度增長判斷,驗證一半頻次和睡美人主題浮現(xiàn)點 (d值)在研究趨勢預(yù)測上的合理性,結(jié)合睡美人特征 (一半頻次)和主題熱度對主題進行分類,最后通過熱點浮現(xiàn)點的識別,找出當(dāng)前學(xué)科研究熱點,以及熱點發(fā)展趨勢分析。
早期研究通過分析單篇文獻本身的影響力大小來對學(xué)科熱點進行識別,如蘇新寧基于CSSCI文獻數(shù)據(jù),通過文獻的參考文獻數(shù)量和被引頻次等傳統(tǒng)引文指標(biāo),對研究領(lǐng)域的影響力進行討論[3]。此外,引用分析還包括共引分析 (同時被其他文獻引用)[4]、耦合分析 (共同引用一篇或多篇相同文獻)[5]和直接引用分析[6]等,通過多元統(tǒng)計分析方法把文獻或期刊、作者、機構(gòu)等研究對象的引用關(guān)系網(wǎng)處理后用便于分析的方式進行呈現(xiàn)[7],這是輔助科學(xué)發(fā)展過程和構(gòu)建知識圖譜的重要方法[8]。這3種方法都通過引用關(guān)系來對文獻進行聚類,并以聚類中最關(guān)鍵的文獻主題來確定這一類的研究主題[9]。黃文彬等借鑒傳統(tǒng)引文分析方法,把關(guān)鍵詞作為對象進行共引分析,并用網(wǎng)絡(luò)分析和多維尺度分析方法進行檢驗,結(jié)果表明關(guān)鍵詞共引分析聚類效果較好[10]。
共詞分析是較為經(jīng)典的內(nèi)容分析方法之一,根據(jù)不同關(guān)鍵詞同時出現(xiàn)在一篇文章中的情況建立其聯(lián)系,目前被廣泛用于領(lǐng)域主題之間以及主題內(nèi)的研究發(fā)展與演化分析中[11]。唐果媛等在研究國內(nèi)外共詞分析時指出,在共詞分析中關(guān)鍵詞是主要的研究對象[11]。李海林等通過把共詞矩陣轉(zhuǎn)換為相似矩陣,結(jié)合時間序列分析方法對主題發(fā)現(xiàn)和演化規(guī)律進行探究[12]。高繼平等人用詞共現(xiàn)方法實現(xiàn)關(guān)鍵詞的抽取并發(fā)掘熱點主題[13]。吳健等參考Donohue[14]和孫清蘭[15]對高低頻關(guān)鍵詞臨界值的計算,對高頻關(guān)鍵詞進行共現(xiàn)聚類分析,得出深閱讀領(lǐng)域的研究熱點[16]。隨著自然語言處理相關(guān)技術(shù)的發(fā)展,共詞分析在社交網(wǎng)絡(luò)和商業(yè)上也得到較為廣泛的研究與應(yīng)用[17]。
以引文為基礎(chǔ)研究科學(xué)文獻之間的關(guān)系網(wǎng)絡(luò)、進展和演變可以有一個較好的時序繼承依據(jù),而在熱點主題的發(fā)現(xiàn)上,用共現(xiàn)或引用的方法聚類時,沒有考慮語義信息,在總結(jié)一類研究熱點時,并不能很好地代表一類主題特征[18]。莊建昌等基于語義聚類方法,運用詞向量構(gòu)建出領(lǐng)域熱點關(guān)鍵詞模型[18]。張長宏等結(jié)合內(nèi)容分析方法和引用分析方法,形成一個新的語義空間,得到了更準(zhǔn)確的關(guān)鍵詞聚類主題[9]。章成志等用TF-IDF算法進行主題詞提取并用K-Means聚類對學(xué)科熱點和趨勢進行研究,減少了監(jiān)測成本并提高了監(jiān)測的時效性[19]?;谡Z義的聚類根據(jù)語義相似度來控制類別大小及主題相關(guān)性,提高了聚類結(jié)果的可解釋性。
早期研究熱點主題方法大多都存在時滯問題,并且無法預(yù)測研究趨勢。針對這一問題,學(xué)者嘗試使用多種方法和判別指標(biāo)對研究文獻或研究主題進行分類,以預(yù)見可能出現(xiàn)的新興熱點主題。杜建等在研究睡美人和王子文獻時基于被引速率把文獻分為3類,即快速突破型、延遲承認(rèn)型和被引速率低且總次數(shù)也低的文獻[20];張靖雯等在此基礎(chǔ)上以被引速率 (CS)為單指標(biāo),從小到大把文獻分為延遲承認(rèn)型、厚積薄發(fā)型、領(lǐng)先優(yōu)勢型和曇花一現(xiàn)型[21],如圖1所示。
圖1 單指標(biāo)文獻類型劃分
根據(jù) “鬼域”在主題發(fā)展研究中的應(yīng)用[22],HU等依據(jù)近年來關(guān)鍵詞出現(xiàn)頻次和總出現(xiàn)頻次雙指標(biāo)組合將熱點劃分為4類,即新熱點、持續(xù)熱點、非熱點和鬼域[23],如圖2所示。
圖2 雙指標(biāo)關(guān)鍵詞熱度劃分
引文分析是論文質(zhì)量和學(xué)術(shù)影響力評估的一個重要方法[24],但學(xué)者在研究中發(fā)現(xiàn)被引數(shù)量和論文的質(zhì)量、影響力并不是簡單的正相關(guān)關(guān)系,高被引并非是論文高質(zhì)量的保證,反之亦然[25]。這一問題與論文被引的動態(tài)過程相關(guān),而被引的頻次動態(tài)可以映射出文獻在一系列引文中所對應(yīng)的角色。
睡美人指的是科學(xué)中那些開始被忽視后來被大量引用的文獻,Raan給出了最早的主觀定義,即年均引用量小于等于2的時間大于5年,在被大量引用后,4年累計被引用超過20次[26]。該方法隨后被學(xué)界廣泛使用并加以改進,如Ke等基于被引時間和次數(shù)提出的客觀指標(biāo)方法,該方法不需要設(shè)置時間和引用次數(shù)等主觀閾值[27]。此外,有學(xué)者提出曲線擬合法,基于年度引文次數(shù)構(gòu)造時間序列數(shù)據(jù),識別文獻的引用軌跡[28]。上述研究的核心思路是識別早期被引次數(shù)較少、但在某個時間節(jié)點后突然大量增加的文獻。這類文獻的價值在早期沒有得到重視,但往往在一段時間后被發(fā)現(xiàn)具有重要科學(xué)意義[29]。
在睡美人文獻的被引變化過程中最重要的是被引量激增的時間點,即被引次數(shù)突變點。在該時間節(jié)點之后,文獻的價值和熱度開始快速增加,并很快成為高引論文。本研究借鑒睡美人文獻及其被引次數(shù)突變點的識別方法,嘗試識別研究主題成為研究熱點的浮現(xiàn)點,即表明研究熱點會有一個增長的趨勢。睡美人現(xiàn)象中,強調(diào)了兩個特征:①對 “沉睡”時間長度的要求,文獻需要保持較長時間的低關(guān)注度狀態(tài);②對 “蘇醒”的要求,需要有較大的蘇醒強度,即在短時間內(nèi)熱度呈現(xiàn)陡峭上升趨勢。在滿足以上要求后,即認(rèn)為該文獻屬于睡美人文獻,且在將來會有一個熱度增長。從睡美人引言曲線可知,滿足睡美人特征的文獻在蘇醒點后的一段時間內(nèi)會有一個熱度快速上升的過程。本文認(rèn)為,當(dāng)主題滿足睡美人的特征時,也會呈現(xiàn)這樣一種熱度上升的趨勢。
三指標(biāo)識別法分別從沉睡時長、沉睡次數(shù)和蘇醒強度3個方面對睡美人特征做出要求[26],這在學(xué)界得到廣泛認(rèn)可。其中,主題熱度在過去幾年可能有過上升和下降,稱為全要素睡美人[30],這一點不影響本文的主題識別研究,即重點從沉睡時長和蘇醒強度來對具有睡美人特征的主題進行識別和預(yù)測。
本研究中,總關(guān)鍵詞頻次可以作為蘇醒強度指標(biāo),達到總頻次一半所需的時長可以作沉睡時長指標(biāo),結(jié)合這二者對聚類主題進行劃分,識別主題熱度較大并且達到總頻次一半耗時較長的主題為具有睡美人特征的主題,并認(rèn)為此類主題未來有一個上升趨勢。從這一思路出發(fā),本研究首先對收集的文獻進行聚類以表示研究主題,在驗證達到一半總頻次時間在趨勢預(yù)測中的作用后,通過對這些主題聚類的睡美人特征的強度計算劃分主題為4個類別,再對4個主題類別的發(fā)展趨勢進行分析,找出未來熱度會上升的主題類。
本文研究思路可以分為數(shù)據(jù)準(zhǔn)備、研究過程和研究結(jié)果3個部分。在數(shù)據(jù)準(zhǔn)備部分,主要介紹文獻數(shù)據(jù)的來源以及關(guān)鍵詞的選取方法和理由,并對關(guān)鍵詞進行聚類,聚類結(jié)果是本文研究的熱點對象;在研究過程部分,首先分析聚類識別熱點主題與關(guān)鍵詞分析主題兩種方法的特點,并說明本文選取聚類方法的原因;然后對數(shù)據(jù)集進行拆分,判斷主題類別是否增長,根據(jù)熱點熱度、一半頻次年份以及最大d值年份降序排序畫出累計增長數(shù)折線圖進行對比分析,驗證一半頻次年份和最大d值在主題增長趨勢預(yù)測上的準(zhǔn)確性;在研究結(jié)果部分,結(jié)合睡美人指數(shù)對統(tǒng)計信息進行分析,找到聚類熱點主題整體特征、熱度以及睡美人特征強度 (即一半頻次年份)等,并通過熱點主題的總頻次和睡美人沉睡時長來進行熱點主題的分類。熱點發(fā)現(xiàn)研究流程如圖3所示。
圖3 熱點發(fā)現(xiàn)研究流程
本研究對國家自然基金委指定的30個管理科學(xué)重要學(xué)術(shù)期刊做熱點發(fā)現(xiàn)分析,對以下30個期刊進行檢索,以期刊近20年收錄的文獻為研究原始數(shù)據(jù)來源,檢索時間為2019年7月15日,具體期刊列表及類別見表1。
表1 NSFC管理科學(xué)重要學(xué)術(shù)期刊表
為了使研究更具現(xiàn)實意義,核心期刊應(yīng)該是文獻的主要對象,而中國知網(wǎng)的核心期刊收錄率為99%[31],并且在劉振華的實證研究中,數(shù)字資源使用排名第1位的也是中國知網(wǎng)[32]。據(jù)此對所選文獻進行篩選,去掉少量英文文獻及一些不適合處理的文獻,最終選取文獻61509篇。相較于從篇名和摘要中抽取的關(guān)鍵詞,作者關(guān)鍵詞能夠反映研究者對文章研究主題的歸納,在表達核心主題上的效果更好。因此,本研究選取作者關(guān)鍵詞為研究對象,處理后以95165個不同的關(guān)鍵詞為聚類分析的初始數(shù)據(jù)。
本文通過對關(guān)鍵詞進行語義聚類來提取研究主題,即把所有關(guān)鍵詞聚類并提取主題關(guān)鍵詞或主題詞,認(rèn)為這一類關(guān)鍵詞所涉及的研究屬于同一個主題,同時聚類形成的主題用于下文對比直接用關(guān)鍵詞進行熱點分析。基于語義特征的聚類體現(xiàn)了主題中的語義信息,其結(jié)果具有更好的可讀性,有利于對研究方向的理解。聚類訓(xùn)練集選取騰訊AI Lab公開數(shù)據(jù)集,具有權(quán)威性,應(yīng)用詞向量方法進行詞相似度計算,避免文獻之間的共引或共現(xiàn)等方法無法對聚類結(jié)果進行解釋以及熱點主題提取[33]。對關(guān)鍵詞聚類的效果會直接影響熱點發(fā)現(xiàn)方法的適用性,在聚類方法中DBScan不需要指定類別數(shù),從而類別數(shù)與類成員都具有一定的隨機性;AP計算耗時長,有其他參數(shù)要調(diào)整,不適合擴展到其他領(lǐng)域或更大數(shù)據(jù)量的運算中。所以聚類選擇K-means方法,結(jié)合改進的手肘法,并進行多次聚類對比來選取恰當(dāng)?shù)木垲悢?shù)k,以便睡美人指數(shù)能應(yīng)用于聚類后的結(jié)果進行熱點浮現(xiàn)點的識別,如圖4所示。
圖4 改進手肘法求k值
由圖4可見,由于k值較大,曲線整體上比較平滑,手肘法并不能直接得出一個合適的k值。吳廣建等在研究K-means自動獲取k值方法中把手肘圖的起點和終點相連,計算這條線到SSE曲線的的縱向距離,并以距離最大點的橫坐標(biāo)為k的最終取值,提高了k值的選取效率[34]。
為了更直觀地觀察對比20年間的熱點主題強度,本文繪制關(guān)鍵詞的詞頻云圖,詞的字體大小即詞頻高低,篩選出詞頻最高的100個詞后,生成的詞頻云如圖5所示。
圖5 Top100關(guān)鍵詞云圖
由圖5可見,影響因素、創(chuàng)新、經(jīng)濟增長等相關(guān)領(lǐng)域在20年間熱度較高,這些與聚類主題熱度排名基本吻合,因素分析 (影響因素)和創(chuàng)新能力 (創(chuàng)新)在主題熱度上分別排在第5位和第6位。供應(yīng)鏈在圖5中是熱度最高的,但從對主題的熱度排序來看供應(yīng)鏈排在第16位,即直接用關(guān)鍵詞進行熱度分析的結(jié)果與聚類后主題進行熱點分析有一定差別。直接用關(guān)鍵詞作為主題,會使主題數(shù)量過多且冗余,多個意義相近的關(guān)鍵詞作為獨立的主題存在,并且個別關(guān)鍵詞的使用頻率遠(yuǎn)超其他詞,也使進一步分析更加困難。在當(dāng)前研究中關(guān)鍵詞詞頻超過700的僅3個,超過100的僅161個,不到總關(guān)鍵詞95165的千分之二,這些關(guān)鍵詞并不足以代表整體研究方向。
主題聚類中可能存在長尾效應(yīng),即那些與主題相關(guān)的單個關(guān)鍵詞詞頻較低,但是數(shù)量極大,這影響了直接用關(guān)鍵詞進行熱點分析的結(jié)果準(zhǔn)確性,如主題類 “人才企業(yè)”,關(guān)鍵詞進前40的僅有2個,超過100詞頻的關(guān)鍵詞僅有6個,但有463個關(guān)鍵詞屬于這一類別,主題類別熱度排第1位;關(guān)鍵詞 “供應(yīng)鏈” (單個關(guān)鍵詞詞頻為792個),代表的主題類包含385個關(guān)鍵詞,熱度排名16; “經(jīng)濟增長”關(guān)鍵詞詞頻排名第6 (單詞頻506),但在主題聚類中,包含94個關(guān)鍵詞,總詞頻排名為121,在260個聚類結(jié)果中處于中間位置。
綜上,直接用關(guān)鍵詞作為研究熱點的分析可找出熱點關(guān)鍵詞,在較為成熟和規(guī)范的研究主題上有一定效果,但無法完全代表熱點主題方向。此外,當(dāng)新熱點主題并沒有形成較為統(tǒng)一的用語時,該方法容易忽略掉這一類研究主題方向。
用聚類結(jié)果進行熱點主題識別就是把主題聚類按熱度降序排序,可以說明當(dāng)前時間這類主題是研究的熱點,而隨文獻量增長使期刊文獻的遲滯性現(xiàn)象更加普遍,此方法得出的熱點主題只能代表當(dāng)前時間點的前一段時間,無法預(yù)測未來研究熱度的趨勢。人才企業(yè)、因素分析和創(chuàng)新能力3個主題熱度排名靠前的主題類隨時間的頻次變化,如圖6所示。
圖6 熱點主題頻次變化
由圖6可見,在聚類后主題中排名第1位的主題類 “人才企業(yè)”,在2010年達到最大熱度后,在整體論文基數(shù)不斷增長的環(huán)境中,研究熱度一直在下降;主題類 “因素分析”和 “創(chuàng)新能力”總熱度相近,但 “創(chuàng)新能力”呈現(xiàn)出不斷增長的趨勢,而 “因素分析”處于平穩(wěn)期。總頻次較高的主題可能是較早的研究熱點,隨著研究的成熟或是技術(shù)的更迭,此主題類已經(jīng)不再是研究的熱點;總頻次較低的研究點可能是剛浮現(xiàn)的研究點,正處于快速上升時期,未來可能成為研究熱點,所以不考慮時間因素的聚類總頻次代表的熱度也并不能很好的說明熱點主題的現(xiàn)狀或者是將來的發(fā)展趨勢。通過以上分析,本文考慮了單個關(guān)鍵詞作為研究對象的不足,在主題劃分中加入時間因素,能較好地對主題發(fā)展趨勢進行識別和預(yù)測。
主題浮現(xiàn)點的計算有利于對研究熱度增長趨勢的分析,根據(jù)睡美人指數(shù)的意義,引文蘇醒后,會有一個強勢上升期,即本文得到熱點蘇醒后認(rèn)為本主題會有一個上升期,但目前處于自身生命周期的哪個階段需要進一步判斷。在對睡美人特征主題進行識別后,可以精準(zhǔn)地用睡美人指數(shù)處理方法尋找熱點的浮現(xiàn)點,即睡美人的蘇醒點,有助于更精準(zhǔn)地分析和預(yù)測睡美人特征主題的發(fā)展趨勢。目前公認(rèn)最科學(xué)的方法是美麗系數(shù)識別法[35],它不依賴于主觀判斷,只和實驗時間點有關(guān),即最大值是否因時間發(fā)生變化,如果當(dāng)前時間點為最大值則可能該主題熱度仍在持續(xù)增長,如果熱度基值較大,則可以直接判斷該主題為未來有一個熱度持續(xù)期。如果當(dāng)前時間不是最大值,則需要進行下一步計算熱點浮現(xiàn)點。先把識別出來的睡美人特征主題按年份變化列出頻次變化表,以時間為橫坐標(biāo),頻次為縱坐標(biāo)把該主題的散點圖,連成折線圖,如圖7所示。找出最大值即圖的頂點和起點的坐標(biāo),并將這兩個點用線段連接起來,并計算出各點到此線段的距離,找出最大距離d值,此點即為要尋找的主題浮現(xiàn)點。設(shè)當(dāng)年主題詞定位點坐標(biāo)為P (x0,y0),起點和頂點的連線L如公式 (1),P到L的距離如公式 (2)所示:
圖7 美麗系數(shù)求浮現(xiàn)點示意
L:Ax+By+C=0
(1)
(2)
從數(shù)學(xué)特性可知,當(dāng)橫坐標(biāo)以連續(xù)年份 (2010、2011、2012)為數(shù)軸標(biāo)簽時,d值結(jié)果與橫坐標(biāo)為連續(xù)自然數(shù) (0、1、2)沒有區(qū)別,即可看作是圖形在橫坐標(biāo)方向進行的整體平移,如圖8所示。以一年或者兩年,或者是每個月為橫坐標(biāo)間距,會使得橫坐標(biāo)等比變化,d值大小會發(fā)生變化,但相對大小不會改變,即橫坐標(biāo)的起始值大小以及間距大小不會影響d值的相對大小。這使得該方法在計算距離尋找熱點主題浮現(xiàn)點時不受主觀時間劃分參數(shù)的影響,提高了方法的準(zhǔn)確性。
圖8 橫坐標(biāo)不同大小及間隔比較
由于詞頻形成的熱度缺少時間因素,無法對趨勢進行預(yù)測,本文借鑒睡美人理論思想,分別用各主題類達到總詞頻一半詞頻的年份以及睡美人中美麗系數(shù)產(chǎn)生的距離d值來預(yù)測主題類研究熱度是否會在未來增長。本研究把數(shù)據(jù)集分為前15年和后5年,用前15年的數(shù)據(jù)進行分析預(yù)測,并取每個類別對應(yīng)的后5年的熱度均值作為是否增長的比較標(biāo)準(zhǔn),由于文獻數(shù)據(jù)整體數(shù)量變化,所以最終實際比較的是單個類別占總體類別的比例大小變化。用前15年的數(shù)據(jù)的熱度、一半頻次年份、最大d值年份3種方式的倒序排序,3種排序下增長的主題類別累計計數(shù)如圖9所示。其中,橫軸為主題類數(shù),縱軸為累計增加主題類數(shù),本數(shù)據(jù)中總增長主題類數(shù)為117類。
圖9 累計增長類別數(shù)變化
由圖9可見,在以熱度降序排序中,累計增長總體分布較為均勻,所形成的累計曲線近似直線,即表明之前的累計熱度無法對熱度增長趨勢進行預(yù)測,研究熱度增長與之前研究總熱度無明顯相關(guān)性。一半頻次曲線和d值曲線在前20個類別中,基本是全部增長,預(yù)測較為準(zhǔn)確;在0到60類別之間,以一半頻次為降序排序的預(yù)測準(zhǔn)確,并且在112個類時達到80% (93個主題類)的增長類別覆蓋。從3條曲線對比可知,在預(yù)測主題熱度是否增長上,以一半頻次降序排序效果明顯優(yōu)于直接用熱度和d值。而從原理上分析也不難得出一半頻次是中時間是主要的依據(jù),而d值綜合考慮的時間和增長幅度,在前幾名中預(yù)測效果較好,后期可以用來對增長程度進行比較分析,也驗證了本文以達到一半頻次時間排序劃分主題類的正確性,并計算靠前類別的d值來分析增長程度的研究思路的可行性。
實驗過程的可行性得到驗證后,本文對采集的20年所有數(shù)據(jù)進行研究熱點主題分析,以及一半頻次和d值計算,找出國內(nèi)管理科學(xué)領(lǐng)域研究熱點并對發(fā)展趨勢進行預(yù)測。
對聚類結(jié)果進行基本信息分析包括對結(jié)果進行主題熱度變化圖的繪制分析來幫助呈現(xiàn)文獻主題的總體發(fā)展趨勢以及一般生命周期變化;并把結(jié)果以表格形式展示出來,方便查看聚類結(jié)果的好壞;把聚類結(jié)果以云圖形式呈現(xiàn)出來,能更直觀地呈現(xiàn)熱點主題。本研究聚類先取k值為260,聚類結(jié)果260個類,由人工檢驗聚類效果,并選取類名或者以單個或多個詞作為類名,部分主題以及關(guān)鍵詞輸出結(jié)果見表2。
表2 部分主題及關(guān)鍵詞頻次結(jié)果
由表2可見,各類都有一個較集中的主題,聚類效果較好。各主題類可以根據(jù)總詞頻來判斷本類主題在研究中的熱度,前20主題按熱度 (總頻次)排序結(jié)果見表3。
表3 Top20聚類主題熱度排序
(1)主題整體研究熱度變化。所有聚類結(jié)果的總頻次年份變化和以當(dāng)年總主題頻次標(biāo)準(zhǔn)化后的年份變化如圖10所示。由圖10可見,研究整體趨勢是不斷增長的,與標(biāo)準(zhǔn)化的圖進行對比可知,這與文獻數(shù)量有直接關(guān)系,即每年基礎(chǔ)文獻量的增長并不能說明所有主題的熱度都在增加。從標(biāo)準(zhǔn)化后變化可以看到各種特征的折線都是存在的,大多數(shù)主題在20年間都處于低熱度分區(qū),少量主題出現(xiàn)大起大落,個別主題熱度呈不斷增長趨勢,對各個不同主題進行分析和歸類可以識別出熱點主題和睡美人特征主題。
圖10 聚類主題熱度年份變化
(2)四分位數(shù)法劃分主題。四分位數(shù)分布劃分法在2010年被用于睡美人文獻的識別,通過分析文獻達到一半自身總被引次數(shù)的時長來找出那些 “沉睡”時間較長的文獻[36]。本文借鑒此思想,在已經(jīng)驗證一半頻次在趨勢預(yù)測有效的基礎(chǔ)上,先計算出各聚類主題累積頻次達到總頻次的一半時的年份,并以年份從小到大排序,即所需時長從小到大排序,并以后四分之一的時間點為標(biāo)準(zhǔn)進行比較。晚于這個時間節(jié)點的主題獲得自身一半的頻次的時間晚于領(lǐng)域內(nèi)75%的主題,自身為睡美人特征主題的可能性較高。四分位數(shù)法得出文獻主題可能較多,但可以鎖定睡美人特征主題的范圍[37],并且可以認(rèn)為主題到達一半頻次所需要時長越長,則睡美人沉睡特征越強。
在關(guān)鍵詞分析中進行篩選高頻詞時,往往通過研究者經(jīng)驗直接進行選擇,這樣能很好地區(qū)分那些超高熱度的關(guān)鍵詞與熱點,但是那些熱點也可能是目前學(xué)界都已經(jīng)公認(rèn)了的,對未來研究的指導(dǎo)意義有限。Vaughan根據(jù)同頻詞理論的假設(shè),提出了高低頻詞之間的拐點可以當(dāng)作這個分界點[38],即研究可以用這個拐點來進行熱點的篩選,但由于本文聚類結(jié)果較多,拐點并不明顯,所以本研究熱點熱度的劃分也采用四分位數(shù)法,把各聚類結(jié)果的總頻次作為主題的總熱度,并用這個熱度進行從大到小的排序,選取前四分之一的主題為熱點主題。
研究產(chǎn)生聚類主題260個,四分位數(shù)在65位上。根據(jù)計算到達主題一半頻次的時間排序后,四分位點上的時間為2013年,取比2013年更長的時間,即超過13年的才達到一半頻次的主題,一共有20條,并認(rèn)為這20個主題都有足夠長的沉睡時間特征。主題總熱度頻次按從大到小的排序后,第65個主題總頻次為1272,即認(rèn)為超過1272次的主題類別劃分為熱度較高的主題類。以熱點熱度 (總頻次)為橫坐標(biāo),沉睡時長 (蘇醒時間)為縱坐標(biāo),兩個四分位數(shù)的交點為原點 (1272,2013),以此建立坐標(biāo)軸,將各個主題類劃分在坐標(biāo)軸的4個象限內(nèi),如圖11所示。
注:數(shù)據(jù)標(biāo)簽為聚類時自動生成類標(biāo)號。圖11 研究熱點主題分布
由圖11可見,右上分區(qū)為睡美人特征區(qū),即熱度較高和蘇醒時間較長的主題分區(qū),這個分區(qū)的主題特點是同時具備睡美人潛力和較高的累積熱度,屬于高熱度的研究主題,且關(guān)注度可能會持續(xù)增長。右下方為成熟的研究熱點區(qū),區(qū)域內(nèi)的主題具有較高熱度,但其積累時間較早,在今后可能出現(xiàn)下降的趨勢。但考慮到該類主題熱度基數(shù)較大,并不會迅速失去研究關(guān)注度。左上方為潛在熱點區(qū),處于該區(qū)域的主題熱度目前在領(lǐng)域內(nèi)不高,但在近年來多處于熱度快速上升期,在未來可能成為高熱度的研究主題。左下方則是不存在睡美人特征且熱度較低的研究主題,屬于少數(shù)學(xué)者關(guān)注的研究范圍。
借助熱點主題浮現(xiàn)點可以更準(zhǔn)確地分析當(dāng)前主題處于睡美人生命周期的具體階段,以預(yù)測主題未來熱度走勢。本文對睡美人特征較強20個主題類 (睡美人熱點和潛力熱點兩個分區(qū)內(nèi)的主題類)進行浮現(xiàn)點的計算,結(jié)果見表4。
由表4可見,順序為四分位數(shù)法中達到一半總頻次所需時長降序排列,而這一結(jié)果與美麗系數(shù)法結(jié)果即表4中得出的年份并不吻合,可見進一步對睡美人特征主題進行蘇醒點的識別的必要性。其中起始年份為2000年或2001年,即為數(shù)據(jù)收集的前兩年,但由于數(shù)據(jù)量極小,在研究時間范圍之前的起點數(shù)量更小,對結(jié)果的影響較小。
表4 20個睡美人特征主題浮現(xiàn)點年份
在這20個聚類主題中,住房問題、創(chuàng)新能力、關(guān)系網(wǎng)絡(luò)、制度改革、行為意向、國際貿(mào)易、企業(yè)社區(qū)、工業(yè)汽車、創(chuàng)業(yè)人才和行為心理這10個主題在2018年達到最大值,即當(dāng)前處于或未達到最大值點 (2019年數(shù)據(jù)未收錄完整),其中創(chuàng)業(yè)人才、國際貿(mào)易、工業(yè)汽車、創(chuàng)新能力和行為心理5個主題類浮現(xiàn)點較晚 (2012年后),并且還未到達頂點,屬于正在快速發(fā)展的研究主題,預(yù)測未來會有一個熱度增長的過程。競爭能力、自然災(zāi)害、資源環(huán)保、情感認(rèn)知、家庭教育和匹配模型6個主題類,主題浮點較早 (2011年前),并且也在2018年前達到自身熱度的最大值,根據(jù)睡美人曲線接下來會有一個熱度下降的趨勢。
在了解聚類基本信息后,結(jié)合主題區(qū)域分類結(jié)果和熱點主題浮現(xiàn)點分析,對熱點主題類進行研究熱度發(fā)展趨勢分析和預(yù)測,研究結(jié)論如下。
(1)創(chuàng)新能力、關(guān)系網(wǎng)絡(luò)、行為意向和資源環(huán)保4個主題類屬于睡美人特征熱點主題,其中創(chuàng)新能力類主題類浮現(xiàn)點較晚,近年來增長速度較快,未來極有可能成為超高熱度的研究主題。
(2)醫(yī)療健康、住房問題、補貼政策、社交網(wǎng)絡(luò)、家庭教育、制度改革、國際貿(mào)易、企業(yè)社區(qū)、競爭能力、社會治理、自然災(zāi)害、工業(yè)汽車、創(chuàng)業(yè)人才、匹配模型、行為心理和情感認(rèn)知這16個主題屬于潛力熱點主題,其中創(chuàng)業(yè)人才、國際貿(mào)易、工業(yè)汽車和行為心理4個主題類浮現(xiàn)點較晚,近年來增長速度較快,研究人員可以對這些主題方向進行研究,未來可能會有一個熱度持續(xù)上升的過程,并很可能成為新興熱點。
(3)人才企業(yè)、模型方法、實驗方法、技術(shù)研發(fā)、因素分析、推理學(xué)習(xí)、團隊激勵、回歸邏輯、匹配調(diào)節(jié)、服務(wù)變革、參數(shù)估計、信任理論、產(chǎn)業(yè)集群、運籌統(tǒng)計、供應(yīng)鏈、效應(yīng)理論、公共治理、經(jīng)濟理論和函數(shù)模型等61個主題屬于成熟熱點主題,擁有領(lǐng)域類超過四分之三主題的熱度。因此,要選定這些主題為研究方向的學(xué)者需要考慮到研究已經(jīng)成熟或處于熱度衰退期,是否還有研究的意義;正在從事此研究的學(xué)者要考慮研究方向是否需要轉(zhuǎn)型。
熱點主題的識別與趨勢預(yù)測可以為相關(guān)研究者和機構(gòu)提供研究方向的參考,本文將睡美人特征引入主題識別中,以關(guān)鍵詞聚類為主題的構(gòu)建基礎(chǔ),對國內(nèi)管理科學(xué)重要期刊上的主題進行劃分,識別出睡美人特征熱點主題。對比關(guān)鍵詞分析和主題聚類的研究熱點識別結(jié)果,驗證了睡美人特征 (一半頻次以及d值浮現(xiàn)點)在預(yù)測研究增長趨勢上的有效性,以及在預(yù)測主題未來發(fā)展趨勢上的優(yōu)勢。
本研究也存在一定局限性。首先,本文未考慮多個關(guān)鍵詞是否出自同一篇文獻的情況,這可能導(dǎo)致直接統(tǒng)計頻次時權(quán)重不均衡;其次,聚類認(rèn)為一個研究主題包含多個關(guān)鍵詞,但并未考慮同一關(guān)鍵詞屬于多個研究主題的情況。后續(xù)研究可對同主題下關(guān)鍵詞是否來自同一篇文獻進行判斷并進行權(quán)重賦值,并考慮關(guān)鍵詞同時屬于不同研究主題的情況,綜合分析主題的研究熱度趨勢。