孟 璇,熊回香,葉佳鑫
研究方法是科研人員進行研究的思維形式和手段,是區(qū)分研究型文獻和非研究型文獻的核心要素。圖書情報學科的學術論文作為一種重要的研究型文獻成果,蘊含著豐富的研究方法知識[1-2]。學者們針對不同研究對象會形成不同的研究主題,圍繞不同的研究主題會使用契合的研究方法深入探究,從而使得隸屬于不同主題范疇下的研究方法存在較大差異,該現(xiàn)象反映出圖書情報領域中研究主題與研究方法之間存在一定的對應關系。基于此,本文依據(jù)研究主題和研究方法之間的潛在聯(lián)系,從宏觀與微觀結合視角出發(fā),將主題演化的相關方法運用于學科學術論文的研究方法研究中,不僅能夠全局把握學科中各主題對應研究方法的整體發(fā)展歷程,給學科方法論體系的完善工作提供參考,亦能夠細粒度地回溯每個主題下各研究方法的應用趨勢,給圖書情報學者在針對某一主題展開研究時提供借鑒。
圖書情報領域關于研究方法的概念可以歸納為兩種理解:一是關于解決應用場景具體問題的過程中所運用的方法、工具、手段或技術[3-6];二是作者提出的問題的解決方案[6-7]。依據(jù)上述研究方法定義,本文中的研究方法可以定義為“在圍繞學術論文主題研究的過程中所應用的方法、工具、技術和方案”。在構建研究方法演化模型的過程中,本文利用關鍵詞的語義類型特征構造語義共詞網(wǎng)絡,采用Louvain 算法識別出隱含主題,并通過計算相鄰時期主題的關聯(lián)強度初步構建研究方法演化鏈;在此基礎上,通過對研究方法進行擴充和重要性評估,完成研究方法演化鏈的優(yōu)化;最后依據(jù)研究演化鏈中研究方法的數(shù)量及其重要程度排名情況進行演化分析。相比于基于內容分析法的研究方法演化分析的相關研究,基于共詞網(wǎng)絡的研究方法演化分析能更好地呈現(xiàn)出研究方法在具體研究主題中的演化情況。
目前按照研究方法的標注方式,可將研究方法相關研究劃分為基于人工標注的研究和基于機器標注的研究。基于人工標注的研究主要是利用扎根理論搭建編碼框架以展開研究方法標注。該類研究較為依賴標注者領域知識,因而準確性較高,仍然是研究方法相關研究的主流方法,并產(chǎn)生了豐碩的研究成果。例如,王芳等[8]以《情報學報》為分析樣本,發(fā)現(xiàn)我國情報學研究方法中理論研究比重下降,實證研究比重逐年增加;化柏林等[9]采用文獻調查法、內容分析法、知識抽取法等多種方法,初步構建面向情報工作流程的研究方法體系;李博聞等[2]將研究方法相關論文進行劃分,并對每類論文進行內容分析,歸納出存在的問題,并提出基于“相似度”構建方法體系的解決思路,隨后利用內容分析法對學術論文研究方法進行標注,并以研究方法演進視角對“大情報觀重述”的成因進行探析[10];Chu等[11-12]運用內容分析法發(fā)現(xiàn)多種研究方法混合應用的趨勢以及定性分析方法增長緩慢的現(xiàn)象,并闡釋了研究方法內涵的組成及研究方法分類標準制定的依據(jù)。由于人工標注存在成本高、耗時長、主觀偏差等問題,很多學者轉而對研究方法進行機器標注。例如,章成志等[1]將樸素貝葉斯算法和支持向量機算法與3種問題轉換策略結合,構建6種研究方法分類模型,并對其分類效果進行比較,與此同時將雙向長短時記憶網(wǎng)絡、條件隨機場、詞向量相結合,對近10年《情報學報》論文中的研究方法進行命名實體識別[13]。
按照主題的識別方法,可將主題演化分析研究劃分為基于關系網(wǎng)絡聚類和基于主題模型兩類。在前者中,王曉光等[14]構建科研主題演化分析模型,并開發(fā)出網(wǎng)絡社區(qū)演化分析工具NEViewer;程齊凱等[15]將網(wǎng)絡社區(qū)演化分為產(chǎn)生、消亡、合并、分裂、擴張、收縮等6種演化類型,提出共詞網(wǎng)絡社區(qū)演化分析框架;Palla等[16]利用邊重合度設計了社區(qū)演化跟蹤算法,將網(wǎng)絡社區(qū)的演化過程分為產(chǎn)生、消亡、分裂、合并、擴張及收縮6種形式。在基于主題模型進行演化分析的研究中,岳麗欣等[17]利用LDA和多維尺度分析法識別期刊論文的核心主題和次要主題,繪制主題交叉演化脈絡圖進行相關分析;劉自強等[18]采用PLDA主題模型識別領域論文主題,多維度構建主題演化分析模型,并采用科學知識圖譜可視化;Hall等[19]針對主題熱度測度提出將其轉化為主題對應文檔數(shù)量及被引量的新思路。
從上述研究可知,主題演化分析的研究范式已較為成熟,而研究方法的研究中仍主要采用內容分析法對論文研究方法編碼分類并展開分析。然而,目前大多數(shù)研究方法研究只是對研究方法進行粗粒度的統(tǒng)計和分析,沒有從微觀層面對研究方法演化情況進行細粒度的刻畫?;诖?,本文將主題演化分析引入研究方法研究中,以主題維度對研究方法的演化情況進行深入探究。
本文所提出的學術論文研究方法演化分析模型由共詞網(wǎng)絡構建、主題識別及其演化、研究方法演化分析3個模塊構成,如圖1所示。
圖1 學術論文研究方法演化分析模型
(1)共詞網(wǎng)絡構建模塊。首先,獲取圖書情報領域學術論文的題目、關鍵詞及摘要等外部特征數(shù)據(jù),將其劃分不同時期。其次,對關鍵詞進行規(guī)范化處理,并分為研究主題類關鍵詞、研究方法類關鍵詞和其他類關鍵詞。最后,基于關鍵詞詞對共現(xiàn)強度篩選關鍵詞,并構建共詞網(wǎng)絡。
(2)主題識別及其演化模塊。首先采用Louvain算法對各個時期的共詞網(wǎng)絡進行社區(qū)劃分,利用社區(qū)與主題之間的潛在對應關系進行主題識別。而后計算主題關聯(lián)強度,以確定前后主題間的演化關系,并形成主題社區(qū)演化鏈。
(3)研究方法演化分析模塊。首先,從主題社區(qū)演化鏈中抽取研究方法類關鍵詞初步形成研究方法演化鏈。其次,補充研究方法類關鍵詞,并利用度中心性和區(qū)分度兩個指標以及TOPSIS方法對研究方法的重要性進行評價。最后,依據(jù)演化鏈中研究方法的數(shù)量以及研究方法重要度排名的變化情況進行分析。
2.1.1 關鍵詞語義類型劃分
論文關鍵詞是對論文內容的濃縮,通常用于揭示論文研究主題、研究方法、研究范圍、研究領域等信息,因而關鍵詞天然遵循某種特定的類型特征。胡昌平等[20]將關鍵詞語義類型劃分為“研究主題”“所屬領域”“限定范圍”“理論方法”“子知識點”。結合本文研究思路,本文將關鍵詞語義類型人工劃分為研究主題、研究方法及其他3類,分別以[T]、[M]、[O]后綴進行標識,具體劃分標準見表1。例如,論文《基于共詞分析的學科結構可視化方法的比較》的關鍵詞為“學科結構”“可視化”“聚類分析”“戰(zhàn)略坐標”“社會網(wǎng)絡分析”“共詞分析”。從標題可知論文的研究聚焦于“學科結構”,因而“學科結構”為研究主題類關鍵詞;對摘要進行內容分析發(fā)現(xiàn),論文在研究過程中運用社會網(wǎng)絡分析、聚類分析等方法,因此“可視化”“聚類分析”“戰(zhàn)略坐標”“社會網(wǎng)絡分析”“共詞分析”關鍵詞應劃分為研究方法類型關鍵詞。在對關鍵詞語義類型劃分后,由3名本領域學者對劃分結果進行獨立檢查,針對有分歧的關鍵詞劃分進行集中討論,以保證關鍵詞語義角色標注的客觀性和準確性。
表1 關鍵詞語義類型劃分標準
2.1.2 語義關鍵詞篩選
根據(jù)以往研究發(fā)現(xiàn),共詞網(wǎng)絡質量取決于網(wǎng)絡結構的清晰性及知識點覆蓋程度。共詞網(wǎng)絡中存在大量低頻詞會導致共現(xiàn)矩陣稀疏、網(wǎng)絡結構松散等問題;而只選擇高頻詞則會使網(wǎng)絡丟失大量的重要共現(xiàn)關系,造成知識點覆蓋面較小的情況,為平衡網(wǎng)絡結構清晰性與知識點覆蓋度,本文提出“先篩選后擴充”選詞策略。該策略分為兩個階段:關鍵詞篩選階段和擴充階段。關鍵詞篩選階段主要采用改進的E指數(shù)公式計算關鍵詞間的共現(xiàn)強度[21],計算方法如下:
2.2.1 基于共詞網(wǎng)絡的主題識別
共詞網(wǎng)絡作為一種特殊的社會網(wǎng)絡,呈現(xiàn)出較為顯著的社區(qū)分布特征,每個社區(qū)中的關鍵詞更有可能呈現(xiàn)出相同或相似的主題特征,因而共詞網(wǎng)絡中的社區(qū)與主題之間存在天然的對應關系[22-23]?;诖耍疚膶⒅黝}識別問題轉化為社區(qū)劃分問題,利用Louvain算法對各時期共詞網(wǎng)絡進行社區(qū)劃分,并將劃分后的結果抽象為一個主題,以達到識別主題的目的[14]。為突出社區(qū)的主題特征,本文將共詞網(wǎng)絡中的社區(qū)命名為主題社區(qū),其由不同語義類型的關鍵詞組成。
2.2.2 主題社區(qū)演化鏈的形成
隨著社會需求的變化、科學技術的革新、學科研究范式的轉變,科研主題發(fā)展會發(fā)生一定的突變,具體表現(xiàn)為新主題的產(chǎn)生與舊主題的消亡。新主題常在舊主題的消亡過程中孕育產(chǎn)生,形成科研領域常見的主題演化現(xiàn)象[14]。在本文中,由于主題被具象化為主題社區(qū),因而主題演化現(xiàn)象對應為主題社區(qū)演化。相鄰時期主題社區(qū)的演化關系通常根據(jù)前后時期社區(qū)的關聯(lián)強度判斷,即社區(qū)間關聯(lián)強度越大越可能存在演化關系。本文基于點相似度和價值貢獻的思想,引入關鍵詞的語義類型進行社區(qū)關聯(lián)強度計算。本文認為關鍵詞的價值貢獻度由兩方面構成,一方面為關鍵詞詞頻占所屬主題社區(qū)總詞頻的比重;另一方面通過設定調節(jié)系數(shù)對不同語義類型的貢獻度加以區(qū)分。主題社區(qū)i與主題社區(qū)j的關聯(lián)強度用Fij表示,其計算方法如下:
其中,s為社區(qū)i和社區(qū)j共有的關鍵詞數(shù)量,Viu為主題社區(qū)i中第u個關鍵詞所貢獻的價值,Vju為主題社區(qū)j中第u個關鍵詞所貢獻的價值。語義關鍵詞對所屬社區(qū)的價值貢獻計算方法如下:
分子freq(kiu[character])為社區(qū)i中第u個語義類型為character的關鍵詞的詞頻數(shù),分母為社區(qū)i中所有語義類型為character的關鍵詞的總詞頻,N為社區(qū)i節(jié)點數(shù)量。ω為不同關鍵詞語義類型所對應的調節(jié)系數(shù)函數(shù),見公式(4)。
考慮到主題社區(qū)中研究主題類關鍵詞最能凸顯該社區(qū)的主題特征,對社區(qū)貢獻所貢獻的價值最大,因而其調節(jié)系數(shù)最大;其他類關鍵詞往往與研究主題存在一定關聯(lián),但不能直觀地反映出社區(qū)的主題特征,因而調節(jié)系數(shù)次之;不同研究主題的論文可能會運用相同的研究方法,導致部分研究方法類關鍵詞存在廣泛適用性,對其所屬社區(qū)的價值貢獻度較低,因此研究方法類關鍵詞調節(jié)系數(shù)設為最低。
最后,構建出相鄰時期的兩兩社區(qū)之間的關聯(lián)強度矩陣ST。
其中m和n分別代表相鄰時期的社區(qū)數(shù)量。為方便后續(xù)分析,將ST轉換列向量形式。
設定閾值δ,依次掃描向量v1到vm,選取每個向量中高于δ的元素。由于本文對主題社區(qū)演化過程中可能出現(xiàn)的分裂、融合等情況不進一步展開研究,因此將前后社區(qū)中關聯(lián)強度最大的社區(qū)判定為前后演化社區(qū),即若滿足閾值條件的社區(qū)數(shù)量大于1,則選取關聯(lián)強度的最大值并記錄該值所對應的行標和列標,從而得到相鄰時期存在演化關系的主題社區(qū)。
通過對前后主題社區(qū)的演化關系進行識別,可以將主題社區(qū)串聯(lián)為一種鏈式結構,本文依照其數(shù)據(jù)結構特點將其命名為主題社區(qū)演化鏈,該主題社區(qū)演化鏈由5個不同時期的社區(qū)網(wǎng)絡構成,相鄰時期的社區(qū)網(wǎng)絡之間存在演化關系。具體可定義為假設Topicti表示t時期的第i個主題社區(qū),Topic(t+1)j表示t+1 時期的第j個主題社區(qū),Topic(t+2)k表示t+2 時期的第k個主題社區(qū)。若Topicti與 Topic(t+1)j存在演化關系,Topic(t+1)j和Topic(t+2)k存在演化關系,則說明Topicti、Topic(t+1)j、Topic(t+2)k所對應的主題從t時期到t+2時期一直存在,形成形如Topicti→Topic(t+1)j→Topic(t+2)k的3個時期主題社區(qū)演化鏈。
2.3.1 研究方法演化鏈的形成
研究方法類關鍵詞與研究主題類關鍵詞屬于同一主題社區(qū),使研究方法類關鍵詞被賦予了主題屬性,而主題社區(qū)之間又存在演化關系,因而研究方法之間也應存在演化關系,該演化關系給本文針對研究方法演化分析提供了邏輯依據(jù)。而要對研究方法演化情況進行分析,需要將研究方法類關鍵詞從所屬主題社區(qū)中提取出來,以初步構建研究方法演化鏈。由于前文小節(jié)對關鍵詞的語義類型已經(jīng)進行標注,因而研究方法類關鍵詞的提取工作其實已經(jīng)完成。初步構建的研究方法演化鏈由5個時期的研究方法類關鍵詞集合構成,形如Topicti[M]→Topic(t+1)j[M]→Topic(t+2)k[M]→Topic(t+3)p[M]→Topic(t+4)n[M],其中 Topicti[M]代表t時期的第i個主題社區(qū)下研究方法類關鍵詞集合。
2.3.2 研究方法演化鏈的優(yōu)化
在本文中,研究方法演化鏈的優(yōu)化分為兩個步驟:研究方法節(jié)點的擴充和研究方法節(jié)點的評價及排序。
(1)研究方法節(jié)點擴充。由前文可知本文采用改進的E指數(shù)方法對關鍵詞進行篩選,但分析公式(1)發(fā)現(xiàn),當兩節(jié)點共現(xiàn)頻次為1時,log2(Cij)的值為0,會導致關鍵詞詞對共現(xiàn)強度為0。假設某研究方法類關鍵詞的詞頻大于1,它與社區(qū)中多個語義關鍵詞存在共現(xiàn)關系,但每組詞對的共現(xiàn)頻次都為1,因而詞對的共現(xiàn)強度為0,會導致該研究方法類關鍵詞丟失(見圖2)。
圖2 研究方法節(jié)點示意圖
在語義關鍵詞的初步篩選階段,上述特殊現(xiàn)象會使得共詞網(wǎng)絡丟失重要的研究方法類關鍵詞,為保證研究方法演化鏈的完備性,本文對研究方法節(jié)點進行補充。考慮到社區(qū)的主題特征集中體現(xiàn)在研究主題類關鍵詞,因而本文以研究主題類關鍵詞為基礎,將與之存在共現(xiàn)關系的研究方法類關鍵詞補充進主題社區(qū),具體步驟如下:第一,遍歷社區(qū)i內研究主題類關鍵詞ki[T];第二,首先,查詢ki[T]所在論文集合DT,遍歷DT中的每一篇論文Dk,以Dk摘要為基礎,人工篩選出摘要中的研究方法作為研究方法類關鍵詞,添加至論文Dk的關鍵詞列表keylistk中;其后,將所有論文所對應的關鍵詞列表合并去重后形成主題社區(qū)i的關鍵詞集合ki_set;第三,遍歷ki_set集合中的所有研究方法類關鍵詞。若該關鍵詞之前不在社區(qū)i中,則將該關鍵詞添加到主題社區(qū)i中,同時將該關鍵詞與研究主題類關鍵詞ki[T]共現(xiàn)的邊也添加到社區(qū)i中;若該關鍵詞原本就在社區(qū)i中,則進一步判斷該關鍵詞與ki[T]的共現(xiàn)邊在社區(qū)i是否存在,若不存在則將詞對共現(xiàn)邊加入社區(qū),否則原共現(xiàn)邊的頻次加一。若該研究方法類關鍵詞與社區(qū)中除研究主題類型以外的其他語義關鍵詞也存在共現(xiàn)關系,則一并加入到社區(qū)中,最終得到擴充后的主題社區(qū)。
(2)研究方法節(jié)點的評價及其排序。為了直觀地把握研究方法在其所屬主題社區(qū)中的重要程度,本文從度中心性以及區(qū)分度兩方面對研究方法節(jié)點進行評價,隨后利用TOPSIS方法對兩項指標進行綜合評價,以度量研究方法類關鍵詞在主題社區(qū)中的重要程度。
第一,度中心性。主題社區(qū)作為共詞網(wǎng)絡的子圖,為無向帶權類型網(wǎng)絡。本文將關鍵詞語義類型引入共詞網(wǎng)絡,因而在計算研究方法節(jié)點度中心性時,需要同時考慮關鍵詞詞對共現(xiàn)頻次以及與研究方法節(jié)點存在共現(xiàn)關系的節(jié)點的語義類型。帶權網(wǎng)絡的度中心性計算方法如下[24]:
其中,di為關鍵詞節(jié)點度數(shù),即與多少關鍵詞存在共現(xiàn)關系,wi為關鍵詞詞對共現(xiàn)頻次總和。α 為調節(jié)系數(shù)。當α=0 時,當α=1時,當0<α<1時,節(jié)點度中心性介于di和wi之間,在詞對共現(xiàn)總頻次相同的情況下,有利于度數(shù)較高的關鍵詞;當α>1時,度中心性則更有利于度數(shù)較低的關鍵詞?;陉P鍵詞語義類型的節(jié)點度中心性計算方法如下:
公式(6)中,Ni代表與i節(jié)點存在共現(xiàn)關系的關鍵詞節(jié)點集合,根據(jù)所連節(jié)點的語義類型不同,可將Ni分為Ni[T]、Ni[O]、Ni[M]3種,Ni[T]表示與i節(jié)點相連的研究主題類關鍵詞集合,Ni[O]和Ni[M]同理。λ根據(jù)相連關鍵詞集合的語義類型特征進行區(qū)分,本文依據(jù)各語義類型對社區(qū)中主題屬性的凸顯度,對λ值進行設定,具體見公式(7)。代表關鍵詞i與某一種語義類型關鍵詞節(jié)點相連時的度中心性,其計算方式與公式(5)類似,見公式(8)。
其中,|Ni[character]|代表節(jié)點i所連接的某種語義類型關鍵詞的數(shù)量,wi[character]代表關鍵詞i與某種語義類型關鍵詞的共現(xiàn)總頻次。α為調節(jié)系數(shù),其含義同公式(5)。
第二,區(qū)分度。本文利用逆文檔頻率思想對關鍵詞區(qū)分度進行描述,即研究方法類關鍵詞i在不同時期出現(xiàn)的頻次越少,則該研究方法區(qū)分度越高,反之亦然,計算方法如下:
其中,freqyeari為關鍵詞i在不同時期出現(xiàn)的頻次。
第三,基于TOPSIS方法的多指標綜合評價法。本文基于TOPSIS方法思想,將主題社區(qū)中的每個研究方法類關鍵詞節(jié)點看作一個方案,以度中心性和區(qū)分度作為節(jié)點方案屬性,從而將評估研究方法節(jié)點重要性問題轉換為多屬性方案決策問題。通過監(jiān)測節(jié)點方案與最優(yōu)解、最劣解的距離來進行排序,最靠近最優(yōu)解同時又最遠離最劣解為最好解,否則為最差解。
2.3.3 研究方法演化鏈的分析
(1)研究方法的數(shù)量演化。本文采用折線圖的方法對研究方法演化鏈中各時期研究方法數(shù)量進行分析。
(2)研究方法的重要性演化。為更具體地呈現(xiàn)研究方法重要性演化情況,將研究方法演化鏈進一步劃分為“穩(wěn)定型”“成長型”“突變型”“衰退型”4種類型,其表現(xiàn)特征如表2所示。
表2 研究方法演化鏈類型及其特征
考慮到關鍵詞人工劃分工作量較大,為驗證模型的可行性,本文以《情報學報》《情報資料工作》《情報理論與實踐》3種圖書情報領域比較有代表的核心期刊為例,在CNKI和萬方數(shù)據(jù)庫中檢索3種期刊2011-2020年的所有學術論文,導出題目、關鍵詞、摘要等外部特征信息,篩除投稿須知、卷首語等非學術文章后,共獲取期刊論文5,891篇。主題演化分析中關于時間區(qū)間的劃分方法主要有根據(jù)時間標簽確定法和固定時間窗口法。由于每年刊載的論文數(shù)量大致相同,因而采用固定時間窗口法將10年時間劃分為5個時期,依次對應2011-2012 年、2013-2014 年、2015-2016 年 、 2017-2018 年 、 2019-2020年。針對關鍵詞中常出現(xiàn)的中英翻譯、同義詞、縮寫、單復數(shù)等現(xiàn)象,進行規(guī)范化處理。而后依據(jù)表1對關鍵詞語義類型進行劃分,共得到語義關鍵詞15,229個,將各時期的關鍵詞用id進行標識,得到各時期關鍵詞列表,其中第1時期關鍵詞列表見表3。
表3 第1時期關鍵詞列表(部分)
利用公式(1)對各時期關鍵詞進行篩選,構建語義關鍵詞共詞網(wǎng)絡。其中第1時期語義關鍵詞詞頻及共現(xiàn)頻次見表4-5。
表4 第1時期關鍵詞詞頻(部分)
表5 第1時期語義關鍵詞共現(xiàn)詞對列表(部分)
將節(jié)點信息放入node.csv表格,將邊信息放入edge.csv 表格,利用python 程序讀取node.csv和edge.csv文件構建語義關鍵詞共現(xiàn)矩陣,導入Louvain算法程序進行社區(qū)劃分,共得到53個主題社區(qū),其中第1 時期主題11個,第2、3時期主題各9個,第4時期主題10個,第5時期主題14個。為了方便后續(xù)對主題社區(qū)進行分析,針對每個主題社區(qū)進行編號,其編號的命名規(guī)則為“時期序號+主題序號”。例如,第4時期第10個主題社區(qū)其id為“410”。以第4時期的社區(qū)劃分結果為例,其主題社區(qū)id及社區(qū)內語義關鍵詞見表6-7。
表6 401-405主題社區(qū)關鍵詞列表
表7 406-410主題社區(qū)關鍵詞列表
利用公式(2)-(4)構建相鄰時期主題社區(qū)關聯(lián)強度矩陣,并利用heatmap函數(shù)生成主題關聯(lián)強度矩陣熱力圖。其中,第4和第5時期的社區(qū)主題關聯(lián)強度如圖3所示。單元格顏色越深則主題關聯(lián)強度越大。通過實驗得知,當閾值設為0.1時,兩個主題社區(qū)具有較為明顯的演化關系,相鄰時期的主題社區(qū)演化關系識別如下:
圖3 第4時期與第5時期主題關聯(lián)強度
基于相鄰時期的主題演化關系,構建出3條完整的主題演化鏈。
本文依據(jù)主題演化鏈主題社區(qū)中研究主題類關鍵詞及其頻次確定主題社區(qū)名稱,分析發(fā)現(xiàn)主題演化鏈1中的主題社區(qū)主要圍繞研究熱點[T]、主題識別[T]、主題演化[T]等研究主題類關鍵詞,因此將主題演化鏈1 確定為研究熱點主題演化鏈;主題演化鏈2主要圍繞信息服務[T]、知識服務[T]、知識共享[T]、圖書館[O]等語義關鍵詞,因此將主題演化鏈2確定為圖書館信息知識服務演化鏈;演化鏈3出現(xiàn)頻次較高的語義關鍵詞主要有學術影響力[T]、期刊評價[T]、評價指標[O]等,因此將演化鏈3確定為學術評價演化鏈。
從主題演化鏈中抽取研究方法類關鍵詞以構建研究方法演化鏈,在主題社區(qū)編號后添加后綴“[M]”表示主題社區(qū)中研究方法類關鍵詞的集合,由此形成3條完整研究方法演化鏈。
“研究熱點主題”社區(qū)研究方法演化鏈:
“圖書館信息知識服務”社區(qū)研究方法演化鏈:
“學術評價”社區(qū)研究方法演化鏈:
對每條演化鏈中的研究方法集合進行擴充,利用公式(5)-(9)對研究方法節(jié)點進行重要性評價和排序。由于最終得到的評價值較小,為方便直觀分析,統(tǒng)一乘以100作為綜合得分。其中,506[M]排名前10研究方法見表8。為清晰呈現(xiàn)研究方法重要性的動態(tài)變化情況,本文利用D3.js 工具編寫代碼對研究方法演化鏈進行可視化展示,見圖4-6。同一時期內,節(jié)點之間的高低次序代表當期研究方法的重要性排序,以“學術評價”研究方法演化鏈為例,第1 時期的“社會網(wǎng)絡分析”節(jié)點位置最高代表其重要性最高。
表8 506[M]研究方法列表
圖4 “研究熱點主題”研究方法演化鏈
圖6 “學術評價”研究方法演化鏈
3.4.1 研究方法的數(shù)量演化
統(tǒng)計各時期研究方法關鍵詞數(shù)量并繪制折線圖,見圖7?!把芯繜狳c主題”演化鏈中的研究方法隨時間呈現(xiàn)穩(wěn)步增長態(tài)勢,原因有兩點,一是該主題發(fā)文量的增大可能會導致研究方法數(shù)量增多;二是單篇文獻所用方法的多元化也會使研究方法關鍵詞規(guī)模的擴大。
圖7 各時期研究方法數(shù)量變化曲線
“圖書館信息知識服務”演化鏈的研究方法數(shù)量整體呈不穩(wěn)定的震蕩波動態(tài)勢,略微有下降的趨勢。仔細分析該主題對應的學術論文發(fā)現(xiàn),“圖書館信息知識服務”的相關研究中學理類論文占有一定比例,可能會是導致研究方法迭代速度較慢的原因,再加之數(shù)據(jù)驅動的第四范式崛起,從而可能會導致研究方法規(guī)模下降。
“學術評價”演化鏈的研究方法總數(shù)在1、2、3時期呈現(xiàn)較為穩(wěn)定的態(tài)勢,但在4、5 時期有較高幅度的增長。導致這一現(xiàn)象可能是“學術評價”研究主題所運用的研究方法出現(xiàn)了較大變革,引發(fā)學界廣泛關注,從而使得發(fā)文量增加,其研究方法規(guī)模擴大。
3.4.2 研究方法的重要性演化
本文分別從“穩(wěn)定型”“成長型”“突變型”“衰退型”4種類型研究方法演化鏈出發(fā),對3條研究方法演化鏈進行剖析。
(1)“穩(wěn)定型”研究方法演化鏈。第一,“研究熱點主題”演化鏈,“聚類”“可視化”“網(wǎng)絡分析”等研究方法呈現(xiàn)穩(wěn)定的演化狀態(tài)。以“聚類”為例,第1時期出現(xiàn)“層次聚類”“聚類”,第2 時期有“主題聚類”,第3 時期出現(xiàn)“Linkcomm邊聚類”“聚類分析”,第4時期代表聚類的研究方法有“聚類”“主題聚類”“聚類分析”“AP算法”等,第5時期出現(xiàn)“K-Means”“時間序列聚類”“雙向聚類”“密度峰值聚類算法”“AP算法”等方法,可知雖然聚類方法逐漸多樣化,但聚類思想?yún)s貫穿主題始終。從研究過程看,“研究熱點主題”需要將相同或相近屬性的研究對象凝聚成社團或簇,以便后續(xù)進一步展開研究。第二,“圖書館信息知識服務”演化鏈,根據(jù)圖5可知,“模型構建”和“問卷調查”具有較為穩(wěn)定的演化特點。其中,“模型構建”研究方法在第1、3、4時期的排名較高;“問卷調查”在第1、2時期排名較高,在第3、4、5時期排名較低,但該方法始終貫穿整個演化鏈。由此可知,“模型構建”與“問卷調查”是研究“圖書館信息知識服務”主題時所用到的傳統(tǒng)研究方法。第三,“學術評價”演化鏈,“社會網(wǎng)絡分析”“指標分析”“引文分析”呈現(xiàn)出穩(wěn)定演化態(tài)勢。需要注意的是“引文分析”在5個時期中具有不同形式,其在第1時期為“被引分析”,第4時期為“引文分析”和“共被引分析”。上述研究方法之間存在的內在關聯(lián)可能是其穩(wěn)定演化的原因之一,學術評價往往引用相關指標來衡量期刊、作者或者機構的學術影響力,而引用指標是引文分析后的結果,在引文網(wǎng)絡分析中通常借助社會網(wǎng)絡分析方法對網(wǎng)絡中節(jié)點特征屬性進行描述。
(2)“成長型”研究方法演化鏈。第一,“研究熱點主題”演化鏈,由圖4可得,“LDA”為“成長型”研究方法?!癓DA”在第2時期排名較后,在第3、4、5時期“LDA”熱度逐漸攀升,并衍生出“PLDA”“CA-LDA”“OLDA”“Gaussian LDA”等LDA 的改進模型。同時,“時序分析”“內容分析法”等研究方法也呈現(xiàn)成長型演化特征。第二,“學術評價”演化鏈,“相關性分析”和“Altmetrics”呈現(xiàn)成長型演化特點。以“Altmetrics”為例,“Altmetrics”是一種基于社交網(wǎng)絡來評價學術成果的計量指標。由于該指標起源于國外,若將其應用于國內學術成果評價,仍需進行深入研究,因而眾多領域學者投入到Altmetrics 的研究中。同時,“Altmetrics”排名大幅提升的時間點大致與“學術評價”演化鏈研究方法數(shù)量大幅上升的時期一致,因而本文大膽推測“Altmetrics”研究方法是“學術評價”研究方法數(shù)量激增的重要因素,對“學術評價”主題研究產(chǎn)生重大影響。
(3)“突變型”研究方法演化鏈。第一,“研究熱點主題”演化鏈,根據(jù)圖4可知,“因子分析法”“耦合分析”“案例分析”等研究方法呈現(xiàn)出“突變型”演化鏈特征。第二,“圖書館信息知識服務”演化鏈,突變型研究方法占有較大比例,例如“因子分析法”“熵權法”“系統(tǒng)動力學”“層次分析法”等,其中“因子分析法”也從側面反映出這一類研究主題的方法論體系仍不夠成熟有待完善。第三,“學術評價”演化鏈,“TOPSIS”“DEA模型”等方法呈現(xiàn)出間斷出現(xiàn)的演化特征,兩種研究方法的提出時間都較早,沒有連續(xù)使用的原因可能在于“學術評價”的研究側重點遷移,與兩種方法的契合度逐漸降低。
(4)“衰退型”研究方法演化鏈。第一,“研究熱點主題”演化鏈,“Citespace”較為滿足“衰退型”演化特征。“Citespace”在第1、2、4、5時期的排序分別是7、8、41、51。其原因主要在于Citespace軟件逐漸無法滿足“研究熱點主題”研究領域日益多元復雜的研究需求,如Citespace軟件無法適用于CNKI數(shù)據(jù)庫進行引文分析,Citespace構建的關鍵詞網(wǎng)絡關系太過單一等。第二,“圖書館信息知識服務”演化鏈,“比較分析”與“結構方程模型”研究方法呈現(xiàn)衰退型趨勢?!氨容^分析”和“結構方程模型”方法在第1、2、3 時期排名靠前或呈現(xiàn)上升趨勢,但在第4、5時期消失,這一現(xiàn)象可能與“圖書館信息知識服務”研究內容變化有關,使得研究方法不再與研究主題相契合,也有可能與方法自身存在的缺陷有關。
本文通過共詞網(wǎng)絡構建、主題識別、主題演化關系判斷、研究方法演化鏈構建、研究方法演化鏈優(yōu)化及其分析等步驟完成了學術論文研究方法演化分析模型的構建,并利用CNKI以及萬方數(shù)據(jù)庫獲取學術論文數(shù)據(jù),驗證了研究方法演化分析模型的可操作性,并從主題的維度對研究方法的演化進行詳細闡釋。然而,本文仍存在不足:第一,數(shù)據(jù)量不足,本文考慮到人工關鍵詞語義劃分工作量的原因,只選擇《情報學報》《情報資料工作》《情報理論與實踐》3本期刊,使得主題社區(qū)未能全面覆蓋所有研究熱點;第二,演化過程相對單一,本文中將主題社區(qū)演化關系定義為“一一對應”關系,即一個前驅社區(qū)對應一個后繼主題社區(qū),而實際上在科研主題的發(fā)展過程中舊主題可能分裂成多個新主題,多個舊主題也可能融合成一個或多個新主題。針對這些復雜的演化過程本文未能進行深入分析。針對以上不足,本人將在后續(xù)研究中對其進行逐一探討。