• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      詞共現(xiàn)頻次變化視角下的動態(tài)主題識別研究

      2022-05-31 14:19:07席崇俊劉文斌丁楷
      知識管理論壇 2022年2期
      關鍵詞:張量聚類領域

      席崇俊 劉文斌 丁楷

      摘要:[目的/意義]主題識別研究對于理清領域內(nèi)的知識結(jié)構(gòu)與研究熱點非常重要,對領域主題進行動態(tài)識別,可以很好地幫助研究人員了解和掌握領域的發(fā)展態(tài)勢及未來走向。[方法/過程]利用張量的數(shù)據(jù)結(jié)構(gòu)形式,在詞共現(xiàn)矩陣中融入時間維度,只需一次聚類便可進行動態(tài)主題的識別。[結(jié)果/結(jié)論]張量結(jié)構(gòu)及非負張量分解算法為詞共現(xiàn)頻次變化視角下的動態(tài)主題識別提供一種新的方法,該方法相較于傳統(tǒng)方法更為簡單快捷,有效避免了信息的損失。

      關鍵詞:關鍵詞共現(xiàn) ? ?非負矩陣分解 ? ?非負張量分解 ? ?動態(tài)主題識別 ? ?知識管理

      分類號:G254.2

      引用格式:席崇俊, 劉文斌, 丁楷. 詞共現(xiàn)頻次變化視角下的動態(tài)主題識別研究[J/OL]. 知識管理論壇, 2022, 7(2): 197-208[引用日期]. http://www.kmf.ac.cn/p/281/.

      1 ?引言

      在信息時代背景下,隨著科技文獻數(shù)量的迅猛增長,研究人員無法在短時間內(nèi)吸收和掌握數(shù)以萬計的研究成果,即便是針對范圍狹窄的領域進行密切關注、持續(xù)閱讀,仍難理清該領域的研究熱點和研究方向[1]。因此,對領域主題的挖掘與演化研究則顯得尤為重要,它可以很好地幫助研究人員了解和掌握領域的發(fā)展態(tài)勢及未來走向,也是解決信息大爆炸時代情報危機的有效方法[2-3]。本文基于詞共現(xiàn)頻次變化視角對動態(tài)主題識別方法進行探討,旨在為科技決策提供更好的支持。

      2 ?研究現(xiàn)狀

      主題識別與演化研究是利用文獻特征項之間的關聯(lián)關系對文獻集合進行分析從而發(fā)現(xiàn)主題,并通過主題揭示文獻集合中蘊涵的內(nèi)容,以了解當前領域的研究熱點并預測未來的發(fā)展趨勢[4]。在主題識別與演化分析研究中,相關學者已經(jīng)開展了大量研究,根據(jù)研究對象由淺及深可分為基于文獻外部引用關系的方法、基于文獻內(nèi)部詞分析的方法、基于全文內(nèi)容文本挖掘的方法等。

      基于文獻引用關系的分析方法可分為文獻共被引法、文獻耦合法以及文獻間的直接引用法等,主要是利用文獻之間的引用關系來判斷文獻之間的關聯(lián)程度,從而對文獻進行劃分,達到主題聚類的目的[5-6]。例如祝清松等提出基于引文主路徑文獻共被引的主題演化分析方法,通過對引文主路徑上關鍵文獻的共被引分析來揭示學科領域的主題演化情況[7];黃福等通過核心文獻與其被引文獻進行耦合分析,再通過核心文獻及其施引文獻進行共被引分析,進而分別構(gòu)建研究前沿領域[8];宋艷輝等以SCI和SSCI收錄的7種情報學期刊在2000-2010年間的數(shù)據(jù)為樣本,以作者文獻耦合分析方法為研究視角,探尋新世紀以來情報學的知識結(jié)構(gòu)[9]。

      基于詞分析的方法主要分為詞頻分析法和詞共現(xiàn)分析法,詞頻分析法是通過統(tǒng)計文獻中關鍵詞出現(xiàn)頻次的高低變化來確定領域的研究重點及熱點[10],詞共現(xiàn)分析法則是通過統(tǒng)計一組詞共同出現(xiàn)的次數(shù)來分析詞之間的關聯(lián)關系,從而對詞進行聚類得到主題[11]。例如奉國和等基于生命周期理論和詞頻分析方法,對學科領域發(fā)展過程進行客觀合理的動態(tài)跟蹤與分析[12];儲節(jié)旺等運用詞頻分析法,通過對文獻關鍵詞的詞頻統(tǒng)計,進而對近10年來知識管理領域的研究熱點、應用領域和研究方法進行分析[13];姜鑫等利用CNKI數(shù)據(jù)庫通過詞頻分析法結(jié)合共詞分析法對2005-2016年我國科學數(shù)據(jù)領域的研究主題進行演化分析[14];趙麗梅等以共詞分析為基本研究框架,揭示大數(shù)據(jù)背景下數(shù)字圖書館研究領域的主流研究范式,為后續(xù)研究提供內(nèi)容基礎和理論依據(jù)[15];唐果媛等采用人工判讀法提煉出基于共詞分析法的學科主題演化研究分析流程的5個步驟,并對每個步驟中研究人員使用的策略、分析手段和工具進行歸納總結(jié)[16]。

      基于文本挖掘的方法則是通過文本挖掘技術對主題進行抽取,并用相關評價標準對主題進行分類。例如胡吉明等構(gòu)建了適用于動態(tài)文本內(nèi)容主題挖掘的LDA模型[17];楊超等構(gòu)建了基于“主語—行為—賓語”(subject-action-object, SAO)結(jié)構(gòu)的LDA主題模型,實現(xiàn)對專利文獻主題結(jié)構(gòu)的識別和分析[18];J. Kim等通過文本挖掘和決策樹的方法進行技術預測,從論文作者、期刊、所屬領域及專利的專利權(quán)人、所屬領域等字段中抽取能代表技術主題領域的特征[19]。

      其中,基于詞共現(xiàn)分析的方法可以深入到文獻內(nèi)部,既關注詞出現(xiàn)的頻次大小,也考慮了詞間的語義關系,是當前較為廣泛使用的一種方法。因此,本文考慮基于詞共現(xiàn)的分析方法對領域主題進行挖掘。傳統(tǒng)基于詞共現(xiàn)分析對多個周期的主題進行動態(tài)識別時,通常是基于二維數(shù)據(jù)——要么是根據(jù)各年份的詞頻變化矩陣進行聚類;要么是先按年份對詞進行時間切片,然后分別構(gòu)造詞共現(xiàn)矩陣進行單獨多次聚類,從而實現(xiàn)動態(tài)主題識別。前一種方法未考慮詞間的語義關系,后一種方法則需要進行多次聚類,損失了大量信息。本文考慮借助張量的數(shù)據(jù)結(jié)構(gòu)形式,在詞共現(xiàn)矩陣上融入時間維度,構(gòu)造三維數(shù)據(jù),并基于非負張量分解算法只需一次聚類便可得到各年份的主題情況,有效減少了數(shù)據(jù)的損失。

      3 ?研究思路

      本文的具體研究思路如圖1所示:

      為了在詞共現(xiàn)矩陣中融入時間維度,從詞共現(xiàn)頻次變化視角下進行動態(tài)主題識別,本文首先對詞共現(xiàn)矩陣的構(gòu)造方式、數(shù)據(jù)處理方式以及聚類方法進行探討。①詞共現(xiàn)矩陣的構(gòu)建。文獻是關鍵詞的載體,而作者是科學研究的主體,二者所使用的關鍵詞集合對領域的知識結(jié)構(gòu)有著不同的反映,因此,本文考慮分別從文獻視角和作者視角構(gòu)建關鍵詞共現(xiàn)矩陣,并將兩種視角下的矩陣進行融合,比較基于三種關鍵詞共現(xiàn)矩陣得到的主題識別結(jié)果的差異。 ? ?②詞共現(xiàn)矩陣的處理。在基于共現(xiàn)數(shù)據(jù)進行研究時,有學者指出直接在原始數(shù)據(jù)上進行分析即可[20],有學者則認為需要對原始數(shù)據(jù)進行標準化處理后再進行分析[21],在以往基于關鍵詞共現(xiàn)的主題識別研究中,關于共現(xiàn)矩陣是否需要以及如何進行標準化處理尚無統(tǒng)一定論,因此,本文分別從對稱視角和非對稱視角對關鍵詞共現(xiàn)矩陣進行標準化處理,對比是否進行標準化操作以及不同的標準化處理操作方式對主題識別結(jié)果的影響。③詞共現(xiàn)矩陣的聚類方法。非負矩陣分解算法相較于傳統(tǒng)聚類算法(系統(tǒng)聚類法、主成分分析、奇異值分解等)可以有效避免關鍵詞與類團的單屬性以及權(quán)重值為負等不足,而非負張量分解是非負矩陣分解在高維空間的拓展,因此,本文首先明確非負矩陣分解算法相對傳統(tǒng)聚類算法的有效性,然后比較非負分解算法與非負張量分解算法在動態(tài)主題識別中的優(yōu)劣性。

      4 ?數(shù)據(jù)集及研究方法

      4.1 ?數(shù)據(jù)集

      4.1.1 ?數(shù)據(jù)集的構(gòu)建

      本文在Web of Science數(shù)據(jù)庫中以“knowledge management”為主題詞檢索了國外知識管理領域相關文獻,文獻類型限定為“article”,文獻時間為“2017-2021年”,共檢索到4 898篇文獻,包含11 343個關鍵詞字段和12 178個作者字段,通過對數(shù)據(jù)字段進行清理,去除本位詞“knowledge management”的影響,選擇頻次大于1的關鍵詞進行研究,并按如下三種方式構(gòu)建本文所需的關鍵詞共現(xiàn)矩陣:

      (1)文獻視角下的關鍵詞共現(xiàn)矩陣構(gòu)建。假設KTm×p為關鍵詞—文獻共現(xiàn)矩陣,其中m為關鍵詞數(shù),p為文獻數(shù),矩陣元素為關鍵詞在文獻中出現(xiàn)的次數(shù),顯然KTm×p為0-1值矩陣,則基于文獻的關鍵詞共現(xiàn)矩陣ATm×m可定義為:

      ATm×m=KTm×p*(KTm×p)T ? ? ? ? ?公式(1)

      (2)作者視角下的關鍵詞共現(xiàn)矩陣構(gòu)建。同樣地,假設KRm×q為關鍵詞—作者共現(xiàn)矩陣,其中m為關鍵詞數(shù),q為作者數(shù),矩陣元素為作者使用關鍵詞的次數(shù),則基于作者的關鍵詞共現(xiàn)矩陣ARm×m可定義為:

      ARm×m=KRm×q*(KRm×q)T ? ? ? ? ?公式(2)

      (3)融合文獻和作者雙視角下的關鍵詞共現(xiàn)矩陣構(gòu)建??紤]到無論是基于文獻還是基于作者的關鍵詞共現(xiàn)本質(zhì)上都是計算關鍵詞共同出現(xiàn)的次數(shù),區(qū)別在于一個從文獻視角考慮,一個從作者視角考慮。對同一個領域來說,某一時間段內(nèi)其所包含的研究成果是一定的,由于科技文獻是研究成果的載體,而作者是科學研究的主體,二者互為補充,從不同視角對領域內(nèi)的研究情況進行了劃分,因此本文考慮同時結(jié)合這兩個視角,融合文獻和作者的關鍵詞共現(xiàn)矩陣ATRm×m可定義為:

      ATRm×m=ATm×m+ARm×m ? ? ? ?公式(3)

      4.1.2 ?數(shù)據(jù)處理

      (1)對稱視角下的標準化處理。2009年,N. J. van ECK等指出在對共現(xiàn)數(shù)據(jù)進行分析時需要利用相似性度量來標準化數(shù)據(jù),并對比了幾種常用的相似性度量方法(關聯(lián)強度、余弦相似度、包含指數(shù)、Jaccard指數(shù)),發(fā)現(xiàn)基于概率的相似性度量方法(關聯(lián)強度)效果要好于基于集合論的度量方法(余弦相似度、包含指數(shù)、Jaccard指數(shù))[22]。因此,本文將利用關聯(lián)強度計算公式對關鍵詞共現(xiàn)矩陣進行標準化處理。以融合文獻和作者的關鍵詞共現(xiàn)矩陣ATRm×m為例,記矩陣ATRm×m第i行第j列的元素為atrij,按公式(4)對其進行相似化處理后得到矩陣ATR'm×m。

      公式(4)

      (2)非對稱視角下的標準化處理。上述方法是在對稱視角下對關鍵詞共現(xiàn)矩陣進行了標準化處理,雖然兩個關鍵詞的共現(xiàn)頻次是唯一的,但是受單個關鍵詞出現(xiàn)頻次的影響,高頻關鍵詞與很多詞存在關聯(lián),而低頻詞只與少數(shù)詞存在關聯(lián),因此從高頻詞視角下計算的關聯(lián)度與從低頻詞視角下計算的關聯(lián)度是不同的,本文考慮利用公式(5)對矩陣ATRm×m進行非對稱視角下的相似性度量得到矩陣ATR''m×m。

      公式(5)

      4.2 ?研究方法

      4.2.1 ?非負矩陣分解

      非負矩陣分解起源于主成分分析,最早由P. Paatero等[23]提出,被稱為正矩陣分解,其基本思想是將一個非負的矩陣分解為左右兩個非負矩陣的乘積。對于關鍵詞共現(xiàn)矩陣來說,m表示關鍵詞數(shù),利用上述介紹的非負矩陣分解算法將其分解為,其中矩陣V r×m的行可以解釋為r個主題,每行元素表示為詞表中m個關鍵詞在該主題中的非負權(quán)重,因此可以對詞表的每一行按權(quán)重值大小進行排列,從而得到每個主題所包含的關鍵詞種類,并根據(jù)關鍵詞的權(quán)重值大小對主題進行命名[24]。

      4.2.2 ?非負張量分解

      張量是一個多維數(shù)組,最常用的張量分解方法有CP分解和Tucker分解[25]。CP分解是將一個n階張量分解成多個秩為1的張量的和的形式[26],Tucker分解則是將其分解成一個核心張量與若干個因子矩陣乘積的形式,核心張量可以看成原張量的濃縮形式[27],當核心張量是一個對角的張量時,Tucker分解則退化成了CP分解[28-30](見圖2)。非負張量分解則是非負矩陣分解在高維空間中的拓展,它既保留了張量的優(yōu)點,又避免了負元素的出現(xiàn),被廣泛應用于圖像處理、音頻分類文本挖掘等領域。

      在利用非負張量分解進行主題識別時,首先需要構(gòu)建一個合適的張量,以三階張量為例,由于本文是基于關鍵詞共現(xiàn)頻次變化視角進行動態(tài)主題識別,因此本文構(gòu)建了

      <關鍵詞,關鍵詞,年份>的三階張量XI×I×K,如圖3所示,其中關鍵詞共現(xiàn)矩陣中的黑色圓圈代表關鍵詞之間的共現(xiàn)強度,對該張量進行非負張量分解便可得到因子矩陣AI×R、BR×I、CK×R,以及核心張量ΛR×R×R,其中I代表關鍵詞種類數(shù),K代表年數(shù),R代表聚類個數(shù),與非負矩陣分解算法結(jié)果類似,非負張量分解算法中的因子矩陣AI×R、BR×I均可解釋為R個主題以及每個主題下包含的關鍵詞種類及權(quán)重值大小,且兩個因子矩陣下的聚類結(jié)果一致,此外因子矩陣CK×R還可解釋為R個主題在各個年份所占的權(quán)重值即主題研究熱度,核心張量ΛR×R×R則可解釋為R個主題的綜合強度,由此便將<關鍵詞,關鍵詞,年份>的三階張量降維成了<主題,年份>的二階矩陣,從而可以進行主題的動態(tài)識別,如圖3所示,主題框中的黑色圓圈大小代表主題在該年份所出現(xiàn)的強度大小。

      5 ?結(jié)果分析

      基于詞共現(xiàn)頻次變化視角進行動態(tài)主題識別時,首先需要構(gòu)造合適的詞共現(xiàn)矩陣,因此本文首先對幾種詞共現(xiàn)矩陣的構(gòu)造方式及數(shù)據(jù)處理方法進行對比,然后選擇合適的方法進行張量的構(gòu)造與動態(tài)主題的識別。本文首先進行了兩組對照實驗,第一組實驗對比了基于文獻的關鍵詞共現(xiàn)矩陣、基于作者的關鍵詞共現(xiàn)矩陣以及融合文獻與作者的關鍵詞共現(xiàn)矩陣在主題識別結(jié)果上的差異;第二組實驗在第一組實驗結(jié)果的基礎上,選擇一種數(shù)據(jù)集構(gòu)建方式,對比了共現(xiàn)矩陣進行相似化處理操作對主題識別結(jié)果的影響。

      5.1 ?數(shù)據(jù)集構(gòu)建組實驗結(jié)果分析

      通過多次實驗發(fā)現(xiàn):當類團數(shù)多于5類時,會出現(xiàn)部分類團中的關鍵詞高度重疊的情形,因此本文將類團數(shù)定為5類,三種關鍵詞共現(xiàn)矩陣下的非負矩陣分解聚類結(jié)果見表1??梢钥闯?,非負矩陣分解算法下的聚類結(jié)果中各類團里的關鍵詞權(quán)重值大小均非負,彌補了主成分分析中權(quán)重值可正可負的不足,各類團中的關鍵詞種類也有重復,彌補了系統(tǒng)聚類法中一個關鍵詞只屬于一個類團的不足,與現(xiàn)實情況相吻合。具體來看,三種關鍵詞共現(xiàn)矩陣下的聚類結(jié)果既存在相同之處也呈現(xiàn)出差異:

      首先,三種關鍵詞共現(xiàn)矩陣下每個類團中的主導詞(權(quán)重值最高的關鍵詞)基本一致,這些主導詞可以輔助于類團的命名,由此說明不管是在文獻視角下還是作者視角下,國外知識管理領域近5年的研究熱點基本相同,主要有Knowledge Sharing、Innovation、Intellectual capital、Knowledge、Organizational performance、SEMs等;不同之處在于每個大主題下的研究方向有所差異(即每個類團中權(quán)重值低的關鍵詞種類有所差異),如文獻視角下的Innovation主題中的關鍵詞按權(quán)重值排序依次為SMEs、Performance、Dynamic capabilities、Entrepreneurship等,作者視角下Innovation主題中的關鍵詞按權(quán)重值排序依次為SMEs、Dynamic capabilities、Organizational performance、Information technology等,兩種視角下的創(chuàng)新主題研究都聚焦于企業(yè),但文獻視角下的企業(yè)創(chuàng)新側(cè)重于企業(yè)家精神,而作者視角下的企業(yè)創(chuàng)新側(cè)重于信息技術。

      此外,通過jaccard相似度算法計算出每種聚類結(jié)果下各主題之間的關聯(lián)度,得到關聯(lián)度均值、極差和標準差等統(tǒng)計數(shù)據(jù)(圖4-圖6)??梢钥闯?,基于文獻視角的聚類結(jié)果中每個主題與該聚類結(jié)果下其他主題的關聯(lián)度均值都是最高,且極差和標準差最小;基于作者視角的聚類結(jié)果中每個主題與該聚類結(jié)果下其他主題的關聯(lián)度均值都比較低,且極差和標準差都較大;而融合兩種視角下關鍵詞共現(xiàn)矩陣的聚類結(jié)果的主題關聯(lián)度統(tǒng)計數(shù)據(jù)介于單視角結(jié)果之間。由此說明,作者視角下的聚類結(jié)果中各主題之間的區(qū)分度比文獻視角下的聚類結(jié)果主題區(qū)分度更為明顯,這是由于文獻數(shù)量遠多于作者數(shù)量,文獻視角下的聚類結(jié)果可以對領域主題進行深入的挖掘,而作者視角下的聚類結(jié)果可以對領域主題進行全面的識別。結(jié)合三種聚類結(jié)果下各主題所包含的關鍵詞個數(shù)(見圖7)可知,文獻視角下的每個主題所包含的關鍵詞種類較作者視角下的關鍵詞種類更多,即主題內(nèi)容挖掘得更為深入細致。因此,融合了文獻和作者的關鍵詞共現(xiàn)矩陣相較于單一視角下的關鍵詞共現(xiàn)矩陣聚類結(jié)果既能全面地反映領域內(nèi)的研究情況,又能對研究內(nèi)容進行深入細致的挖掘。

      該組實驗結(jié)果表明:文獻是新知識、新技術的載體,代表了一個領域的最新研究成果,隨著知識大爆炸時代的來臨,文獻數(shù)量迅猛增長,基于文獻的關鍵詞共現(xiàn)矩陣聚類結(jié)果可以表征一個領域內(nèi)的熱門研究主題與研究前沿,且由于文獻數(shù)量遠遠多于作者數(shù)量,文獻視角下的關鍵詞共現(xiàn)矩陣可以對領域內(nèi)的研究情況進行更為細致深入的挖掘;而作者則是長期耕耘在某一研究方向上的創(chuàng)造者,基于作者的關鍵詞共現(xiàn)矩陣聚類結(jié)果可以表征領域內(nèi)的經(jīng)典研究主題,且對領域內(nèi)的研究情況進行全面的反映。融合了文獻和作者的關鍵詞共現(xiàn)矩陣的聚類結(jié)果既能全面又能深入細致地反映領域內(nèi)的研究情況。

      5.2 ?數(shù)據(jù)集處理組實驗結(jié)果分析

      第一組實驗結(jié)果表明:基于融合文獻和作者雙視角的關鍵詞共現(xiàn)矩陣的主題識別結(jié)果能更好地反映領域內(nèi)的研究情況,因此本文以該矩陣為例繼續(xù)進行下一步分析。首先對融合文獻和作者雙視角下的關鍵詞共現(xiàn)矩陣在對稱視角下和非對稱視角下進行標準化處理,然后利用非負矩陣分解算法對經(jīng)標準化操作處理前后的關鍵詞共現(xiàn)矩陣進行聚類,聚類結(jié)果見表2。

      可以看出,未經(jīng)標準化處理的共現(xiàn)矩陣聚類結(jié)果與在非對稱視角下進行標準化處理的共現(xiàn)矩陣聚類結(jié)果存在部分主題的主導詞相同的情況(如Knowledge sharing、Innovation、Knowledge等),而在對稱視角下進行標準化處理的共現(xiàn)矩陣聚類結(jié)果則差異較大,通過查看原始數(shù)據(jù)發(fā)現(xiàn),未經(jīng)標準化操作和在非對稱視角下進行標準化操作的聚類結(jié)果中各主題下的主導詞一般為高頻關鍵詞,且類團中的關鍵詞權(quán)重值差異明顯,而在對稱視角下進行標準化操作的聚類結(jié)果中各主題下的關鍵詞出現(xiàn)的頻次都比較低,且各類團中的關鍵詞權(quán)重差異不大,這是因為對稱視角下的標準化可以消除高頻關鍵詞的影響。此外,在非對稱視角下的標準化處理操作后的聚類結(jié)果除了將高頻關鍵詞聚攏,也將一部分低頻關鍵詞進行聚攏,這是由于一些關鍵詞雖然出現(xiàn)的頻次不高,但是每一次出現(xiàn)都伴隨著其他詞一起出現(xiàn),這些詞的關聯(lián)度非常高,因而被聚為一類,而其他兩種聚類結(jié)果則不具這一特點。

      該組實驗結(jié)果表明:使用原始關鍵詞共現(xiàn)矩陣或?qū)ζ溥M行非對稱視角下的標準化處理,可以分析領域內(nèi)的熱點研究主題,因為高頻關鍵詞往往能代表某一領域的研究重點與熱點,其中經(jīng)非對稱標準化處理后的關鍵詞共現(xiàn)矩陣聚類結(jié)果除了可以研究高頻關鍵詞的類團,也涵蓋了低頻關鍵詞的聚攏情況,可以更加全面地分析領域內(nèi)的研究情況。使用對稱視角下標準化處理的關鍵詞共現(xiàn)矩陣可以分析領域內(nèi)的最新前沿研究動向,在對稱視角下進行標準化處理后的聚類結(jié)果既消除了高頻關鍵詞的影響,也未割除關鍵詞之間的關聯(lián)性。

      5.3 ?動態(tài)主題識別結(jié)果分析

      基于前兩組的實驗結(jié)果,第三組實驗仍以融合了文獻和作者雙視角下的關鍵詞共現(xiàn)矩陣數(shù)據(jù)為例,并進行非對稱視角下的標準化處理操作,然后對比非負矩陣分解算法和非負張量分解算法在動態(tài)主題識別過程中的優(yōu)劣性。由于非負矩陣分解算法處理的數(shù)據(jù)是矩陣形式,因此需要對2017-2021年期間的關鍵詞共現(xiàn)矩陣按年進行時間分片,共需進行5次聚類,每年聚類的數(shù)據(jù)集為當年出現(xiàn)的所有關鍵詞之間的共現(xiàn)矩陣;非負張量分解算法可以處理高維數(shù)據(jù)形式,因此可以直接對2017-2021年的所有關鍵詞進行整體聚類,首先構(gòu)造一個三階張量,按年份維度可劃分為5片,每片為2017-2021年期間出現(xiàn)的所有關鍵詞在某一年份中的共現(xiàn)矩陣。非負矩陣分解算法和非負張量分解算法的聚類結(jié)果見表3。

      可以看出,非負矩陣分解算法下的聚類結(jié)果,在2017-2021年期間各年份的主要研究熱點大致相同(每個類團中的主導關鍵詞大致相同),但每個研究熱點下的研究方向與研究細度略有差異(每個類團中的關鍵詞數(shù)量及種類有所差異),而非負張量分解只對2017-2021年期間的關鍵詞進行了一次聚類,聚類結(jié)果與非負矩陣分解算法的結(jié)果整體較為吻合(非負張量分解的聚類結(jié)果中的各主導詞為非負矩陣分解聚類結(jié)果5年內(nèi)出現(xiàn)較多的主導詞)。

      非負矩陣分解算法對2017-2021年期間的關鍵詞共現(xiàn)矩陣進行了逐年多次聚類,而非負張量分解算法則是利用五年間關鍵詞聯(lián)系及演化得到五年間主題的識別與演化,即它所聚類出的主題為這5年間出現(xiàn)的所有主題,然后利用分解后核心張量的結(jié)果,得到這所有主題在每年出現(xiàn)的概率或是研究強度,從而實現(xiàn)了只需一次聚類便可進行分析多年研究情況的動態(tài)主題識別。但是由于非負張量分解只進行了一次聚類,所以各年份出現(xiàn)的相同主題的研究內(nèi)容都保持不變,相對綜合,而非負矩陣分解是對各年分別進行單獨聚類,因此不同年份可能主題相似,但內(nèi)容有所差異,即非負矩陣分解在動態(tài)主題識別時對各主題的研究內(nèi)容刻畫得更為細致。

      此外,通過對非負矩陣分解下的各年份聚類結(jié)果利用jaccard相似度算法計算主題相似度,得到主題演化脈絡圖(見圖8),而非負張量分解下的聚類結(jié)果可以利用核心張量得到各年份主題的研究強度圖(見圖9),這種主題研究強度并非以主題的關鍵詞數(shù)量或者頻次來衡量,而是通過各年份關鍵詞之間的共現(xiàn)變化關系而得出的主題演化強度,非負矩陣分解則較難實現(xiàn)這點。

      圖8 ?2017-2021年知識管理領域主題演化(非負矩陣分解)

      圖9 ?2017-2021年知識管理領域主題強度(非負張量分解)

      該組實驗結(jié)果表明:如果想對領域內(nèi)的研究情況進行大致的分析,可以采用非負張量分解算法,該算法簡單快捷,只需一次聚類便可得到各年份的研究主題及研究強度等信息,大大降低了算法的復雜度,也減少了信息的損失。如果想細致地分析領域內(nèi)各年份的研究情況可以采用非負矩陣分解進行逐年分析,這樣可以得到各年份主題的具體研究內(nèi)容及變化,也可以得到不同年份之間的主題演化情況,不足之處在于需要進行多次聚類及數(shù)據(jù)處理,且難以觀察由于關鍵詞共現(xiàn)演化帶來的主題演化情況。

      綜上,在利用關鍵詞共現(xiàn)數(shù)據(jù)進行領域主題識別時,選擇融合文獻和作者雙視角下的關鍵詞共現(xiàn)矩陣數(shù)據(jù)更能全面地反映領域內(nèi)的研究情況;在利用共現(xiàn)數(shù)據(jù)進行主題識別時,需要對共現(xiàn)數(shù)據(jù)利用相似度度量進行標準化處理,其中在對稱視角下進行標準化處理可以消除高頻關鍵詞的影響,分析領域內(nèi)的前沿動向,在非對稱視角下進行標準化處理可以研究領域內(nèi)的熱點問題;在進行動態(tài)主題識別過程中,非負張量分解算法可以簡單快速地獲取領域內(nèi)的研究主題及其在各年的研究強度,而非負矩陣分解則可以更為細致深入地刻畫主題以及主題的演化脈絡,但是需要進行多次操作。

      6 ?結(jié)束語

      本文針對傳統(tǒng)基于詞共現(xiàn)矩陣的動態(tài)主題識別研究中需要進行多次聚類的不足,提出一種新的數(shù)據(jù)構(gòu)建方式及處理方法,基于張量結(jié)構(gòu)的數(shù)據(jù)形式可以在詞共現(xiàn)矩陣中融入時間維度,盡可能地保留數(shù)據(jù)的原始信息,基于非負張量分解算法的動態(tài)主題識別只需進行一次聚類便可得到各年份的主題情況,有效避免了信息的損失。此外,本文還對幾種詞共現(xiàn)矩陣的構(gòu)造方式及矩陣處理方法進行了探討:在數(shù)據(jù)集的構(gòu)建方式上,分別從文獻視角、作者視角以及融合文獻和作者雙視角構(gòu)建了關鍵詞共現(xiàn)矩陣;在數(shù)據(jù)處理方式上,分別從對稱視角和非對稱視角利用相似性度量對共現(xiàn)矩陣進行了標準化操作,并對比了標準化操作對主題識別結(jié)果的影響。實驗結(jié)果表明:融合文獻和作者雙視角下的關鍵詞共現(xiàn)矩陣可以更全面地反映領域內(nèi)的知識結(jié)構(gòu),對稱視角下的標準化處理與非對稱視角下的標準化處理在分析研究熱點與研究前沿上各具優(yōu)勢。本文旨在為基于關鍵詞共現(xiàn)的主題識別研究提供一些方法和流程上的參考,提高主題識別精度,為科技決策提供更好的支撐。

      參考文獻:

      [1] BUSH V. As we may think[J]. The Atlantic monthly, 1945 (7): 1-2 .

      [2] 劉向, 馬費成, 陳瀟俊, 等.知識網(wǎng)絡的結(jié)構(gòu)與演化——概念與理論進展[J].情報科學, 2011, 29(6): 801-809.

      [3] 巴志超, 楊子江, 朱世偉, 等.基于關鍵詞語義網(wǎng)絡的領域主題演化分析方法研究[J].情報理論與實踐, 2016, 39(3): 67-72.

      [4] 王莉亞.主題演化研究進展[J].情報探索, 2014(4): 29-32.

      [5] 邵作運, 李秀霞.引文分析法與內(nèi)容分析法結(jié)合的文獻知識發(fā)現(xiàn)方法綜述[J].情報理論與實踐, 2020, 43(3): 153-159.

      [6] 鄒麗雪, 王麗, 劉細文.利用引文構(gòu)建的主題模型研究進展[J].圖書情報工作, 2019, 63(23): 131-138.

      [7] 祝清松, 冷伏海.基于引文主路徑文獻共被引的主題演化分析[J].情報學報, 2014, 33(5): 498-506.

      [8] 黃福, 侯海燕, 任佩麗, 等.基于共被引與文獻耦合的研究前沿探測方法鄰選[J].情報雜志, 2018, 37(12): 13-19, 35.

      [9] 宋艷輝, 武夷山.基于作者文獻耦合分析的情報學知識結(jié)構(gòu)研究[J].圖書情報工作, 2014, 58(1): 117-123.

      [10] 張潔, 王紅.基于詞頻分析和可視化共詞網(wǎng)絡圖的國內(nèi)外移動學習研究熱點對比分析[J].現(xiàn)代遠距離教育, 2014(2): 76-83.

      [11] 葉春蕾, 冷伏海.基于共詞分析的學科主題演化方法改進研究[J].情報理論與實踐, 2012, 35(3): 79-82.

      [12] 奉國和, 孔泳欣.基于時間加權(quán)關鍵詞詞頻分析的學科熱點研究[J].情報學報, 2020, 39(1): 100-110.

      [13] 儲節(jié)旺, 錢倩.基于詞頻分析的近10年知識管理的研究熱點及研究方法[J].情報科學, 2014, 32(10): 156-160.

      [14] 姜鑫, 王德莊, 馬海群.關鍵詞詞頻變化視角下我國“科學數(shù)據(jù)”領域研究主題演化分析[J].現(xiàn)代情報, 2018, 38(1): 141-146, 161.

      [15] 趙麗梅, 張花.我國大數(shù)據(jù)時代數(shù)字圖書館研究前沿分析——基于共詞分析的視角[J].情報科學, 2019, 37(3): 97-104.

      [16] 唐果媛, 張薇.基于共詞分析法的學科主題演化研究進展與分析[J].圖書情報工作, 2015, 59(5): 128-136.

      [17] 胡吉明, 陳果.基于動態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J].圖書情報工作, 2014, 58(2): 138-142.

      [18] 楊超, 朱東華, 汪雪鋒, 等.專利技術主題分析: 基于SAO結(jié)構(gòu)的LDA主題模型方法[J].圖書情報工作, 2017, 61(3): 86-96.

      [19] KIM J, HWANG M, JEONG D H, et al. Technology trends analysis and forecasting application based on decision tree and statistical feature analysis[J]. Expert systems with applications, 2012, 39(16): 12618-12625.

      [20] WALTMAN L, VANECK N J. Some comments on the question whether co-occurrence data should be normalized[J]. Journal of the American Society for Information Science and Technology, 2007, 58(11): 1701-1703.

      [21] LEYDESDORFF L. Should co-occurrence data be normalized? a rejoinder[J]. Journal of the American Society for Information Science and Technology, 2007, 58(14): 2411-2413.

      [22] van ECK N J, WALTMAN L. How to normalize cooccurrence data? an analysis of some well-known similarity measures[J].Journal of the American Society for Information Science and Technology, 2009, 60(8): 1635-1651.

      [23] PAATERO P, TAPPER U. Positive matrix factorization: a nonnegative factor model with optimal utilization of error estimates of data values[J]. Environmetrics, 1994, 5(2): 111-126.

      [24] 章祥蓀, 張忠元. 非負矩陣分解: 模型、算法和應用[J].重慶師范大學學報(自然科學版), 2013, 30(6): 1-8.

      [25] 吳繼冰, 黃宏斌, 鄧蘇.網(wǎng)絡異構(gòu)信息的張量分解聚類方法[J].國防科技大學學報, 2018, 40(5): 146-152, 170.

      [26] 熊李艷, 何雄, 黃曉輝, 等.張量分解算法研究與應用綜述[J].華東交通大學學報, 2018, 35(2): 120-128.

      [27] 程齊凱, 王曉光.一種基于共詞網(wǎng)絡社區(qū)的科研主題演化分析框架[J].圖書情報工作, 2013, 57(8): 91-96.

      [28] LUO J, GWUN O. A comparison of sift PCA-SIFT and SURF[J]. International journal of image processing, 2009, 3(4): 143-152.

      [29] CICHOCKI A, ZDUNEK R, PHAN A H, et al. Nonnegative matrix and tensor factorizations:applications to exploratory multi-way data analysis and blind source separation[M]. Hoboken: Wiley Publishing, 2009.

      [30] 熊李艷, 何雄, 黃曉輝, 等.張量分解算法研究與應用綜述[J].華東交通大學學報, 2018, 35(2): 120-128.

      作者貢獻說明:

      方 ?潔:提出研究思路,進行論文指導及修訂;

      崔蘭蘭:進行數(shù)據(jù)采集、研究思路設計、數(shù)據(jù)分析、論文撰寫及修訂。

      Research on Dynamic Topic Recognition Based on the Change of Word Co-Occurrence Frequency

      Xi Chongjun ?Liu Wenbin ?Ding Kai

      Institute of Science and Technology Information of China, Beijing 100038

      Abstract: [Purpose/Significance] The research on topic recognition is very important to clarify the knowledge structure and research hotspots in the field. Dynamic identification of domain topics can help researchers understand and master the development trend and future trend of the field. [Method/Process] Using the data structure form of tensor, this paper integrated the time dimension into the word co-occurrence matrix, and only needed one clustering to identify the dynamic topic. [Result/Conclusion] Tensor structure and non-negative tensor decomposition algorithm provide a new method for dynamic topic recognition from the perspective of word co-occurrence frequency change. Compared with traditional methods, this method is simpler and faster, and effectively avoids the loss of information.

      Keywords: keyword co-occurrence ? ?non-negative matrix factorization ? ?non-negative tensor factorization ? ?dynamic topic recognition ? ? knowledge management

      作者簡介:席崇俊,碩士研究生,E-mail:xicj7465@163.com;劉文斌,碩士研究生;丁楷,碩士研究生。

      收稿日期:2021-10-22 ? ? ? ?發(fā)表日期:2022-03-24 ? ? ? ?本文責任編輯:劉遠穎

      猜你喜歡
      張量聚類領域
      偶數(shù)階張量core逆的性質(zhì)和應用
      四元數(shù)張量方程A*NX=B 的通解
      領域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      擴散張量成像MRI 在CO中毒后遲發(fā)腦病中的應用
      基于改進的遺傳算法的模糊聚類算法
      新常態(tài)下推動多層次多領域依法治理初探
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      工程中張量概念的思考
      河南科技(2014年19期)2014-02-27 14:15:33
      自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      孙吴县| 安塞县| 乐至县| 祁连县| 梅河口市| 西林县| 榆社县| 贡嘎县| 砚山县| 巩留县| 西宁市| 永新县| 闽清县| 庆元县| 武义县| 蓝田县| 璧山县| 利川市| 白朗县| 寿宁县| 常山县| 日照市| 汕尾市| 江都市| 新宾| 沂水县| 沂南县| 郧西县| 安国市| 尼木县| 山阳县| 东莞市| 汶川县| 永胜县| 裕民县| 吐鲁番市| 光山县| 佛学| 云龙县| 图木舒克市| 克拉玛依市|