• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CW_UEOC社區(qū)檢測(cè)算法的共詞聚類研究

      2022-03-08 09:20:12牛奉高邰志琴許超
      關(guān)鍵詞:共詞聚類節(jié)點(diǎn)

      牛奉高,邰志琴,許超

      (山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)

      0 引言

      隨著現(xiàn)代科學(xué)的發(fā)展,跨學(xué)科研究逐漸增多,學(xué)科交叉情況日益突出,科學(xué)體系日益復(fù)雜,預(yù)測(cè)和評(píng)估新的學(xué)科生長(zhǎng)點(diǎn)越來(lái)越困難[1]。為了正確制定科學(xué)發(fā)展政策,規(guī)避科研投資風(fēng)險(xiǎn),準(zhǔn)確把握科學(xué)發(fā)展方向,挖掘潛在知識(shí),分析科學(xué)知識(shí)網(wǎng)絡(luò)的結(jié)構(gòu)特征及其演化過(guò)程,我們還需要將目光關(guān)注在由文章關(guān)鍵詞及其共現(xiàn)關(guān)系形成的共詞網(wǎng)絡(luò)上[2]。

      共詞分析主要是利用關(guān)鍵詞和文獻(xiàn)的共現(xiàn)關(guān)系,通過(guò)相似度度量反映關(guān)鍵詞間的親疏關(guān)系,以此為基礎(chǔ)進(jìn)行聚類分析,解讀研究領(lǐng)域內(nèi)的主題熱點(diǎn),分析學(xué)科的發(fā)展趨勢(shì)。在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中,關(guān)鍵詞相互關(guān)聯(lián),具有普遍意義的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),隨著復(fù)雜網(wǎng)絡(luò)的逐漸成熟,越來(lái)越多的人借用復(fù)雜網(wǎng)絡(luò)的方法來(lái)分析共詞網(wǎng)絡(luò)[3]。本文主要針對(duì)基于共詞分析的聚類過(guò)程中沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)確定分類數(shù)目,關(guān)鍵詞只能劃分為一類的不足,基于復(fù)雜網(wǎng)絡(luò)中的UEOC社區(qū)檢測(cè)算法(unfold and extract overlapping communities)上進(jìn)行改進(jìn),提出了應(yīng)用于共詞分析的CW_UEOC社區(qū)檢測(cè)算法,通過(guò)實(shí)證,驗(yàn)證了算法的合理性,其結(jié)果也從側(cè)面反映了該學(xué)科近年來(lái)的研究熱點(diǎn)和動(dòng)向,為今后該學(xué)科的研究提供了一定的參考價(jià)值。

      本文第1部分對(duì)國(guó)內(nèi)外關(guān)于共詞分析和社區(qū)檢測(cè)的相關(guān)研究進(jìn)行介紹;第2部分綜述共詞網(wǎng)絡(luò)的產(chǎn)生和UEOC社區(qū)檢測(cè)算法;第3部分介紹本文提出的CW_UEOC社區(qū)檢測(cè)算法;第4部分進(jìn)行實(shí)證分析并結(jié)合戰(zhàn)略坐標(biāo)方法進(jìn)行討論;第5部分進(jìn)行總結(jié)并給出下一步的研究工作。

      1 國(guó)內(nèi)外研究現(xiàn)狀

      共詞分析的研究已經(jīng)有很多相關(guān)研究工作,其最早由Callon和Courtial等人提出,其目的是深入文獻(xiàn)內(nèi)部[4]。在實(shí)際應(yīng)用中,共詞分析的流程可以概括為以下4個(gè)步驟:確定研究領(lǐng)域,提取關(guān)鍵詞;構(gòu)建共詞矩陣,進(jìn)行相似度測(cè)量;使用聚類算法,進(jìn)行聚類分析;對(duì)聚類結(jié)果進(jìn)行人工解讀。作為一種研究方法,共詞分析存在很多不足,雖然共詞分析每個(gè)環(huán)節(jié)都需要改進(jìn),但是國(guó)內(nèi)外研究人員對(duì)共詞分析的研究主要集中在兩個(gè)方面:一是基于關(guān)鍵詞的選擇和優(yōu)化,一是共詞聚類方法的改進(jìn)。Persson對(duì)關(guān)鍵詞的數(shù)量進(jìn)行了劃定,認(rèn)為進(jìn)行共詞分析的關(guān)鍵詞數(shù)量最好是40個(gè)~50個(gè)左右[5];楊愛青等提出將g指數(shù)作為關(guān)鍵詞的選取指標(biāo)[6];胡昌平等引入詞語(yǔ)貢獻(xiàn)度作為新的特征詞選擇方法[7];朱夢(mèng)嫻等引進(jìn)Blondel社區(qū)檢測(cè)算法進(jìn)行關(guān)鍵詞聚類,引入Z-value確定核心關(guān)鍵詞[8];孫海生引入連邊社區(qū)檢測(cè)算法作為新的共詞聚類方法[3];李綱等基于低頻詞、高頻詞、突發(fā)詞提出三種關(guān)鍵詞混合選擇策略作為新的主題詞的選擇方法[9];虞秋雨等基于詞頻g指數(shù)構(gòu)建了一種確定高頻關(guān)鍵詞閾值的方法[10]。

      與本文相關(guān)的研究還包括復(fù)雜網(wǎng)絡(luò)中社區(qū)檢測(cè)算法的研究,社區(qū)檢測(cè)是利用復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中所蘊(yùn)藏的信息從復(fù)雜網(wǎng)絡(luò)中解析出其模塊化的社區(qū)結(jié)構(gòu),挖掘復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)研究的基礎(chǔ)性問(wèn)題。在非重疊社區(qū)檢測(cè)算法中,學(xué)者們依據(jù)對(duì)節(jié)點(diǎn)集采用的劃分標(biāo)準(zhǔn)不同將目前流行的社區(qū)檢測(cè)算法大致劃分為以下四類:模塊度優(yōu)化算法、譜分析法、信息論方法、標(biāo)簽傳播方法[11]?;谀K度Q值優(yōu)化問(wèn)題提出的算法是目前研究最多的一種算法[12]。2002 年,Newman 等[13]基于模塊度的優(yōu)化提出了自頂向下的分裂算法GN算法,2005年,Duch等[14]利用模塊度提出直接尋優(yōu)法——EO算法,2008年,Blondel等[15]基于模塊度提出了自底向上的圖凝聚算法Louvain算法,2017年,Pramanik等[16]提出了一種多層模塊度指標(biāo)QM,通過(guò)最大化該指標(biāo)來(lái)衡量多層網(wǎng)絡(luò)中社區(qū)的質(zhì)量,該方法無(wú)須輸入?yún)?shù)就能獲得較好的社團(tuán)結(jié)構(gòu)?;谀K度優(yōu)化的算法能夠較為準(zhǔn)確的識(shí)別網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),但是計(jì)算復(fù)雜度偏高,當(dāng)網(wǎng)絡(luò)的規(guī)模變大時(shí),搜索空間將會(huì)變得非常大。譜分析法主要基于特定圖矩陣的特征向量導(dǎo)出節(jié)點(diǎn)的特征,將節(jié)點(diǎn)對(duì)應(yīng)的矩陣特征分量看作空間坐標(biāo),將網(wǎng)絡(luò)節(jié)點(diǎn)映射到多維特征向量空間中,運(yùn)用傳統(tǒng)聚類方法將節(jié)點(diǎn)聚成社區(qū)。2004年,Donetti等[17]基于節(jié)點(diǎn)間的距離度量,在多維特征空間中建立聚類樹圖,選擇全局模塊度最大的聚類作為社區(qū)檢測(cè)結(jié)果。從信息論方法考慮,Rosvall等[18]提出將網(wǎng)絡(luò)的模塊化看作對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的一種有損壓縮,從而將社區(qū)檢測(cè)問(wèn)題轉(zhuǎn)換為尋找信息損失最小的問(wèn)題。復(fù)雜網(wǎng)絡(luò)的邊是個(gè)體之間的信息傳播的途徑,基于節(jié)點(diǎn)標(biāo)簽按照相似度傳播給相鄰節(jié)點(diǎn)的思想,Raghavan等[19]提出一種快速標(biāo)簽傳播算法(LPA算法)。2019年,Alimadadi等[20]提出了多層網(wǎng)絡(luò)上的節(jié)點(diǎn)相似性度量,將單層網(wǎng)絡(luò)標(biāo)簽傳播算法擴(kuò)展到多層網(wǎng)絡(luò)中,該方法可以快速地挖掘出多層網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)。然而,在現(xiàn)實(shí)世界中的網(wǎng)路模塊并不總是分明的,因而許多研究者們提出了重疊社區(qū)檢測(cè)算法。Xie等[21]提煉出14種重疊社區(qū)檢測(cè)算法,并將算法分成5類,分別為團(tuán)滲透算法(Clique Perco?lation Method)[22-23],邊分割(line Partitioning),基于代理和動(dòng)態(tài)算法(Agent based and Dynamic Al?gorithms)[24],局部擴(kuò)展與優(yōu)化(Local Expansion and Optimization)。以及模糊檢測(cè)(Fuzzy Detec?tion)[25]。本文使用的重疊社區(qū)檢測(cè)算法屬于代理和動(dòng)態(tài)算法,本文第2、3部分將詳細(xì)介紹相關(guān)算法。

      2 研究方法

      2.1 共詞網(wǎng)絡(luò)概述

      共詞網(wǎng)絡(luò)是由文章關(guān)鍵詞與關(guān)鍵詞之間的共現(xiàn)關(guān)系共同構(gòu)成的一類表達(dá)科學(xué)知識(shí)領(lǐng)域結(jié)構(gòu)的客觀知識(shí)網(wǎng)絡(luò)[1]。然而我們獲得的初始數(shù)據(jù)通常是文章-關(guān)鍵詞的二模網(wǎng)絡(luò)。從文章-關(guān)鍵詞的二模網(wǎng)絡(luò)到我們所需的關(guān)鍵詞-關(guān)鍵詞一模共現(xiàn)網(wǎng)絡(luò)的基本構(gòu)建過(guò)程如圖1所示。圖1中存在 I、II、III、IV 四篇文章,分別擁有 3、4、4、3個(gè)關(guān)鍵詞。我們將每一個(gè)關(guān)鍵詞視為節(jié)點(diǎn),利用在同一篇文獻(xiàn)中產(chǎn)生的共現(xiàn)關(guān)系形成連線,這樣我們就構(gòu)成了共詞網(wǎng)絡(luò)。

      圖1 共詞網(wǎng)絡(luò)的基本構(gòu)建過(guò)程模型Fig.1 Basic construction process model of the coword network

      2.2 UEOC社區(qū)檢測(cè)算法概述

      社區(qū)是網(wǎng)絡(luò)科學(xué)中的重要概念,社區(qū)是這樣一些節(jié)點(diǎn)的集合:社區(qū)內(nèi)部節(jié)點(diǎn)聯(lián)系緊密,而社區(qū)間的聯(lián)系遠(yuǎn)少于社區(qū)內(nèi)部。2011年,Jin等人[24]在馬爾科夫隨機(jī)游走的基礎(chǔ)上提出了在復(fù)雜網(wǎng)絡(luò)上發(fā)現(xiàn)重疊社區(qū)的UEOC算法,社區(qū)檢測(cè)基于最小化AC值(average conductance)上[26],實(shí)驗(yàn)結(jié)果表明,UEOC可以有效地發(fā)現(xiàn)重疊社區(qū)。

      UEOC社區(qū)檢測(cè)算法思想是:S1:選取度最大且未歸屬社區(qū)的節(jié)點(diǎn)s;S2:利用結(jié)合了退火網(wǎng)絡(luò)約束策略的馬爾科夫隨機(jī)游走思想展開節(jié)點(diǎn)S的自然群落;S3:基于最小化連通度(con?ductance函數(shù))的截?cái)鄿?zhǔn)則,提取出截?cái)帱c(diǎn)之前的節(jié)點(diǎn),將這些節(jié)點(diǎn)視為一個(gè)社區(qū);S4:若仍有未歸屬給任何社區(qū)的節(jié)點(diǎn),從S1重復(fù),直到每個(gè)節(jié)點(diǎn)都有歸屬的社區(qū)。

      UEOC社區(qū)檢測(cè)算法的核心是展開(Unfold?ing a community)和提取(Extracting the emerged community)社區(qū),S2和S3分別是用來(lái)展開和提取社區(qū)的方法。

      2.2.1 展開社區(qū)的思想

      a)計(jì)算轉(zhuǎn)移概率,其計(jì)算方式由式(1)所示:

      b)考慮同分布的退火網(wǎng)絡(luò)R,計(jì)算退火網(wǎng)絡(luò)的轉(zhuǎn)移概率,其計(jì)算方式由式(2)所示:

      2.2.2 提取社區(qū)的思想

      a.將關(guān)聯(lián)概率為0的節(jié)點(diǎn)從排序后的節(jié)點(diǎn)表L中刪除;

      b.計(jì)算節(jié)點(diǎn)表L中每個(gè)節(jié)點(diǎn)的連通度(conduc?tance函數(shù)值)φ(S)。φ(S)由式(5)可得:

      連通度表示社區(qū)外連接邊的個(gè)數(shù)與社區(qū)內(nèi)節(jié)點(diǎn)度總和的比值。而截?cái)鄿?zhǔn)則要求在最小連通度處(社區(qū)之間的連接比社區(qū)內(nèi)的連接的值最?。┻M(jìn)行截?cái)啵瑢⑶懈铧c(diǎn)前的節(jié)點(diǎn)序列構(gòu)成一個(gè)社區(qū)。再?gòu)纳鐓^(qū)外的點(diǎn)選取度最大的節(jié)點(diǎn)重復(fù)實(shí)驗(yàn),直至所有節(jié)點(diǎn)都被劃分到特定社區(qū)中。

      3 CW_UEOC社區(qū)檢測(cè)算法

      我們將改進(jìn)的共現(xiàn)加權(quán)UEOC社區(qū)檢測(cè)算法(Co-occurrence weighting unfold and extract overlap?ping communities)命名為CW_UEOC社區(qū)檢測(cè)算法。CW_UEOC社區(qū)檢測(cè)算法的核心仍然是展開和提取社區(qū)。CW_UEOC社區(qū)檢測(cè)算法在展開社區(qū)部分b~e部分pij替換成我們的共現(xiàn)加權(quán)權(quán)重cwij。再按照以下步驟進(jìn)行社區(qū)檢測(cè):S1:選取度最大且未歸屬社區(qū)的節(jié)點(diǎn)s;S2:使用替換后的共現(xiàn)加權(quán)權(quán)重cwij結(jié)合約束策略的馬爾科夫隨機(jī)游走展開節(jié)點(diǎn)S的自然群落;S3:基于最小化連通度的截?cái)鄿?zhǔn)則,提取出截?cái)帱c(diǎn)之前的節(jié)點(diǎn),將這些節(jié)點(diǎn)視為一個(gè)社區(qū);S4:若仍有未歸屬給任何社區(qū)的節(jié)點(diǎn),從S1重復(fù),直到每個(gè)節(jié)點(diǎn)都有歸屬的社區(qū)。

      我們使用AC值評(píng)估社區(qū)檢測(cè)算法性能,其計(jì)算由式(8)可得:

      其中K:社區(qū)數(shù)量,Ci:第i個(gè)社區(qū),φ(S):社區(qū)S的連通度。由于AC值表示社區(qū)間連接與社區(qū)內(nèi)節(jié)點(diǎn)連接的比值,故AC值越小社區(qū)檢測(cè)算法性能越好。我們選擇使AC值最小的轉(zhuǎn)移步數(shù)l。

      4 實(shí)證分析

      4.1 數(shù)據(jù)來(lái)源與處理

      本文選取了web of science核心合集上2016-2020年五年間的Information Science&Library Sci?ence領(lǐng)域上JCR(期刊影響因子)排名前5的期刊的文獻(xiàn)題錄數(shù)據(jù)作為研究對(duì)象,其檢索式如表1所示,研究過(guò)程中使用R語(yǔ)言的bibliometrix包[28],共計(jì)發(fā)文總數(shù)1 492 篇。設(shè) D={D1,D2,…,Dn},其中 Di代表每篇文章,Di={AU,DE,ID,…,JI,…,PY},每個(gè)字段分別表示作者、關(guān)鍵詞、補(bǔ)充關(guān)鍵詞、期刊、出版年等。

      表1 文獻(xiàn)數(shù)據(jù)檢索式Table 1 Formula for retrieving literature data

      4.1.1 核心關(guān)鍵詞選取

      我們對(duì)獲得的1 492篇文獻(xiàn)數(shù)據(jù)作為研究對(duì)象,統(tǒng)計(jì)顯示,這1 492篇文章共包含5 785個(gè)唯一關(guān)鍵詞,共出現(xiàn)了9 147次,這意味著平均每篇文章的關(guān)鍵詞為6.13個(gè)。

      在統(tǒng)計(jì)了所有詞匯的詞頻后,我們分析了他們的分布情況,如圖2所示(圖2中的橫縱坐標(biāo)均為對(duì)數(shù)坐標(biāo)),由于關(guān)鍵詞詞頻對(duì)數(shù)分布符合線性分布,表明所有關(guān)鍵詞的詞頻分布符合冪律分布(p<2e-16)。這意味著詞匯中存在少量且核心的關(guān)鍵詞,這些關(guān)鍵詞是科學(xué)知識(shí)發(fā)展的關(guān)鍵概念,具有重要的研究?jī)r(jià)值。我們使用詞頻大于10的關(guān)鍵詞,其累計(jì)頻次為14.58%,如表2所示。

      圖2 關(guān)鍵詞詞頻對(duì)數(shù)分布Fig.2 Logarithmic distribution of keyword frequency

      4.1.2 核心關(guān)鍵詞共詞網(wǎng)絡(luò)

      在復(fù)雜網(wǎng)絡(luò)中常用的三個(gè)分析指標(biāo):密度、聚集系數(shù)和平均距離。而由表2關(guān)鍵詞所構(gòu)建的共詞網(wǎng)絡(luò)其密度、聚集系數(shù)和平均距離等統(tǒng)計(jì)結(jié)果由表3所示。統(tǒng)計(jì)顯示核心關(guān)鍵詞共詞網(wǎng)絡(luò)其聚集系數(shù)為0.277 5,大于其對(duì)應(yīng)的隨機(jī)網(wǎng)絡(luò),而網(wǎng)絡(luò)的平均距離為1.997 3,與對(duì)應(yīng)的隨機(jī)網(wǎng)絡(luò)的平均距離差別不大,這一結(jié)果表明共詞網(wǎng)絡(luò)具有小世界現(xiàn)象[29]。統(tǒng)計(jì)還顯示該網(wǎng)絡(luò)的密度是0.159 6,這表明該網(wǎng)絡(luò)是十分稠密的網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)的連接比較豐富,這意味著情報(bào)學(xué)與圖書館學(xué)研究已經(jīng)趨于成熟。

      表2 詞頻大于10的核心關(guān)鍵詞Table 2 Core keywords with word frequency greater than 10

      表3 共詞網(wǎng)絡(luò)的特征指標(biāo)Table 3 Characteristic indexes of co-word networks

      4.2 結(jié)果與分析

      4.2.1 基于CW_UEOC社區(qū)檢測(cè)算法的共詞分析結(jié)果

      為了可視化分析核心關(guān)鍵詞共詞網(wǎng)絡(luò)的結(jié)構(gòu)特征,由表4可得,當(dāng)l=16時(shí),算法收斂,且可得l=3時(shí),其AC值最小,故令CW_UEOC算法的轉(zhuǎn)移步數(shù)l=3,利用R語(yǔ)言繪制基于CW_UEOC社區(qū)檢測(cè)算法得到的節(jié)點(diǎn)聚類可視化圖(關(guān)鍵詞序號(hào)與對(duì)應(yīng)關(guān)鍵詞如表2所示),如圖3所示,共6個(gè)社區(qū)。圖中歸屬于同一社區(qū)的節(jié)點(diǎn)使用同一顏色,重疊節(jié)點(diǎn)則屬于多個(gè)顏色,可以看出近年來(lái)學(xué)科交叉,學(xué)科融合是情報(bào)和圖書館學(xué)科領(lǐng)域的發(fā)展趨勢(shì)。根據(jù)社區(qū)檢測(cè)結(jié)果,情報(bào)學(xué)與圖書館學(xué)的熱點(diǎn)問(wèn)題歸納為:①社會(huì)媒體與情感分析;②大數(shù)據(jù)與計(jì)算機(jī)技術(shù);③計(jì)算機(jī)技術(shù)與物聯(lián)網(wǎng);④社交網(wǎng)絡(luò)與物聯(lián)網(wǎng);⑤社交媒體與信息技術(shù);⑥人工智能與電子商務(wù)。

      表4 轉(zhuǎn)移步數(shù)l與社區(qū)Table 4 Transfer steps l and community

      在復(fù)雜網(wǎng)絡(luò)中,重疊節(jié)點(diǎn)往往具備多種功能,在社團(tuán)間往往起著樞紐作用,共詞網(wǎng)絡(luò)節(jié)點(diǎn)的重疊性,恰能反映主題歸屬的多樣性,算法的結(jié)果表明有55個(gè)節(jié)點(diǎn)屬于重疊節(jié)點(diǎn),有6個(gè)重疊社區(qū)。其中節(jié)點(diǎn)歸屬最多的節(jié)點(diǎn)同時(shí)屬于4個(gè)社區(qū),同時(shí)歸屬于4個(gè)社區(qū)的節(jié)點(diǎn)有節(jié)點(diǎn)20、31、34、35、42、61(即MANAGEMENT、TECHNOLOGY、PRIVACY、INTERNETOFTHINGS、AFFORDANCES、CROWDFUNDING)。顯然,圖3顯示CW_UEOC社區(qū)檢測(cè)算法可以發(fā)現(xiàn)共詞網(wǎng)絡(luò)中節(jié)點(diǎn)的重疊。

      圖3 關(guān)鍵詞節(jié)點(diǎn)聚類Fig.3 Keyword node clustering

      4.2.2 實(shí)驗(yàn)結(jié)果對(duì)比

      我們使用基于walktrap社區(qū)檢測(cè)算法的戰(zhàn)略坐標(biāo)分析來(lái)擴(kuò)展我們對(duì)情報(bào)學(xué)與圖書館學(xué)主題的分析,戰(zhàn)略坐標(biāo)系方法是Law等人最先提出,用來(lái)描述某一研究領(lǐng)域內(nèi)部聯(lián)系情況和領(lǐng)域間相互影響情況[30]。在戰(zhàn)略坐標(biāo)圖中,關(guān)鍵詞與其他類別關(guān)鍵詞共現(xiàn)強(qiáng)度的總和為向心度值(centrality);關(guān)鍵詞與同類其他關(guān)鍵詞共現(xiàn)強(qiáng)度的總和為密度值(densi?ty),以向心度和密度分別為X軸和Y軸,以密度和向心度的平均值為原點(diǎn)繪制戰(zhàn)略坐標(biāo)圖,分析情報(bào)學(xué)和圖書館學(xué)的熱點(diǎn)方向,圖4是基于walktrap社區(qū)檢測(cè)算法的戰(zhàn)略坐標(biāo)分析。戰(zhàn)略坐標(biāo)將關(guān)鍵詞劃分為四個(gè)象限,用來(lái)描述各主題的研究發(fā)展?fàn)顩r。處于第一象限的關(guān)鍵詞,其密度和向心度都較高,主題內(nèi)部連接緊密,且與其他類別的聯(lián)系也更大,研究趨向成熟,并且處于研究網(wǎng)絡(luò)的中心位置。處于第二象限的關(guān)鍵詞,主題領(lǐng)域內(nèi)部連接緊密,其研究已經(jīng)形成了一定的規(guī)模,有很多外圍的社會(huì)組織加入研究,屬于前沿研究領(lǐng)域。處于第三象限的關(guān)鍵詞其密度和向心度都較低,是整個(gè)領(lǐng)域的邊緣主題,研究尚不成熟。處于第四象限的關(guān)鍵詞結(jié)構(gòu)不緊密,研究尚不成熟,但研究人員都有興趣,具有潛在的發(fā)展趨勢(shì)[31-32]。

      如圖4所示,關(guān)鍵詞17、20、31、34、35、37、42、45、46、47、48、49、54、55、59、61、66、67、72、75、77處于第一象限,其研究趨向成熟,而且由于在第一象限的關(guān)鍵詞其向心度也高于其他關(guān)鍵詞,更容易與其他類別產(chǎn)生交叉,而基于CW_UEOC社區(qū)檢測(cè)算法共詞分析聚類結(jié)果中同時(shí)歸屬于4個(gè)社區(qū)的節(jié)點(diǎn)也同樣處于戰(zhàn)略坐標(biāo)圖的第一象限,此外,圖4第一象限中也存在一部分有CW_UEOC社區(qū)檢測(cè)算法中識(shí)別的重疊數(shù)目為3的節(jié)點(diǎn)。對(duì)比可得,基于CW_UEOC的共詞聚類算法識(shí)別的重疊節(jié)點(diǎn)同樣是walktrap算法中向心度高的節(jié)點(diǎn),即基于CW_UEOC的社區(qū)檢測(cè)共詞聚類算法可以識(shí)別出學(xué)科交叉節(jié)點(diǎn)。

      圖4 戰(zhàn)略坐標(biāo)圖Fig.4 Strategic coordinate diagram

      5 結(jié)論

      本文利用web of science數(shù)據(jù)庫(kù)中Information Science&Library Science領(lǐng)域上JCR排名前5的期刊的文獻(xiàn)題錄數(shù)據(jù)進(jìn)行數(shù)據(jù)提取以后,得到了情報(bào)學(xué)與圖書館學(xué)領(lǐng)域的核心關(guān)鍵詞,在對(duì)核心關(guān)鍵詞進(jìn)行社區(qū)檢測(cè)后,得到情報(bào)學(xué)與圖書館學(xué)領(lǐng)域研究主題。實(shí)證表明,CW_UEOC算法能夠檢測(cè)出共詞網(wǎng)絡(luò)中的熱點(diǎn)問(wèn)題,并且可以識(shí)別出社區(qū)之間的重疊節(jié)點(diǎn),可以解決共詞分析聚類中關(guān)鍵詞歸屬單一化問(wèn)題,揭示重要關(guān)鍵詞與各個(gè)主題之間的聯(lián)系。

      本文在研究過(guò)程中存在一些不足,雖然文章關(guān)鍵詞都是研究者們認(rèn)真選擇可以代表其研究?jī)?nèi)容的技術(shù)術(shù)語(yǔ),然而也有很多潛藏在文章中未被標(biāo)引出的關(guān)鍵詞。另外,本文使用的共詞網(wǎng)絡(luò)是靜態(tài)網(wǎng)絡(luò),但是科學(xué)知識(shí)的增長(zhǎng)是動(dòng)態(tài)過(guò)程。下一步,我們將改進(jìn)選取文章主題詞和提取關(guān)鍵詞間共現(xiàn)關(guān)系的增長(zhǎng)規(guī)律以此構(gòu)成更加豐富的共詞網(wǎng)絡(luò)。這些改進(jìn)對(duì)研究者們進(jìn)行學(xué)科熱點(diǎn)挖掘、文本聚類精確化和科學(xué)發(fā)展具有重要意義。

      猜你喜歡
      共詞聚類節(jié)點(diǎn)
      CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
      基于突變檢測(cè)與共詞分析的深閱讀新興趨勢(shì)分析
      基于DBSACN聚類算法的XML文檔聚類
      基于改進(jìn)的遺傳算法的模糊聚類算法
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
      基于共詞知識(shí)圖譜技術(shù)的國(guó)內(nèi)VLC可視化研究
      基于關(guān)鍵詞共詞分析的我國(guó)親子關(guān)系熱點(diǎn)研究
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      印江| 格尔木市| 凌云县| 高陵县| 玉树县| 上高县| 孟州市| 阳朔县| 府谷县| 白沙| 高尔夫| 新疆| 旬邑县| 阿克陶县| 深水埗区| 阿瓦提县| 高陵县| 万安县| 崇州市| 廉江市| 平顶山市| 黄山市| 高邮市| 鸡西市| 宽城| 班戈县| 平南县| 建宁县| 稷山县| 同仁县| 宜章县| 澳门| 伊金霍洛旗| 玛曲县| 湘西| 新巴尔虎左旗| 彰武县| 贵溪市| 苏尼特右旗| 商都县| 贵州省|