劉璐 蔡永明
摘 要 為提高引文網(wǎng)絡(luò)社區(qū)劃分的準(zhǔn)確性,以文檔之間的語義關(guān)系以及引文之間的引用關(guān)系為基礎(chǔ),結(jié)合詞匯在文檔中的位置關(guān)系等信息,構(gòu)建基于詞匯語義加權(quán)的引文網(wǎng)絡(luò)。通過GloVe模型對詞匯向量化以充分利用詞匯語義信息,結(jié)合WMD模型度量文獻(xiàn)之間的相似度,把文檔相似度的計(jì)算轉(zhuǎn)變?yōu)樵诩s束條件下求線性規(guī)劃最優(yōu)解的問題,結(jié)合文本的內(nèi)容及結(jié)構(gòu)特征對網(wǎng)絡(luò)中的邊進(jìn)行賦權(quán),以Louvain社區(qū)發(fā)現(xiàn)算法對加權(quán)后的引文網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,并對劃分后的社區(qū)進(jìn)行分析與檢驗(yàn),實(shí)驗(yàn)證明GloVe-WMD模型可提高引文網(wǎng)絡(luò)社區(qū)劃分的準(zhǔn)確度。
關(guān)鍵詞 引文網(wǎng)絡(luò)? 語義加權(quán)? 社區(qū)劃分 文本挖掘 自然語言處理 詞嵌入
Abstract To improve the accuracy of citation network community division, citation network with lexical semantic weighting was constructed based on the semantic relationship between documents and the reference relationship between citations and the location relationship of words in documents and other information. The GloVe model was used to vectorize the words in order to make full use of the semantic information of the words. The WMD model was used to measure the similarity between literatures, and the calculation of the similarity of documents was transformed into the problem of finding the optimal solution of linear programming under the constraint condition. The edges in the network were weighted according to the similarity, content and structural features of the text. The citation network was divided into communities by the Louvain community discovery algorithm. The divided community is analyzed and tested. The results show that GloVe-WMD model can improve the accuracy of community division of Citation Network.
Keywords Citation network. Semantic weighting. Community discovery. Text mining. Natural language processing. Word embedding.
0 引言
學(xué)術(shù)文獻(xiàn)是科研領(lǐng)域客觀存在的知識載體,而參考文獻(xiàn)作為學(xué)術(shù)文獻(xiàn)的重要組成部分,不僅反映了學(xué)術(shù)研究的背景和依據(jù),而且在知識生產(chǎn)和傳播過程發(fā)揮著重要的作用。引文網(wǎng)絡(luò)是文獻(xiàn)間引用與被引用關(guān)系的集合[1],網(wǎng)絡(luò)中的節(jié)點(diǎn)表示一篇文章,連邊則表示文獻(xiàn)間的引用關(guān)系[2]。隨著知識的爆炸增長,引文網(wǎng)絡(luò)已經(jīng)形成了一個(gè)超大規(guī)模的網(wǎng)絡(luò)系統(tǒng),對指數(shù)級增長的文獻(xiàn),僅憑人力已經(jīng)無法精確提取出人們所需要的有效信息。如何快速準(zhǔn)確地提取出人們所需要的信息是知識管理人員以及相關(guān)研究人員需要思考的問題。聚類分析法是信息檢索領(lǐng)域的一種重要應(yīng)用[3],通過對引文網(wǎng)絡(luò)進(jìn)行聚類分析可以發(fā)現(xiàn)網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),從而揭示學(xué)術(shù)領(lǐng)域的傳承與發(fā)展,也能夠?yàn)閷W(xué)術(shù)研究評價(jià)提供不同的視角。為了提高引文網(wǎng)絡(luò)劃分的準(zhǔn)確性,筆者在傳統(tǒng)的One-Hot-Representation模型上,綜合考慮文獻(xiàn)之間的語義關(guān)系以及引用關(guān)系,結(jié)合文檔的內(nèi)容及結(jié)構(gòu)特征,提出一種基于GloVe-WMD語義加權(quán)的引文網(wǎng)絡(luò)社區(qū)劃分方法,并以相關(guān)數(shù)據(jù)為例驗(yàn)證了改進(jìn)模型的效果。
1 引文網(wǎng)絡(luò)的社區(qū)劃分研究概述
引文網(wǎng)絡(luò)的社區(qū)劃分主要利用文獻(xiàn)的標(biāo)題、摘要及關(guān)鍵詞作為主要信息源組成短文本對引文網(wǎng)絡(luò)進(jìn)行處理,目前大都采用BOW→TF-IDF→VSM/LSA的體系來實(shí)現(xiàn),也就是俗稱的One-Hot-Representation,又被稱為0-1編碼或者獨(dú)熱編碼,它把所有的文檔表示為向量形式,通過計(jì)算向量之間余弦值作為相似度對引文網(wǎng)絡(luò)的邊進(jìn)行賦權(quán)。
BOW(Bag-Of-Words)[4],也稱為詞袋模型,是自然語言處理和信息檢索領(lǐng)域的重要模型之一,它省略了文本的語法、語序等要素,把文本當(dāng)成若干個(gè)詞匯的集合,使用詞匯來表示文本;Gerard Salton等[5]提出的向量空間模型(Vector Space Model,VSM)是一種經(jīng)典的機(jī)器學(xué)習(xí)模型,一篇文本被表示為一個(gè)向量,向量的維度表示文本特征詞的權(quán)重,所有的文本向量構(gòu)成一個(gè)向量空間,文本內(nèi)容即可轉(zhuǎn)換為易于數(shù)學(xué)處理的向量形式,文本內(nèi)容的處理轉(zhuǎn)化為向量空間中的數(shù)學(xué)運(yùn)算;TF-IDF(Term Frequency- Inverse Document Frequency)算法是自然語言處理領(lǐng)域中使用最廣泛的特征詞權(quán)重賦值方法之一,它利用TF和IDF可以剔除文本中高頻但區(qū)分度較低的詞。魏建香等[6]基于此利用關(guān)鍵詞和摘要提出加權(quán)引文網(wǎng)絡(luò)聚類的方法;謝翠香 、劉勘等[7-8]根據(jù)上述體系進(jìn)行改進(jìn),對文本進(jìn)行區(qū)域劃分,根據(jù)詞匯出現(xiàn)的不同位置分布分別賦予權(quán)重,給出了含有位置關(guān)系的新的權(quán)重計(jì)算方法;肖雪等[9]在前者的基礎(chǔ)上提出了一種基于樣本加權(quán)的引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,結(jié)合了文本的內(nèi)容及位置結(jié)構(gòu)對引文網(wǎng)絡(luò)進(jìn)行劃分。
上述加權(quán)引文網(wǎng)絡(luò)都旨在強(qiáng)調(diào)特征詞對文本的代表能力及提取方法,而忽略了詞匯本身包含的語義。由此,廖開際等[10] 考慮了特征項(xiàng)在文本中的重要程度以及特征項(xiàng)之間的語義關(guān)系,提出基于文本特征項(xiàng)的加權(quán)語義網(wǎng)模型計(jì)算文本之間的相似度。該方法雖然包含了文本的語義聯(lián)系,但對短文本分析時(shí)無法避免矩陣的稀疏性造成的信息丟失及維度災(zāi)難[11],也沒有考慮到文獻(xiàn)之間的引用關(guān)系,并不適用于引文網(wǎng)絡(luò)。目前對引文網(wǎng)絡(luò)的加權(quán)研究著重改進(jìn)特征詞權(quán)重的計(jì)算,強(qiáng)調(diào)更準(zhǔn)確地提取特征詞或者改進(jìn)特征詞對于文獻(xiàn)的表示能力,而對于詞匯本身的聯(lián)系關(guān)注甚少。而且,上述體系在對短文本分析時(shí)存在一個(gè)弊端,短文本的“文檔-詞匯”矩陣通常是高度稀疏的[12],如果文本特征詞選擇不當(dāng),隨后在使用余弦相似度計(jì)算文本相似性時(shí),文獻(xiàn)經(jīng)過向量化,兩個(gè)文獻(xiàn)沒有重復(fù)詞語,則會被認(rèn)定為完全不相關(guān)。基于此,研究者們需要一種詞向量技術(shù)來處理詞匯語義關(guān)系,從而發(fā)現(xiàn)詞語之間的內(nèi)在聯(lián)系。
詞向量表示技術(shù)是將自然語言中的每一個(gè)詞語通過編碼方式轉(zhuǎn)換為稠密向量形式,也稱作詞嵌入(Word Embedding)。1998年Hisao Tamaki[13]提出了LSA(Latent Semantic Analysis)模型,利用詞匯的潛在語義進(jìn)行分析,可有效收集詞匯的全局統(tǒng)計(jì)信息,但LSA模型不能捕捉到詞的上下文信息,導(dǎo)致詞匯語義表達(dá)能力欠缺;Mikolov [14]等在2013年提出了 Word2Vec 模型, 精簡了神經(jīng)網(wǎng)絡(luò)的隱藏層[15],使詞向量訓(xùn)練效率比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型得到了大幅的提升, 但此模型基于局部窗口信息訓(xùn)練詞匯,并沒有考慮詞匯全局的統(tǒng)計(jì)信息;斯坦福NLP(Natural Language Processing)小組[16]在2014年提出一種新的詞匯表征方法——GloVe(Global Vectors for Word Representation)模型, 它結(jié)合了Word2Vec以及LSA模型的優(yōu)點(diǎn),訓(xùn)練出的詞匯向量不僅可以有效捕捉到詞匯的語義特性,比如詞語間的相似性、類比性等,而且能兼顧詞匯在全局的統(tǒng)計(jì)信息,使得表達(dá)更加準(zhǔn)確。
聚類是尋找社會網(wǎng)絡(luò)中社團(tuán)結(jié)構(gòu)的算法,它基于各個(gè)節(jié)點(diǎn)之間連接的相似性或者強(qiáng)度,把網(wǎng)絡(luò)自然地劃分為各個(gè)子群[2],目前聚類分析的主要方法可以概括為兩大類:一類是層次聚類算法和派系過濾算法,如Newman快速算法[17]和GN分裂算法[18],另一類是基于圖論的算法,如隨機(jī)游走算法、譜評分法等。在復(fù)雜網(wǎng)絡(luò)的社區(qū)劃分中,應(yīng)用最為廣泛的是基于模塊度優(yōu)化的社區(qū)發(fā)現(xiàn)算法,Newman快速算法和GN分裂算法為其中經(jīng)典的代表,但這兩種算法在處理大規(guī)模社區(qū)網(wǎng)絡(luò)時(shí),效率往往不高。Vincent D. Blondel等[19]在2008年基于Newman快速算法進(jìn)行修改,提出了基于模塊度優(yōu)化的啟發(fā)式Louvain算法,有效提高了社區(qū)劃分的效率和準(zhǔn)確性,該算法也成為大多數(shù)知識圖譜網(wǎng)絡(luò)分析軟件的基礎(chǔ)算法。
2 基于GloVe-WMD語義加權(quán)的引文網(wǎng)絡(luò)社區(qū)劃分基本思想
引文網(wǎng)絡(luò)假設(shè)是一個(gè)多學(xué)科交叉的大型社區(qū)網(wǎng)絡(luò),不同領(lǐng)域的文獻(xiàn)雖然存在著引用關(guān)系,但內(nèi)容相似度較低,而同領(lǐng)域的文獻(xiàn)內(nèi)容相似度較高。傳統(tǒng)的引文網(wǎng)絡(luò)把文獻(xiàn)之間的鏈接關(guān)系看作是等價(jià)的,利用文獻(xiàn)之間的相似度并結(jié)合它們之間的鏈接關(guān)系對網(wǎng)絡(luò)中的邊進(jìn)行賦權(quán),通過社區(qū)發(fā)現(xiàn)算法可以提煉出有價(jià)值的簇。
基本思路可以分為以下4個(gè)階段:①搜集原始數(shù)據(jù),把文獻(xiàn)的標(biāo)題、摘要及關(guān)鍵詞組成短文本并進(jìn)行文本預(yù)處理。②利用Glove模型得出全局詞匯的n維詞向量(度量詞匯之間的相似性);由BOW(詞袋模型)匯總每一篇文檔詞匯的詞頻,利用TF-IDF以及文本的內(nèi)容及結(jié)構(gòu)特征對詞匯賦權(quán)(表示其重要性程度),構(gòu)建VSM(向量空間模型)。③通過WMD計(jì)算出文獻(xiàn)的相似度作為權(quán)重代入引文網(wǎng)絡(luò)。④利用Louvain算法對加權(quán)后的網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn)與評估。具體流程如圖1所示。
3 GloVe-WMD語義加權(quán)模型的實(shí)現(xiàn)
GloVe詞匯模型結(jié)合了全局“文檔-詞匯”矩陣分解方法(LSA算法為代表)以及局部文本框捕捉方法(word2vec為代表)二者的優(yōu)點(diǎn),利用全局詞匯共現(xiàn)矩陣作為訓(xùn)練數(shù)據(jù),將每個(gè)詞映射成 n維實(shí)數(shù)向量,通過設(shè)置文本信息框的寬度,可獲得詞匯數(shù)據(jù)更加深層次的特征表示[20]。其GloVe模型的核心思想是利用詞與詞之間共現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)來構(gòu)造詞向量。
3.1 GloVe全局詞匯向量模型
3.2 詞匯賦權(quán)方法
在構(gòu)造向量空間(VSM)時(shí)需要對詞匯進(jìn)行賦權(quán),傳統(tǒng)的布爾值賦權(quán)法選擇用詞頻信息作為詞匯的權(quán)重,但會忽略詞匯的內(nèi)在性質(zhì),無法區(qū)分出對文檔真正具有代表性的詞匯。本研究選擇時(shí)下流行的TF-IDF(Term Frequency–Inverse Document Frequency)加權(quán)方法,它可以有效衡量詞匯對文檔的區(qū)分能力。TF表示詞匯在文檔中出現(xiàn)的頻率,IDF表示詞匯對文檔的重要程度,其方法的基本思想為,詞匯的重要程度與它在文檔中出現(xiàn)的頻率呈正比,但同時(shí)與其在全局詞匯庫中出現(xiàn)的次數(shù)呈反比。TF-IDF權(quán)重法能夠有效過濾掉生活中的常用噪聲詞匯,而給真正對文檔具有代表能力的詞匯賦予更高的權(quán)重。TF-IDF權(quán)重值由兩部分乘積所得,目前常用的有效公式為:
在學(xué)術(shù)文獻(xiàn)中,詞匯的重要程度與其出現(xiàn)的位置關(guān)系十分緊密,文獻(xiàn)的標(biāo)題、摘要及關(guān)鍵詞在某種程度上可以表達(dá)文獻(xiàn)的核心內(nèi)容,為了簡化計(jì)算,提升模型效率,只考慮詞匯在這三種位置不同的重要程度。研究表明,標(biāo)題是文獻(xiàn)內(nèi)容的高度概括,重要程度一般為最高,關(guān)鍵詞是作者對整篇文獻(xiàn)核心的提煉,重要程度次之,摘要為文獻(xiàn)內(nèi)容的簡練表達(dá),重要程度放在最后,綜上所述,對三個(gè)位置出現(xiàn)的詞匯分別進(jìn)行如下加權(quán)處理:
3.3 構(gòu)建語義加權(quán)引文網(wǎng)絡(luò)
引文網(wǎng)絡(luò)是根據(jù)文獻(xiàn)之間的引用關(guān)系構(gòu)建,而網(wǎng)絡(luò)中邊的關(guān)系權(quán)重是由文獻(xiàn)之間的相似度確定的。DOI(Digital Object Unique Identifier,DOI)為文獻(xiàn)的唯一標(biāo)識符,在收集的原始數(shù)據(jù)集中,對每篇文獻(xiàn)的DOI及引用的參考文獻(xiàn)的DOI進(jìn)行匹配,從而可以確定文獻(xiàn)之間的引用關(guān)系,而文獻(xiàn)之間的引用關(guān)系涉及到知識流動的方向,故本研究默認(rèn)引文網(wǎng)絡(luò)為有向的加權(quán)網(wǎng)絡(luò)。
文獻(xiàn)間的相似度的主要計(jì)算方式為WMD模型,WMD(Word Movers Distance)是Matt J. Kusner[21]在2015年提出的一種文本相似度量方法,通過計(jì)算一篇文檔所有的詞匯“移動”到另一篇文檔所有詞匯的最小距離總和表示詞移距離,轉(zhuǎn)移示意圖如圖2所示。
利用上節(jié)中得到的詞匯向量計(jì)算詞匯之間的距離,記為distance,根據(jù)示意圖,文檔1到文檔2的距離為:distance(詞匯1->詞匯5)+distance(詞匯2->詞匯7)+…但實(shí)際情況中,詞匯往往不是一一對應(yīng)的,為了解決這一問題,WMD采用文檔的每個(gè)詞匯以不同的權(quán)重轉(zhuǎn)移到另一篇文檔中的所有詞匯中的方式,由另一篇文檔中的所有詞負(fù)責(zé)分配該詞的權(quán)重,那么“詞匯1”轉(zhuǎn)移到文檔2的距離則變?yōu)椋?/p>
4 社區(qū)劃分方法及評估
Louvain社區(qū)發(fā)現(xiàn)算法[19]是基于Newman快速算法改進(jìn)而來,其核心是層次聚類,目標(biāo)是最大化社區(qū)網(wǎng)絡(luò)的模塊度。社區(qū)網(wǎng)絡(luò)的模塊度是衡量社區(qū)劃分優(yōu)劣的一個(gè)重要指標(biāo),其取值在[-1,1]區(qū)間內(nèi),在實(shí)際應(yīng)用中模塊度的取值一般在0.3~0.7之間,其主要思想是測量社區(qū)內(nèi)節(jié)點(diǎn)的鏈接密度與社區(qū)之間的鏈接密度。其公式定義為:
Lovain算法的基本流程如下:①所有的節(jié)點(diǎn)視為一個(gè)社區(qū);②依次嘗試把節(jié)點(diǎn)i劃分到相鄰的社區(qū),分別計(jì)算前后的模塊度值,用分配后的模塊度值與分配之前的模塊度做差得到? ? ? ,如果? ? ? ? ? ? ?,即差為正值時(shí),則接受此次劃分,否則拒絕;③重復(fù)第二步直至所有的節(jié)點(diǎn)不再變化;④把第三步劃分的社區(qū)重新視為一個(gè)節(jié)點(diǎn),繼續(xù)執(zhí)行②-③,直至社區(qū)結(jié)構(gòu)不再改變。
5 數(shù)據(jù)驗(yàn)證及測評結(jié)果分析
5.1 獲取原始數(shù)據(jù)及文本預(yù)處理
為了驗(yàn)證基于GloVe-WMD語義加權(quán)的引文網(wǎng)絡(luò)的社區(qū)劃分效果,本文選取WOS(Web Of Science)核心庫中收錄的期刊文獻(xiàn)作為原始數(shù)據(jù),檢索以“5G”為關(guān)鍵詞的論文,以“領(lǐng)域中的高被引論文”及“領(lǐng)域中的熱點(diǎn)論文”為過濾條件,時(shí)間跨度為2011—2019年,共檢索出有相互引用關(guān)系的論文2095篇。保留文獻(xiàn)記錄文件的DI(DOI),TI(題目),DE(關(guān)鍵詞),AB(摘要),CR(參考文獻(xiàn))五個(gè)字段,DI與CR中的DOI依次匹配可得到論文的引用關(guān)系,TI、DE和AB三個(gè)字段組成短文本,作為文獻(xiàn)的信息來源。剔除無摘要,無關(guān)鍵詞及無引用關(guān)系的孤立點(diǎn),剩余文獻(xiàn)1591篇,共存在11 519條引用關(guān)系。
在進(jìn)行文本分析之前,首先建立詞袋模型(Bag Of Words,BOW),然后對文本進(jìn)行預(yù)處理,包括分詞、大寫轉(zhuǎn)小寫、去停用詞以及詞干提取。部分處理結(jié)果如表1所示。
5.2 訓(xùn)練詞匯向量及文本相似度計(jì)算
通過詞袋模型建立“文檔-詞匯”矩陣和詞匯共現(xiàn)矩陣,然后利用GloVe模型訓(xùn)練詞匯向量,研究表明,詞匯向量的維度在100~280維之間,可以高效準(zhǔn)確的表達(dá)詞匯的語義,但隨著維度的增大,模型的效率會大幅下降,故在考慮準(zhǔn)確性的同時(shí),兼顧模型的計(jì)算效率,本文設(shè)定詞匯向量的維度為200維,經(jīng)過50次迭代計(jì)算得出詞匯向量。
文本相似度的計(jì)算同樣是借助“文檔-詞匯”矩陣,根據(jù)矩陣構(gòu)建VSM模型,結(jié)合“TFIDF-位置參數(shù)”對VSM模型加權(quán),每個(gè)文檔組成一個(gè)向量空間,利用WMD模型計(jì)算文獻(xiàn)之間的相似度,并作為權(quán)重對引文網(wǎng)絡(luò)中的邊賦值。
5.3 社區(qū)劃分結(jié)果及分析
5.3.1 文本相似度分析
在相同的數(shù)據(jù)集上,分別采用傳統(tǒng)的基于TF-IDF加權(quán)的One-Hot-Representation模型(圖3a)以及基于GloVe-WMD語義加權(quán)模型(圖3b)計(jì)算文本之間的相似度。
由分布圖可以看出基于TF-IDF加權(quán)的One-Hot-Representation模型求出的文檔之間的相似度大部分集中在0~0.2之間,相似度為0的成對論文在1500對以上。經(jīng)過分析,主要是由于短文本的“文檔-詞匯”矩陣的高度稀疏性,在利用該模型計(jì)算文本之間的相似度時(shí),如果兩篇文檔之間詞匯重復(fù)度非常低或者沒有重復(fù)詞匯,即使表達(dá)的是相同的語義,也會被認(rèn)為完全不相似。而基于GloVe-WMD語義加權(quán)模型求得的相似度分布大多集中在0.3~0.6之間,接近正態(tài)分布,由于原始文本數(shù)據(jù)通過檢索某一關(guān)鍵詞所得,所以后者的文獻(xiàn)相似度分布更接近實(shí)際情況。
5.3.2 社區(qū)劃分分析
Gephi是基于JVM開發(fā)的一款開源免費(fèi)的社區(qū)網(wǎng)絡(luò)分析工具,基于Louvain算法,適用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng)的社區(qū)劃分和可視化。為了進(jìn)一步驗(yàn)證模型的有效性,利用Gephi分別對無權(quán)重的引文網(wǎng)絡(luò)、基于TF-IDF的One-Hot-Representation的引文網(wǎng)絡(luò)以及基于GloVe-WMD語義加權(quán)引文網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,并比較三者的模塊度(Q函數(shù)值),對比結(jié)果如表2所示。
由表2可知,OneHotRepresentation-TFIDF模型社區(qū)劃分與其他兩個(gè)差別明顯,社區(qū)個(gè)數(shù)達(dá)到30個(gè),主要是因?yàn)樵撃P驮谟?jì)算文本相似度的過程中,沒有重復(fù)詞匯的文檔之間相似度為0,而把相似度作為權(quán)重代入引文網(wǎng)絡(luò),則會造成大量的權(quán)重為0的引用關(guān)系被忽略。對比發(fā)現(xiàn),原始的無權(quán)網(wǎng)絡(luò)與基于GloVe-WMD的語義加權(quán)網(wǎng)絡(luò)在社區(qū)劃分的個(gè)數(shù)上沒有變化,但模塊度值由0.572上升到0.653,聚類效果提升明顯。
為了深入驗(yàn)證模型具體效果,選取具有代表性的節(jié)點(diǎn)觀察前后變化。度,代表網(wǎng)絡(luò)中與節(jié)點(diǎn)直接相連的邊的數(shù)目,是衡量單個(gè)節(jié)點(diǎn)重要性的指標(biāo)。為了便于觀察分析,本研究選取度為30以上的節(jié)點(diǎn)進(jìn)行展現(xiàn),OneHotRepresentation-TFIDF模型造成大量引用關(guān)系丟失,不具有參考價(jià)值,故只對無權(quán)引文網(wǎng)絡(luò)和基于GloVe-WMD語義加權(quán)引文網(wǎng)絡(luò)進(jìn)行對比。加權(quán)前后的社區(qū)劃分如圖4所示。
圖4中每個(gè)節(jié)點(diǎn)代表一篇文獻(xiàn),密集的節(jié)點(diǎn)組團(tuán)代表一個(gè)社區(qū),由圖4可以看出社團(tuán)大致結(jié)構(gòu)基本相似,但具體的節(jié)點(diǎn)在社區(qū)歸屬上產(chǎn)生了改變,由于截選了度大于30的節(jié)點(diǎn)展現(xiàn)網(wǎng)絡(luò)圖,所以圖4中每個(gè)點(diǎn)的變化都會引起全局網(wǎng)絡(luò)圖中大量與該點(diǎn)相連的節(jié)點(diǎn)社團(tuán)歸屬發(fā)生相應(yīng)的改變。為了驗(yàn)證模型的可靠性,通過主題、關(guān)鍵詞共現(xiàn)得出每個(gè)社團(tuán)的高頻詞分布,并隨機(jī)選取5個(gè)前后變化的節(jié)點(diǎn)進(jìn)行分析,部分展示結(jié)果如表3、表4所示。
再進(jìn)一步通過人工分析,發(fā)現(xiàn)節(jié)點(diǎn)n73、n183、n302、n480和n642在兩種不同的網(wǎng)絡(luò)模型所處社區(qū)發(fā)生改變。由表3得知,社區(qū)1主要涉及領(lǐng)域?yàn)?G通信、毫米波、信道以及移動網(wǎng)絡(luò);社區(qū)2為物聯(lián)網(wǎng)和智能設(shè)備的應(yīng)用和可靠性研究;社區(qū)3的主題為云計(jì)算、霧計(jì)算和邊緣計(jì)算等相關(guān)技術(shù);社區(qū)4是對第五代通信技術(shù)NOMA(非正交多址接入)的技術(shù)研究;社區(qū)5主要集中了第五代通信技術(shù)的應(yīng)用,包括NOMA、中繼網(wǎng)絡(luò)、中繼選擇和功率傳遞等技術(shù)的優(yōu)化,社區(qū)6為5G編碼及相關(guān)算法優(yōu)化的集合。對比表3和表4不難發(fā)現(xiàn),文獻(xiàn)n73和n480的主題是移動邊緣計(jì)算的優(yōu)化及應(yīng)用,理應(yīng)劃分到第3個(gè)社區(qū);文獻(xiàn)n183和n642是關(guān)于邊緣計(jì)算、云計(jì)算等技術(shù)在物聯(lián)網(wǎng)及智慧家居方面的應(yīng)用,應(yīng)該劃分為社區(qū)2;n302是關(guān)于毫米波在非正交多址系統(tǒng)中的應(yīng)用,側(cè)重于毫米波的研究,故應(yīng)劃分為社區(qū)1。
綜上所述,基于GloVe-WMD語義加權(quán)模型在進(jìn)行社區(qū)劃分時(shí)更加準(zhǔn)確,模塊度也有所提高,而且不受文本長短的制約,適用范圍更廣泛,無論從定量分析和定性分析兩方面都比傳統(tǒng)的模型更有優(yōu)勢。
6 結(jié)語
基于GloVe-WMD語義加權(quán)模型對比傳統(tǒng)的無權(quán)引文網(wǎng)絡(luò)以及基于OneHotRepresentation-TFIDF模型加入了詞匯語義這一重要信息,并綜合考慮了詞匯的位置信息,提高了模型在短文本分析中的適用性以及社區(qū)劃分的準(zhǔn)確度。
引文網(wǎng)絡(luò)可以很好地反映學(xué)科的研究背景、熱門領(lǐng)域以及未來的學(xué)術(shù)發(fā)展方向,隨著社會的發(fā)展,技術(shù)及知識更新日新月異,引文網(wǎng)絡(luò)的應(yīng)用將變得更加廣泛。當(dāng)前涉及到引文網(wǎng)絡(luò)的社區(qū)劃分仍然存在很多值得探討的問題,比如,本文提出的GloVe-WMD語義加權(quán)模型僅僅局限于詞匯這一層面,但一篇文獻(xiàn)詞匯、句子與段落的語義關(guān)系都是相互關(guān)聯(lián)的,如何更好地處理三者之間的關(guān)系也是值得探討的研究方向;其次,文獻(xiàn)作者在知識圖譜中也包含豐富的信息,如果能對文獻(xiàn)作者進(jìn)行準(zhǔn)確的劃分并與引文網(wǎng)絡(luò)相結(jié)合,不僅可以提高準(zhǔn)確度,而且有利于對學(xué)科發(fā)展進(jìn)行更深層次的研究。
CHUNG F.Graph theory in the information age[J]. Noticesof the American Mathematical Society,2010,57(6):726-732.
BOWER D F.Six degrees:the science of a connected age[J]. Reflections,2005,61(1):93.
章成志,師慶輝,薛德軍. 基于樣本加權(quán)的文本聚類算法研究[J]. 情報(bào)學(xué)報(bào),2008,27(1):42-48.HINRICH SCHüTZE. Automatic word sense discrimination[J]. Computational Linguistics,1998,24(1):97-123.SALALTON G . Automatic text analysis.[J]. Science,1970,168(3929):335-343.
魏建香,蘇新寧.基于關(guān)鍵詞和摘要相關(guān)度的文獻(xiàn)聚類研究[J]. 情報(bào)學(xué)報(bào), 2009, 28(2):220-224.
謝翠香.基于改進(jìn)向量空間模型的學(xué)術(shù)論文相似性辨別系統(tǒng)設(shè)計(jì)[J]. 電腦知識與技術(shù),2009,5(19):5103-5105.
劉勘,周麗紅,陳譞.基于關(guān)鍵詞的科技文獻(xiàn)聚類研究[J]. 圖書情報(bào)工作,2012,56(4):6-11.
肖雪,王釗偉,陳云偉,等.基于樣本加權(quán)的引文網(wǎng)絡(luò)的社團(tuán)劃分[J].圖書情報(bào)工作,2016,60(20):86-93.
廖開際,楊彬彬.基于加權(quán)語義網(wǎng)的文本相似度計(jì)算的研究[J].情報(bào)雜志,2012,31(7):182-186.
RUMELHERT D E , HINTON G E , WILLIAMS R J . Learning representations by back propagating errors[J]. Nature, 1986, 323(10):533-536.
蔡永明,長青.共詞網(wǎng)絡(luò)LDA模型的中文短文本主題分析[J].情報(bào)學(xué)報(bào),2018,37(3):305-317.LANDAUER T K , FOLTZ? P W , LAHAM D.An introductionto latent semantic analysis[J]. Discourse Processes, 1998, 25(2):259-284.
MIKOLOV T,CHEN K,CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science,2013,65(9):78-94.
吉久明, 施陳煒,李楠,等. 基于GloVe詞向量的“技術(shù):應(yīng)用”發(fā)現(xiàn)研究[J]. 現(xiàn)代情報(bào), 2019, 39(4):14-23.
PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]// Conference on Empirical Methods in Natural Language Processing,2014: 1532-1543.
NEWMAN M E J . Fast algorithm for detecting community structure in networks[J]. Phys Rev E Stat Nonlin Soft Matter Phys, 2003, 69(6 ):66-87.
GIVAN M, NEWMAN M E J. Community structure in social and biological networks[J]. Proc Natl Acad Sci USA,2002,99(1),21-26.
BLONDEL V D , GUILLAUME J L , LAMBIOTTE R , et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 78(10):56-69.
林江豪,周詠梅,陽愛民,等.結(jié)合詞向量和聚類算法的新聞評論話題演進(jìn)分析[J].計(jì)算機(jī)工程與科學(xué),2016,38(11):2368-2374.
KUSNER M J, SUN Y, KOLKIN N I, et al. From word embeddings to document distances[C]// International Conference on International Conference on Machine Learning. 2015.