廖君華,陳軍營(yíng),白如江
(1.山東理工大學(xué) 科技信息研究所,山東 淄博 255000;2.武漢大學(xué) 信息管理學(xué)院,湖北 武漢430072)
科學(xué)知識(shí)的形成與發(fā)展是一個(gè)動(dòng)態(tài)演變的過(guò)程,有著自身的特點(diǎn)和規(guī)律,通過(guò)科技創(chuàng)新路徑的構(gòu)建可以更加直觀地展示知識(shí)的流動(dòng)及擴(kuò)散情況。本文提出科技創(chuàng)新可以看作是在某段時(shí)間內(nèi)具有代表性的對(duì)某科學(xué)領(lǐng)域造成一定影響且推動(dòng)科學(xué)技術(shù)發(fā)展的科學(xué)知識(shí)創(chuàng)新研究或者技術(shù)創(chuàng)造的具體過(guò)程表達(dá)。為了準(zhǔn)確地表達(dá)科技創(chuàng)新具體內(nèi)容,反應(yīng)某領(lǐng)域科技創(chuàng)新不斷隨時(shí)間演化變化的現(xiàn)象,需要使用科技創(chuàng)新路徑進(jìn)行展示。
目前,科技創(chuàng)新路徑構(gòu)建方法主要有引文分析(citation analysis)方法、文本內(nèi)容挖掘方法等。利用引文分析方法構(gòu)建科技路徑可以從科技文獻(xiàn)知識(shí)繼承與創(chuàng)新角度揭示科技創(chuàng)新發(fā)展變化過(guò)程。但是,純粹的引文分析方法難以深入到引文內(nèi)容層面進(jìn)行分析,而文本內(nèi)容挖掘方法往往脫離了文獻(xiàn)之間天然的引用路徑。隨著信息技術(shù)和自然語(yǔ)言處理技術(shù)的發(fā)展,開放獲取(Open Access,OA)文獻(xiàn)數(shù)據(jù)庫(kù)提供了基于XML全文本格式的科技文獻(xiàn)全文,使得深入文獻(xiàn)引文全文內(nèi)容進(jìn)行主題識(shí)別并構(gòu)建科技創(chuàng)新路徑成為當(dāng)前研究熱點(diǎn)。
本文旨在綜合運(yùn)用自然語(yǔ)言處理技術(shù)、文本挖掘技術(shù)和可視化分析等方法,自動(dòng)抽取科技文獻(xiàn)中引文內(nèi)容數(shù)據(jù),結(jié)合天然引文路徑,嘗試構(gòu)建一個(gè)能夠表征知識(shí)繼承和發(fā)展過(guò)程的科技創(chuàng)新路徑,進(jìn)而揭示出科技創(chuàng)新發(fā)展演化過(guò)程中關(guān)鍵技術(shù)路徑,為科技管理機(jī)構(gòu)和科研人員分析領(lǐng)域前沿主題時(shí)提供數(shù)據(jù)決策支持。
科技創(chuàng)新路徑的研究對(duì)象主要有創(chuàng)新主題、創(chuàng)新路徑、創(chuàng)新時(shí)間、創(chuàng)新走向、創(chuàng)新拐點(diǎn)等。目前主要集中在基于文本主題分析的科技創(chuàng)新路徑構(gòu)建研究方面。程齊凱等(2013)通過(guò)Z-value社區(qū)算法識(shí)別研究主題,然后根據(jù)主題之間的相似度測(cè)算出主題之間的路徑和走向,構(gòu)建出具有主題生命周期(產(chǎn)生、消亡、分裂、合并、擴(kuò)張與收縮)性質(zhì)的科技創(chuàng)新路徑[1]91-96。隨著CiteSpace的出現(xiàn),通過(guò)爆發(fā)詞檢測(cè)功能可以直接對(duì)研究主題的時(shí)間、走向和發(fā)展脈絡(luò)進(jìn)行可視化展示。王夢(mèng)婷(2016)借助CiteSpace中的突變檢測(cè)功能對(duì)樣本的關(guān)鍵詞數(shù)據(jù)展開突變率檢測(cè),并從突變?cè)~、主題突變分類和突變主題時(shí)區(qū)視圖3個(gè)維度構(gòu)建了科技創(chuàng)新路徑[2]36-39。廖列法等從主題強(qiáng)度、主題內(nèi)容(以JS散度度量主題之間的關(guān)聯(lián)關(guān)系)和技術(shù)主題強(qiáng)度(以IPC分類號(hào)度量)3方面進(jìn)行了分析并構(gòu)建了基于專利數(shù)據(jù)的科技創(chuàng)新路徑[3]13-18。劉自強(qiáng)等(2017)以時(shí)間維度為基礎(chǔ)分別從主題強(qiáng)度(以關(guān)鍵詞總頻次測(cè)評(píng))、主題結(jié)構(gòu)(以關(guān)鍵詞中心度測(cè)評(píng)主題的新生、合并、分裂、增長(zhǎng)、收縮和消亡)和主題內(nèi)容(以相似度測(cè)評(píng)主題中關(guān)鍵詞的路徑走向)構(gòu)建出多維主題演化的科技創(chuàng)新路徑[4]67-84。此外,通過(guò)引用情感分析可以輔助判定科技創(chuàng)新路徑的發(fā)展走向。在情感分析方面,黃衛(wèi)東等(2014)利用PLSA模型對(duì)不同時(shí)間段上的網(wǎng)絡(luò)輿情話題進(jìn)行子話題提取和情感詞表構(gòu)建[5]102-107,綜合考慮修飾詞對(duì)情感詞的影響以及情感詞對(duì)子話題的貢獻(xiàn)程度,得到一個(gè)時(shí)間序列上各個(gè)子話題的情感傾向值以及整個(gè)話題的情感變化趨勢(shì)模型。李超雄等提出一個(gè)基于動(dòng)態(tài)主題情感分析的混合模型(DTSCM),實(shí)現(xiàn)了主題與情感演化的并存[6]2905-2910。安璐等(2017)以主題和情感信息為研究對(duì)象,利用word2vec主題分析方法與基于詞典的微博情感分析方法構(gòu)建了具有主題和情感強(qiáng)度特征的科技創(chuàng)新研究框架[7]120-129。在引文位置研究方面,趙蓉英等構(gòu)建了基于引文位置的共被引分析方法框架,闡釋了共被引頻次與各共被引層次的關(guān)系[8]492-500。
在引文內(nèi)容分析方面,Ying D等(2012)設(shè)計(jì)了一個(gè)引用內(nèi)容分析 (Citation Content Analysis, CCA)研究框架,指出引文內(nèi)容分析是下一代引文分析的方向[9]1490-1503。劉盛博等(2013)基于PubMed Central全文數(shù)據(jù)庫(kù),設(shè)計(jì)了一個(gè)引用內(nèi)容獲取與分析平臺(tái),提供一篇文獻(xiàn)的所有引用內(nèi)容獲取功能[10]134-138。祝青松等(2014)以碳納米管領(lǐng)域的高被引論文為研究對(duì)象,利用C-value 算法識(shí)別出引文內(nèi)容中的研究主題,研究表明基于引文內(nèi)容分析的主題識(shí)別結(jié)果比基于關(guān)鍵詞、摘要等題錄數(shù)據(jù)的識(shí)別方法準(zhǔn)確性更高[11]39-49。章成志等(2017)從引文內(nèi)容位置分布、引文提及次數(shù)以及引文內(nèi)容上下文特征等三個(gè)方面分析學(xué)術(shù)專著的引文行為[12]15-24[13]319-330。
整體來(lái)看,科技創(chuàng)新路徑構(gòu)建針對(duì)的研究對(duì)象多圍繞文本主題進(jìn)行,缺乏綜合利用天然引文路徑、引文位置信息和引文內(nèi)容等多維度信息進(jìn)行構(gòu)建研究。
隨著科技創(chuàng)新路徑構(gòu)建研究的發(fā)展,研究人員不再滿足于簡(jiǎn)單的數(shù)據(jù)分析,由此,可視化分析技術(shù)得到廣泛應(yīng)用,使得數(shù)據(jù)分析結(jié)果可以生動(dòng)形象地展示出來(lái)。通過(guò)科技創(chuàng)新路徑可視化呈現(xiàn),有利于相關(guān)領(lǐng)域的研究人員更好地洞察學(xué)科發(fā)展趨勢(shì),判別重要知識(shí)的傳播過(guò)程,提升人們對(duì)抽象事物的理解和判斷能力。
加菲爾德等研發(fā)了基于wos數(shù)據(jù)的可視化工具HistCite,這款工具實(shí)現(xiàn)了文獻(xiàn)引用關(guān)系的可視化展示,可以快速發(fā)現(xiàn)文獻(xiàn)引用過(guò)程。陳超美開發(fā)的CiteSpace具有同被引聚類分析和時(shí)序網(wǎng)絡(luò)可視化功能,隨后的改進(jìn)使得這款軟件具有了爆發(fā)詞檢測(cè)、中心性分析、PageRank、最小生成樹等功能,可以有效展示科技創(chuàng)新路徑[14]。薛調(diào)等利用CitespaceII的主題演化圖譜功能分析了國(guó)內(nèi)圖書館學(xué)科知識(shí)服務(wù)領(lǐng)域路徑[15]9-14。Rosvall M.等仿照沖積圖(alluvial diagram)提出了一種社區(qū)演化可視化分析方法,以不同顏色的線條表示主題發(fā)展路徑和方向,展示學(xué)科主題結(jié)構(gòu)的演化發(fā)展變化情況[16]86-94。王曉光等改進(jìn)了M.Rosvall等的方法,并以之為基礎(chǔ)開發(fā)了學(xué)科主題可視化分析軟件Neviewer,以沖積圖、賦色網(wǎng)絡(luò)圖對(duì)學(xué)科主題的走勢(shì)進(jìn)行直觀展示[17]900-911。
目前,利用CiteSpace、Neviewer等工具進(jìn)行科技創(chuàng)新路徑可視化展示時(shí)存在的主要問(wèn)題是無(wú)法有效展示引用位置、引文內(nèi)容、引用情感等多維信息,并且主題表達(dá)模糊。因此,本文擬在社會(huì)網(wǎng)絡(luò)分析工具Gephi基礎(chǔ)上設(shè)計(jì)一種可以展示引用主題、引用位置、引文時(shí)間的科技創(chuàng)新路徑可視化方法。
本文在借鑒現(xiàn)有引文內(nèi)容識(shí)別理論方法的基礎(chǔ)上,綜合利用文本挖掘、復(fù)雜網(wǎng)絡(luò)和可視化技術(shù),提出一種基于引文內(nèi)容分析的科技創(chuàng)新路徑構(gòu)建方法,具體思路如圖1所示。
圖1 研究思路
該方法以引文全文數(shù)據(jù)為數(shù)據(jù)源,首先,利用正則表達(dá)式技術(shù)抽取論文全文中的引文內(nèi)容、引文位置等信息;然后,利用C-value和TF-IDF算法識(shí)別出引文內(nèi)容的引用主題,利用情感分析技術(shù)對(duì)其情感極性進(jìn)行挖掘;最后,利用Gephi可視化平臺(tái)從引用主題、引用位置、引文關(guān)系等多維度實(shí)現(xiàn)科技創(chuàng)新路徑可視化分析展示。
具體技術(shù)實(shí)現(xiàn)路線如下。
1.XML格式全文數(shù)據(jù)獲取
使用歐洲生命科學(xué)期刊全文數(shù)據(jù)庫(kù)(Europe PMC)等可以提供XML全文格式的數(shù)據(jù)庫(kù),構(gòu)建檢索式,通過(guò)數(shù)據(jù)庫(kù)網(wǎng)站提供的api函數(shù),利用網(wǎng)絡(luò)爬蟲技術(shù)批量獲取XML格式全文數(shù)據(jù)。
2.數(shù)據(jù)清洗與預(yù)處理
利用python語(yǔ)言分析獲取到的XML格式全文數(shù)據(jù),解析出文獻(xiàn)ID、被引文獻(xiàn)ID、引文內(nèi)容、引用位置、文獻(xiàn)出版年、被引文獻(xiàn)出版年、文獻(xiàn)題名、期刊名等數(shù)據(jù),并格式化保存到CSV表格中。
3.基于引文內(nèi)容的引用主題發(fā)現(xiàn)
綜合運(yùn)用C-value算法和TF-IDF算法對(duì)獲得的引文內(nèi)容進(jìn)行主題識(shí)別,并將識(shí)別出的主題與引用位置一一對(duì)應(yīng)保存,構(gòu)建基于引文內(nèi)容的天然引文路徑數(shù)據(jù)集,實(shí)現(xiàn)引用位置、引用主題和引文關(guān)系統(tǒng)一映射。
4.科技創(chuàng)新路徑構(gòu)建與可視化
將構(gòu)建好包含引用位置、引用主題和引文關(guān)系的數(shù)據(jù)集合導(dǎo)入Gephi,調(diào)整合適的布局策略,實(shí)現(xiàn)對(duì)引文路徑、引用位置、引用主題等標(biāo)簽進(jìn)行多維度可視化展示,挖掘出高被引文獻(xiàn)主題以及關(guān)鍵引文科技創(chuàng)新路徑。
XML結(jié)構(gòu)化數(shù)據(jù)相對(duì)于PDF等非結(jié)構(gòu)化全文數(shù)據(jù)序化程度高,XML格式數(shù)據(jù)對(duì)科技文獻(xiàn)的全文內(nèi)容進(jìn)行了結(jié)構(gòu)化處理,詳細(xì)標(biāo)注了文章的題目、引文內(nèi)容、引用位置等重要信息,具有易解析、易提取的特點(diǎn),解決了計(jì)算機(jī)應(yīng)對(duì)海量文獻(xiàn)進(jìn)行相關(guān)信息抽取和分析的難題。
本文詳細(xì)分析總結(jié)了Europe PMC 中的XML全文數(shù)據(jù)格式特點(diǎn)。Europe PMC提供的XML全文數(shù)據(jù)主要包含文章題名(title)、來(lái)源期刊(journal)、作者(author)、摘要(abstract)、圖表、引用內(nèi)容(content)和引用位置(section)等信息。例如:
1.文獻(xiàn)編號(hào)信息
2.文獻(xiàn)題名信息
3.引文內(nèi)容信息
(, ).Superactivation of PARP-1 after extensive DNA damages can result in a damage of metabolic homeostasis due to an exhaustion of NAD substrate.
4.引用位置信息
根據(jù)上述內(nèi)容,本文使用Python開發(fā)了一個(gè)信息抽取程序。該程序?qū)崿F(xiàn)思路是,首先,遍歷body->sec->p->xref路徑,采用正則表達(dá)式規(guī)則抽取方法抽取出相應(yīng)文獻(xiàn)的ID、引文內(nèi)容、引文位置等信息,保存到一個(gè)多維數(shù)組中;然后,將這些數(shù)據(jù)寫入并保存到外部Excel表格中,程序如圖2所示。
圖2 引文內(nèi)容抽取程序
1.引用主題識(shí)別研究
本文利用C-value和TF-IDF兩種算法對(duì)引文內(nèi)容進(jìn)行主題識(shí)別,綜合評(píng)判分析了兩種方法的優(yōu)缺點(diǎn),設(shè)計(jì)了一種混合主題策略,最終形成引用主題內(nèi)容。
C-value算法最早由Frantzi等人提出,它結(jié)合了統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的思想,彌補(bǔ)了短語(yǔ)詞頻主題識(shí)別的不足,對(duì)于英文主題識(shí)別領(lǐng)域取得較好效果,在英國(guó)曼徹斯特大學(xué)文本挖掘系統(tǒng)TerMine中得到了很好的應(yīng)用。C-value算法的計(jì)算公式見(jiàn)公式(1)[18]821-826。
C-value(a)=
(1)
其中:
a表示候選字符串;
|a|表示a的長(zhǎng)度(據(jù)單詞數(shù)計(jì)算);
f(a)表示a的詞頻;
Ta表示含a的候選術(shù)語(yǔ);
P(Ta)表示含a的術(shù)語(yǔ)總數(shù);
b是包含a的字符串。
TF-IDF是一種利用統(tǒng)計(jì)進(jìn)行主題識(shí)別的方法。詞頻(Term Frequency,縮寫為TF)和逆文檔頻率(Inverse Document Frequency,縮寫為IDF)的乘積為TF-IDF。TF-IDF可以評(píng)估一個(gè)詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF算法的公式見(jiàn)公式(2)。
TF-IDFi,j=TFi,j×IDFi,j
(2)
其中:
ni,j指某一詞語(yǔ)ti在文件dj中出現(xiàn)的次數(shù);
|D|指文檔總數(shù);
|Dti|指包含詞語(yǔ)ti的文檔數(shù)目。
由于引用內(nèi)容主題的準(zhǔn)確性和完整性對(duì)科技創(chuàng)新路徑構(gòu)建的至關(guān)重要,本文根據(jù)兩種方法各自的優(yōu)勢(shì),將各自的表征結(jié)果進(jìn)行了綜合處理。具體實(shí)現(xiàn)過(guò)程如下。
(1)將基于C-value算法的主題識(shí)別結(jié)果集合M表示為:
M={topic1(c-value1),topic2(c -value2),…,topici(c -valuei),…,topicm(c -valuem)}(m∈Z+),
(2)基于TF-IDF算法的主題識(shí)別結(jié)果集合N表示為:
N={topic1(tf-idf1),topic2(tf-idf2),…,topici(tf-idfi),…,topicn(tf-idfn)}(n∈Z+),Z+表示正整數(shù)。
(3)最終主題表征集合為:
W=M∪N={topic1(value1),topic2(value2),topic3(value3),…,topici(valuei),…,topicw(valuew)}(w∈Z+),若topici∈M且topici∈N,則valuei= c -valuei+ tf-idfi。
2.基于引文內(nèi)容的科技創(chuàng)新路徑構(gòu)建
在天然引文網(wǎng)絡(luò)的基礎(chǔ)上,本文對(duì)網(wǎng)絡(luò)中傳遞的具體內(nèi)容進(jìn)行標(biāo)簽豐富化處理,將引用主題、引用位置、文獻(xiàn)出版年等進(jìn)行標(biāo)注。增強(qiáng)科技創(chuàng)新路徑的可視性和內(nèi)容豐富性,使得科技創(chuàng)新路徑蘊(yùn)含信息更加飽滿,也可以提升科研人員對(duì)領(lǐng)域知識(shí)創(chuàng)新與傳承的直觀理解。具體如圖3所示。
圖3 基于引文內(nèi)容的科技創(chuàng)新路徑
圖3中圓圈代表不同文獻(xiàn),圓圈大小代表文獻(xiàn)重要程度(以度數(shù)衡量)。比如文獻(xiàn)A的度數(shù)為2,文獻(xiàn)B、文獻(xiàn)C的度數(shù)都是1,A節(jié)點(diǎn)的大小是B和C的兩倍。本文將前面識(shí)別出的引用主題信息、出版年和引用位置信息分別標(biāo)注在箭頭的上方和下方,topic1、year1和位置1表示文獻(xiàn)A引用文獻(xiàn)B的主題、出版年和位置,topic2、year2和位置2表示文獻(xiàn)C引用文獻(xiàn)A的主題、出版年和位置。通過(guò)對(duì)天然引文網(wǎng)絡(luò)的標(biāo)簽豐富化處理,有效增強(qiáng)了網(wǎng)絡(luò)中信息的可辨識(shí)性。由于節(jié)點(diǎn)大小,引用主題和引用位置信息標(biāo)注的設(shè)置,結(jié)合時(shí)間信息可以更加有效地揭示出科技創(chuàng)新路徑的發(fā)展趨勢(shì)。
由于引文網(wǎng)絡(luò)是龐大的復(fù)雜網(wǎng)絡(luò),并且是有向無(wú)回路網(wǎng)絡(luò),因此,本文利用復(fù)雜網(wǎng)絡(luò)分析方法抽取出其中起結(jié)構(gòu)洞鏈接作用的關(guān)鍵路徑信息。在具體技術(shù)實(shí)現(xiàn)細(xì)節(jié)上,由于抽取出引文數(shù)據(jù)中包含施引文獻(xiàn)ID(PMID),被引文獻(xiàn)ID(PMID)、出版年、引用內(nèi)容、引用主題、引用位置等信息,在利用Gephi工具進(jìn)行路徑展示時(shí)需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。數(shù)據(jù)導(dǎo)入Gephi后,可以對(duì)相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、布局調(diào)整和賦色,進(jìn)而最終生成基于引文內(nèi)容的科技創(chuàng)新路徑圖譜。
1.硬件環(huán)境
Windows 7系統(tǒng),i5-4590 CPU,4G RAM,1T HardDrive。
2.軟件環(huán)境
Python、KNIME和TerMine(集成C-value功能)、Gephi等
3.數(shù)據(jù)集
21世紀(jì)的人口老齡化使得人類面臨著艱巨的養(yǎng)老任務(wù),但是衰老是大自然的必然規(guī)律,是一種無(wú)情的力量。近年來(lái),隨著科技的進(jìn)步和物質(zhì)生活的大力提升,抗衰老成為當(dāng)今世界醫(yī)學(xué)的研究熱點(diǎn),如何有效地進(jìn)行抗衰老和養(yǎng)老成為當(dāng)今的熱點(diǎn)研究課題。因此,對(duì)抗衰老領(lǐng)域的科技文本進(jìn)行有效的利用和研究,揭示抗衰老領(lǐng)域的科技創(chuàng)新路徑對(duì)人類尋找延緩衰老的秘密,延長(zhǎng)壽命提升生活質(zhì)量意義深遠(yuǎn)。
本文以歐洲生命科學(xué)數(shù)據(jù)庫(kù)PubMed Central所收錄的抗衰老領(lǐng)域(Anti-aging)XML 格式的論文全文數(shù)據(jù)為數(shù)據(jù)源進(jìn)行實(shí)證研究。
數(shù)據(jù)庫(kù):PubMed Central生物醫(yī)學(xué)數(shù)據(jù)庫(kù);
檢索式:(TITLE:"anti-aging" OR ABSTRACT:"anti-aging" OR KW:"anti-aging");
檢索范圍:題名;
時(shí)間跨度:截止至2016年12月31日;
檢索結(jié)果:1351篇。
通過(guò)該網(wǎng)站提供的API,利用本文開發(fā)的Python爬蟲程序獲取到XML格式的全文數(shù)據(jù)1351篇,保存到本地硬盤,形成XML文本數(shù)據(jù)集合,其過(guò)程見(jiàn)圖4。
獲取XML全文內(nèi)容之后,利用本文開發(fā)的python程序從1351篇源文獻(xiàn)中抽取到了23915條引文內(nèi)容,部分?jǐn)?shù)據(jù)見(jiàn)表1。
本文將“Methods” “Materials and Methods” “Experimental Section” “Experimental Procedures” “Research Design and Methods” 等統(tǒng)一規(guī)范到了
圖4 XML全文數(shù)據(jù)獲取
“Materials and Methods”來(lái)進(jìn)行統(tǒng)計(jì),將 “Conclusions and Future Prospects”“Future research and directions” 等統(tǒng)一規(guī)范到“Conclusions and Future Prospects”來(lái)統(tǒng)計(jì),將“Background”和“Summary of current management strategies” 等統(tǒng)一規(guī)范到“Background”統(tǒng)計(jì),統(tǒng)計(jì)分析后引文內(nèi)容所在章節(jié)位置的分布情況見(jiàn)表2。
表2 引用位置統(tǒng)計(jì)
位置數(shù)目百分比/%Background3301.4Introduction1099945Materials and Methods20998.7Results14035.8Discussion741030.9Conclusions and Future Prospects420.2Results and Discussion17027.1
由表2分析發(fā)現(xiàn), Introduction部分實(shí)施引用行為的數(shù)目最多為10999次,占所有引用次數(shù)的45%;其次是Disscution部分7410次,占所有引用次數(shù)的30.9%,而Conclusions and Future Prospects部分引用次數(shù)為42,僅占0.2%,引用行為最少。
1.基于C-value算法的研究主題表征
本文利用集成C-value算法的文本挖掘系統(tǒng)TerMine對(duì)引文內(nèi)容中的主題進(jìn)行了抽取,抽取過(guò)程如圖5所示。
圖5 C-value算法主題抽取過(guò)程
基于C-value主題識(shí)別的方法依據(jù)所識(shí)別文本的長(zhǎng)短自動(dòng)獲取主題數(shù)目,長(zhǎng)文本識(shí)別出的主題詞數(shù)目多,短文本數(shù)目少。由于引文內(nèi)容多為句子,因此,該方法所識(shí)別出的主題詞數(shù)相對(duì)較少。將識(shí)別所得到的主題詞對(duì)應(yīng)到施引文獻(xiàn)與被引文獻(xiàn)中,可以得到如下結(jié)果,見(jiàn)表3。
通過(guò)回溯原文解讀發(fā)現(xiàn),文獻(xiàn)4682506引用文獻(xiàn)25155754的引文內(nèi)容描述為:雌鴨的肌氨酸含量明顯高于對(duì)照實(shí)驗(yàn)。通過(guò)引用文獻(xiàn)25155754的研究結(jié)果“韓國(guó)本土雞的肌氨酸含量中雌性土雞中的肌氨酸含量明顯高于雄性”來(lái)判定實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。本文識(shí)別出的主題詞為:femal(雌性)、content(含量)、creatin(肌氨酸)、study(研究)、significant(重要),與原文描述內(nèi)容基本一致。文獻(xiàn)3830124引用23325216描述的是細(xì)胞中的水分含量對(duì)抗衰老的影響與本文識(shí)別出的主題詞:water(水份)、Partridge、alital、Cell(細(xì)胞)內(nèi)容也相切合。
表3 基于C-value算法的研究主題識(shí)別結(jié)果
施引ID位置被引ID發(fā)表時(shí)間C-value引用內(nèi)容主題4682506Result Discussion251557542015Femal(6)content(5)creatin(2)Study(1)significant(1)4682506Introduction247698802014Italicet(4)male(4)regard(2)meat(2)McAfee(2)4682506Introduction229915552013Meat(5)Meanwhile(1)duck(1)consumpt(1)Korea(1)3830124Discussion232320782013Italicet(3)Direct(1)alital(1)tender(1)cell(1)3830124Discussion233252162013Italicet(4)water(2)Partridg(2)alital(1)cell(1)…………………………
2.基于TF-IDF的研究主題表征
本文利用文本挖掘平臺(tái)KNIME實(shí)現(xiàn)基于TF-IDF的引文內(nèi)容研究主題識(shí)別,具體流程如圖6所示。
圖6 TF-IDF算法主題抽取過(guò)程
實(shí)驗(yàn)發(fā)現(xiàn)基于TF-IDF算法所識(shí)別出的研究主題較C-value多,將所得結(jié)果對(duì)應(yīng)到施引文獻(xiàn)與被引文獻(xiàn)的表格中,見(jiàn)表4。
通過(guò)對(duì)照4682506原文以及前文所述基于C-value的主題識(shí)別結(jié)果,兩種識(shí)別結(jié)果中都存在性別和氨基酸的主題詞,符合原文所描述內(nèi)容。
實(shí)驗(yàn)發(fā)現(xiàn),基于TF-IDF算法的主題識(shí)別方法在主題數(shù)量上更占優(yōu)勢(shì),在準(zhǔn)確性上,基于C-value算法的主題識(shí)別方法更優(yōu)異,更能與文中內(nèi)容相對(duì)應(yīng)。采用混策略后的最終主題表征結(jié)果見(jiàn)表5。
按照本文提出的思路將上述數(shù)據(jù)轉(zhuǎn)換格式后導(dǎo)入Gephi中,導(dǎo)入過(guò)程中設(shè)置為有向圖譜。導(dǎo)入后利用過(guò)濾功能設(shè)置度數(shù)n≥5,去除掉零被引和單次被引等文獻(xiàn)節(jié)點(diǎn),得到719個(gè)節(jié)點(diǎn)。以Yifan Hu為背景布局,最佳距離設(shè)置為100。以度為渲染方式對(duì)網(wǎng)絡(luò)圖中的節(jié)點(diǎn)顏色和大小進(jìn)行賦色和賦值,并打開Source、Target和Section、topic邊標(biāo)簽的顯示,顯示效果如圖7所示。
從圖7中可以看出,整體的網(wǎng)絡(luò)結(jié)構(gòu)比較清晰,可以觀測(cè)到施引文獻(xiàn)ID(PMID),被引文獻(xiàn)ID(PMID)、出版年、引用主題、引用位置等信息,以及路徑的基本走勢(shì)。但是,由于網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于龐大繁雜,節(jié)點(diǎn)過(guò)多,連線復(fù)雜。雖然網(wǎng)絡(luò)表達(dá)全面,但是不方便從個(gè)體角度進(jìn)行觀測(cè)科技創(chuàng)新經(jīng)的內(nèi)部特征。
表4 基于TF-IDF算法的研究主題識(shí)別結(jié)果
施引ID位置被引ID發(fā)表時(shí)間TF-IDF引用內(nèi)容主題4682506Result Discussion251557542015creatin(0.23)content(0.15)KNC(0.14)femal(0.09)significantli(0.08)KND(0.06)chicken(0.06)Schmid(0.05)breed(0.05)bird(0.05)4682506Introduction247698802014McAfee(0.47)Italicet(0.47)alital(0.18)male(0.18)regard(0.02)meat(0.02)4682506Introduction229915552013meat(0.22)meal(0.12)controversi(0.12)Meanwhil(0.12)5-fold(0.12)duck(0.09)Korea(0.09)benefit(0.08)approxim(0.08)consumpt(0.08)3830124Discussion232320782013Italicet(0.3)Direct(0.1)tender(0.1)alital(0.1)cell(0.1)3830124Discussion233252162013water(0.2)Italicet(0.2)Partridg(0.2)alital(0.1)…………………………
表5 主題表征結(jié)果
施引ID位置被引ID發(fā)表時(shí)間混合策略引用內(nèi)容主題4682506Result Discussion251557542015femal(6.09)content(5.15)creatin(2.23)significantli(1.08)Study(1)KNC(0.14)KND(0.06)chicken(0.06)Schmid(0.05)breed(0.05)bird(0.05)4682506Introduc-tion247698802014Italicet(4.47)male(4.18)McAfee(2.47)regard(2.02)meat(2.02)alital(0.18)4682506Introduc-tion229915552013meat(5.22)Meanwhile(1.12)duck(1.09)Korea(1.09)consumpt(1.08)meal(0.12)controversi(0.12)5-fold(0.12)benefit(0.08)approxim(0.08)3830124Discussion232320782013Italicet(3.3)Direct(1.1)tender(1.1)alital(0.1)cell(1.1)3830124Discussion233252162013Italicet(4.2)water(2.2)Partridg(2.2)alital(1.1)cell(1)…………………………
圖7 基于引文網(wǎng)絡(luò)主題增強(qiáng)的科技創(chuàng)新路徑
為了更加清晰地展示科技創(chuàng)新路徑,需要對(duì)網(wǎng)絡(luò)進(jìn)行精簡(jiǎn)處理,Gephi的過(guò)濾面板中提供了k-核設(shè)置功能,如圖8所示。通過(guò)調(diào)節(jié)k的取值可以得到不同網(wǎng)絡(luò)結(jié)構(gòu)的凝聚子群。
圖8 Gephi中的k-核分析
“k-核”的定義是:對(duì)所有的ni∈Ns來(lái)說(shuō),如果d(ni)≥k,則子圖Gs是一個(gè)“k-核”,k-核也是凝聚子群分析中常用的一個(gè)概念,表示一個(gè)子群中有k個(gè)節(jié)點(diǎn),其中每個(gè)節(jié)點(diǎn)都至少與概子群中的其他k個(gè)節(jié)點(diǎn)鄰接,即其中每個(gè)節(jié)點(diǎn)都至少與該子群中的其他節(jié)點(diǎn)有k條連線。一個(gè)k-核中,每個(gè)節(jié)點(diǎn)度數(shù)都至少為k。通過(guò)調(diào)整k值的大小能得到一系列的k-核,可以發(fā)現(xiàn)一些關(guān)鍵的網(wǎng)絡(luò)子群[19]56-63。
1.引用位置可視化分析
通過(guò)調(diào)節(jié)k的取值,當(dāng)k=3時(shí),得到以下子群路徑,將標(biāo)簽顯示設(shè)置成只顯示文獻(xiàn)ID和引用位置,如圖9所示。
圖9中可以清晰地看到含有位置信息的文獻(xiàn)之間的引用情況,文獻(xiàn)14907713相繼對(duì)7篇文獻(xiàn)進(jìn)行了引用,通過(guò)引用位置分析發(fā)現(xiàn)都是在Material and Method部分進(jìn)行的引用,說(shuō)明文獻(xiàn)14907713是一篇主要以研究方法為創(chuàng)新的文章。
2.高被引文獻(xiàn)主題對(duì)比可視化分析
為了將識(shí)別出的主題信息添加到科技創(chuàng)新路徑中來(lái),更好地展示路徑中的知識(shí)繼承與創(chuàng)新情況,本文將Gephi中的topic數(shù)據(jù)資料復(fù)制到label中,進(jìn)行引用主題的可視化展示,如圖10所示。
圖10中發(fā)現(xiàn)文獻(xiàn)14907713在Material and Method部分引用的主題有NMR、cell、protein、buffer等,其中method出現(xiàn)了3次,表明此文獻(xiàn)主要從方法方面展開抗衰老的研究,且在方法上對(duì)其他文獻(xiàn)進(jìn)行了大量借鑒。其引用的主題詞來(lái)源于不同文獻(xiàn)、不同部分,表達(dá)的內(nèi)容均不相同。
3.關(guān)鍵創(chuàng)新路徑可視化分析
為了尋找抗衰老領(lǐng)域中的關(guān)鍵路徑,設(shè)置Yi fan Hu布局中的最佳距離為200,尋找到了以下關(guān)鍵路徑,如圖11所示。圖中有兩個(gè)小的子群,一個(gè)以文獻(xiàn)18515024為中心,另一個(gè)以文獻(xiàn)4907713為中心,經(jīng)文獻(xiàn)4443785將兩個(gè)子群連接起來(lái)。
圖9 科技創(chuàng)新路徑引用位置展示
圖10 科技創(chuàng)新路徑主題展示
路徑4506373→4907713,路徑4807895→4907713,路徑23049247→4907713,路徑4443785→4907713,分別從Result中引用了主題data、product、rid。從Material and Method中引用了主題method、sample、protein。從Material and Method中引用了主題centrifuge、buffer。對(duì)連接文獻(xiàn),它從Material and Method中引用了主題method、measure、protein。對(duì)比引用位置和引用主題,可以發(fā)現(xiàn)文獻(xiàn)4907713是對(duì)檢測(cè)蛋白質(zhì)相關(guān)方法方面進(jìn)行的研究, 作者主要對(duì)已有的實(shí)驗(yàn)方法或進(jìn)行借鑒或改進(jìn),提出自己獨(dú)有的待驗(yàn)證的實(shí)驗(yàn)方法。然后在Result部分,作者主要通過(guò)前人的實(shí)驗(yàn)數(shù)據(jù)解釋實(shí)驗(yàn)中所得結(jié)果代表的意義。
圖11 關(guān)鍵路徑展示
路徑4708250→18515024,路徑4285959→18515024,路徑4021675→18515024,路徑3619623→18515024,路徑4443785→18515024,分別從Schizandra chinensis章節(jié)中引用了主題Russia、China、Korea、forest。從Introduction中引用了主題fruit、medicine、herbal。從Introduction中引用了主題antiaging、immunostimul、antifatigu。從Typic Example Drug Discovery Herbal Medicine章節(jié)中引用了主題action、fruit、wine。對(duì)連接文獻(xiàn),從Introduction中引用的主題為fruit、Russia、Japan。對(duì)比引用位置和引用的主題,可知作者主要是對(duì)各個(gè)國(guó)家的已有方法和理論的對(duì)比和總結(jié),引出論文的主要?jiǎng)?chuàng)新點(diǎn),以闡述中藥理論在抗衰老領(lǐng)域的應(yīng)用價(jià)值和意義,為之后的方法驗(yàn)證做鋪墊。
本文研究了一種基于引文內(nèi)容的科技創(chuàng)新路徑構(gòu)建和可視化方法,綜合利用了文本挖掘和可視化方法將抗衰老領(lǐng)域的引用主題具體內(nèi)容、位置信息和傳遞路徑等信息挖掘展示出來(lái),增強(qiáng)了原始引文路徑的主題信息展示能力。所生成的科技創(chuàng)新路徑對(duì)科研工作者觀察和判斷抗衰老領(lǐng)域的發(fā)展過(guò)程,探查和分析具體演化路徑及趨勢(shì)提供了一種嶄新的視角。該方法只是對(duì)引文內(nèi)容的主題、位置等信息進(jìn)行了挖掘和展示,沒(méi)有對(duì)作者的引用情感(正向,負(fù)向,中性)作極性判斷,因而不能展示作者引用過(guò)程中的批判性觀點(diǎn)。
山東理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2019年4期