金晨,謝振平,任立園,劉淵
(1.江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122; 2.江蘇省媒體設(shè)計與軟件技術(shù)重點實驗室, 江蘇 無錫 214122)
基于時空域聯(lián)合建模的領(lǐng)域知識演化脈絡(luò)分析
金晨,謝振平,任立園,劉淵
(1.江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122; 2.江蘇省媒體設(shè)計與軟件技術(shù)重點實驗室, 江蘇 無錫 214122)
同一領(lǐng)域不同知識概念之間存在演化關(guān)系,分析演化關(guān)系能有效地梳理領(lǐng)域知識的發(fā)展脈絡(luò),然而網(wǎng)絡(luò)知識的碎片化、無序性、大規(guī)模等特性使得用戶很難準(zhǔn)確地分析并獲取知識之間的這種關(guān)系。針對該問題,本文提出一種基于時空域聯(lián)合建模的領(lǐng)域知識演化脈絡(luò)分析方法,該方法首先考慮將知識系統(tǒng)以時空域聯(lián)合知識網(wǎng)絡(luò)的形式進(jìn)行表達(dá),隨后采用骨架聚類方法提取歷年知識網(wǎng)絡(luò)演化路徑,并按知識概念的發(fā)展進(jìn)行演化路徑銜接及路徑分析。以數(shù)字媒體領(lǐng)域知識為例的實驗分析表明,該方法能有效提取按年份發(fā)展的領(lǐng)域知識演化路徑,對于輔助用戶進(jìn)行領(lǐng)域知識的理解與學(xué)習(xí),以及個性化推薦具有顯著的價值。
知識演化;演化路徑;知識網(wǎng)絡(luò);知識系統(tǒng);時空域聯(lián)合;骨架聚類;數(shù)字媒體知識
領(lǐng)域知識是一個隨時間擴(kuò)展的體系,那些重要的理論定律不斷被引用,新穎的思想和觀點不斷產(chǎn)生,新舊知識之間始終保持動態(tài)的知識增長。在這個過程中,學(xué)科領(lǐng)域逐步細(xì)化,知識框架也將發(fā)生改變,但科學(xué)知識始終保持一個整體,這其中體現(xiàn)了知識的演化。知識之間存在一種建構(gòu)的關(guān)系[1-2],任何新知識不可能憑空產(chǎn)生,必然基于現(xiàn)有的知識經(jīng)驗,可以說,新知識是現(xiàn)有知識的演化和創(chuàng)新。知識演化體現(xiàn)了知識之間傳承和發(fā)展的關(guān)系,提取知識間的這種演化關(guān)系具有十分重要的意義。一方面,科學(xué)知識的增長,知識數(shù)量的膨脹,給用戶準(zhǔn)確有效地獲取所需知識帶來了巨大的挑戰(zhàn),知識演化分析[3-4]能夠幫助用戶有效地梳理復(fù)雜的知識關(guān)系,獲悉領(lǐng)域研究熱點及發(fā)展動向。另一方面,目前網(wǎng)絡(luò)個性化知識服務(wù)已相當(dāng)成熟,然而能體現(xiàn)時空上演化的知識服務(wù)卻少有研究,設(shè)計一種自動提取領(lǐng)域知識演化關(guān)系的方法能夠為用戶生成具有時間上連續(xù)的演化知識序列,對個性化知識服務(wù)的改進(jìn)具有一定的價值。
一對演化關(guān)系由兩個實體概念組成,演化路徑則是演化關(guān)系的連續(xù)序列,包括演化起點、演化終點及演化中間點。例如,1990年數(shù)字媒體領(lǐng)域的一條演化路徑“電視廣播—電視教育—電教媒體—遠(yuǎn)距離教育—電化教學(xué)—計算機(jī)技術(shù)”,“電視廣播”表示知識演化起點,“計算機(jī)技術(shù)”表示知識演化終點。可以看出,1990年數(shù)字媒體領(lǐng)域熱點話題圍繞傳統(tǒng)媒體,并將傳統(tǒng)媒體廣泛應(yīng)用于教學(xué),整體的演化趨勢從傳統(tǒng)媒體趨向計算機(jī)技術(shù)。
為了較好地挖掘知識間的這種演化關(guān)系,研究者通常采用知識網(wǎng)絡(luò)來表示不同形式知識單元之間的聯(lián)系,并設(shè)計自動化的知識關(guān)系抽取模型,進(jìn)而獲取有效的知識信息。根據(jù)知識單元的不同表現(xiàn)形式,常見的知識網(wǎng)絡(luò)包括引證網(wǎng)絡(luò)[5-6]、合作網(wǎng)絡(luò)[7-9]、共詞網(wǎng)絡(luò)[10-12]等。此外,可視化文獻(xiàn)分析軟件也廣泛應(yīng)用在研究學(xué)科領(lǐng)域的發(fā)展趨勢與動向。例如,馬費成等[4]在引文網(wǎng)絡(luò)的基礎(chǔ)上采用網(wǎng)絡(luò)分析軟件Citespace,以生物醫(yī)學(xué)領(lǐng)域為例進(jìn)行了領(lǐng)域主題聚類、關(guān)鍵路徑提取、核心文獻(xiàn)分析等研究,實驗分析結(jié)果為學(xué)科發(fā)展提供了較好的理解。但Citespace只有在文獻(xiàn)引文網(wǎng)絡(luò)分析中有較好表現(xiàn),并且對文獻(xiàn)格式等有一定要求。
本文提出一種基于時空域聯(lián)合建模的領(lǐng)域知識演化脈絡(luò)分析方法,在傳統(tǒng)知識網(wǎng)絡(luò)分析技術(shù)的基礎(chǔ)上引入骨架聚類技術(shù)[13-15],針對網(wǎng)絡(luò)結(jié)構(gòu)中的最短路徑進(jìn)行骨架聚類分析,骨架聚類效果最優(yōu)的最短路徑視為該知識網(wǎng)絡(luò)的演化路徑,并根據(jù)時空上連續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行演化路徑銜接,形成連續(xù)年份的知識演化脈絡(luò)??紤]到近年來數(shù)字媒體領(lǐng)域發(fā)展之快,影響面之廣,本文實驗以CNKI在數(shù)字媒體領(lǐng)域發(fā)表的期刊文獻(xiàn)作為數(shù)據(jù)來源,按年份發(fā)展逐年構(gòu)建知識網(wǎng)絡(luò)并采用骨架聚類提取演化路徑,進(jìn)而對數(shù)字媒體領(lǐng)域的發(fā)展歷程進(jìn)行研究分析。
本文提出的基于時空域聯(lián)合建模的領(lǐng)域知識演化脈絡(luò)分析方法著重考慮兩個問題:如何表示知識概念之間的演化關(guān)系;如何從復(fù)雜的演化關(guān)系中提取演化路徑。針對上述問題,本文設(shè)計的模型框架由兩部分組成:1)采用知識網(wǎng)絡(luò)來表示知識概念之間的演化關(guān)系,網(wǎng)絡(luò)節(jié)點表示知識概念,網(wǎng)絡(luò)邊表示連接兩個知識概念存在知識演化關(guān)系;2)采用“局部聚合,整體關(guān)聯(lián)”的思想進(jìn)行網(wǎng)絡(luò)骨架聚類分析?!熬植烤酆稀敝腹羌芄?jié)點能夠作為鄰近節(jié)點的聚類中心,形成局部稠密子圖;“整體關(guān)聯(lián)”指各骨架節(jié)點在網(wǎng)絡(luò)圖中是連通的,并且整條骨架上的各節(jié)點聚類系數(shù)之和最小,則該骨架認(rèn)為是網(wǎng)絡(luò)圖的一條最優(yōu)知識脈絡(luò)。
1.1 知識網(wǎng)絡(luò)模塊
在知識圖譜領(lǐng)域,知識網(wǎng)絡(luò)是研究知識發(fā)展的重要工具[16-20]。知識網(wǎng)絡(luò)由節(jié)點和邊組成,節(jié)點表示知識實體單元,邊表示實體單元之間的知識關(guān)聯(lián)。按實體單元不同,節(jié)點可以是論文、專利、書籍、關(guān)鍵詞等;按知識關(guān)聯(lián)不同,邊可以是引證關(guān)系、共現(xiàn)關(guān)系、合作關(guān)系等。本文采用的知識網(wǎng)絡(luò)是一種改進(jìn)的共詞網(wǎng)絡(luò),以領(lǐng)域關(guān)鍵詞為節(jié)點,以演化關(guān)系權(quán)重作為邊。相對于引證網(wǎng)絡(luò),共詞網(wǎng)絡(luò)能夠更加直觀有效地體現(xiàn)實體概念在網(wǎng)絡(luò)結(jié)構(gòu)上的演化脈絡(luò)。
本文構(gòu)建的知識網(wǎng)絡(luò)是一種加權(quán)無向網(wǎng)絡(luò),目前對該類網(wǎng)絡(luò)的研究主要包括兩方面:1)網(wǎng)絡(luò)節(jié)點在網(wǎng)絡(luò)圖中的重要性評價,評價指標(biāo)主要有節(jié)點詞頻,節(jié)點度(無向圖中出度入度相等,統(tǒng)稱為節(jié)點度),中介中心度等;2)基于節(jié)點連線的網(wǎng)絡(luò)路徑分析,包括最短路徑、關(guān)鍵路徑、平均路徑長度等。網(wǎng)絡(luò)節(jié)點分析常用于獲取網(wǎng)絡(luò)主題分布,而網(wǎng)絡(luò)路徑分析則用于預(yù)測領(lǐng)域知識發(fā)展方向、發(fā)現(xiàn)研究熱點等。
本文構(gòu)建知識網(wǎng)絡(luò)的過程主要包括以下3個步驟。1)獲取網(wǎng)絡(luò)節(jié)點:自動抽取數(shù)字媒體文獻(xiàn)的關(guān)鍵詞,進(jìn)行關(guān)鍵詞篩選和統(tǒng)計,獲取具有代表性的領(lǐng)域關(guān)鍵詞作為網(wǎng)絡(luò)節(jié)點。2)提取節(jié)點關(guān)系:統(tǒng)計關(guān)鍵詞在文檔中的共現(xiàn)頻率,基于共現(xiàn)頻率計算關(guān)鍵詞對的演化權(quán)重,以演化權(quán)重作為節(jié)點關(guān)系。3)根據(jù)獲取的網(wǎng)絡(luò)節(jié)點以及節(jié)點關(guān)系逐年構(gòu)建知識網(wǎng)絡(luò),形成相鄰年份網(wǎng)絡(luò)結(jié)構(gòu)關(guān)聯(lián)的時空域聯(lián)合知識網(wǎng)絡(luò)。
1.1.1 知識術(shù)語抽取
隨著自然語言處理領(lǐng)域的快速發(fā)展,領(lǐng)域術(shù)語抽取技術(shù)已取得顯著的成績[21-23],并且涌現(xiàn)出了一批成熟的術(shù)語抽取系統(tǒng)[24],其中最著名的是中科院漢語分詞系統(tǒng)NLPIR。本節(jié)主要介紹如何使用NLPIR工具進(jìn)行文檔術(shù)語抽取及統(tǒng)計工作。術(shù)語抽取的具體流程如圖1所示:首先搜集指定領(lǐng)域相關(guān)的文本語料,然后調(diào)用NLPIR系統(tǒng)的KeyExtract_GetKeyWords方法進(jìn)行單篇文檔術(shù)語抽取,并將獲取的關(guān)鍵詞以鍵值對的形式存入HashMap中,Key表示關(guān)鍵詞,Value表示關(guān)鍵詞出現(xiàn)的次數(shù),從而實現(xiàn)關(guān)鍵詞次數(shù)統(tǒng)計。統(tǒng)計過程首先提取文檔ti的關(guān)鍵詞集合K,如果關(guān)鍵詞首次出現(xiàn)則存入HashMap,并將Key值設(shè)為1;如果關(guān)鍵詞在HashMap中已存在,則將關(guān)鍵詞對應(yīng)的Value值累加1;直到統(tǒng)計完該年所有文檔中的關(guān)鍵詞。最終按Value值對關(guān)鍵詞進(jìn)行降序排序,獲取頻次較高的前N個關(guān)鍵詞作為該領(lǐng)域術(shù)語集合。
圖1 術(shù)語抽取流程Fig.1 Term extraction process
1.1.2 時空域聯(lián)合知識網(wǎng)絡(luò)構(gòu)建
時空域聯(lián)合知識網(wǎng)絡(luò)旨在通過構(gòu)建空間上連續(xù)層面的知識網(wǎng)絡(luò)來表現(xiàn)知識在時間上的連續(xù)演化關(guān)系。聯(lián)合知識網(wǎng)絡(luò)構(gòu)建過程可分為兩步:首先逐年創(chuàng)建知識網(wǎng)絡(luò),然后根據(jù)相鄰年份重復(fù)的網(wǎng)絡(luò)節(jié)點自動形成空間上連續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)。
構(gòu)建知識網(wǎng)絡(luò)的核心工作在于提取網(wǎng)絡(luò)節(jié)點之間的關(guān)系權(quán)重,本文將知識概念之間的演化關(guān)系視為網(wǎng)絡(luò)邊權(quán)重。演化關(guān)系可認(rèn)為是實體關(guān)系[25-26]的一種,這種關(guān)系是由知識概念在文檔中的語義距離和共現(xiàn)頻率決定的,距離越小頻率越高則演化強(qiáng)度越大。本文針對演化關(guān)系給出如下定義:對于給定的文檔T,文檔知識概念實體序列表示為S={s1,s2,s3,…},兩個實體概念si和sj在序列S中的語義距離計算如(1)式:
式中:i和j表示知識概念在序列中出現(xiàn)的位置,n表示知識對在序列中出現(xiàn)的次數(shù)。語義距離越小表明實體概念si和sj之間的演化強(qiáng)度越大。在實驗過程中本文設(shè)定語義距離閾值ε,當(dāng)知識對在共現(xiàn)序列中位置差小于給定閾值時認(rèn)為兩個知識存在演化關(guān)系,否則認(rèn)為沒有關(guān)系。如果節(jié)點對si和sj之間存在演化關(guān)系,則節(jié)點對在知識網(wǎng)絡(luò)中必然存在一條關(guān)聯(lián)路徑。演化距離的定義如(2)式所示:
提取演化關(guān)系具體流程如圖2所示:將提取的關(guān)鍵詞導(dǎo)入NLPIR分詞工具,作為用戶自定義詞典,使分詞工具能夠?qū)崿F(xiàn)粒度較大的分詞。對單篇文檔進(jìn)行分詞,篩選分詞結(jié)果中的用戶自定義詞,初步得到文檔關(guān)鍵詞序列S,合并序列中相鄰重復(fù)出現(xiàn)的關(guān)鍵詞,得到相鄰關(guān)鍵詞不重復(fù)的新序列S′。在此基礎(chǔ)上,進(jìn)一步統(tǒng)計序列S′中兩兩關(guān)鍵詞對的關(guān)系。例如,si和sj是S′中的兩個關(guān)鍵詞,按{sij,dij,nij}的格式進(jìn)行存儲,sij表示關(guān)系對,dij表示關(guān)系對在文檔中的語義距離,nij表示關(guān)系對出現(xiàn)的次數(shù)。進(jìn)一步,統(tǒng)計所有文檔中出現(xiàn)的關(guān)系對,對于重復(fù)出現(xiàn)的關(guān)系對,dij值累加,nij值累加。最終得到每一對關(guān)系的平均語義距離及出現(xiàn)的次數(shù)。根據(jù)式(2)計算每一對關(guān)系的演化距離,作為知識網(wǎng)絡(luò)邊的權(quán)重。
圖2 演化關(guān)系抽取流程Fig.2 Evolutionary relationship extraction process
按照上述方法,我們以關(guān)鍵詞作為知識網(wǎng)絡(luò)節(jié)點,以演化距離作為知識網(wǎng)絡(luò)邊的權(quán)重,逐年構(gòu)建知識網(wǎng)絡(luò),并根據(jù)相鄰年份重復(fù)節(jié)點自動形成時空域聯(lián)合知識網(wǎng)絡(luò)。圖3為連續(xù)3年的時空域聯(lián)合知識網(wǎng)絡(luò)結(jié)構(gòu),圓點表示知識概念,圓點半徑越大表明該知識在網(wǎng)絡(luò)中的重要性越強(qiáng);節(jié)點間的連線表示演化關(guān)系,權(quán)重越小則節(jié)點距離越近,表明兩個知識之間演化強(qiáng)度越大。虛線表示相鄰年份知識網(wǎng)絡(luò)之間存在重疊的知識概念,通過這些重復(fù)的知識概念來建立連續(xù)年份之間的知識演化關(guān)系。
圖3 時空域聯(lián)合知識網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Space-time domain joint knowledge network structure
1.2 骨架聚類分析
基于給定知識網(wǎng)絡(luò),如何從該知識網(wǎng)絡(luò)中提取理想的演化路徑是本節(jié)主要討論的問題。一條理想的演化路徑可看作若干條網(wǎng)絡(luò)結(jié)構(gòu)骨架的連接,骨架是用于支撐網(wǎng)絡(luò)結(jié)構(gòu)或輪廓的支架,一條理想的骨架應(yīng)具有中心性、連通性等特性。本文提出一種骨架聚類的方法提取知識網(wǎng)絡(luò)中的演化路徑。骨架聚類方法的整體思想是“局部聚合,整體關(guān)聯(lián)”?!熬植烤酆稀钡哪康氖菍⒅R網(wǎng)絡(luò)進(jìn)行聚類劃分,每一個類可認(rèn)為是一個知識主題,骨架節(jié)點應(yīng)盡可能地分布在不同的知識主題中,并且該骨架節(jié)點能夠作為主題的一個聚類中心,使得主題聚類效果最優(yōu)?!罢w關(guān)聯(lián)”的目的是將所有的骨架節(jié)點進(jìn)行連接,整合成一條完整的骨架,理論上整條骨架應(yīng)盡可能全面地覆蓋知識網(wǎng)絡(luò),并且使得骨架節(jié)點的主題聚類效果之和最優(yōu)。
圖4為知識網(wǎng)絡(luò)演化路徑示意圖,圓點表示知識節(jié)點,連線表示演化關(guān)系。圖4展示了3個連續(xù)年份的知識網(wǎng)絡(luò)i,j,k,其中A—B—C—D和O—P—Q—R表示兩條完整的演化路徑。每個知識網(wǎng)絡(luò)中提取兩條骨架路徑,如年份i知識網(wǎng)絡(luò)中實線A—B和O—P所示。相鄰知識網(wǎng)絡(luò)間的虛線連接表示上一年演化路徑的終點與下一年演化路徑的起點為同一個知識,如圖4中B—B、C—C等。
圖4 聯(lián)合時空域知識網(wǎng)絡(luò)演化路徑 Fig.4 Evolutionary paths in joint space-time knowledge network
兩個知識之間存在許多種可能的演化路徑,其中最短路徑認(rèn)為是最優(yōu)的演化路徑。最短路徑通常用于計算網(wǎng)絡(luò)圖中一個節(jié)點到其他節(jié)點的最小路徑代價,在知識演化網(wǎng)絡(luò)圖中,最短路徑可認(rèn)為是知識間演化的必然趨勢。不同的演化起點和演化終點對應(yīng)不同的最短路徑,因此需進(jìn)一步通過骨架聚類的方法來分析不同最短路徑對整個網(wǎng)絡(luò)結(jié)構(gòu)的演化重要性。
骨架由骨架節(jié)點組成,一個理想的骨架節(jié)點應(yīng)具有較好的中心性,相鄰節(jié)點簇以骨架節(jié)點為聚類中心構(gòu)成一個知識主題。節(jié)點聚類系數(shù)具體計算公式如(3)式所示:
式中:CH(s)表示骨架節(jié)點s的聚類系數(shù);C表示s所對應(yīng)的知識主題;Cn表示主題C包含的節(jié)點數(shù);dis(*,*)表示節(jié)點間的最短路徑。如果CH(s)聚類系數(shù)值最小,則節(jié)點s被認(rèn)為主題聚類中心,即骨架節(jié)點。進(jìn)一步計算整條骨架的主題聚類系數(shù),根據(jù)骨架節(jié)點聚類系數(shù)平均值來選取最優(yōu)的骨架。具體計算公式如(4)式所示:
式中Sn表示骨架S包含的骨架節(jié)點數(shù)。如果骨架S的聚類系數(shù)平均值SH(S)最小,則認(rèn)為該最短路徑對應(yīng)的骨架是一條理想演化路徑。
1.3 演化路徑抽取
連續(xù)年份知識演化路徑提取算法詳細(xì)描述如下:
1)for literatureli∈L|1990≤i≤2016
2)Gi=GetKnowledgeGraph(li)
3)if 1990≤i≤2015
5)ifi=1990
7)if 1991≤i≤2015
9)ifi=2016
10)S′={djs(Vx,Vy)|Vx∈VTi-1,Vy∈Gi};
11)LetCv=SH(s)|s∈S′;
12)SortS′ byCv;
13)get top-kitems ofS′;
14)end
15)S=Link(Si,Si+1);
2.1 實驗數(shù)據(jù)
考慮領(lǐng)域的發(fā)展現(xiàn)狀及研究熱點,本文以數(shù)字媒體領(lǐng)域作為實驗研究對象。搜集和處理數(shù)據(jù)的步驟如下:首先數(shù)據(jù)來源選擇CNKI中國知網(wǎng),分別以“媒體”和“數(shù)字媒體”作為檢索輸入,以“關(guān)鍵詞”和“摘要”作為檢索項,檢索1990~2016年期間發(fā)表的期刊文章。再按年份下載CAJ格式論文,并以“1990-01”的格式保存在相應(yīng)年份的文件夾下。如果某一年發(fā)表的文章數(shù)量較多,則根據(jù)文章的下載量和被引量擇優(yōu)選擇300~500篇。然后,采用CAJViewer自帶的“另存為”功能將CAJ格式轉(zhuǎn)化成TXT格式,便于Java程序進(jìn)行處理。由于早期發(fā)表的部分文章均采用圖片格式保存,導(dǎo)致格式轉(zhuǎn)換出現(xiàn)亂碼,需通過程序進(jìn)行篩選,去除無效數(shù)據(jù)。最終,獲取1990~2016年間數(shù)字媒體領(lǐng)域發(fā)表的部分具有代表性的學(xué)術(shù)文章,共計5 420篇,其中1990年文章數(shù)量最少僅有11篇,2016年最多514篇。這些文章基本能夠代表數(shù)字媒體領(lǐng)域的發(fā)展動態(tài)及研究成果。
2.2 實驗分析
實驗部分主要基于知識網(wǎng)絡(luò)展開分析,首先整合數(shù)字媒體領(lǐng)域歷年的期刊文獻(xiàn),構(gòu)建一個整體的領(lǐng)域知識網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)的詞頻、節(jié)點度來整體分析數(shù)字媒體領(lǐng)域的核心知識和研究熱點;然后,針對歷年數(shù)字媒體知識網(wǎng)絡(luò)進(jìn)行知識演化分析,并提取演化路徑來展示數(shù)字媒體領(lǐng)域的發(fā)展歷程。
2.2.1 網(wǎng)絡(luò)節(jié)點分析
首先采用NLPIR分詞工具進(jìn)行數(shù)字媒體領(lǐng)域關(guān)鍵詞提取,實驗從每一篇文檔中擇優(yōu)提取10個關(guān)鍵詞,并統(tǒng)計5 420篇文檔中所有關(guān)鍵詞及其相應(yīng)的詞頻,最終篩選獲取詞頻最高的953個關(guān)鍵詞作為數(shù)字媒體領(lǐng)域的知識術(shù)語。表1為出現(xiàn)頻數(shù)最高的Top10關(guān)鍵詞,表中展示的“數(shù)字媒體”、“媒體”、“傳統(tǒng)媒體”等關(guān)鍵詞都是數(shù)字媒體領(lǐng)域非常有代表性的知識術(shù)語,這在一定程度上展示了關(guān)鍵詞提取的有效性。
表1數(shù)字媒體領(lǐng)域整合詞頻前十關(guān)鍵詞列表
Table1Mostfrequenttenkeywordsindigitalmediaknowledgedomain
序號關(guān)鍵詞出現(xiàn)頻數(shù)1數(shù)字媒體8362媒體7083傳統(tǒng)媒體6674信息5425新聞4096傳播3567數(shù)字電視3368網(wǎng)絡(luò)3259廣告31310電視298
進(jìn)一步整合數(shù)字媒體1990~2016年所有的期刊文獻(xiàn),構(gòu)建一個涵蓋27年知識發(fā)展的整體知識網(wǎng)絡(luò)并分析網(wǎng)絡(luò)節(jié)點度。以獲取的953個知識術(shù)語作為數(shù)字媒體知識庫,從5 420篇期刊中提取這些關(guān)鍵詞在文檔中的序列,并根據(jù)式(2)計算序列中關(guān)鍵詞對的演化距離,以關(guān)鍵詞作為網(wǎng)絡(luò)節(jié)點,演化距離作為網(wǎng)絡(luò)邊構(gòu)建知識網(wǎng)絡(luò)。
節(jié)點度表示知識網(wǎng)絡(luò)中節(jié)點擁有的關(guān)系數(shù)量,關(guān)系數(shù)量越大表明該關(guān)鍵詞的重要性越強(qiáng)。圖5為953個關(guān)鍵詞所擁有的116 274對知識關(guān)系,關(guān)鍵詞度數(shù)服從長尾分布,表明知識網(wǎng)絡(luò)內(nèi)部擁有小部分節(jié)點度較大的核心知識,大部分節(jié)點度較小的邊緣知識,核心知識在網(wǎng)絡(luò)中起到“橋梁”的作用,為邊緣知識建立知識關(guān)聯(lián)。
圖5 知識網(wǎng)絡(luò)節(jié)點度分布曲線Fig.5 Knowledge network node degree distribution
表2為部分年份知識網(wǎng)絡(luò)節(jié)點度前20關(guān)鍵詞列表,分析列表數(shù)據(jù)可知,1990年主要以“電視”、“廣播”、“電化教學(xué)”等傳統(tǒng)媒體關(guān)鍵詞為主,2000年以后“網(wǎng)絡(luò)”、“互聯(lián)網(wǎng)”、“手機(jī)”等關(guān)鍵詞開始涌現(xiàn),而具有領(lǐng)域廣泛代表性的“媒體”、“電視”等關(guān)鍵詞在各年份都高頻出現(xiàn),這在一定程度上體現(xiàn)了數(shù)字媒體領(lǐng)域伴隨年份的演化特征。
表2 部分年份知識網(wǎng)絡(luò)節(jié)點度前20關(guān)鍵詞列表
2.2.2 演化脈絡(luò)分析
實驗給出了數(shù)字媒體領(lǐng)域1990—2016年10條最優(yōu)的演化路徑。首先以1990年作為知識演化起始年份,從中提取了10條聚類效果最優(yōu)的演化路徑,并以該年的10個演化終點知識作為下一年的知識演化起點,以此獲取10條連續(xù)的涵蓋數(shù)字媒體領(lǐng)域27年的知識演化脈絡(luò)。需要指出的是,由于知識網(wǎng)絡(luò)是一個無向圖,某一年的演化路徑無法體現(xiàn)演化的方向性,演化方向主要體現(xiàn)在連續(xù)年份上知識的發(fā)展。例如,某一年存在兩條演化路徑A—B—C和C—B—A,演化的下一年將分別以節(jié)點C和節(jié)點A作為演化起點,因此在連續(xù)年份的知識演化上這兩條路徑的知識演化方向是完全不同的。
表3給出了實驗提取的10條最優(yōu)演化路徑,由于路徑包含大量演化節(jié)點,表中僅展示了每一年演化路徑的演化起點和演化終點。例如,1990年演化起點包括“報紙媒體”、“大眾傳媒”、“廣告”、“數(shù)據(jù)庫”、“軟件”,演化終點包括“數(shù)據(jù)庫”、“廣告”、“大眾傳媒”、“軟件”、“電視信號”,由于中間節(jié)點的不同,這些起始節(jié)點總共組成了10條演化路徑。1991年演化起點包含5個節(jié)點,演化終點包含4個節(jié)點,其中“大眾傳播”和“電視信號”均演化為“遠(yuǎn)距離教學(xué)”,總路徑數(shù)為5條。直到2010年所有的演化路徑合并為一條,演化終點為“現(xiàn)代傳媒”。進(jìn)入“現(xiàn)代傳媒”時代之后,數(shù)字化技術(shù)開始盛行,包括“數(shù)字廣播”、“數(shù)字影音”、“數(shù)字游戲”等,整個過程體現(xiàn)了從“傳統(tǒng)媒體”至“現(xiàn)代傳媒”的一條演化脈絡(luò)。10條演化路徑演化趨勢基本一致,表明了知識演化脈絡(luò)的可靠性。
為了更進(jìn)一步地分析演化的細(xì)節(jié),表4展示了1990—2016年一條具有代表性的完整的演化路徑。分析表4可知,數(shù)字媒體領(lǐng)域發(fā)展日新月異,新的事物新的概念不斷涌現(xiàn)。1990—1993年數(shù)字媒體領(lǐng)域主要以傳統(tǒng)媒體為主,包括電視、廣播、報紙等,并且將傳統(tǒng)媒體廣泛應(yīng)用于教育事業(yè),出現(xiàn)了關(guān)鍵詞“電化教學(xué)”、“教學(xué)媒體”、“遠(yuǎn)距離教育”等;1994年演化終點出現(xiàn)了關(guān)鍵詞“微軟”,這是推動數(shù)字媒體領(lǐng)域發(fā)展最重要的企業(yè),這也標(biāo)志著計算機(jī)技術(shù)與數(shù)字媒體的融合。1995—2000年,計算機(jī)技術(shù)得到更廣泛的應(yīng)用,包括數(shù)字化處理、圖像處理等,同時“筆記本電腦”、“互聯(lián)網(wǎng)用戶”等關(guān)鍵詞的出現(xiàn)標(biāo)志著互聯(lián)網(wǎng)技術(shù)也越來越成熟;2000年開始數(shù)字媒體正式進(jìn)入“數(shù)字時代”,“數(shù)字廣播”、“數(shù)字電視”、“數(shù)字音樂”、“數(shù)字信息”等大量出現(xiàn)在人們的視野中;2010年開始,數(shù)字媒體領(lǐng)域呈現(xiàn)了多方趨勢?!坝螒虍a(chǎn)業(yè)”、“網(wǎng)絡(luò)游戲”等關(guān)鍵詞體現(xiàn)了游戲行業(yè)的繁榮發(fā)展;“虛擬世界”、“互動體驗” “家庭影院”、“智能移動終端”等關(guān)鍵詞體現(xiàn)了數(shù)字媒體的發(fā)展將越來越貼近人們的生活,標(biāo)志著生活智能化和藝術(shù)平民化時代的到來。路徑整體演化趨勢與10條路徑綜合演化的整體趨勢基本一致,進(jìn)一步表明演化脈絡(luò)的可靠性。
表4 一條完整的代表性數(shù)字媒體知識演化路徑
本文提出了一種基于時空域聯(lián)合建模的領(lǐng)域知識演化脈絡(luò)分析方法,并對1990—2016年間5 420篇數(shù)字媒體領(lǐng)域期刊文獻(xiàn)進(jìn)行了研究分析。首先,構(gòu)建了一個數(shù)字媒體領(lǐng)域的整體知識網(wǎng)絡(luò),從節(jié)點詞頻、節(jié)點度等分析領(lǐng)域的核心知識及知識結(jié)構(gòu)。進(jìn)而,構(gòu)建了一個時空域聯(lián)合知識網(wǎng)絡(luò),并根據(jù)骨架聚類算法提取相應(yīng)年份的網(wǎng)絡(luò)骨架,連接形成連續(xù)年份的演化脈絡(luò),并根據(jù)獲取的演化脈絡(luò)對數(shù)字媒體領(lǐng)域的發(fā)展進(jìn)行深入分析。研究表明,數(shù)字媒體領(lǐng)域的發(fā)展可以概括為,從20世紀(jì)90年代初期的“電視”、“廣播”、“報紙”等傳統(tǒng)媒體到2000年正式進(jìn)入現(xiàn)代傳媒,各種傳統(tǒng)媒體都向數(shù)字化轉(zhuǎn)型,并由此又衍生出多個重點領(lǐng)域,包括“數(shù)字游戲”、“數(shù)字動漫”、“數(shù)字影音”、“數(shù)字出版”、“數(shù)字學(xué)習(xí)”等。
綜合分析可知,本文方法是領(lǐng)域知識建模分析的一種新穎手段,不僅具備良好的技術(shù)參考價值,而且對個性化知識推薦與學(xué)習(xí)具有顯著實用價值。
[1]BODNER G M. Constructivism: a theory of knowledge [J]. Journal of chemical education, 1985, 63(10): 873-878.
[2]MCCOURT D M. Practice theory and relationalism as the new constructivism[J]. International studies quarterly, 2016, 60(3): 475-485.
[3]高俊平, 張暉, 趙旭劍, 等. 面向維基百科的領(lǐng)域知識演化關(guān)系抽[J]. 計算機(jī)學(xué)報, 2016, 39(10):2088-2101.
GAO Junping, CHEN Hui, ZHAO Xujian. Evolutionary relation extraction for domain knowledge in Wikipedia[J]. Chinese journal of computers, 2016, 39(10): 2088-2101.
[4]馬費成, 陳瀟俊, 劉向. 基于科學(xué)知識圖譜分析的知識演化研究—以生物醫(yī)學(xué)為例[J]. 情報科學(xué), 2012, 30(1):1-7.
MA Feicheng, CHEN Xiaojun, LIU Xiang. Study on the knowledge evolution based on mapping scientific domain—a case of the biomedicine field[J]. Information science, 2012, 30(1): 1-7.
[5]劉向, 馬費成. 科學(xué)知識網(wǎng)絡(luò)的演化與動力——基于科學(xué)引證網(wǎng)絡(luò)的分析[J]. 管理科學(xué)學(xué)報, 2012, 15(1): 87-94.
LIU Xiang, MA Feicheng. Evolution and dynamics of scientific knowledge network: Based on the study of scientific citation network[J].Journal of management sciences in China, 2012, 15(1): 87-94.
[6]許琦, 馮羽靜. 一種基于專利引證網(wǎng)絡(luò)的知識流提取方法:隨機(jī)行走中的聚合效應(yīng)[J]. 情報理論與實踐, 2015, 38(12): 98-103.
XU Qi, FENG Yujing. A method of knowledge flow extraction based on patent citation network: aggregation effect in random walk[J]. Information theory and practice, 2015, 38(12): 98-103.
[7]黃瑋強(qiáng), 莊新田, 姚爽. 產(chǎn)業(yè)集群廣義創(chuàng)新合作網(wǎng)絡(luò)演化[J]. 東北大學(xué)學(xué)報自然科學(xué)版, 2012, 33(4): 592-596.
HUANG Weiqiang, ZHUANG Xintian, YAO Shuang. Evolution of generalized innovation network in industry clusters[J]. Journal of northeastern university:natural science, 2012, 33(4): 592-596.
[8]關(guān)世杰, 趙海. 互聯(lián)網(wǎng)技術(shù)領(lǐng)域科研合作網(wǎng)絡(luò)分析[J]. 東北大學(xué)學(xué)報:自然科學(xué)版, 2013, 34(4): 509-511.
GUAN Shijie, ZHAO Hai. Analysis of scientific research cooperation network in internet technology[J]. Journal of northeastern university:natural science, 2013, 34(4): 509-511.
[9]陸浩, 王飛躍, 劉德榮, 等. 基于科研知識圖譜的近年國內(nèi)外自動化學(xué)科發(fā)展綜述[J]. 自動化學(xué)報, 2014, 40(5): 994-1015.
LU Hao, WANG Feiyue, LIU Derong, et al. A summary of development of automation discipline at home and abroad in recent years based on scientific research knowledge[J]. Acta automatica sinica, 2014, 40(5): 994-1015.
[10]張斌. 共詞網(wǎng)絡(luò)的結(jié)構(gòu)與演化:概念與理論進(jìn)展[J]. 情報雜志, 2014, 33(7):103-109.
ZHANG Bin. The structure and evolution of co-word networks: concept and theoretical progress[J]. Journal of intelligence, 2014, 33(7): 103-109.
[11]張豪鋒, 李海龍. 我國教育技術(shù)學(xué)研究前沿探討——基于核心期刊關(guān)鍵詞的共詞網(wǎng)絡(luò)與聚類分析[J]. 電化教育研究, 2011(10): 26-29.
ZHANG Haofeng, LI Hailong. Frontier study of educational technology research in China-Co-word network and cluster analysis based on keywords in core journals[J]. Eeducation research, 2011(10): 26-29.
[12]吳建南, 鄭燁, 張攀,等. 基于共詞網(wǎng)絡(luò)分析的國內(nèi)創(chuàng)新驅(qū)動研究熱點與趨勢[J]. 中國科技論壇, 2014(6):17-23.
WU Jiannan, ZHENG Ye, ZHANG Pan, et al. Research focus and trend of domestic innovation driven research based on co-word network analysis[J]. China science and technology forum, 2014(6): 17-23.
[13]宗瑜, 李明楚, 江賀. 近似骨架導(dǎo)向的歸約聚類算法[J]. 電子與信息學(xué)報, 2009, 31(12): 2953-2957.
ZONG Yu, LI Mingchu, JIANG He. Approximation of skeleton-oriented reduction clustering algorithm[J]. Journal of electronics and information technology, 2009, 31(12): 2953-2957.
[14]金萍, 宗瑜, 屈世超,等. 面向不確定數(shù)據(jù)的近似骨架啟發(fā)式聚類算法[J]. 南京大學(xué)學(xué)報自然科學(xué), 2015, 51(1): 197-205.
JIN Ping, ZONG Yu, QU Shichao, et al. Approximate skeleton heuristic clustering algorithm for uncertain data[J]. Journal of Nanjing university:natural sciences, 2015, 51(1): 197-205.
[15]LU Z, SUN X, WEN Y, et al. Skeleton construction in mobile social networks: algorithms and applications[C]//Eleventh IEEE International Conference on Sensing, Communication, and Networking. Singapore, Singapore, 2014: 477-485.
[16]劉向, 馬費成, 王曉光. 知識網(wǎng)絡(luò)的結(jié)構(gòu)及過程模型[J]. 系統(tǒng)工程理論與實踐, 2013, 33(7): 1836-1844.
LIU Xiang, MA Feicheng, WANG Xiaoguang. The structure and process model of knowledge network[J]. System engineering theory and practice, 2013, 33(7):1836-1844.
[17]馬費成, 劉向. 科學(xué)知識網(wǎng)絡(luò)的演化模型[J]. 系統(tǒng)工程理論與實踐, 2013, 33(2): 437-443.
MA Feicheng, LIU Xiang. Evolution model of scientific knowledge network[J]. System engineering theory and practice, 2013, 33(2): 437-443.
[18]劉向,馬費成,陳瀟俊,等. 知識網(wǎng)絡(luò)的結(jié)構(gòu)與演化——概念與理論進(jìn)展[J]. 情報科學(xué),2011(06): 801-809.
LIU Xiang, MA Feicheng, CHEN Xiaojun, et al. The structure and evolution of knowledge network-concept and theory progress[J]. Information science, 2011(06): 801-809.
[19]PFEIFFER J J, MORENO S, FOND T L, et al. Attributed graph models: modeling network structure with correlated attributes[C]//The International World Wide Web Conference. Seoul, Korea, 2014: 831-842.
[20]CHOI J, YI S, LEE K C. Analysis of keyword networks in MIS research and implications for predicting knowledge evolution[J]. Information and management, 2011, 48(8):371-381.
[21]袁勁松, 張小明, 李舟軍. 術(shù)語自動抽取方法研究綜述[J]. 計算機(jī)科學(xué), 2015, 42(8): 7-12.
YUAN Jinsong, ZHANG Xiaoming, LI Zhoujun. A summary of the study on automatic extraction of terminology[J]. Computer science, 2015, 42(8): 7-12.
[22]GUAN A, WANG Y, YANG L. Automatic term extraction for chinese opera domain ontology[C]//International Conference on Fuzzy Systems and Knowledge Discovery. Zhangjiajie, China, 2015: 1372-1376.
[23]TAO L, WANG X L, GUAN Y, et al. Domain-specific term extraction and its application in text classification[J]. Acta electronica sinica, 2007, 35(2): 328-332.
[24]MTC Castellví, RE Bagot, JV Palatresi. Automatic term detection: a review of current systems[J]. Recent advances in computational terminology, 2008, 52(1): 53-88.
[25]黃勛, 游宏梁, 于洋. 關(guān)系抽取技術(shù)研究綜述[J]. 現(xiàn)代圖書情報技術(shù),2013, 29(11): 30-39.
HUANG Xun, YOU Hongliang, YU Yang. A summary of research on relational extraction technology[J]. New technology of library and information service, 2013, 29(11): 30-39.
[26]DEY L, ABULAISH M, SHARMA G. Text Mining through Entity-Relationship Based Information Extraction[C]//International Conferences on Web Intelligence and Intelligent Agent Technology-Workshops. Silicon Valley, USA, 2007:177-180.
金晨,男,1991年生,碩士研究生,主要研究方向為人工智能、機(jī)器學(xué)習(xí)、知識網(wǎng)絡(luò)。
謝振平,男,1979年生,副教授,CCF會員,博士,主要研究方向為演化認(rèn)知、知識網(wǎng)絡(luò)、機(jī)器視覺。
任立園,女,1990年生,碩士研究生,主要研究方向為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。
Evolutionarypathminingofdomainknowledgebyjointmodelinginspace-timedomain
JIN Chen, XIE Zhenping, REN Liyuan, LIU Yuan
(1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Jiangsu Key Laboratory of Media Design and Software Technology, Wuxi 214122, China)
In special technology fields, there might be evolutionary relationships between various knowledge concepts, and these evolutionary relationship can be used to depict the developmental venation of the corresponding technology field. However, the characteristics of fragmentation, disorder, and large scale in domain knowledge systems make it difficult for users to accurately identify these knowledge relationships. To address this problem, in this paper, we propose an evolutionary path mining method based on skeleton clustering and the joint modeling of domain knowledge with respect to the space-time correlation. In this method, first we express the knowledge system as a knowledge network with joint space-time correlations, then we adopt the skeleton clustering method to extract the evolutionary path of the knowledge network. In addition, we analyze the connection between the evolutionary paths based on the development of the knowledge concept. An experimental analysis of the digital media domain shows that the proposed method can effectively extract the evolutionary path of domain knowledge, which has significant value for knowledge learning and personalized recommendation.
knowledge evolution; evolution path; knowledge network; knowledge systems; space-time domain combination; skeleton clustering; digital media knowledge
10.11992/tis.201706023
http://kns.cnki.net/kcms/detail/23.1538.TP.20170831.1058.012.html
TP181
A
1673-4785(2017)05-0735-10
中文引用格式:金晨,謝振平,任立園,等.基于時空域聯(lián)合建模的領(lǐng)域知識演化脈絡(luò)分析J.智能系統(tǒng)學(xué)報, 2017, 12(5): 735-744.
英文引用格式:JINChen,XIEZhenping,RENLiyuan,etal.Evolutionarypathminingofdomainknowledgebyjointmodelinginspace-timecorrelationJ.CAAItransactionsonintelligentsystems, 2017, 12(5): 735-744.
2017-06-07. < class="emphasis_bold">網(wǎng)絡(luò)出版日期
日期:2017-08-31.
江蘇省自然科學(xué)基金項目(BK20130161); 國家自然科學(xué)基金項目(61572236);國家科技支撐計劃項目(2015BAH54F01).
謝振平.E-mail :xiezhenping@hotmail.com.