熊回香 黃曉捷 陳子薇 李昕然
華中師范大學信息管理學院 武漢 430079
數(shù)字人文作為計算機學科和人文學科交叉研究的一個跨學科領(lǐng)域,涉及的學科范圍較廣,包括語言學、文學、圖書情報學和計算機科學等,由人文計算領(lǐng)域發(fā)展而來[1]。在如今深度數(shù)字化時代,數(shù)字人文的研究熱度越來越高,雖然我國學術(shù)界對其研究起步稍晚,但發(fā)展勢頭迅猛,獲得了較好的發(fā)展前景[2]。目前,我國數(shù)字人文的研究主要集中在對國外數(shù)字人文項目的調(diào)查與分析、利用數(shù)字化技術(shù)對人文藝術(shù)等資源進行可視化呈現(xiàn)及數(shù)字人文在圖情檔領(lǐng)域的應用這三方面。此外,我國在數(shù)字人文的教育方面也取得了突破,上海圖書館、中國人民大學數(shù)字人文研究中心、武漢大學數(shù)字人文研究中心、北京大學信息管理系KVision實驗室等科研機構(gòu)深入推進數(shù)字人文和圖情檔的融合發(fā)展[3]。在這樣廣闊的發(fā)展平臺下,涌現(xiàn)出越來越多數(shù)字人文領(lǐng)域的學者,催生出龐大復雜的學術(shù)研究網(wǎng)絡,主題多樣,合作頻繁。但是,如何在浩瀚無邊的學術(shù)資源、學者、機構(gòu)等信息中精準地找到自身需要的相關(guān)研究方向的合作對象是近些年科研合作預測研究的重點。因此,對學者合作關(guān)系網(wǎng)絡進行分析,有利于發(fā)掘?qū)W者合作的規(guī)律和趨勢,了解核心科研團隊及研究主題,對把握此領(lǐng)域的發(fā)展狀況具有重要意義,進而推動數(shù)字人文研究的發(fā)展和創(chuàng)新。
學者合作網(wǎng)絡是相關(guān)領(lǐng)域?qū)W者在科研創(chuàng)作中因合著或被引關(guān)系而形成的復雜關(guān)聯(lián)網(wǎng)絡。學者合作網(wǎng)絡可以加強學者之間的交流,對于知識共享、思維方式、科研創(chuàng)新等方面的進步有著不容小覷的作用。因此,目前越來越多的學者開始關(guān)注合作關(guān)系的研究,其中大多采用社會網(wǎng)絡分析方法,劉培[4]、劉志輝[5]、邱均平[6]等學者基于社會網(wǎng)絡分析法和關(guān)鍵詞耦合分析法挖掘分析作者潛在的合作關(guān)系并構(gòu)建合作網(wǎng)絡。具體到數(shù)字人文領(lǐng)域,徐晨飛等運用文獻信息統(tǒng)計分析工具以及社會網(wǎng)絡分析方法對作者合著網(wǎng)絡的網(wǎng)絡結(jié)構(gòu)特征、中心性、核心—邊緣結(jié)構(gòu)以及小型合著網(wǎng)絡展開分析,總結(jié)該領(lǐng)域的科研合作特征[7];宮雪等通過高頻關(guān)鍵詞雙聚類分析以及對合著網(wǎng)絡和合著機構(gòu)進行社會網(wǎng)絡分析,從多角度探討了當前國內(nèi)數(shù)字人文研究的整體狀況及研究熱點[8]。
近年來,開源或商用的圖數(shù)據(jù)庫不斷涌現(xiàn),主流的圖數(shù)據(jù)庫包括國內(nèi)的GDB[9]、Huge Graph[10]以及國外的Neo4j[11]、Tiger Graph[12]等。這些圖數(shù)據(jù)庫集成了大量的社會網(wǎng)絡分析方法與應用,主要包括中心性、路徑查找、鏈接預測、社區(qū)檢測和圖可視化等,有助于發(fā)現(xiàn)知識圖譜中的潛在知識,也能更好地發(fā)現(xiàn)社會網(wǎng)絡中的合作關(guān)系[13]。學術(shù)界內(nèi)部分學者開始嘗試使用圖數(shù)據(jù)庫開展社會網(wǎng)絡分析研究。郭坤銘[14]利用Neo4j對異構(gòu)網(wǎng)絡中社會關(guān)系的分析優(yōu)勢,存儲了百度百科上爬取的人物基本信息和關(guān)系,運用Common Neighbors算法進行網(wǎng)絡結(jié)構(gòu)相似度計算,并利用節(jié)點屬性相似度預測所構(gòu)建的異構(gòu)網(wǎng)絡中的人物社會關(guān)系。M. Kolomeets等[15]利用圖數(shù)據(jù)庫OrientDB構(gòu)建了VKontakte社交網(wǎng)絡,使用 PageRank評估了社交群體中最具影響力的意見領(lǐng)袖。丁洪麗[16]基于人員信息和話單等數(shù)據(jù),采用Neo4j構(gòu)建了多維關(guān)系網(wǎng)絡并進行可視化,利用Neo4j中的查詢分析功能挖掘人員關(guān)系,使得實驗效率大幅提升。相較于傳統(tǒng)的社會網(wǎng)絡分析工具,圖數(shù)據(jù)庫能夠展示大規(guī)模實體之間不斷更新的龐大復雜關(guān)系,同時也能夠使得網(wǎng)絡節(jié)點和關(guān)系值間的查詢更加簡單快捷,在映射真實實體和關(guān)系方面具有天然優(yōu)勢[17]。
針對數(shù)字人文領(lǐng)域中日益錯綜復雜的學術(shù)社交網(wǎng)絡,如何對領(lǐng)域內(nèi)的學者合作關(guān)系進行分析和挖掘逐漸成為該領(lǐng)域的一個研究重點。雖然傳統(tǒng)的社會網(wǎng)絡工具能夠在一定程度上對學者合作網(wǎng)絡進行分析,但對異構(gòu)數(shù)據(jù)的處理仍有不足,且不具備圖數(shù)據(jù)庫的實時查詢、預測推理、因果關(guān)系分析等功能[13]。以Neo4j為主流的圖數(shù)據(jù)庫工具對多種關(guān)系數(shù)據(jù)的處理較為靈活,有望彌補這些不足。本文將在上述研究的基礎(chǔ)上,運用Neo4j實現(xiàn)數(shù)字人文領(lǐng)域?qū)W者合作關(guān)系的構(gòu)建與存儲,并利用其強大的查詢分析功能,快速便捷地查找相關(guān)學者并進行其合作關(guān)系的圖譜分析,以期為相關(guān)領(lǐng)域的數(shù)字人文研究提供參考。
隨著互聯(lián)網(wǎng)的不斷發(fā)展,面對當下高并發(fā)的海量大數(shù)據(jù)和實時應用情景,圖數(shù)據(jù)庫以其易學、方便操作、高效處理復雜關(guān)系等獨特的優(yōu)勢備受企業(yè)和學者的關(guān)注,它以圖形數(shù)據(jù)結(jié)構(gòu)存儲實體及其相互關(guān)系,由節(jié)點、屬性和邊構(gòu)成,其中節(jié)點表示數(shù)據(jù)實體,屬性是節(jié)點的附屬信息,邊表示節(jié)點之間的關(guān)系,適合對關(guān)聯(lián)關(guān)系復雜、動態(tài)關(guān)系多變的龐大數(shù)據(jù)進行存儲和管理[18]。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,圖數(shù)據(jù)庫處理的是非結(jié)構(gòu)化和不可預知的數(shù)據(jù),更符合現(xiàn)在數(shù)據(jù)爆炸式增長與用戶個性化需求的特點,并且有效支持實體間的關(guān)聯(lián)關(guān)系,當加入新標簽及新關(guān)系時,不需要調(diào)整先前的結(jié)構(gòu),擁有多層關(guān)聯(lián)、最短路徑、集中度測量等多種擴展功能,在社交網(wǎng)絡、推薦系統(tǒng)、關(guān)系圖譜等場景應用廣泛,是大數(shù)據(jù)時代的新利器。
常見的圖數(shù)據(jù)庫有Neo4j、Flock DB、Graph DB、AllegroGrap等類型,其中,開源的Neo4j以其高性能、高穩(wěn)定性、可擴展性強等優(yōu)勢成為當前應用最為廣泛的原生圖數(shù)據(jù)庫之一[19]。它采用原生圖存儲和處理數(shù)據(jù),反映了關(guān)系網(wǎng)絡中實體聯(lián)系的本質(zhì),在查詢中能以快捷的路徑返回關(guān)聯(lián)數(shù)據(jù),表現(xiàn)出非常高效的查詢性能;支持非結(jié)構(gòu)化數(shù)據(jù)的存儲與大規(guī)模數(shù)據(jù)的增長,能很好地適應需求的變化,具有很大的靈活性。此外,它還可以對實體間復雜的關(guān)系進行分析與推理,支持邏輯語言分析與面向約束的推理。Neo4j擁有自己的查詢語言——Cypher語言,它是一種面向圖分析、聲明式、表達能力強的描述性圖形查詢語言[20],對用戶十分友好,操作簡便,主要使用的關(guān)鍵字有create(主要用于創(chuàng)建圖形節(jié)點、關(guān)系及屬性)、match(在已有圖形數(shù)據(jù)庫中匹配目標信息)、where(是match功能的條件)、return(完成匹配后,返回指定值),基于這些查詢語句實現(xiàn)對圖形數(shù)據(jù)的分析與推理。
隨著網(wǎng)絡技術(shù)的快速發(fā)展以及跨學科研究的日益突出,學者之間的合作關(guān)系也呈現(xiàn)復雜多樣的特點,產(chǎn)生了越來越多的非結(jié)構(gòu)化關(guān)聯(lián)網(wǎng)絡數(shù)據(jù),Neo4j圖數(shù)據(jù)庫正是一個能夠適應異構(gòu)數(shù)據(jù)大規(guī)模增長和需求不斷變化的數(shù)據(jù)庫,它沒有模式結(jié)構(gòu)的定義,使用非結(jié)構(gòu)化的方式來存儲關(guān)聯(lián)數(shù)據(jù),不但適應能力強,而且自始至終都可以保持高效的查詢性能,因此在處理學者之間復雜關(guān)系時顯現(xiàn)出了獨特的優(yōu)勢。
1.2.1 反映學者之間復雜的合作關(guān)系
合作關(guān)系是指學者們在學術(shù)研究過程中所進行的合作行為。常見的學者合作關(guān)系包括合著關(guān)系和引用關(guān)系。在學術(shù)網(wǎng)絡中,如果兩個學者的合著行為越頻繁,那么他們更有可能興趣相似且彼此信任,除此之外,學者的合著者也會與其他學者產(chǎn)生合著行為,基于這種學者間的合作關(guān)系便構(gòu)建了學者合著網(wǎng)絡,這種關(guān)系可以采用圖結(jié)構(gòu)存儲,在此基礎(chǔ)上,可以采取社會網(wǎng)絡分析法和圖挖掘算法對學者間的關(guān)系進行分析與聚類,從而發(fā)現(xiàn)最為匹配的合作者及合作團隊。另外,學者間的另一種合作關(guān)系為引用關(guān)系,其被分為引用與被引,基于這兩種引用行為,學者間構(gòu)成了引文網(wǎng)絡,是施引文獻與被引成果的紐帶,反映了引用者的借鑒、肯定以及相關(guān)問題的深層次研究。通常根據(jù)這樣的引用關(guān)系實現(xiàn)資源聚合與學者聚合,以學者為節(jié)點,以文獻之間的引用關(guān)系作為節(jié)點之間的聯(lián)系邊,以此構(gòu)建相關(guān)引用文獻之間的引用網(wǎng)絡,從而更好地從引文關(guān)系網(wǎng)絡中挖掘出核心學者或核心團隊。不管是哪種合作關(guān)系,隨著相關(guān)問題研究的多元化,學者間的合作關(guān)系也越來越復雜,而Neo4j恰好可以存儲并反映這種量大、復雜而又變化的關(guān)聯(lián)數(shù)據(jù),支持大規(guī)模數(shù)據(jù)的增長與更新,且可清晰呈現(xiàn)各節(jié)點之間的關(guān)聯(lián)關(guān)系。
1.2.2 實時查詢目標學者的合作關(guān)系
除了存儲功能,圖數(shù)據(jù)庫Neo4j的檢索功能也非常強大,這依賴于Cypher查詢語言,它是一種聲明式圖數(shù)據(jù)庫查詢語言,用法簡潔且表現(xiàn)力豐富,查詢效率高,擁有良好的擴展性,用戶可以定制自己的查詢方式。在檢索功能中,Cypher語言由start、match、where、return 4個部分組成:①start表示在圖中指定一個或多個起始節(jié)點,通過索引查找獲得,也可以通過節(jié)點的編號直接獲得;②match用于圖形的匹配模式,也是進行實例具體化的重要部分;③where提供過濾模式匹配結(jié)果的條件;④return用來指明在已經(jīng)匹配查詢的數(shù)據(jù)中,哪些節(jié)點、關(guān)系和屬性是需要返回給客戶端的。通過這樣遍歷查找的過程,容易定位聚焦到想要了解的學者節(jié)點,再利用條件的匹配,得到目標學者的合作關(guān)系,從而進行針對性分析。此外,Neo4j還支持實時更新圖數(shù)據(jù)庫,且不影響已有的數(shù)據(jù)結(jié)構(gòu),這樣可以不斷地擴充現(xiàn)有關(guān)系圖譜,展示越來越完備復雜的合作關(guān)系網(wǎng)絡。
1.2.3 預測學者之間潛在的合作趨勢
目前人物關(guān)系推理的方法主要有兩種:基于本體的方法和基于圖數(shù)據(jù)庫的方法[21]?;诒倔w的人物關(guān)系推理時間復雜度較高,推理速度隨人物關(guān)系數(shù)據(jù)量的增多而迅速降低,難以滿足大數(shù)據(jù)時代下的人物關(guān)系推理需求,而基于圖數(shù)據(jù)庫的人物關(guān)系推理是人物關(guān)系數(shù)據(jù)分析的新趨勢。圖數(shù)據(jù)庫的數(shù)據(jù)存儲結(jié)構(gòu)和數(shù)據(jù)查詢方式都以圖論為基礎(chǔ),適用于含有大量聯(lián)系的人物關(guān)系數(shù)據(jù)的增刪查改(CRUD)。基于圖數(shù)據(jù)庫的人物關(guān)系推理方法,首先將人物關(guān)系數(shù)據(jù)轉(zhuǎn)換為圖數(shù)據(jù)庫的存儲方式,然后采用圖數(shù)據(jù)庫查詢語言進行人物關(guān)系分析[22]。作為支持效率高、擴展性強的聲明式圖查詢語言及具有豐富開發(fā)模式的圖數(shù)據(jù)庫系統(tǒng),Neo4j存儲學者關(guān)系知識圖譜具有不可比擬的優(yōu)勢,復雜的關(guān)系鏈接也使其具備了推理能力,從而預測學者潛在的合作趨勢,為不同領(lǐng)域、不同學科的科研合作提供可能的研究方向。
本文選取中國知網(wǎng)學術(shù)資源總庫中的CSSCI期刊作為數(shù)據(jù)來源進行數(shù)據(jù)獲取,以“數(shù)字人文”或“人文計算”為主題進行檢索,截至2021年4月3日,共檢索到615篇文獻。通過NoteExpress文獻管理器對數(shù)據(jù)進行預處理,刪除重復文獻、會議征文、與數(shù)字人文主題不太相關(guān)的文獻,最終獲得有效文獻334篇。對于多位作者署名的文獻,本文統(tǒng)一選取前三位作者作為研究對象,經(jīng)過重復項去除后,獲得410個學者節(jié)點,244個機構(gòu)節(jié)點和636個關(guān)鍵詞節(jié)點,數(shù)據(jù)處理結(jié)果示例見圖1;然后利用Python獲取學者與學者之間的合著、被引關(guān)系,學者與機構(gòu)之間的工作關(guān)系和學者與關(guān)鍵詞之間的研究主題關(guān)系數(shù)據(jù),本文主要基于上述3種節(jié)點和4種關(guān)系對學者合作關(guān)系進行圖譜構(gòu)建,數(shù)據(jù)模型見圖2。
圖1 數(shù)據(jù)處理結(jié)果示例
圖2 學者合作關(guān)系圖譜數(shù)據(jù)模型
圖數(shù)據(jù)要具體存儲到圖數(shù)據(jù)庫中,就涉及到了特定的圖數(shù)據(jù)模型,即關(guān)于采用什么實現(xiàn)方式來存圖數(shù)據(jù)的問題。常見的圖數(shù)據(jù)模型有屬性圖、超圖和三元組。由于屬性圖模型直觀且易于理解,能夠描述絕大部分圖的使用場景,Neo4j采用的便是當下最流行的屬性圖模型。首先,將節(jié)點和關(guān)系數(shù)據(jù)的Excel文件都另存為“.csv”文件;然后利用Cypher語言的create語句,將節(jié)點文件和關(guān)系文件按照代碼示例,見圖3,輸入到代碼編輯區(qū);最后運行結(jié)果見圖4,清晰地展示了節(jié)點的個數(shù)、關(guān)系的對數(shù)以及學者合作關(guān)系圖譜。具體于某一節(jié)點,以中國社會科學院文學研究所為例,通過此節(jié)點可查詢到在這個機構(gòu)工作的兩位學者,進而其合作的學者、研究主題等相關(guān)關(guān)系得到清晰的呈現(xiàn),見圖5。
圖3 導入數(shù)據(jù)代碼示例
圖4 學者合作關(guān)系圖譜構(gòu)建樣例
圖5 具體實例展示
面對龐大復雜的非結(jié)構(gòu)化關(guān)系數(shù)據(jù),圖數(shù)據(jù)庫Neo4j為技術(shù)的應用提供了有效的解決途徑,但是通過梳理國內(nèi)相關(guān)文獻可知,目前利用Neo4j的內(nèi)嵌圖算法和Cypher查詢語言進行數(shù)據(jù)分析與處理的研究相對較少,本文將充分利用Neo4j強大的圖算法功能這一優(yōu)勢,對數(shù)字人文研究領(lǐng)域的學者合作網(wǎng)絡進行分析。Neo4j的算法庫 Graph Data Science(GDS)可以實現(xiàn)各種復雜的社會網(wǎng)絡分析,包括centrality algorithms(中心性算法)、community detection algorithms(社區(qū)檢測算法)、path finding algorithms(路徑查找算法)、link prediction algorithms(鏈路預測算法)等。本文通過采用相關(guān)圖算法,實現(xiàn)學者合作社區(qū)的發(fā)現(xiàn)、核心學者的識別以及學者合作趨勢的預測,從不同角度為數(shù)字人文領(lǐng)域?qū)W者尋找自己的合作對象和資源提供借鑒。
近年來,數(shù)字人文技術(shù)快速發(fā)展,吸引了越來越多的學者對相關(guān)問題進行廣泛而深入的研究,因而構(gòu)成了復雜的學者網(wǎng)絡,社區(qū)結(jié)構(gòu)便是復雜網(wǎng)絡中的一個重要性質(zhì),體現(xiàn)為社區(qū)中的節(jié)點緊密相連且不同社區(qū)的節(jié)點稀疏連接[23]。它可以對有相似特征或共同屬性的學者進行聚類,幫助學者發(fā)現(xiàn)并找到具有相似興趣的同行或可以相互交流的跨學科合作者。在Louvain、Label Propagation、infomap等社區(qū)檢測算法中,Louvain在效率和效果上都表現(xiàn)較好,并能夠發(fā)現(xiàn)層次性的社區(qū)結(jié)構(gòu)。郭理等[24]使用經(jīng)典數(shù)據(jù)集American College Football對Louvain算法與常用重疊社區(qū)發(fā)現(xiàn)算法CPM、LFM和COPRA進行實驗對比,結(jié)果表明Louvain算法明顯優(yōu)于其他的算法。G. Drakopoulos等[25]針對Twitter上的社交信息,在Neo4j中構(gòu)建了爭議性話題和普通性話題兩個社交網(wǎng)絡圖,分別使用Lonvain、Edge Betweeness、Walktrap以及CNM等4種社區(qū)發(fā)現(xiàn)算法進行評估,實證發(fā)現(xiàn)Louvain算法產(chǎn)生的社區(qū)聚集性較高,社區(qū)成員的聯(lián)系最為緊密。因此,本文選用Louvain方法在已構(gòu)建學者合作網(wǎng)絡中檢測社區(qū)以實現(xiàn)對學者的模塊化聚類,從而更好地分析學者聚集分區(qū)的特點以及它們加強或分散的趨勢。在GDS中應用Louvain算法共發(fā)現(xiàn)100個學者合作社區(qū),部分結(jié)果見圖6,按社區(qū)規(guī)模降序呈現(xiàn)。其中最大的社區(qū)包含26個學者,學者鄧君、王阮、鐘楚依、宋先智和孫紹丹之間合著頻率較高,他們就數(shù)字人文視角下的歷史項目進行分析研究;賀晨芝和徐孝娟對圖書館數(shù)字人文眾包項目進行實踐研究;李道新從電影藝術(shù)的角度分析了數(shù)字人文的應用路徑等。由此可見,在模塊化的社區(qū)里有合著頻次較高的學者,也有跨學科相互引用的學者,同一社區(qū)的學者關(guān)聯(lián)緊密程度較高,他們有著相通的研究方向和研究熱點,表現(xiàn)出高度相似性。與此同時,圖7的學者合作關(guān)系圖譜也清晰地展現(xiàn)了不同社區(qū)學者的分布及其緊密程度,相同顏色的節(jié)點代表其處于同一個社區(qū),研究主題相似的同時不同學者之間相互引證,進一步加強了學者之間的關(guān)聯(lián)程度,為知識的交流與共享提供學習平臺。
圖7 學者合作社區(qū)部分關(guān)系圖譜
核心學者是指在某個研究領(lǐng)域內(nèi)研究成果數(shù)量較多、學術(shù)影響力較大、為該領(lǐng)域發(fā)展做出貢獻的學者,他們是推動該領(lǐng)域?qū)W術(shù)進步的中堅力量[26]。核心學者的分析為學者們開展研究提供便利,幫助其全面地查詢到自己感興趣的核心學者群并快速查閱到該領(lǐng)域的核心科技文獻,從而快速了解該領(lǐng)域研究的現(xiàn)狀與不足,為自己深入研究奠定堅實的基礎(chǔ)。中介中心性(Betweenness Centrality)算法是網(wǎng)絡中心性衡量的經(jīng)典指標,本文利用GDS中的Betweenness Centrality算法來衡量學者網(wǎng)絡中不同節(jié)點的重要性,即檢測其中一個節(jié)點對圖中信息流的影響程度。該算法計算一個網(wǎng)絡中所有節(jié)點對之間的未加權(quán)最短路徑,每個節(jié)點根據(jù)通過該節(jié)點的最短路徑的數(shù)量得到一個分數(shù),更頻繁地位于其他節(jié)點之間最短路徑上的節(jié)點的得分更高。
在GDS中,Betweenness Centrality算法通過對410位學者的最短路徑進行打分,按照分數(shù)降序排列的同時給每位學者賦予一個編號,識別結(jié)果見表1。學者劉煒得分最高,趙宇翔次之。得分越高,說明這些學者在數(shù)字人文研究領(lǐng)域的活躍度較高,同時也說明他們在此領(lǐng)域建樹頗豐并有著較高的學術(shù)影響力。根據(jù)識別結(jié)果數(shù)據(jù)繪制散點圖,如圖8所示,在節(jié)點16后出現(xiàn)了明顯的斷崖式下降,由此初步認為前16位學者可被識別為數(shù)字人文領(lǐng)域研究的核心學者,在這些核心學者中,劉煒和夏翠娟工作于上海圖書館,朱學芳和葉鷹工作于南京大學,趙宇翔工作于南京理工大學,王曉光工作于武漢大學等,從一定程度上可以反映出這些學者的工作單位是其科學研究的主要陣地,以他們?yōu)榇頁碛兄擃I(lǐng)域研究的核心團隊,他們帶領(lǐng)自己的學生及合作者深入地開展著數(shù)字人文的研究,成果頗多。其中,上海圖書館主持有關(guān)于數(shù)字人文的國家哲學社會科學基金項目,夏翠娟和劉煒學者是數(shù)字人文團隊中的重要成員,其團隊基于數(shù)字人文構(gòu)建了家譜知識服務平臺[27]、名人手稿檔案庫[28]、中文古籍聯(lián)合目錄及循證平臺[29]等,在國內(nèi)將數(shù)字人文的研究和應用推向新的發(fā)展階段。為了進一步清晰地反映核心學者,可利用Neo4j所呈現(xiàn)的圖譜中學者節(jié)點的大小來反映其在數(shù)字人文研究領(lǐng)域中所處的位置,如圖9所示,節(jié)點越大,其學術(shù)影響力越大。這對于相關(guān)研究者找尋領(lǐng)域內(nèi)核心學者具有重要參考意義,且更加方便快捷,清晰明了。
圖9 部分核心學者關(guān)系圖譜
表1 部分核心學者識別結(jié)果
圖8 核心學者識別的得分散點圖
在大數(shù)據(jù)時代,學術(shù)研究的合作化趨勢日益明顯,作為科研活動的重要組成部分,合作形式在提升科研效率、促進科研產(chǎn)出時發(fā)揮著極其重要的作用。研究表明,在過去的20多年里,各個學科中的合作研究的數(shù)量都呈顯著增長趨勢,具有相同研究領(lǐng)域、相似研究方向的學者更易于在未來進行合作[30]。但是,由于時間、空間位置的阻礙,學者們很難在浩如煙海的學者群體里準確找到與自身研究方向相近的學者,分析挖掘?qū)W者潛在的合作對象可以有效提高其科研效率。本文利用GDS中的鏈路預測算法對節(jié)點之間的接近度進行計算,從而幫助學者找到潛在的合作機會。
鏈路預測算法是指通過已知節(jié)點的特征信息以及網(wǎng)絡拓撲結(jié)構(gòu),預測尚未產(chǎn)生連接的節(jié)點對之間出現(xiàn)連邊的可能性。常見的鏈路預測算法包括基于鄰居節(jié)點的鏈路預測以及基于共有鄰居的鏈路預測,其中基于鄰居節(jié)點的算法包括所有鄰居(total neighbors)以及連接偏好(preferential attachment)等,基于共有鄰居的算法包括共有鄰居(common neighbors)、資源優(yōu)化(resource allocation)以及AA(adamic adar)算 法 等[31]。D. Liben-Nowell等[32]、T. Zhou等[33]通過實驗對多種鏈路預測算法對比分析發(fā)現(xiàn)AA算法效果相對較優(yōu)。AA算法基于共有鄰居的相鄰節(jié)點集合,并對集合數(shù)量進行非線性歸一化處理,計算兩個節(jié)點的緊密度,其預測網(wǎng)絡中學者合作鏈接的公式如下所示:
在該公式中,當計算結(jié)果的值為0時,表示兩個節(jié)點不靠近;當值越大時則表示節(jié)點越靠近。
在上述學者合作社區(qū)發(fā)現(xiàn)分析中,相較于不同社區(qū)來說,同一社區(qū)學者的合作關(guān)系更為緊密,但是盡管在同一社區(qū),他們的合作也存在疏密之分,本文選取第四大學者合作社區(qū),以核心學者“劉煒”為研究對象,利用上述公式和Cypher查詢語言“MATCH (s1:author{Author:‘劉煒’}),MATCH (s2:author{Author:‘*’}),RETURN gds. alpha. linkprediction. adamicAdar (s1, s2) AS score”計算并呈現(xiàn)劉煒與其同一社區(qū)中其他學者的可能鏈接程度,預測值分數(shù)見表2。其中劉煒和趙宇翔可能產(chǎn)生鏈接關(guān)系的得分最高,說明他們發(fā)生合作的可能性最大,而劉煒和汪莉進行合作的可能性則最小。與此同時,通過Cypher查詢語句將劉煒所在的社區(qū)的學者合作關(guān)系圖譜進行呈現(xiàn),見圖10。這個圖表明了同一社區(qū)的學者關(guān)聯(lián)緊密,但其中也存在少部分學者之間未建立直接的合作關(guān)系,如劉煒與岑炅蓮、曾輝、劉洪、汪莉這4位學者,相對應他們的合作鏈接預測值也較低。通過分析表2和圖10不難發(fā)現(xiàn),在已產(chǎn)生直接連接的學者中,宋士杰得分最低,此分數(shù)可確定為產(chǎn)生新鏈接的最低閾值,即當未發(fā)生直接連接的兩個學者得分大于這個閾值時,則能說明其更能產(chǎn)生鏈接,其合作的可能性更大。由此可以看出劉煒與岑炅蓮、曾輝、劉洪更能進行有效的科研交流,合作趨勢較為明顯。
圖10 學者劉煒所在社區(qū)的學者合作關(guān)系圖譜
表2 同一社區(qū)學者之間合作預測值得分表
綜上所述,Neo4j的語句查詢和算法分析功能是學者合作趨勢預測的有效工具,為學者尋找自己的合作伙伴節(jié)省時間,提高合作效益。在學者交流活動日趨頻繁的背景下,科研合作已然成為學者推動學術(shù)研究發(fā)展的必要形式,學者間的合作越多樣多元,那么該領(lǐng)域的學術(shù)交流氛圍越活躍高效,不同的思維碰撞推動數(shù)字人文領(lǐng)域的多元化、跨學科式發(fā)展。
隨著數(shù)字時代的深入發(fā)展,“數(shù)字人文”對實施文獻搶救性保護、提供公共文化服務、弘揚中華民族優(yōu)秀傳統(tǒng)文化等方面都具有重要的現(xiàn)實意義。在我國,數(shù)字人文作為專業(yè)學術(shù)研究已開始加速發(fā)展,而且由這種跨學科的研究范式孕育而生的研究成果也將通過更多的合作形式來呈現(xiàn)。對于科研工作者來說,合作能夠促使學者產(chǎn)生新的想法、新的研究思路,能夠提高合作者的產(chǎn)出量和影響力;對于學科發(fā)展來說,合作能夠促使新的知識體系的形成,開闊學者的知識視野和更新學者的知識結(jié)構(gòu),在幫助學者們快速高效地尋找與自己研究興趣和方向高度關(guān)聯(lián)的跨學科學者、加強交流合作的同時推動數(shù)字人文的多學科深度融合發(fā)展。本文利用處理復雜關(guān)聯(lián)數(shù)據(jù)的利器——圖數(shù)據(jù)庫Neo4j對我國數(shù)字人文的研究主體(即學者)及其間關(guān)系進行存儲分析,利用GDS算法庫實現(xiàn)了學者合作社區(qū)的發(fā)現(xiàn)、核心學者的識別以及合作趨勢的預測。雖然社會網(wǎng)絡分析方法從中心性、凝聚子群、核心—邊緣等不同角度在各種關(guān)聯(lián)網(wǎng)絡結(jié)構(gòu)的分析中非常普遍,但是本文利用圖數(shù)據(jù)庫Neo4j實現(xiàn)了傳統(tǒng)的社會網(wǎng)絡分析方法能夠達成的功能外,還實現(xiàn)了數(shù)據(jù)存儲、實時更新、即查即得、預測推理等功能,這是對社會網(wǎng)絡分析方法的有力補充,為社會網(wǎng)絡分析提供了新的思路與方法。
此外,本文的不足之處在于:①在獲取相關(guān)文獻時忽略了一些篇名沒有以“數(shù)字人文”或“人文計算”命名但研究內(nèi)容為“數(shù)字人文”的研究成果,使得學者節(jié)點和關(guān)系數(shù)據(jù)量偏小,在完整性上稍有欠缺;②數(shù)據(jù)量越大,復雜度越高,圖數(shù)據(jù)庫Neo4j處理數(shù)據(jù)的優(yōu)勢就越明顯,但本文在研究圖數(shù)據(jù)庫Neo4j的功能應用上較為簡單,沒有很好地發(fā)揮出其數(shù)據(jù)分析的優(yōu)勢。因此,在未來的研究中,筆者將繼續(xù)深入學習Neo4j極其強大的數(shù)據(jù)分析功能,不斷擴大更新學者的數(shù)據(jù)量,從而充分展現(xiàn)學者之間復雜的合作關(guān)系,為學者們進行潛在科研合作提供借鑒。