林 輝 陶 治 郝耀輝 郭淵博
(戰(zhàn)略支援部隊(duì)信息工程大學(xué)密碼工程學(xué)院 鄭州 450004)
密碼是保障網(wǎng)絡(luò)與信息安全的核心技術(shù)和基礎(chǔ)支撐,無(wú)論是商業(yè)領(lǐng)域還是軍事領(lǐng)域,隨處可見(jiàn)的密碼應(yīng)用場(chǎng)景,促使密碼研究領(lǐng)域得到飛速發(fā)展。如何有效組織、存儲(chǔ)全球密碼領(lǐng)域研究者、研究機(jī)構(gòu)等信息,進(jìn)而挖掘、分析密碼研究領(lǐng)域的熱點(diǎn)主題、研究力量及其合作關(guān)系等,對(duì)分析全球密碼研究領(lǐng)域?qū)嵙λ椒植?,了解密碼研究領(lǐng)域研究發(fā)展趨勢(shì)等,具有重要參考價(jià)值,對(duì)啟發(fā)密碼領(lǐng)域科研思路、促進(jìn)密碼領(lǐng)域研究具有積極作用。
自2012 年Google 公司提出知識(shí)圖譜概念,許多研究機(jī)構(gòu)、科研人員對(duì)知識(shí)圖譜構(gòu)建技術(shù)進(jìn)行研究,并將其應(yīng)用于諸多領(lǐng)域,取得了很多創(chuàng)新性的研究成果[1~4]。概況起來(lái),知識(shí)圖譜構(gòu)建最常見(jiàn)的是以“實(shí)體-關(guān)系-實(shí)體”或者“實(shí)體-屬性-屬性值”三元組形式作為事實(shí)的表達(dá)方式,從而將現(xiàn)實(shí)世界的數(shù)據(jù)存儲(chǔ)到信息世界,構(gòu)成知識(shí)的“圖譜”。其主要步驟包含實(shí)體識(shí)別、實(shí)體抽取、實(shí)體消歧、屬性抽取、關(guān)系抽取、關(guān)系補(bǔ)全等。
目前,在知識(shí)圖譜構(gòu)建方法和技術(shù)的研究方面,胡代旺等利用輕量級(jí)預(yù)訓(xùn)框架ALBERT,提出了一種新的知識(shí)圖譜實(shí)體關(guān)系抽取算法,可有效地提高實(shí)體關(guān)系抽取的精度[5];付瑞等改進(jìn)的BERTBiGRU-CRF模型[6]、Wu提出的CTD-BLSTM模型[7]等,均取得了較好的效果。在知識(shí)圖譜研究領(lǐng)域,最常見(jiàn)的是依據(jù)不同行業(yè)、領(lǐng)域背景,構(gòu)建知識(shí)圖譜,進(jìn)行數(shù)據(jù)存儲(chǔ)和分析。例如:丁晟春等采用知識(shí)圖譜方法挖掘、組織、存儲(chǔ)、展示電商產(chǎn)品信息[8];呂華揆等基于金融機(jī)構(gòu)間持股關(guān)系、持股比例構(gòu)建了中國(guó)金融股權(quán)知識(shí)圖譜,分析了中國(guó)金融機(jī)構(gòu)間的知識(shí)關(guān)聯(lián)關(guān)系[9];沈科杰等使用Neo4j圖數(shù)據(jù)庫(kù),基于個(gè)人公開(kāi)履歷信息,建立了涵蓋個(gè)人任職經(jīng)歷、任職機(jī)構(gòu)、同事等數(shù)據(jù)信息的履歷知識(shí)圖譜,可為企事業(yè)單位的人才選拔、人事任免任務(wù)提供決策支持[10]。在醫(yī)學(xué)研究領(lǐng)域,胡正銀等提出了一套基于知識(shí)圖譜多源數(shù)據(jù)融合的學(xué)科知識(shí)發(fā)現(xiàn)方法框架,并基于造血干細(xì)胞癌癥治療的科技文獻(xiàn)數(shù)據(jù),進(jìn)行了學(xué)科知識(shí)發(fā)現(xiàn)探索[11];Li等從患者的電子病歷文本數(shù)據(jù)中,抽取知識(shí),構(gòu)建了膝骨關(guān)節(jié)炎知識(shí)圖譜[12];Daniel[13]基于COVID-19 冠狀病毒的病理、生理學(xué)知識(shí),構(gòu)建了相應(yīng)的知識(shí)圖譜。李濤等以CNKI 收錄的2244 條密碼文獻(xiàn)記錄為研究對(duì)象,采用Citespace V 軟件繪制了我國(guó)密碼學(xué)研究文獻(xiàn)知識(shí)圖譜,分析了密碼學(xué)文獻(xiàn)的時(shí)間、作者、機(jī)構(gòu)及關(guān)鍵詞等知識(shí)信息[14]。這些工作取得了許多有意義的成果。
總體看,知識(shí)圖譜方法和技術(shù)在密碼學(xué)領(lǐng)域的研究還較少見(jiàn)。亞密(ASIACRYPT)、歐密(EUROCRYPT)、美密(CRYPTO)三大密碼學(xué)年會(huì)代表國(guó)際密碼學(xué)術(shù)界的發(fā)展水平[15~17],一直受到世界各國(guó)學(xué)者的廣泛關(guān)注。本文以三大密碼學(xué)年會(huì)收錄的論文的題目、作者等數(shù)據(jù)信息為研究樣本,進(jìn)行分析、挖掘,采用Neo4j 圖數(shù)據(jù)[18],構(gòu)建三大密碼年會(huì)知識(shí)圖譜,呈現(xiàn)密碼學(xué)的國(guó)際研究現(xiàn)狀、研究熱點(diǎn)、演變特征及研究關(guān)鍵詞、研究者等之間的關(guān)聯(lián)關(guān)系,以期為后續(xù)相關(guān)密碼領(lǐng)域研究者提供參考與啟發(fā),對(duì)密碼領(lǐng)域相關(guān)機(jī)構(gòu)、研究者了解行業(yè)現(xiàn)狀有一定參考意義。
本文構(gòu)建知識(shí)圖譜的數(shù)據(jù)對(duì)象來(lái)源于網(wǎng)址https://www.iacr.org/cryptodb,采用Python 語(yǔ)言編寫(xiě)爬蟲(chóng)程序抓取獲得,包含2011-2020 共十年間三大密碼年會(huì)收錄的論文1820 篇。其中,抓取的論文信息主要包括:題目、作者、作者所屬機(jī)構(gòu)、機(jī)構(gòu)所屬?lài)?guó)家、收錄年份等?;赟PO 三元組模型,使用Neo4j圖數(shù)據(jù)庫(kù)(社區(qū)版版本號(hào):4.2.0),構(gòu)建生成知識(shí)圖譜。概況起來(lái),可分為以下四個(gè)主要步驟,具體如圖1所示。
圖1 知識(shí)圖譜構(gòu)建步驟圖
1)數(shù)據(jù)采集與處理
分為爬取數(shù)據(jù)和抽取數(shù)據(jù)兩部分,首先從三大密碼年會(huì)網(wǎng)站爬取發(fā)表的論文數(shù)據(jù),編號(hào)記錄每篇論文;然后,對(duì)論文標(biāo)題進(jìn)行分詞操作,再依次抽取、存儲(chǔ)論文標(biāo)題關(guān)鍵詞、論文作者、作者所屬單位等數(shù)據(jù),表示為“實(shí)體-屬性-屬性值”形式。
2)數(shù)據(jù)融合與表示
依據(jù)上述處理后的三大密碼年會(huì)發(fā)表論文的數(shù)據(jù),依據(jù)論文作者姓名、論文標(biāo)題關(guān)鍵詞等對(duì)數(shù)據(jù)進(jìn)行匯總歸類(lèi),相應(yīng)的各實(shí)體間的關(guān)系也做融合處理,得到三大密碼年會(huì)論文數(shù)據(jù)的SPO 三元組(實(shí)體-屬性-實(shí)體)。
3)知識(shí)圖譜構(gòu)造與存儲(chǔ)
Neo4j 是一款被廣泛應(yīng)用的圖數(shù)據(jù)庫(kù)管理系統(tǒng),可提供基于圖論的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)和知識(shí)查詢(xún)推理。本文主要在Neo4j圖數(shù)據(jù)庫(kù)管理系統(tǒng)中構(gòu)建密碼領(lǐng)域知識(shí)圖譜。
4)知識(shí)發(fā)現(xiàn)
主要通過(guò)尋找知識(shí)圖譜中的度值、介數(shù)值、緊密度值大的中心性節(jié)點(diǎn)及繪制可視化圖譜等,分析密碼研究領(lǐng)域的高頻作者、機(jī)構(gòu)、關(guān)鍵詞及作者合作關(guān)系、機(jī)構(gòu)合作關(guān)系等,形成對(duì)全球密碼研究領(lǐng)域發(fā)展、演化的前沿探測(cè)。
考察三大密碼學(xué)年會(huì)收錄論文作者所屬的科研機(jī)構(gòu),統(tǒng)計(jì)各機(jī)構(gòu)的發(fā)文數(shù)量,考察世界范圍內(nèi)密碼學(xué)研究的核心學(xué)術(shù)團(tuán)體和機(jī)構(gòu),分析研究機(jī)構(gòu)的所屬?lài)?guó)家及機(jī)構(gòu)間的合作關(guān)系,是了解世界密碼學(xué)研究實(shí)力分布的重要依據(jù)。按時(shí)間片(1年)統(tǒng)計(jì)前10名機(jī)構(gòu)發(fā)表論文數(shù)的時(shí)序圖譜,如圖2所示。
從圖2可以看出,近10年累計(jì)發(fā)表論文數(shù)量排名前10 的機(jī)構(gòu),各自每年發(fā)表論文數(shù)量各不相同,存在起伏漲落。2019年是累計(jì)發(fā)表論文數(shù)量10年中最多的一年,2020 年發(fā)文1 數(shù)量與2013 年、2015年的發(fā)文數(shù)量相近,與2019 年發(fā)文數(shù)量相比下降許多。主要由于UCLA、Aarhus University、IBM Research、Johns Hopkins University、UT Austin 這5 個(gè)機(jī)構(gòu)發(fā)文數(shù)量減少引起的。
統(tǒng)計(jì)排名前10 科研機(jī)構(gòu)發(fā)表的論文數(shù)量,計(jì)算各機(jī)構(gòu)論文數(shù)量與全部論文數(shù)量的占比,如表1所示。排名前三的研究機(jī)構(gòu)有UCLA 學(xué)院(143篇)、MIT 學(xué)院(81 篇)和Aarhus University 學(xué)院(71篇),三個(gè)研究機(jī)構(gòu)發(fā)表論文數(shù)量總占比為15.1%,說(shuō)明這三個(gè)研究機(jī)構(gòu)在密碼學(xué)研究領(lǐng)域有較強(qiáng)的科研實(shí)力與領(lǐng)域影響力,緊隨其后的是UC Berkeley、University of Bristol、IBM Research、Johns Hopkins University、Northeastern University、University of Maryland、UT Austin等科研單位。
表1 排名前10的科研機(jī)構(gòu)發(fā)表論文數(shù)量與總占比
繼續(xù)考察不同機(jī)構(gòu)之間的合作情況,設(shè)置在同一篇論文中出現(xiàn)過(guò)的機(jī)構(gòu)之間存在合作關(guān)系,采用Neo4j 圖數(shù)據(jù)庫(kù)及Python 詞云工具,生成密碼學(xué)研究機(jī)構(gòu)之間的合作圖譜及高頻科研機(jī)構(gòu)詞頻圖(忽略沒(méi)有合作關(guān)系的獨(dú)立機(jī)構(gòu)節(jié)點(diǎn)),如圖3 所示。圖中一個(gè)節(jié)點(diǎn)代表一個(gè)科研機(jī)構(gòu),紅色、黃色、藍(lán)色節(jié)點(diǎn)分別表示合作機(jī)構(gòu)數(shù)量大于30、大于10 小于等于30、小于等于10的科研機(jī)構(gòu)。
圖3 三大密碼年會(huì)中機(jī)構(gòu)合作論文關(guān)系圖譜及高頻機(jī)構(gòu)詞頻圖
對(duì)比圖3 中三大密碼年會(huì)中各機(jī)構(gòu)合作關(guān)系圖譜,可以看出三大密碼年會(huì)各自的關(guān)系圖譜均不相同,既存在有合作關(guān)系數(shù)量較大的機(jī)構(gòu),也存在兩兩孤立合作的機(jī)構(gòu)(單個(gè)機(jī)構(gòu)也在圖中顯示),說(shuō)明全球密碼學(xué)研究領(lǐng)域大部分機(jī)構(gòu)之間存在合作關(guān)系,但有部分機(jī)構(gòu)自立門(mén)戶,獨(dú)立為戰(zhàn),與外界無(wú)交流合作。進(jìn)一步檢索三大密碼年會(huì)中合作關(guān)系數(shù)量排名前5的機(jī)構(gòu),如表2所示。
表2 合作關(guān)系數(shù)量排名前5的機(jī)構(gòu)
從表2 數(shù)據(jù)可發(fā)現(xiàn),CNRS、UCLA、IBM Research 這三個(gè)科研機(jī)構(gòu)在歐密會(huì)、美密會(huì)、亞密會(huì)的合作關(guān)系數(shù)量排名中均在前5 名里,MIT、New York University、NTT Secure Platform Laboratories 三個(gè)機(jī)構(gòu)分別對(duì)應(yīng)在歐密會(huì)、美密會(huì)、亞密會(huì)中出現(xiàn)在前5 名里。和表1 中的數(shù)據(jù)關(guān)聯(lián)分析,可以發(fā)現(xiàn)UCLA 既是發(fā)表論文數(shù)量最多的機(jī)構(gòu),又是存在多方合作關(guān)系的機(jī)構(gòu)。而CNRS、New York University、NTT Secure Platform 這三個(gè)機(jī)構(gòu)未出現(xiàn)在發(fā)文數(shù)量前10 名的機(jī)構(gòu)名單中,說(shuō)明其主要依賴(lài)于合作研究,獨(dú)立研究能力相對(duì)較弱。
此外,在知識(shí)圖譜分析中節(jié)點(diǎn)的介數(shù)中心性和緊密中心性是測(cè)量節(jié)點(diǎn)在網(wǎng)絡(luò)中重要性的指標(biāo),根據(jù)Neo4j 中的GDS 算法庫(kù),計(jì)算構(gòu)建的知識(shí)圖譜中各節(jié)點(diǎn)的介數(shù)值和緊密度值,分別選取排名前5 的機(jī)構(gòu),如表3與表4所示。
表3 機(jī)構(gòu)合作關(guān)系圖譜中排名前5的節(jié)點(diǎn)介數(shù)值
表4 機(jī)構(gòu)合作關(guān)系圖譜中排名前5的節(jié)點(diǎn)緊密度
依據(jù)表3 中的機(jī)構(gòu)介數(shù)值數(shù)據(jù),只有CNRS 在三大密碼年會(huì)都排在前5 名中,UCLA 在歐密會(huì)和美密會(huì)中排在前5 位中,未進(jìn)入亞密會(huì)的前5 位。TU Darmstadt、UC BerkeleyNew 的介數(shù)值在歐密會(huì)中排在第1、第2位,但美密會(huì)和亞密會(huì)中未進(jìn)入在前5 名。同時(shí),New York University 的介數(shù)值在美密會(huì)中排在第2 位,但歐密會(huì)和亞密會(huì)中未進(jìn)入在前5 名。說(shuō)明在機(jī)構(gòu)合作中起連通作用(介數(shù)值)大的機(jī)構(gòu)有地域特性,各機(jī)構(gòu)在各自所處區(qū)域的密碼年會(huì)中對(duì)關(guān)聯(lián)合作的連通性作用更強(qiáng)。
依據(jù)表4 中的機(jī)構(gòu)緊密度數(shù)據(jù),發(fā)現(xiàn)CNRS、IBM Research、NTT Secure Platform Laboratories 三個(gè)機(jī)構(gòu)在三大密碼年會(huì)中均處于前5 名中,說(shuō)明三大密碼年會(huì)中處于中心位置的機(jī)構(gòu)相差不大,即密碼學(xué)全球范圍內(nèi)處于核心地位的機(jī)構(gòu)相對(duì)集中。
考察三大密碼年會(huì)收錄論文中不同作者之間的合作情況,設(shè)置在同一篇論文中出現(xiàn)過(guò)的作者存在合作關(guān)系,生成密碼學(xué)領(lǐng)域研究者的機(jī)構(gòu)合作圖譜,如圖4所示。從圖4可以看出,密碼領(lǐng)域的研究者大部分之間存在聯(lián)系,少部分研究者只在小范圍(2人~10人之間)存在聯(lián)系。
圖4 三大密碼年會(huì)中研究者合作論文關(guān)系圖譜
計(jì)算研究者合作關(guān)系圖譜中各節(jié)點(diǎn)的度值、介數(shù)值和緊密度值,分別選取排名前10 的研究者,如表5所示。
表5 作者合作關(guān)系圖譜中前10名度值、介數(shù)值和緊密度值節(jié)點(diǎn)
深入與研究者發(fā)表論文數(shù)量對(duì)比分析,發(fā)現(xiàn)合作者圖譜中度值前10 名的研究者和發(fā)表論文高產(chǎn)作者前10 名名單一致、數(shù)值相等,說(shuō)明密碼研究領(lǐng)域高產(chǎn)作者發(fā)表的論文均不是獨(dú)立完成,全是合作完成。
依據(jù)表5 中的具體數(shù)值分析,度值排序中,前10 名研究者的最大度值為70,而緊密度排序中,最大緊密度值為0.31,說(shuō)明在密碼領(lǐng)域研究者多是直接與業(yè)界大牛、知名學(xué)者開(kāi)展合作研究,但大牛、知名學(xué)者之外的各研究者之間的合作關(guān)系較少。繼續(xù)對(duì)比表5 中度值、介數(shù)值前10 名研究者信息,發(fā)現(xiàn)Yu Yu、Léo Ducas、Chun Guo、Yang Yu、Joanne Woodage 這5 位研究者在度值排序的前10 名中并未出現(xiàn),但介數(shù)值又非常大,說(shuō)明這5 位研究者在密碼領(lǐng)域各研究者合作關(guān)系中起著非常重要的橋梁紐帶作用。
依據(jù)爬取的三大密碼年會(huì)10 年論文數(shù)據(jù),利用nltk 自然語(yǔ)言處理庫(kù),對(duì)論文標(biāo)題進(jìn)行分詞處理,去掉介詞、連接詞及一些特殊字符,共得到3170 個(gè)標(biāo)題詞匯。統(tǒng)計(jì)標(biāo)題詞匯出現(xiàn)的頻次,其中排前30的結(jié)果,如圖5所示。
圖5 三大密碼年會(huì)論文中標(biāo)題高頻詞
從圖5 中可見(jiàn)看出,Encryption 是出現(xiàn)頻次第1位的高頻標(biāo)題詞匯,Security、Secure 是出現(xiàn)頻次第2 位、第3 位的高頻標(biāo)題詞匯,Computation、Applications這兩個(gè)詞出現(xiàn)頻次分別處于第4位、第5位,說(shuō)明近10 年密碼相關(guān)研究領(lǐng)域重點(diǎn)在加密和安全領(lǐng)域,并側(cè)重計(jì)算實(shí)現(xiàn)與應(yīng)用方面的研究。
設(shè)置在同一篇論文中出現(xiàn)過(guò)的標(biāo)題詞匯之間存在聯(lián)系,生成密碼學(xué)領(lǐng)域關(guān)鍵詞圖譜如圖6 所示。進(jìn)一步計(jì)算關(guān)鍵詞合作關(guān)系圖譜中各節(jié)點(diǎn)的度值、介數(shù)值和緊密度值,分別選取排名前10 的研究者,如表6所示。
表6 關(guān)鍵詞關(guān)聯(lián)關(guān)系圖譜中前10名度值、介數(shù)值和緊密度值節(jié)點(diǎn)
圖6 三大密碼年會(huì)論文高頻關(guān)鍵詞關(guān)聯(lián)關(guān)系圖譜
對(duì)比表6中數(shù)據(jù),排名前10的度值與介數(shù)值節(jié)點(diǎn)中,有Security、Encryption、Secure、Applications、Attacks、New、Efficient、Computation、Functions 9 個(gè)詞重合,說(shuō)明代表研究熱點(diǎn)的關(guān)鍵詞在圖譜連通性方面起的作用也很大,密碼各領(lǐng)域研究是通過(guò)熱點(diǎn)關(guān)鍵詞逐步擴(kuò)充,關(guān)聯(lián)起來(lái)的。關(guān)鍵詞緊密度分析,發(fā)現(xiàn)關(guān)鍵詞緊密度值明顯高于機(jī)構(gòu)、作者合作關(guān)系中各節(jié)點(diǎn)的緊密度值,說(shuō)明密碼研究領(lǐng)域除圍繞熱點(diǎn)關(guān)鍵詞開(kāi)展研究外,相對(duì)不是熱點(diǎn)的關(guān)鍵詞之間進(jìn)行的關(guān)聯(lián)研究也很多。其中,緊密度值排名第10 位的“Quantum”在度值、介數(shù)值的前10 名名單中并未出現(xiàn),說(shuō)明“量子”在密碼領(lǐng)域的研究中處于新興地位,還不是密碼研究領(lǐng)域的核心關(guān)鍵點(diǎn),圍繞“量子”開(kāi)展的合作研究比較集中。
綜上所述,在近十年的時(shí)間內(nèi),時(shí)間分布圖譜表明,世界范圍密碼學(xué)研究領(lǐng)域論文發(fā)表量呈現(xiàn)逐步遞增趨勢(shì),目前處于高產(chǎn)出階段。研究機(jī)構(gòu)和作者分布圖譜表明,雖然參與密碼學(xué)研究的機(jī)構(gòu)單位眾多,呈現(xiàn)出多點(diǎn)開(kāi)花局面,但也涌現(xiàn)出如CNRS、UCLA、IBM Research、Yevgeniy Dodis、Jonathan Katz等處于核心地位的機(jī)構(gòu)與作者。作者、機(jī)構(gòu)合作關(guān)系圖譜緊密度分析表明,密碼領(lǐng)域的科研機(jī)構(gòu)和研究者傾向于直接和業(yè)內(nèi)處于核心地位的機(jī)構(gòu)、大牛作者合作,核心外圍的機(jī)構(gòu)、研究者之間合作較少。
綜上所述,通過(guò)采集2011-2020 年歐密、美密、亞密三大密碼年會(huì)的數(shù)據(jù),構(gòu)建可視化知識(shí)圖譜及統(tǒng)計(jì)計(jì)量分析方法,揭示了密碼研究領(lǐng)域的現(xiàn)狀及特征,研究結(jié)果對(duì)密碼領(lǐng)域相關(guān)機(jī)構(gòu)、研究者了解行業(yè)現(xiàn)狀有一定參考意義。但論文主要依據(jù)三大密碼年會(huì)的數(shù)據(jù)開(kāi)展研究分析,數(shù)據(jù)量有限,后續(xù)將擴(kuò)充密碼研究領(lǐng)域的其它數(shù)據(jù),已達(dá)到全方面解析密碼領(lǐng)域研究特征的目的。