許文文,馬 勛,徐霄驥,張 峰
(中國電子科技集團(tuán)公司信息科學(xué)研究院 認(rèn)知與智能技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100086)
領(lǐng)域技術(shù)體系是通過分析領(lǐng)域技術(shù)、技術(shù)之間的關(guān)系以及技術(shù)發(fā)展特性等數(shù)據(jù),以技術(shù)概念為節(jié)點(diǎn)、以技術(shù)概念間關(guān)系為邊,繪制而成的具有層次、邏輯關(guān)系的數(shù)據(jù)結(jié)構(gòu)。利用技術(shù)體系,能夠分析領(lǐng)域技術(shù)發(fā)展脈絡(luò),揭示技術(shù)之間的耦合關(guān)系,形成技術(shù)全景畫像,洞察技術(shù)發(fā)展方向。
傳統(tǒng)領(lǐng)域技術(shù)體系主要依托專家已有的知識,人工進(jìn)行構(gòu)建,存在認(rèn)識、經(jīng)驗(yàn)等局限性,無法保障全面性和準(zhǔn)確性,無法洞察技術(shù)發(fā)展的全貌。論文、專利等科研成果數(shù)據(jù)是科研活動和科技發(fā)展的客觀反映。隨著科學(xué)技術(shù)迅猛發(fā)展,科研機(jī)構(gòu)的科研活動范圍越來越廣泛,科研成果呈多源化、海量化的速度增長?;谶@些數(shù)據(jù),利用數(shù)據(jù)科學(xué)的方法,可以實(shí)現(xiàn)從數(shù)據(jù)到信息、信息到知識的提升[1]?;诖?,本文提出一種基于圖譜的領(lǐng)域技術(shù)體系構(gòu)建方法。該方法通過采集領(lǐng)域相關(guān)科技信息資源,結(jié)合數(shù)據(jù)挖掘、知識圖譜、復(fù)雜網(wǎng)絡(luò)分析等技術(shù),對數(shù)據(jù)進(jìn)行整合和提煉,構(gòu)建領(lǐng)域技術(shù)體系,可以從相對客觀的角度反映技術(shù)的發(fā)展?fàn)顩r和未來趨勢,為認(rèn)識技術(shù)發(fā)展全貌提供輔助支撐。
在領(lǐng)域技術(shù)關(guān)聯(lián)圖譜構(gòu)建方面,通過領(lǐng)域科技數(shù)據(jù)的感知與匯聚,實(shí)現(xiàn)領(lǐng)域科技數(shù)據(jù)的獲??;通過基于雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)的知識抽取,實(shí)現(xiàn)對隱藏在海量科技信息中的實(shí)體和實(shí)體關(guān)系的識別和抽取;通過基于潛在語義分析的知識融合,將多個來源的、關(guān)于同一個實(shí)體或概念的描述信息進(jìn)行融合;通過混合數(shù)據(jù)存儲體系、多維度數(shù)據(jù)索引等技術(shù),實(shí)現(xiàn)圖譜的管理和更新。
針對全面、及時地感知和獲取領(lǐng)域科技數(shù)據(jù)的問題,開展多源數(shù)據(jù)采集模型構(gòu)建研究,覆蓋專業(yè)文獻(xiàn)庫、相關(guān)專利庫等渠道,實(shí)現(xiàn)領(lǐng)域科技數(shù)據(jù)的自動感知與獲取。具體地,采用定源跟蹤與開放式獲取相結(jié)合的多源數(shù)據(jù)采集方法,獲取數(shù)據(jù),并且建立多源信息監(jiān)測、長期跟蹤機(jī)制,實(shí)現(xiàn)數(shù)據(jù)的定期更新。
針對獲取的領(lǐng)域科技數(shù)據(jù)格式多樣、質(zhì)量難以保障的問題,開展領(lǐng)域科技數(shù)據(jù)預(yù)處理,完成數(shù)據(jù)解析、數(shù)據(jù)清洗、數(shù)據(jù)變換等規(guī)范化操作,形成格式統(tǒng)一、結(jié)構(gòu)完整、形式規(guī)范的領(lǐng)域科技數(shù)據(jù)集。構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)解析工具,實(shí)現(xiàn)論文、專利等數(shù)據(jù)中標(biāo)題、作者、機(jī)構(gòu)、摘要、關(guān)鍵詞、正文、發(fā)表時間等基本信息的提取。在數(shù)據(jù)變換方面,構(gòu)建數(shù)據(jù)轉(zhuǎn)換工具,以支持?jǐn)?shù)據(jù)不同存儲格式與標(biāo)準(zhǔn)格式間的相互轉(zhuǎn)換,方便數(shù)據(jù)整合、聯(lián)合分析。
知識抽取是從多種數(shù)據(jù)源中提取知識并存入知識圖譜,是構(gòu)建大規(guī)模知識圖譜的基礎(chǔ)[2]。知識抽取的目的是增強(qiáng)信息的可使用性和可重用性,這個過程同時又可以看作對現(xiàn)有的非結(jié)構(gòu)化信息的語義標(biāo)注過程,主要包括實(shí)體抽取和實(shí)體間關(guān)系抽取。
針對領(lǐng)域?qū)I(yè)性強(qiáng)、技術(shù)詞匯多樣所導(dǎo)致的領(lǐng)域文檔識別與要素提取困難問題,開展領(lǐng)域詞庫構(gòu)建研究。領(lǐng)域詞庫構(gòu)建的正確性影響領(lǐng)域數(shù)據(jù)識別的準(zhǔn)確率[3]。對此,首先收集領(lǐng)域的技術(shù)種子詞匯,基于種子詞匯,結(jié)合語義空間模型、文本上下文場景分析等技術(shù),對文檔中的技術(shù)概念進(jìn)行提取,并對相關(guān)概念間的關(guān)系進(jìn)行梳理,以滾雪球方式不斷完善領(lǐng)域基礎(chǔ)詞庫,為領(lǐng)域技術(shù)關(guān)聯(lián)圖譜的構(gòu)建提供支撐。
采用基于BERT深層語義表示的BILSTM-CRF模型[4]進(jìn)行實(shí)體抽取?;陬A(yù)先獲得的BERT模型和CRF模型,構(gòu)建實(shí)體抽取模型;將預(yù)處理后的文本段落數(shù)據(jù)輸入實(shí)體抽取模型,得到抽取結(jié)果。在實(shí)體關(guān)系抽取方面,采用融合多特征的BERT預(yù)訓(xùn)練模型進(jìn)行實(shí)體關(guān)系抽取。融合技術(shù)等實(shí)體信息、實(shí)體對信息和實(shí)體類型等特征,強(qiáng)化BERT模型的語義學(xué)習(xí)能力,減少語義信息特征的丟失,最后通過分類器進(jìn)行關(guān)系分類和提取。
知識融合研究的是如何將來自多個來源的關(guān)于同一個實(shí)體或概念的描述信息融合起來,主要包括實(shí)體對齊、沖突檢測與消解等。
通過采用基于語義分析的概率模型實(shí)現(xiàn)實(shí)體對齊。首先,通過局部敏感哈希算法確定每個實(shí)體匹配候選集,降低計(jì)算復(fù)雜度,其次利用文本相似性函數(shù)計(jì)算屬性的相似度進(jìn)行成對匹配。通過將基于屬性相似性評分的實(shí)體匹配問題轉(zhuǎn)化為分類問題(分為匹配、可能匹配和不匹配)建立該問題的概率模型。在沖突檢測與消解方面,綜合使用基于投票的方法和基于質(zhì)量估計(jì)的方法?;谕镀钡姆椒ū容^直接,例如根據(jù)實(shí)體出現(xiàn)的頻率進(jìn)行多數(shù)投票?;谫|(zhì)量的方法不考慮知識來源的可信度,最終選擇較高質(zhì)量的結(jié)果。
由于領(lǐng)域技術(shù)處在不斷的變化之中,其所包含的技術(shù)概念節(jié)點(diǎn)和關(guān)聯(lián)關(guān)系可能會消失,同時新的節(jié)點(diǎn)和關(guān)系也會不斷出現(xiàn),因此,就需要對技術(shù)關(guān)聯(lián)圖譜進(jìn)行存儲和定期更新。通過采用基于關(guān)系數(shù)據(jù)庫、圖數(shù)據(jù)庫的混合數(shù)據(jù)存儲體系,支撐技術(shù)關(guān)聯(lián)圖譜存儲,并構(gòu)建多維度數(shù)據(jù)索引,實(shí)現(xiàn)領(lǐng)域技術(shù)數(shù)據(jù)的管理和查詢檢索。關(guān)系數(shù)據(jù)庫易于維護(hù),便于多表之間的復(fù)雜查詢。圖數(shù)據(jù)庫可以提供完善的查詢語言,實(shí)現(xiàn)圖上的查詢和搜索,更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場景[5]。針對技術(shù)關(guān)聯(lián)圖譜的更新問題,綜合多源置信度評估技術(shù)、基于圖數(shù)據(jù)庫的自動更新與備份,以及人工更新維護(hù)等手段,實(shí)現(xiàn)技術(shù)關(guān)聯(lián)圖譜的更新與維護(hù)。
在領(lǐng)域技術(shù)體系構(gòu)建方面,通過標(biāo)簽傳播算法,實(shí)現(xiàn)領(lǐng)域技術(shù)群發(fā)現(xiàn);通過分析技術(shù)節(jié)點(diǎn)間的時序鏈接變化,深化對技術(shù)的關(guān)聯(lián)關(guān)系的認(rèn)識;通過對技術(shù)關(guān)聯(lián)圖譜的分析,構(gòu)建領(lǐng)域技術(shù)體系。
技術(shù)群發(fā)現(xiàn)的目的是挖掘技術(shù)關(guān)聯(lián)圖譜中關(guān)系緊密的技術(shù)實(shí)體對[6]。采用基于標(biāo)簽傳播的社區(qū)檢測算法實(shí)現(xiàn)技術(shù)群的發(fā)現(xiàn)。標(biāo)簽傳播算法通過傳播標(biāo)簽的方式使得網(wǎng)絡(luò)中的節(jié)點(diǎn)獲取其所屬簇的標(biāo)簽。將具有相同標(biāo)簽的節(jié)點(diǎn)劃分到一個社區(qū)中,在每次迭代傳播時,每個節(jié)點(diǎn)的標(biāo)簽都更新為最多數(shù)量的鄰居節(jié)點(diǎn)擁有的標(biāo)簽。通過標(biāo)簽傳播,將整個網(wǎng)絡(luò)中的技術(shù)節(jié)點(diǎn)劃分為若干個群體,發(fā)現(xiàn)潛藏在技術(shù)關(guān)聯(lián)圖譜中的技術(shù)群,群內(nèi)技術(shù)節(jié)點(diǎn)聯(lián)系緊密,群間節(jié)點(diǎn)聯(lián)系稀疏。
技術(shù)演化路徑分析,可以梳理技術(shù)發(fā)展脈絡(luò),為探究、回溯技術(shù)起源和發(fā)展提供幫助[7]。結(jié)合文本挖掘、引文分析等技術(shù),分析技術(shù)關(guān)聯(lián)網(wǎng)絡(luò)中技術(shù)節(jié)點(diǎn)和連接關(guān)系隨時間的變化情況,通過節(jié)點(diǎn)和連接的增長過程分析、圖譜關(guān)鍵節(jié)點(diǎn)和連接的產(chǎn)生及變化情況描述與刻畫,形成領(lǐng)域相關(guān)技術(shù)隨時間變化的演化機(jī)制。文本發(fā)掘方法,分析網(wǎng)絡(luò)演化過程,從而識別某技術(shù)的演化模式、內(nèi)在聯(lián)系、發(fā)展趨勢等。引文分析方法,對文獻(xiàn)之間的引用關(guān)系進(jìn)行分析,發(fā)現(xiàn)技術(shù)動態(tài)發(fā)展聯(lián)系等。
基于對領(lǐng)域技術(shù)群和技術(shù)演化的認(rèn)知,采用知識牽引與數(shù)據(jù)驅(qū)動相結(jié)合的方法構(gòu)建技術(shù)體系。首先對技術(shù)群結(jié)構(gòu)進(jìn)行分析,識別出領(lǐng)域技術(shù)關(guān)聯(lián)關(guān)系中強(qiáng)關(guān)聯(lián)節(jié)點(diǎn);再通過節(jié)點(diǎn)影響力分析等方法,結(jié)合人工輔助矯正技術(shù),從各技術(shù)群中心節(jié)點(diǎn)出發(fā)逐層遍歷網(wǎng)絡(luò)節(jié)點(diǎn),并將其加到技術(shù)體系輸出列表中,輸出具有多個層級的列表,形成技術(shù)體系。結(jié)合領(lǐng)域?qū)<医?jīng)驗(yàn)知識,對技術(shù)體系進(jìn)行迭代修正。
中央企業(yè)在國民經(jīng)濟(jì)中占主導(dǎo)地位,也是國家科技創(chuàng)新的主力軍。本文以中央企業(yè)為研究對象,對其研究領(lǐng)域進(jìn)行分析。通過開源數(shù)據(jù)獲取,共收集中央企業(yè)近5年相關(guān)技術(shù)論文16 939篇。通過篩選工業(yè)期刊、技術(shù)術(shù)語識別、關(guān)聯(lián)關(guān)系建立、清洗雜質(zhì)詞等處理,構(gòu)建技術(shù)關(guān)聯(lián)圖譜。該技術(shù)關(guān)聯(lián)圖譜共包含節(jié)點(diǎn)數(shù)6 081個,關(guān)聯(lián)關(guān)系數(shù)7 288條。通過對技術(shù)關(guān)聯(lián)圖譜進(jìn)行技術(shù)群發(fā)現(xiàn),該網(wǎng)絡(luò)可分為6大模塊,在圖1中已用不同顏色進(jìn)行標(biāo)出。各模塊中的中心節(jié)點(diǎn)分別為通信技術(shù)、大數(shù)據(jù)、航空發(fā)動機(jī)、圖像處理、運(yùn)載火箭技術(shù)、雷達(dá)。這些節(jié)點(diǎn)具有較多連接,即在相關(guān)機(jī)構(gòu)的論文中出現(xiàn)次數(shù)較多。該結(jié)果可反映出,近5年,中央企業(yè)相關(guān)機(jī)構(gòu)研究的熱點(diǎn)技術(shù)為通信技術(shù)、大數(shù)據(jù)技術(shù)、航空發(fā)動機(jī)技術(shù)、圖像處理技術(shù)、運(yùn)載火箭技術(shù)以及雷達(dá)技術(shù)等。
鑒于通信領(lǐng)域?yàn)橹醒肫髽I(yè)相關(guān)機(jī)構(gòu)研究的熱點(diǎn)領(lǐng)域之一,且通信技術(shù)對今后社會發(fā)展有著舉足輕重的作用[8-10],本文以通信領(lǐng)域?yàn)槔?,對相關(guān)領(lǐng)域技術(shù)文獻(xiàn)進(jìn)行分析,構(gòu)建其技術(shù)體系。通過定向開源數(shù)據(jù)獲取,共收集《光通信技術(shù)》《通信技術(shù)》《無線電通信技術(shù)》三本期刊近5年的1 881篇論文數(shù)據(jù)。通過技術(shù)術(shù)語識別、關(guān)聯(lián)關(guān)系建立等處理,構(gòu)建通信領(lǐng)域技術(shù)關(guān)聯(lián)圖譜。結(jié)合復(fù)雜網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘等技術(shù),對通信領(lǐng)域技術(shù)關(guān)聯(lián)圖譜進(jìn)行技術(shù)群發(fā)現(xiàn)、技術(shù)演化分析等處理,構(gòu)建通信領(lǐng)域技術(shù)體系,主要結(jié)果如圖2所示。從該結(jié)果可以看出,通信領(lǐng)域近5年來研究的技術(shù)點(diǎn)包括衛(wèi)星通信[11]、網(wǎng)絡(luò)安全[12]、認(rèn)知無線電等[13-14]。衛(wèi)星通信相關(guān)技術(shù)包括高階調(diào)制、跳頻通信、無線通信、故障診斷以及極化調(diào)制等。網(wǎng)絡(luò)安全相關(guān)技術(shù)包括身份認(rèn)證、安全隔離以及網(wǎng)絡(luò)防御等。認(rèn)知無線電相關(guān)技術(shù)包括調(diào)制識別、頻譜感知以及信號檢測等。
圖2 通信領(lǐng)域技術(shù)體系
領(lǐng)域技術(shù)體系能夠分析領(lǐng)域技術(shù)發(fā)展脈絡(luò),揭示技術(shù)之間的耦合關(guān)系,形成技術(shù)全景畫像,輔助研究人員了解和掌握領(lǐng)域通用技術(shù)、關(guān)鍵技術(shù)等內(nèi)容,助力前沿技術(shù)的超前部署和提前謀劃。本文提出一種基于圖譜的領(lǐng)域技術(shù)體系構(gòu)建方法,并對方法的實(shí)際效果進(jìn)行了實(shí)例分析。該方法能夠?qū)︻I(lǐng)域科技數(shù)據(jù)進(jìn)行專業(yè)化處理,提高對數(shù)據(jù)的加工能力,實(shí)現(xiàn)科技信息數(shù)據(jù)的增值。下一步將采用學(xué)術(shù)論文、專利等為數(shù)據(jù)源,采用多源數(shù)據(jù)進(jìn)行領(lǐng)域技術(shù)體系構(gòu)建,從而使分析結(jié)果更加全面、客觀。