韋向峰 繆建明 張全 袁毅
1. 中國科學(xué)院聲學(xué)研究所 北京 100190;
2. 富媒體數(shù)字出版內(nèi)容組織與知識服務(wù)重點(diǎn)實(shí)驗(yàn)室 北京 100038;
3. 中國兵器工業(yè)信息中心 北京 100089
知識圖譜本質(zhì)上是一種具有有向圖結(jié)構(gòu)的語義網(wǎng)絡(luò)知識庫,其中圖的結(jié)點(diǎn)代表實(shí)體或概念,圖的邊代表實(shí)體或概念之間的各種語義關(guān)系[1]。知識圖譜作為一種形式化的知識表示方法,具有結(jié)構(gòu)化、圖形化、可推理等優(yōu)點(diǎn),被廣泛應(yīng)用于搜索引擎、自然語言處理、情報(bào)分析、智能客服等領(lǐng)域。目前通用領(lǐng)域有DBpedia[2]、YAGO[3]、FreeBase[4]等大規(guī)模百科知識類英文知識圖譜,中文通用知識圖譜有CN-DBpedia[5]、Zhishi.me[6]以及OpenKG.CN 平臺[7]。但是以百科知識為基礎(chǔ)的知識圖譜無法滿足專業(yè)化知識推理、精細(xì)化應(yīng)用場景和特定領(lǐng)域需求,因此垂直領(lǐng)域的專用知識圖譜獲得了廣泛研究和發(fā)展,例如學(xué)術(shù)文獻(xiàn)領(lǐng)域的知識圖譜SciGraph[8]、OAG(Open Academic Graph)[9]、AMiner[10]、AceKG[11]。隨著知識圖譜的發(fā)展以及智能時代的來臨,知識圖譜需要融合不同的語言、包含更多模態(tài)或媒體的知識內(nèi)容,例如文本、圖片、音頻、視頻等富媒體。如何自動構(gòu)建跨語言、跨模態(tài)的垂直領(lǐng)域知識圖譜,成為知識圖譜自動構(gòu)建技術(shù)研究的熱點(diǎn)之一。
知識圖譜的自動構(gòu)建是一個復(fù)雜過程,涉及從不同數(shù)據(jù)源中抽取、整合和表示知識。一般而言,首先需要從網(wǎng)頁或結(jié)構(gòu)化數(shù)據(jù)源進(jìn)行數(shù)據(jù)采集與抽取,從中提取實(shí)體、關(guān)系和屬性等信息;接著對從不同源頭獲得的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括去除重復(fù)項(xiàng)、修復(fù)拼寫錯誤、統(tǒng)一格式等;然后使用自然語言處理等技術(shù)進(jìn)行實(shí)體抽取、屬性抽取、關(guān)系抽取等,獲取知識圖譜的實(shí)體、屬性和關(guān)系;之后通過實(shí)體對齊、關(guān)系合并等技術(shù)對知識圖譜進(jìn)行知識融合,以確保知識圖譜的一致性;最后需要進(jìn)行知識表示和知識存儲,一般采用三元組表示知識圖譜,使用圖數(shù)據(jù)庫存儲知識圖譜。
本文將以構(gòu)建面向世界一流英文科技期刊的跨語言多模態(tài)知識圖譜為例,探討如何從單一語種的英文科技期刊網(wǎng)站中自動獲取文本、圖片、音視頻等富媒體數(shù)據(jù)信息并翻譯為中文,同時探索建立生命科學(xué)、醫(yī)學(xué)、化學(xué)等領(lǐng)域的細(xì)粒度跨語言富媒體知識圖譜構(gòu)建技術(shù),實(shí)現(xiàn)富媒體實(shí)體關(guān)系的抽取、關(guān)聯(lián)、跨語言映射和存儲。本文的跨語言多模態(tài)知識圖譜技術(shù)和方法,可為其他垂直領(lǐng)域的知識圖譜構(gòu)建提供參考和借鑒;所構(gòu)建的英漢雙語富媒體知識圖譜可為下游任務(wù)如跨語言文獻(xiàn)信息檢索和推薦、科學(xué)研究熱點(diǎn)分析、科技情報(bào)監(jiān)測等提供重要支撐。
知識圖譜的構(gòu)建方法可以分為自頂向下和自底向上兩種方法[12]。自頂向下方法一般是借助結(jié)構(gòu)化的網(wǎng)站數(shù)據(jù)源或者領(lǐng)域?qū)<业南闰?yàn)知識來構(gòu)建知識圖譜,通常從事先定義的領(lǐng)域本體開始,包括實(shí)體類別、屬性和關(guān)系等,通過規(guī)則和規(guī)范來指導(dǎo)實(shí)體和關(guān)系的抽取和構(gòu)建;自底向上方法一般是通過自動化算法和技術(shù)從大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)中抽取實(shí)體和關(guān)系,然后逐步構(gòu)建知識圖譜,通常包括實(shí)體抽取、關(guān)系抽取和實(shí)體鏈接等步驟。
本文采取自頂向下和自底向上相結(jié)合的方法。首先根據(jù)CNS 等英文科技期刊網(wǎng)站的結(jié)構(gòu)特點(diǎn)設(shè)計(jì)了期刊、科技論文、論文作者、科研機(jī)構(gòu)、圖片、音頻、視頻等實(shí)體,并設(shè)計(jì)了各個實(shí)體的屬性和它們之間的關(guān)系,例如科技論文的摘要、發(fā)表日期等屬性,這些實(shí)體關(guān)系的設(shè)計(jì)以屬性關(guān)系為主;其次,對于非結(jié)構(gòu)化的論文摘要文本內(nèi)容,采用自動語步識別技術(shù)獲取摘要的背景、方法、結(jié)果和結(jié)論等語步,作為科技論文實(shí)體的細(xì)粒度屬性;第三,從非結(jié)構(gòu)化的論文摘要文本中抽取學(xué)科領(lǐng)域的專業(yè)術(shù)語等實(shí)體,這些實(shí)體之間的關(guān)系以實(shí)體共現(xiàn)的語句謂詞為主;第四,將英文知識圖譜中的實(shí)體、屬性和關(guān)系翻譯為中文,然后進(jìn)行單語言知識圖譜的實(shí)體消歧、跨語言知識圖譜的實(shí)體對齊;第五,將圖片、音頻和視頻等富媒體信息內(nèi)容進(jìn)行實(shí)體鏈接,鏈接到科技論文、主題等實(shí)體;最后,把獲得的跨語言富媒體知識圖譜存儲到圖數(shù)據(jù)庫中,以便進(jìn)行后續(xù)的知識圖譜檢索和相關(guān)應(yīng)用。
對于知識圖譜的構(gòu)建而言,一般需要經(jīng)過實(shí)體抽取、屬性抽取、關(guān)系抽取等知識抽取的處理,然后進(jìn)行實(shí)體對齊、屬性對齊等知識融合的處理。對于跨語言和跨模態(tài)的知識圖譜,還需要進(jìn)行跨語言的實(shí)體對齊、跨模態(tài)的實(shí)體屬性映射等處理。
如圖1 所示,本文的英漢雙語富媒體知識圖譜構(gòu)建工作主要包括確定數(shù)據(jù)來源、實(shí)體抽取、屬性抽取、實(shí)體對齊、跨語言映射、跨媒體鏈接等處理步驟或階段,最后對所構(gòu)建的多模態(tài)跨語言知識圖譜進(jìn)行存儲及應(yīng)用展示。
圖1 英漢雙語富媒體知識圖譜自動獲取系統(tǒng)框架
本文的數(shù)據(jù)來源是世界一流的英文科技期刊網(wǎng)站,主要以三大頂刊Cell、Nature、Science(CNS)及其子刊為主,同時包括生命科學(xué)、醫(yī)學(xué)、化學(xué)等學(xué)科的其他知名英文科技期刊(見表1)。利用Python 編寫的軟件程序,可自動獲取這些網(wǎng)站中期刊、科技論文、論文作者、科研機(jī)構(gòu)等實(shí)體信息,以及相關(guān)的圖片、音頻和視頻實(shí)體信息。
表1 數(shù)據(jù)來源的主要期刊信息
本文設(shè)計(jì)的主要實(shí)體及其屬性如表2 所示。在本文設(shè)計(jì)的知識圖譜實(shí)體、屬性和關(guān)系中,主題既是實(shí)體也是屬性,實(shí)體之間通過主題或?qū)傩孕纬申P(guān)聯(lián)關(guān)系。主題分為生命科學(xué)、化學(xué)、醫(yī)學(xué)、綜合等學(xué)科類別,除主題外知識圖譜中的其他實(shí)體都可以歸屬于某個學(xué)科類別的主題。其中,科技論文實(shí)體處于核心重要位置,科技論文不僅關(guān)聯(lián)文本媒體形式的期刊、論文作者、科研機(jī)構(gòu),而且關(guān)聯(lián)圖片媒體、音頻媒體和視頻媒體。對于音頻媒體內(nèi)容,主要通過ScientificAmerican(科學(xué)美國人)雜志中的播客網(wǎng)站(https://www.scientificamerican.com/podcasts/)進(jìn)行自動獲取。利用數(shù)據(jù)獲取與解析的自動化工具,本文從22 個英文期刊網(wǎng)站中獲取了期刊的歷史科技論文及其相關(guān)屬性,其中科技論文共13135 篇,科技論文中的圖片共8738 張,科技論文中的關(guān)聯(lián)視頻共911 個,音頻媒體內(nèi)容(包括音頻文件及其對應(yīng)的文本內(nèi)容)共4638 個。在富媒體知識圖譜中音頻實(shí)體可以通過主題或音頻文本內(nèi)容中出現(xiàn)的科技期刊名稱與科技論文實(shí)體進(jìn)行關(guān)聯(lián)。
表2 主要的實(shí)體和屬性
實(shí)體抽取是知識圖譜構(gòu)建的關(guān)鍵環(huán)節(jié)之一,其主要任務(wù)是從非結(jié)構(gòu)化的文本中自動識別出各種實(shí)體,并將其標(biāo)注出來。對通用領(lǐng)域而言,實(shí)體抽取可以從文本中識別出特定名稱的實(shí)體,如人名、地名、機(jī)構(gòu)名等;對垂直領(lǐng)域而言,實(shí)體抽取可以從文本中識別出具有特定專業(yè)含義的術(shù)語,例如醫(yī)學(xué)領(lǐng)域的疾病名稱、藥品名稱、醫(yī)學(xué)檢查方法等。對于表2 中論文作者、科研機(jī)構(gòu)等大多數(shù)實(shí)體,很容易通過半結(jié)構(gòu)化的網(wǎng)頁信息內(nèi)容抽取得到。而在科技論文的非結(jié)構(gòu)化摘要文本中,包含有各個學(xué)科領(lǐng)域的眾多術(shù)語或?qū)嶓w,如何從摘要文本中自動識別抽取得到相關(guān)學(xué)科領(lǐng)域的術(shù)語實(shí)體是在構(gòu)建知識圖譜時需要研究解決的一個問題。
由于科技論文涉及眾多細(xì)分的學(xué)科和領(lǐng)域,各學(xué)科領(lǐng)域的專業(yè)術(shù)語的特點(diǎn)和規(guī)律并不相同,本文僅僅討論針對生物醫(yī)學(xué)領(lǐng)域的化學(xué)藥物名稱的實(shí)體抽取。生物醫(yī)學(xué)領(lǐng)域的化學(xué)藥物名稱有其自身的特殊性,這使得化學(xué)藥物名稱的實(shí)體抽取正確率遠(yuǎn)低于通用領(lǐng)域的實(shí)體抽取正確率。這些特殊性在于以下幾個方面:(1)名稱往往很長,例如“sodium dodecyl sulphate polyacrylamide”。(2)命名方式多樣,沒有統(tǒng)一標(biāo)準(zhǔn)。有的采用國際理論和應(yīng)用化學(xué)聯(lián)合會制定的命名方式如“8-O-trans-cinnamoyl caryoptoside”,有的采用慣用名如“captafol”,有的采用簡稱如“PCAHs”等。(3)歧義性縮寫,化學(xué)藥物名稱經(jīng)常出現(xiàn)縮寫,且縮寫沒有統(tǒng)一規(guī)律。(4)不斷出現(xiàn)的新的化學(xué)藥物名稱,僅僅依靠詞典規(guī)則方法難以將其全部覆蓋。
實(shí)體抽取的方法可以分為:基于詞典的方法、基于規(guī)則的方法、基于統(tǒng)計(jì)學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。就知識圖譜實(shí)體抽取的效果而言,基于深度學(xué)習(xí)的方法要優(yōu)于其他方法。目前基于Bi-LSTM-CRF 模型的深度學(xué)習(xí)方法在化學(xué)藥物語料庫上取得的實(shí)驗(yàn)結(jié)果比傳統(tǒng)的基于CRF 的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的結(jié)果要好,成為了主流的化學(xué)藥物名稱實(shí)體抽取方法。例如,一種基于CNN-Bi-LSTM-CRF 模型用于生物醫(yī)學(xué)領(lǐng)域的實(shí)體識別方法[13],先利用CNN 學(xué)習(xí)單詞字符級向量,然后使用Bi-LSTM-CRF 模型進(jìn)行實(shí)體識別,在BioCreative II GM 和JNLPBA2004 生物醫(yī)學(xué)語料上取得了較好的結(jié)果,但是仍有進(jìn)一步改進(jìn)的空間。因?yàn)檫@些基于Bi-LSTM-CRF 模型的深度學(xué)習(xí)方法都是在句子內(nèi)部進(jìn)行實(shí)體抽取,容易出現(xiàn)抽取得到的實(shí)體不一致的問題,也就是說,同一篇文檔中提及的相同實(shí)體由于上下文不同可能會被標(biāo)注成不同的實(shí)體。
為了緩解這種文檔內(nèi)抽取實(shí)體不一致的問題,本文將注意力機(jī)制引入到Bi-LSTM-CRF 模型中,將文檔作為模型的輸入單元,通過注意力機(jī)制來捕獲文檔全局信息,使同一篇文檔不同句子中的相關(guān)詞被視為相互依賴的標(biāo)簽,從而進(jìn)一步提升深度學(xué)習(xí)模型抽取化學(xué)藥物名稱實(shí)體的效果。首先定義輸入文檔為D={S1, S2, …,Si, …, Sm},由m個句子組成,一個句子定義為S={w1,w2, …, wi, …, wn},由n個詞語組成。文檔需要經(jīng)過嵌入層(詞向量)和一個Bi-LSTM層,然后進(jìn)入到一個新的注意力層,以捕獲文檔級別相關(guān)詞語的依賴信息。在注意力層引入一個注意力矩陣A 來計(jì)算當(dāng)前目標(biāo)詞語和文檔中所有詞語的相似度得分。注意力矩陣A 中的權(quán)重值是第t個詞wt在文檔全文范圍內(nèi)對應(yīng)第i個詞wi表所分配的注意力權(quán)值,利用公式(1)進(jìn)行計(jì)算。
其中,score(wt,wi)是詞語wt和詞語wi之間的相似度得分函數(shù),可通過詞語對應(yīng)的詞向量之間的歐式距離、余弦距離或曼哈頓距離計(jì)算得到。為了獲取文檔級信息并學(xué)習(xí)注意力權(quán)值高的詞語信息,將得到的注意力權(quán)值對Bi-LSTM 層的輸出進(jìn)行加權(quán)求和得到文檔全局向量。然后,將此全局向量和Bi-LSTM 層的輸出進(jìn)行拼接,使用Tanh 函數(shù)作為激活函數(shù),得到注意力層的輸出。最后,使用CRF 層來評估輸出標(biāo)簽之間的依賴關(guān)系,使用Softmax 函數(shù)計(jì)算文檔D中標(biāo)簽序列的條件概率。經(jīng)過標(biāo)注語料庫的訓(xùn)練后,基于注意力機(jī)制的Bi-LSTM-CRF 模型可以對生物醫(yī)學(xué)領(lǐng)域的化學(xué)藥物名稱進(jìn)行文檔級的標(biāo)簽標(biāo)注,實(shí)現(xiàn)化學(xué)藥物名稱的實(shí)體抽取。
本文采用BioCreative 評測發(fā)布的CDR 語料庫作為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。CDR 原始的語料庫包含1500 個PubMed 論文摘要,分為訓(xùn)練集(摘要500 篇)、開發(fā)集(摘要500 篇)、測試集(摘要500 篇)。本文把原始語料庫的訓(xùn)練集和開發(fā)集合并作為本文的訓(xùn)練數(shù)據(jù)集,把原始語料庫的測試集直接作為本文的測試數(shù)據(jù)集。訓(xùn)練基于注意力機(jī)制的Bi-LSTM-CRF 模型時的一些超參數(shù)設(shè)置如下:詞向量維度設(shè)為50,字符向量維度設(shè)為25,字符級Bi-LSTM 神經(jīng)單元大小設(shè)為25,詞語級Bi-LSTM 神經(jīng)單元大小設(shè)為100,學(xué)習(xí)率設(shè)為0.001,優(yōu)化函數(shù)采用隨機(jī)梯度下降函數(shù)SGD。實(shí)驗(yàn)結(jié)果表明,基于注意力機(jī)制的Bi-LSTM-CRF 模型比一般的基于句子的BiLSTM-CRF 模型性能要高0.7 個百分點(diǎn),而且可以減少實(shí)體抽取中的不一致錯誤。
對文本媒體的實(shí)體屬性而言,屬性抽取是指從文本或數(shù)據(jù)中識別和提取實(shí)體的屬性信息的過程。屬性抽取的目標(biāo)是從結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中自動識別和提取實(shí)體的屬性。表2中的大多數(shù)文本媒體實(shí)體的屬性,可通過英文期刊網(wǎng)站內(nèi)容的半結(jié)構(gòu)化文本內(nèi)容信息獲取,使用規(guī)則和自動化程序的方法獲得科技論文的標(biāo)題、科技論文的摘要、科技論文的發(fā)表日期、論文作者的電子郵箱等屬性。
對于科技論文實(shí)體的非結(jié)構(gòu)化的摘要文本屬性,可以進(jìn)一步細(xì)化為背景、方法、結(jié)果和結(jié)論等語步屬性,這樣可以很方便地檢索和查詢科技論文在做哪方面的研究、使用了什么方法、得到了什么結(jié)論,豐富整個知識圖譜的屬性粒度,提高論文信息獲取和閱讀的效率。為了獲取和建立更細(xì)粒度的屬性知識,需要對非結(jié)構(gòu)化的論文摘要文本內(nèi)容數(shù)據(jù)進(jìn)行語步自動識別。語步是指為實(shí)現(xiàn)語篇整體交際目的,語篇中具有某種特定交際功能的部分[14]。例如,科技論文中的摘要文本可以細(xì)分為背景、方法、結(jié)果、結(jié)論等語步,目的是向讀者簡要全面地介紹整個論文的概貌(為什么做、如何做、做的結(jié)果)。有的英文科技期刊要求論文作者自己把論文摘要劃分出語步,如The NEW ENGLAND JOURNAL of MEDICINE(新英格蘭醫(yī)學(xué)雜志)網(wǎng)站中的論文就給出了論文摘要的背景、方法、結(jié)果和結(jié)論的固定格式及文本內(nèi)容。但大多數(shù)科技論文的摘要文本只是一段文字文本,沒有專門劃分出語步,需要利用深度學(xué)習(xí)等模型算法自動識別出科技論文摘要文本的語步。
科技論文摘要的語步屬性抽取本質(zhì)上就是文本自動分類,其主要方法有基于規(guī)則的方法、基于淺層機(jī)器學(xué)習(xí)模型的方法和基于深度學(xué)習(xí)模型的方法。基于深度學(xué)習(xí)模型的語步識別可充分利用句子潛在語言學(xué)特征,無論是在通用性還是效果方面均有所改善,是目前較為高效且主流的摘要語步識別與分類方式,主要采用的模型有長短期記憶網(wǎng)絡(luò)(LSTM)、雙向LSTM、BERT 等模型。本文的語步自動識別模型是在基于BERT 模型的SciBERT[15]的基礎(chǔ)上構(gòu)建得到,基本參數(shù)采用了SciBERT 的預(yù)訓(xùn)練參數(shù)。SciBERT 模型的訓(xùn)練語料來自文獻(xiàn)檢索網(wǎng)站Semantic Scholar 的隨機(jī)采樣的論文全文,共計(jì)114 萬篇論文(其中18%來自計(jì)算機(jī)領(lǐng)域,82%來自生物醫(yī)學(xué)領(lǐng)域)。模型的深度神經(jīng)網(wǎng)絡(luò)(Transfomer 模塊)層數(shù)為12,隱藏狀態(tài)的尺寸為768,自注意力頭數(shù)為12,共有1.1 億個參數(shù)。本文使用《新英格蘭醫(yī)學(xué)雜志》期刊網(wǎng)站獲得的論文摘要進(jìn)行訓(xùn)練,并對分類器以及BERT 模型的最后兩層網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,實(shí)現(xiàn)損失函數(shù)的最小化。從《新英格蘭醫(yī)學(xué)雜志》期刊網(wǎng)站獲得的論文615 篇,按照8:2 比例(即80%共492篇摘要文本作為訓(xùn)練樣本,20%共123 篇摘要文本作為測試樣本 )進(jìn)行SciBERT 模型和本文優(yōu)化模型的實(shí)驗(yàn),得到如表3 所示的實(shí)驗(yàn)結(jié)果。
表3 摘要文本語步自動識別的結(jié)果
知識融合是指將知識圖譜中不同來源和不同結(jié)構(gòu)的知識數(shù)據(jù)進(jìn)行整合和合并,確保知識圖譜中的數(shù)據(jù)一致性和準(zhǔn)確性。本文的知識融合主要是實(shí)體對齊,主要探討科技論文中抽取到的論文作者的實(shí)體對齊問題,以及分別從英文文本和中文文本抽取得到的實(shí)體的跨語言實(shí)體對齊問題。
本文中的作者實(shí)體對齊是需要判斷來自不同科技論文的同名同姓的作者是否是真實(shí)物理世界中的同一個人??萍颊撐闹挟a(chǎn)生同名同姓作者的原因主要有:(1)同一個人在同一個科技期刊或者在不同的科技期刊發(fā)表了不同的論文;(2)兩個或者多個不同的人具有相同的姓名,并且在同一個科技期刊或者在不同的科技期刊發(fā)表了不同的論文;(3)由于英文的姓和名排列順序與中文的排列順序不一致,或者不同期刊對論文作者姓和名排列順序的不一致,導(dǎo)致姓和名顛倒的兩個不同姓名的論文作者可能指向同一個人。本文共獲得論文作者165586個(未進(jìn)行去重處理),去重處理后獲得124998 個;經(jīng)過去重處理后獲得的科研機(jī)構(gòu)實(shí)體共97238 個。
從CNS 等科技期刊網(wǎng)站的文本內(nèi)容中可以提取出論文作者的隸屬單位、郵箱或者ORCID(Open Researcher and Contributor ID,即開放學(xué)術(shù)出版物及學(xué)術(shù)產(chǎn)出的作者標(biāo)識符,網(wǎng)站:https://orcid.org/)。其中ORCID 是全世界范圍內(nèi)唯一16 位身份識別碼,相當(dāng)于科研工作者在學(xué)術(shù)領(lǐng)域的身份證。因此,如果文本媒體的知識圖譜中已經(jīng)存在和待構(gòu)建的論文作者實(shí)體姓名相同的論文作者實(shí)體,第一步先判斷已經(jīng)存在的論文作者和待構(gòu)建的論文作者這兩個實(shí)體的ORCID 是否相同,若相同則視為同一個實(shí)體,否則進(jìn)行下一步的判斷;第二步,判斷這兩個實(shí)體的電子郵箱地址是否相同,若相同則視為同一個實(shí)體,否則進(jìn)行下一步的判斷;第三步,判斷這兩個實(shí)體的隸屬單位是否相似或相同,若相同或者相似度達(dá)到一定閾值則視為同一個實(shí)體(相似度采用編輯距離進(jìn)行計(jì)算),否則進(jìn)行下一步的判斷;第四步,查找知識圖譜中是否有與待構(gòu)建的論文作者的姓和名順序顛倒的論文作者實(shí)體,如果有則執(zhí)行第一步到第三步的處理步驟。本文從13135 篇科技論文中抽樣得到2974 篇科技論文,作者總數(shù)為50982(不考慮姓名是否相同),姓名唯一的作者有36085 個,因此作者重名率為29.22%。對重名的論文作者進(jìn)行實(shí)體對齊處理后,其實(shí)體對齊結(jié)果如表4 所示。
表4 論文作者實(shí)體對齊處理結(jié)果的準(zhǔn)確率
從英文科技期刊網(wǎng)站中獲取的實(shí)體文本數(shù)據(jù)都是英文實(shí)體或?qū)傩?,需要將這些英文實(shí)體或?qū)傩缘膬?nèi)容翻譯為中文。自動化的文本機(jī)器翻譯技術(shù)可以將英文文本內(nèi)容自動翻譯為中文文本內(nèi)容,且具有較高的可懂率,這不僅有助于科研人員方便快捷地獲取英文科技論文信息,也有助于英漢雙語富媒體知識圖譜的構(gòu)建。本文使用成熟的機(jī)器翻譯軟件將科技論文的標(biāo)題、摘要等文本數(shù)據(jù)從英文翻譯為中文,從而得到中文知識圖譜中的科技論文屬性信息。利用百度翻譯開放平臺,通過Python 程序語言調(diào)用其API 接口實(shí)現(xiàn)了從英語到漢語的文本翻譯。使用本文第3 節(jié)介紹的實(shí)體抽取方法可以分別抽取得到中文文本和英文文本中的各種實(shí)體,包括通用領(lǐng)域的一般實(shí)體和學(xué)科領(lǐng)域的術(shù)語實(shí)體。使用跨語言實(shí)體對齊技術(shù)將這些實(shí)體進(jìn)行跨語言對齊,不僅可以豐富知識圖譜中實(shí)體之間的鏈接關(guān)系,也可以為知識圖譜的應(yīng)用如跨語言文獻(xiàn)檢索提供必要的知識基礎(chǔ)。
跨語言的實(shí)體對齊與單語言的實(shí)體對齊是相似的,都可以采用基于知識表示的TransE[16]、TransH[17]和TransR[18]等模型。 這些模型主要是將知識圖譜嵌入到詞向量空間,就可以對實(shí)體的相似度進(jìn)行計(jì)算和處理。例如TransE 模型的基本思想是:考慮到知識圖譜由三元組(h,l,t)組成,h和t分別表示不同的實(shí)體,l用于表示兩個實(shí)體間的關(guān)系,因此可以將頭實(shí)體h的向量和關(guān)系l的向量進(jìn)行L2 范式計(jì)算,所得結(jié)果應(yīng)近似于尾實(shí)體t的向量。這種訓(xùn)練學(xué)習(xí)的方法將知識圖譜的圖表示中實(shí)體間的關(guān)系考慮在內(nèi),因此所得到的實(shí)體向量表示也包含了實(shí)體間的關(guān)系信息。TransE 模型的訓(xùn)練流程如下:(a)根據(jù)所設(shè)置的維度超參數(shù),對實(shí)體和關(guān)系的向量進(jìn)行隨機(jī)初始化。具體方法是在均勻分布中隨機(jī)釆樣,其中k 是向量的維度,然后對實(shí)體和關(guān)系的隨機(jī)初始化結(jié)果進(jìn)行歸一化,即除以向量的L2 范數(shù)。(b)根據(jù)所設(shè)置的Batch 超參數(shù)b,從訓(xùn)練集S=(h,l,t)中,構(gòu)成正樣本。針對每一個正樣本,均替換其中的頭實(shí)體h 或尾實(shí)體t,構(gòu)成負(fù)樣本集S=(h’,l,t’)。(c)根據(jù)TransE 模型的損失函數(shù),依次選取正負(fù)樣本對模型進(jìn)行訓(xùn)練。損失函數(shù)如公式(2)所示,其中γ>0,是一個邊界超參數(shù)。若希望降低floss的值,則需要降低正樣本的距離d(h,l,t)并增加負(fù)樣本的距離d(h’,l,t’)。距離函數(shù)d(h,l,t)為L2 范數(shù),即公式(3)。
為了檢驗(yàn)TransE、TransH 和TransR 在跨語言知識圖譜中的實(shí)體對齊能力,本文選擇公開數(shù)據(jù)集DBpedia 的英文、中文兩種語言的知識圖譜作為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集(具體數(shù)量見表5)。DBpedia 中的一部分跨語言三元組之間已經(jīng)建立了跨語言鏈接,具有英文數(shù)據(jù)和中文數(shù)據(jù)之間的對齊集。訓(xùn)練時的一些超參數(shù)配置如下:向量空間維數(shù)m, n = 75、學(xué)習(xí)率λ= 0.01、訓(xùn)練次數(shù)epoch=400。每次更新參數(shù)后,正則化實(shí)體和關(guān)系的嵌入向量的L2 范數(shù)為1。TransE、TransH 和TransR 模型的訓(xùn)練結(jié)束后,使用測試集對各個模型進(jìn)行測試,測試時使用Hits@10 作為評價指標(biāo)。對測試集中的每一個實(shí)體對(e1,e2),其中e1為英文知識圖譜中的實(shí)體,e2為中文知識圖譜中的實(shí)體。對于每一個e1,在中文知識圖譜中尋找與之相似度最高的10 個實(shí)體{ee1, ee2, … , ee10},那么e2∈{ee1, ee2, … , ee10}的平均比例即為從英文知識圖譜對齊到中文知識圖譜的Hits@10。
表5 跨語言實(shí)體對齊處理結(jié)果的準(zhǔn)確率
實(shí)驗(yàn)數(shù)據(jù)集中,英文知識圖譜到中文知識圖譜的對齊三元組對個數(shù)為67310 個,實(shí)體對齊對的個數(shù)為7865 個。數(shù)據(jù)集按照8:2 的比例分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,TransE、TransH 和TransR 模型經(jīng)過訓(xùn)練后,在測試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5 所示。從表5 可以看出,TransH 模型的實(shí)體對齊效果較好。因此,本文使用TransH 模型對從英文科技期刊獲得的跨語言知識富媒體圖譜中的英文文本實(shí)體到中文文本實(shí)體的對齊進(jìn)行了抽樣測試,采樣了1000 個英-中實(shí)體對進(jìn)行了跨語言的實(shí)體對齊測試,Hits@10 準(zhǔn)確率為77.26%。
除了文本媒體形式的實(shí)體之外,本文還自動獲取了與科技論文實(shí)體相關(guān)的圖片、音頻、視頻等媒體形式的實(shí)體??萍颊撐膶?shí)體與這些富媒體實(shí)體之間需要進(jìn)行鏈接,建立實(shí)體之間的關(guān)系,以便進(jìn)行知識圖譜的檢索、可視化和下游應(yīng)用。同時,圖片、音頻和視頻等富媒體實(shí)體自身還具有一些用于描述這些實(shí)體的屬性,也需要進(jìn)行屬性的抽取。
圖片媒體數(shù)據(jù)是根據(jù)科技論文的URL 地址去獲取的,可以很方便地將圖片實(shí)體關(guān)聯(lián)到科技論文實(shí)體(把科技論文的URL 地址作為唯一ID)。圖片實(shí)體的屬性除了所關(guān)聯(lián)的科技論文之外,還有自身對應(yīng)的文件路徑、文件大小、尺寸大?。ò聪袼赜?jì)算的長x 高)、對應(yīng)的文本描述等屬性。視頻媒體數(shù)據(jù)與圖片媒體類似,是根據(jù)科技論文的URL 地址去獲取的,因此可以很方便地將視頻實(shí)體關(guān)聯(lián)到科技論文實(shí)體。為了方便后續(xù)的數(shù)據(jù)處理和應(yīng)用,還需要提取視頻實(shí)體的屬性數(shù)據(jù),包括視頻文件路徑、視頻文件大小、視頻格式、時長、幀寬度、幀高度、幀速率、數(shù)據(jù)速率、總比特率、寬高比等。
音頻媒體數(shù)據(jù)主要來自Scientific American雜志的播客頻道,其內(nèi)容是介紹科學(xué)知識或?qū)W術(shù)期刊上的一篇論文,音頻長度一般不超過60秒,涵蓋了生命科學(xué)、天文學(xué)、物理學(xué)、地球科學(xué)等多個領(lǐng)域的前沿研究成果和科技進(jìn)展。該播客頻道網(wǎng)站還提供了音頻對應(yīng)的轉(zhuǎn)寫文本,可用于對照閱讀或文本分析。為了將音頻實(shí)體關(guān)聯(lián)到科技論文實(shí)體,本文利用主題作為中間實(shí)體媒介或者音頻實(shí)體與科技論文實(shí)體之間的主題關(guān)系,把相同主題的音頻實(shí)體和科技論文實(shí)體進(jìn)行實(shí)體關(guān)系的鏈接??萍颊撐牡闹黝}分為生命科學(xué)、化學(xué)、醫(yī)學(xué)、綜合類等,音頻的主題提供用戶指定主題和自動標(biāo)注主題兩種方式。自動標(biāo)注主題采用基于LDA(Latent Dirichlet Allocation)模型的主題分析方法,該方法主要利用主題詞語在文本中的分布,獲得“主題-詞語”分布和“文本-主題”分布,然后通過極大似然估計(jì)方法確定文本對應(yīng)的主題。此外,對于音頻實(shí)體本身,還需要提取音頻實(shí)體對應(yīng)的文件路徑、文件大小、采樣頻率、比特率、音頻時長等屬性。
知識圖譜的形式化表達(dá)一般歸結(jié)為“<實(shí)體1,關(guān)系,實(shí)體2>”和“<實(shí)體,屬性,屬性值>”等三元組。這些三元組數(shù)據(jù)可以用關(guān)系數(shù)據(jù)庫、語義網(wǎng)RDF 描述語言、圖數(shù)據(jù)庫等進(jìn)行存儲。本文采用圖數(shù)據(jù)庫Neo4j 進(jìn)行知識圖譜的存儲和可視化。首先,需要創(chuàng)建科技論文實(shí)體,其屬性包括主題、URL、DOI、標(biāo)題、作者、摘要、關(guān)鍵詞、來源期刊、來源期刊的卷期、發(fā)表日期、起始頁碼、結(jié)束頁碼等。其次,創(chuàng)建論文作者實(shí)體,其屬性包括關(guān)聯(lián)的論文URL、姓名、科研機(jī)構(gòu)、電子郵件、ORCID 等。第三,創(chuàng)建其他實(shí)體,如圖片實(shí)體、音頻實(shí)體、視頻實(shí)體、期刊實(shí)體,以及這些實(shí)體的屬性,例如圖片或音視頻對應(yīng)的富媒體文件的存儲路徑。第四,建立實(shí)體之間的關(guān)系,主要有科技論文與論文作者的關(guān)系(HAS_AUTHOR)、科技論文與圖片的關(guān)系(HAS_PICTURE)、科技論文與音頻的關(guān)系(通過主題關(guān)聯(lián))、科技論文與視頻的關(guān)系(HAS_VIDEO)、科技論文與期刊的關(guān)系(HAS_JOURNAL)。最后,利用Neo4j 的數(shù)據(jù)庫服務(wù)和查詢界面實(shí)現(xiàn)整個知識圖譜的可視化查詢。
圖2 為在Neo4j 的查詢界面中查詢姓名為“Jian Zhou”的作者后返回的知識圖譜中的實(shí)體及其關(guān)系,中間的核心實(shí)體為科技論文實(shí)體,周圍的關(guān)聯(lián)節(jié)點(diǎn)為其屬性或者具有關(guān)聯(lián)關(guān)系的論文作者、圖片、音頻、視頻或期刊等實(shí)體。
圖2 知識圖譜的可視化查詢界面
使用本文的面向CNS 英文期刊的數(shù)據(jù)獲取與解析、英語文本自動翻譯、圖片和音視頻數(shù)據(jù)處理等技術(shù),還可以實(shí)現(xiàn)英語科技期刊科技論文網(wǎng)頁實(shí)時自動轉(zhuǎn)換為相對應(yīng)的漢語知識圖譜內(nèi)容結(jié)果。如圖3 所示,輸入一個英語科技期刊的科技論文網(wǎng)頁地址,點(diǎn)擊“獲得結(jié)果”按鈕后可以實(shí)時獲取該科技論文對應(yīng)的漢語富媒體知識圖譜網(wǎng)頁內(nèi)容。其中,漢語的標(biāo)題內(nèi)容和摘要內(nèi)容均為使用機(jī)器自動翻譯得到的結(jié)果。
圖3 英文科技網(wǎng)站論文富媒體知識圖譜的自動生成(示例)
本文使用自頂向下和自底向上相結(jié)合的方法來構(gòu)建英漢雙語富媒體知識圖譜,以CNS 英文科技期刊網(wǎng)站的學(xué)術(shù)文獻(xiàn)信息為例,首先在頂層設(shè)計(jì)了主題、期刊、科技論文、論文作者、科研機(jī)構(gòu)、圖片、音頻和視頻等實(shí)體及其屬性,然后從半結(jié)構(gòu)化的英文科技期刊網(wǎng)站內(nèi)容中獲取了這些實(shí)體和屬性。針對非結(jié)構(gòu)化的論文摘要或全文文本數(shù)據(jù),通過深度學(xué)習(xí)模型從文本數(shù)據(jù)中自動抽取出學(xué)科領(lǐng)域的術(shù)語實(shí)體以及通用領(lǐng)域的實(shí)體,并將論文摘要細(xì)分為背景、方法、結(jié)果和結(jié)論等語步,實(shí)現(xiàn)對知識圖譜的實(shí)體抽取和屬性抽取。在知識圖譜構(gòu)建過程中,對同名作者實(shí)體、跨語言的實(shí)體,采用規(guī)則方法和TransH 模型方法進(jìn)行了實(shí)體對齊,以確保知識圖譜中實(shí)體的一致性和知識的準(zhǔn)確性。對圖片媒體、音頻媒體和視頻媒體,提取了它們的屬性并和科技論文實(shí)體進(jìn)行了跨媒體的鏈接。最后,用圖數(shù)據(jù)庫Neo4j 對知識圖譜中的實(shí)體和關(guān)系進(jìn)行存儲,實(shí)現(xiàn)可視化查詢和跨語言知識圖譜獲取等應(yīng)用。本文所構(gòu)建的英漢雙語富媒體知識圖譜可以為下游任務(wù)如跨語言文獻(xiàn)信息檢索和推薦、科學(xué)研究熱點(diǎn)分析、科技情報(bào)監(jiān)測等提供重要的數(shù)據(jù)支撐。
在構(gòu)建英漢雙語富媒體知識圖譜的過程中,自動從文本媒體數(shù)據(jù)中抽取學(xué)科領(lǐng)域的術(shù)語實(shí)體的準(zhǔn)確率并不是很高,且在領(lǐng)域通用性和適用性上還有待提升。在圖片、音頻和視頻媒體數(shù)據(jù)的處理上,沒有進(jìn)一步地提取它們的自身特征作為屬性,未來可以使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、梅爾倒譜系數(shù)(MFCC)、視頻特征編碼等技術(shù)進(jìn)行屬性自動抽取。希望本文的探索研究能為多模態(tài)跨語言知識圖譜的構(gòu)建提供參考,為科技文獻(xiàn)知識圖譜的進(jìn)一步應(yīng)用建立更加堅(jiān)實(shí)的基礎(chǔ)。