趙 敏,毛典輝+,張青川,呂東東,劉一銘,陳俊華
(1.北京工商大學(xué) 國(guó)家藥品監(jiān)督管理局化妝品監(jiān)管科學(xué)研究基地,北京 100048; 2.北京工商大學(xué) 計(jì)算機(jī)學(xué)院 食品安全大數(shù)據(jù)技術(shù)北京重點(diǎn)實(shí)驗(yàn)室,北京 100048; 3.中國(guó)標(biāo)準(zhǔn)化研究院 標(biāo)準(zhǔn)化理論與戰(zhàn)略研究所,北京 100088)
近年來(lái),化妝品安全問(wèn)題日益成為公眾和監(jiān)管部門(mén)的關(guān)注熱點(diǎn),一些不法企業(yè)在化妝品生產(chǎn)過(guò)程中通過(guò)專(zhuān)業(yè)人士修飾化妝品成分的化學(xué)結(jié)構(gòu),合成新的非法添加物;甚至在化妝品中添加安全技術(shù)規(guī)范及國(guó)標(biāo)均沒(méi)有檢測(cè)方法的成分或者化妝品禁用組分表之外的藥物[1],造成一系列化妝品安全事件。因此要加強(qiáng)對(duì)非法添加及未知風(fēng)險(xiǎn)物質(zhì)的篩查力度,通過(guò)知識(shí)圖譜將化妝品風(fēng)險(xiǎn)物質(zhì)及其包含信息連接形成一個(gè)關(guān)系網(wǎng)絡(luò),便于從多方面了解化妝品中非法添加禁用物質(zhì)、超限量使用限用組分、帶入污染物質(zhì)和衍生性效應(yīng)物質(zhì)等風(fēng)險(xiǎn)情況,逐步形成基于化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜的監(jiān)管輔助分析手段[2]。
針對(duì)國(guó)內(nèi)化妝品風(fēng)險(xiǎn)物質(zhì)大數(shù)據(jù)監(jiān)管不力的現(xiàn)狀,本文將知識(shí)圖譜的相關(guān)技術(shù)與該領(lǐng)域相結(jié)合,促進(jìn)我國(guó)化妝品監(jiān)管工作與國(guó)際進(jìn)一步接軌。在數(shù)據(jù)預(yù)處理階段,針對(duì)標(biāo)準(zhǔn)文件中化妝品風(fēng)險(xiǎn)物質(zhì)經(jīng)OCR轉(zhuǎn)換出現(xiàn)識(shí)別錯(cuò)誤的問(wèn)題,提出一種基于貝葉斯定理的數(shù)據(jù)糾錯(cuò)方法;為了對(duì)化妝品風(fēng)險(xiǎn)物質(zhì)進(jìn)行系統(tǒng)劃分,設(shè)計(jì)化妝品風(fēng)險(xiǎn)物質(zhì)本體規(guī)則,并將實(shí)體和關(guān)系根據(jù)規(guī)則以三元組形式表示;在跨語(yǔ)言實(shí)體對(duì)齊階段,針對(duì)不同標(biāo)準(zhǔn)文件中語(yǔ)義相似的化妝品風(fēng)險(xiǎn)物質(zhì),提出雙通道圖神經(jīng)網(wǎng)絡(luò)注意力機(jī)制編碼方法,學(xué)習(xí)實(shí)體屬性特征和跨域交互特性,結(jié)合鄰域匹配網(wǎng)絡(luò)聚合實(shí)體鄰域特征,進(jìn)行多元異構(gòu)數(shù)據(jù)融合,最終實(shí)現(xiàn)跨語(yǔ)言化妝品風(fēng)險(xiǎn)物質(zhì)實(shí)體對(duì)齊;在可視化應(yīng)用階段,完成基于化妝品風(fēng)險(xiǎn)物質(zhì)的問(wèn)答系統(tǒng),為今后化妝品風(fēng)險(xiǎn)物質(zhì)監(jiān)管工作提供數(shù)據(jù)基礎(chǔ)與決策參考。
知識(shí)圖譜自Google公司提出以來(lái),在數(shù)據(jù)連通以及場(chǎng)景建模等方面做出了突出貢獻(xiàn)[3,4]。因此,借助自然語(yǔ)言處理相關(guān)技術(shù)將現(xiàn)有的國(guó)內(nèi)外相關(guān)標(biāo)準(zhǔn)組織起來(lái)形成一個(gè)知識(shí)圖譜也必將實(shí)現(xiàn)化妝品風(fēng)險(xiǎn)物質(zhì)間數(shù)據(jù)共享[5,6]。目前暫沒(méi)有化妝品領(lǐng)域的知識(shí)圖譜,相關(guān)領(lǐng)域知識(shí)圖譜的出現(xiàn)為化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜的構(gòu)建提供了參考。如DrugBank[7]和Acemap[8]領(lǐng)域知識(shí)圖譜分別掌握了面向生物醫(yī)學(xué)領(lǐng)域以及學(xué)術(shù)領(lǐng)域的行業(yè)數(shù)據(jù),并采用自頂向下和自底向上兩種方式相結(jié)合的方式,實(shí)現(xiàn)了構(gòu)建過(guò)程的半自動(dòng)化[9]。XLORE2[10]的出現(xiàn)為跨語(yǔ)言風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜的構(gòu)建提供了范例,其采用跨語(yǔ)言知識(shí)鏈接[11]方法在不同語(yǔ)言的等價(jià)實(shí)例之間尋找更多的跨語(yǔ)言鏈接,并采用細(xì)粒度類(lèi)型推斷[12]方法在沒(méi)有類(lèi)型信息的情況下為這些實(shí)例分配特定類(lèi)型。該策略通過(guò)完善屬性知識(shí)[13],揭示了更多的事實(shí),在很大程度上解決了語(yǔ)言失衡的障礙。當(dāng)前化妝品風(fēng)險(xiǎn)物質(zhì)存在于不同語(yǔ)言標(biāo)準(zhǔn)文件中,知識(shí)圖譜構(gòu)建需從已有的中外化妝品衛(wèi)生標(biāo)準(zhǔn)文件中提取出相關(guān)的實(shí)體、屬性、關(guān)系等要素[14],并將這些要素組成三元組關(guān)系用于不同語(yǔ)言知識(shí)圖譜的構(gòu)建[15],通過(guò)跨語(yǔ)言實(shí)體對(duì)齊將多語(yǔ)言知識(shí)圖譜進(jìn)行連接和融合[16],最終形成新的知識(shí)圖譜。
跨語(yǔ)言實(shí)體對(duì)齊是多語(yǔ)言知識(shí)圖譜構(gòu)建的核心,可以將來(lái)自具有不同表面形式或不同鄰域結(jié)構(gòu)知識(shí)圖譜(KGs)的實(shí)體對(duì)齊到相同身份[17,18]。現(xiàn)有的跨語(yǔ)言實(shí)體對(duì)齊的方法主要依賴(lài)于跨語(yǔ)言鏈接和三元組結(jié)構(gòu)編碼實(shí)體[19,20]?;跈C(jī)器翻譯的方法以Fu等[21]提出的跨語(yǔ)言實(shí)體對(duì)齊的通用框架為代表,在實(shí)體對(duì)齊的過(guò)程中將不同語(yǔ)言的實(shí)體翻譯成其中的一種語(yǔ)言[22],然后使用單語(yǔ)言對(duì)齊方法來(lái)找到對(duì)齊實(shí)體對(duì)。Xu等[23]提出了一種跨語(yǔ)言KG對(duì)齊任務(wù),即自動(dòng)匹配多語(yǔ)言KG中的實(shí)體[24],解決了諸如Dbpedia和Yago等多語(yǔ)言知識(shí)圖譜雖然擁有編碼豐富的單語(yǔ)言知識(shí),但無(wú)法將不同知識(shí)圖譜中語(yǔ)義相似的實(shí)體進(jìn)行關(guān)聯(lián)的問(wèn)題[25,26]。由于圖神經(jīng)網(wǎng)絡(luò)(GNN)具有編碼圖結(jié)構(gòu)信息的能力,使用圖神經(jīng)網(wǎng)絡(luò)能夠?qū)χR(shí)圖結(jié)構(gòu)信息進(jìn)行嵌入[27,28],因此在自然語(yǔ)言處理領(lǐng)域的研究中也得到越來(lái)越廣泛的應(yīng)用。Dai等[29]提出隨機(jī)穩(wěn)態(tài)圖神經(jīng)網(wǎng)絡(luò)迭代算法,對(duì)于每個(gè)擁有不同數(shù)量鄰居節(jié)點(diǎn)的節(jié)點(diǎn),在每次卷積迭代過(guò)程中利用雙向權(quán)重矩陣更新節(jié)點(diǎn)的特征表示。GNN有圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)、關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(R-GCN)、圖注意力網(wǎng)絡(luò)(GAT)的一系列變體。其中,GCN能高效結(jié)合實(shí)體鄰接節(jié)點(diǎn)信息來(lái)學(xué)習(xí)知識(shí)圖譜的結(jié)構(gòu)信息,對(duì)知識(shí)圖譜進(jìn)行編碼,因此也被高效應(yīng)用于跨語(yǔ)言實(shí)體對(duì)齊中。Cao等[30]提出了一種新的多通道圖神經(jīng)網(wǎng)絡(luò)模型(MuGNN)來(lái)學(xué)習(xí)面向?qū)R的知識(shí)圖譜嵌入,通過(guò)多個(gè)通道對(duì)兩個(gè)KGs進(jìn)行魯棒編碼。Sun等[31,32]提出了AliNet模型,引入了遙遠(yuǎn)的鄰居,擴(kuò)大了鄰居結(jié)構(gòu)之間的重疊,解決由非同構(gòu)鄰域結(jié)構(gòu)造成的GNN產(chǎn)生不同的表示形式的問(wèn)題。Wu等[33]在此基礎(chǔ)上將模型進(jìn)行改進(jìn),提出了鄰域匹配網(wǎng)絡(luò)(NMN),只使用少量的預(yù)對(duì)齊實(shí)體作為訓(xùn)練數(shù)據(jù),選擇信息量最大的鄰居進(jìn)行實(shí)體對(duì)齊,通過(guò)對(duì)鄰居節(jié)點(diǎn)進(jìn)行采樣,從而解決結(jié)構(gòu)異構(gòu)問(wèn)題。
化妝品風(fēng)險(xiǎn)物質(zhì)是指由化妝品原料和生產(chǎn)過(guò)程中產(chǎn)生或帶入的,可能對(duì)人體健康造成潛在危害的物質(zhì)。由于尚未開(kāi)源的風(fēng)險(xiǎn)物質(zhì)語(yǔ)料庫(kù),考慮數(shù)據(jù)的代表性以及普遍性,本文以我國(guó)國(guó)家標(biāo)準(zhǔn)《GB7916-87化妝品衛(wèi)生標(biāo)準(zhǔn)》和歐盟化妝品法規(guī)《regulation(EC)No 12232009》為例開(kāi)展相關(guān)工作。使用CHN表示國(guó)家化妝品衛(wèi)生標(biāo)準(zhǔn)數(shù)據(jù)集,EC表示歐盟化妝品法規(guī)數(shù)據(jù)集?;瘖y品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜的構(gòu)建主要包括化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜數(shù)據(jù)預(yù)處理、跨語(yǔ)言實(shí)體對(duì)齊、知識(shí)存儲(chǔ)及可視化應(yīng)用等環(huán)節(jié),其體系架構(gòu)如圖1所示。
圖1 化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜的體系架構(gòu)
(1)化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜數(shù)據(jù)預(yù)處理:首先通過(guò)OCR轉(zhuǎn)換技術(shù)將不同中英標(biāo)準(zhǔn)文件進(jìn)行轉(zhuǎn)換,由于OCR轉(zhuǎn)換文件并不規(guī)范,在實(shí)體對(duì)齊階段也給工作帶來(lái)一定的難度,因此將轉(zhuǎn)換后的化妝品風(fēng)險(xiǎn)物質(zhì)英文名稱(chēng)通過(guò)貝葉斯網(wǎng)絡(luò)模型糾正為語(yǔ)料庫(kù)中正確英文名稱(chēng)來(lái)提高實(shí)體對(duì)齊階段的效果,解決不同文件中同一風(fēng)險(xiǎn)物質(zhì)的不匹配問(wèn)題。并通過(guò)對(duì)結(jié)構(gòu)化文本的整理,首先將表映射為類(lèi);然后將表中的列映射為屬性;接著將表中每一行映射為一個(gè)資源或?qū)嶓w;最后將表中每個(gè)單元格的值映射為一個(gè)文字值。
(2)跨語(yǔ)言實(shí)體對(duì)齊:首先將衛(wèi)生標(biāo)準(zhǔn)文件中的名稱(chēng)、屬性等信息進(jìn)行關(guān)系的定義將其表示為三元組的形式生成數(shù)據(jù)集并存儲(chǔ)在neo4j數(shù)據(jù)庫(kù)中,接著通過(guò)雙通道圖神經(jīng)網(wǎng)絡(luò)注意力機(jī)制學(xué)習(xí)實(shí)體屬性特征和跨域交互特性對(duì)圖譜實(shí)體進(jìn)行嵌入,然后對(duì)每個(gè)實(shí)體的鄰域進(jìn)行選擇性采樣,以保持對(duì)實(shí)體對(duì)齊信息量的最大鄰域,利用交叉圖注意機(jī)制共同計(jì)算采樣子圖對(duì)之間的鄰居差異,整合鄰居連接信息和鄰居關(guān)聯(lián)信息,最終通過(guò)鄰域匹配網(wǎng)絡(luò)模型將兩個(gè)來(lái)自不同語(yǔ)言標(biāo)準(zhǔn)文件的知識(shí)圖譜通過(guò)跨語(yǔ)言實(shí)體對(duì)齊進(jìn)行知識(shí)融合。
(3)知識(shí)存儲(chǔ)及可視化應(yīng)用:在上述工作基礎(chǔ)上,基于所構(gòu)建的化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜,以智能問(wèn)答的形式實(shí)現(xiàn)基于知識(shí)圖譜的智能應(yīng)用,因此可根據(jù)不同產(chǎn)品的檢測(cè)要求,判斷產(chǎn)品是否合格,達(dá)到對(duì)進(jìn)出口化妝品原料進(jìn)行監(jiān)管的目的。
由于本文處理的多語(yǔ)言標(biāo)準(zhǔn)文件均為掃描件,需要通過(guò)OCR文字識(shí)別、機(jī)器糾錯(cuò)與人工校對(duì)等技術(shù)對(duì)文件進(jìn)行處理[34,35],得到實(shí)驗(yàn)所用的格式化數(shù)據(jù)。OCR識(shí)別技術(shù)對(duì)中英文標(biāo)點(diǎn)符號(hào)的識(shí)別率較低,以1,3-雙(羥甲基)-5,5-二甲基咪唆噂-2,4-二酮為例,其在GB 7916—1987和regulation(EC)No 12232009的原文件中的表達(dá)分別為1,3-bis(hydroxym-ethyl)-5,5-dimethylim-idazolidine-2,4-dione和1.3-bis(hydroxymethyl)-5,5-dimethylimidazolidine-2,4-dione,第一種的錯(cuò)誤之處為多余兩個(gè)“-”,第二種的錯(cuò)誤為“,”被識(shí)別為“.”,因此需要對(duì)其進(jìn)行糾錯(cuò)。目前文本糾錯(cuò)大多基于N-gram語(yǔ)言模型,由于本文數(shù)據(jù)存在大量的專(zhuān)業(yè)名稱(chēng)和化學(xué)公式,使用N-gram語(yǔ)言模型存在效果較差并且耗時(shí)較長(zhǎng)的現(xiàn)象,因此設(shè)計(jì)了基于貝葉斯定理的糾錯(cuò)方法。根據(jù)風(fēng)險(xiǎn)物質(zhì)的錯(cuò)誤名稱(chēng),在INCI(國(guó)際化妝品原料標(biāo)準(zhǔn)中文名稱(chēng)目錄)中查找該風(fēng)險(xiǎn)物質(zhì)的正確表示,找出編輯距離最小概率最大的作為糾正后的結(jié)果[36,37]
其成功查找的概率預(yù)測(cè)函數(shù)定義為式(1)
argmaxcP(c|w)
(1)
按照貝葉斯理論式(1)等價(jià)于式(2)
argmaxcP(w|c)·P(c)/P(w)
(2)
由于在各標(biāo)準(zhǔn)文件中物質(zhì)名稱(chēng)出現(xiàn)的概率P(w)與此無(wú)關(guān),因此可將其忽略,式(2)可以寫(xiě)為式(3)
argmaxcP(w|c)·P(c)
(3)
其中,先驗(yàn)概率P(c)表示在標(biāo)準(zhǔn)文件中出現(xiàn)格式正確的風(fēng)險(xiǎn)物質(zhì)英文名稱(chēng)的概率,w表示各標(biāo)準(zhǔn)文件中的風(fēng)險(xiǎn)物質(zhì)英文名稱(chēng),c表示INCI中的風(fēng)險(xiǎn)物質(zhì)英文名稱(chēng),argmaxc用來(lái)枚舉所有可能出現(xiàn)且出現(xiàn)概率最大的。
本體規(guī)則的構(gòu)建是化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜形成的核心工作之一。在實(shí)驗(yàn)中,通過(guò)對(duì)化妝品衛(wèi)生標(biāo)準(zhǔn)文件的研究從中選取風(fēng)險(xiǎn)物質(zhì)信息,設(shè)計(jì)化妝品風(fēng)險(xiǎn)物質(zhì)的實(shí)體類(lèi)型和關(guān)系模型,從而構(gòu)建“實(shí)體-關(guān)系-實(shí)體”三元組,實(shí)體設(shè)計(jì)見(jiàn)表2,關(guān)系設(shè)計(jì)見(jiàn)表3。
表1 實(shí)體糾錯(cuò)結(jié)果
由于EC和CHN中都是結(jié)構(gòu)化數(shù)據(jù),通過(guò)設(shè)計(jì)實(shí)體類(lèi)型和關(guān)系類(lèi)型進(jìn)行知識(shí)抽取。首先將實(shí)體類(lèi)型按行展開(kāi),將糾錯(cuò)之后的數(shù)據(jù)依據(jù)不同實(shí)體類(lèi)型進(jìn)行劃分,表的每一行代表一個(gè)實(shí)體的信息,表的每一列為實(shí)體的屬性;最后將每一行根據(jù)關(guān)系類(lèi)型產(chǎn)生一組具有共同主語(yǔ)的三元組。最終從國(guó)家化妝品衛(wèi)生標(biāo)準(zhǔn)(CHN)中抽取到2007個(gè)實(shí)體并組成2961個(gè)三元組,從歐盟化妝品法規(guī)(EC)中抽取到5275個(gè)實(shí)體并組成了7091個(gè)三元組,經(jīng)結(jié)構(gòu)化知識(shí)抽取后的實(shí)體和三元組的數(shù)量如表4內(nèi)容所示。
表2 化妝品衛(wèi)生標(biāo)準(zhǔn)知識(shí)圖譜實(shí)體設(shè)計(jì)
表3 化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜關(guān)系設(shè)計(jì)
表4 實(shí)驗(yàn)數(shù)據(jù)說(shuō)明
知識(shí)圖譜本質(zhì)上是一種基于圖數(shù)據(jù)結(jié)構(gòu)的語(yǔ)義網(wǎng)絡(luò),其以圖的方式存儲(chǔ)知識(shí)。GCN是處理圖結(jié)構(gòu)數(shù)據(jù)的一種神經(jīng)網(wǎng)絡(luò)模型,可根據(jù)鄰居節(jié)點(diǎn)來(lái)增強(qiáng)節(jié)點(diǎn)自身的特征,并通過(guò)建模結(jié)構(gòu)特征來(lái)增強(qiáng)實(shí)體嵌入,其主要思想類(lèi)似于傳播模型。GCN模型會(huì)根據(jù)兩個(gè)KGs的屬性數(shù)量分別輸入不同維度的屬性特征向量,將當(dāng)前層節(jié)點(diǎn)表示的隱藏狀態(tài)作為輸入,并計(jì)算新的節(jié)點(diǎn)表示。GCN最終輸出的實(shí)體嵌入將進(jìn)一步用于實(shí)體對(duì)齊工作。針對(duì)不同標(biāo)準(zhǔn)文件中同語(yǔ)義化妝品風(fēng)險(xiǎn)物質(zhì)結(jié)構(gòu)具有異構(gòu)性的特點(diǎn),通過(guò)圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)節(jié)點(diǎn)及跨域特征,采用鄰域匹配方法比較不同KGs中實(shí)體間鄰域的相似性,實(shí)現(xiàn)化妝品風(fēng)險(xiǎn)物質(zhì)實(shí)體對(duì)齊。
將知識(shí)圖譜定義為G=(E,R,T), 其中,E,R,T分別用來(lái)表示實(shí)體集合、關(guān)系以及三元組,根據(jù)國(guó)家化妝品衛(wèi)生標(biāo)準(zhǔn)和歐盟化妝品法規(guī)構(gòu)建的知識(shí)圖譜如圖2所示,分別表示為G1和G2。通過(guò)不同的圖神經(jīng)網(wǎng)絡(luò)通道為KG編碼,根據(jù)注意力機(jī)制關(guān)系加權(quán)方案對(duì)KG特征建模,利用池化技術(shù)結(jié)合對(duì)應(yīng)的通道輸出特征。最后采用鄰域匹配方法聚合實(shí)體的高階鄰近結(jié)構(gòu)信息,通過(guò)測(cè)量G1和G2中候選實(shí)體對(duì)e1、e2之間的距離進(jìn)行實(shí)體對(duì)齊,最終找到知識(shí)圖譜G1和G2之間的等價(jià)實(shí)體并進(jìn)行融合。
圖2 化妝品風(fēng)險(xiǎn)物質(zhì)知識(shí)圖譜
4.1.1 知識(shí)圖譜結(jié)構(gòu)編碼
將圖譜G1=(E1,R1,T1)和G2=(E2,R2,T2) 通過(guò)不同通道的GCN進(jìn)行編碼,每個(gè)通道通過(guò)計(jì)算節(jié)點(diǎn)的特征對(duì)當(dāng)前節(jié)點(diǎn)的影響來(lái)為每個(gè)實(shí)體關(guān)系分配權(quán)重,從而調(diào)解知識(shí)圖譜之間的結(jié)構(gòu)差異性,并為每個(gè)KG生成兩個(gè)鄰接矩陣:基于自注意力的T1和基于結(jié)構(gòu)注意力的T2。
基于自注意力的T1:根據(jù)KG的自身結(jié)構(gòu)充分利用對(duì)齊的種子,為當(dāng)前節(jié)點(diǎn)選擇關(guān)聯(lián)性高的節(jié)點(diǎn)設(shè)置高權(quán)值。T1中的元素定義為式(4)
(4)
式中:ek∈Nei∪ei指加上自循環(huán)ei的鄰居,ci,j是度量鄰居的重要性的注意力系數(shù),計(jì)算方式如式(5)
cij=atten(wei,wej)=LeakyRelu(p[wei‖wej])
(5)
式中:‖表示向量連接,w和p是可訓(xùn)練的參數(shù)。
基于結(jié)構(gòu)注意力的T2:建模兩個(gè)KG的公共子圖作為結(jié)構(gòu)特征以達(dá)到建模一致性,為沒(méi)有對(duì)應(yīng)關(guān)系的節(jié)點(diǎn)設(shè)置低的權(quán)重,T2中的元素定義為式(6)
aij=maxr∈R,r′∈R′1((ei,r,ej)∈T)sim(r,r′)
(6)
式中:1(·)表示如果存在就為1,不存在就為0。sim(·)是關(guān)系類(lèi)型間的相似性度量,定義為關(guān)系的內(nèi)積。
利用上面兩種通道編碼對(duì)KG進(jìn)行編碼,最后用池化方程對(duì)它們進(jìn)行聚合,如式(7)
Pooling(GNN(Ai,Hl,Wi))
(7)
式中:Ai是通道i中的鄰接矩陣,Hl隨機(jī)實(shí)體嵌入,Wi是第i個(gè)通道的加權(quán)參數(shù)。多通道GCN編碼器編碼每個(gè)KG時(shí),每個(gè)通道中的參數(shù)在兩個(gè)KG中共享。
4.1.2 鄰域匹配
GCN學(xué)習(xí)了實(shí)體的鄰域結(jié)構(gòu)以及實(shí)體語(yǔ)義信息,模型將會(huì)取樣出現(xiàn)頻率最高且更具代表性的實(shí)體,為每個(gè)實(shí)體構(gòu)造一個(gè)鄰域判別子圖。之后,將圖譜E1中的實(shí)體ei的抽樣實(shí)體子圖與在E2中的每個(gè)候選實(shí)體ej的子圖進(jìn)行比較,通過(guò)計(jì)算子圖相似度,選定將要對(duì)齊的實(shí)體。設(shè)(ei,cik)是一個(gè)待測(cè)量的實(shí)體對(duì),其中ei∈E1且cik∈E2是ei中的一個(gè)候選對(duì),p和q分別是ej和cik的兩個(gè)鄰居。鄰居p的交叉圖匹配向量能被計(jì)算為式(8)、式(9)
(8)
(9)
由于雙通道GCN編碼的輸出為鄰域匹配階段的輸入,因此,需要對(duì)GCN的知識(shí)圖譜嵌入模型進(jìn)行預(yù)訓(xùn)練,以此來(lái)生成實(shí)體表示,通過(guò)式(10)測(cè)量?jī)蓚€(gè)實(shí)體間的距離來(lái)判斷它們是否對(duì)齊
(10)
以化妝品風(fēng)險(xiǎn)物質(zhì)中的“過(guò)氧化氫”為例,其進(jìn)行實(shí)體對(duì)齊的過(guò)程如圖3所示。如KG1中的“限用物質(zhì)”與KG2中的“restricted substances”這兩個(gè)實(shí)體之間的距離最短,證明它們屬于現(xiàn)實(shí)世界中的同一實(shí)體。經(jīng)過(guò)實(shí)體匹配之后進(jìn)行實(shí)體鄰域聚合,將中文知識(shí)圖中某一實(shí)體沒(méi)有的屬性進(jìn)行補(bǔ)充。以化妝品風(fēng)險(xiǎn)物質(zhì)中的“過(guò)氧化氫”為例,對(duì)齊后的結(jié)果如圖4所示,完善了過(guò)氧化氫這一風(fēng)險(xiǎn)物質(zhì)的信息。
圖4 過(guò)氧化氫鄰域聚合
為了使兩個(gè)知識(shí)圖譜中相同的可對(duì)齊實(shí)體在向量空間中的距離盡可能地接近,本文利用基于距離排序的損失函數(shù)(11)、函數(shù)(12)進(jìn)行模型訓(xùn)練
L=∑(r,t)∈L∑(r′,t′)∈Cmax{0,d(r,t)-d(r′,t′)+γ}
(11)
(12)
在通道編碼過(guò)程中,使用2層的GCN網(wǎng)絡(luò)模型,其中隱藏層的維度為300,用于表示每個(gè)詞向量的最大長(zhǎng)度,使用AdaGrad作為優(yōu)化器,學(xué)習(xí)率為0.001,L2=0.01,dropout=0.2。在鄰域采樣階段,為每個(gè)實(shí)體采樣5個(gè)鄰居節(jié)點(diǎn)。在鄰域匹配階段,每個(gè)實(shí)體的候選集的大小為20。進(jìn)行鄰域聚合時(shí),鄰域表示的維度為50。
實(shí)驗(yàn)使用Hits@1和Hits@10作為評(píng)估指標(biāo)。Hits@k的得分是通過(guò)測(cè)量在前k位中正確對(duì)齊實(shí)體的比例來(lái)計(jì)算得到。Hits@k得分越高,表現(xiàn)越好。Hits@k如式(13)
(13)
為了驗(yàn)證本文算法對(duì)化妝品風(fēng)險(xiǎn)物質(zhì)實(shí)體對(duì)齊效果,分別與MuGNN模型、JAPE模型和GCN-Align模型進(jìn)行實(shí)驗(yàn)對(duì)比具體得分見(jiàn)表5。
表5 實(shí)體對(duì)齊結(jié)果
由表中數(shù)據(jù)可知,本文算法在化妝品風(fēng)險(xiǎn)物質(zhì)數(shù)據(jù)集的Hits@10和分別比MuGNN模型、JAPE模型和GCN-Align模型上高5.3%、10.5%、8.7%,無(wú)論是Hits@1作為評(píng)價(jià)指標(biāo),還是以MRR作為評(píng)價(jià)指標(biāo),本文算法都是比其它模型化妝品風(fēng)險(xiǎn)物質(zhì)數(shù)據(jù)集實(shí)體對(duì)齊效果好。
我國(guó)化妝品標(biāo)準(zhǔn)《GB7916-87 化妝品衛(wèi)生標(biāo)準(zhǔn)》與歐盟化妝品法規(guī)《regulation(EC)No 12232009》中的化妝品風(fēng)險(xiǎn)物質(zhì)實(shí)現(xiàn)實(shí)體對(duì)齊,部分化妝品風(fēng)險(xiǎn)物質(zhì)結(jié)果展示見(jiàn)表6。知識(shí)圖譜的信息密度得到進(jìn)一步增加,為我國(guó)化妝品監(jiān)管提供了可靠的信息支撐。
表6 部分化妝品風(fēng)險(xiǎn)物質(zhì)展示
基于語(yǔ)義搜索的問(wèn)答系統(tǒng)利用Neo4j和HTTP服務(wù)構(gòu)建。該系統(tǒng)主要采用哈工大語(yǔ)言技術(shù)平臺(tái)(language technology platform,LTP)實(shí)現(xiàn)分詞、詞性標(biāo)注、命名實(shí)體識(shí)別的功能[38],通過(guò)分析用戶(hù)的問(wèn)題,將問(wèn)題中的化妝品名稱(chēng)映射到知識(shí)圖譜中的實(shí)體,找出與實(shí)體對(duì)應(yīng)的屬性,將結(jié)果與特定問(wèn)題的模板進(jìn)行比配,將其轉(zhuǎn)換為Cypher查詢(xún)語(yǔ)句提供給服務(wù)器,最后將結(jié)果顯示在web界面上。問(wèn)答系統(tǒng)數(shù)據(jù)存儲(chǔ)頁(yè)面展示如圖5所示。
圖5 數(shù)據(jù)存儲(chǔ)可視化結(jié)果
本文選用Neo4j數(shù)據(jù)庫(kù)存儲(chǔ)三元組數(shù)據(jù),Neo4j是一個(gè)高性能的NoSQL圖形數(shù)據(jù)庫(kù),能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)以圖的形式存儲(chǔ)在網(wǎng)絡(luò)中,是一個(gè)基于磁盤(pán)的、嵌入式的、具備完全事務(wù)特性的Java持久化引擎。通過(guò)Cypher語(yǔ)句能夠?qū)崿F(xiàn)對(duì)Neo4j數(shù)據(jù)庫(kù)的操作,Cypher語(yǔ)句構(gòu)建的數(shù)據(jù)庫(kù),實(shí)體和關(guān)系都能擁有特定的標(biāo)簽,能夠?qū)⒐?jié)點(diǎn)和關(guān)系進(jìn)行分類(lèi),為應(yīng)用程序通過(guò)程序接口(API)訪問(wèn)知識(shí)庫(kù)提供了便利。數(shù)據(jù)流程如圖6所示。
本文對(duì)用戶(hù)提出的問(wèn)題進(jìn)行分析,提取問(wèn)題中的關(guān)鍵信息。關(guān)鍵信息的結(jié)構(gòu)用于判斷用戶(hù)問(wèn)題的類(lèi)型,并將其抽象到不同的模板中生成Cypher查詢(xún),例如:
(1)只查詢(xún)單個(gè)物質(zhì),如‘間苯二酚’Cypher命令如下
其中,s表示‘間苯二酚’,r為關(guān)系,n為屬性實(shí)體。在數(shù)據(jù)庫(kù)中查找相關(guān)內(nèi)容答案,便會(huì)將對(duì)應(yīng)的圖譜結(jié)構(gòu)進(jìn)行顯示,查詢(xún)結(jié)果如圖7所示。給出了“間苯二酚”在化妝品中可使用的最大濃度、注意事項(xiàng),還給出了相關(guān)的安全標(biāo)準(zhǔn)等。
圖7 單個(gè)物質(zhì)查詢(xún)結(jié)果
(2)例如查詢(xún)“‘過(guò)氧化氫’的屬性有哪些”?
查詢(xún)時(shí)根據(jù)輸入問(wèn)題,通過(guò)調(diào)用LTP模型,實(shí)現(xiàn)分詞解析出問(wèn)題中的實(shí)體,根據(jù)實(shí)體找出其所有屬性,根據(jù)對(duì)應(yīng)的圖譜結(jié)構(gòu),將圖轉(zhuǎn)化為語(yǔ)句根據(jù)預(yù)先設(shè)置好的模板進(jìn)行輸出。查詢(xún)結(jié)果和輸出內(nèi)容如圖8所示。
圖8 查詢(xún)結(jié)果圖譜及查詢(xún)結(jié)果輸出
通過(guò)問(wèn)答系統(tǒng)查詢(xún)化妝品風(fēng)險(xiǎn)物質(zhì)在標(biāo)準(zhǔn)文件中的各種信息,關(guān)注進(jìn)出口產(chǎn)品成分表中該風(fēng)險(xiǎn)物質(zhì)所屬的物質(zhì)類(lèi)別與含量是否與我國(guó)標(biāo)準(zhǔn)規(guī)定內(nèi)容所對(duì)應(yīng),為最終想要監(jiān)測(cè)進(jìn)出口化妝品提供的幫助。
針對(duì)現(xiàn)可搜集到的中外化妝品衛(wèi)生標(biāo)準(zhǔn)文件語(yǔ)種各有差異、格式不相統(tǒng)一、內(nèi)容同中有異的特點(diǎn),本文提出一種基于雙通道圖神經(jīng)網(wǎng)絡(luò)的鄰域匹配算法。針對(duì)風(fēng)險(xiǎn)物質(zhì)名稱(chēng)的復(fù)雜性及特殊性,通過(guò)貝葉斯網(wǎng)絡(luò)模型來(lái)對(duì)數(shù)據(jù)進(jìn)行糾錯(cuò),利用雙通道圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了豐富的實(shí)體語(yǔ)義特征,有效地結(jié)合了知識(shí)圖譜內(nèi)的中心實(shí)體的所有相關(guān)的鄰居節(jié)點(diǎn)和關(guān)系信息,通過(guò)鄰域匹配網(wǎng)絡(luò)進(jìn)一步增強(qiáng)了實(shí)體對(duì)齊效果。在風(fēng)險(xiǎn)物質(zhì)數(shù)據(jù)集上驗(yàn)證了方法的有效應(yīng)和可行性,解決了其它方法面對(duì)異構(gòu)數(shù)據(jù)實(shí)體對(duì)齊效果差的問(wèn)題。為知識(shí)圖譜應(yīng)用于化妝品監(jiān)管領(lǐng)域提供了新方法,為化妝品監(jiān)管提供了新思路,也為今后的工作拓展了新方向。