• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    IntSE:特征增強(qiáng)的知識(shí)圖譜補(bǔ)全方法

    2023-09-06 04:29:56郭敬楠李冠宇
    關(guān)鍵詞:三元組圖譜實(shí)體

    周 新,郭敬楠,寧 博,李冠宇

    (大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)

    1 引 言

    近年來,以Freebase,WordNet為代表的大型知識(shí)圖譜在信息檢索、知識(shí)問答和推薦系統(tǒng)等領(lǐng)域取得了廣泛應(yīng)用[1-3],其強(qiáng)大的語義處理能力和知識(shí)泛化能力為數(shù)據(jù)提供了一種新的表達(dá)和管理方式.知識(shí)圖譜是事實(shí)三元組(頭實(shí)體,關(guān)系,尾實(shí)體)的圖表示,其中節(jié)點(diǎn)代表實(shí)體,邊代表實(shí)體間關(guān)系.盡管大型知識(shí)圖譜已經(jīng)包含數(shù)億萬個(gè)實(shí)體和關(guān)系,它們?nèi)源嬖诓煌暾睦_,Freebase的300萬人中71%的實(shí)體沒有出生地,75%的實(shí)體沒有國籍,94%的實(shí)體缺少父母信息[4].鏈接預(yù)測任務(wù)就是為了提高知識(shí)圖譜的完整性,根據(jù)知識(shí)圖譜中的已知事實(shí)預(yù)測三元組的缺失部分.

    嵌入模型學(xué)習(xí)實(shí)體和關(guān)系的低維向量或矩陣表示,是鏈接預(yù)測任務(wù)的主流方案.嵌入模型主要分為翻譯模型(TransE[5]、TransH[6]、TransAH[7]、TransR[8]、TransD[9]等)、雙線性及張量模型(DistMult[10]、SimplE[11]、TuckER[12]等)、神經(jīng)網(wǎng)絡(luò)模型(NTN[13]、ER-MLP[14]、ConvE[15]、ConvKB[16]、Conv-TransE[17]、InteractE[18]等)、復(fù)數(shù)向量模型(ComplEx[19]、RotatE[20]、QuatE[21]等).其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型具有較強(qiáng)的表達(dá)能力和泛化能力是近年的研究熱點(diǎn),同時(shí)也是本文的關(guān)注焦點(diǎn).InteractE證實(shí)增加實(shí)體和關(guān)系嵌入分量的交互有助于提高知識(shí)圖譜補(bǔ)全性能.InteractE通過特征排列、棋盤結(jié)構(gòu)特征重塑和循環(huán)卷積3個(gè)核心操作增強(qiáng)ConvE模型的表達(dá)能力,是目前性能最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)嵌入模型.

    InteractE的棋盤結(jié)構(gòu)增加實(shí)體和關(guān)系嵌入分量間的特征交互,提高模型表達(dá)能力,但棋盤結(jié)構(gòu)同時(shí)破壞了原有實(shí)體和關(guān)系嵌入分量間的空間結(jié)構(gòu)信息,本文將SENet[22](Squeeze-and-Excitation Network)應(yīng)用到InteractE中,提出了改進(jìn) InteractE的知識(shí)圖譜補(bǔ)全模型——IntSE.IntSE保留了InteractE的優(yōu)點(diǎn),同時(shí)SENet的引入增強(qiáng)了InteractE卷積得到的有用特征,抑制無用特征.

    本文主要貢獻(xiàn)如下:

    1)提出改進(jìn)InteractE的卷積神經(jīng)網(wǎng)絡(luò)嵌入模型——IntSE.IntSE在InteractE的卷積層之后,對(duì)輸出的特征映射應(yīng)用SENet做特征校準(zhǔn)從而增強(qiáng)有用的特征,抑制無用的特征.

    2)為了適應(yīng)知識(shí)圖譜補(bǔ)全,本文改進(jìn)了SENet原型的門機(jī)制,提高了模型的表達(dá)能力,降低模型過擬合,同時(shí)減少參數(shù)量和計(jì)算代價(jià).

    3)基于FB15k-237和WN18RR兩種數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,IntSE提升了InteractE的性能,優(yōu)于主流的CNN嵌入模型.

    2 相關(guān)工作

    2.1 非神經(jīng)網(wǎng)絡(luò)模型

    知識(shí)圖譜嵌入學(xué)習(xí)實(shí)體和關(guān)系在連續(xù)低維向量空間中的嵌入表示.經(jīng)典的嵌入模型始于TransE,將關(guān)系嵌入視為頭實(shí)體嵌入到尾實(shí)體嵌入的一種平移,利用平移不變性,表示實(shí)體和關(guān)系之間的關(guān)聯(lián).TransE模型僅適用一對(duì)一的關(guān)系類別,對(duì)于一對(duì)多,多對(duì)一,多對(duì)多關(guān)系類別,TransE的性能會(huì)大打折扣.針對(duì)該問題,研究者進(jìn)一步提出TransH、TransAH、TransR、TransD等模型,從不同的方面對(duì)TransE進(jìn)行改進(jìn).不同于TransE系列模型用向量和全矩陣表達(dá)關(guān)系,DistMult系列模型用對(duì)角矩陣表達(dá)關(guān)系來簡化模型,而ComplEx系列模型是DistMult在復(fù)數(shù)域上的拓展,可以更好地對(duì)非對(duì)稱關(guān)系進(jìn)行建模.Nguyen等人[23]和LIU等人[24]系統(tǒng)綜述了知識(shí)圖譜補(bǔ)全的嵌入模型.

    2.2 神經(jīng)網(wǎng)絡(luò)模型

    NTN用雙線性張量表示關(guān)系,關(guān)聯(lián)頭實(shí)體嵌入和尾實(shí)體嵌入.ER-MLP將頭實(shí)體嵌入、關(guān)系嵌入和尾實(shí)體嵌入聯(lián)接起來送入一個(gè)單層MLP中.因卷積操作具有參數(shù)共享、泛化能力強(qiáng)、控制過擬合和魯棒性強(qiáng)的優(yōu)點(diǎn),CNN也被用于知識(shí)圖譜補(bǔ)全.ConvE將頭實(shí)體嵌入和關(guān)系嵌入分別重組后堆疊在一起送入2D 卷積層,提取實(shí)體和關(guān)系的語義特征,生成的特征映射向量化,投影到尾實(shí)體的嵌入空間,通過內(nèi)積和所有的候選尾實(shí)體嵌入進(jìn)行匹配.Conv-TransE認(rèn)為ConvE中實(shí)體和關(guān)系嵌入的重組破壞嵌入向量的平移不變性,Conv-TransE移除了ConvE中的嵌入向量重組操作,直接將已知實(shí)體和關(guān)系嵌入拼接放入卷積層,其余流程和ConvE一致,Conv-TransE可以看作ConvE的一個(gè)變種.ConvKB是另一種卷積神經(jīng)網(wǎng)絡(luò)嵌入模型,將頭實(shí)體嵌入、關(guān)系嵌入和尾實(shí)體嵌入堆疊成矩陣M,并用1×3大小的卷積核作用于M轉(zhuǎn)置后的每一維向量.由于ConvKB的性能在不同數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)表現(xiàn)不一致,其成果具有爭議性,本文不作實(shí)驗(yàn)進(jìn)行對(duì)比.InteractE發(fā)現(xiàn)ConvE堆疊式的嵌入重組(如圖1(a)所示)限制了實(shí)體和關(guān)系的特征交互,增加實(shí)體和關(guān)系嵌入的特征交互有利于提升補(bǔ)全效果,InteractE將實(shí)體和關(guān)系嵌入重組為棋盤結(jié)構(gòu)(如圖1(b)所示),同時(shí)用循環(huán)卷積增強(qiáng)邊緣特征交互,是目前鏈接預(yù)測性能最好的卷積神經(jīng)網(wǎng)絡(luò)嵌入模型.

    圖1 不同的重組方式Fig.1 Different types of reshaping way

    圖2 SENet結(jié)構(gòu)圖Fig.2 Architecture of SENet model

    3 背景知識(shí)

    3.1 知識(shí)圖譜

    知識(shí)圖譜是事實(shí)三元組(頭實(shí)體,關(guān)系,尾實(shí)體)的集合,形式化表示如下:

    KG={(s,r,o)}?ε×R×ε

    其中,s∈ε表示三元組中的頭實(shí)體,o∈ε表示三元組中的尾實(shí)體,r∈R表示三元組中實(shí)體間的關(guān)系.

    3.2 鏈接預(yù)測

    鏈接預(yù)測任務(wù)是預(yù)測三元組(s,r,o)中缺失的實(shí)體,如給定(s,r,?)預(yù)測o或給定(?,r,o)預(yù)測s.鏈接預(yù)測問題可以形式化表示為單樣本的排序?qū)W習(xí)問題.基于嵌入的鏈接預(yù)測方法包含兩個(gè)關(guān)鍵組件:a)編碼組件:編碼組件映射頭實(shí)體s、關(guān)系r、尾實(shí)體o到相應(yīng)的K維分布式嵌入表示es、er、eo,es,er,eo∈K;b)打分組件:打分組件衡量三元組的真實(shí)性.鏈接預(yù)測的目標(biāo)是學(xué)習(xí)一個(gè)關(guān)于實(shí)體和關(guān)系嵌入的打分函數(shù)Ψ,使得事實(shí)三元組(s,r,o)的得分Ψ(s,r,o)高于非事實(shí)三元組(s′,r,o′)的得分Ψ(s′,r,o′).

    表1總結(jié)了CNN嵌入模型的打分函數(shù).表2列出本文使用的函數(shù)符號(hào)及其含義.

    表1 CNN嵌入模型的打分函數(shù)Table 1 Score function of CNN embedding model

    表2 函數(shù)符號(hào)及其含義Table 2 Function symbols and their meanings

    4 IntSE模型

    4.1 IntSE模型

    IntSE在InteractE的基礎(chǔ)上增加了SENet,保留了InteractE優(yōu)點(diǎn)的同時(shí),增強(qiáng)了卷積通道中的有用特征,抑制了無用特征.IntSE的架構(gòu)如圖3所示,打分函數(shù)如式(1)所示:

    圖3 IntSE模型的結(jié)構(gòu)圖Fig.3 Architecture of IntSE model

    Ψ(s,r,o)=g(vec(se(f(φ(es,er)★ω)))W)·eo

    (1)

    對(duì)于輸入的實(shí)體嵌入向量es和關(guān)系嵌入向量er,IntSE先將es和er重組為棋盤式矩陣φ(es,er)∈m×n,其中m×n=2K,然后將其送入一個(gè)2D的循環(huán)卷積層,卷積層輸出一個(gè)特征映射張量X=(x1,x2,…,xC)∈H×W×C,其中xi∈H×W×1代表第i個(gè)通道的特征映射,H和W和代表特征映射的大小,C代表通道總數(shù).X被送入SENet進(jìn)行特征校準(zhǔn),生成校準(zhǔn)后的特征映射張量H×W×C,接著被向量化HWC,使用參數(shù)矩陣為W∈HWC×K的線性轉(zhuǎn)換投影到K維向量空間,最后通過內(nèi)積操作匹配尾實(shí)體嵌入eo.

    為了訓(xùn)練模型參數(shù),本文將帶有標(biāo)簽平滑的二元交叉熵作為損失函數(shù),如式(2)所示:

    (2)

    其中p=sigmoid(Ψ(s,r,o)),t為平滑標(biāo)簽,本文使用Adam作為優(yōu)化器,并使用標(biāo)簽平滑來減少由于輸出非線性飽和而導(dǎo)致的過擬合.

    SENet顯式定義特征通道間的關(guān)聯(lián),通過自學(xué)習(xí)各個(gè)通道的權(quán)重對(duì)特征通道信息進(jìn)行篩選,增強(qiáng)有益特征,抑制無用特征.實(shí)驗(yàn)顯示在InteractE中加入SENet原型能夠提升鏈接預(yù)測的效果,然而收效有限.4.2小節(jié)對(duì)SENet做了適當(dāng)改進(jìn),進(jìn)一步提升鏈接預(yù)測的準(zhǔn)確性.

    4.2 改進(jìn)的SENet

    SENet原型如圖2(a)所示,SENet的操作流程如下:

    1)壓縮(Squeeze):SENet 對(duì)輸入張量X的每個(gè)特征通道做全局平均池化(Global Average Pooling,GAP),從而獲取每個(gè)特征通道的統(tǒng)計(jì)信息.聚集C個(gè)特征通道的統(tǒng)計(jì)信息形成壓縮的特征張量L∈1×1×C,L包含所有特征的全局信息.

    2)激勵(lì)(Excitation):為了利用L中的全局信息捕捉通道間的依賴,SENet設(shè)計(jì)了Sigmoid激勵(lì)函數(shù)獲得歸一化權(quán)重系統(tǒng)的門機(jī)制,生成每個(gè)特征通道相對(duì)應(yīng)的權(quán)重系數(shù)A∈1×1×C.門機(jī)制由1個(gè)全連接降維層,1個(gè)Relu激活層和1個(gè)全連接升維層構(gòu)成,式(3)給出相應(yīng)的函數(shù)表示:

    A=g(W2(f(W1L)))

    (3)

    其中,f為Relu函數(shù),g為Sigmoid函數(shù).W1∈C/q×C,W2∈C×C/q被學(xué)習(xí)用來顯式地建模特征通道間的相關(guān)性,q為維度約減因子.

    (4)

    SENet的門機(jī)制使用兩個(gè)全連接層夾Relu的瓶頸結(jié)構(gòu),全連接層具有參數(shù)量大、容易過擬合、丟失特征映射的空間信息等不足.本文重新設(shè)計(jì)了門機(jī)制,將全連接層改為1×1的卷積層,增加Dropout避免過擬合.改進(jìn)的SENet如圖2(b)所示,生成的特征通道權(quán)重系數(shù)如式(5)所示:

    A=g(f(f(L*ω1)*ω2))

    (5)

    其中*代表標(biāo)準(zhǔn)卷積操作,ω1和ω2為1×1為大小的卷積核,ω1個(gè)數(shù)為C/q,ω2個(gè)數(shù)為C.

    相比SENet原型,改進(jìn)的SENet具有更多的非線性,表達(dá)能力更高,同時(shí)對(duì)過擬合有較強(qiáng)的魯棒性,卷積層具有與全連接層相同的輸出效果,但減少參數(shù)量,提高了計(jì)算效率,并且輸入和輸出具有相對(duì)應(yīng)的空間結(jié)構(gòu),避免了信息的流失,實(shí)驗(yàn)結(jié)果顯示,改進(jìn)的SENet更加適合鏈接預(yù)測任務(wù).

    5 實(shí) 驗(yàn)

    5.1 數(shù)據(jù)集

    實(shí)驗(yàn)使用兩個(gè)鏈接預(yù)測最常用的數(shù)據(jù)集進(jìn)行評(píng)估,分別為FB15k-237和WN18RR,其中FB15k-237是從Freebase衍生出來的FB15k數(shù)據(jù)集的改進(jìn)版本,刪除了FB15k中所有反轉(zhuǎn)關(guān)系,以防止通過反向訓(xùn)練三元組直接推斷出測試三元組.WN18RR是從WordNet衍生出來的WN18數(shù)據(jù)集的一個(gè)子集,刪除了與FB15k-237相似的逆關(guān)系.兩種數(shù)據(jù)集的數(shù)據(jù)特征如表3所示.

    表3 數(shù)據(jù)集統(tǒng)計(jì)Table 3 Statistics of datasets

    5.2 評(píng)估標(biāo)準(zhǔn)

    本文采用鏈接預(yù)測常用的4個(gè)評(píng)估標(biāo)準(zhǔn)MR,MRR,Hits@1和Hits@10衡量實(shí)驗(yàn)結(jié)果,MR表示正確實(shí)體的平均排名,MRR是正確實(shí)體的平均倒數(shù)排名,Hits@1是正確實(shí)體排名第1所占的百分比,Hits@10是正確實(shí)體排名前10所占的百分比.在4個(gè)指標(biāo)中,MR越低越好,MRR,Hits@1和Hits@10越高越好.

    “聽、說、讀、寫”是學(xué)生英語核心素養(yǎng)的具體內(nèi)容,在新時(shí)期提高核心素養(yǎng)是新時(shí)期教學(xué)發(fā)展過程中培養(yǎng)學(xué)生的重點(diǎn)任務(wù)之一,尤其是在閱讀教學(xué)中,要充分利用閱讀教學(xué)的多樣性,對(duì)學(xué)生的核心素養(yǎng)進(jìn)行全面的培養(yǎng)。同時(shí)要對(duì)教學(xué)現(xiàn)狀進(jìn)行全面分析,找到其中存在的問題,在實(shí)踐中找到解決問題的措施,從而提高學(xué)生核心素養(yǎng),全面提升學(xué)生綜合素質(zhì),實(shí)現(xiàn)學(xué)生的全面發(fā)展。

    5.3 參數(shù)設(shè)置

    設(shè)置超參數(shù)范圍如下:實(shí)體和關(guān)系嵌入維度設(shè)置為κ∈{100,200},2D卷積層中卷積核大小設(shè)置為λ∈{5,7,9,11},學(xué)習(xí)率為γ∈{0.01,0.001,0.005,0.0001},SENet的維度約減因子設(shè)置1/q∈{1/2,1/4,1/8,1/16},此外實(shí)驗(yàn)還使用批量標(biāo)準(zhǔn)化和Dropout來控制過擬合.本文通過超參數(shù)網(wǎng)格搜索法訓(xùn)練模型500次,根據(jù)驗(yàn)證集上的MRR來選擇本文模型的最優(yōu)超參數(shù)[15,18],在FB15k-237數(shù)據(jù)集上,最優(yōu)參數(shù)設(shè)置為:κ=200,γ=0.0001,λ=9,1/q=1/4,批次大小為128.在WN18RR上,最優(yōu)參數(shù)設(shè)置為:κ=200,γ=0.001,λ=11,1/q=1/8,批次大小為256.

    5.4 實(shí)驗(yàn)分析

    本文將IntSE與ConvE,Conv-TransE和InteractE進(jìn)行對(duì)比,對(duì)比模型的實(shí)驗(yàn)結(jié)果摘自于原論文.Interact-SENet表示在InteractE加入SENet原型的模型.

    5.4.1 數(shù)據(jù)集對(duì)模型準(zhǔn)確性的影響

    FB15k-237和WN18RR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4和表5所示.

    表4 各模型在FB15k-237數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of models on FB15k-237 dataset

    表5 各模型在WN18RR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of models on WN18RR dataset

    5.4.2 關(guān)系類別對(duì)模型準(zhǔn)確性的影響

    為了進(jìn)一步驗(yàn)證IntSE模型的有效性,本文在FB15k-237數(shù)據(jù)集上評(píng)估模型在不同關(guān)系類別的鏈接預(yù)測性能.

    選擇FB15k-237進(jìn)行分析是因?yàn)樵摂?shù)據(jù)集的關(guān)系更多樣化.基于每個(gè)頭實(shí)體的平均尾實(shí)體數(shù)和每個(gè)尾實(shí)體的平均頭實(shí)體數(shù),將關(guān)系分為4類:一對(duì)一,一對(duì)多,多對(duì)一,多對(duì)多.使用同為卷積神經(jīng)網(wǎng)絡(luò)補(bǔ)全模型的ConvE和InteractE作為對(duì)比試驗(yàn),以MRR和Hits@10作為評(píng)估標(biāo)準(zhǔn)[9],表6展示了鏈接預(yù)測的實(shí)驗(yàn)結(jié)果.從表6可以發(fā)現(xiàn),IntSE在四種關(guān)系類別上都獲得了比ConvE和InteractE更好的性能,無論是應(yīng)對(duì)簡單的關(guān)系類別(如一對(duì)一),還是在復(fù)雜關(guān)系類別(如一對(duì)多,多對(duì)多)都達(dá)到最優(yōu)效果.再次驗(yàn)證了IntSE具有較好的魯棒性,適用于包含各種關(guān)系類別的鏈接預(yù)測任務(wù).

    表6 FB15k-237數(shù)據(jù)集上按關(guān)系類別的實(shí)驗(yàn)結(jié)果Table 6 Experimental results by relation category on FB15k-237 dataset

    6 結(jié)束語

    本文提出改進(jìn)InteractE的模型——IntSE,通過改進(jìn)的SENet捕捉InteractE模型中對(duì)知識(shí)圖譜補(bǔ)全重要的特征交互信息,從而增強(qiáng)InteractE中的有用特征,提升知識(shí)圖譜補(bǔ)全的效果.實(shí)驗(yàn)驗(yàn)證,相較于SENet原型,改進(jìn)的SENet對(duì)知識(shí)圖譜補(bǔ)全有更大的幫助,相較于其他主流的CNN嵌入模型,IntSE在多種評(píng)估標(biāo)準(zhǔn)下達(dá)到最優(yōu)性能.在今后的研究中,我們將探索SENet的其他改進(jìn)版能否提升InteractE的效果,同時(shí)進(jìn)一步地探索如何提升實(shí)體和關(guān)系之間的有效特征交互.

    猜你喜歡
    三元組圖譜實(shí)體
    基于語義增強(qiáng)雙編碼器的方面情感三元組提取
    軟件工程(2024年12期)2024-12-28 00:00:00
    基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
    繪一張成長圖譜
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    關(guān)于余撓三元組的periodic-模
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    主動(dòng)對(duì)接你思維的知識(shí)圖譜
    樟树市| 无锡市| 大新县| 扶绥县| 萝北县| 纳雍县| 中山市| 彩票| 珠海市| 秭归县| 旬邑县| 文成县| 蓬溪县| 石河子市| 得荣县| 高清| 大安市| 江都市| 延津县| 来宾市| 赤峰市| 漠河县| 如皋市| 孙吴县| 望奎县| 齐齐哈尔市| 闸北区| 江西省| 玉田县| 鲁甸县| 石屏县| 广平县| 且末县| 赣榆县| 万盛区| 磐石市| 龙海市| 郓城县| 镇江市| 宣城市| 巍山|