• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    TransPath:一種基于深度遷移強化學習的知識推理方法

    2022-03-03 13:46:24崔員寧陸正嘉
    小型微型計算機系統(tǒng) 2022年3期
    關鍵詞:圖譜成功率動作

    崔員寧,李 靜,陳 琰,陸正嘉

    1(南京航空航天大學 計算機科學與技術學院,南京 211106) 2(國網上海市電力公司 信息通信公司,上海 200000)

    1 引 言

    近年來,F(xiàn)reebase[1],NELL[2],WordNet[3]等大型知識圖譜的迅速發(fā)展,為推薦系統(tǒng)[4,5]、智能問答[6,7]等大量下游自然語言處理任務的研究推進提供了數據支撐.但是,無論是人工整理的知識圖譜,還是借助實體關系自動抽取獲得的知識圖譜,通常都是不完整的,實體間的鏈接存在大量缺失,嚴重制約了下游任務的性能提升.知識推理旨在通過挖掘路徑來推理和發(fā)現(xiàn)缺失的三元組,補全知識圖譜,是知識圖譜領域重要的基礎研究方向.

    近年來,由于具有可解釋性和良好的性能,基于強化學習的知識圖譜補全方法迅速成為研究熱點.Xiong[8]等人于2017年首次提出基于深度強化學習的知識推理方法DeepPath,將知識圖譜建模為馬爾可夫決策過程[9](Markov Decision Process,MDP),將實體作為狀態(tài)空間,關系作為動作空間,智能體在知識圖譜上游走并搜索路徑,與傳統(tǒng)的路徑排序算法[10]和基于嵌入表示的方法相比,具有更好的性能和良好的可解釋性.但由于DeepPath模型簡單,而且需要預挖掘的路徑作為預訓練樣本,其推理性能和訓練效率都有較大的提升空間.因此,近年來AttnPath[11]、DIVINE[12]等大量基于RL的方法被提出,知識推理性能得到快速提升.

    盡管如此,在實際的知識圖譜環(huán)境中,大多數RL方法的路徑搜索成功率卻不高.一方面,對于一個特定實體來說,動作空間中存在大量無效動作,如圖1所示,對于實體London來說,WorkFor、BornIn、PlaySports等都是無效的動作,因為實體London無法作為這些謂語的主語;另一方面,知識推理是一項多步的復雜任務,RL智能體不僅要在每一步都選擇有效動作,還要在知識圖譜多階子圖中搜索唯一的目標結點.這兩個問題導致智能體在初始階段難以獲取獎勵,路徑搜索成功率低.

    圖1 無效動作問題示例Fig.1 An example of invalid actions

    強化學習需要從成功的經驗中學習如何更好的完成任務,而知識圖譜環(huán)境中的無效動作使強化學習在初始階段就難以挖掘成功的經驗.因此,我們認為智能體的學習過程應循序漸進,在學習復雜的多步推理之前,應當讓智能體先學習如何單步游走選擇有效動作.

    遷移學習能夠將源任務中學習到的經驗用到目標任務,因此本文將遷移學習應用到知識推理場景,在目標推理任務之前增加了一個有效性驅動的源任務—單步游走選擇有效動作,并提出一種基于深度遷移強化學習的知識推理模型TransPath.首先在源任務上訓練RL智能體單步選擇有效動作的能力,然后遷移到目標推理任務上進行多步推理的微調學習,這一遷移訓練機制有效提升了路徑搜索的成功率.

    本文的主要貢獻包括:

    1)提出一種基于深度遷移強化學習的知識推理方法TransPath,在源任務和目標任務上依次訓練智能體,幫助智能體循序漸進地學習多步推理任務;

    2)提出一種有效性驅動的源任務,其目的是訓練智能體單步游走選擇有效動作的能力,消融實驗結果表明源任務有效提升了智能體的選擇有效動作的能力;

    3)在FB15K-237[32]和NELL-995[8]公開標準數據集上的對比實驗表明,本文提出的模型不僅大幅提升了路徑挖掘的成功率,也在大多數知識推理任務上取得了最優(yōu)性能.

    本文后續(xù)章節(jié)安排如下:第2節(jié)主要介紹了知識推理和遷移強化學習領域的相關工作;第3節(jié)介紹本文提出的基于深度遷移強化學習的知識推理方法;第4節(jié)通過在兩個公開測評數據集上的對比實驗來驗證本文方法的有效性,并用遷移學習消融實驗分析了源任務和目標任務對模型性能的影響;第5節(jié)對本文方法進行總結,并探討進一步的研究方向.

    2 相關工作

    自DeepPath模型在2017年被提出,深度強化學習已廣泛應用于知識推理領域,本文的TransPath模型主要是結合了傳統(tǒng)的深度強化學習模型和遷移學習實現(xiàn)的,因此本節(jié)將介紹知識推理與遷移強化學習的國內外相關工作.

    2.1 基于嵌入與路徑的知識推理模型

    知識圖譜普遍存在缺失問題,僅靠實體發(fā)現(xiàn)和關系抽取很難實現(xiàn)完整抽取,因此知識圖譜補全是知識圖譜領域長期的問題.知識推理通過挖掘路徑來推理補全知識圖譜,是知識圖譜領域的一項基礎研究.知識推理的方法大致可以分為3類:基于嵌入表示的方法、基于路徑的方法和基于強化學習的方法.

    基于嵌入表示的方法.近年來,大量基于嵌入表示的方法被提出,如TransE[13]、TransD[14]、TransR[15]、TransH[16]等,它們基于知識圖譜中的三元組將實體和關系映射到連續(xù)的向量空間,并用這些向量表示進行鏈接預測和事實預測.盡管基于嵌入表示的方法在知識圖譜補全各項任務中已經取得了不錯的成績,但這些方法大多缺少多步推理的能力.

    基于路徑的方法.路徑排序算法[10](Path Ranking Algorithm,PRA)在路徑約束的組合下選擇關系路徑,并進行最大似然分類.為了改善路徑搜索,Gardner[17]等人通過結合文本內容,在隨機工作中引入了向量空間相似性啟發(fā)法,緩解了PRA中的特征稀疏性問題.Neelakantan[18]等人開發(fā)了一個RNN模型,通過遞歸應用組成性來構成關系路徑,其推理鏈是一種支持多因素的神經注意力機制.DIVA[19]提出了一個統(tǒng)一的變分推理框架,該框架將多跳推理分為路徑發(fā)現(xiàn)和路徑推理的兩個子步驟,大幅提升了推理效果.

    2.2 基于深度強化學習的知識推理模型

    近年來,由于具有可解釋性和良好的性能,基于強化學習的知識圖譜補全方法迅速成為研究熱點.Xiong[8]等人于2017年首次提出基于深度強化學習的知識推理方法DeepPath,它將知識圖譜建模為馬爾可夫決策過程,將實體作為狀態(tài)空間,關系作為動作空間,RL智能體在知識圖譜上游走并挖掘路徑.MINERVA[20]通過最大化期望獎勵,將從起始實體到目標實體的路徑作為一個順序優(yōu)化問題,它不依賴目標答案實體,并提供了更強大的推理能力.Multi-Hop[21]針對獎勵稀疏問題提出一種軟獎勵機制來代替二進制獎勵函數,為了實現(xiàn)更有效的路徑探索,在訓練過程中還采用Action Drop來掩蓋某些向外的邊.M-Walk[22]用RNN控制器捕獲歷史軌跡,并使用蒙特卡洛樹搜索生成有效路徑.CPL[23]提出了協(xié)作策略學習,通過利用文本語料庫與當前實體的句袋,從文本中查找路徑和提取事實.DIVINE[12]提出一種基于生成對抗模擬的深度強化學習方法,該方法不需要人工設定獎勵,避免人為獎勵設置不合理影響智能體的訓練.AttnPath[11]基于LSTM[24]和圖注意力[25]在DeepPath 基礎上增加了記憶單元,并提出一種強制回退的推理機制提高智能體獲取獎勵的能力和推理成功率.

    2.3 遷移學習在強化學習中的應用

    強化學習智能體通過不斷與環(huán)境交互,來學習策略以最大化獎勵并實現(xiàn)特定的目標.然而,在實際復雜的任務中,強化學習往往面臨一個嚴峻的問題:RL智能體無法得到足夠多的、有效的獎勵.這一問題會導致智能體學習緩慢甚至無法進行有效學習.

    遷移學習能夠將源任務中學習到的經驗應用到目標任務,讓目標任務的訓練更靈活高效.因此將遷移學習應用在強化學習中,可以降低任務難度,有效緩解獎勵稀疏的問題.近幾年,遷移學習已被廣泛應用在多種強化學習場景中.

    Yaser[26]等人于2018年將遷移學習用于文本摘要場景,提出一種基于自我批評策略梯度方法的強化學習框架,預訓練后僅用幾個微調樣本就可達得最優(yōu)性能;Ammanabrolu[27]等人于2019年將遷移學習用于基于知識圖譜的文本冒險游戲,在多項計算機生成和人工創(chuàng)作的游戲中不僅能夠更快學習強化學習策略,而且也提升了智能體策略質量;Gamrian[28]等人于2019年將遷移學習用于打磚塊和賽車游戲等強化學習場景,克服了傳統(tǒng)方法無法適應背景圖像變化的問題.Liu[29]等人于2019年將遷移學習用于多智能體的強化學習,提出一種基于新型MDP相似性概念的可擴展的遷移學習方法,顯著加速多智能體強化學習,同時具有更好的性能.

    從以上研究工作中可以發(fā)現(xiàn),遷移學習適用于源任務樣本豐富但目標任務樣本稀少的場景.在知識圖譜場景中,盡管智能體在目標任務上難以獲取成功的樣本,但知識圖譜中每個三元組(h,r,t)中都包含兩個單步游走的成功樣本(h,r)和(t,r-1),源任務樣本豐富而容易獲取.因此,本文將單步游走作為源任務,將多步推理作為目標任務,提出一種基于深度遷移強化學習的知識推理方法TransPath.

    3 基于深度遷移強化學習的知識推理方法

    為了解決知識圖譜環(huán)境中無效動作的問題,本文提出一種基于深度遷移強化學習的知識推理方法TransPath.如圖2所示,首先通過有效性驅動的預訓練,提高RL智能體單步游走能力,幫助智能體學習選擇有效動作;然后通過目標任務的多步推理訓練,提高RL智能體在目標推理任務上的多步路徑搜索能力.

    圖2 基于深度遷移強化學習的知識推理模型框架圖Fig.2 Overall framework of deep transfer reinforcement learning model for knowledge reasoning

    3.1 深度強化學習環(huán)境建模

    RL智能體的行動和狀態(tài)轉移都在知識圖譜中完成,因此本節(jié)對知識圖譜進行強化學習環(huán)境建模.

    一個知識圖譜K由{E,R,V}組成,其中E是實體的集合,R是關系的集合,V是形如(頭實體,關系,尾實體)的RDF事實三元組的集合.將知識圖譜K建模為RL智能體的強化學習環(huán)境KE=,其中S是智能體的狀態(tài)空間,A是智能體的動作空間,Υ是智能體的獎勵,P是智能體的狀態(tài)轉移策略.

    3.1.1 狀態(tài)空間

    本文將知識圖譜中的實體集合E作為智能體的狀態(tài)空間.知識圖譜中的實體以符號的形式存在,無法表示其語義內涵,因此本文采用嵌入表示模型TransE[13]將實體表示為連續(xù)的嵌入向量:

    st=TransE(et)

    (1)

    其中et為當前實體,st為當前實體的狀態(tài)表示向量.

    3.1.2 動作空間

    智能體選擇動作,實現(xiàn)從當前狀態(tài)到下一狀態(tài)的轉移.本文將知識圖譜中的關系集合R作為智能體的動作空間.同時,為了使智能體能夠逆向推理,將關系集合中的所有關系的逆關系也加入動作空間:

    (2)

    3.1.3 獎勵設置

    當智能體完成任務或失敗時,環(huán)境都會反饋一個正向或負向的獎勵,智能體根據獎勵更新自己的策略,以最大化獎勵.由于智能體的預訓練和微調訓練(fine-tune)的任務不同,3.2和3.3節(jié)中將會詳細介紹面向兩項任務的不同獎勵.

    3.1.4 策略神經網絡

    策略網絡將輸入的狀態(tài)表示et映射到選擇各項動作的概率向量.本文采用全連接網絡(Full-Connected Network.FCN)來參數化策略函數,該神經網絡由兩個層隱藏層和一個輸出層組成,輸出層采用softmax函數歸一化,對于一個輸入的狀態(tài)st,其策略為:

    d(st)=softmax(f(f(st×w1+b1)×w2+b2)))

    (3)

    其中f為激活函數,w和b為隱藏層的權重和偏置.d(st)是一個|A|×1的矩陣,每一位表示選擇一個動作的概率.

    3.1.5 參數優(yōu)化

    本文模型采用策略梯度下降算法[31]更新策略網絡的參數:

    (4)

    1https://github.com/thunlp/Fast-TransX

    其中θ為需要更新的參數,π(a=rt|st;θ)為在狀態(tài)為st時策略網絡選擇動作為rt的概率,Υ為執(zhí)行這個動作獲得的獎勵.

    3.2 源任務的預訓練

    在執(zhí)行路徑推理任務訓練之前,本文先對RL智能體進行有效性驅動的預訓練,其目的在于幫助智能體學會選擇有效動作,提高單步游走的成功率.

    3.2.1 生成訓練集

    在知識圖譜中,事實三元組集合V包含了狀態(tài)和有效動作的所有組合.將V中的每個三元組(ehead,r,etail)拆分為兩個狀態(tài)-動作二元組(ehead,r)和(etail,r-1),然后合并相同的二元組,得到預訓練的有效動作訓練集Tvalid.

    3.2.2 獎勵函數

    預訓練任務的目標是學習選擇有效動作,智能體在狀態(tài)et選擇了動作ai,若二元組(et,ai)包含在Tvalid中時,給予智能體以正向獎勵,否則無獎勵.其獎勵定義為:

    (5)

    3.2.3 預訓練算法

    由于知識圖譜中已經包含了狀態(tài)和有效動作的所有組合,不需要智能體在與環(huán)境的交互中獲取獎勵,所以本文將Tvalid作為訓練集離線訓練智能體.有效性驅動的預訓練算法如算法1所示.

    算法1.預訓練算法

    輸入:Tvalid

    輸出:RL智能體的策略網絡參數

    1. forTvalid中的每個(et,ai)

    2.st←TransE(et)

    3. 更新策略網絡參數:

    4. end for

    3.3 目標任務的微調訓練

    智能體在預訓練中學會了如何選擇有效動作,微調訓練模塊將智能體遷移到具體的推理任務上,使其在知識圖譜環(huán)境中繼續(xù)學習如何完成多步推理任務.

    3.3.1 推理任務

    與預訓練的單步任務不同,推理任務旨在搜索兩個實體之間的路徑.對于事實(estart,rtask,etarget),其中rtask為推理任務,estart和etarget為初始結點和目標結點,智能體從初始結點出發(fā),搜索除rtask外其他能夠到達目標結點的路徑.

    3.3.2 獎勵函數

    因為微調訓練是一項多步任務,所以環(huán)境不能直接對智能體選擇的每一個動作即時給出獎勵.本文采用蒙特卡洛方法[31],當智能體在知識圖譜中成功到達目標結點或步數到達預定上限時,對這條路徑p上的每個狀態(tài)-關系二元組(et,ai)給出獎勵.其獎勵設置為:

    (6)

    其中l(wèi)ength(p)為路徑的長度.正向獎勵取路徑長度的倒數,是為了降低路徑長度,提高推理效率.

    3.3.3 微調訓練流程與算法

    在完成預訓練后,將智能體遷移到目標任務上,每個目標任務都是知識圖譜中的一種關系,智能體在微調訓練中學習搜索能夠替代目標關系的路徑.從數據集中抽取所有包含目標任務的三元組組成目標任務的訓練集trainset.目標任務的微調訓練算法如下.

    算法2.目標任務的微調訓練算法

    輸入:目標任務的trainset

    輸出:RL智能體的策略網絡參數

    1. 重載預訓練后的RL策略網絡

    2. fortrainset中的每個(estart,rtask,etarget)

    3.st←TransE(estart)

    4. steps=0,succ=False

    5. while steps

    6.d(st)=softmax(f(f(st×w1+b1)×w2+b2)))

    7. 基于d(st)隨機選擇動作ai,若無效則終止

    8. 狀態(tài)-動作二元組集合T記錄(et,ai)

    9. 執(zhí)行動作ai,跳轉到下一實體enext

    10. ifenext==etarget:

    11. succ=True

    12. end if

    13.st←TransE(enext)

    14. end while

    15. 計算T中每個(et,ai)的獎勵

    16. 更新策略網絡參數:

    17. end for

    4 實驗與分析

    4.1 數據集與參數分析

    本文實驗性能分析中采用FB15K-237[32]和NELL-995[8]作為對比實驗數據集,這兩個數據集是知識推理領域通用的基準數據集.其中FB15K-237包含14.5k個實體、237個關系、310.1k個三元組事實和20個推理任務,它是將FB15K[13]中的冗余三元組刪除后得到的.NELL-995包含7.5k個實體、200個關系、154.2k個三元組事實和12個推理任務.數據集的統(tǒng)計信息如表1所示.

    表1 數據集統(tǒng)計Table 1 Statistics of the datasets

    本文訓練模型時,策略網絡最后一層采用softmax函數激活函數,兩個全連接隱藏層都使用ReLu[33]作為激活函數,結點數分別設置為512和1204,選擇Adam[34]作為訓練優(yōu)化的算法,初始的學習率設置為0.001.本文按照Fast-TransX1中的方法訓練TransE[13]模型,嵌入維度設置為100維;源任務上的預訓練batchsize設置為1000,訓練2000個epochs;目標任務上的微調訓練batchsize設置為500,訓練500個epochs.本文提出的TransPath基于TensorFlow框架實現(xiàn),并且在NVIDIA1080Ti GPU上進行訓練.

    4.2 評價標準和基線方法

    對于基于深度強化學習的知識推理質量評價,常用的指標主要是路徑搜索成功率(Path Finding Success Rate,PFSR)、事實預測(Fact Prediction,F(xiàn)P)的平均精度均值(Mean Average Precision,MAP)和鏈接預測(Link Prediction,LP)的平均精度均值.

    1)路徑搜索成功率:該指標主要衡量RL智能體挖掘路徑的能力,是指在訓練過程中每個epoch上RL智能體能夠從初始結點游走到目標結點并找到一條路徑的樣本與總數的比率,其定義如下:

    (7)

    其中SuccNum為每個epoch中成功搜索到路徑的樣本個數,batchsize為批處理大小.PFSR越大,說明RL智能體路徑搜索能力越強.

    2)平均精度均值:FP和LP的平均精度均值分別用來衡量事實預測和鏈接預測的效果.事實預測是指在給定三元組(eh,r,et)的條件下判斷此三元組是否正確,鏈接預測是指在給定缺失尾實體的三元組(eh,r,ex)條件下預測三元組的尾實體ex,在每個數據集上用于測試的正負樣本的比例約為1∶10,其中負樣本是替換正樣本的尾實體生成的.

    為了驗證本文方法的有效性,我們將TransPath模型與3類方法做對照試驗:

    1)嵌入模型.嵌入模型在鏈接預測和事實預測任務上具有較好的性能,在本節(jié)中我們與傳統(tǒng)的嵌入模型TransE[13]、TransD[14]、TransR[15]和TransH[16]方法做對照試驗.

    2)基于路徑的模型.基于路徑的模型比嵌入模型具有更好的多步推理的能力,我們選用經典的PRA[10]方法和目前效果較好的DIVA[19]方法與本文模型做對照試驗.

    3)基于RL的模型.DeepPath[8]方法是第1個被提出的基于RL的方法,AttnPath[11]在DeepPath基礎上增加了LSTM[24]和圖注意力機制[25]作為記憶單元.另外MINERVA[20]重新建模知識圖譜,提出基于查詢的方法,DIVINE[12]提出基于生成對抗的強化學習方法.

    4.3 路徑搜索實驗

    為了分析模型的路徑搜索能力,本文將TransPath模型與同類方法DeepPath和AttnPath方法的路徑搜索成功率進行對比.在源任務上預訓練后,智能體在目標任務上訓練500個epochs,結果如表2所示.

    表2 路徑搜索成功率實驗結果(%)Table 2 Path finding success rate results(%)

    其中DeepPathNoPre表示DeepPath[8]方法中沒有預訓練的模型,AttnPathForce表示AttnPath[11]方法包含強制游走的版本.表2所示的實驗結果表明,盡管沒有強制游走機制,本文方法的路徑搜索成功率比其他方法有顯著提升,尤其是在FB15K-237上,成功率提升了114%.這主要是由于在源任務上的預訓練使智能體學會了在單步游走中選擇有效動作,大大提高了單步游走的成功率,進而提升了多步推理的成功率.

    為了更清楚的展示路徑搜索成功率的提升,我們從NELL-995中選擇了任務athletePlaysInLeague并繪制了該目標任務上微調訓練時路徑搜索成功率的變化曲線.結果如圖3所示.

    圖3 路徑搜索成功率(PFSR)結果Fig.3 Results of path finding success rate(PFSR)

    由圖3可知,在目標任務athletePlaysInLeague上本文方法的路徑搜索成功率有較明顯的提升,而且由于源任務上的預訓練,在前0-50個epochs上,本文方法就能夠很快達到較高的成功率.遷移學習不僅使路徑搜索的成功率得以提升,訓練的初始階段起步也更快.

    4.4 事實預測實驗

    事實預測旨在判斷事實是否為真,對于給定的三元組(eh,r,et),模型通過打分來對其正確性做出評價.傳統(tǒng)的基于深度強化學習的方法延續(xù)了PRA[10]中的評價方法,即采用已挖掘的路徑作為打分依據,將這個三元組符合的路徑個數作為分數,分數越高則認為它越有可能是正樣本.

    表3 事實預測實驗結果Table 3 Fact prediction results

    與先前的方法不同,本文用RL智能體直接為三元組(eh,r,et)打分,打分的步驟如下:1)以eh為起始節(jié)點,將狀態(tài)向量輸入策略網絡;2)策略網絡將當前狀態(tài)的向量映射為選擇每個動作的概率,并據此選擇一個動作;3)RL智能體在知識圖譜環(huán)境中執(zhí)行動作,移到下一結點;4)若此時走過的動作鏈組成了已挖掘的一條路徑,判斷當前結點是否為et,如果是則分數+1并終止,否則分數-1并終止;5)重復步驟2)~4),若達到最大步數則終止并記分數為0.

    本文方法可以將智能體直接用于事實預測,主要是因為源任務上的預訓練使得路徑搜索成功率很高.為了降低偶然因素的影響,本文還采用了多次測試取分數均值的策略.事實預測的實驗結果如表3所示,其中TransPath后的數字表示測試次數.

    由表3所示的實驗結果可知,本文方法在兩個數據集上均達到了最優(yōu)的事實預測性能.其中,在測試次數為1時,就能夠超越DeepPath[8]方法,在測試次數為20時,就能超越AttnPath[11]方法.隨著測試次數的增加,結果逐漸趨于穩(wěn)定,我們測試了在測試次數取500時,在FB15K-237上本文方法結果約為0.42,在NELL-995上約為0.74.

    4.5 鏈接預測實驗

    鏈接預測旨在預測缺失的實體,對于一個測試樣本(eh,r,ex),預測缺失的ex.模型通過打分給候選的尾實體排序.在鏈接預測實驗中,生成負樣本后的數據集被分為訓練集和測試集,我們采用DeepPath[8]中的測試方法,將樣本對每條路徑適配與否作為二值特征,在訓練集上預訓練一個分類模型,并用此模型為測試集中的尾實體打分.鏈接預測實驗結果如表4所示.

    表4 鏈接預測實驗結果Table 4 Link prediction results

    如表4所示,本文方法在FB15K-237上的鏈接預測實驗達到了最優(yōu)性能,在NELL-995數據集上也達到了不錯的效果,略遜于MINERVA及其改進方法,而且本文方法在FB15K-237數據集上比在NELL-995上的性能提升更明顯.一方面,F(xiàn)B15K-237中的平均路徑長度大于NELL-995,無效動作導致的獎勵稀疏也更為嚴重,而本文方法的優(yōu)勢在于緩解無效動作問題,因此在FB15K-237數據集上效果提升更明顯;另一方面,本文方法是在DeepPath基礎上提出的一個改進模型,訓練與測試過程也與DeepPath方法類似,雖然在NELL-995數據集上未達到最優(yōu)性能,但相比于原DeepPath方法,本文方法的性能已有較大提升.

    4.6 遷移學習消融實驗

    為了進一步分析遷移學習中源任務預訓練和目標任務微調訓練的影響,我們對TransPath方法做了如下消融實驗.

    4.6.1 刪除源任務

    為了研究源任務的影響,我們將RL智能體直接在目標任務上訓練,得到模型Target-only,訓練完成后在路徑搜索任務和單步游走任務上測試此模型.

    4.6.2 刪除目標任務

    為了研究目標任務的影響,我們將目標任務上的微調學習刪除,在完成源任務上的預訓練后得到模型Pre-only,直接將模型用于路徑搜索任務和單步游走任務.

    本文將這兩個生成的殘缺模型和TransPath原模型在NELL-995數據集上進行路徑搜索和事實預測的對比實驗,消融實驗的結果如表5所示,其中事實預測任務上3個模型的測試次數統(tǒng)一設為1.

    表5 遷移學習消融實驗結果Table 5 Transfer learning ambition study results

    如表5所示,Pre-only模型在搜索路徑實驗和事實預測實驗的結果都很差,這主要是因為Pre-only模型訓練的只有單步的源任務,而路徑搜索和事實預測都建立在多步的推理任務之上.Target-only模型雖然在目標任務上做了訓練,但由于缺少源任務的訓練,模型選擇有效動作的能力不足,路徑搜索的成功率不高.因此,實驗結果表明,源任務的預訓練對于目標任務的完成具有明顯的提升效果,單一的目標任務訓練無法使模型性能得到充分提高.

    上述消融實驗僅驗證了源任務對于目標任務的影響,缺乏目標任務對源任務影響的進一步分析.因此我們將3個模型在源任務和目標任務上分別進行測試,并在FB15K-237中的filmCountry任務上繪制了它們在目標任務的訓練過程中的成功率變化曲線.源任務上的實驗結果如圖4所示,目標任務上的實驗結果如圖5所示.

    圖4 源任務消融實驗結果(PFSR)Fig.4 Ambition study results on source task(PFSR)

    源任務上的消融實驗結果如圖4所示,Pre-only模型在預訓練后在源任務上的成功率約為92%,而Target-only模型由于缺乏源任務上的訓練,在源任務上單步游走的成功率從0%開始逐漸提升,最高達到20%左右.值得注意的是,TransPath原模型在目標任務的訓練過程中,在源任務上的成功率逐漸下降,最終穩(wěn)定在83%左右.這說明任務遷移后,目標任務上的訓練對智能體源任務具有一定的負面影響,使其在源任務上的成功率下降了約9%.

    目標任務上的消融實驗結果如圖5所示,完整的TransPath模型的路徑搜索成功率比僅有目標任務訓練的Target-only起步更高,提升更快,在前50個epochs就能基本達到最優(yōu)性能,而且在充分訓練后性能仍明顯比Target-only模型更好.所以,源任務不僅顯著加速智能體強化學習,同時使模型具有更好的性能.另外,由于此任務推理路徑較短,Pre-only模型盡管只在源任務上進行了訓練,在目標任務上仍取得了不錯的性能.

    圖5 目標任務消融實驗結果(PFSR)Fig.5 Ambition study results on target task(PFSR)

    5 結 論

    本文提出一種新的基于深度遷移強化學習的知識推理方法TransPath,該模型通過增加有效性驅動的源任務,幫助智能體先學習在單步游走中選擇有效動作,然后再遷移到目標任務上做微調訓練,有效提高了RL智能體的路徑搜索成功率.實驗部分驗證了本文模型不僅有效提升了路徑搜索成功率,而且在事實預測和鏈接預測的大多數任務上表現(xiàn)明顯優(yōu)于同類方法.本文還通過消融實驗對遷移學習的源任務和目標任務的影響做了進一步分析,驗證了源任務的加入有效提高了智能體單步游走和路徑搜索的成功率.

    接下來,我們計劃繼續(xù)研究基于深度強化學習的模型存在的無效動作問題,嘗試用漸進式強化學習與課程學習相結合的方式,提出更有效的解決方案.同時,我們計劃對搜索得到的路徑進行評價,篩除質量較差的路徑,對智能體選擇的路徑質量加以限制,以實現(xiàn)更優(yōu)的模型性能.另外,在消融實驗中我們發(fā)現(xiàn)目標任務上的訓練會影響智能體單步游走的成功率,因此通過多智能體協(xié)作或任務拆分降低遷移學習對源任務的影響也是值得探索的方向.

    猜你喜歡
    圖譜成功率動作
    成功率超70%!一張冬棚賺40萬~50萬元,羅氏沼蝦今年將有多火?
    當代水產(2022年6期)2022-06-29 01:12:02
    如何提高試管嬰兒成功率
    繪一張成長圖譜
    如何提高試管嬰兒成功率
    動作描寫要具體
    畫動作
    補腎強身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    動作描寫不可少
    主動對接你思維的知識圖譜
    非同一般的吃飯動作
    万荣县| 兰州市| 顺昌县| 深圳市| 中西区| 北京市| 罗田县| 西畴县| 乌拉特前旗| 遂平县| 白城市| 金塔县| 自治县| 施甸县| 九寨沟县| 鄂伦春自治旗| 南雄市| 涞源县| 保靖县| 浮山县| 额济纳旗| 彭山县| 盐山县| 武功县| 从化市| 乐都县| 阳新县| 浪卡子县| 六枝特区| 涟水县| 英山县| 西昌市| 林西县| 瑞金市| 揭东县| 揭阳市| 宁化县| 临邑县| 交口县| 易门县| 且末县|