• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度神經(jīng)網(wǎng)絡(luò)的語義角色標(biāo)注

    2018-04-16 07:24:08王明軒
    中文信息學(xué)報 2018年2期
    關(guān)鍵詞:梯度語義向量

    王明軒,劉 群,2

    (1.中國科學(xué)院 計算技術(shù)研究所 智能信息重點實驗室,北京 100190;2.ADAPT Centre,School of Computing,Dublin City University,Glasnevin,Dublin 9,Ireland.)

    0 引言

    語義角色標(biāo)注(SRL)是通往自然語言理解的必由之路,也是一種淺層的語義分析,其主要目標(biāo)是挖掘謂詞和論元之間的關(guān)系。語義角色表明了事件實體的基本性質(zhì)并且提供了一個中間層的語義表示,因此可以對很多自然語言處理任務(wù)起到幫助作用,比如信息抽取[1]、自動問答[2]、機器翻譯[3]等。

    一般認(rèn)為語義角色標(biāo)注任務(wù)和句法分析是相關(guān)的,傳統(tǒng)的語義角色標(biāo)注嚴(yán)重地依賴句法分析結(jié)果,這導(dǎo)致了語義角色標(biāo)注系統(tǒng)的復(fù)雜和領(lǐng)域受限性。研究人員一直在尋找簡單的方法來解決這個問題。Collobert[4]等人提出了一種通用的基于卷積神經(jīng)網(wǎng)絡(luò)的框架去解決這個問題,然而他們依然需要引入句法信息,才能達(dá)到與最好模型接近的水平。Zhou[5]等人試圖構(gòu)建多層LSTM解決該問題,但是在網(wǎng)絡(luò)層數(shù)較深的情況下很難取得理想的結(jié)果。另一方面,為了提升性能,他們也引入了CRF做預(yù)測,導(dǎo)致模型并行比較困難。

    在本文中,我們提出了一種深層的雙向神經(jīng)網(wǎng)絡(luò)模型,它裝備了精心設(shè)計的遞歸單元EU來做語義角色標(biāo)注,這個系統(tǒng)簡稱為DBLSTM-EU。由于語言內(nèi)部存在潛在的復(fù)雜結(jié)構(gòu),因此我們擴展了“時間深度”的概念到“空間深度”,通過將網(wǎng)絡(luò)層層堆棧來構(gòu)造深度模型,捕捉復(fù)雜的語義結(jié)構(gòu)。然而深度網(wǎng)絡(luò)的訓(xùn)練并不是堆棧網(wǎng)絡(luò)那么簡單,模型優(yōu)化隨著網(wǎng)絡(luò)層數(shù)的增加而變得復(fù)雜起來。正如Zhou[5]提到的,當(dāng)網(wǎng)絡(luò)到第六層的時候就很難觀察到性能提升了?!翱臻g深度”也面臨著梯度消失的問題,這個問題和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)應(yīng)用到長的句子的時候所面臨的問題相似。

    為了緩解梯度消失的問題,本文借鑒了LSTM的設(shè)計思路,提出了一個全新的“直梯”單元(EU),混合了線性和非線性信息。通過EU,信息可以在空間和時間維度上更通暢地傳播,并且只存在比較小的信息損失。這個機制讓深度網(wǎng)絡(luò)的訓(xùn)練變得更為容易,而深度的LSTM更容易捕捉句子中潛在的復(fù)雜的內(nèi)部結(jié)構(gòu)。最重要的是EU包含了一個“門”函數(shù),可以動態(tài)地選擇或者忽略信息在垂直方向上的傳播,這樣不同層次的抽象表示就可以更方便地被傳遞到輸出層。

    DBLSTM-EU在CoNLL-2005公開數(shù)據(jù)集上取得了F=81.56%的結(jié)果,在CoNLL-2012公開數(shù)據(jù)集上取得了F=82.53%的結(jié)果,比之前最好的結(jié)果分別提高了0.5%和1.26%,達(dá)到了目前世界上最好的性能。另外,在領(lǐng)域外的數(shù)據(jù)集上DBLSTM-EU取得了2.2%的F值顯著提升。由于該模型比較簡潔,具有易于并行的特性,在單一的K40 GPU上取得了每秒11.8K單詞的解析速度,遠(yuǎn)高傳統(tǒng)的方法。

    1 語義角色標(biāo)注

    給定一個句子,語義角色標(biāo)注的目標(biāo)是識別所有謂詞所對應(yīng)的論元,并且給對應(yīng)的論元進(jìn)行分類,指定不同的語義角色。例如,給定輸入語句“Marry borrowed a book from John last week”,SRL的目標(biāo)就是識別不同論元與謂詞borrowed 的關(guān)系,最后產(chǎn)生下面的輸出:

    [A0 Marry] [V borrowed] [A1 a book] [A2 from John] [AM-TMP last week]

    這里A0代表借東西的人,A1代表被借的東西,A2代表被借東西的人,AM-TMP是介詞短語表明了動作發(fā)生的時間,而V代表對應(yīng)的謂詞borrowed。

    在傳統(tǒng)的標(biāo)注模型中,對角色的標(biāo)注通常分兩步進(jìn)行:識別和分類。識別確定了每一個論元和謂詞之間是否存在語義關(guān)系,而分類是對存在語義關(guān)系的論元指定具體的語義類別的過程。一般情況下,識別部分包含了剪枝,而分類部分包含了后處理,修正標(biāo)記的不一致性。最后會采納動態(tài)規(guī)劃算法搜索全局最優(yōu)的標(biāo)注序列。

    如圖1所示,本文提出了一種極其簡單的標(biāo)記方法。首先,最原始的句子和它對應(yīng)的標(biāo)簽被映射成實數(shù)向量,也就是詞嵌入(word embedding),這個向量作為下一層的輸入。然后,通過一個裝備了EU的深度雙向神經(jīng)網(wǎng)絡(luò)捕捉句子內(nèi)部和標(biāo)簽之間隱含的關(guān)系。圖1中,“L”和“R”分別代表了從左到右和從右到左處理句子的方向。在推斷階段,只有最頂層的隱含狀態(tài)被使用,通過邏輯線性回歸做最后的決策分類。與傳統(tǒng)的序列標(biāo)記任務(wù)不同的是,模型只輸出當(dāng)前概率最大的類別,并不需要全局搜索和剪枝。

    圖1 DBLSTM示意圖

    2 遞歸神經(jīng)網(wǎng)絡(luò)

    遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是具有遞歸連接的一類神經(jīng)網(wǎng)絡(luò),具有部分的記憶功能,網(wǎng)絡(luò)的歷史信息通過遞歸關(guān)系傳播,這樣可以使RNN被應(yīng)用到具有任意長度句子的序列預(yù)測問題上。給定輸入句子x=(x1,x2,…,xT)作為輸入,標(biāo)準(zhǔn)的RNN遞歸地執(zhí)行下面的操作并生成隱藏節(jié)點ht,如式(1)所示。

    ht=H(Wxhxt+Whhht+bh)

    (1)

    其中,H是一個非線性函數(shù),可以是簡單的tanh函數(shù),也可以是一系列非常復(fù)雜的操作,比如LSTM[6]。

    由于每一個隱藏節(jié)點都是所有歷史隱藏節(jié)點的函數(shù),RNN在時間維上具有天然的深度。傳統(tǒng)的RNN訓(xùn)練主要面臨著兩個問題。第一,RNN梯度傳遞路徑過長,導(dǎo)致它比較難捕捉到長距離的依賴關(guān)系。第二, 在處理長句子的時候,容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象。這兩個問題都被深度地探討過[6]。

    3 長短期記憶單元

    長短期記憶(LSTM)是由Hochreiter[6]等人提出來解決長距離依賴和梯度消失的問題。如圖2所示,LSTM包含了記憶單元ct,輸入門it,忘記門ft和輸出門ot。其中,記憶單元儲存了LSTM單元的歷史信息,通過輸入門仔細(xì)地控制當(dāng)前輸入有哪部分可以被存儲進(jìn)來,通過忘記門控制歷史信息有多少應(yīng)該被忘記。最后,輸出門被用來決定有多少信息可以被輸出進(jìn)行決策。正式的,LSTM通過下面的方式進(jìn)行計算:

    (2)

    圖2 LSTM單元信息流動圖

    這里σ是sigmoid激活函數(shù),為了方便起見,我們將公式簡寫為式(3)。

    [ht,ct]=LSTM(xt,ht-1,ct-1)

    (3)

    最近,Cho[14]等人提出了門遞歸神經(jīng)元(gated recurrent unit,GRU)中采用了自適應(yīng)的記憶和忘記策略,與LSTM取得了相當(dāng)?shù)慕Y(jié)果。

    4 深度的雙向LSTM和EU

    這部分我們首先討論LSTM的雙向組合方式,隨后介紹新提出的神經(jīng)元EU。

    4.1 深度雙向LSTM

    如圖1所示,我們提出了一個深度的雙向LSTM(DBLSTM)來解決SRL這個典型的序列標(biāo)注問題。

    傳統(tǒng)RNN的一個缺點是只能利用序列過去的信息。在序列標(biāo)注問題上,整個句子的信息實際上是一次就可以得到的,所以沒有理由不利用未來的信息。因而,雙向連接的LSTM被提出來了,它可以充分利用過去和未來的信息。典型的雙向LSTM分別從前向和后向兩個方向處理原始輸入,然后將這兩個輸出連接起來。在這里,我們采用了Zhou[5]的方法,以獲得更復(fù)雜的依賴關(guān)系。具體來說,第一個LSTM層正向地處理輸入的句子,這層的輸出直接作為下一個層的輸入,然后進(jìn)行反向的處理。這樣做的好處是,同樣多的參數(shù),可以獲得在空間上更深的神經(jīng)網(wǎng)絡(luò)。

    為了增強模型的表達(dá)能力,我們也增加了神經(jīng)網(wǎng)絡(luò)的模型深度。在這種拓?fù)浣Y(jié)構(gòu)中,第l層的輸入恰好就是第l-1層的輸出。更正式地,給定一個輸入序列x=(x1,x2,…,xT),第l層的輸出如式(4)所示。

    (4)

    4.2 基于LSTM的EU

    (5)

    圖3 EU與LSTM的差異圖

    5 語義角色標(biāo)注流程

    神經(jīng)網(wǎng)絡(luò)處理離散數(shù)據(jù)的第一步就是把離散符號映射到實數(shù)向量的表示形式,也就是word embedding。DBLSTM-EU 采用最原始的語句和對應(yīng)的預(yù)測標(biāo)記m作為輸入特征。m設(shè)置為1表示當(dāng)前詞是需要被預(yù)測的謂詞,設(shè)為0則表示是要預(yù)測關(guān)系的論元。一個輸入實例里包含一個謂詞1,如果一個句子有多個謂詞,那么就分多次處理。正如圖1所示,謂詞borrowed就被標(biāo)記為1。

    在SRL任務(wù)中,詞匯表表示為?,標(biāo)記集合表示為C∈{0,1}。給定輸入序列{w1,w2…,wT}和標(biāo)記序列{m1,m2…,mT},輸入詞wt∈r與其對應(yīng)的標(biāo)記mt∈C通過查找表(lookup table),被映射為實數(shù)向量的表示形式e(wt)和e(mt)。這兩個向量連接起來組成xt=[e(wt),e(mt)]作為DBLSTM-EU第一層的輸入。

    然后我們建立深度的雙向神經(jīng)網(wǎng)絡(luò)(DBLSTM-EU)學(xué)習(xí)句子的序列化和結(jié)構(gòu)化信息,最后只有網(wǎng)絡(luò)最頂層的被用作標(biāo)記預(yù)測。由于標(biāo)簽之間也存在著轉(zhuǎn)移概率,之前的大部分工作都引入了標(biāo)簽之間的跳轉(zhuǎn)概率進(jìn)行建模。DBLSTM-EU采用了更簡單的模式,SRL被當(dāng)作一個典型的分類問題來處理,標(biāo)簽之間的轉(zhuǎn)移概率都被隱含在RNN序列的隱狀態(tài)之間。與前人的工作相比,DBLSTM-EU更易于并行和實現(xiàn)。

    給定特定的輸入特征序列x={x,x2,…,xT},其對應(yīng)的正確標(biāo)記序列y={y1,y2,…,yT}的對數(shù)似然估計如式(6)所示。

    logp(y;θ)=∑logp(yT|x;θ)

    (6)

    模型預(yù)測標(biāo)簽yt依賴于對應(yīng)的DBLSTM-EU的隱狀態(tài)ht,如式(7)所示。

    p(yt|x;θ)=softmax(Woht)TδyT

    (7)

    6 實驗和分析

    實驗主要基于公開數(shù)據(jù)集合CoNLL-2005和CoNLL-2012。

    6.1 數(shù)據(jù)說明

    與前人工作相似,我們用CoNLL-2005第2~21節(jié)的Wall Street Journal (WSJ)作為訓(xùn)練集,第24節(jié)作為開發(fā)集。測試集包含了WSJ的第23節(jié)和Brown corpus的3節(jié)。更具體的設(shè)置說明可以參考Pradhan[7]的說明。

    6.2 實驗細(xì)節(jié)

    初始化所有的遞歸矩陣都被隨機初始化為正交矩陣,所有的偏移都被初始化為0。其他的參數(shù)都隨機從均值為0和方差為0.01的高斯分布中獲取。詞向量也可以從預(yù)先訓(xùn)練好的詞向量進(jìn)行初始化,關(guān)于這部分的影響,6.3節(jié)進(jìn)行了進(jìn)一步討論。

    設(shè)置隱節(jié)點的維度設(shè)置為256,增加維度并不能再提高效果。詞向量和標(biāo)記的維度都是128。

    學(xué)習(xí)策略參數(shù)的優(yōu)化采用了隨機梯度下降(SGD),Adadelta[8]被用來進(jìn)行自適應(yīng)的學(xué)習(xí)率。為了避免梯度爆炸的情況,我們對梯度進(jìn)行了l2規(guī)范,超過1.0的梯度都被進(jìn)行了規(guī)范。模型的批處理值設(shè)置為80。

    6.3 實驗結(jié)果

    表1展示了DBLSTM-EU與前人工作的對比。在CoNLL-2005上,Pradhan[7]綜合了三種句法分析的結(jié)果,F(xiàn)值為77.3%。Collobert[4]提出了一個通用的卷積神經(jīng)網(wǎng)絡(luò)模型解決這個問題,借助句法分析的結(jié)果,可以接近當(dāng)時的最好結(jié)果。Zhou[5]利用LSTM和CRF,并利用了少量的詞匯化特征,取得了81.07%F值,然而對于領(lǐng)域外數(shù)據(jù),他們的表現(xiàn)并不理想。DBLSTM-EU做了最少的特征工程,僅僅依靠增加模型深度,在這個數(shù)據(jù)集上得到了當(dāng)前世界上最好的性能:F值81.56%。值得一提的是,本文方法在領(lǐng)域外數(shù)據(jù)集Brown上的表現(xiàn)更為出色。因此,我們推測,深度模型對領(lǐng)域適應(yīng)是有幫助的,因為更深的模型提供了更多層次的抽象,可以捕捉到句子微妙的語義信息。在CoNLL-2012測試集上,DBLSTM-EU 取得了更好的結(jié)果,比前人最好結(jié)果的F值提高了1.3%。CoNLL-2012比CoNLL-2005有更多的數(shù)據(jù),也部分說明了在大數(shù)據(jù)情況下,深度模型會有更好的表現(xiàn)。

    表1 與前人工作對比

    續(xù)表

    6.4 實驗分析

    Resvs.EU如圖1所示,我們首先比較了“殘差” 網(wǎng)絡(luò)(ResNet)和EU,構(gòu)造了與DBLSTM-EU類似的網(wǎng)絡(luò),命名為DBLSTM-Res。裝備了“殘差”連接的深度卷積神經(jīng)網(wǎng)絡(luò),在圖像識別上取得了巨大的突破,也是目前最成功的跨層連接網(wǎng)絡(luò)[17]。與“殘差”相比,EU具有兩個優(yōu)勢:(1)EU裝備了“門”函數(shù),可以擴大正則線性輸入和非線性輸入的規(guī)模; (2)EU是神經(jīng)元內(nèi)部結(jié)構(gòu)的變化,線性信息可以在時間和空間兩個維度傳播。從試驗也可以看出,DBLSTM-EU在兩個測試集上都比DBLSTM-Res有一定的優(yōu)勢。

    雙向vs.單向從表2第一行和第二行可以看出,雙向模型比單向模型有非常明顯的提升,分別為68.33%、60.62%??梢哉f明,未來的文本信息對預(yù)測起著至關(guān)重要的作用。為了簡潔起見,我們在隨后的實驗中不再對比這個因素的影響。

    表2 實驗結(jié)果分析

    詞向量之前的工作已經(jīng)發(fā)現(xiàn)詞向量在大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練對分類結(jié)果非常重要。 然而,在和句法相關(guān)的任務(wù)中,不考慮詞序的詞向量模型表現(xiàn)得不夠好。因此我們用了大量英語維基百科(EWK.)的數(shù)據(jù),用神經(jīng)網(wǎng)絡(luò)語言模型(NLM[18])得到了詞向量。表2第三行展示了使用EWK初始化詞向量可以帶來的顯著提升。

    模型規(guī)模模型規(guī)模是影響神經(jīng)網(wǎng)絡(luò)性能的重要因素。為了公平起見,我們擴大了對比模型的寬度,從256到512,但是并沒有發(fā)現(xiàn)更高的性能提升,說明簡單增加模型參數(shù)并不能帶來持續(xù)的收益。雖然模型深度的增加可以帶來持續(xù)的收益,但是當(dāng)深度擴大到六層的時候,訓(xùn)練開始變得很難,甚至結(jié)果會下降。

    EU的影響當(dāng)模型足夠深的時候,EU可以有效地幫助模型的訓(xùn)練。圖4給出了詳細(xì)的比較,可以發(fā)現(xiàn)即使18層的LSTM也能得到比較好的訓(xùn)練,直到20層才出現(xiàn)了微弱的下降。然而沒有EU,模型性能到六層就不再持續(xù)增長,到20層,性能已經(jīng)有了顯著下降。

    圖4 深度對SRL影響分析

    句長分析更詳細(xì)的分析結(jié)果如圖5所示,實線代表DBLSTM-EU的實驗結(jié)果,虛線代表Zhou[5]的實驗結(jié)果。上面兩條線是領(lǐng)域內(nèi)的結(jié)果,下面兩條線是領(lǐng)域外的結(jié)果。從圖5可以看出,DBLSTM-EU 在句子長度比較長的時候表現(xiàn)更好。一個可能的解釋是,句子比較長的時候,句子內(nèi)部的語義結(jié)構(gòu)更為復(fù)雜,需要更深的模型捕捉這種長距離的潛在的語義結(jié)構(gòu)。另外我們可以發(fā)現(xiàn),在領(lǐng)域外數(shù)據(jù)上DBLSTM-EU和Zhou[5]的模型比有更明顯的優(yōu)勢,也說明了深度模型可能帶來更好的泛化能力。

    圖5 模型在不同句長的實驗結(jié)果

    7 相關(guān)工作

    SRLGildea[18]開發(fā)了第一個基于FrameNet的自動語義角色標(biāo)注系統(tǒng)。此后語義角色標(biāo)注得到了持續(xù)的關(guān)注和發(fā)展。一部分工作聚焦于擴展SRL的句法特征,希望可以獲取句子的全局信息[10-15]。也有一部分工作試圖融合多種不同的句法分析結(jié)果,提供更魯棒的句法分析特征[16-17]。

    除了傳統(tǒng)的方法,Collobert[4]等人提出了基于卷積神經(jīng)網(wǎng)絡(luò)的方法處理一系列自然語言處理問題,SRL正是其中之一,然而相對于其他幾個問題,這個模型在SRL上的表現(xiàn)相對不夠出色。Zhou[5]等人進(jìn)一步利用LSTM引入了少量的詞匯化信息,取得了不錯的實驗結(jié)果。DBLSTM-EU受到 Zhou[5]等人工作的啟發(fā),通過增加模型深度來抓取語義信息,進(jìn)一步簡化了模型的特征和推斷策略,更易于實現(xiàn),并且有更快的解碼速度。

    深度學(xué)習(xí)遞歸神經(jīng)網(wǎng)絡(luò)通過循環(huán)的操作存儲上下文信息,可以被應(yīng)用到各種序列相關(guān)的問題上。一些基于“門”控制的遞歸神經(jīng)網(wǎng)絡(luò)也被逐漸提出,比如LSTM和GRU。這些方法可以捕捉更長距離的信息,而且可以有效緩解梯度消失的問題。傳統(tǒng)的RNN只依賴于過去的歷史信息,雙向的RNN被提出,同時也可以獲取未來的信息[18]。將RNN堆棧起來,組成更深的網(wǎng)絡(luò)也取得了不錯的結(jié)果。近期研究人員利用深度模型在多種任務(wù)上都取得了比較好的實驗結(jié)果[22]。

    我們的工作和優(yōu)化深層網(wǎng)絡(luò)也有關(guān)系。Srivastava[19]提出了Highway,在卷積神經(jīng)網(wǎng)絡(luò)之間加入了線性連接,我們和他們的思路相似,但是我們的模型主要改變了神經(jīng)網(wǎng)絡(luò)單元的內(nèi)部結(jié)構(gòu),在時間和空間兩個維度上都可以優(yōu)化梯度傳遞。Chung[20]等人在多層LSTM之間都加入了全連接,提供了更好的層與層之間的交互。Kalchbrenner[11]提出了更為通用的跨層連接的LSTM模型。He[21]提出了更為簡單的跨層連接方式——“殘差”網(wǎng)絡(luò)。EU和這些工作都有相同的思想,盡可能在深層網(wǎng)絡(luò)之間加入跨層的線性連接,主要區(qū)別在于解決的方式不同。

    8 總結(jié)

    本文提出了一種通用的雙向深度LSTM模型(DBLSTM-EU),用以解決語義角色標(biāo)注問題,為了方便訓(xùn)練深度模型,我們提出了EU解決梯度消失在空間傳播的問題。在CoNLL-2005和CoNLL-2012兩個公開數(shù)據(jù)集上取得了目前最好的結(jié)果。

    DBLSTM-EU并沒有對任務(wù)本身做任何假設(shè),具有廣泛的適用性,可以被應(yīng)用在其他自然語言處理任務(wù)上。另一方面,我們通過EU構(gòu)造了18層的遞歸神經(jīng)網(wǎng)絡(luò),是已知自然語言處理領(lǐng)域最深的遞歸神經(jīng)網(wǎng)絡(luò),為深度網(wǎng)絡(luò)在自然語言處理領(lǐng)域的應(yīng)用提供了借鑒。

    [1]Emanuele Bastianelli,Giuseppe Castellucci,Danilo Croce,et al.Textual inference and meaning representation in human robot interaction[C]//Proceedings of the Joint Symposium on Semantic Processing.Textual Inference and Structures in Corpora,2013:65-69.

    [2]Shen Dan,Mirella Lapata.Using semantic roles to improve question answering[C]//Proceedings of the EMNLP-CoNLL,2007:12-21.

    [3]Kevin Knight,Steve K Luk.Building a large-scale knowledge base for machine translation[C]//Proceedings of the AAAI,1994,94:773-778.

    [4]Ronan Collobert,Jason Weston,Léon Bottou,et al.Natural language processing (almost) from scratch[J].Journal of Machine Learning Research,2011,12:2493-2537.

    [5]Jie Zhou,Wei Xu.End-to-end learning of semantic role labeling using recurrent neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,Beijing,China,2015:1127-1137.

    [6]Sepp Hochreiter,Jürgen Schmidhuber.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.

    [7]Sameer Pradhan,Kadri Hacioglu,Wayne Ward,et al.Semantic role chunking combining complementary syntactic views[C]//Proceedings of the Conference on Computational Natural Language Learning ,2005:217-220.

    [8]Matthew D Zeiler.Adadelta:an adaptive learning rate method[C]//arXiv preprint arXiv:1212.5701.2012.

    [9]Daniel Gildea,Daniel Jurafsky.Automatic labeling of semantic roles[J].Computational linguistics,2002,28(3):245-288.

    [10]Mihai Surdeanu,Lluís Màrquez,Xavier Carreras,et al.Combination strategies for semantic role labeling[J].Journal of Artificial Intelligence Research,2007,29:105-151.

    [11]Nal Kalchbrenner,Ivo Danihelka,and Alex Graves.2015.Grid long short-term memory[C]//arXiv preprintarXiv:1507.01526.2015.

    [12]Xavier Carreras,Lluís Màrquez.Introduction to the CoNLL-2005 shared task:semantic role labeling[C]//Proceedings of the 9th Conference on Computational Natural Language Learning (CoNLL-2005),2005:152-164.

    [13]Dekai Wu,Pascale Fung.Semantic roles for SMT:a hybrid two-pass model[C]//Proceeding of the Conference:Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2009:13-16.

    [14]孫萌,姚建民,呂雅娟,等.基于最大熵短語重排序模型的特征抽取算法改進(jìn)[J].中文信息學(xué)報,2011,25(2):78-83.

    [15]宋毅君,王瑞波,李濟洪,等.基于條件隨機場的漢語框架語義角色自動標(biāo)注[J].中文信息學(xué)報,2014,28(3):36-47.

    [16]熊皓,劉群,呂雅娟.聯(lián)合語義角色標(biāo)注和指代消解[J].中文信息學(xué)報,2013,27(6):58-69.

    [17]王臻,常寶寶,穗志方.基于分層輸出神經(jīng)網(wǎng)絡(luò)的漢語語義角色標(biāo)注[J].中文信息學(xué)報,2014,28(6):56-61.

    [18]Mike Schuster and Kuldip K Paliwal.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

    [19]Rupesh Kumar Srivastava,Klaus Greff,Jürgen Schmidhuber,et al.Highway Networks[C]// arXiv preprint arXiv:1505.00387.2015.

    [20]Junyoung Chung,Caglar Gulcehre,Kyunghyun Cho,et al.Gated feedback recurrent neural networks[J].Computer Science,2015:2067-2075.

    [21]Kaiming He,Xiangyu Zhang,Shaoqing Ren,et al.Deep residual learning for image recognition[R].arXiv preprint arXiv:1512.03385.2015.

    王明軒(1989—),博士,主要研究領(lǐng)域為自然語言處理,深度學(xué)習(xí)。E-mail:xuanswang@tencent.com

    劉群(1966—),博士生導(dǎo)師,研究員,主要研究領(lǐng)域為機器翻譯,自然語言處理。E-mail:liuqun@ict.ac.cn

    猜你喜歡
    梯度語義向量
    向量的分解
    一個改進(jìn)的WYL型三項共軛梯度法
    聚焦“向量與三角”創(chuàng)新題
    一種自適應(yīng)Dai-Liao共軛梯度法
    語言與語義
    一類扭積形式的梯度近Ricci孤立子
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    向量垂直在解析幾何中的應(yīng)用
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    認(rèn)知范疇模糊與語義模糊
    五家渠市| 黄冈市| 栾川县| 阳江市| 中江县| 全南县| 绥棱县| 蓝田县| 全椒县| 尼勒克县| 分宜县| 红河县| 呈贡县| 包头市| 五家渠市| 蒲江县| 平凉市| 蓬安县| 延庆县| 平湖市| 鹤壁市| 永嘉县| 临江市| 十堰市| 长岛县| 田林县| 荆门市| 繁峙县| 康保县| 大城县| 恭城| 诏安县| 绥芬河市| 兴国县| 涡阳县| 灵丘县| 平罗县| 凤冈县| 汉寿县| 财经| 梧州市|