• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      實(shí)體語義關(guān)系分類及應(yīng)用研究

      2019-03-18 02:14:32李楓林柯佳
      現(xiàn)代情報 2019年2期
      關(guān)鍵詞:深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

      李楓 林柯佳

      摘要:[目的/意義]實(shí)體語義關(guān)系分類是信息抽取重要任務(wù)之一,將非結(jié)構(gòu)化文本轉(zhuǎn)化成結(jié)構(gòu)化知識,是構(gòu)建領(lǐng)域本體、知識圖譜、開發(fā)問答系統(tǒng)、信息檢索系統(tǒng)的基礎(chǔ)工作。[方法/過程]本文詳細(xì)梳理了實(shí)體語義關(guān)系分類的發(fā)展歷程,從技術(shù)方法、應(yīng)用領(lǐng)域兩方面回顧和總結(jié)了近5年國內(nèi)外的最新研究成果,并指出了研究的不足及未來的研究方向。[結(jié)果/結(jié)論]熱門的深度學(xué)習(xí)方法拋棄了傳統(tǒng)淺層機(jī)器學(xué)習(xí)方法繁瑣的特征工程,自動學(xué)習(xí)文本特征,實(shí)驗(yàn)發(fā)現(xiàn),在神經(jīng)網(wǎng)絡(luò)模型中融入詞法、句法特征、引入注意力機(jī)制能有效提升關(guān)系分類性能。

      關(guān)鍵詞:實(shí)體語義關(guān)系;關(guān)系分類;神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)

      DOI:10.3969/j.issn.1008-0821.2019.02.006

      〔中圖分類號〕TP391〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2019)02-0047-10

      近年來,云計算、大數(shù)據(jù)迅猛發(fā)展,如何快速有效地從海量異構(gòu)的非結(jié)構(gòu)化數(shù)據(jù)中抽取出有價值的信息成為文本挖掘的主要任務(wù)。文本表達(dá)具有復(fù)雜性、多樣性、歧義性等特點(diǎn),實(shí)體語義關(guān)系分類一直是學(xué)術(shù)界和工業(yè)界的關(guān)注熱點(diǎn)。1998年,美國消息理解會議MUC(Message Understanding Conference)首次引入實(shí)體語義關(guān)系分類任務(wù),Culotta A等[1]對實(shí)體關(guān)系分類任務(wù)定義為“輸入一段文本,發(fā)現(xiàn)每句話中的實(shí)體及其之間的語義關(guān)系”,其包括兩個子任務(wù):1)判斷實(shí)體對是否存在關(guān)系;2)若存在關(guān)系,將其劃分到預(yù)先定義的類別中。實(shí)體關(guān)系分類是建立知識庫的基礎(chǔ)工作,對開發(fā)知識圖譜、信息檢索系統(tǒng)、智能問答助手都具有重要意義。

      本文的研究主要是指從一句話中抽取出兩個實(shí)體及語義關(guān)系,用三元組(實(shí)體1,關(guān)系,實(shí)體2)表示,不涉及高階、跨句子、多元實(shí)體語義關(guān)系分類及關(guān)系推理。傳統(tǒng)的知識工程方法和機(jī)器學(xué)習(xí)方法需要大量費(fèi)時耗力的“特征工程”,近幾年,隨著深度學(xué)習(xí)方法在多個NLP任務(wù)的廣泛應(yīng)用,學(xué)者也開始嘗試將深度學(xué)習(xí)方法應(yīng)用到實(shí)體語義關(guān)系分類任務(wù)中,研究領(lǐng)域也從限定領(lǐng)域發(fā)展到開放領(lǐng)域,本文從研究方法和研究領(lǐng)域兩方面入手,梳理和回顧近5年實(shí)體關(guān)系分類的研究進(jìn)展,以求把握其研究方向與趨勢,為今后學(xué)者的研究提供參考和幫助。

      1實(shí)體語義關(guān)系分類評測會議

      為了推動實(shí)體語義關(guān)系分類的發(fā)展,多年來國內(nèi)外知名會議(見表1)組織了不同的關(guān)系分類競賽。

      1.1國際評測會議

      1998年,第七屆美國消息理解會議MUC首次引入了實(shí)體語義關(guān)系分類(模板關(guān)系,Template Relation)任務(wù)。會議語料主要來自限定領(lǐng)域的新聞?wù)Z料,飛機(jī)失事事件和航天器發(fā)射事件,預(yù)先定義了3種實(shí)體關(guān)系:Location-of、Employee-of和Product-of。

      2000年,美國國家標(biāo)準(zhǔn)技術(shù)研究院開始組織自動內(nèi)容抽取ACE(Automatic Content Extraction)評測,任務(wù)之一就是實(shí)體關(guān)系識別(Relation Detection and Recognition,RDR)。會議語料主要來源于新聞,預(yù)先定義了人物、組織機(jī)構(gòu)、物理位置、局部與整體等7大類關(guān)系。與MUC相比,ACE評測不針對某個具體場景,ACE2008還增加了跨文檔關(guān)系抽取,用來發(fā)現(xiàn)全局實(shí)體間的關(guān)系。

      2009年,美國國家標(biāo)準(zhǔn)與技術(shù)研究院組織的國際文本分析會議(Text Analysis Conference,TAC),將關(guān)系分類任務(wù)并入到構(gòu)建知識庫的槽填充(Slot-Filling)任務(wù),涉及關(guān)于PER(人物)的25種屬性和ORG(組織)的16種屬性,使用英語維基百科作為知識庫,要求參賽者從大規(guī)模文本中找到指定實(shí)體及其屬性。

      2010年,國際語義評測會議SemEval(Semantic Evaluation)引入了實(shí)體語義關(guān)系分類任務(wù),SemEval 2010-task8預(yù)先定義了9種有方向的關(guān)系和other類(不屬于9種類別)。

      2017年,國際語義評測會議SemEval引入了科技文獻(xiàn)(計算機(jī)、材料科學(xué)、物理學(xué)期刊論文)實(shí)體語義關(guān)系分類任務(wù),實(shí)體分為3大類:過程Process(包括模型、算法、過程)、任務(wù)Task(包括目的、問題、任務(wù))、材料Material(包括資源),實(shí)體關(guān)系分為3種:下義詞Hyponym-of、同義詞Synonym-of、無關(guān)系unrelated。

      2018年,國際語義評測會議SemEval也引入了科技文獻(xiàn)(ACL論文集)實(shí)體語義關(guān)系分類任務(wù),包括兩個子任務(wù):1)關(guān)系抽取;2)關(guān)系分類,預(yù)先定義了5種不對稱的關(guān)系:“方法Usage”、“結(jié)果Result”、“模型—特征Model-feature”、“部分—整體Part-whole”、“主題Topic”和對稱關(guān)系“比較Compare”和關(guān)系“Order-independent”。

      1.2國內(nèi)評測會議

      國內(nèi)實(shí)體語義關(guān)系分類研究起步較晚,公開的中文評測語料是第八屆中文情感傾向性評測(The Eighth Chinese Opinion Analysis Evaluation)會議標(biāo)注的微博語料COAE2016-task3,其包括兩個子任務(wù):1)識別出包含實(shí)體關(guān)系的句子并完成實(shí)體關(guān)系分類;2)抽取出每個包含實(shí)體關(guān)系的句子中具有特定關(guān)系的實(shí)體對。

      實(shí)體語義關(guān)系分類研究是以MUC、ACE、SemEval評測會議提出的任務(wù)展開的,其技術(shù)方法也由人工標(biāo)注語料、基于機(jī)器學(xué)習(xí)的“特征工程”方法發(fā)展到無需人工標(biāo)注,機(jī)器自動學(xué)習(xí)、抽取特征的深度學(xué)習(xí)[2]方法。

      2任務(wù)描述及評測標(biāo)準(zhǔn)

      實(shí)體關(guān)系分類的研究領(lǐng)域主要包括限定領(lǐng)域和開放領(lǐng)域。根據(jù)對標(biāo)注數(shù)據(jù)的依賴程度,關(guān)系分類方法可分為有監(jiān)督方法、弱監(jiān)督方法、無監(jiān)督方法。近幾年,限定域的實(shí)體關(guān)系分類主要采用有監(jiān)督的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型完成,開放域的實(shí)體關(guān)系分類采用弱監(jiān)督遠(yuǎn)程監(jiān)督方法結(jié)合神經(jīng)網(wǎng)絡(luò)模型完成。限定域的實(shí)體關(guān)系分類評測采用信息檢索領(lǐng)域的F1值(召回率和準(zhǔn)確率)作為評價標(biāo)準(zhǔn)。遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系分類除了F1值,還需要進(jìn)行留出法(Held-out)評價和人工(Manual)評價。

      留出法評價:將知識庫中每種關(guān)系的所有關(guān)系實(shí)例分為互斥的兩部分:一部分用于自動標(biāo)注訓(xùn)練實(shí)例;另一部分用于測試新發(fā)現(xiàn)的關(guān)系實(shí)例,評估模型的泛化能力。例如以知識庫Freebase中存在的關(guān)系三元組作為標(biāo)準(zhǔn),沒有出現(xiàn)在知識庫中的關(guān)系實(shí)例都認(rèn)為是負(fù)樣本。留出法評價的優(yōu)點(diǎn)在于:速度快、無需人工介入,可用來調(diào)試算法的參數(shù);缺點(diǎn)在于:無法處理知識庫不完備導(dǎo)致的“偽正例(False Positive)”情況,采用人工評價修正。

      人工評價:人工檢查關(guān)系實(shí)例,找出那些標(biāo)簽為無關(guān)系(NA)但實(shí)際有關(guān)系的實(shí)體對,判定每種關(guān)系中置信度最高的K個(Top-K)新發(fā)現(xiàn)關(guān)系實(shí)例,對前N個抽取的關(guān)系實(shí)例評分(按照置信度排序),計算“前K個實(shí)例的準(zhǔn)確率”,使用Top-K作為評測指標(biāo),判斷模型預(yù)測的準(zhǔn)確率。

      3熱門研究方法—深度學(xué)習(xí)方法

      深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,是一種表示學(xué)習(xí)(Representation Learning)方法,區(qū)別于傳統(tǒng)淺層機(jī)器學(xué)習(xí),通過含有多個隱藏層的神經(jīng)網(wǎng)絡(luò)建模海量數(shù)據(jù),自動學(xué)習(xí)文本特征,能夠在保證準(zhǔn)確率的前提下大幅減少人工標(biāo)注和復(fù)雜的特征工程,具有較強(qiáng)的泛化能力,近幾年被廣泛應(yīng)用于實(shí)體語義關(guān)系分類任務(wù)。

      深度學(xué)習(xí)方法與傳統(tǒng)淺層機(jī)器學(xué)習(xí)方法相比,具有3個特點(diǎn)(見表2):

      1)模型能夠無監(jiān)督學(xué)習(xí),直接將組成句子的詞向量序列輸入到神經(jīng)網(wǎng)絡(luò),無需自然語言處理工具預(yù)處理文本,也可以有監(jiān)督學(xué)習(xí),預(yù)先標(biāo)注語料,引入外部特征用于提高性能。

      2)多層特征表示。深度學(xué)習(xí)模型以原始文本作為輸入,將訓(xùn)練樣本的特征變換到一個新的特征空間,在輸入層和輸出層之間包含若干個隱藏層(Hidden Layer),包含更多的非線性變換,模型逐層抽取特征,將當(dāng)前層的輸出作為下一層的輸入,用于分類或預(yù)測。

      3)模型用低維、實(shí)數(shù)詞嵌入表示單詞(詞語),一方面解決了高維0~1詞向量帶來的數(shù)據(jù)稀疏問題;另一方面詞嵌入每一維度代表了一定的語義信息,能夠幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征。

      神經(jīng)網(wǎng)絡(luò)模型按照模型結(jié)構(gòu)的不同分為4大類:遞歸神經(jīng)網(wǎng)絡(luò)RecNN[3](Recursive Neural Network)、卷積神經(jīng)網(wǎng)絡(luò)CNN[4](Convolutional Neural Network)、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[5]( Recurrent Neural Network)及RNN改進(jìn)模型長短時記憶網(wǎng)絡(luò)LSTM[6](Long Short-Term Memory Network)和門控循環(huán)單元 GRU[7](Gated Recurrent Unit)。

      3.1限定域關(guān)系分類

      限定域的關(guān)系分類需要人工預(yù)先定義關(guān)系類別,使用不同的機(jī)器學(xué)習(xí)分類器將實(shí)體對劃分到預(yù)先定義好的關(guān)系類別中。目前限定域的公開評測語料主要包括ACE2005、SemEval 2010-task8。在ACE 2005數(shù)據(jù)集中,90%的實(shí)體對不存在語義關(guān)系,任務(wù)要點(diǎn)在于實(shí)體關(guān)系判別(是否存在關(guān)系),在SemEval 2010 task8數(shù)據(jù)集中,83%的實(shí)體對存在語義關(guān)系,任務(wù)要點(diǎn)在于實(shí)體關(guān)系分類,所以本文涉及的關(guān)系分類任務(wù)大多是在SemEval 2010-task8語料上完成。

      根據(jù)神經(jīng)網(wǎng)絡(luò)模型融入特征的不同,將融入神經(jīng)網(wǎng)絡(luò)模型的特征分為詞法特征和句法特征。

      3.1.1引入詞法特征(Lexical? Feature)

      1)語義詞典WordNet

      借助語義詞典Wordnet,對同義詞關(guān)系聚類,同時指明了實(shí)體類型。2013年,Liu C Y等[8]首次提出將語義詞典WordNet中的同義詞關(guān)系、詞性、實(shí)體類別等詞匯特征融入到卷積神經(jīng)網(wǎng)絡(luò)中,完成關(guān)系分類任務(wù)。

      2)詞匯相對位置特征(Position Feature)

      2014年,Zeng D等[9]首次提出將句子每個單詞與實(shí)體對的相對位置、實(shí)體上位詞(語義詞典WordNet)輸入到CNN模型中,實(shí)驗(yàn)發(fā)現(xiàn)語義詞典的上位詞、相對位置特征能顯著提高關(guān)系分類性能,后來的學(xué)者大多沿用了此方法。盡管Zeng D提出的相對位置特征顯著提升了性能,但由于CNN模型只能學(xué)習(xí)窗口內(nèi)局部詞序特征,為了捕獲更長的單詞序列特征,Zhang D等[10]嘗試直接使用標(biāo)簽表示兩個實(shí)體的位置,使用RNN模型更好的學(xué)習(xí)當(dāng)前句子的前文特征。實(shí)驗(yàn)對比RNN模型與CNN模型發(fā)現(xiàn),RNN對于長文本建模更有優(yōu)勢。由于RNN模型存在梯度消失和梯度爆炸的問題,后來的學(xué)者嘗試使用RNN模型的改進(jìn)模型—長短時記憶網(wǎng)絡(luò)LSTM和門控循環(huán)單元GRU研究關(guān)系分類問題。Zhang S等[11]提出使用雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)建模句子,實(shí)驗(yàn)發(fā)現(xiàn)雙向LSTM相比單向LSTM優(yōu)勢在于能捕獲句子上下文特征。

      3.1.2引入句法特征(Syntactic Feature)

      1)依存句法

      依存句法通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示句子中各詞語的語義修飾關(guān)系,分析出句子的主謂賓、定狀補(bǔ)結(jié)構(gòu)。

      2012年,Socher R等[12]首次使用矩陣—矢量遞歸神經(jīng)網(wǎng)絡(luò)模型MV-RNN(matrix-vector Recursive Neural Network)對依存句法樹建模實(shí)現(xiàn)關(guān)系分類。Hashimoto K等[13]不同于前人使用隱性權(quán)重賦予重要短語的RecNN模型,而是采用平均參數(shù)的RecNN模型建模句法樹。Xu Y等[14]提出了深度循環(huán)神經(jīng)網(wǎng)絡(luò)模型DRNN(Deep Recurrent Neural Networks),句法樹的兩個子樹輸入到多層RNN中。Li J等[15]對比樹狀模型(Tree-LSTM)和雙向序列模型(Bi-LSTM)在實(shí)體關(guān)系分類任務(wù)上的結(jié)果發(fā)現(xiàn),樹狀模型能建模實(shí)體對遠(yuǎn)距離依賴關(guān)系,性能優(yōu)于序列模型,序列模型實(shí)體對之間的干擾詞影響了抽取結(jié)果。

      2)最短依存樹

      句子最短依存路徑反映了句子實(shí)體之間的依賴關(guān)系,通常最短依存路徑上的詞都是句子的關(guān)鍵詞。

      在英文研究方面,Xu K等[16]使用CNN建模句子最短依存路徑,在模型中引入負(fù)樣本(Negative Sampling),提升關(guān)系分類性能。Xu Y等[17]提出利用SDP-LSTM模型對句子的實(shí)體對進(jìn)行關(guān)系分類。模型充分利用最短依賴路徑SDP(Shortest Dependency Path)確定實(shí)體對的有向關(guān)系,將句法依存樹分成兩個子樹,每個實(shí)體作為子樹的祖先節(jié)點(diǎn),再拼接子樹的特征進(jìn)行關(guān)系分類。為了提高準(zhǔn)確率,作者還使用了多通道的循環(huán)神經(jīng)網(wǎng)絡(luò)。Liu Y等[18]使用遞歸神經(jīng)網(wǎng)絡(luò)建模句法依存樹子樹,使用卷積神經(jīng)網(wǎng)絡(luò)建模句子最短依存路徑。Cai R等[19]將最短依存路徑上詞與詞之間的依存關(guān)系分別編碼輸入到LSTM的兩個通道,將句子相鄰詞對應(yīng)的LSTM輸出和它們的依存關(guān)系LSTM輸出連結(jié)起來作為CNN模型的輸入,經(jīng)過最大池化操作使用3個softmax分類器從正向和反向預(yù)測關(guān)系。

      在中文研究方面,劉燊[20]提出使用SDP-LSTM模型(Short Dependence Paths LSTM),從百度百科文本中抽取實(shí)體對關(guān)系。孫紫陽等[21]在SogouCA新聞?wù)Z料上,采用Bi-LSTM建模句子最短依存路徑,模型融入詞性特征,將LSTM模型的輸出作為CNN模型輸入。

      利用句法樹進(jìn)行實(shí)體關(guān)系分類的不足之處在于關(guān)系分類性能受限于句法分析的正確性,一旦句法分析錯誤,必然影響關(guān)系分類,所以這一方法一般適用于短句子較簡單句子的建模。

      3.1.3句子層面的注意力機(jī)制[22](Attention)

      神經(jīng)網(wǎng)絡(luò)模型將單詞序列無差別的輸入到模型中進(jìn)行表示學(xué)習(xí),無法反映句子關(guān)鍵(動)詞特征,例如句子中的單詞“Work(工作)”對描述“Employ-of”雇傭關(guān)系有重要作用,如果在模型中引入注意力機(jī)制,模型為單詞“Work(工作)”賦予更高的權(quán)重,提升關(guān)系分類的性能。

      李博等[23]使用CNN模型建模最短依存路徑,并引入注意力機(jī)制,針對實(shí)體關(guān)系具有方向性的特點(diǎn),提出了一種正向和反向?qū)嵗Y(jié)合的分類方法。Xiao M等[24]將句子按兩個實(shí)體對分段,使用多層注意力的RNN模型建模上下文,完成關(guān)系分類。Zhou P等[25]在Zhang S[11]基礎(chǔ)上,引入注意力機(jī)制,通過權(quán)重向量連結(jié)LSTM中的每一個時間節(jié)點(diǎn)信息,在沒有使用NLP工具和任何詞法特征的情況下,取得了不錯的性能。王紅等[26]在LSTM模型中引入注意力機(jī)制,并加入單詞位置特征,詞性特征、句法信息,融合句子局部特征和整體特征。

      3.2開放域關(guān)系分類—引入注意力機(jī)制

      遠(yuǎn)程監(jiān)督方法實(shí)現(xiàn)實(shí)體語義關(guān)系分類優(yōu)勢在于無需人工預(yù)先定義關(guān)系類別,利用外部知識庫已有的關(guān)系實(shí)例自動標(biāo)注訓(xùn)練樣本,一定程度上解決了標(biāo)注語料不足的問題。不同于前文使用限定領(lǐng)域語料SemEval 2010-task8,數(shù)據(jù)規(guī)模較小,關(guān)系類別有限且只有正例。

      2009年,Mintz M等[27]首次提出利用已有的外部知識庫三元組啟發(fā)式的訓(xùn)練大規(guī)模語料,自動標(biāo)注訓(xùn)練樣本,使用遠(yuǎn)程監(jiān)督的方法實(shí)現(xiàn)開放域?qū)嶓w語義關(guān)系分類。

      Zeng D等[28]首次提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到遠(yuǎn)程監(jiān)督實(shí)體語義關(guān)系分類任務(wù)上,借鑒多實(shí)例學(xué)習(xí)的方法,從訓(xùn)練集中選取置信度最高的關(guān)系實(shí)例訓(xùn)練模型,實(shí)體對將句子分成3段,每段做最大池化(Max-pooling),增強(qiáng)特征學(xué)習(xí)能力。Lin Y等[29]針對Zeng D[28]只選取包(含有同一實(shí)體對的所有句子)內(nèi)概率最大的關(guān)系語句訓(xùn)練模型,未充分利用語料中包含同一實(shí)體對的所有語句,提出在CNN的全連接層引入句子級別(Sentence-level)的注意力機(jī)制(Attention),為含有同一實(shí)體對的每個句子分配權(quán)重,通過賦予關(guān)系標(biāo)簽正確實(shí)例更大的權(quán)重,錯誤實(shí)例較小的權(quán)重,減少噪聲,提高關(guān)系預(yù)測準(zhǔn)確度。Ji G等[30]在Lin Y[29]模型基礎(chǔ)上,將外部知識圖譜的實(shí)體描述信息添加到模型中,強(qiáng)化語義表示能力,改變Lin Y[29]注意力權(quán)重的計算方法,通過計算實(shí)體間關(guān)系與句子間的相似度賦予句子不同的權(quán)重。Liu T等[31]針對之前的模型在訓(xùn)練過程中,關(guān)系實(shí)例標(biāo)簽保持不變的缺點(diǎn),提出在實(shí)體對層面(Entity-pair Level)的標(biāo)注方法,模型訓(xùn)練過程中動態(tài)的修正錯誤標(biāo)簽,在Lin Y[29]模型基礎(chǔ)上,通過聯(lián)合得分函數(shù)(Joint Score Function)計算實(shí)體對表示的合理程度和關(guān)系標(biāo)簽(Hard Label)的置信度,這個得分函數(shù)描述關(guān)系實(shí)例軟標(biāo)簽(Soft-label)的置信度。

      黃兆瑋等[32]提出基于GRU和注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系分類方法,使用GRU神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本特征,在實(shí)體對層面構(gòu)建句子級的注意力機(jī)制,減小噪聲。蔡強(qiáng)等[33]針對大多數(shù)關(guān)系分類模型沒有充分利用局部特征及全局特征的問題,引入多層次注意力(Multi-level Attention)GRU模型。詞語層面的注意力通過在池化層構(gòu)建權(quán)重矩陣衡量實(shí)體詞與關(guān)系詞的語義相關(guān)度,句子層面的注意力比較待預(yù)測關(guān)系與語句的相關(guān)性。

      在中文研究方面,黃蓓靜[34]將中文“互動百科”和新聞“Sogou CS 2008”作為訓(xùn)練語料,利用遠(yuǎn)程監(jiān)督方法,組合CNN和LSTM,提出LSTM_PCNN模型實(shí)現(xiàn)中文人物關(guān)系分類。尚琪[35]使用CNN模型和遠(yuǎn)程監(jiān)督方法,抽取云南旅游領(lǐng)域?qū)嶓w及其屬性之間的關(guān)系。

      遠(yuǎn)程監(jiān)督方法避免了人工預(yù)先定義關(guān)系類別的問題,但該方法依賴知識庫的完備性與準(zhǔn)確性,并且訓(xùn)練語料與知識庫對齊會產(chǎn)生噪聲,目前對于此方法的研究主要從引入注意力機(jī)制,降低訓(xùn)練數(shù)據(jù)噪聲方面展開(見表3),以求提高關(guān)系分類的性能。

      4實(shí)體關(guān)系分類應(yīng)用領(lǐng)域

      生物醫(yī)學(xué)文獻(xiàn)急劇增長,學(xué)者迫切希望從這些海量的科學(xué)前沿信息中抽取出有價值的知識進(jìn)行結(jié)構(gòu)化的組織和管理,推動生物醫(yī)學(xué)更快發(fā)展。所以生物醫(yī)學(xué)實(shí)體語義關(guān)系分類是目前最熱門的研究領(lǐng)域。

      4.1生物學(xué)領(lǐng)域

      生物學(xué)實(shí)體(基因、蛋白質(zhì)、化合物、藥物、疾?。┱Z義關(guān)系分類對于生命科學(xué)研究、生物學(xué)數(shù)據(jù)庫的構(gòu)建、藥物開發(fā)和疾病防治都具有重要意義。生物學(xué)領(lǐng)域國際公開評測會議多次發(fā)布實(shí)體關(guān)系分類任務(wù)(見表4),主要涉及蛋白質(zhì)與蛋白質(zhì)相互作用關(guān)系(Protein Protein Interaction Extraction,PPIE)、藥物與藥物相互作用關(guān)系(Drug Drug Interaction Extraction,DDIE)、化合物(藥物)與疾病關(guān)系(Chemical Disease Relation,CDR、Chemical Induced Diseases,CID)等等。

      4.1.1蛋白質(zhì)與蛋白質(zhì)相互作用關(guān)系分類

      科學(xué)實(shí)驗(yàn)證明,蛋白質(zhì)與蛋白質(zhì)相互作用與許多疾病(例如癌癥)有關(guān)。研究蛋白質(zhì)與蛋白質(zhì)相互作用關(guān)系對于疾病治療、藥物開發(fā)、生命科學(xué)研究等領(lǐng)域都具有極其重要的意義。從生物醫(yī)學(xué)文本中抽取蛋白質(zhì)與蛋白質(zhì)之間的關(guān)系一直是生物醫(yī)學(xué)領(lǐng)域文本挖掘的熱點(diǎn)任務(wù)之一。

      國際著名生物文獻(xiàn)信息挖掘標(biāo)準(zhǔn)評測會議BioCreative在2007年、2009年、2010年分別發(fā)布了蛋白質(zhì)與蛋白質(zhì)相互作用關(guān)系分類任務(wù)。

      Quan C等[36]實(shí)驗(yàn)發(fā)現(xiàn)多通道CNN神經(jīng)網(wǎng)絡(luò)關(guān)系分類性能優(yōu)于單通道CNN。Sung[37]使用DCNN(Deep Convolutional Neural Network)將多種特征(詞匯、句法、語義特征)融入到CNN模型中,探索了詞匯位置特征對蛋白質(zhì)與蛋白質(zhì)關(guān)系分類性能的影響。Hua L等[38]使用sdpCNN模型建模句子蛋白質(zhì)之間的最短依存路徑。Peng Y等[39]提出了基于依存關(guān)系的多通道卷積神經(jīng)網(wǎng)絡(luò)模型McDepCNN(Multichannel Dependency-based Convolutional Neural Network Model)完成關(guān)系分類任務(wù)。一個通道輸入詞向量及詞匯特征(詞性、詞塊、命名實(shí)體、依存關(guān)系、位置向量),另一個通道輸入依存樹句法特征,實(shí)驗(yàn)發(fā)現(xiàn),依存關(guān)系CNN模型較適合抽取長句子的蛋白質(zhì)相互作用關(guān)系。Zhang H等[40]在CNN模型中引入注意力機(jī)制,賦予句子重要詞匯更大的權(quán)重提升關(guān)系分類性能。

      4.1.2藥物與藥物相互作用關(guān)系分類

      研究藥物與藥物相互作用能減少藥物安全事故,降低醫(yī)療成本。2013年,國際語義評測會議SemEval發(fā)布藥物與藥物相互作用關(guān)系分類任務(wù)——DDIExtraction 2013,DDIExtraction任務(wù)將藥物相互作用的關(guān)系定義為機(jī)制(Mechanism)、影響(Effect)、建議(Advice)、相互作用(Int)4大類關(guān)系和無任何關(guān)系。

      Quan C等[41]實(shí)驗(yàn)發(fā)現(xiàn)多通道CNN優(yōu)于單通道CNN模型和基線標(biāo)準(zhǔn)模型。Zhao Z等[42]提出1個新穎的句法詞向量(Syntax Word Embedding),將詞法特征融入到SCNN(Syntax Convolutional Neural Network)模型中。劉勝宇[43]對比序列CNN與依存(樹)結(jié)構(gòu)CNN關(guān)系分類性能。實(shí)驗(yàn)表明:序列CNN模型參數(shù)較少,訓(xùn)練相對簡單,時間較短,適用于長句子關(guān)系分類,依存CNN模型由于將句法依存信息建模到模型中,參數(shù)較多,訓(xùn)練相對復(fù)雜,時間較長,適用于短句子關(guān)系分類。Suárez-Paniagua V等[44]從3個方面比較CNN模型藥物相互作用關(guān)系分類性能:1)同一模型在2個不同的藥物數(shù)據(jù)庫DDI-DrugBank和DDI-MedLine上的分類性能;2)9種不同大小的卷積核關(guān)系分類性能;3)6種不同的詞向量關(guān)系分類性能,深入分析了語料、卷積核尺寸、詞向量對關(guān)系分類性能的影響。

      4.1.3化合物與疾病的關(guān)系分類

      研究化合物(藥物)與疾病的關(guān)系在疾病治療、藥物開發(fā)方面具有極其重要的作用,識別化合物和疾病之間的不良反應(yīng)ADRs(Adverse Drug Reactions)、依從關(guān)系(治療關(guān)系),對于病人用藥安全、藥物毒性研究、藥物生存篩選等方面都具有非常重要的作用,藥物上市之后,ADRs也是藥物監(jiān)測重要內(nèi)容之一。

      Le H Q等[45]對比3種不同的CNN模型:1)無依存關(guān)系的化合物——疾病關(guān)系分類模型;2)有依存關(guān)系、無方向的化合物—疾病關(guān)系分類模型;3)有依存關(guān)系、有方向的化合物——疾病關(guān)系分類模型,探索最短依存路徑對關(guān)系分類性能的影響,實(shí)驗(yàn)在標(biāo)準(zhǔn)評測語料BioCreative Ⅴ數(shù)據(jù)集上取得了不錯的結(jié)果。Gu J等[46]使用卷積神經(jīng)網(wǎng)絡(luò)抽取句子內(nèi)的化合物疾病實(shí)體關(guān)系。馮欽林[47]利用CNN模型建模藥物與疾病的最短依存路徑,考慮不同語義特征的差異,對句子特征和單詞特征賦予不同的權(quán)重,突出重要特征。Huynh T等[48]使用4種不同的CNN模型:1)普通CNN;2)Convolutional Recurrent Neural Network;3)Recurrent Convolutional Neural Network;4)Convolutional Neural Network with Attention在社交媒體Twitter語料和MEDLINE數(shù)據(jù)集上實(shí)現(xiàn)藥物與不良反應(yīng)的關(guān)系分類,實(shí)驗(yàn)發(fā)現(xiàn),普通卷積神經(jīng)網(wǎng)絡(luò)模型優(yōu)于其他改進(jìn)CNN模型。

      Lee K等[49]設(shè)計了多個弱監(jiān)督的CNN模型(Semi-supervised Convolutional Neural Network),在社交媒體Twitter語料上抽取藥物與不良反應(yīng)的關(guān)系,實(shí)驗(yàn)表明,弱監(jiān)督機(jī)器學(xué)習(xí)性能要優(yōu)于有監(jiān)督的分類方法。

      4.2醫(yī)學(xué)領(lǐng)域

      4.2.1臨床電子病歷的實(shí)體關(guān)系分類

      在臨床醫(yī)學(xué)領(lǐng)域,學(xué)者大多使用I2B2-2010(Integrating Biology and the Bedside-2010)人工標(biāo)注的英文語料庫完成關(guān)系分類任務(wù),訓(xùn)練語料將臨床醫(yī)療電子病歷的實(shí)體劃分為3大類:1)醫(yī)療問題(Medical? Problem)(Uzuner O[50]把醫(yī)療問題又劃分為疾病和癥狀兩種實(shí)體);2)檢查(Test);3)治療(Treatment),16種具體的實(shí)體關(guān)系,研究實(shí)體識別和關(guān)系分類方法。

      Sahu S K等[51]提出了一個從英文出院小結(jié)中抽取Medical Problem,Treatment 和Test 3類實(shí)體關(guān)系的CNN模型,實(shí)驗(yàn)從3個方面展開:1)不同尺寸的卷積核;2)模型加入不同的外部語言特征(例如詞性、詞塊、詞位置);3)CNN模型與傳統(tǒng)支持向量機(jī)機(jī)器學(xué)習(xí)方法對比。實(shí)驗(yàn)發(fā)現(xiàn):(4,6)大小的卷積核分類效果最好、加入外部語言特征能改善關(guān)系分類的效果,CNN模型的抽取效果優(yōu)于支持向量機(jī)。劉凱等[52]提出基于卷積神經(jīng)網(wǎng)絡(luò)的弱監(jiān)督關(guān)系分類方法。利用人工定義的規(guī)則標(biāo)注訓(xùn)練語料實(shí)體關(guān)系,再轉(zhuǎn)換為向量矩陣輸入到CNN模型中。文章定義了5類具有方向性的臨床醫(yī)療實(shí)體關(guān)系,實(shí)體分別是癥狀、疾病、檢查、并發(fā)癥和治療。

      5總結(jié)與展望

      本文闡述了實(shí)體語義關(guān)系分類研究的發(fā)展歷程,從技術(shù)方法、應(yīng)用領(lǐng)域兩方面回顧和總結(jié)了近5年國內(nèi)外的最新研究成果。限定域的關(guān)系分類通過在神經(jīng)網(wǎng)絡(luò)模型中融入詞法、句法特征(見表5)、添加注意力機(jī)制提升性能,開放域的關(guān)系分類利用外部已有知識庫(三元組)使用遠(yuǎn)程監(jiān)督方法提升性能。

      雖然神經(jīng)網(wǎng)絡(luò)作為熱門研究方法提升了實(shí)體語義關(guān)系分類的性能,但目前的研究還存在幾方面的不足:

      5.1研究主題方面

      目前關(guān)系分類的研究對象大多針對二元實(shí)體,多元、跨句子的實(shí)體語義關(guān)系分類研究相對較少。近幾年特定領(lǐng)域的關(guān)系分類主要集中在生物醫(yī)學(xué)領(lǐng)域、人物關(guān)系[53-56],原因在于這兩個領(lǐng)域?qū)嶓w關(guān)系相對固定,變化較少,易于開展。實(shí)際上,關(guān)系分類在金融領(lǐng)域、公共安全、食品安全、農(nóng)業(yè)領(lǐng)域都有廣泛的應(yīng)用,學(xué)者下一步可從這幾個領(lǐng)域展開研究。

      從目前已有的研究成果來看,開放域關(guān)系分類除了采用前文提到的遠(yuǎn)程監(jiān)督方法還可以采用基于模板的方法,在國際上取得領(lǐng)先地位的谷歌、微軟公司,其知識圖譜、信息搜索產(chǎn)品都是建立在實(shí)體語義關(guān)系分類基礎(chǔ)上的,工業(yè)界的優(yōu)勢在于擁有海量的用戶日志和搜索數(shù)據(jù);學(xué)術(shù)界華盛頓大學(xué)圖靈研究中心開發(fā)了5代開放域關(guān)系分類原型系統(tǒng)(TextRunner、ReVerb、R2A2、WOE、OLLIE)、美國斯坦福大學(xué)DeepDive系統(tǒng),卡內(nèi)基梅隆大學(xué)開發(fā)的NELL(Never-Ending Language Learning)系統(tǒng),也都在開放域關(guān)系分類任務(wù)上做了大量有益的探索。

      5.2語料方面

      訓(xùn)練語料的數(shù)量和質(zhì)量是決定性能的首要前提。目前大部分實(shí)體語義關(guān)系分類的研究主要集中在英文數(shù)據(jù)集——SemEval 2010-Task 8、NYT10、ACE2005、ACE2008、TAC-KAP上,這幾個語料的缺點(diǎn)是數(shù)據(jù)量偏小,關(guān)系類別不夠豐富,難以達(dá)到神經(jīng)網(wǎng)絡(luò)模型海量訓(xùn)練數(shù)據(jù)的要求,模型容易出現(xiàn)過擬合。若要增強(qiáng)深度學(xué)習(xí)方法的泛化能力,需要領(lǐng)域?qū)<医ㄔO(shè)高質(zhì)量的海量語料。

      5.3模型方面

      深度學(xué)習(xí)方法處理自然語言問題的研究處于初級階段,對于模型本身仍有許多問題值得深度思考。

      神經(jīng)網(wǎng)絡(luò)處理文本缺乏理論依據(jù)和完備的數(shù)學(xué)解釋,模型類似一個黑盒(Black Box),可解釋性差。目前基于神經(jīng)網(wǎng)絡(luò)的實(shí)體語義關(guān)系分類主要集中在模型結(jié)構(gòu)的設(shè)計和參數(shù)的調(diào)整上,深度學(xué)習(xí)方法雖然避免了傳統(tǒng)機(jī)器學(xué)習(xí)方法繁瑣的特征工程,但增加了調(diào)整參數(shù)、網(wǎng)絡(luò)層數(shù)及激活函數(shù)等大量工作,需要在實(shí)驗(yàn)中不斷累積經(jīng)驗(yàn)優(yōu)化模型。

      目前完成關(guān)系分類任務(wù)在模型中融入的特征主要還是句法特征,對語言先驗(yàn)知識(如語義詞典WordNet,HowNet、網(wǎng)絡(luò)眾包百科Wikipedia)的運(yùn)用相對較少。如何將更多的先驗(yàn)知識融入到神經(jīng)網(wǎng)絡(luò)模型中,強(qiáng)化特征表示能力,實(shí)現(xiàn)數(shù)據(jù)與知識的雙重驅(qū)動,是一個值得深入研究的方向。

      本文回顧總結(jié)了近5年實(shí)體語義關(guān)系分類研究方法、應(yīng)用領(lǐng)域,并指出了未來的研究方向,希望能對研究者提供有益的參考和幫助,相信在學(xué)者的不斷努力下,還會有更多、更有效的方法被提出。

      參考文獻(xiàn)

      [1]Culotta A,Mccallum A,Betz J.Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text[C]//Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics.Association for Computational Linguistics,2006:296-303.

      [2]Hinton G E,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.

      [3]Goller C,Kuchler A.Learning Task-dependent Distributed Representations By Backpropagation Through Structure[J].Neural Networks,1996,(1):347-352.

      [4]LeCun Y,Boser B,Denker J S,et al.Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Computation,1989,1(4):541-551.

      [5]Elman J L.Distributed Representations,Simple Recurrent Networks,and Grammatical Structure[J].Machine Learning,1991,7(2-3):195-225.

      [6]Hochreiter S,Schmidhuber J.Long Short-term Memory[J].Neural Computation,1997,9(8):1735-1780.

      [7]Chung J,Gulcehre C,Cho K H,et al.Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[EB/OL].https://arxiv.org/pdf/1412.3555.pdf,2014-12-11.

      [8]Liu C Y,Sun W B,Chao W H,et al.Convolution Neural Network for Relation Extraction[C]//International Conference on Advanced Data Mining and Applications.Springer,Berlin,Heidelberg,2013:231-242.

      [9]Zeng D,Liu K,Lai S,et al.Relation Classification Via Convolutional Deep Neural Network[C]//Proceedings of COLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:2335-2344.

      [10]Zhang D,Wang D.Relation Classification via Recurrent Neural Network[EB/OL].https://arxiv.org/pdf/1508.01006.pdf,2015-04-05.

      [11]Zhang S,Zheng D,Hu X,et al.Bidirectional Long Short-term Memory Networks for Relation Classification[C]//Proceedings of the 29th Pacific Asia Conference on Language,Information and Computation,2015:73-78.

      [12]Socher R,Huval B,Manning C D,et al.Semantic Compositionality Through Recursive Matrix-vector Spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Association for Computational Linguistics,2012:1201-1211.

      [13]Hashimoto K,Miwa M,Tsuruoka Y,et al.Simple Customization of Recursive Neural Networks for Semantic Relation Classification[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.2013:1372-1376

      [14]Xu Y,Jia R,Mou L,et al.Improved Relation Classification By Deep Recurrent Neural Networks with Data Augmentation[EB/OL].https://arxiv.org/pdf/1601.03651.pdf,2016-10-13.

      [15]Li J,Luong T,Jurafsky D,et al.When Are Tree Structures Necessary for Deep Learning of Representations[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:2304-2314.

      [16]Xu K,F(xiàn)eng Y,Huang S,et al.Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:536-540

      [17]Xu Y,Mou L,Li G,et al.Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1785-1794.

      [18]Liu Y,Wei F,Li S,et al.A Dependency-Based Neural Network for Relation Classification[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015:285-290.

      [19]Cai R,Zhang X,Wang H.Bidirectional Recurrent Convolutional Neural Network for Relation Classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016,(1):756-765.

      [20]劉燊.面向《大詞林》的中文實(shí)體關(guān)系挖掘[D].哈爾濱:哈爾濱工業(yè)大學(xué),2016.

      [21]孫紫陽,顧君忠,楊靜.基于深度學(xué)習(xí)的中文實(shí)體語義關(guān)系抽取方法.計算機(jī)工程[J/OL].http://www.ecice06.com/CN/abstract/abstract28113.shtml,2017-10-17.

      [22]Treisman A,Sykes M,Gelade G.Selective Attention and Stimulus Integration[J].Attention and Performance Ⅵ,1977,333.

      [23]李博,趙翔,王帥,等.改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)關(guān)系分類方法研究[J].計算機(jī)科學(xué)與探索,2018,(5).

      [24]Xiao M,Liu C.Semantic Relation Classification Via Hierarchical Recurrent Neural Network with Attention[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:Technical Papers,2016:1254-1263.

      [25]Zhou P,Shi W,Tian J,et al.Attention-based Bidirectional Long Short-term Memory Networks for Relation Classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers),2016,(2):207-212.

      [26]王紅,史金釧,張志偉.基于注意力機(jī)制的LSTM的語義關(guān)系抽取[J].計算機(jī)應(yīng)用研究,2018,(5).

      [27]Mintz M,Bills S,Snow R,et al.Distant Supervision for Relation Extraction Without Labeled Data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.Association for Computational Linguistics,2009:1003-1011.

      [28]Zeng D,Liu K,Chen Y,et al.Distant Supervision for Relation Extraction Via Piecewise Convolutional Neural Networks[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1753-1762.

      [29]Lin Y,Shen S,Liu Z,et al.Neural Relation Extraction with Selective Attention Over Instances[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016,(1):2124-2133.

      [30]Ji G,Liu K,He S,et al.Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence,2017:3060-3066.

      [31]Liu T,Wang K,Chang B,et al.A Soft-label Method for Noise-tolerant Distantly Supervised Relation Extraction[C]//Conference on Empirical Methods in Natural Language Processing,2017:1790-1795.

      [32]黃兆瑋,常亮,賓辰忠,等.基于GRU和注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取[J].計算機(jī)應(yīng)用研究,2019,(10).

      [33]蔡強(qiáng),郝佳云,曹健,等.采用多尺度注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取[J].中文信息學(xué)報,2018,32(1).

      [34]黃蓓靜.深度學(xué)習(xí)技術(shù)在中文人物關(guān)系抽取中的應(yīng)用研究[D].上海:華東師范大學(xué),2017.

      [35]尚琪.特定領(lǐng)域?qū)嶓w屬性關(guān)系抽取方法研究[D].昆明:昆明理工大學(xué),2017.

      [36]Quan C,Hua L,Sun X,et al.Multichannel Convolutional Neural Network for Biological Relation Extraction[J].BioMed Research International,2016.

      [37]Choi S P.Extraction of Protein-protein Interactions(PPIs)from the Literature By Deep Convolutional Neural Networks with Various Feature Embeddings[J].Journal of Information Science,2016:0165551516673485.

      [38]Hua L,Quan C.A Shortest Dependency Path Based Convolutional Neural Network for Protein-Protein Relation Extraction.[J].BioMed Research International,2016.

      [39]Peng Y,Lu Z.Deep Learning for Extracting Protein-protein Interactions from Biomedical Literature[EB/OL].https://arxiv.org/pdf/1706.01556.pdf,2017-06-07.

      [40]Zhang H,Yang M Q,F(xiàn)eng X,et al.Protein-Protein Interaction Extraction Using Attention-Based Convolution Neural Networks[C]//ACM International Conference on Bioinformatics,Computational Biology,and Health Informatics.ACM,2017:770-771.

      [41]Quan C,Hua L,Sun X,et al.Multichannel Convolutional Neural Network for Biological Relation Extraction[J].BioMed Research International,2016.

      [42]Zhao Z,Yang Z,Luo L,et al.Drug Drug Interaction Extraction from Biomedical Literature Using Syntax Convolutional Neural Network[J].Bioinformatics,2016,32(22):3444-3453.

      [43]劉勝宇.生物醫(yī)學(xué)文本中藥物信息抽取方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2016.

      [44]Suárez-Paniagua V,Segura-Bedmar I,Martínez P.Exploring Convolutional Neural Networks for Drug-drug Interaction Extraction[J].Database,2017,(1).

      [45]Le H Q,Can D C,Dang T H,et al.Improving Chemical-induced Disease Relation Extraction with Learned Features Based on Convolutional Neural Network[C]//International Conference on Knowledge and Systems Engineering,2017:292-297.

      [46]Gu J,Sun F,Qian L,et al.Chemical-induced Disease Relation Extraction Via Convolutional Neural Network[J].Database the Journal of Biological Databases & Curation,2017,(1).

      [47]馮欽林.基于半監(jiān)督和深度學(xué)習(xí)的生物實(shí)體關(guān)系抽取[D].大連:大連理工大學(xué),2016.

      [48]Huynh T,He Y,Willis A,et al.Adverse Drug Reaction Classification with Deep Neural Networks[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:Technical Papers,2016:877-887.

      [49]Lee K,Qadir A,Hasan S A,et al.Adverse Drug Event Detection in Tweets with Semi-Supervised Convolutional Neural Networks[C]//Proceedings of the 26th International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,2017:705-714.

      [50]Uzuner O,Mailoa J,Ryan R,et al.Semantic Relations for Problem-oriented Medical Records[J].Artificial Intelligence in Medicine,2010,50(2):63-73.

      [51]Sahu S K,Anand A,Oruganty K,et al.Relation Extraction from Clinical Texts Using Domain Invariant Convolutional Neural Network[EB/OL].https://arxiv.org/pdf/1606.09370.pdf,2016-06-30.

      [52]劉凱,符海東,鄒玉薇,等.基于卷積神經(jīng)網(wǎng)絡(luò)的中文醫(yī)療弱監(jiān)督關(guān)系抽取[J].計算機(jī)科學(xué),2017,44(10):249-253.

      [53]珠杰,洪軍建.基于SDAs的人物關(guān)系抽取方法研究[J].計算機(jī)科學(xué),2017,44(s1):141-145.

      [54]黃衛(wèi)春,徐力,熊李艷,等.基于信息增益的Web人物關(guān)系抽取[J].計算機(jī)應(yīng)用研究,2016,33(8):2286-2289.

      [55]劉錦文.基于新聞數(shù)據(jù)的中文人物社會關(guān)系抽取研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2016.

      [56]潘云.基于中文在線資源的人物關(guān)系抽取研究[D].上海:華東師范大學(xué),2015.

      (責(zé)任編輯:郭沫含)

      猜你喜歡
      深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      静安区| 神农架林区| 徐州市| 瑞安市| 康保县| 温泉县| 南京市| 武清区| 平山县| 遂宁市| 瑞安市| 读书| 色达县| 平遥县| 巴林右旗| 蕉岭县| 米林县| 平利县| 江口县| 巴彦淖尔市| 永嘉县| 开远市| 荔波县| 哈密市| 阳江市| 松阳县| 曲靖市| 平谷区| 醴陵市| 南木林县| 河池市| 云南省| 庐江县| 康平县| 中卫市| 获嘉县| 和田市| 邛崃市| 冷水江市| 诸城市| 盐亭县|